OdporúčameZaložiť web alebo e-shop
Digitalizácia textu

 

 
 
   
 
 
 
Čo je to vlastne digitalizácia?
 
 
Digitalizácia je proces prevodu ľubovoľnej informácie (text, obrázok, video, zvuk) do binárnej (dvojkovej) sústavy. Definícia digitalizácie textu znie takto:
 

"Digitalizácia dokumentov je technológia reformátovania spočívajúca v prevedení dokumentov do elektronickej (digitálnej) podoby. Súčasťou digitalizácie je aj tvorba metadát, ktoré sú uložené spoločne s dátami. Výsledkom digitalizácie textu je dokument v obrazovej alebo textovej podobe."

Počítačový program pomocou určitých algoritmov prevádza analógové informácie do preňho čitateľných digitálnych informácií, ktoré pomocu iného programu dokáže dekódovať do pre človeka prijateľnej a čitateľnej formy.
 
 
 
Prečo digitalizovať?
 
Dôvodov na digitalizáciu je hneď niekoľko:

1.) Šetrenie miesta - text v digitálnej podobe zaberá neporovnateľne menej fyzického priestoru ako text klasicky písaný. Napríklad na klasický     CD nosič sa zmestí text, ktorý by stačil na zapísanie 1600 300-stranových kníh.

2.) Ochrana údajov - údaje v digitálnej podobe, uložené napríklad na pevných diskoch, CD či DVD nosičoch, USB kľúčoch alebo iným spôsobom nepodliehajú starnutiu vplyvom prírodných úkazov, tak ako to je u kníh a papiera.
 
3.) Úprava a vyhľadávanie - v zdigitalizovanom texte je vďaka moderným informačným technológiám jednoduché vyhľadávať potrebné informácie alebo upravovať text do požadovanej podoby.

4.) Zdieľanie - Vďaka úspornosti digitalizovaného textu, teda nízkemu objemu dát je jednoduché zdieľať text z celým svetom vysokou rýchlosťou.
 
 
 
Ako sa digitalizuje?
 
 
Poznáme hneď dva spôsoby spracovania papierových dokumentácií:
 
1.) manuálne prepisovanie dát
2.) použitie systému automatického spracovania –OCR/ICR systémy (spracovanie počíťačom)
 
 
 
1.) Manuálne prepisovanie dát - pomocou klávesnice :)
 
 
 

Princíp klávesnice je jednoduchý. Pod samotnými tlačidlami sa nachádza obvodová doska s riadiacim čipom s mikroprocesorom a množstvom obvodov. Každá klávesa má svoj vlastný obvod, ktorým po stlačení klávesy začne prechádzať elektrický prúd, mikroprocesor lokalizuje túto zmenu a vyšle informáciu do operačného systému. Toto je len jeden typ fungovania klávesnice, existuje množstvo iných typov klávesníc, ako aj prepojení klávesníc s počítačom (napr. bezdrôtové klávesnice).
 

Kódovanie textu:

Kódovanie je vlastne záznam informácie pomocou známeho, pokiaľ možno všeobecne rozšíreného kódu (kódy sú zvyčajne štandardizované, teda zverejnené a používané všade rovnako) za účelom ich praktického a jednoduchého uchovávania a prenosu.


Princíp kódovania: Ako naznačújú obrázky v úvode tejto sekcie našej stránky, všetok znakový text sa musí nejakou formou prepísať na 0 a 1, teda do digitálnej podoby. Každému znaku teda musí byť pridelený určitý binárny kód. Napríklad slovenská abeceda vrátane diakritických znamienok (dĺžne, mäkčene...) obsahuje dokopy 46 znakov, keby sme do tejto tabuľky chceli zahrnúť aj číslice (+ ďalších 9 znakov) a 4 matematické znamienka, skončili by sme na čísle 59. Každému z týchto 59-tich znakov musíme prideliť rozdielny binárny kód, takže pre každý znak v našej tabuľke by sme museli vyhradiť 6 bitov (64 možných binárnych kombinácií), pričom by nám ešte ostalo miesto na ďalších 5 znakov. Teraz popísaná tabuĺka bola len vymyslená a mala slúžiť na lepšie pochopenie princípu kódovania textu.:)

Úplne prvá kódovacia sada znakov, ktorá vznikla a používala sa, je ASCII tabuľka (American Standard Code for Information Interchange, teda americký štandardný kód pre výmenu informácií.). Ide o najúspešnejšiu znakovú sadu, z ktorej vychádza aj väčšina súčasných kódovacích tabuliek, prinajmenšom v euro-americkej zóne.

Kódovacia tabuľka ASCII obsahuje okrem malých a veľkých písmen anglickej abecedy aj číslice, matematické znamienka (zátvorky, +, -, %,...), interpunkčné znamienka, špeciálne znaky a taktiež aj kódy pre riadiace znaky a ich kombinácie (napr. Ctrl + Alt + Delete). Pôvodná ASCII tabuľka bola 7-bitová, obsahovala teda 128 znakov. Neskôr bol ku štandardu ASCII pridaný aj 8-smy bit, tabuľka sa teda zväčšila o ďalších 128 bitov, ktoré boli využité pri kódovaní znakov rôznych krajín. Na obrázku pod textom prikladáme aj pôvodnú 7-bitovú ASCII znakovú sadu.

 

 

 EBCDIC kódová tabuľka: Táto kódovacia tabuľka bola vyvynutá spoločnosťou IBM na základe kódu používaného pre derné štítky. Mimo systémy IBM sa táto kódovacia tabuľka nevyužila, pretože sa používala už štandardizovaná ASCII tabuľka. Táto tabuľka vyuzíva pre jeden znak, podobne ako ASCII tabuľka, 8 bitov (= 1 byte), rozdiel spočíva v tom, že EBCDIC tabuľka prvé 4 bity používa ako zónu pre daný znak a vyjadruje jeho kategóriu a dalšie štyri znaky sa vyjadrujú číslicou a určujú konkrétny znak. Rozšírená EBCDIC tabuľka sa využíva v niektorých Ázijských krajinách (konkrétne rozšírený 2-bytový EBCDIC kód).
 

Latin 2: Táto znaková sada (nesie aj označenie CP852) je znaková sada používaná operačným systmémom MS-DOS pre krajiny strednej Európy využívajúcej latinku (napr. slovenčina, čeština, poľština a iné...). Na obrázku dole je zobrazená vrchná časť Latin 2 tabuľky, spodných 128 znakov je totožných z ASCII znakovou sadou. Okrem tejto kódovacej tabuľky sa v bývalom Československu používala aj kódovacia tabuľka "Kód kamenických", ktorá sa však so zavedením Windowsu 95 a kancelárského balíku Windows Office prestala používať.
 
 
 
Unicode: Tabuľka všetkých existujúcich znakov a abecied. Jej vývoj sa začal v roku 1987. Posledná verzia Unicode 5.1 vyšla v roku 2008 a obsahuje 100 713 znakov a symbolov z viac ako 75 rôznych abecied. Všetky nové verzie Unicode sú spätne kompatibilné z predchádzajúcimi verziami tohto kódu, teda sa pridávajú len nové znaky a už existujúce znaky sa nemenia. Štandard Unicode obsahuje aj algoritmy pre písanie textu zprava doľava (Arabské krajiny) a má aj mnohé iné funkcie. Znaková sada UTF-16 vyhradzuje pre znak 16 bitov, teda podporuje 65536 znakov, samotná tabuľka Unicode má miesto pre neuveriteľných 1,114,112 znakov s kódmi 0hex až 10FFFFhex . Túto znakovú sadu využíva väčšina súčasných operačných systémov, vrátane Windowsu a väčšiny distribúcií Linuxu, taktiež je podporovaná programovacími jazykmi Java aj c++.
 
Okrem týchto špecifických existuje množstvo ďalších znakových tabuliek.
 
 Formáty textu:
 
Okrem textu samotného sa musia nejakým spôsobom zakódovať aj informácie hovoriace napr. o farbe textu, o odstavcoch, o tom, kedy text prechádza do ďalšieho riadku a iné podobné informácie. Spôsoby, akými sa tieto informácie ukladajú a následne sa vďaka ním zobrazuje text, nazývame textové formáty a podobne ako pri kódovacích tabuľkách, existuje množstvo rôznych formátov s rôznymi funkciami, výhodami a nevýhodami.
 
Formát .txt - Jednoduchý text, okrem samotného textu sa kódojú len základné informácie napr. o riadkovaní či odstavcoch. Tento formát je veľmi využívaný a je úplne kompatibilný, objem na dáta je taktiež minimálny. Sú tu minimálne možnosti formátovania, takže sa s textom nedajú vykonávať zložité úpravy.
 
HTML - tento formát je rozšírený hlavne pri písaní web-stránok a taktiež je podporovaný Microsoftom, čo z neho robí preferovaný formát. Tento formát je veľmi univerzálny, ponúka bohaté možnosti formátovania textu vrátane tvorby jednoduchých ale aj komplexných tabuliek.
 
Formátov textu je množstvo a množstvo nových pribúda každým rokom. Medzi ďalšie populárne formáty môžme zaradiť formát .pdf od firmy Adobe, ponúka nespočetné možnosti práce s textom. Množstvo formátov vytvára priamo Microsoft pre svoj kancelársky balík Microsoft Office, napr. formáty .xls, .xlms pre Microsoft excel, alebo všetkým známy doc. Microsoft Wordu.


 
2.) Digitalizácia použitím systému automatického spracovania
 
 
 
 
 
Pre digitalizáciu tlačeného textu sa používajú ručné, alebo stolné skenery, ktoré nepotrebujú snímať s veľkým rozlíšením a postačuje im čiernobiele snímanie obrazu. Prípadne sa na digitalizáciu dajú používať aj digitálne fotoaparáty.
 
Po zosnímaní obrazu sa obraz použije ako vstup pre OCR softvér (optical character recognition), ktorý pomocou rôznych algoritmov rozpozná znaky a prevedie ich do textovej podoby. 
 
 
 
OCR program

Softvér na rozpoznávanie textu (tiež nazývaný OCR) je program, ktorý z naskenovaného obrázka knihy vytvorí plný text. Robí to tak, že jednotlivé písmenka knihy porovnáva s písmenami vo svojej databáze a následne generuje čistý text, ktorý potom možno uložiť ako *.txt.

Najlepším programom v tejto triede je komerčný program ABBYY FineReader.


-okrem programu OCR, ktorý rozoznáva optické znaky existujú aj ďalšie ako ICR (rozpoznáva aj rukou písané znaky), OMR (prevádza značky - napríklad zaškrtávacie políčka formulárov, dotazníkov, ankiet) či OBR (rozoznáva čiarové kódy).
 

 
Vytvorené službou WebLahko.sk  |  Nahlásiť protiprávny obsah!  |   Mapa stránok