2. Zpracování dat na PC

OSNOVA

  • Kódové tabulky
    • České znakové sady
    • Univerzální znakové sady
  • Číselné soustavy
    • Desítková
    • Dvojková
    • Šestnáctková
  • Datové soubory

PRŮBĚH ZPRACOVÁNÍ INFORMACE

transformace informace

Kódování informace

  • změna popisu informace podle zadaných pravidel
  • nejčastěji převod informace na číselný kód
  • využití dvojkové číselné soustavy
    • Příklad
      znaku A je přiřazen číselný kód 65
      desítkový zápis čísla 65 se dá vyjádřit dvojkovým (binárním) zápisem 0100 0001
      binární kód se dá převést na skupinu elektrických impulzů

Znakové sady pro kódování znaků

  • dohodnutá pravidla pro kódování a dekódování dat do/z binárního kódu
  • znaková sada – množina znaků v kódovací tabulce
  • postupně vznikaly širší sady pro národní a speciální znaky

Základní znaková sada

ASCII

Standard ASCII (American Standard Code for Information Interchange) předepisuje kódovací tabulku, která vznikala v letech 1960 až 1967 a definuje číselnou reprezentaci nejčastěji používaných symbolů. Tabulka obsahuje 128 znaků: písmena, číslice, závorky, znaky matematických operací, interpunkční znaménka, speciální znaky a řídící znaky. Z této množiny je 33 znaků „neviditelných“ (non-printable či whitespace) a 95 znaků „viditelných“ (printable). Na této tabulce je založena většina moderních znakových sad.

Tabulka ASCII

Index +0 +1 +2 +3 +4 +5 +6 +7
0 0 (hex = 0)
NUL
1 (hex = 1)
SOH
2 (hex = 2)
STX
3 (hex = 3)
ETX
4 (hex = 4)
EOT
5 (hex = 5)
ENQ
6 (hex = 6)
ACK
7 (hex = 7)
BEL
8 8 (hex = 8)
BS
9 (hex = 9)
TAB
10 (hex = A)
LF
11 (hex = B)
VT
12 (hex = C)
FF
13 (hex = D)
CR
14 (hex = E)
SO
15 (hex = F)
SI
16 16 (hex = 10)
DLE
17 (hex = 11)
DC1
18 (hex = 12)
DC2
19 (hex = 13)
DC3
20 (hex = 14)
DC4
21 (hex = 15)
NAK
22 (hex = 16)
SYN
23 (hex = 17)
ETB
24 24 (hex = 18)
CAN
25 (hex = 19)
EM
26 (hex = 1A)
SUB
27 (hex = 1B)
ESC
28 (hex = 1C)
FS
29 (hex = 1D)
GS
30 (hex = 1E)
RS
31 (hex = 1F)
US
32 32 (hex = 20)
(mezera)
33 (hex = 21)
!
34 (hex = 22)
35 (hex = 23)
#
36 (hex = 24)
$
37 (hex = 25)
%
38 (hex = 26)
&
39 (hex = 27)
40 40 (hex = 28)
(
41 (hex = 29)
)
42 (hex = 2A)
*
43 (hex = 2B)
+
44 (hex = 2C)
,
45 (hex = 2D)
46 (hex = 2E)
.
47 (hex = 2F)
/
48 48 (hex = 30)
0
49 (hex = 31)
1
50 (hex = 32)
2
51 (hex = 33)
3
52 (hex = 34)
4
53 (hex = 35)
5
54 (hex = 36)
6
55 (hex = 37)
7
56 56 (hex = 38)
8
57 (hex = 39)
9
58 (hex = 3A)
:
59 (hex = 3B)
;
60 (hex = 3C)
<
61 (hex = 3D)
=
62 (hex = 3E)
>
63 (hex = 3F)
?
64 64 (hex = 40)
@
65 (hex = 41)
A
66 (hex = 42)
B
67 (hex = 43)
C
68 (hex = 44)
D
69 (hex = 45)
E
70 (hex = 46)
F
71 (hex = 47)
G
72 72 (hex = 48)
H
73 (hex = 49)
I
74 (hex = 4A)
J
75 (hex = 4B)
K
76 (hex = 4C)
L
77 (hex = 4D)
M
78 (hex = 4E)
N
79 (hex = 4F)
O
80 80 (hex = 50)
P
81 (hex = 51)
Q
82 (hex = 52)
R
83 (hex = 53)
S
84 (hex = 54)
T
85 (hex = 55)
U
86 (hex = 56)
V
87 (hex = 57)
W
88 88 (hex = 58)
X
89 (hex = 59)
Y
90 (hex = 5A)
Z
91 (hex = 5B)
[
92 (hex = 5C)
\
93 (hex = 5D)
]
94 (hex = 5E)
^
95 (hex = 5F)
_
96 96 (hex = 60)
`
97 (hex = 61)
a
98 (hex = 62)
b
99 (hex = 63)
c
100 (hex = 64)
d
101 (hex = 65)
e
102 (hex = 66)
f
103 (hex = 67)
g
104 104 (hex = 68)
h
105 (hex = 69)
i
106 (hex = 6A)
j
107 (hex = 6B)
k
108 (hex = 6C)
l
109 (hex = 6D)
m
110 (hex = 6E)
n
111 (hex = 6F)
o
112 112 (hex = 70)
p
113 (hex = 71)
q
114 (hex = 72)
r
115 (hex = 73)
s
116 (hex = 74)
t
117 (hex = 75)
u
118 (hex = 76)
v
119 (hex = 77)
w
120 120 (hex = 78)
x
121 (hex = 79)
y
122 (hex = 7A)
z
123 (hex = 7B)
{
124 (hex = 7C)
|
125 (hex = 7D)
}
126 (hex = 7E)
~
127 (hex = 7F)
DEL

ASCII – American Standard Code for Information Interchange

  • základní standard pro PC
  • délka kódu 7 bitů
  • kódování znaků anglické abecedy
  • počet míst 27=128 – 95 znaků, 33 řídících kódů

ASCII – rozšířená

Kód ASCII je podle původní definice sedmibitový, obsahuje tedy 128 platných znaků. Pro potřeby dalších jazyků a pro rozšíření znakové sady se používají osmibitová rozšíření ASCII kódu, která obsahují dalších 128 kódů. Takto rozšířený kód je přesto příliš malý na to, aby pojmul třeba jen evropské národní abecedy. Pro potřeby jednotlivých jazyků byly vytvořeny různé kódové tabulky, význam kódů nad 127 není tedy jednoznačný. Systém kódových tabulek pro národní abecedy vytvořila například organizace ISO.

České znakové sady

IBM CP852 – PC Latin2

  • standard firmy IBM pro systém MS DOS

Kamenických – KEYBCS

  • český standard pro systém MS DOS

ISO 8859-2 – ISO Latin2

  • mezinárodní norma z roku 1987
  • využití pro systémy UNIX a Linux

Windows-1250 – CP1250

  • standard firmy Microsoft pro systém Windows
  • pravděpodobně záměrná odlišnost od standardu ISO
  • omezení kompatibility se konkurenčním systémem UNIX

Univerzální znaková sada

  • postupný vývoj dvou standardů
    • UNICODE
    • ISO UCS – Universal Charakter Set
  • využití 1 – 6 Bytů pro kódování znaků
  • možnost využití znaků několika národních prostředí současně

UTF-8 – Universal Transformation Format

  • nejpoužívanější univerzální znaková sada

KÓDOVÉ TABULKY – ZNAKOVÉ SADY

  • základní tabulka pro zakódování a dekódování znaků z binárního kódu
  • s rozvojem počítačů vznikaly další kódové tabulky doplněné o znaky národních abeced
  • ASCII(American Standard Code for Information Interchange)
  • ASCII – 7bit – původní základní tabulka, znaky bez diakritiky, 128 znaků
  • ASCII – 8bit – rozšířený kód, 256 znaků (128 normovaných + 128 podle národní znakové sady) – všeobecně rozšířená

České znakové sady

  • Kamenických, PC Latin, ISO Latin, Windows 1250 – obsahují znaky české abecedy

Univerzální znakové sady

  • UNICODE, UTF-8 – využívají více národnostních sad zároveň

ČÍSELNÉ SOUSTAVY

  • Soustavy pro vyjádření informací za pomocí kombinace čísel či písmen

Binární kód

  • desítkový kód – běžná čísla v zapsaná desítkové soustavě
  • binární kód – čísla zapsaná ve dvojkové číselné soustavě
    • dá se vyjádřit skupinami dvou číslic 1100 1101 1111 0011
    • je vhodný pro zpracování informace na elektrickém stroji – počítači
      • označuje se jako strojový kód

Číselné soustavy

  • běžně používané číselné soustavy jsou desítková, dvojková a šestnáctková
  • stroje pracují s binárním kódem – dvojkovou soustavu (např. počítače nebo kalkulačky)
  • pro přehlednější zápis kódu a adres používají programátoři hexadecimální tvar
  • dvojková – binární soustava
    • číselná soustava o základu 2
    • číslice 0 1
    • (1100 1011)2
  • osmičková – oktalová soustava
    • číselná soustava o základu 8
    • číslice 0 1 2 3 4 5 6 7
    • (26 71 03)8
  • desítková – decimální soustava
    • číselná soustava o základu 10
    • číslice 0 1 2 3 4 5 6 7 8 9
    • (269 980)10
  • šestnáctková – hexadecimální soustava
    • číselná soustava o základu 16
    • číslice 0 1 2 3 4 5 6 7 8 9 A B C D E F
    • (A25)16

Zjištění desítkové hodnoty čísla

  • obecný vztah pro vyjádření desítkové hodnoty čísla C v soustavě o základu z
(C)z = an.zn + an-1.zn-1 + … + a1.z1 + a0.z0
  • Příklady :

(1001101)2 = 1.26+0.25+0.24+1.23+1.22+0.21+1.20 = 64+0+0+8+4+0+1 = (77)10

(257)8 = 2.82+5.81+7.80 = 128+40+7 = (175)10

(B3)16 = B.161+3.160 = 11.16+3.1 = (179)10

Převod číselných soustav

  • využítí metody Dělení základem
  • převod celého desítkového čísla na číslo v číselné soustavě o základu z

Dělení Podíl Zbytek
(109)10/2 54 1 pravá pozice
(54)10/2 27 0
(27)10/2 13 1
(13)10/2 6 1
(6)10/2 3 0
(3)10/2 1 1
(1)10/2 0 1 levá pozice

(109)10 = (1101101)2

Cvičení

  • převeďte dělením čislo (187)10 na číslo zapsané v oktalové číselné soustavě
  • převeďte dělením čislo (187)10 na číslo zapsané v hexadecimální číselné soustavě

Odkazy

Datové soubory

Soubor dat

  • uspořádaná skupina dat uložená na datovém médiu (disketa, pevný disk, CD, paměťová karta …)
  • identifikace souboru je dána jménem a příponou
  • způsob rozložení dat souboru na disku je určen souborovým systémem

Vlastnosti souborů

  • jméno
  • typ
  • velikost
  • čas vytvoření
  • čas změny
  • zabezpečení

Typy souborů

  • spustitelné programy – EXE. COM, (BAT)
  • systémové soubory – SYS,BIN,DLL …
  • datové soubory – TXT, DOC, JPG, BMP, DWG …

Souborový systém

  • způsob organizace informací na paměťovém médiu
  • určuje způsob logického členění a identifikace dat
  • souborové systémy pro Windows – FAT32, NTFS

Prvky souborového systému

  • Tabulka oddílů PAT – Partitions Allocation Table (MBR Master Boot Record)
    • uložena v nultém sektoru disku
    • popisuje logické členení disku na oddíly a umožňuje start OS z aktivního oddílu
  • Diskový oddíl – Partition
    • vytváří na pevném disku logickou diskovou jednotku
    • na jednom disku lze vytvořit větší počet logických jednotek C:, D:, E: …
  • Zaváděcí sektor – BOOT sector
  • Tabulka umístění souborů FAT – File Allocation Table
  • Kořenový adresář ROOT Directory
  • Datová oblast
  • Sektor disku
    • část kruhové stopy (tracku) pro uložení dat – nejčastěji 512 B
  • Alokačníjednotka – Cluster
    • nejmenší logická jednotka disku pro uložení dat
    • zabírá jeden nebo více sektorů – viz tabulka

Schema dělení disku

  • Sektory a stopy
  • Datové oblasti disku
sektory fat

Parametry souborového systému

Souborový systém max. soubor max. počet max. oddíl rok použití
FAT 12 32 MB 212=4077 32 MB 1977 MS DOS – FDD
FAT 16 2 GB 216=65517 2 GB 1988 MS DOS – HDD
FAT 32 4 GB 228=268235237 2 TB 1996 WIN 95 OSR2
NTFS 16 TB 232=4294967296 256 TB 1993 WIN NT
ext2 16 GB ? 2 TB 1993 LINUX