«Кодирование текстовой
информации»
Типы задач:
1.
Объем памяти, занимаемый текстом.
2.
Кодирование (декодирование)
текстовой информации.
3.
Внутреннее представление
текста в компьютере.
1.
Объем памяти, занимаемый текстом.
Методические рекомендации:
В задачах такого
типа используются понятия:
·
алфавит,
·
мощность алфавита
·
символ,
·
единицы измерения
информации (бит, байт и др.)
Для представления текстовой (символьной) информации в компьютере используется алфавит мощностью 256 символов. Один символ из такого алфавита несет 8 бит информации (28 =256). 8 бит =1 байту, следовательно, двоичный код каждого символа в компьютерном тексте занимает 1 байт памяти.
2.
Кодирование (декодирование) текстовой
информации.
Методические рекомендации:
В задачах такого
типа используются понятия:
Кодирование – отображение дискретного (прерывного, импульсного) сообщения в виде определенных сочетаний символов.
Код (от французского слова code – кодекс, свод законов) – правило по которому выполняется кодирование.
Кодовая таблица (или кодовая страница) – таблица, устанавливающая соответствие между символами алфавита и двоичными числами.
Примеры
кодовых таблиц (имеются на
CD диске к учебнику Н. Угринович):
· КОИ-7, КОИ-8 – кодирование русских букв и символов (семи-, восьми -битное кодирование)
1) #154 неразрывный пробел.
Рис.1 Кодировка КОИ8-Р
· ASCII –American Standard Code for Information Interchange (американский стандарт кодов для обмена информацией) – это восьмиразрядная кодовая таблица, в ней закодировано 256 символов (127- стандартные коды символов английского языка, спецсимволы, цифры, а коды от 128 до 255 – национальный стандарт, алфавит языка, символы псевдографики, научные символы, коды от 0 до 32 отведены не символам, а функциональным клавишам).
1) #32 - пробел.
Рис. 2 Международная кодировка ASCII
· Unicode – стандарт, согласно которому для представления каждого символа используется 2 байта. (можно кодировать математические символы, русские, английские, греческие, и даже китайские). C его помощью можно закодировать не 256, а 65536 различных символов. Полная спецификация стандарта Unicode включает в себя все существующие, вымершие и искусственно созданные алфавиты мира, а также множество математических, музыкальных, химических и прочих символов
· СР1251 - наиболее распространенной в настоящее время является кодировка Microsoft Windows, ("CP" означает "Code Page", "кодовая страница").
1) #160 неразрывный пробел,
2) #173 мягкий перенос.
Рис. 3 Кодировка CP1251
· СР866 - кодировка под MS DOS
1) #255 неразрывный пробел.
Рис. 4 Кодировка СР866
· Мас – кодировка в ПК фирмы Apple, работающих под управлением операционной системы Mac OS.
1) #202 неразрывный пробел.
Рис. 5 Кодировка Mac
· ISO 8859-5 -Международная организация по стандартизации (International Standards Organization, ISO) утвердила в качестве стандарта для русского языка еще одну кодировку.
1) Коды 128-159 не
используются;
2) #160 неразрывный
пробел,
3) #173 мягкий перенос.
Рис. 6 Кодировка ISO 8859-5
3.
Внутреннее представление текста в компьютере.
Методические рекомендации:
Для решения задач учащиеся должны пользоваться кодовыми таблицами (см.[1], приложение 2, стр.295, 296) и Wise Calculator (для перевода в систему счисления кодов символов, с целью экономии времени). Учащиеся должны понимать, что информация, хранящаяся в двоичном коде чаще всего перекодируется в шестнадцатеричную форму. Шестнадцатеричный код каждого символа – двузначное число от 00 до FF (если длина двоичного кода равна 8, разбиваем на тетрады)