За даними Міжнародного Союзу електрозв'язку, в2016 році Інтернетом з тією чи іншою регулярністю користувалося три з половиною мільярди людей. Більшість з них навіть не замислюються про те, що будь-які повідомлення, що посилаються ними через ПК або мобільні гаджети, а також тексти, які відображаються на всіляких моніторах, насправді являють собою комбінації з 0 і 1. Таке уявлення інформації називається кодуванням. Воно забезпечує і значно полегшує здійснення її зберігання, обробки і передачі. У 1963 році була розроблена американська кодування ASCII, якій і присвячена ця стаття.
З точки зору будь-якої електронно-обчислювальноїмашини текст являє собою набір окремих символів. До їх числа належать не тільки букви, включаючи великі, але і розділові знаки, цифри. Крім того, використовуються спеціальні символи «=», «&», «(» і прогалини.
Безліч символів, з яких складається текст,називається алфавітом, а їх кількість - потужністю (позначається, як N). Для її визначення використовується вираз N = 2 ^ b, де b - число біт або інформаційний вага конкретного символу.
Доведено, що алфавіт потужністю 256 символів дозволяє представити всі необхідні символи.
Так як 256 являє собою 8 ступінь двійки, то вага кожного символу дорівнює 8 біт.
Одиниця виміру 8 біт називається 1 байтом, тому прийнято говорити, що двійковий код будь-якого символу в тексті, який зберігається на комп'ютері, займає один байт пам'яті.
Будь-які тексти вводяться в пам'ять персональногокомп'ютера за допомогою клавіш клавіатури, на яких написані цифри, букви, знаки пунктуації та інші символи. В оперативну пам'ять вони передаються в двійковому коді, т. Е. Кожному символу зіставляється звичний для людини десятеричний код, від 0 до 255, якому відповідав би двійковий код - від 00000000 до 11111111.
Побайтово кодування символів дозволяєпроцесору, що виконує обробку тексту, звертатися до кожного символу окремо. У той же час 256 символів цілком достатньо для представлення будь-символьної інформації.
Ця абревіатура англійською розшифровується як American standard code for information interchange.
Ще на зорі комп'ютеризації стало очевидно, щоможна придумати найрізноманітніші способи кодування інформації. Однак для перенесення інформації з однієї ЕОМ на іншу потрібно розробити єдиний стандарт. Так, в 1963 році в США з'явилася таблиця кодування ASCII. У ній будь-якому символу комп'ютерного алфавіту поставлений у відповідність його порядковий номер у двійковому поданні. Спочатку кодування ASCII використовувалася тільки в Сполучених Штатах, а потім стала міжнародним стандартом для ПК.
Коди ASCII діляться на 2 частини. Міжнародним стандартом вважається лише перша половина цієї таблиці. У неї входять символи з порядковими номерами від 0 (кодується як 00000000) до 127 (код 01111111).
Порядковий номер N | Кодування тексту ASCII | символ |
0 - 31 | 0000 0000 - 0001 1111 | Символи з N від 0 до 31 називають керуючими. Їх функцією є «керівництво» процесом виведення тексту на монітор або принтер, подача звукового сигналу і т.п. |
32 - 127 | 0010 0000 - 0111 1111 | Символи з N від 32 до 127 (стандартна частинатаблиці) - великі та малі літери латинського алфавіту, 10-ні цифри, розділові знаки, а також різні дужки, комерційні та ін. символи. Символом 32 позначається пробіл. |
128 - 255 | 1000 0000 - 1111 1111 | Символи з N від 128 до 255 (альтернативна частинатаблиці або кодова сторінка) можуть мати різні варіанти, кожен з яких має свій номер. Кодова сторінка використовується для завдання національних алфавітів, які відмінні від латинського. Зокрема, саме з її допомогою здійснюється кодування ASCII для російських символів. |
У таблиці кодування великі та малі літери йдуть один за одним у алфавітному порядку, а цифри - по зростанню значень. Такий принцип зберігається і для російського алфавіту.
Таблиця кодування ASCII спочатку створюваласядля прийому і передачі інформації за таким уже давно не використовується пристрою, як телетайп. У зв'язку з цим в набір символів були включені недруковані, використовувані в якості команд для управління цим пристроєм. Подібні команди застосовувалися і в таких докомпьютерную методах обміну повідомленнями, як азбука Морзе, і ін.
Найпоширенішим «телетайпних» символом є NUL (00, «нульовий»). Він і до цього дня використовується в більшості мов програмування, позначаючи ознака кінця рядка.
Американський стандартний код необхідний не тількидля введення текстової інформації з клавіатури. Його також використовують в графіку. Зокрема, в програмі ASCII Art Maker зображення різних розширень є спектр символів кодування ASCII.
Подібні продукти бувають двох типів: виконують функцію графічних редакторів шляхом перетворення зображення в текст і конвертують «малюнки» в ASCII-графіку. Наприклад, відомий смайлик є яскравим прикладом кодіровочние символу.
ASCII може використовуватися і при створенні документа HTML. В такому випадку ви можете вводити якийсь набір знаків, а при перегляді сторінки на екрані з'явиться символ, який відповідає даному коду.
ASCII необхідний і для створення багатомовних сайтів, так як знаки, які не входять до конкретну національну таблицю, замінюються ASCII-кодами.
Для кодування текстової інформації в кодуванні ASCII спочатку використовували 7 біт (один залишався порожнім), однак сьогодні вона працює як 8-бітна.
Букви, розташовані в колонках, які перебувають зверху і знизу, відрізняються один від одного тільки одним-єдиним бітом. Це значно знижує ступінь складності перевірки.
При необхідності цей вид кодування текстовоїінформації може використовуватися в текстових редакторах корпорації Microsoft, таких як Notepad і Office Word. Однак при наборі тексту в такому випадку буде неможливо використовувати деякі функції. Наприклад, ви не зможете здійснювати виділення жирним шрифтом, так як кодування ASCII зберігає тільки сенс інформації, ігноруючи її загальний вигляд і форму.
Організація ISO прийняла стандарти ISO 8859. Ця група визначає восьмібітних кодування для різних мовних груп. Зокрема, ISO 8859-1 - це Extended ASCII, що представляє собою таблицю для Сполучених Штатів і країн Західної Європи. А ISO 8859-5 - це таблиця, що застосовується для кирилиці, в тому числі для російської мови.
По ряду історичних причин стандарт ISO 8859-5 використовувався дуже недовго.
Для російської мови на даний момент реально застосовуються кодування:
Основною перевагою першого стандарту CP866було збереження псевдографічні символів на тих же позиціях, що і в Extended ASCII. Це дозволяло запускати без змін текстові програми, зарубіжного виробництва, такі як відомий Norton Commander. На даний момент CP866 застосовується для програм, розроблених під Windows, які працюють в повноекранному текстовому режимі або в текстових вікнах, в тому числі в FAR Manager.
Комп'ютерні тексти, написані в кодуванні CP866, останнім часом зустрічаються досить рідко, проте саме вона застосовується для російських імен файлів в "Віндоус".
На даний момент найбільш широке поширенняотримала саме це кодування. Коди "Юникода" розділені на області. Перша (від U + 0000 до U + 007F) включає символи набору ASCII з кодами. За нею йдуть області знаків різних національних писемностей, а також пунктуаційні знаки та технічні символи. Крім того, частина кодів "Юникода" зарезервована на випадок виникнення необхідності включити нові символи в майбутньому.
Тепер ви знаєте, що в кодуванні ASCII коженсимвол представляється як комбінація 8 нулів і одиниць. Неспеціалістам ця інформація може здатися непотрібною і нецікавою, але хіба вам не хоче знати, що відбувається «в мізках» вашого ПК ?!
</ P>