Раздел 1. АВТОМАТИЗИРОВАННАЯ ОБРАБОТКА ИНФОРМАЦИИ: ОСНОВНЫЕ ПОНЯТИЯ И ТЕХНОЛОГИЯ
Тема 1.1. Информация. Измерение и представление информации
1.1.1. Информатизация общества, развитие вычислительной техники
В истории развития цивилизации произошло несколько информационных революций — преобразований общественных отношений из-за кардинальных изменений в сфере обработки информации. Следствием подобных преобразований являлось приобретение человеческим обществом нового качества.
Первая революция связана с изобретением письменности, что привело к гигантскому качественному и количественному скачку. Появилась возможность передачи знаний от поколения к поколениям.
Вторая (середина XVI в.) вызвана изобретением книгопечатания, которое радикально изменило индустриальное общество, культуру, организацию деятельности.
Третья (конец XIX в.) обусловлена изобретением электричества, благодаря которому появились телеграф, телефон, радио, позволяющие оперативно передавать и накапливать информацию в любом объеме.
Четвертая (70-е гг. XX в.) связана с изобретением микропроцессорной технологии и появлением персонального компьютера. На микропроцессорах и интегральных схемах создаются компьютеры, компьютерные сети, системы передачи данных (информационные коммуникации). Этот период характеризуют три фундаментальные инновации:
1. переход от механических и электрических средств преобразования информации к электронным;
2. миниатюризация всех узлов, устройств, приборов, машин;
3. создание программно-управляемых устройств и процессов.
Всегда ли компьютер выглядел так, как в настоящее время? Чем обусловлены возможности вычислительной техники? Рассмотрим и сопоставим достижения в области вычислительной техники, в результате которых происходила смена поколений компьютеров (электронно-вычислительных машин (ЭВМ)).
Первое поколение компьютеров — с середины 1940-х до конца 1950-х гг. Элементная база — электронные лампы. ЭВМ отличаются большими габаритными размерами, потреблением большого количества энергии, малой скоростью действия, низкой надежностью. Программирование ведется в машинных кодах.
Второе поколение компьютеров — с конца 1950-х до середины 1960-х гг. Элементная база — полупроводниковые элементы. По сравнению с ЭВМ предыдущего поколения улучшены все технические характеристики. Для программирования используются алгоритмические языки.
Третье поколение компьютеров — с середины 1960-х до конца 1970-х гг. Элементная база — интегральные схемы, многослойный печатный монтаж. Значительное уменьшение габаритных размеров ЭВМ, повышение их надежности, увеличение производительности. Доступ с удаленных терминалов.
Четвертое поколение компьютеров — с конца 1970-х гг. по настоящее время. Элементная база — микропроцессоры, большие интегральные схемы. Улучшены технические характеристики. Массовый выпуск персональных компьютеров. Направления развития: мощные многопроцессорные вычислительные системы с высокой производительностью; создание дешевых микроЭВМ; опытные разработки интеллектуальных компьютеров; внедрение во все сферы компьютерных сетей и их объединение, распределенная обработка данных, повсеместное использование компьютерных информационных технологий.
Таким образом, появление нового типа ЭВМ было обусловлено изобретением новой элементной базы. С позиций информатики четвертую информационную революцию можно связать с появлением ЭВМ четвертого поколения — персонального компьютера, с успехом позволяющего решать проблему хранения и передачи информации на качественно новом уровне. Информационная революция, произошедшая в 1970-х гг., привела к тому, что человеческая цивилизация в конце XX в. оказалась в состоянии перехода от индустриальной фазы своего развития к информационной. Результатом процесса информатизации является создание информационного общества, в котором главную роль играют интеллект и знания. Для каждой страны ее движение от индустриального этапа развития к информационному определяется степенью информатизации общества.
Последняя информационная революция (70-е года XX века) выдвигает на первый план новую отрасль – информационную индустрию, связанную с производством технических средств, методов, технологий для производства новых знаний. Важнейшими составляющими информационной индустрии становятся все виды информационных технологий, особенно телекоммуникации. Современная информационная технология опирается на достижение в области компьютерной техники и средств связи.
В индустриальном обществе, где большая часть усилий направлена на материальное производство, известно несколько основных видов ресурсов, ставших уже классическими экономическими категориями:
1.1.2. Понятие информации. Виды информации. Носители информации
Термин информация происходит от латинского informatio, что означает разъяснение, осведомление, изложение. 1.1.3. Информационные процессы
Поскольку из-за многозначности понятия информация, очень трудно дать четкое определение, рассматривают, по крайней мере, четыре различных подхода к данному понятию. В первом «обыденном» подходе, слово информация применяется как синоним интуитивно понимаемых слов: сведение, значение, сообщение, осведомление. Во втором «кибернетическом» подходе понятие информация широко используется в системе управляющего сигнала, передаваемого по линиям связи. В «философском» понятии информация тесно связана с такими понятиями как взаимодействие, отражение. В «вероятностном» подходе под информацией понимают не любое сообщение, а лишь то, которое уменьшает неопределенность знаний о каком либо событии у получателя информации.
С позиции материалистической философии информация есть отражение реального мира с помощью сведений (сообщений). Сообщение — это форма представления информации в виде речи, текста, изображения, цифровых данных, графиков, таблиц и т.п. Сообщение от источника к получателю передается посредством какой-нибудь среды, являющейся в таком случае «каналом связи». При передаче речевого сообщения - воздух, в котором распространяются звуковые волны, а в передаче письменного сообщения каналом сообщения можно считать лист бумаги, на котором напечатан текст. Информация всегда носит адресный характер. Человеку свойственно субъективное восприятие информации через некоторый набор ее свойств: важность, достоверность, своевременность, доступность, полнота, релевантность и т.д. Одно и то же сообщение для различных пользователей может нести различную информацию.
Информация не отделима от процесса информирования, поэтому необходимо рассматривать источник информации и потребителей информации. При работе с информацией всегда имеется ее источник и потребитель (получатель).
Информация - новые сведения, принятые, понятые и оцененные конечным потребителем как полезные. Информацией являются сведения, расширяющие запас знаний конечного потребителя об окружающем нас мире.
С середины ХХ века понятие информация является общенаучным понятием, включающим в себя обмен сведениями между людьми, человеком и автоматом, автоматом и автоматом, обмен сигналами в растительном и животном мире, передачу признаков от клетки к клетке.
Таким образом, информация- сведения об объектах и явлениях окружающей среды, их параметрах, свойствах и состоянии, которые уменьшают имеющуюся о них степень неопределенности, неполноты знаний.
Наряду с информацией в информатике часто употребляется понятие данные. Данные могут рассматриваться как признаки или записанные наблюдения, которые по каким-то причинам не используются, а только хранятся. В том случае, если появляется возможность использовать эти данные для уменьшения неопределенности о чем-либо, данные превращаются в информацию. Поэтому информацией являются лишь используемые данные.
Довольно распространенным является взгляд на информацию как на ресурс, аналогичный материальным, трудовым и денежным ресурсам. Эта точка зрения отражается в следующем определении.
Информация - новые сведения, позволяющие улучшить процессы, связанные с преобразованием вещества, энергии и самой информации.
Информация - это совокупность разнообразных данных, сведений, сообщений, знаний, умений и опыта, необходимых кому-либо. Длительное время ею владели и пользовались лишь отдельные представители цивилизации, устанавливая собственную власть и могущество. Сегодня информация имеет общественное значение. Информация так же, как вещество и энергия, стала предметом производства и распространения, обрела свойства и функции товара.
Возможность и эффективность использования информации определяется такими ее свойствами как достаточность, точность, достоверность, актуальность, доступность, своевременность.
Различают две формы представления информации — непрерывную (аналоговую) и прерывистую (цифровую, дискретную). Непрерывная форма характеризует процесс, который не имеет перерывов и теоретически может изменяться в любой момент времени и на любую величину. Цифровой сигнал может изменяться лишь в определенные моменты времени и принимать лишь заранее обусловленные значения.
Многообразие видов информации предопределяет широкий круг потребителей информационных товаров и услуг.
По способу представления выделяют следующие виды информации: текстовая; символьная; графическая.
Виды информации также различны по способу передачи и восприятия. Информацию, передаваемую видимыми образами и символами, называют визуальной (зрительной), звуками – аудиальной, ощущениями – тактильной, запахом и вкусом – органо – лептической, а выдаваемую или воспринимаемую ЭВМ – машинной.
Возможность и эффективность использования информации определяется такими ее свойствами как достаточность, точность, достоверность, актуальность, доступность, своевременность.
1) Достаточность (полнота) информации означает, что она содержит минимальный, но достаточный, набор показателей для принятия правильного решения. Неполнота информации сдерживает принятие правильного решения или может повлечь ошибки.
2) Точность информации определяется степенью близости получаемой информации к реальному состоянию объекта, процесса, явления.
3) Достоверность информации определяется её свойством отражать реально существующие объекты с необходимой точностью. Информация достоверна, если она отражает истинное положение дел. Недостоверная информация может привести к неправильному пониманию или принятию неправильного решения.
4) Актуальность информации определяется степенью сохранения ценности информации (для управления) в определённый момент времени.
5) Доступность (понятность) информации восприятию пользователя обеспечивается использованием языка (сигналов, кодов), которые понимают те, кому предназначена эта информация.
6) Своевременность информации означает ее поступление не позже заранее назначенного момента времени, согласованного со временем решения задачи.
Носитель - это материальный объект, способный хранить информацию.
На протяжении всей своей жизни человек постоянно участвует во всевозможных информационных процессах. Люди постоянно выполняют с информацией какую-либо работу, они собирают, накапливают, обрабатывают, распространяют, генерируют, тиражируют, используют информацию.
Информационный процесс — процесс, в результате которого осуществляется прием, передача (обмен), хранение, преобразование и использование информации. 1.1.4. Кодирование информации в ЭВМ
С середины XX в. интенсивность информационных процессов существенно увеличилась. Лавинообразный поток информации, хлынувший на человека, уже не воспринимается в полном объеме, ориентироваться в нем становится все труднее. Общая сумма человеческих знаний изменялась раньше очень медленно, затем процесс получения новых знаний получил заметное ускорение. Так, общая сумма человеческих знаний к 1800г. удваивалась каждые 50 лет, к 1950г. - каждые 10 лет, а к 1970г. - каждые 5 лет, к 1990г. ежегодно. Иногда оказывается проще заново создать какой-либо продукт, чем разыскать аналог, сделанный ранее. Поэтому требуется постоянное обновление и совершенствование способов, помогающих человеку воспринимать, преобразовывать, хранить и использовать информацию.
Информационные процессы как процессы преобразования информации состоят из процессов хранения, обработки, обмена и производных от них.
1) Хранение (накопление) информации вызвано необходимостью её многократного использования. Хранение- это процесс поддержания информации в виде, обеспечивающем выдачу данных по запросам пользователя в установленные сроки. Информация храниться на информационных носителях. Носитель - материальный объект, способный хранить информацию.
2) Обработка информации – это любое преобразование информации из одного вида в другой, производимое по строгим формальным правилам. Процесс обработки информации очень сложен и зависит от множества факторов как объективного, так и субъективного характера. К процессам обработки информации относятся вычисления, логические рассуждения, упорядочение, структурирование и кодирование информации.
3) Обмен информацией – это процесс её перемещения от источника к получателю. Источник – передает, получатель (приемник) – принимает информацию.
4) Сбор информации - это деятельность субъекта в ходе которой он получает сведения об интересующем его объекте.
5) Информационный поиск — это процесс отыскания в некотором множестве текстов (документов) всех таких, которые посвящены указанной в запросе теме (предмету) или содержат нужные пользователю факты, сведения.
Информация в ЭВМ кодируется, как правило, в двоичной системе счисления.
Система счисления - это способ наименования и изображения чисел с помощью символов, имеющих определенные количественные значения.
В зависимости от способа изображения чисел системы счисления делятся на позиционные и непозиционные.
В позиционной системе счисления количественное значение каждой цифры зависит от ее места (позиции) в числе. В непозиционной системе счисления цифры не меняют своего количественного значения при изменении их расположения в числе. Количество (Р) различных цифр, используемых для изображения числа в позиционной системе счисления, называется основанием системы счисления. Значения цифр лежат в пределах от 0 до Р-1.
Пример 1.1.1. Позиционная система счисления - арабская десятичная система, в которой: основание P=10, для изображения чисел используются 10 цифр (от 0 до 9).
Пример 1.1.2.Непозиционная система счисления - римская, в которой для каждого числа используется специфическое сочетание символов (XIV, CXXVII и т.п.).
В общем случае запись любого смешанного числа в системе счисления с основанием Р будет представлять собой ряд вида:
am-1Pm-1+am-2Pm-2+...+a1P1+a0P0+a-1P-1+a-2P-2+...+a-sP-s (1.1.1)
где нижние индексы определяют местоположение цифры в числе (разряд):
- положительные значения индексов - для целой части числа (m разрядов);
- отрицательные значения - для дробной (s разрядов).
Максимальное целое число, которое может быть представлено в m разрядах:
Минимальное значащее (не равное 0) число, которое можно записать в s разрядах дробной части: Nmin=P-s
Двоичная система счисления имеет основание Р = 2 и использует для представления информации всего две цифры: 0 и 1. Существуют правила перевода чисел из одной системы счисления в другую, основанные, в том числе и на соотношении (1.1.1).
Пример 1.1.3. 101110,101(2)=1*25+0*24+1*23+1*22+1*21+0*20+1*2-1+0*2-2+1*2-3=46,625(10)
т.е. двоичное число 101110,101 равно десятичному числу 46,625.
Таким образом,в персональном компьютере информация (числовая, текстовая, графическая, звуковая) кодируется в последовательность импульсов: есть импульс (1), нет импульса (0), т.е. последовательность нулей и единиц.
1.1.5. Представление числовой информации в компьютере
В вычислительных машинах применяются две формы представления двоичных чисел:
- естественная форма (форма с фиксированной запятой (точкой));
- нормальная форма (форма с плавающей запятой (точкой)).
С фиксированной запятой все числа изображаются в виде последовательности цифр с постоянным для всех чисел положением запятой, отделяющей целую часть от дробной.
Пример 1.1.4. В десятичной системе счисления имеются 5 разрядов в целой части числа (до запятой) и 5 разрядов в дробной части числа (после запятой); числа, записанные в такую разрядную сетку, имеют вид: +00721,35500; +00000,00328; -10301,20260.
Эта форма наиболее проста, естественна, но имеет небольшой диапазон представления чисел и поэтому не всегда приемлема при вычислениях.
Пример 1.1.5. Диапазон значащих чисел (N) в системе счисления с основанием Р при наличии m разрядов в целой части и s разрядов в дробной части числа (без учета знака числа) будет:
P-s < N < Pm-P-s
При Р = 2, m = 10 и s = 6: 0,015 <= N <= 1024.
Если в результате операции получится число, выходящее за допустимый диапазон, происходит переполнение разрядной сетки, и дальнейшие вычисления теряют смысл. В современных ЭВМ естественная форма представления используется как вспомогательная и только для целых чисел.
С плавающей запятой каждое число изображается в виде двух групп цифр. Первая группа цифр называется мантиссой, вторая - порядком, причем абсолютная величина мантиссы должна быть меньше 1, а порядок - целым числом. В общем виде число в форме с плавающей запятой может быть представлено так:
N=±MP±r
где М - мантисса числа ( |М| < 1 );
r - порядок числа (r - целое число);
Р - основание системы счисления.
Пример 1.1.6. Приведенные в примере 1.1.4 числа в нормальной форме запишутся так: +0,721355* 103; +0,328*10-2; -0,103012026*105.
Нормальная форма представления имеет огромный диапазон отображения чисел и является основной в современных ЭВМ.
Пример 1.1.7. Диапазон значащих чисел в системе счисления с основанием Р при наличии m разрядов у мантиссы и s разрядов у порядка (без учета знаковых разрядов порядка и мантиссы) будет:P-s < N < Pm-P-s
При P=2, m=10 и s=6 диапазон чисел простирается примерно от 10-19 до 1019.
Знак числа обычно кодируется двоичной цифрой, при этом код 0 означает знак «+», код 1 - знак «-».
Вся информация (данные) в компьютере представлена в виде двоичных кодов. Для удобства работы введены следующие термины, обозначающие совокупности двоичных разрядов (табл. 1.1.1). Эти термины обычно используются в качестве единиц измерения объемов информации, хранимой или обрабатываемой в ЭВМ.
Таблица 1.1.1. Двоичные совокупности
Количество двоичных разрядов в группе | 1 | 8 | 16 | 1024 | 10242 |
Наименование единицы измерения | Бит | Байт | Параграф | КилоБайт (КБайт) | МегаБайт (МБайт) |
Пример 1.1.8. Структурно запись числа -193(10) = -11000001(2) в разрядной сетке ПК выглядит следующим образом. Число с фиксированной запятой формата слово со знаком:
Знак числа | Абсолютная величина числа | |||||||||||||||
N разряда | 15 | 14 | 13 | 12 | 11 | 10 | 9 | 8 | 7 | 6 | 5 | 4 | 3 | 2 | 1 | 0 |
Число | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 1 | 0 | 0 | 0 | 0 | 0 | 1 |
Знак числа | Порядок | Мантисса | ||||||||||||||||||
N разряда | 31 | 30 | 29 | 28 | 27 | 26 | 25 | 24 | 23 | 22 | 21 | 20 | 19 | 18 | 17 | 16 | 15 | ... | 1 | 0 |
Число | 1 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 1 | 1 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | ... | 0 | 0 |
1.1.6. Представление символьной информации
С помощью двоичного кода можно кодировать текстовую информацию, если каждому символу алфавита сопоставить определенное целое число. Восьми двоичных разрядов достаточно для кодирования 256 различных символов (S=2n=28=256).Этого хватает, чтобы выразить различными комбинациями восьми битов все символы английского и русского языков, как строчные, так и прописные, а также знаки препинания, символы основных арифметических действий и некоторые общепринятые специальные символы.
Институт стандартизации США ввел в действие систему кодирования ASCII. Код ASCII (American Standard Code for Information Interchange - Американский стандартный код для обмена информацией) имеет основной стандарт и его расширение (табл. 1.1.3). Основной стандарт для кодирования символов использует коды от 0 до 127 (табл. 1.1.2), расширение стандарта - от 128 до 255. Основной стандарт является международным и используется для кодирования управляющих символов, цифр и букв латинского алфавита; в расширении стандарта кодируются символы псевдографики и буквы национального алфавита (естественно, в разных странах разные).
Кодировка символов русского алфавита Windows-1251, была введена компанией Microsoft и используется чаще всего. Однако существуют и другие кодировки символов русского алфавита, например, КОИ-8. Сегодня кодировка КОИ-8 широко распространена в компьютерных сетях на территории РОссии.
В конце 1990-х г.г. появился новый международный стандарт Unicode, который отводит под один симиол 2 байта, поэтому с его помощью можно закодировать 65536 различных символов. Полная спецификация Unicode включает в себя все существующие, вымершие и искуственно созданные алфавиты мира, а также множество математических, музыкальных, химических и прочих символов.
Таблица 1.1.2. Фрагмент системы кодирования ASCII
32 пробел | 33 ! | 34 " | 35 # | 36 $ | 37 % | 38 & | 39 ' | 40 ( | 41 ) | 42 * | 43 + | 44 , | 45 - | 46 . | 47 / | 48 0 | 49 1 | 50 2 |
51 3 | 52 4 | 53 5 | 54 6 | 55 7 | 56 8 | 57 9 | 58 : | 59 ; | 60 < | 61 = | 62 > | 63 ? | 64 @ | 65 A | 66 B | 67 C | 68 D | 69 E |
70 F | 71 G | 72 H | 73 I | 74 J | 75 K | 76 L | 77 M | 78 N | 79 O | 80 P | 81 Q | 82 R | 83 S | 84 T | 85 U | 86 V | 87 W | 88 X |
89 Y | 90 Z | 91 [ | 92 \ | 93 ] | 94 ^ | 95 _ | 96 ` | 97 a | 98 b | 99 c | 100 d | 101 e | 102 f | 103 g | 104 h | 105 i | 106 j | 107 k |
108 l | 109 m | 110 n | 111 o | 112 p | 113 q | 114 r | 115 s | 116 t | 117 u | 118 v | 119 w | 120 x | 121 y | 122 z | 123 { | 124 | | 125 } | 126 ~ |
127 |
1.1.7. Представление графической информации
Графические изображения, хранящиеся в аналоговой форме на бумаге, фото- и киноплёнке, могут быть преобразованы в цифровой компьютерный формат путём пространственной дискретизации. Это реализуется путём сканирования, результатом которого является растровое изображение. Растровое изображение состоит из отдельных точек - пикселов (от англ. Picture element - элемент изображения), каждая из которых может иметь свой цвет.
Качество изображения определяется разрешающей способностью монитора, т.е. числом точек, из которых оно складывается. Чем больше разрешающая способность монитора, т.е. чем больше число строк растра и точек в строке, тем выше качество изображения.
В современных персональных компьютерах обычно используют четыре основные разрешающие способности экрана: 640x480, 800x600, 1024x768, и 1280x1024 точки.
Цветные изображения формируются в соответствии с двоичным кодом цвета каждой точки, хранящимся в видеопамяти. Цветные изображения могут иметь различную глубину цвета, которая задается используемым числом бит для кодирования цвета точки.(табл.1.1.3)
Таблица 1.1.3. Глубина цвета и число отображаемых цветов
Глубина цвета | Число отображаемых цветов(N) |
4 | 24=16 |
8 | 28=256 |
16 (High Color) | 216=65 536 |
24 (True Color) | 224=16 777 216 |
32 (True Color) | 232=4 294 967 296 |
Пример 1.1.9. При глубине цвета в 24 бит на каждый из цветов выделяется по 8 бит, т.е. для каждого из цветов возможны 256 уровней интенсивности, заданных двоичными кодами (от минимальной - 00000000 до максимальной - 11111111). 1.1.8. Представление звуковой информации
Для того чтобы на экране монитора формировалось изображение, информация о каждой его точке (код цвета, точки) должна храниться в видеопамяти компьютера. Рассчитаем необходимый объём видеопамяти для одного из графических режимов, например с разрешением 800х600 точек и глубиной цвета 24 бит на точку. Всего точек на экране: 800х600=480000. Необходимый объём видеопамяти: 24 бит х 480000=11520000 бит=1440000 байт=1406,25 Кбайт=1,37 Мбайт.
Звук представляет собой звуковую волну с непрерывно меняющейся амплитудой и частотой. Чем больше амплитуда сигнала, тем выше тон.
Для того чтобы компьютер мог обрабатывать звук, непрерывный звуковой сигнал должен быть превращен в последовательность электрических импульсов (двоичных нулей и единиц).
Таким образом, непрерывная зависимость амплитуды сигнала от времени А(t) заменяется на дискретную последовательность уровней громкости.
Дискретизация - это процесс разбиения сигнала на отдельные составляющие, взятые в определённые тактовые моменты времени t0, t1,t2, … через четко определённые тактовые интервалы времени t. 1.1.9. Измерение информации
Квантование - замена отдельных составляющих исходного дискретного значения сигнала ближайшим уровнем квантования, сдвинутых друг от друга на промежуток, называемый шагом квантования:
А(t0)=2; А(t1)=5; А(t2)=6; А(t3)=6; А(t4)=5; А(t5)=5; А(t6)=6; А(t7)=6; А(t8)=5.
Кодирование- перевод значения уровня квантования в конкретный двоичный код, например:
2-0010; 6-0110; 6-0110;
5-0101; 5-0101; 6-0110;
6-0110; 5-0101; 4-0100
Качество передаваемой информации при этом будет зависеть:
- от разрядности преобразования, т.е. числа двоичных разрядов, которые будут использованы при кодирования соответствующего уровня.
- частоты дискретизации-частоты, с которой аналоговый сигнал будет преобразован в цифровую форму с помощью одной из систем счисления.
Уровни громкости звука можно рассматривать как набор возможных состояний.
Следовательно, чем больше число уровней громкости будет выделено в процессе кодирования, тем больше количество информации будет нести значение каждого уровня и тем более качественным будет звучание. Звуковые карты обеспечивают, например, 16-битную глубину кодирования звука, обеспечивая 216=65536 уровней сигнала.
Кроме того, качество кодирования зависит и от числа точек измерения уровня сигнала за 1 с, т.е. частоты дискретизации (это значение изменяется от 8000 до 48000).
Принято измерять частоту дискретизации в кГц (килогерцах): 1 кГц-это 1000 измерений в секунду.
Можно оценить информационный объём стереоаудиофайла длительностью звучания 1 с при высоком качестве звука (16 бит, 48 кГц). Для этого число бит на одну выборку необходимо умножить на число выборок в 1 с и умножить на 2 (стереорежим):
16 бит*48000*2=1536000 бит=192000 байт 187,5 Кбайт.
Информационный объём звукового файла длительностью 1 мин приблизительно равен 11 Мбайт.
Для измерения информации вводятся два параметра: количество информации I и объем данных VД . Эти параметры имеют разные выражения и интерпретацию в зависимости от рассматриваемой формы адекватности. Каждой форме адекватности соответствует своя мера количества информации и объема данных.
Пример 1.1.10. Сообщение в двоичной системе в виде восьмиразрядного двоичного кода 10111011 имеет объем данных VД = 8 бит.
Сообщение в десятичной системе в виде шестиразрядного числа 275903 имеет объем данных VД = 6 дит.
Количество информации I на синтаксическом уровне невозможно определить без рассмотрения понятия неопределенности состояния системы (энтропии системы). Действительно, получение информации о какой-либо системе всегда связано с изменением степени неосведомленности получателя о состоянии этой системы. Рассмотрим это понятие.
Пусть до получения информации потребитель имеет некоторые предварительные (априорные) сведения о системе a. Мерой его неосведомленности о системе является функция H(a), которая в то же время служит и мерой неопределенности состояния системы.
После получения некоторого сообщения b получатель приобрел некоторую дополнительную информацию Ib (a), уменьшившую его априорную неосведомленность так, что апостериорная (после получения сообщения b) неопределенность состояния системы стала Hb(a).
Тогда количество информации Ib(a) о системе, полученной в сообщении b, определится как
Ib (a)=H(a)-Hb(a)
т.е. количество информации измеряется изменением (уменьшением) неопределенности состояния системы.
Если конечная неопределенность Hb(a) обратится в нуль, то первоначальное неполное знание заменится полным знанием и количество информации Ib (a) = H(a). Иными словами, энтропия системы H(a) может рассматриваться как мера недостающей информации.
Часто информация кодируется числовыми кодами в той или иной системе счисления, особенно это, актуально при представлении информации в компьютере. Естественно, что одно и то же количество разрядов в разных системах счисления может передать разное число состояний отображаемого объекта, что можно представить в виде соотношения N=mn
где N - число всевозможных отображаемых состояний;
m - основание системы счисления (разнообразие символов, применяемых в алфавите);
n - число разрядов (символов) в сообщении.
Пример 1.1.11. По каналу связи передается n-разрядное сообщение, использующее m различных символов. Так как количество всевозможных кодовых комбинаций будет N=mn, то при равновероятности появления любой из них количество информации, приобретенной абонентом в результате получения сообщения, будет I = log N = n log m - формула Хартли.
Если в качестве основания логарифма принять m, то I = n. В данном случае количество информации (при условии полного априорного незнания абонентом содержания сообщения) будет равно объему данных I = VД , полученных по каналу связи. Для неравно вероятных состояний системы всегда I < VД = n.
Наиболее часто используются двоичные и десятичные логарифмы. Единицами измерения в этих случаях будут соответственно бит и дит.
Вопросы для повторения