2 страница16 января 2021, 11:37

Количество и качество информации


Количеством информации называют числовую характеристику информации, отражающую ту степень неопределенности, которая исчезает после получения информации.

Рассмотрим пример: дома осенним утром, старушка предполо­жила, что могут быть осадки, а могут и не быть, а если будут, то и форме снега или в форме дождя, т.е. «бабушка надвое сказала – то ли будет, то ли нет, то ли дождик, то ли снег». Затем, выглянув в окно, увидела пасмурное небо и с большой вероятностью предполо­жила – осадки будут, т.е., получив информацию, снизила количество вариантов выбора. Далее, взглянув на наружный термометр, она уви­дела, что температура отрицательная, значит, осадки следует ожидать в виде снега. Таким образом, получив последние данные о темпера­туре, бабушка получила полную информацию о предстоящей погоде и исключила все, кроме одного, варианты выбора.

Приведенный пример показывает, что понятия «информация», «неопределенность», «возможность выбора» тесно связаны. Получа­емая информация уменьшает число возможных вариантов выбора (т.е. неопределенность), а полная информация не оставляет вариан­тов вообще.

За единицу информации принимается одинбит (англ.bit—binarydigit— двоичная цифра). Это количество информации, при котором неопределенность, т.е. количество вариантов выбора, уменьшается вдвое или, другими словами, это ответ на вопрос,требующий односложного разрешения да или нет.

Бит — слишком мелкая единица измерения информации. На практике чаше применяются более крупные единицы, например, байт, являющийся последовательностью из восьми бит. Именно во­семь битов, или один байт, используется для того, чтобы закодиро­вать символы алфавита, клавиши клавиатуры компьютера. Один байт также является минимальной единицей адресуемой памяти компью­тера, т.е. обратиться в память можно к байту, а не биту.

Широко используются еще более крупные производные едини­цы информации:

1 Килобайт (Кбайт) = 1024 байт = байт,

1 Мегабайт (Мбайт) = 1024 Кбайт = 220байт,

1 Гигабайт (Гбайт) = 1024 Мбайт = байт,

1 Терабайт (Тбайт) = 1024 Гбайт = байт.

За единицу информации можно было бы выбрать количество информации, необходимое для различения, например, десяти равно­вероятных сообщений. Это будет не двоичная (бит), а десятичная (дит) единица информации. Но данная единица используется редко в компьютерной технике, что связано с аппаратными особенностя­ми компьютеров.

Исследованием методов передачи, хранения и приема информа­ции занимается теория информации, инструментами которой служат теория случайных процессов, теория кодирования, математическая статистика, теория вероятностей. Внимание к проблеме передачи и количественной оценки информации было привлечено фундамен­тальными работами Н. Винера и К. Шеннона (США), положившими начало теории информации. Значительный вклад в теорию инфор­мации внесли отечественные ученые А.Н. Колмогоров, А.А. Харкевич, В.А. Котельников, работы которых хорошо известны специали­стам во всем мире.

Важнейшим этапом в теории развития информации явилась ко­личественная оценка информации. Только принимая за основу но­визну сведений, можно дать количественную оценку информации, так как новизна сведений является следствием неопределенности сведений об объекте, процессе, явлении, а неопределенность подда­ется измерению. Например, сообщение имени победившего на вы­борах в президенты, если было всего два кандидата, несет меньшее количество информации по сравнению со случаем, если бы выборы происходили и конкурентной борьбе пяти кандидатов.

Основываясь на идее, что информация устраняет некоторую не­определенность, т. е. незнание, описание любого события или объекта формально можно рассматривать как указание на то, в каком из воз­можных состояний находится описываемый объект. Тогда протека­ние событий во времени есть не что иное, как смена состояний, выб­ранных с некоторой вероятностью из числа всех возможных. Чем выше уровень неопределенности выбора, тем требуется больший объем информации, и результат выбора имеет значительную степень неожиданности. Вот почему в теории информации количество ин­формации является мерой снятия неопределенности одной случай­ной величины в результате наблюдения задругой. Если величины не­зависимы, то количество информации равно нулю.

Формулу измерения количества информации можно получить эмпирически: для снятия неопределенности в ситуации из двух рав­новероятных событий необходим один бит информации; при неопре­деленности, состоящей из четырех событий, достаточно двух бит информации, чтобы угадать искомый факт. Это рассуждение можно продолжить: 3 бита информации соответствуют неопределенности из 8 равновероятных событий, 4 бита - 16 равновероятных событий и т. д. Таким образом, если сообщение указывает на один из п рав­новероятных вариантов, то оно несет количество информации, рав­ное log2n. Действительно, из наших примеров log 216 =4, log 28 =3 и т. д. Ту же формулу можно словесно выразить иначе: количество информации равно степени, в которую необходимо возвести 2, что­бы получить число равноправных вариантов выбора, т.е. 2'= 16, где i = 4 бита.

Будем различать понятия «информация» и «сообщение». Под сообщением обычно подразумевают информацию, выраженную в оп­ределенной форме и подлежащую передаче. Сообщение — это форма представления информации. Есть одна особенность, которая связана с количеством хранимой или переданной информации, представленной в двоичных единицах, и количеством информации, заключенным в данном сообщении. С точки зрения теории информации, неопре­деленность, снимаемая в результате передачи одной страницы текста примерно из 2000 знаков, может составлять всего несколько бит (неин­формативное сообщение), в то время как эта же страница при кодиро­вании букв 8-элементными кодовыми комбинациями будет содержать 16 х 103 бит, хотя это не есть количество информации, заключенное в данном тексте.

Измерение только количества информации не отвечает насущ­ным потребностям современного общества — необходима мера цен­ности информации. Проблема определения ценности информации исключительно актуальна в настоящее время, когда уже трудно даже с помощью компьютеров обрабатывать мощные информационные потоки. Разработанные методы определения ценности информации призваны сыграть существенную роль в получении человеком необ­ходимой информации.

Вообще, оценка значимости информации производится челове­ком часто интуитивно на основе использования интеллекта и опыта. Информация называется полезной, если она уменьшает неопределен­ность решающего алгоритма. По мнению М.М. Бонгарда, не имеет смысла говорить о полезной информации, содержащейся в сигнале, если не указаны задача, которая решается, начальное состояние ре­шающего алгоритма и свойства декодирующего алгоритма. Амери­канским ученым Н. Винером предпринята попытка построить се­мантическую теорию информации. Суть ее состоит и том, что для понимания и использования информации ее получатель должен об­ладать определенным запасом знаний. Действительно, полное незна­ние предмета не позволяет извлечь существенной научной информа­ции из принятого сообщения об этом предмете. По мере роста наших знаний о предмете растет и количество научной информации, извле­каемой из сообщения.

Если назвать имеющиеся у получателя знания о данном предмете тезаурусом (т. е. неким сводом слов, понятий, названий объектов, связанных смысловыми связями), то количество информации, со­держащейся в некотором сообщении, можно оценить степенью из­менения индивидуального тезауруса под воздействием данного со­общения. Иными словами, количество семантической информации, извлекаемой получателем из поступающих сообщений, зависит от степени подготовленности его тезауруса для восприятия такой ин­формации. В связи с этим появилось понятие общечеловеческого тезауруса, относительно которого можно было бы измерять семан­тическую ценность научной информации. Это сделано в попытках найти такую меру ценности информации, которая не зависела бы от состояния ее индивидуального приемника.

Пока можно сделать вывод, что задача определения ценности информации при достаточной степени формализации, которая тре­буется при компьютеризованной оценке, еще не решена, однако это не означает невозможности ее решения в будущем.

2 страница16 января 2021, 11:37

Комментарии