Количество и качество информации
Количеством информации называют числовую характеристику информации, отражающую ту степень неопределенности, которая исчезает после получения информации.
Рассмотрим пример: дома осенним утром, старушка предположила, что могут быть осадки, а могут и не быть, а если будут, то и форме снега или в форме дождя, т.е. «бабушка надвое сказала – то ли будет, то ли нет, то ли дождик, то ли снег». Затем, выглянув в окно, увидела пасмурное небо и с большой вероятностью предположила – осадки будут, т.е., получив информацию, снизила количество вариантов выбора. Далее, взглянув на наружный термометр, она увидела, что температура отрицательная, значит, осадки следует ожидать в виде снега. Таким образом, получив последние данные о температуре, бабушка получила полную информацию о предстоящей погоде и исключила все, кроме одного, варианты выбора.
Приведенный пример показывает, что понятия «информация», «неопределенность», «возможность выбора» тесно связаны. Получаемая информация уменьшает число возможных вариантов выбора (т.е. неопределенность), а полная информация не оставляет вариантов вообще.
За единицу информации принимается одинбит (англ.bit—binarydigit— двоичная цифра). Это количество информации, при котором неопределенность, т.е. количество вариантов выбора, уменьшается вдвое или, другими словами, это ответ на вопрос,требующий односложного разрешения —да или нет.
Бит — слишком мелкая единица измерения информации. На практике чаше применяются более крупные единицы, например, байт, являющийся последовательностью из восьми бит. Именно восемь битов, или один байт, используется для того, чтобы закодировать символы алфавита, клавиши клавиатуры компьютера. Один байт также является минимальной единицей адресуемой памяти компьютера, т.е. обратиться в память можно к байту, а не биту.
Широко используются еще более крупные производные единицы информации:
1 Килобайт (Кбайт) = 1024 байт = 2тбайт,
1 Мегабайт (Мбайт) = 1024 Кбайт = 220байт,
1 Гигабайт (Гбайт) = 1024 Мбайт = 2мбайт,
1 Терабайт (Тбайт) = 1024 Гбайт = 2тбайт.
За единицу информации можно было бы выбрать количество информации, необходимое для различения, например, десяти равновероятных сообщений. Это будет не двоичная (бит), а десятичная (дит) единица информации. Но данная единица используется редко в компьютерной технике, что связано с аппаратными особенностями компьютеров.
Исследованием методов передачи, хранения и приема информации занимается теория информации, инструментами которой служат теория случайных процессов, теория кодирования, математическая статистика, теория вероятностей. Внимание к проблеме передачи и количественной оценки информации было привлечено фундаментальными работами Н. Винера и К. Шеннона (США), положившими начало теории информации. Значительный вклад в теорию информации внесли отечественные ученые А.Н. Колмогоров, А.А. Харкевич, В.А. Котельников, работы которых хорошо известны специалистам во всем мире.
Важнейшим этапом в теории развития информации явилась количественная оценка информации. Только принимая за основу новизну сведений, можно дать количественную оценку информации, так как новизна сведений является следствием неопределенности сведений об объекте, процессе, явлении, а неопределенность поддается измерению. Например, сообщение имени победившего на выборах в президенты, если было всего два кандидата, несет меньшее количество информации по сравнению со случаем, если бы выборы происходили и конкурентной борьбе пяти кандидатов.
Основываясь на идее, что информация устраняет некоторую неопределенность, т. е. незнание, описание любого события или объекта формально можно рассматривать как указание на то, в каком из возможных состояний находится описываемый объект. Тогда протекание событий во времени есть не что иное, как смена состояний, выбранных с некоторой вероятностью из числа всех возможных. Чем выше уровень неопределенности выбора, тем требуется больший объем информации, и результат выбора имеет значительную степень неожиданности. Вот почему в теории информации количество информации является мерой снятия неопределенности одной случайной величины в результате наблюдения задругой. Если величины независимы, то количество информации равно нулю.
Формулу измерения количества информации можно получить эмпирически: для снятия неопределенности в ситуации из двух равновероятных событий необходим один бит информации; при неопределенности, состоящей из четырех событий, достаточно двух бит информации, чтобы угадать искомый факт. Это рассуждение можно продолжить: 3 бита информации соответствуют неопределенности из 8 равновероятных событий, 4 бита - 16 равновероятных событий и т. д. Таким образом, если сообщение указывает на один из п равновероятных вариантов, то оно несет количество информации, равное log2n. Действительно, из наших примеров log 216 =4, log 28 =3 и т. д. Ту же формулу можно словесно выразить иначе: количество информации равно степени, в которую необходимо возвести 2, чтобы получить число равноправных вариантов выбора, т.е. 2'= 16, где i = 4 бита.
Будем различать понятия «информация» и «сообщение». Под сообщением обычно подразумевают информацию, выраженную в определенной форме и подлежащую передаче. Сообщение — это форма представления информации. Есть одна особенность, которая связана с количеством хранимой или переданной информации, представленной в двоичных единицах, и количеством информации, заключенным в данном сообщении. С точки зрения теории информации, неопределенность, снимаемая в результате передачи одной страницы текста примерно из 2000 знаков, может составлять всего несколько бит (неинформативное сообщение), в то время как эта же страница при кодировании букв 8-элементными кодовыми комбинациями будет содержать 16 х 103 бит, хотя это не есть количество информации, заключенное в данном тексте.
Измерение только количества информации не отвечает насущным потребностям современного общества — необходима мера ценности информации. Проблема определения ценности информации исключительно актуальна в настоящее время, когда уже трудно даже с помощью компьютеров обрабатывать мощные информационные потоки. Разработанные методы определения ценности информации призваны сыграть существенную роль в получении человеком необходимой информации.
Вообще, оценка значимости информации производится человеком часто интуитивно на основе использования интеллекта и опыта. Информация называется полезной, если она уменьшает неопределенность решающего алгоритма. По мнению М.М. Бонгарда, не имеет смысла говорить о полезной информации, содержащейся в сигнале, если не указаны задача, которая решается, начальное состояние решающего алгоритма и свойства декодирующего алгоритма. Американским ученым Н. Винером предпринята попытка построить семантическую теорию информации. Суть ее состоит и том, что для понимания и использования информации ее получатель должен обладать определенным запасом знаний. Действительно, полное незнание предмета не позволяет извлечь существенной научной информации из принятого сообщения об этом предмете. По мере роста наших знаний о предмете растет и количество научной информации, извлекаемой из сообщения.
Если назвать имеющиеся у получателя знания о данном предмете тезаурусом (т. е. неким сводом слов, понятий, названий объектов, связанных смысловыми связями), то количество информации, содержащейся в некотором сообщении, можно оценить степенью изменения индивидуального тезауруса под воздействием данного сообщения. Иными словами, количество семантической информации, извлекаемой получателем из поступающих сообщений, зависит от степени подготовленности его тезауруса для восприятия такой информации. В связи с этим появилось понятие общечеловеческого тезауруса, относительно которого можно было бы измерять семантическую ценность научной информации. Это сделано в попытках найти такую меру ценности информации, которая не зависела бы от состояния ее индивидуального приемника.
Пока можно сделать вывод, что задача определения ценности информации при достаточной степени формализации, которая требуется при компьютеризованной оценке, еще не решена, однако это не означает невозможности ее решения в будущем.
