BTC/USD

65028

ETH/USD

1876.52

USD/UAH

44.81

EUR/UAH

51.06

RU UA

Язык

UA RU

Политика

Бизнес

Здоровье

HI-tech

Спорт

Звезды

Мужчины

Досье

Рубрики

МЕНЮ

НОВОСТИ Все новости

Интернет-археологам будущего придётся туго

Перед историками будущего встанет проблема: как осмыслить наше необъятное цифровое наследие?

Читати українською

22 апреля 2011, 04:24

Поделитесь публикацией:

Автор:

Станислав Молчанов

Интернет-археологам будущего придётся туго

Многие из нас порождают больше данных, чем способны контролировать: руки никак не дойдут до того, чтобы разложить все эти бесконечные фотографии по альбомам; содержимое жёстких дисков в жутком беспорядке; Интернет с его бессистемностью и анонимностью выглядит не лучше.

Все эти HTML, MP3- и JPEG-файлы, составляющие основу современной Всемирной паутины, вероятно, останутся читаемыми в течение очень долгого времени. Но определение их первоначального происхождения и подлинности — незаурядная задача, так как данные часто дублируется, редактируются, аннотируются и изменяются.

Чтобы защитить наши файлы, мы, как правило, создаём резервные копии, отправляем их сами себе по электронной почте или размещаем в Интернете. Файлы также проходят через "руки" многих людей. Все эти действия вносят в них изменения, не видимые невооружённым глазом. Интернет-археологам они сослужат двойную службу: с одной стороны, тем самым они получат ценную информацию о том, как распространялись данные; с другой — будет практически невозможно установить, кто создал тот или иной файл.

Один из возможных способов выявления истины — хеширование (hashing): этот математический метод позволяет представить крупный массив данных в виде небольшого ("хеш-значение"), что облегчает сравнение файлов. Однако даже незначительные изменения в исходных данных приводят к появлению совсем другого хеш-значения, так что связь между копиями увидеть трудно.

Можно разбить файлы на сегменты и присвоить каждому отдельное хеш-значение — тогда станет ясно, что, если два файла состоят в основном из одинаковых сегментов, они связаны между собой. Увы, в случае некоторых типов файлов этот метод работает не очень хорошо. Например, небольшое сжатие изображения не сильно повлияет на его внешний вид, но хеш-значение изменится существенно.

А как быть с текстами? Интернет переполнен анонимными комментариями, обновлениями статуса и сообщениями в блогах — как найти авторов? Прежде всего можно воспользоваться старым добрым способом: проанализировать словарный запас, длину предложений, грамматические структуры, ошибки. Исследователи из Национального института вычислительной техники и автоматизации в Гренобле (Франция) утверждают, что можно определить пользователя по одним только его никам.

С наиболее простой системой анализа можно ознакомиться на сайте I Write Like — и заодно выяснить, стиль какого писателя напоминает ваша манера изъясняться. Правда, есть проблема: если вы введёте текст известного литератора, машина за редким исключением не сможет угадать, чьему перу он принадлежит.

И ещё одна проблема: со временем стиль может существенно измениться. Один из примеров — Агата Кристи.

Другой подход — семантический анализ. Например, этим занимается Аарон Цинман из Массачусетского технологического института (США). Он разработал программу Defuse, которая определяет, насколько запись в анонимном блоге соответствует общественным ценностям. Разумеется, это всего лишь попытка оценки, и у разных программ результаты будут совершенно разными.

Так как же быть историкам будущего? Вероятно, следует признать, что, несмотря на обилие информации, специалистам предстоит всё так же собирать нашу жизнь по кусочкам и обрывкам.

Читайте Comments.ua в Google News

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter.

Новости партнеров

Новости

Все новости

Подписывайтесь на уведомления, чтобы быть в курсе последних новостей!

Интернет-археологам будущего придётся туго

Перед историками будущего встанет проблема: как осмыслить наше необъятное цифровое наследие?

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: