Благодаря применению искусственного интеллекта и трехмерной томографии ученые смогли прочесть текст, которые оставался скрытым две тысячи лет, – один из папирусов из Геркуланума. Геркуланумские папирусы обнаружили еще в XVIII веке во время раскопок, но многие из них прочесть невозможно: свитки обуглились и при разворачивании просто рассыпаются. В 2023 году ученые и разработчики объединились для участия в хакатоне Vesuvius Challenge – и смогли создать программное обеспечение на основе искусственного интеллекта, позволившее расшифровать неизвестную ранее рукопись философа-эпикурейца.

Настоящее время рассказывает, как это удалось сделать и почему новая технология обещает настоящий прорыв в изучении античной филологии и истории – и возможно, новые раскопки в Геркулануме.

Библиотека, погребенная под пеплом

"Вилла Папирусов" – одна из самых удивительных находок в погребенном под пеплом Везувия в 79 году нашей эры Геркулануме. Роскошный дворец площадью порядка 2790 квадратных метров расположен в нескольких сотнях метров от самого античного города. Кто был его хозяином, точно неизвестно. Однако ученые убеждены, что это был не только состоятельный, но и просвещенный человек, покровитель и знаток искусства и литературы. Среди вероятных владельцев историки называют Луция Кальпурния Пизона Цезонина – отца Кальпурнии, третьей жены Юлия Цезаря, – либо его сына, друга императоров Августа и Тиберия. По другой версии, первым хозяином виллы мог быть эпикурейский философ и поэт Филодем.

Вилла была обнаружена в конце 1740-х годов, первые раскопки на ней велись горнопроходческим способом. В грунте и застывшем пепле прорубались тоннели, породу и попавшиеся в ней артефакты засыпали в корзины и выносили на поверхность, как руду из шахты. Кроме многочисленных статуй, мозаик и архитектурных фрагментов на вилле были найдены сплющенные и обгоревшие цилиндры, которые рабочие сперва приняли за дрова и использовали для растопки костров. Однако присутствующие на раскопках ученые вскоре догадались, что это спрессованные при большой температуре папирусы. На вилле была открыта единственная известная до сих пор подлинная античная библиотека.

Всего раскопать удалось более 1800 свитков. Однако их прочтение стало серьезной проблемой. Веками свитки пытались разворачивать механическими и даже химическими способами, например, обрабатывая их сложными составами на основе жидкой ртути и глицерина. Или более удачными – при помощи хлора. В итоге значительную часть свитков удалось развернуть и прочесть. В них были обнаружены несколько сотен произведений античных поэтов и философов: Эпикура, Корнеиска, Колота, Метродора, Полистрата, Филодема, в том числе ранее неизвестных.

При этом исследования шли отнюдь не безболезненно. В процессе попыток прочтения, особенно на раннем этапе, часть папирусов была уничтожена, буквально рассыпавшись в руках у ученых. Несмотря на все жертвы и усилия, на сегодня неразвернутыми и нерасшифрованными остаются несколько сотен свитков.

Свиток после попытки механического разворачивания. Фото: Vesuvius Challenge

Свиток после попытки механического разворачивания. Фото: Vesuvius Challenge

ИИ заставили думать о Римской империи

Цифровые попытки прочтения свитков предпринимались уже много лет. В том числе было проведено их 3D-сканирование, ученые надеялись виртуально "размотать" папирусы, физически не разворачивая их. Однако первое время такие попытки позволяли увидеть только отдельные неясные фрагменты внутренности свитков и следы чернил. Ученым удавалось распознать отдельные буквы текстов, но даже их правильное прочтение не было консенсусом, не говоря о словах или фрагментах текста.

Одним из пионеров использования современных компьютерных технологий для исследования папирусов стал профессор Университета Кентукки Брент Силс. Еще в 2009 году он разработал технологию "виртуального развертывания" свитков, но тогда сложность проблемы оказалась чрезмерной для программного обеспечения. Тем не менее Силс не сдался. В 2016 году ему удалось с помощью компьютера прочитать древнееврейский обугленный свиток, обнаруженный в оазисе Эйн-Геди, не разворачивая его. Увы, применить ту же технологию к папирусам Геркуланума не получалось.

Силс же первым решил поручить исследование свитков времен Древнего Рима искусственному интеллекту. Профессор надеялся, что ИИ начнет улавливать детали, которые упускает человеческий глаз, и сможет применять полученный навык ко все более запутанным фрагментам. В результате Силсу удалось обнаружить новые читаемые фрагменты, но совсем небольшие. Продолжение работы требовало технологического прорыва, а также больших финансовых и технологических ресурсов.

Внешний вид свитка, фрагмент которого в итоге был расшифрован участниками хакатона. Фото: Vesuvius Challenge

Внешний вид свитка, фрагмент которого в итоге был расшифрован участниками хакатона. Фото: Vesuvius Challenge

В 2020 году проблемой свитков заинтересовался основатель и бывший CEO платформы GitHub, технологический инвестор из Кремниевой долины Нат Фридман. Он пригласил Силса в Кремниевую долину на встречу с крупными технологическими предпринимателями и в 2022 году сам вызвался профинансировать хакатон Vesuvius Challenge, цель которого была все та же – при помощи технологий научиться читать папирусы из Геркуланума. Средства также вложили друзья и партнеры Фридмана, суммарный призовой фонд челленджа составил около $1 миллиона. Команда Силса, который стал научным консультантом конкурса, собрала для участников все доступные изображения и сканирования свитков.

Кроме того, итальянское правительство предложило Силсу доступ к двум папирусам для создания их цифровых копий в сверхвысоком разрешении. Для этого их самолетом доставили в Англию, где, поместив в идеально подогнанные напечатанные на 3D-принтере чехлы, отсканировали при помощи ускорителя частиц. Получившиеся в итоге файлы каждого свитка оказались настолько велики, что их невозможно обработать на обычном компьютере. Впрочем, это и не требовалось. Для победы в конкурсе нужно было прочесть не целый папирус, а лишь четыре отрывка из не менее 140 символов непрерывного текста. Кроме того, были назначены призы за промежуточные достижения.

Сканирование свитка с помощью ускорителя частиц Diamond Light Source. Фото: Vesuvius Challenge

Сканирование свитка с помощью ускорителя частиц Diamond Light Source. Фото: Vesuvius Challenge

В октябре 2023 года Люк Фарритор из Школы Райкса при Университете Небраски получил премию в $40 тысяч за то, что при помощи программы, основанной на алгоритме машинного обучения, смог прочитать целое слово из отсканированного неразвернутого папируса – "фиолетовый" ("пурпурный"), основываясь на следах от чернил. Фарритор объединился в команду с молодыми учеными Юссефом Надером и Джулианом Шиллигером. Вместе они смогли усовершенствовать программу так, что она "сканировала" полученные на томографе фрагменты снимка, распознавая наличие и отсутствие чернил. При этом чтобы застраховаться от галлюцинирования нейросети (то есть додумывания правдоподобного или ожидаемого решения), разработчики максимально сузили "окно" внимания программы.

Слева направо: Юссеф Надер, Люк Фарритор, Джуллиан Шиллигер

Вместе ученым удалось восстановить в цельный текст уже 5% от папируса. Этот результат принес Фарритору, Надеру и Шиллигеру гран-при Vesuvius Challenge 2023 года в размере $700 тысяч.

Восстановленный фрагмент был опубликован 5 февраля 2024 года. Специалисты по античным древностям сумели интерпретировать обнаруженный ИИ текст. Это ранее неизвестное произведение философа эпикурейской школы, в котором неназванный автор рассуждает об удовольствиях, в частности, от еды и музыки. Кроме того, он обрушивается на своих критиков (предположительно, речь идет о философах-стоиках): им якобы "нечего сказать об удовольствии ни вообще, ни в частности". Предполагается, что автором рукописи был упоминавшийся выше философ Филодем – один из возможных владельцев "Виллы Папирусов".

Расшифровка такого большого фрагмента папируса позволяет говорить о переходе от автоматического распознавания отдельных слов и символов к систематическому машинному чтению свитков целиком. Собственно, на следующий год организаторы Vesuvius Challenge обещают главный приз первой команде, которая сумеет расшифровать 90% всех четырех отсканированных на сегодня свитков.

Текст, который никто не видел в течение последних двух тысяч лет. Расшифрованный фрагмент на фото – 5% всего свитка. Цвет папируса добавлен при обработке изображения, в реальности фон и чернила одного цвета из-за обугливания. Фото: Vesuvius Challenge

Текст, который никто не видел в течение последних двух тысяч лет. Расшифрованный фрагмент на фото – 5% всего свитка. Цвет папируса добавлен при обработке изображения, в реальности фон и чернила одного цвета из-за обугливания. Фото: Vesuvius Challenge

Кроме того, пишет журнал Nature, отработанная на папирусах из Геркуланума технология теперь может быть использована для изучения других типов скрытого текста, например, для прочтения "картонажа". Это переработанные на ленты папирусы с текстом, которые часто использовались для заворачивания египетских мумий.