22.03.2023 16:16
Мероприятия.
Просмотров всего: 16054; сегодня: 6.

В Москве прошел круглый стол Цифровизация письменного наследия России

22 марта 2023 года в Доме Российского исторического общества состоялся круглый стол на тему «Цифровизация письменного наследия России: проблемы и перспективы».

В ходе мероприятия были подведены итоги реализации совместного проекта Сбера и РИО «Digital Пётр», нацеленного на распознавание рукописей Петра I, а также рассмотрены перспективы развития цифровизации на примере арабографичных книг и тибетских рукописей.

Дискуссию открыл заместитель Министра науки и высшего образования Российской Федерации, член Президиума Российского исторического общества Константин Могилевский, отметивший глубину проникновения искусственного интеллекта во все сферы общественной жизни, в том числе в работу с архивными документами:

«Мы с вами находимся сейчас даже не на пороге, а уже на первом этапе бытования нового технологического уклада, связанного с цифровизацией всех сфер нашей жизни. С появлением искусственного интеллекта в тех сферах, в которых ещё год назад сложно было бы представить, что он сможет помочь человеку и даже в чём-то заменить человеческий труд. Это очень серьёзные вещи, которые происходят быстро. Те, кто сейчас не поймёт этих процессов во всех отраслях человеческой деятельности, рискуют безнадёжно отстать. Это касается и работы с письменным наследием».

«Большинство коллег из нашей сферы считают, что оцифровка — это сканирование. Если мы выйдем за пределы историко-архивного сообщества по всей стране, во всём мире оцифровка — это совсем другая организация процесса, это внедрение искусственного интеллекта <…> Поэтому необходимо приходить к пониманию того, что такое оцифровка в современном архивном деле в части, прежде всего, использования документов. Полагаю, коллеги подумают о том, как и в других направлениях архивного дела — хранении, учёте — может быть использован искусственный интеллект», — добавил Константин Могилевский.

Его мысль продолжил ВРИО председателя Правления Российского исторического общества Руслан Гагкуев, подчеркнувший востребованность использования искусственного интеллекта в исторической науке:

«Я убеждён, что тема цифровизации письменного наследия России для подавляющего большинства историков — вопрос насущный и важный. Все мы постоянно в нашей каждодневной практике так или иначе работаем с письменными документами, источниками, рукописными текстами. Это всегда, с одной стороны, очень волнительно и ответственно, а с другой стороны, конечно, время, которое в ряде случаев нам приходится тратить на осмысление этих источников, на чтение тех почерков, которые относятся даже к ХХ веку, я не говорю про более ранние, очень значительно. Надеюсь, современные технологии и искусственный интеллект смогут в ближайшем будущем облегчить нашу работу и проводить исследования более быстро и качественно».

В свою очередь, директор Санкт-Петербургского Института истории Российской академии наук, член Правления Российского исторического общества Алексей Сиренов наметил перспективы дальнейшего развития проекта «Digital Пётр» и отметил необходимость объединения усилий историков в работе по оцифровке документов:

«Мы сейчас видим, что по одному и тому же пути идут коллеги из разных научных центров. Сегодня у нас будет возможность познакомиться с результатами этой работы и с её ходом. Тут должна быть и Республика Татарстана, и Республика Бурятия и то, что мы делали с петровскими рукописями. Очевидно, что здесь нам нужно действовать скоординировано. Это, мне кажется, проблема, которую сегодняшний наш разговор может поставить и отчасти решить. Это не значит, что мы должны в одном ключе действовать, так как материалы разные. Тем не менее, координация здесь нужна, так как в конечном счёте мы делаем одно общее дело».

На круглом столе также выступили руководитель Центра восточных рукописей и ксилографов Института монголоведения, буддологии и тибетологии Сибирского отделения РАН Олег Ринчинов, директор Российского государственного архива древних актов Владимир Аракчеев, исполнительный директор по исследованию данных Sber AI Денис Димитров и другие специалисты в области цифровизации архивных документов.

Подводя итоги дискуссии, Руслан Гагкуев подчеркнул значимость обсуждения проблем и перспектив цифровизации письменного наследия.

«По итогам работы круглого стола будем исходить из необходимости продолжения нашей работы, выработки практических мер», — резюмировал он.

Оцифровка документов Архивного фонда Российской Федерации и других архивных документов, которая ведётся уже несколько лет, даёт исследователям и посетителям архивов несколько неоспоримых преимуществ — это и возможность легко получить доступ к интересующему документу, и обеспечение его сохранности, и возможность высвобождения архивных площадей.

Оцифровка является комплексным и трудоёмким процессом. Перед началом непосредственного сканирования документов специалисты проводят экспертизу, определяют структуру исследуемого архивного фонда, качественные и количественные характеристики документов, выбирают технологию и оборудование для сканирования. На следующем этапе производится создание графических образов документов с помощью сканеров, результатом которого являются электронные копии документов, которые затем каталогизируются и записываются на носители информации. Ключевая стадия оцифровки — распознавание текста документов, позволяющее при дальнейшей работе с архивными фондами легко находить и изучать интересующий источник. Наиболее эффективно расшифровывают документы программы, основанные на технологиях искусственного интеллекта.

Работа над оцифровкой документов Архивного фонда Российской Федерации и других архивных документов, включая размещённые в государственных архивах субъектов Российской Федерации и муниципальных архивах, в том числе с применением технологий искусственного интеллекта, ведётся Минцифры России совместно с Росархивом и Российской академией наук в рамках поручения Президента Российской Федерации по итогам совместного заседания Госсовета и Совета по науке и образованию (Пр-290, п. 8). Значительный вклад в этот процесс внесло и поручение Президента по итогам конференции по искусственному интеллекту в 2020 году (Пр-2242, п. 2), во исполнение которого в регионах России были разработаны и утверждены стратегии цифровой трансформации ключевых отраслей экономики, социальной сферы, государственного управления, предусматривающие внедрение конкурентоспособного отечественного программного обеспечения и программно-аппаратных комплексов, созданных в том числе на основе технологий искусственного интеллекта.

Российское историческое общество принимает деятельное участие в оцифровке архивов. Так, при поддержке фонда «История Отечества» создана Электронная библиотека исторических документов, в которой исследователи в открытом доступе смогут найти, в перспективе, все исторические документы, опубликованные в России с 1991 года. Портал позволяет читать документы на экране компьютера, делать по ним полнотекстовой поиск, а также просматривать с помощью системы Указателей.

Одним из наиболее крупных проектов в области оцифровки архивных документов с применением искусственного интеллекта является «Digital Пётр» — разработанный в преддверии 350-летия со дня рождения Петра I Российским историческим обществом, фондом «История Отечества» и Сбером проект, который позволяет за несколько секунд получить в максимально удобном и понятном формате расшифровку рукописей Петра Первого. В течение многих лет изучение выдающейся личности первого российского императора сдерживалось медленными темпами публикации его рукописного наследия. Первый сборник из серии «Письма и бумаги Петра Великого» вышел из печати ещё в 1887 году, однако и сегодня эта работа по-прежнему далека от своего завершения. Одной из причин её огромной трудоёмкости является неразборчивый почерк императора.

Решить эту проблемы и призван «Digital Пётр». В ходе работы над проектом в Санкт-Петербургском институте истории РАН была сформирована рабочая группа, состоящая из научных сотрудников — специалистов по истории Петровской эпохи, а также палеографии и археографии. Источниковой базой стали рукописи из собраний Санкт-Петербургского института истории РАН и Российского государственного архива древних актов. Командой проекта был выбран подход, основанный на нейронных сетях и глубоком обучении, с помощью которого на основе девяти тысяч строк петровских текстов разных лет параметры нейронной сети были адаптированы под конкретную задачу распознавания почерка императора. Благодаря технологиям компьютерного зрения, обработки естественного языка и графы знаний разработчикам проекта удалось добиться качества расшифровки в 97 %, при этом время распознавания составляет 35 страниц в минуту, тогда как у историков на расшифровку каждой страницы столь сложного почерка уходит по несколько часов. Подобное технологическое решение открывает новые перспективы не только в исследовании текстов Петра I, но и в изучении других рукописных документов. В настоящее время сотни тысяч документов по истории России XVII–XVIII веков остаются неизданными в том числе потому, что их чтение доступно только специалистам. Машинное распознавание скорописи существенно упростило бы задачу публикации таких источников.

Другим значимым проектом в сфере оцифровки архивных документов, основанным на технологиях искусственного интеллекта, стал «Поиск по архивам», разработанный Яндексом. Изначально команда проекта занималась генеалогическими исследованиями, но, столкнувшись с необходимостью вручную отсматривать множество сканов рукописных документов, чтобы найти информацию о родственниках, разработчики приняли решение во взаимодействии с архивными работниками создать сервис, с помощью нейронной сети автоматически распознающий рукописные тексты от XVIII до начала XX века.

Основой проекта стала технология оптического распознания символов — OCR, работа над использованием которой уже велась в Яндексе. Использовав первоначальную обучающую выборку в 2000 документов, команда проекта обучила нейронную сеть распознавать строки, расшифровывать их и группировать в смысловые блоки. На данный момент программа расшифровала уже более 4 миллионов страниц документов, которые теперь можно легко найти в поиске и прочесть, не тратя время на разбор рукописного текста.

Текст: Михаил Дорофеев

Фото: Александр Шалгин


В Москве прошел круглый стол Цифровизация письменного наследия России

В Москве прошел круглый стол Цифровизация письменного наследия России

В Москве прошел круглый стол Цифровизация письменного наследия России

В Москве прошел круглый стол Цифровизация письменного наследия России


Ньюсмейкер: Национальное деловое партнерство "Альянс Медиа" — 12077 публикаций
Сайт: historyrussia.org/sobytiya/kruglyj-stol-tsifrovizatsiya-pismennogo-naslediya-rossii-problemy-i-perspektivy.html
Поделиться:

Интересно:

Адмирала Кузнецова вызывали к Сталину рекордное число раз
24.07.2024 18:10 Интервью, мнения
Адмирала Кузнецова вызывали к Сталину рекордное число раз
Решительность адмирала Николая Кузнецова и уверенность в своей правоте спасла ВМФ СССР в самом начале Великой Отечественной войны, это качество флотоводец затем всегда демонстрировал в кабинете у Иосифа Сталина, который множество раз вызывал его к себе, рассказал РИА Новости председатель отделения...
120-летие Адмирала Флота Николая Кузнецова отметили в Архангельске
24.07.2024 17:02 Новости
120-летие Адмирала Флота Николая Кузнецова отметили в Архангельске
Человек, трудами которого создан современный российский флот, оставил заметный след в истории России. Его имя сегодня носят улицы и проспекты, образовательные организации и военные корабли. И, конечно, особо чуткое отношение к жизни и деятельности Н.Г. Кузнецова у его земляков. Николай Кузнецов...
Памятная доска полководцу Белой армии В. Каппелю открыта в Ульяновске
24.07.2024 16:47 Новости
Памятная доска полководцу Белой армии В. Каппелю открыта в Ульяновске
По благословению Митрополита Симбирского и Новоспасского Лонгина, на территории Архиерейского подворья — храма в честь равноапостольного великого князя Владимира была открыта памятная доска, посвященная генералу Владимиру Каппелю. Настоятель храма протоиерей Святослав Еренков совершил панихиду о...
Граждан защитят от мошеннических переводов по-новому
24.07.2024 14:25 Консультации
Граждан защитят от мошеннических переводов по-новому
С 25 июля 2024 года вступает в силу закон, по которому банки обязаны приостанавливать на два дня переводы, если информация о получателе денег содержится в базе данных Банка России о случаях и попытках мошеннических операций...
Свыше 47 тыс. жителей Беларуси посетили музей «Поезд Победы» в 2024 г.
24.07.2024 14:08 Новости
Свыше 47 тыс. жителей Беларуси посетили музей «Поезд Победы» в 2024 г
Историко-просветительский и общественно-патриотический проект «Поезд  Победы» в 2024 году был реализован в Республике Беларусь в рамках празднования 80-летия освобождения страны от немецко-фашистских захватчиков Белорусской железной дорогой совместно с ОАО «Российские железные дороги» при...