Автоматизированное распознавание рукописных текстов с помощью алгоритмов искусственного интеллекта: российский и зарубежный опыт

Юмашева Юлия Ю.

doi:10.31696/S278240120026084-5

Главная>№ 1-2>Автоматизированное распознавание рукописных текстов с помощью алгоритмов искусственного интеллекта: российский и зарубежный опыт

Автоматизированное распознавание рукописных текстов с помощью алгоритмов искусственного интеллекта: российский и зарубежный опыт

Оглавление

Аннотация Оценить Содержание публикации

Библиография Комментарии

Аннотация

Код статьи

S278240120026084-5-1

DOI

10.31696/S278240120026084-5

Тип публикации

Обзор

Статус публикации

Опубликовано

Авторы

Юмашева Юлия Юрьевна Связаться с автором

ORCID: 0000-0001-8353-5745

Должность: д.и.н., заместитель генерального директора по научно-методической работе
Аффилиация: ООО "ДИМИ-ЦЕНТР"
Адрес: Россия, Москва

Выпуск

Том 3 № 1-2

Страницы

24-32

Аннотация

HTR-сервисы, представленные онлайн, акцентирует внимание на интернет-ресурсах по европейской и восточной (японской, китайской) палеографии, описывает основные технологические принципы их реализации.

Ключевые слова

палеография, рукописный текст, средневековые исторические источники, оптическое распознавание, распознавание рукописных текстов, искусственный интеллект, наборы данных

Классификатор

Получено

16.06.2023

Дата публикации

25.09.2023

Всего подписок

Всего просмотров

200

Оценка читателей

0.0 (0 голосов)

Цитировать Скачать pdf

ГОСТ	Юмашева Ю. Ю. Автоматизированное распознавание рукописных текстов с помощью алгоритмов искусственного интеллекта: российский и зарубежный опыт // Digital Orientalia. – 2023. – T. 3. – № 1-2 C. 24-32 . URL: https://do.jes.su/s278240120026084-5-1/. DOI: 10.31696/S278240120026084-5
MLA	Yumasheva, Julia "Automated handwriting recognition using artificial intelligence algorithms: Russian and foreign experience." Digital Orientalia. 3.1-2 (2023).:24-32. DOI: 10.31696/S278240120026084-5
APA	Yumasheva J. (2023). Automated handwriting recognition using artificial intelligence algorithms: Russian and foreign experience. Digital Orientalia. vol. 3, no. 1-2, pp.24-32 DOI: 10.31696/S278240120026084-5

Доступ к дополнительным сервисам

Дополнительные сервисы только на эту статью

Преимущества сервисов

100 руб. / 1.0 SU

Библиография

1. Программа Круглого стола «Искусственный интеллект в исторических исследованиях: автоматизированное распознавание текстов рукописных исторических источников», 11 февраля 2023 г. РАНХиГС. https://aik-hisc.ru/static/pdfs/aik_docs/семинар_ИИ_2023.pdf (дата обращения: 16.06.2023)

2. Видеозапись выступлений на Круглом столе 11 февраля 2023, РАНХиГС. https://www.youtube.com/watch?v=iP7kpaDBPP4 (дата обращения: 16.06.2023)

3. Базарова Т.А., Проскурякова М.Е. Автографы Петра I: чтение технологиями искусственного интеллекта и создание электронного архива // Историческая информатика. 2022. № 4 (42). С. 179—190.

4. Автографы Петра Великого и технологии искусственного интеллекта. Новости РИО. https://historyrussia.org/sobytiya/avtografy-petra-velikogo-i-tekhnologii-iskusstvennogo-intellekta.html (дата обращения: 16.06.2023)

5. Автографы Петра I. Электронный архив. https://peterscript.historyrussia.org/ (дата обращения: 16.06.2023)

6. Письма и бумаги императора Петра Великого. Том XIV. Выпуск I. Январь – июнь 1714 г. Издательство «Древлехранище», Москва, 2022. 928 с.

7. Литвак Б.Г. О достоверности сведений губернаторских отчетов XIX в. // Источниковедение отечественной истории. М., 1976. С.125-144.

8. Минаков А.С. Годовые всеподданнейшие отчеты губернаторов: исследовательский опыт и источниковедческие перспективы //Археографический ежегодник за 2009-2010 годы. М., Наука. 2013. С. 37-55.

9. Штерман И. Сибирские ученые начали расшифровку старинных книг при помощи нейросети // Российская газета. Иркутск. 05.04.2022. https://rg.ru/2022/04/05/reg-dfo/sibirskie-uchenye-nachali-rasshifrovku-starinnyh-knig-pri-pomoshchi-nejroseti.html (дата обращения: 16.06.2023)

10. Базаров Б.В., Ринчинов О.C., Базаров А.А. Цифровая трансформация письменного наследия тибетского буддизма: состояние и перспективы // Oriental Studies. 2022;15(4):740-750. https://doi.org/10.22162/2619-0990-2022-62-4-740-750 (дата обращения: 16.06.2023)

11. International Conference on Document Analysis and Recognition (ICDAR) // https://icdar2021.org/; https://www.icdar.org/document-analysis/ (дата обращения: 16.06.2023)

12. Ranade S. Traces through Time: A Probabilistic Approach to Connected Archival Data // 2016 IEEE International Conference on Big Data (Big Data), 3260–65. Washington DC, USA: IEEE. https://doi.org/10.1109/BigData.2016.7840983 (дата обращения: 16.06.2023)

13. Colavizza, G., Ehrmann, M., Bortoluzzi, F. Index-Driven Digitization and Indexation of Historical Archives // Frontiers in Digital Humanities. 2019. №6 (March). https://doi.org/10.3389/fdigh.2019.00004 (дата обращения: 16.06.2023)

14. Wilde M. de, Hengchen S. Semantic Enrichment of a Multilingual Archive with Linked Open Data // Digital Humanities Quarterly. 2017. № 11(4).

15. Chauhan R. eScriptorium: Digital Text Production for Urdu, Hindi, and Bengali Print, part 1 // The Digital Orientalist. https://digitalorientalist.com/2022/11/15/escriptorium-digital-text-production-for-urdu-hindi-and-bengali-print-part-1/ (дата обращения: 16.06.2023)

16. Chauhan R. eScriptorium: Digital Text Production for Urdu, Hindi, and Bengali Print, part 2 // The Digital Orientalist. https://digitalorientalist.com/2023/01/31/escriptorium-digital-text-production-for-urdu-hindi-and-bengali-print-part-2/ (дата обращения: 16.06.2023)

17. Cursive Japanese and OCR: Using KuroNet // The Digital Orientalist. https://digitalorientalist.com/2020/02/18/cursive-japanese-and-ocr-using-kuronet/ (дата обращения: 16.06.2023)

18. Kitamoto Asanobu, Tarin Karanuwat. Kuzushi Character Recognition by AI and the Road to Full-text Search for Historical Materials // Specialized Library, No. 300, pp. 26-32, 2020/5 (北本朝展, カラーヌワットタリン, "AIによるくずし字認識と歴史的資料全文検索への道", 専門図書館, No. 300, pp. 26-32, 2020年5月)

19. Tallinn Karanuwat, KITAMOTO Asanobu. Evolution of Kuzushi Character Recognition and Development of Service // Humanities and Computer Symposium Jinmonkon2020 Proceedings, pp. 3-10, 2020 year 12 month (カラーヌワットタリン, 北本朝展, "くずし字認識の進化とサービス化の展開", 人文科学とコンピュータシンポジウムじんもんこん2020論文集, pp. 3-10, 2020年12月)

20. Yingtao Tian, Tarin Clanuwat, Chikahiko Suzuki, Asanobu Kitamoto. Ukiyo-e Analysis and Creativity with Attribute and Geometry Annotation // Arxiv.org. https://arxiv.org/pdf/2106.02267.pdf (дата обращения: 16.06.2023)

21. Poli M. The evolution of Kaom.net // The Digital Orientalist. https://digitalorientalist.com/2023/05/16/the-evolution-of-kaom-net/ (дата обращения: 16.06.2023)

22. Liu Yanling. Rarely used Chinese characters to be collected and made available online // Global Times. Apr 24, 2023. https://www.globaltimes.cn/page/202304/1289735.shtml (дата обращения: 16.06.2023)


1	Возможности новых информационных технологий в вопросах автоматизированного распознавания рукописных текстов исторических источников в настоящее время являются одними из наиболее обсуждаемых тем в научных дискуссиях. Этой проблематике был посвящен и Круглый стол, проходивший в феврале 2023 г. в РАНХиГС, центральной темой которого было обсуждение опыта научных учреждений Российской Федерации по применению автоматизированного оптического распознавания текстов электронных копий архивных документов с помощью алгоритмов искусственного интеллекта [1, 2].	Возможности новых информационных технологий в вопросах автоматизированного распознавания рукописных текстов исторических источников в настоящее время являются одними из наиболее обсуждаемых тем в научных дискуссиях. Этой проблематике был посвящен и Круглый стол, проходивший в феврале 2023 г. в РАНХиГС, центральной темой которого было обсуждение опыта научных учреждений Российской Федерации по применению автоматизированного оптического распознавания текстов электронных копий архивных документов с помощью алгоритмов искусственного интеллекта [1, 2]. Возможности новых информационных технологий в вопросах автоматизированного распознавания рукописных текстов исторических источников в настоящее время являются одними из наиболее обсуждаемых тем в научных дискуссиях. Этой проблематике был посвящен и Круглый стол, проходивший в феврале 2023 г. в РАНХиГС, центральной темой которого было обсуждение опыта научных учреждений Российской Федерации по применению автоматизированного оптического распознавания текстов электронных копий архивных документов с помощью алгоритмов искусственного интеллекта [1, 2].

2	Участникам и слушателям Круглого стола были представлены два основных доклада по заявленной проблематике. Первый доклад о проекте «Digital Петр», осуществляемом специалистами Санкт-Петербургского института истории РАН и ПАО «СберБанк», хорошо известен. Проект неоднократно был представлен на различных конференциях [3, 4] и даже имеет собственный сайт в сети Интернет [5]. Его авторы применили методы искусственного интеллекта (artificial intelligence, AI) – комбинацию трех нейросетей для автоматизированного прочтения рукописей Петра I. В результате AI с уверенностью распознал рукописи 1709–1713 гг., уже прочитанные палеографами и даже изданные в «твердой» обложке [6].	Участникам и слушателям Круглого стола были представлены два основных доклада по заявленной проблематике. Первый доклад о проекте «Digital Петр», осуществляемом специалистами Санкт-Петербургского института истории РАН и ПАО «СберБанк», хорошо известен. Проект неоднократно был представлен на различных конференциях [3, 4] и даже имеет собственный сайт в сети Интернет [5]. Его авторы применили методы искусственного интеллекта (artificial intelligence, AI) – комбинацию трех нейросетей для автоматизированного прочтения рукописей Петра I. В результате AI с уверенностью распознал рукописи 1709–1713 гг., уже прочитанные палеографами и даже изданные в «твердой» обложке [6]. Участникам и слушателям Круглого стола были представлены два основных доклада по заявленной проблематике. Первый доклад о проекте «Digital Петр», осуществляемом специалистами Санкт-Петербургского института истории РАН и ПАО «СберБанк», хорошо известен. Проект неоднократно был представлен на различных конференциях [3, 4] и даже имеет собственный сайт в сети Интернет [5]. Его авторы применили методы искусственного интеллекта (artificial intelligence, AI) – комбинацию трех нейросетей для автоматизированного прочтения рукописей Петра I. В результате AI с уверенностью распознал рукописи 1709–1713 гг., уже прочитанные палеографами и даже изданные в «твердой» обложке [6].

3	Во втором докладе специалисты РАНХиГС представили проект, который находится на стадии разработки. Исследование посвящено изучению экономики России первой половины XIX в. на основе изучения отчетов губернаторов – источника хорошо известного в отечественной историографии [7, 8]. Использование AI в данном проекте носит утилитарный характер и является средством «извлечения данных» (data wrangling) из рукописного текста с целью их последующего анализа.	Во втором докладе специалисты РАНХиГС представили проект, который находится на стадии разработки. Исследование посвящено изучению экономики России первой половины XIX в. на основе изучения отчетов губернаторов – источника хорошо известного в отечественной историографии [7, 8]. Использование AI в данном проекте носит утилитарный характер и является средством «извлечения данных» (data wrangling) из рукописного текста с целью их последующего анализа. Во втором докладе специалисты РАНХиГС представили проект, который находится на стадии разработки. Исследование посвящено изучению экономики России первой половины XIX в. на основе изучения отчетов губернаторов – источника хорошо известного в отечественной историографии [7, 8]. Использование AI в данном проекте носит утилитарный характер и является средством «извлечения данных» (data wrangling) из рукописного текста с целью их последующего анализа.

4	Расширяя границы Круглого стола, в контексте обзора отечественного опыта применения AI для распознавания рукописных текстов, необходимо также упомянуть проект Центра восточных рукописей и ксилографов Института монголоведения, буддологии и тибетологии СО РАН (Улан-Удэ) (http://imbtarchive.ru/index.php). Специалисты Центра смогли «прочитать» (дешифровать) с помощью AI 500 страниц тибетских рукописей с точностью в 94% распознаваемых символов, однако с учетом всех особенностей тибетской письменности правильность текстов в данный момент оценивается примерно в 80% [9, 10].	Расширяя границы Круглого стола, в контексте обзора отечественного опыта применения AI для распознавания рукописных текстов, необходимо также упомянуть проект Центра восточных рукописей и ксилографов Института монголоведения, буддологии и тибетологии СО РАН (Улан-Удэ) (http://imbtarchive.ru/index.php). Специалисты Центра смогли «прочитать» (дешифровать) с помощью AI 500 страниц тибетских рукописей с точностью в 94% распознаваемых символов, однако с учетом всех особенностей тибетской письменности правильность текстов в данный момент оценивается примерно в 80% [9, 10]. Расширяя границы Круглого стола, в контексте обзора отечественного опыта применения AI для распознавания рукописных текстов, необходимо также упомянуть проект Центра восточных рукописей и ксилографов Института монголоведения, буддологии и тибетологии СО РАН (Улан-Удэ) (http://imbtarchive.ru/index.php). Специалисты Центра смогли «прочитать» (дешифровать) с помощью AI 500 страниц тибетских рукописей с точностью в 94% распознаваемых символов, однако с учетом всех особенностей тибетской письменности правильность текстов в данный момент оценивается примерно в 80% [9, 10].

5	В целом же, следует отметить, что тема автоматизированного распознавания рукописного текста не нова и разрабатывается специалистами разных стран более 30 лет с момента проведения первой международной конференции International Conference on Document Analysis and Recognition (ICDAR) в 1991 г. [11]. На сегодняшний день ICDAR –ведущее международное событие для ученых и практиков, занимающихся автоматическим распознаванием и анализом текстов документов. За десятилетия проведения этого мероприятия его участники – ученые разных стран – представили более тысячи докладов, посвященных различным аспектам осуществления проектов автоматизированного распознавания исторических текстов, содержащихся на разных носителях: от каменных блоков и глиняных табличек до машинописных документов и современных газет.	В целом же, следует отметить, что тема автоматизированного распознавания рукописного текста не нова и разрабатывается специалистами разных стран более 30 лет с момента проведения первой международной конференции International Conference on Document Analysis and Recognition (ICDAR) в 1991 г. [11]. На сегодняшний день ICDAR –ведущее международное событие для ученых и практиков, занимающихся автоматическим распознаванием и анализом текстов документов. За десятилетия проведения этого мероприятия его участники – ученые разных стран – представили более тысячи докладов, посвященных различным аспектам осуществления проектов автоматизированного распознавания исторических текстов, содержащихся на разных носителях: от каменных блоков и глиняных табличек до машинописных документов и современных газет. В целом же, следует отметить, что тема автоматизированного распознавания рукописного текста не нова и разрабатывается специалистами разных стран более 30 лет с момента проведения первой международной конференции International Conference on Document Analysis and Recognition (ICDAR) в 1991 г. [11]. На сегодняшний день ICDAR –ведущее международное событие для ученых и практиков, занимающихся автоматическим распознаванием и анализом текстов документов. За десятилетия проведения этого мероприятия его участники – ученые разных стран – представили более тысячи докладов, посвященных различным аспектам осуществления проектов автоматизированного распознавания исторических текстов, содержащихся на разных носителях: от каменных блоков и глиняных табличек до машинописных документов и современных газет.

6	Разработка систем автоматического распознавания (Optical Character Recognition, OCR) получила дополнительный импульс в начале 2000-х гг. в связи с массированным проникновением в различные научные дисциплины методов Data Science (DS), в том числе машинного (глубокого) обучения (Machine Learning, ML; Deep Learning, DL) и искусственного интеллекта. Применение подходов, методов и алгоритмов DS, а также совершенствование аппаратно-программных решений в области сканирования исторических артефактов, позволили создать технологию распознавания рукописного текста (Handwritten Text Recognition, HTR) и инструменты, нацеленные на решение задач автоматизированного распознавания текстов рукописных документов, «извлечение» данных и их индексацию, и даже реконструкцию утраченных фрагментов текстов.	Разработка систем автоматического распознавания (Optical Character Recognition, OCR) получила дополнительный импульс в начале 2000-х гг. в связи с массированным проникновением в различные научные дисциплины методов Data Science (DS), в том числе машинного (глубокого) обучения (Machine Learning, ML; Deep Learning, DL) и искусственного интеллекта. Применение подходов, методов и алгоритмов DS, а также совершенствование аппаратно-программных решений в области сканирования исторических артефактов, позволили создать технологию распознавания рукописного текста (Handwritten Text Recognition, HTR) и инструменты, нацеленные на решение задач автоматизированного распознавания текстов рукописных документов, «извлечение» данных и их индексацию, и даже реконструкцию утраченных фрагментов текстов. Разработка систем автоматического распознавания (Optical Character Recognition, OCR) получила дополнительный импульс в начале 2000-х гг. в связи с массированным проникновением в различные научные дисциплины методов Data Science (DS), в том числе машинного (глубокого) обучения (Machine Learning, ML; Deep Learning, DL) и искусственного интеллекта. Применение подходов, методов и алгоритмов DS, а также совершенствование аппаратно-программных решений в области сканирования исторических артефактов, позволили создать технологию распознавания рукописного текста (Handwritten Text Recognition, HTR) и инструменты, нацеленные на решение задач автоматизированного распознавания текстов рукописных документов, «извлечение» данных и их индексацию, и даже реконструкцию утраченных фрагментов текстов.

7	К числу наиболее известных программных продуктов Handwritten Text Recognition, предназначенных для работы историков и филологов, относятся:	К числу наиболее известных программных продуктов Handwritten Text Recognition, предназначенных для работы историков и филологов, относятся: К числу наиболее известных программных продуктов Handwritten Text Recognition, предназначенных для работы историков и филологов, относятся:

8	- Transcribus (https://readcoop.eu/transkribus/?sc=Transkribus) – программное обеспечение, которое объединяет модели распознавания изображений и текста для облегчения распознавания рукописных символов. Программа доступна через графический интерфейс или через API и разработана, чтобы «аккуратно вписаться в архивный рабочий процесс, напрямую используя растущие репозитории оцифрованных изображений исторических текстов». Transkribus весьма популярен и часто используется европейскими архивами и другими учреждениями, играя решающую роль в расширении использования AI для извлечения содержания рукописных документов. Этот инструмент обладает дополнительными опциями, в частности, он позволяет использовать (интегрировать) в программу распознавания архивные «исторические индексы» (персональные, географические, предметные и т.п. указатели) [12], что в свою очередь, дает возможность создавать более гибкие механизмы поиска в архивных информационных системах, а также значительно ускорить процессы индексации [13] и создания связанных данных, в том числе с ресурсами музеев и библиотек [14].	- Transcribus (https://readcoop.eu/transkribus/?sc=Transkribus) – программное обеспечение, которое объединяет модели распознавания изображений и текста для облегчения распознавания рукописных символов. Программа доступна через графический интерфейс или через API и разработана, чтобы «аккуратно вписаться в архивный рабочий процесс, напрямую используя растущие репозитории оцифрованных изображений исторических текстов». Transkribus весьма популярен и часто используется европейскими архивами и другими учреждениями, играя решающую роль в расширении использования AI для извлечения содержания рукописных документов. Этот инструмент обладает дополнительными опциями, в частности, он позволяет использовать (интегрировать) в программу распознавания архивные «исторические индексы» (персональные, географические, предметные и т.п. указатели) [12], что в свою очередь, дает возможность создавать более гибкие механизмы поиска в архивных информационных системах, а также значительно ускорить процессы индексации [13] и создания связанных данных, в том числе с ресурсами музеев и библиотек [14]. - Transcribus (https://readcoop.eu/transkribus/?sc=Transkribus) – программное обеспечение, которое объединяет модели распознавания изображений и текста для облегчения распознавания рукописных символов. Программа доступна через графический интерфейс или через API и разработана, чтобы «аккуратно вписаться в архивный рабочий процесс, напрямую используя растущие репозитории оцифрованных изображений исторических текстов». Transkribus весьма популярен и часто используется европейскими архивами и другими учреждениями, играя решающую роль в расширении использования AI для извлечения содержания рукописных документов. Этот инструмент обладает дополнительными опциями, в частности, он позволяет использовать (интегрировать) в программу распознавания архивные «исторические индексы» (персональные, географические, предметные и т.п. указатели) [12], что в свою очередь, дает возможность создавать более гибкие механизмы поиска в архивных информационных системах, а также значительно ускорить процессы индексации [13] и создания связанных данных, в том числе с ресурсами музеев и библиотек [14].

9	Transkribus нашел применение для распознавания книг на бенгальском языке, которые отсканированы в рамках проекта Британской библиотеки «Два столетия индийской печати», осуществлявшегося в 2016–2019 гг. (https://www.bl.uk/projects/two-centuries-of-indian-print). Целью проекта была каталогизация и оцифровка более 1600 печатных книг на разных языках (бенгальский, ассамский, силхети и урду) из коллекций Южной Азии, датируемых 1713–1914 гг. ( >>>> ), создание интерактивной карты книгопечатания, разработка методов автоматического распознавания и формирование наборов данных для обучения систем автоматического распознавания (https://bl.iro.bl.uk/collections/d4b2009d-b28d-4518-b219-fc0cd53007e7?locale=en).	Transkribus нашел применение для распознавания книг на бенгальском языке, которые отсканированы в рамках проекта Британской библиотеки «Два столетия индийской печати», осуществлявшегося в 2016–2019 гг. (https://www.bl.uk/projects/two-centuries-of-indian-print). Целью проекта была каталогизация и оцифровка более 1600 печатных книг на разных языках (бенгальский, ассамский, силхети и урду) из коллекций Южной Азии, датируемых 1713–1914 гг. ( <a target=_blank href="https://www.bl.uk/early-indian-printed-books">>>>></a> ), создание интерактивной карты книгопечатания, разработка методов автоматического распознавания и формирование наборов данных для обучения систем автоматического распознавания (https://bl.iro.bl.uk/collections/d4b2009d-b28d-4518-b219-fc0cd53007e7?locale=en). Transkribus нашел применение для распознавания книг на бенгальском языке, которые отсканированы в рамках проекта Британской библиотеки «Два столетия индийской печати», осуществлявшегося в 2016–2019 гг. (https://www.bl.uk/projects/two-centuries-of-indian-print). Целью проекта была каталогизация и оцифровка более 1600 печатных книг на разных языках (бенгальский, ассамский, силхети и урду) из коллекций Южной Азии, датируемых 1713–1914 гг. ( <a target=_blank href="https://www.bl.uk/early-indian-printed-books">>>>></a> ), создание интерактивной карты книгопечатания, разработка методов автоматического распознавания и формирование наборов данных для обучения систем автоматического распознавания (https://bl.iro.bl.uk/collections/d4b2009d-b28d-4518-b219-fc0cd53007e7?locale=en).

10	- eScriptorium (https://escriptorium.openiti.org/) – инструмент для распознавания и транскрибирования текста из печатных и рукописных документов, созданный с использованием методов машинного обучения. Одной из отличительных черт этого программного обеспечения является опция по сегментации и созданию метаданных (описанию) фрагментов изображений, основанная на применении формата изображений Международной платформы взаимодействия изображений (International Image Interoperability Framework, IIIF – >>>> что дает возможность исследователям работать не только с текстом, но и с иллюминированными элементами рукописей.	- eScriptorium (https://escriptorium.openiti.org/) – инструмент для распознавания и транскрибирования текста из печатных и рукописных документов, созданный с использованием методов машинного обучения. Одной из отличительных черт этого программного обеспечения является опция по сегментации и созданию метаданных (описанию) фрагментов изображений, основанная на применении формата изображений Международной платформы взаимодействия изображений (International Image Interoperability Framework, IIIF – <a target=_blank href="https://iiif.io/get-started/why-iiif/),">>>>></a> что дает возможность исследователям работать не только с текстом, но и с иллюминированными элементами рукописей. - eScriptorium (https://escriptorium.openiti.org/) – инструмент для распознавания и транскрибирования текста из печатных и рукописных документов, созданный с использованием методов машинного обучения. Одной из отличительных черт этого программного обеспечения является опция по сегментации и созданию метаданных (описанию) фрагментов изображений, основанная на применении формата изображений Международной платформы взаимодействия изображений (International Image Interoperability Framework, IIIF – <a target=_blank href="https://iiif.io/get-started/why-iiif/),">>>>></a> что дает возможность исследователям работать не только с текстом, но и с иллюминированными элементами рукописей.

11	eScriptorium тесно связан с еще одной системой распознавания текста Kraken (https://kraken.re/main/index.html), которая оптимизирована для исторических источников и рукописей, написанных нелатинским шрифтом. Kraken является программным обеспечением с открытым исходным кодом и активно используется в качестве основы для создания и развития различных систем HTR (https://github.com/mittagessen/kraken).	eScriptorium тесно связан с еще одной системой распознавания текста Kraken (https://kraken.re/main/index.html), которая оптимизирована для исторических источников и рукописей, написанных нелатинским шрифтом. Kraken является программным обеспечением с открытым исходным кодом и активно используется в качестве основы для создания и развития различных систем HTR (https://github.com/mittagessen/kraken). eScriptorium тесно связан с еще одной системой распознавания текста Kraken (https://kraken.re/main/index.html), которая оптимизирована для исторических источников и рукописей, написанных нелатинским шрифтом. Kraken является программным обеспечением с открытым исходным кодом и активно используется в качестве основы для создания и развития различных систем HTR (https://github.com/mittagessen/kraken).

12	На основе Kraken и eScriptorium индийским филологом Роханом Чаунаном в инициативном порядке разработана и активно развивается система автоматизированного распознавания рукописного текста, написанного на языках урду, хинди и бенгали [15, 16].	На основе Kraken и eScriptorium индийским филологом Роханом Чаунаном в инициативном порядке разработана и активно развивается система автоматизированного распознавания рукописного текста, написанного на языках урду, хинди и бенгали [15, 16]. На основе Kraken и eScriptorium индийским филологом Роханом Чаунаном в инициативном порядке разработана и активно развивается система автоматизированного распознавания рукописного текста, написанного на языках урду, хинди и бенгали [15, 16].

13	Специалистам давно известно, что успешность применения автоматизированного распознавания рукописных текстов во многом зависит от наличия наборов палеографических данных и словарей – чем больше и репрезентативнее наборы, чем больше примеров почерка (начертания букв, иероглифов) они в себя включают, чем больше словари топонимов, вариантов написания имен, терминов и т. п., тем лучше будет работать распознавание.	Специалистам давно известно, что успешность применения автоматизированного распознавания рукописных текстов во многом зависит от наличия наборов палеографических данных и словарей – чем больше и репрезентативнее наборы, чем больше примеров почерка (начертания букв, иероглифов) они в себя включают, чем больше словари топонимов, вариантов написания имен, терминов и т. п., тем лучше будет работать распознавание. Специалистам давно известно, что успешность применения автоматизированного распознавания рукописных текстов во многом зависит от наличия наборов палеографических данных и словарей – чем больше и репрезентативнее наборы, чем больше примеров почерка (начертания букв, иероглифов) они в себя включают, чем больше словари топонимов, вариантов написания имен, терминов и т. п., тем лучше будет работать распознавание.

14	Именно поэтому в основе большинства HTR-сервисов лежат наборы палеографических данных, созданные и опубликованные в сети Интернет в виде самостоятельных проектов. Среди них особой известностью пользуются проекты:	Именно поэтому в основе большинства HTR-сервисов лежат наборы палеографических данных, созданные и опубликованные в сети Интернет в виде самостоятельных проектов. Среди них особой известностью пользуются проекты: Именно поэтому в основе большинства HTR-сервисов лежат наборы палеографических данных, созданные и опубликованные в сети Интернет в виде самостоятельных проектов. Среди них особой известностью пользуются проекты:

15	- DigiPal ( http://www.digipal.eu ) – сайт, предназначенный для изучения средневековых европейских почерков XI–XII вв.;	- DigiPal ( <a target=_blank href="http://www.digipal.eu/">http://www.digipal.eu</a> ) – сайт, предназначенный для изучения средневековых европейских почерков XI–XII вв.; - DigiPal ( <a target=_blank href="http://www.digipal.eu/">http://www.digipal.eu</a> ) – сайт, предназначенный для изучения средневековых европейских почерков XI–XII вв.;

16	- Italian Paleography ( >>>> ) – онлайн-учебник итальянской палеографии для рукописей, написанных между 1300 и 1700 гг., с инструментом T-Pen для расшифровки и транскрибирования текста;	- <a target=_blank href="https://italian.newberry.t-pen.org/">Italian Paleography</a> ( <a target=_blank href="https://italian.newberry.t-pen.org/">>>>></a> ) – онлайн-учебник итальянской палеографии для рукописей, написанных между 1300 и 1700 гг., с инструментом T-Pen для расшифровки и транскрибирования текста; - <a target=_blank href="https://italian.newberry.t-pen.org/">Italian Paleography</a> ( <a target=_blank href="https://italian.newberry.t-pen.org/">>>>></a> ) – онлайн-учебник итальянской палеографии для рукописей, написанных между 1300 и 1700 гг., с инструментом T-Pen для расшифровки и транскрибирования текста;

17	- Digital Analysis of Syriac Handwriting (DASH, >>>> ) – проект цифровой палеографии, который представляет электронные копии листов из 90% сохранившихся сирийских рукописей, написанных до XII в. включительно, и позволяет проводить палеографический анализ с последующим обучением HTR-программ;	- Digital Analysis of Syriac Handwriting (DASH, <a target=_blank href="http://dash.stanford.edu/">>>>></a> ) – проект цифровой палеографии, который представляет электронные копии листов из 90% сохранившихся сирийских рукописей, написанных до XII в. включительно, и позволяет проводить палеографический анализ с последующим обучением HTR-программ; - Digital Analysis of Syriac Handwriting (DASH, <a target=_blank href="http://dash.stanford.edu/">>>>></a> ) – проект цифровой палеографии, который представляет электронные копии листов из 90% сохранившихся сирийских рукописей, написанных до XII в. включительно, и позволяет проводить палеографический анализ с последующим обучением HTR-программ;

18	- MultiPal (https://www.multipal.fr/en/welcome/) – интерактивный онлайн-учебник по палеографии, который помогает научиться расшифровывать оригинальные рукописи, документы и надписи на различных древних и средневековых языках, шрифтах и почерках, в том числе: на латыни, греческом, египетском, коптском, арабском, иврите, арамейском, сирийском, китайском, санскрите и кириллице и др.	- MultiPal<strong> (</strong>https://www.multipal.fr/en/welcome/)<strong> </strong>–<strong> </strong>интерактивный онлайн-учебник по палеографии, который помогает научиться расшифровывать оригинальные рукописи, документы и надписи на различных древних и средневековых языках, шрифтах и почерках, в том числе: на латыни, греческом, египетском, коптском, арабском, иврите, арамейском, сирийском, китайском, санскрите и кириллице и др. - MultiPal<strong> (</strong>https://www.multipal.fr/en/welcome/)<strong> </strong>–<strong> </strong>интерактивный онлайн-учебник по палеографии, который помогает научиться расшифровывать оригинальные рукописи, документы и надписи на различных древних и средневековых языках, шрифтах и почерках, в том числе: на латыни, греческом, египетском, коптском, арабском, иврите, арамейском, сирийском, китайском, санскрите и кириллице и др.

19	Формирование палеографических баз (наборов) данных и словарей – задача чрезвычайно сложная и трудоемкая, к решению которой целесообразно привлекать большое количество исследователей или волонтеров, работающих с письменными источниками. Этот подход активно развивается в проектах создания палеографических ресурсов и систем распознавания рукописных текстов, которые развиваются в странах Дальнего Востока и/или научных центрах изучения исторических источников по истории Японии и Китая.	Формирование палеографических баз (наборов) данных и словарей – задача чрезвычайно сложная и трудоемкая, к решению которой целесообразно привлекать большое количество исследователей или волонтеров, работающих с письменными источниками. Этот подход активно развивается в проектах создания палеографических ресурсов и систем распознавания рукописных текстов, которые развиваются в странах Дальнего Востока и/или научных центрах изучения исторических источников по истории Японии и Китая. Формирование палеографических баз (наборов) данных и словарей – задача чрезвычайно сложная и трудоемкая, к решению которой целесообразно привлекать большое количество исследователей или волонтеров, работающих с письменными источниками. Этот подход активно развивается в проектах создания палеографических ресурсов и систем распознавания рукописных текстов, которые развиваются в странах Дальнего Востока и/или научных центрах изучения исторических источников по истории Японии и Китая.

20	Сравнительно недавно чтение средневековой японской письменности (как и в большинстве стран Западной Европы и США) осуществлялись с помощью краудсорсинговых платформ и активного участия волонтеров. В рамках этого направления наиболее известен проект «Расшифровываем все вместе» (Minna de Honkoku, Minna de Reprint, みんなで翻刻, >>>> начатый в 2017 г. палеоэйсмической исследовательской группой Киотского университета. Целью проекта была расшифровка и перевод в машиночитаемый вид японских исторических материалов о землетрясениях. К 2021 г. с помощью 5 тыс. волонтеров удалось расшифровать и перевести в печатный вид более 600 млн знаков японских исторических документов, что, с одной стороны, позволило проводить исследования по истории природных катаклизмов, а с другой – сформировать необходимые для развития технологии автоматизированного распознавания наборы данных.	<p>Сравнительно недавно чтение средневековой японской письменности (как и в большинстве стран Западной Европы и США) осуществлялись с помощью краудсорсинговых платформ и активного участия волонтеров. В рамках этого направления наиболее известен проект «Расшифровываем все вместе» (Minna de Honkoku, Minna de Reprint, みんなで翻刻, <a href="https://honkoku.org/)," target="_blank">>>>></a> начатый в 2017 г. палеоэйсмической исследовательской группой Киотского университета. Целью проекта была расшифровка и перевод в машиночитаемый вид японских исторических материалов о землетрясениях. К 2021 г. с помощью 5 тыс. волонтеров удалось расшифровать и перевести в печатный вид более 600 млн знаков японских исторических документов, что, с одной стороны, позволило проводить исследования по истории природных катаклизмов, а с другой – сформировать необходимые для развития технологии автоматизированного распознавания наборы данных.</p> <p>Сравнительно недавно чтение средневековой японской письменности (как и в большинстве стран Западной Европы и США) осуществлялись с помощью краудсорсинговых платформ и активного участия волонтеров. В рамках этого направления наиболее известен проект «Расшифровываем все вместе» (Minna de Honkoku, Minna de Reprint, みんなで翻刻, <a href="https://honkoku.org/)," target="_blank">>>>></a> начатый в 2017 г. палеоэйсмической исследовательской группой Киотского университета. Целью проекта была расшифровка и перевод в машиночитаемый вид японских исторических материалов о землетрясениях. К 2021 г. с помощью 5 тыс. волонтеров удалось расшифровать и перевести в печатный вид более 600 млн знаков японских исторических документов, что, с одной стороны, позволило проводить исследования по истории природных катаклизмов, а с другой – сформировать необходимые для развития технологии автоматизированного распознавания наборы данных.</p>

Библиография

Комментарии

Войти через