Los problemas de identificación de caracteres OCR para la recuperación de texto en el libro antiguo: un análisis de caso en el Fondo Antiguo de la Biblioteca Central, UNAM

Autores/as

  • Silvia Socorro Ballesteros Estrada Dirección General de Bibliotecas UNAM
  • Guillermo Morales Romero
  • Pavel Alfredo Cedillo Pérez

DOI:

https://doi.org/10.22201/dgb.0187750xp.2012.1.39

Palabras clave:

Reconocimiento de texto, OCR, libro antiguo, digitalización de obras antiguas

Resumen

El presente artículo describe de manera general los problemas enfrentados para lograr una correcta recuperación de texto por medio del reconocimiento óptico de caracteres (OCR) en el libro antiguo, tomando una muestra de las obras de los siglos XV al XVIII que resguarda el Fondo Antiguo de la Biblioteca Central de la Universidad Nacional Autónoma de México (UNAM), digitalizadas por la Dirección General de Bibliotecas (DGB). Se presenta, en primer lugar, la exposición teórica conceptual del OCR y su aplicación en la recuperación de texto para continuar con la ejemplificación de los factores que determinan la correcta o incorrecta identificación de los grafemas en estos libros mediante las pruebas aplicadas con el software Adobe Acrobat 8 Professional® y, por último, muestra algunos hallazgos obtenidos como producto del análisis e interpretación de los datos correspondientes a las variables.

Descargas

Los datos de descargas todavía no están disponibles.

Biografía del autor/a

Silvia Socorro Ballesteros Estrada, Dirección General de Bibliotecas UNAM

Secretaria Técnica de Biblioteca Digital, Dirección General de Bibliotecas. Anexo de la DGB, Circuito de la Investigación Científica, UNAM-CU, c.p. 04510, México D.F, México. Correo electrónico: silviabe@dgb.unam.mx.

Guillermo Morales Romero

Fondo Antiguo y Colecciones Especiales, Biblioteca Central. Décimo piso del Edificio de Biblioteca Central, Circuito Interior, UNAM-CU, c.p. 04510, México D.F., México. Correo electrónico: guillermoralesromero@gmail.com; guillermom@dgb.unam.mx.

Pavel Alfredo Cedillo Pérez

Secretaría Técnica de Biblioteca Digital, Dirección General de Bibliotecas. Anexo de la DGB, Circuito de la Investigación Científica, UNAM-CU, c.p. 04510, México D.F., México. Correo electrónico: alfredoc@dgb.unam.mx.

Descargas

Publicado

2012-06-20

Cómo citar

Ballesteros Estrada, S. S., Morales Romero, G. y Cedillo Pérez P. A. (2012) «Los problemas de identificación de caracteres OCR para la recuperación de texto en el libro antiguo: un análisis de caso en el Fondo Antiguo de la Biblioteca Central, UNAM», Biblioteca Universitaria, 15(1), pp. 25–34. doi: 10.22201/dgb.0187750xp.2012.1.39.

Número

Sección

Artículos

Artículos más leídos del mismo autor/a