
RTVE pone a disposición de la comunidad científica más de 500 horas de sus contenidos audiovisuales de diversos programas para su uso en proyectos de investigación en reconocimiento del habla y en este caso, la identificación de hablantes en español.
Este proyecto es consecuencia de la Jornada Ibersepeech RTVE 2018 Challenge, organizado por la Cátedra RTVE - Universidad de Zaragoza y la Red Temática de Tecnologías del Habla (RTTH), en la cual RTVE puso a disposición de los participantes más de 500 horas de contenidos audiovisuales de entre los años 2015 a 2018, anotados y con las necesarias herramientas para poner a prueba los sistemas de reconocimiento de voz y diarización de hablantes en español.
En concreto se trata de 569 horas y 22 minutos de las cuales 460 horas están acompañadas de subtítulos y 109 horas han sido transcritas por humanos. La base de datos está dividida en 4 secciones, una sección principal con los contenidos en sí mismos, dos secciones de desarrollo llamadas dev1 y dev2, y una última sección destinada a la elaboración de tests.
Los programas que podemos encontrar en esta base de datos son:
- Agrosfera (37:34:32): programa de noticias dedicado al sector primario, el medio rural y la industria alimentaria.
- Al filo de los imposible (11:09:57): programa documental sobre montaña, aventura y deportes de alto riesgo.
- Arranca en Verde (05:38:05): concurso divulgativo de cuestiones relacionadas con la seguridad vial, las normas de circulación, la sensibilización de una conducción cívica y el respeto al medio ambiente.
- Asuntos público (69:38:00): análisis de noticias del día y retransmisión en directo de eventos informativos más destacados en directo de la mano de Lara Siscar.
- Comando actualidad (17:03:41): programa de reportajes monográficos en un formato informal a través de la mirada coral de varios reporteros callejeros.
- Dicho y hecho (10:06:00): programa de entretenimiento en el cual seis celebreties y cómicos compiten entre ellos en diferentes pruebas divertidas.
- España en comunidad (13:02:59): programa de información que ofrece reportajes de investigación e información de actualidad sobre las diferentes comunidades autonómicas españolas.
- La mañana (227:47:00): programa magacín de actualidad, con opiniones de reconocidos periodistas y conexiones en directos con diferentes puntos de interés, donde se repasan todas las noticias acontecidas recientemente y se analizan todas que están por llegar.
- La tarde en 24H (37:54:03): programa de análisis en profundidad de la actualidad realizado por expertos con cuatro mesas de análisis: la hora de la actualidad, la hora de la economía, la hora de los deportes y la hora de la cultura.
- Latinoamérica en 24H (16:08:35): programa de análisis e información centrado en iberoamérica, realizado en colaboración con el Área de Internacional de los Servicios Informativos y la red de corresponsales de TVE.
- Millenium (19:08:35): programa de análisis de aquellos eventos cotidianos del día a día.
- Saber y ganar (29:00:10): concurso diario de preguntas y repuestas que tiene por objetivo la divulgación de la cultura pero de una manera amena.
- La noche en 24H (33:11:06): programa de análisis en profundidad y plural de toda la actualidad de la jornada.
El acceso a la base de datos es libre previa aceptación de la licencia, la cual debemos firmar y devolver firmada escaneada, además de describir el objetivo de la investigación para la cual se solicitan los contenidos.
Podemos encontrar toda la información sobre esta base de datos y las condiciones para poder acceder a ella en el sitio web de la Cátedra RTVE - Universidad de Zaragoza.
Añadir nuevo comentario