RTVE2018 Database, más de 500 horas de programas de Radio Televisión Española para la investigación científica

Enviado por Daniel Muñoz Egido el Mar, 28/05/2019 - 09:00
logotipo de radiotelevisión española

RTVE pone a disposición de la comunidad científica más de 500 horas de sus contenidos audiovisuales de diversos programas para su uso en proyectos de investigación en reconocimiento del habla y en este caso, la identificación de hablantes en español.

Este proyecto es consecuencia de la Jornada Ibersepeech RTVE 2018 Challenge, organizado por la Cátedra RTVE - Universidad de Zaragoza y la Red Temática de Tecnologías del Habla (RTTH), en la cual RTVE puso a disposición de los participantes más de 500 horas de contenidos audiovisuales de entre los años 2015 a 2018, anotados y con las necesarias herramientas para poner a prueba los sistemas de reconocimiento de voz y diarización de hablantes en español.

En concreto se trata de 569 horas y 22 minutos de las cuales 460 horas están acompañadas de subtítulos y 109 horas han sido transcritas por humanos. La base de datos está dividida en 4 secciones, una sección principal con los contenidos en sí mismos, dos secciones de desarrollo llamadas dev1  y dev2, y una última sección destinada a la elaboración de tests.

Los programas que podemos encontrar en esta base de datos son:

  • Agrosfera (37:34:32): programa de noticias dedicado al sector primario, el medio rural y la industria alimentaria.
  • Al filo de los imposible (11:09:57): programa documental sobre montaña, aventura y deportes de alto riesgo.
  • Arranca en Verde (05:38:05): concurso divulgativo de cuestiones relacionadas con la seguridad vial, las normas de circulación, la sensibilización de una conducción cívica y el respeto al medio ambiente.
  • Asuntos público (69:38:00): análisis de noticias del día y retransmisión en directo de eventos informativos más destacados en directo de la mano de Lara Siscar.
  • Comando actualidad (17:03:41): programa de reportajes monográficos en un formato informal a través de la mirada coral de varios reporteros callejeros.
  • Dicho y hecho (10:06:00): programa de entretenimiento en el cual seis celebreties y cómicos compiten entre ellos en diferentes pruebas divertidas.
  • España en comunidad (13:02:59): programa de información que ofrece reportajes de investigación e información de actualidad sobre las diferentes comunidades autonómicas españolas.
  • La mañana (227:47:00): programa magacín de actualidad, con opiniones de reconocidos periodistas y conexiones en directos con diferentes puntos de interés, donde se repasan todas las noticias acontecidas recientemente y se analizan todas que están por llegar.
  • La tarde en 24H (37:54:03): programa de análisis en profundidad de la actualidad realizado por expertos con cuatro mesas de análisis: la hora de la actualidad, la hora de la economía, la hora de los deportes y la hora de la cultura.
  • Latinoamérica en 24H (16:08:35): programa de análisis e información centrado en iberoamérica, realizado en colaboración con el Área de Internacional de los Servicios Informativos y la red de corresponsales de TVE.
  • Millenium (19:08:35): programa de análisis de aquellos eventos cotidianos del día a día.
  • Saber y ganar (29:00:10): concurso diario de preguntas y repuestas que tiene por objetivo la divulgación de la cultura pero de una manera amena.
  • La noche en 24H (33:11:06): programa de análisis en profundidad y plural de toda la actualidad de la jornada.

El acceso a la base de datos es libre previa aceptación de la licencia, la cual debemos firmar y devolver firmada escaneada, además de describir el objetivo de la investigación para la cual se solicitan los contenidos.

Podemos encontrar toda la información sobre esta base de datos y las condiciones para poder acceder a ella en el sitio web de la Cátedra RTVE - Universidad de Zaragoza

 

Añadir nuevo comentario

Este campo sólo es para verificar que usted es una persona. No será almacenado ni utilizado con ningún otro propósito

HTML Restringido

  • Etiquetas HTML permitidas: <a href hreflang> <em> <strong> <cite> <blockquote cite> <code> <ul type> <ol start type> <li> <dl> <dt> <dd> <h2 id> <h3 id> <h4 id> <h5 id> <h6 id>
  • Saltos automáticos de líneas y de párrafos.
  • Las direcciones de correos electrónicos y páginas web se convierten en enlaces automáticamente.

Documentación Hoy le informa que los datos facilitados por usted en este formulario serán tratados informáticamente por Documentación Hoy con el objetivo de publicar su comentario a este contenido. Para poder llevar a cabo esta acción necesitamos su consentimiento explícito. Los datos proporcionados se conservarán mientras no solicite el cese de la actividad. Los datos no se cederán a terceros salvo en los casos en que exista una obligación legal. En cualquier momento usted puede ejercitar su derecho a acceder, rectificar, limitar o borrar sus datos enviándonos un e-mail a info@documentacionhoy.com. Usted puede encontrar más información en nuestra Política de Privacidad.

CAPTCHA
Esta pregunta es para comprobar si usted es un visitante humano y prevenir envíos de spam automatizado.