Minería de textos: ¿son estos documentos lo mismo?
¿Cómo pueden los motores de búsqueda encontrar resultados para una búsqueda de usuario basada en palabras clave? ¿Cómo identifican los ordenadores los documentos de texto centrados en los mismos temas? ¿Cómo modelan los algoritmos informáticos los datos no estructurados para su procesamiento digital? Los estudiantes se introducen en la minería de datos y el aprendizaje automático centrándose en los temas centrales del procesamiento digital de texto. Se explora la similitud del texto mostrando sus fundamentos matemáticos, la intersección de conjuntos y el coseno entre dos vectores. Los estudiantes trabajan en equipos para implementar una herramienta simple para medir la similitud entre dos documentos de texto. En las últimas sesiones, los estudiantes son desafiados a una competencia para identificar la mejor implementación. Durante todas las sesiones, se presenta a los estudiantes los métodos clave para el preprocesamiento de textos, como las palabras vacías y la lematización. La última sesión concluye empujando a los estudiantes a discutir e identificar las semejanzas entre su implementación y un motor de búsqueda y, a partir de ahí, diseñar un motor de búsqueda utilizando su implementación anterior para la similitud de texto. Enlace al recurso:https://federation-steame-academies.eu/es/the-federation-resources/st55_mineria-de-textos_es/


