- Stiven Ramírez Arango - sramir70@eafit.edu.co - Video Sustentación: https://youtu.be/3Ob_ZexLR4s
- Sebastián Ospina Cabarcas - sospin26@eafit.edu.co - Video Sustentación: https://bit.ly/2J00KnF
- Camilo Suaza Gallego - csuazag@eafit.edu.co - Video Sustentación: https://youtu.be/OR5WCcMA_ls
- Notebook publicado: https://bit.ly/2WqZFbw
La minería o analítica de texto, son un conjunto de modelos, técnicas, algoritmos y tecnologías que permiten procesar texto de naturaleza NO ESTRUCTURADA.
La minería de texto (Text Mining) permite transformar el texto en una forma estructurada, de tal forma que facilite una serie de aplicaciones como búsqueda en texto, relevancia de documentos, entendimiento natural del lenguaje (NLP), traducción automática entre idiomas, análisis de sentimientos, detección de tópicos entre muchas otras aplicaciones.
En este proyecto se pretende afianzar el uso de Apache Spark como framework de computación en clúster y Databricks como plataforma de análisis unificado para la implementación de estos algoritmos.
Este proyecto de Big Data Analytics fue desarrollado bajo la metodología CRISP-DM (Cross Industry Standard Process for Data Mining).
- Las flechas en el diagrama indican las dependencias más importantes y frecuentes entre fases.
- El círculo exterior en el diagrama simboliza la naturaleza cíclica de la minería de datos en sí.
- Un proceso de minería de datos continúa después del despliegue de una solución.
- Las lecciones aprendidas durante el proceso pueden provocar nuevas preguntas de negocio, a menudo más centradas y posteriores procesos de minería de datos se beneficiarán de la experiencia de los anteriores.
Esta metodología divide el proceso en 6 fases principales: