Proyecto 3 - Minería de Texto con Spark

Integrantes

Stiven Ramírez Arango - sramir70@eafit.edu.co - Video Sustentación: https://youtu.be/3Ob_ZexLR4s
Sebastián Ospina Cabarcas - sospin26@eafit.edu.co - Video Sustentación: https://bit.ly/2J00KnF
Camilo Suaza Gallego - csuazag@eafit.edu.co - Video Sustentación: https://youtu.be/OR5WCcMA_ls

Notebook de Databricks

Notebook publicado: https://bit.ly/2WqZFbw

¿Qué es la minería o analítica de texto?

La minería o analítica de texto, son un conjunto de modelos, técnicas, algoritmos y tecnologías que permiten procesar texto de naturaleza NO ESTRUCTURADA.

La minería de texto (Text Mining) permite transformar el texto en una forma estructurada, de tal forma que facilite una serie de aplicaciones como búsqueda en texto, relevancia de documentos, entendimiento natural del lenguaje (NLP), traducción automática entre idiomas, análisis de sentimientos, detección de tópicos entre muchas otras aplicaciones.

En este proyecto se pretende afianzar el uso de Apache Spark como framework de computación en clúster y Databricks como plataforma de análisis unificado para la implementación de estos algoritmos.

Metodología CRISP-DM

Este proyecto de Big Data Analytics fue desarrollado bajo la metodología CRISP-DM (Cross Industry Standard Process for Data Mining).

Las flechas en el diagrama indican las dependencias más importantes y frecuentes entre fases.
El círculo exterior en el diagrama simboliza la naturaleza cíclica de la minería de datos en sí.
Un proceso de minería de datos continúa después del despliegue de una solución.
Las lecciones aprendidas durante el proceso pueden provocar nuevas preguntas de negocio, a menudo más centradas y posteriores procesos de minería de datos se beneficiarán de la experiencia de los anteriores.

Esta metodología divide el proceso en 6 fases principales:

1. Business Understanding

Business Understanding

2. Data Understanding

Data Understanding

3. Data Preparation

Data Preparation

4. Modeling

Modeling

5. Evaluation

Evaluation

6. Deployment

Deployment

Name		Name	Last commit message	Last commit date
Latest commit History 74 Commits
data_preparation		data_preparation
documentation		documentation
inverted_index_search		inverted_index_search
news_clustering		news_clustering
LICENSE		LICENSE
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Proyecto 3 - Minería de Texto con Spark

Integrantes

Notebook de Databricks

¿Qué es la minería o analítica de texto?

Metodología CRISP-DM

1. Business Understanding

2. Data Understanding

3. Data Preparation

4. Modeling

5. Evaluation

6. Deployment

About

Releases

Packages

Contributors 3

Languages

License

stivenramireza/spark-text-mining

Folders and files

Latest commit

History

Repository files navigation

Proyecto 3 - Minería de Texto con Spark

Integrantes

Notebook de Databricks

¿Qué es la minería o analítica de texto?

Metodología CRISP-DM

1. Business Understanding

2. Data Understanding

3. Data Preparation

4. Modeling

5. Evaluation

6. Deployment

About

Topics

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Contributors 3

Languages

Packages