Skip to content

Big data processing of news with Text Mining in Apache Spark through 3 fundamental processes: data preparation, searching based on the inverted index and grouping of news by similarity.

License

Notifications You must be signed in to change notification settings

stivenramireza/spark-text-mining

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

74 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Proyecto 3 - Minería de Texto con Spark

Integrantes

Notebook de Databricks

¿Qué es la minería o analítica de texto?

La minería o analítica de texto, son un conjunto de modelos, técnicas, algoritmos y tecnologías que permiten procesar texto de naturaleza NO ESTRUCTURADA.

La minería de texto (Text Mining) permite transformar el texto en una forma estructurada, de tal forma que facilite una serie de aplicaciones como búsqueda en texto, relevancia de documentos, entendimiento natural del lenguaje (NLP), traducción automática entre idiomas, análisis de sentimientos, detección de tópicos entre muchas otras aplicaciones.

En este proyecto se pretende afianzar el uso de Apache Spark como framework de computación en clúster y Databricks como plataforma de análisis unificado para la implementación de estos algoritmos.

Metodología CRISP-DM

Este proyecto de Big Data Analytics fue desarrollado bajo la metodología CRISP-DM (Cross Industry Standard Process for Data Mining).

  • Las flechas en el diagrama indican las dependencias más importantes y frecuentes entre fases.
  • El círculo exterior en el diagrama simboliza la naturaleza cíclica de la minería de datos en sí.
  • Un proceso de minería de datos continúa después del despliegue de una solución.
  • Las lecciones aprendidas durante el proceso pueden provocar nuevas preguntas de negocio, a menudo más centradas y posteriores procesos de minería de datos se beneficiarán de la experiencia de los anteriores.

Esta metodología divide el proceso en 6 fases principales:

1. Business Understanding

2. Data Understanding

3. Data Preparation

4. Modeling

5. Evaluation

6. Deployment

About

Big data processing of news with Text Mining in Apache Spark through 3 fundamental processes: data preparation, searching based on the inverted index and grouping of news by similarity.

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published