GitHub - carlosperman/LanguageDetection: Sistema de identificación automática de idiomas usando el Europarl Parallel Corpus. Incluye preprocesamiento de texto, vectorización (TF-IDF) y modelos de clasificación tradicionales y Deep Learning (Naive Bayes, SVM, Random Forest, LSTM).

🧠 Detección Automática de Idiomas: EuroParl

Este proyecto implementa un sistema completo de identificación automática de idiomas utilizando distintas técnicas de procesamiento de lenguaje natural (NLP), tanto tradicionales como basadas en Deep Learning. El objetivo es comparar el rendimiento de diferentes enfoques para determinar cuál es el más eficaz en esta tarea.

Se utiliza el Europarl Parallel Corpus, un conjunto de datos multilingüe compuesto por intervenciones parlamentarias traducidas a varios idiomas oficiales de la Unión Europea.

📁 Estructura del Proyecto

El proyecto sigue una estructura modular, desde la carga de datos hasta la construcción de un pipeline de clasificación. Las etapas son las siguientes:

Carga y preparación de los datos
- Proceso ETL (Extract, Transform and Load) del corpus multilingüe.
Exploración de los datos
- Análisis de la distribución de idiomas.
- Visualización de estadísticas y vocabulario por idioma.
Preprocesamiento textual
- Tokenización y limpieza avanzada.
- Consideraciones sobre stopwords y normalización del texto.
Representación vectorial
- Aplicación de técnicas de vectorización como TF-IDF.
- Análisis de alternativas y su impacto en el rendimiento.
Entrenamiento de clasificadores
- Implementación de modelos clásicos como Naive Bayes, SVM y Random Forest.
- Entrenamiento de modelos LSTM (unidireccional y bidireccional) con TensorFlow/Keras.
- Evaluación comparativa.
Conclusiones y pipeline final
- Discusión sobre el rendimiento de los modelos.
- Justificación del modelo final escogido.
- Descripción del pipeline completo de detección automática.

Name		Name	Last commit message	Last commit date
Latest commit History 11 Commits
dataset		dataset
modelos		modelos
README.md		README.md
languageDetection.ipynb		languageDetection.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

🧠 Detección Automática de Idiomas: EuroParl

📁 Estructura del Proyecto

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

🧠 Detección Automática de Idiomas: EuroParl

📁 Estructura del Proyecto

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages