# Primera entrega ML

### Título de proyecto

##### *Traductor de corpus lingüístico de inglés a español*

### Tema

- El proyecto tiene como objetivo crear un modelo que permita traducir frases de inglés a español de forma automática.

- Se utilizaran técnicas de procesamiento de lenguaje natural y redes neuronales para entrenar un modelo que pueda reconocer patrones en el lenguaje y generar traducciones precisas y coherentes.

- El uso de corpus lingüísticos (frases en ambos idiomas), permite al modelo aprender de manera más efectiva las estructuras y reglas del lenguaje.



**Aspectos a tener en cuenta durante el desarrollo del proyecto**
1. Recopilar un corpus lingüístico de frases en inglés y español.
2. Preprocesar el corpus lingüístico para su uso en el modelo (incluye limpieza y tokenización de frases).
3. Entrenar un modelo de traducción de inglés a español.
4. Evaluar el modelo de traducción de inglés a español.
5. Realizar predicciones con el modelo de traducción de inglés a español.

### Datasets y fuentes alternativas de datos
Incluye aquí una breve descripción del dataset o datasets para tu proyecto. Incluye también las fuentes de cada uno de ellos.

**Tipo de algoritmo:** Redes Neuronales (Deep Learning) 

**Target:** La variable objetivo es target(frases en español)

**Metricas escogidas para evaluar los modelos**
- Precisión (Accuracy): Es la métrica más común y sencilla de utilizar. Se calcula como la proporción de las traducciones correctas con respecto a todas las traducciones realizadas por el modelo.

- BLEU (Bilingual Evaluation Understudy): Es una métrica que compara la traducción generada por el modelo con varias traducciones de referencia (producidas por humanos) y calcula una puntuación basada en el grado de superposición entre ellas.

- NIST (NIST Machine Translation Evaluation): Es una métrica que se utiliza para evaluar la calidad de las traducciones de máquina en función de la similitud con las traducciones de referencia. Es similar a BLEU, pero utiliza un enfoque estadístico diferente.

- METEOR (Metric for Evaluation of Translation with Explicit ORdering): Es una métrica que compara la traducción generada por el modelo con las traducciones de referencia y utiliza una combinación de medidas de similitud léxica, sintáctica y semántica.

Nota: Estas métricas no son perfecta y ninguna de ellas puede capturar completamente la calidad de las traducciones de máquina. Por lo tanto, es recomendable utilizar varias métricas y realizar una evaluación humana de las traducciones para obtener así una evaluación más completa de la calidad del modelo.

**Descripción del dataset**

- El dataset contiene 10.068.314 frases en inglés y su traducción al español. 

- Las frases fueron clasificadas en 3 categorías de sentimiento: negativo, neutral y positivo.

- Las frases fueron extraídas de 10 fuentes diferentes.


In [3]:
# load dataset
import pandas as pd
corpus_linguistico = pd.read_csv("File/df_corpus_linguistico.csv", sep = "\t", index_col=0)
corpus_linguistico.head()

Unnamed: 0_level_0,source,target,file_name,quantity_words_source,quantity_words_target,sentiment,NOUN_source,NOUN_target,ADJ_source,ADJ_target,...,VERB_source,VERB_target,VAUX_source,VAUX_target,PRON_source,PRON_target,ADP_source,ADP_target,PUNCT_source,PUNCT_target
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,A country whose people are not even aware that...,Un país cuyo pueblo ni siquiera es consciente ...,quora_en_es,29,25,positivo,3.0,6.0,2.0,3.0,...,2.0,2.0,2.0,2.0,4.0,3.0,2.0,2.0,2.0,3.0
3,! Much Easier to Control the Spread.!,¡! Es mucho más fácil controlar la propagación.!,quora_en_es,7,8,positivo,0.0,1.0,1.0,1.0,...,1.0,1.0,0.0,1.0,0.0,0.0,0.0,0.0,3.0,4.0
4,! The Administration can of course clamp Lockd...,"¡! La Administración puede, por supuesto, suje...",quora_en_es,12,13,positivo,3.0,3.0,1.0,1.0,...,1.0,1.0,1.0,1.0,1.0,0.0,2.0,2.0,2.0,5.0
5,"!!! WE DO’NT YET KNOW, THE DEGREE IF EFFICATIO...","¡¡¡!!! NO SABEMOS TODAVÍA, EL GRADO DE EFICACIA.",quora_en_es,10,8,neutral,0.0,1.0,0.0,0.0,...,2.0,0.0,0.0,0.0,1.0,0.0,0.0,1.0,5.0,8.0
6,!!! You became its next victim when you entere...,¡¡¡!!! Te convertiste en su próxima víctima cu...,quora_en_es,19,19,negativo,3.0,3.0,2.0,2.0,...,3.0,3.0,1.0,0.0,5.0,4.0,0.0,2.0,4.0,7.0


In [4]:
corpus_linguistico = corpus_linguistico[["source", "target", "file_name", "sentiment"]]
corpus_linguistico.head()

Unnamed: 0_level_0,source,target,file_name,sentiment
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,A country whose people are not even aware that...,Un país cuyo pueblo ni siquiera es consciente ...,quora_en_es,positivo
3,! Much Easier to Control the Spread.!,¡! Es mucho más fácil controlar la propagación.!,quora_en_es,positivo
4,! The Administration can of course clamp Lockd...,"¡! La Administración puede, por supuesto, suje...",quora_en_es,positivo
5,"!!! WE DO’NT YET KNOW, THE DEGREE IF EFFICATIO...","¡¡¡!!! NO SABEMOS TODAVÍA, EL GRADO DE EFICACIA.",quora_en_es,neutral
6,!!! You became its next victim when you entere...,¡¡¡!!! Te convertiste en su próxima víctima cu...,quora_en_es,negativo


In [5]:
corpus_linguistico.shape

(10068314, 4)

In [7]:
corpus_linguistico['file_name'].value_counts()

file_name
ecomm_en_es                      4063038
quora_en_es                      3808771
twitter_en-es_d                  1086581
eng_newscrawl_en_es               420805
movie_rev_en_es                   304369
social_it_en_es                   136501
youtube_en_es                     130231
dialog_en_es                       98826
datafiniti_reviews_text_en_es      19192
Name: count, dtype: int64