In [1]:
# Librerías 

# Ánalisis y manipulación de datos
import pandas as pd         
import numpy as np

# Interacción con sistemas de archivos
import os

## Cargando datos a un dataframe

In [2]:
# Directorio donde se encuentran los archivos TSV
folder = '../Ficheros/limpios'
files = os.listdir(folder)
files

# Lista para guardar cada dataframe leído
dfs = []

# Recorre cada archivo del directorio que termine en .tsv o .txt
for file in files:    
    if file.endswith('.tsv') or file.endswith('.txt'):                                                          # Filtra solo los archivos con extensión .tsv, .txt        
        file_name = os.path.splitext(file)[0]                                                                   # Obtiene el nombre del archivo sin extensión
        df = pd.read_csv(os.path.join(folder, file), sep="\t", names=['source', 'target'], encoding="UTF-8")    # Lee el archivo. Arg(ruta) y une utilizando sep del SO
        df['file_name'] = file_name                                                                             # Agrega la columna con el nombre del archivo          
        dfs.append(df)                                                                                          # Agrega el dataframe a la lista de dataframes 
df_final = pd.concat(dfs, ignore_index=True)                                                                    # Concatena todos los dataframes en uno solo

df_final  


Unnamed: 0,source,target,file_name
0,A country whose people are not even aware that...,Un país cuyo pueblo ni siquiera es consciente ...,q_en_en-es_d
1,! - - - - - - Contest Announcement!! - - - - -...,¡! - - - - - ¡Concurso!! ¡- - - - - !,q_en_en-es_d
2,! Much Easier to Control the Spread.!,¡! Es mucho más fácil controlar la propagación.!,q_en_en-es_d
3,! The Administration can of course clamp Lockd...,"¡! La Administración puede, por supuesto, suje...",q_en_en-es_d
4,"!!! WE DO’NT YET KNOW, THE DEGREE IF EFFICATIO...","¡¡¡!!! NO SABEMOS TODAVÍA, EL GRADO DE EFICACIA.",q_en_en-es_d
...,...,...,...
19511586,“…there is force in the classical philosophica...,'...tiene fuerza el axioma filosófico clásico ...,quora_en_3_en-es_d
19511587,"“…these are outrageous charges,” or “…we are c...","'...son acusaciones escandalosas"", o ""...estam...",quora_en_3_en-es_d
19511588,“…they let you do it.,'...le permiten hacerlo.,quora_en_3_en-es_d
19511589,“…truth about Trump…” Is there something the w...,"'...la verdad sobre Trump..."" Hay algo que el ...",quora_en_3_en-es_d


In [6]:
# Guarda el dataframe en un archivo CSV para utilizarlo en la visualización de datos en Streamlit
df_final.to_csv('../Ficheros/csv/df_original.csv', sep='\t')

Observaciones: se agrega una nueva columna al set de datos (file_name) para luego tener identificado la fuente de donde se obtuvo cada frase.

In [7]:
df_final.shape 

(19511591, 3)

## Descripción general del dataframe
El dataset contiene 3 variables: <br>
- source: frases en inglés <br>
- target: traducción al español <br>
- file_name: nombre de la fuente donde se obtuvieron los datos <br>

Cuenta con 19 511 591 observaciones. 

El tipo de dato de cada una de las 3 columnas es object, lo que significa que son variables categóricas.    

In [8]:
df_final.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 19511591 entries, 0 to 19511590
Data columns (total 3 columns):
 #   Column     Dtype 
---  ------     ----- 
 0   source     object
 1   target     object
 2   file_name  object
dtypes: object(3)
memory usage: 446.6+ MB


## Descripción estadística de los datos.


### Las estadísticas que aparecen en la tabla son las siguientes:

1. **count:** número de valores no nulos en cada columna.
2. **unique:** número de valores únicos en cada columna.
3. **top:** valor más común en cada columna.
4. **freq:** frecuencia del valor más común en cada columna.

In [9]:
df_final.describe()  

Unnamed: 0,source,target,file_name
count,19511591,19511591,19511591
unique,16850800,16981971,31
top,Most home exercise equipment and most holiday ...,[...].,en_ecomm_rev_en-es
freq,2197,46055,4936607


### Cantidad de valores únicos en columna de un DataFrame. En este caso la columna "source"

In [10]:
df_final['source'].nunique()

16850800

Observaciones: Se puede identificar que existen frases repetidas en el source.

### Eliminar filas duplicadas en el "source"

In [11]:
df_final.drop_duplicates(subset=['source'], inplace=True)         # subset: columnas a considerar para la eliminación de duplicados

In [12]:
df_final

Unnamed: 0,source,target,file_name
0,A country whose people are not even aware that...,Un país cuyo pueblo ni siquiera es consciente ...,q_en_en-es_d
1,! - - - - - - Contest Announcement!! - - - - -...,¡! - - - - - ¡Concurso!! ¡- - - - - !,q_en_en-es_d
2,! Much Easier to Control the Spread.!,¡! Es mucho más fácil controlar la propagación.!,q_en_en-es_d
3,! The Administration can of course clamp Lockd...,"¡! La Administración puede, por supuesto, suje...",q_en_en-es_d
4,"!!! WE DO’NT YET KNOW, THE DEGREE IF EFFICATIO...","¡¡¡!!! NO SABEMOS TODAVÍA, EL GRADO DE EFICACIA.",q_en_en-es_d
...,...,...,...
19511586,“…there is force in the classical philosophica...,'...tiene fuerza el axioma filosófico clásico ...,quora_en_3_en-es_d
19511587,"“…these are outrageous charges,” or “…we are c...","'...son acusaciones escandalosas"", o ""...estam...",quora_en_3_en-es_d
19511588,“…they let you do it.,'...le permiten hacerlo.,quora_en_3_en-es_d
19511589,“…truth about Trump…” Is there something the w...,"'...la verdad sobre Trump..."" Hay algo que el ...",quora_en_3_en-es_d


### Reiniciar índices

In [13]:
df = df_final.reset_index(drop=True)
df

Unnamed: 0,source,target,file_name
0,A country whose people are not even aware that...,Un país cuyo pueblo ni siquiera es consciente ...,q_en_en-es_d
1,! - - - - - - Contest Announcement!! - - - - -...,¡! - - - - - ¡Concurso!! ¡- - - - - !,q_en_en-es_d
2,! Much Easier to Control the Spread.!,¡! Es mucho más fácil controlar la propagación.!,q_en_en-es_d
3,! The Administration can of course clamp Lockd...,"¡! La Administración puede, por supuesto, suje...",q_en_en-es_d
4,"!!! WE DO’NT YET KNOW, THE DEGREE IF EFFICATIO...","¡¡¡!!! NO SABEMOS TODAVÍA, EL GRADO DE EFICACIA.",q_en_en-es_d
...,...,...,...
16850795,“…there is force in the classical philosophica...,'...tiene fuerza el axioma filosófico clásico ...,quora_en_3_en-es_d
16850796,"“…these are outrageous charges,” or “…we are c...","'...son acusaciones escandalosas"", o ""...estam...",quora_en_3_en-es_d
16850797,“…they let you do it.,'...le permiten hacerlo.,quora_en_3_en-es_d
16850798,“…truth about Trump…” Is there something the w...,"'...la verdad sobre Trump..."" Hay algo que el ...",quora_en_3_en-es_d


## Agregar nuevas variables

#### *Conteo de palabras*

In [14]:
# Contar palabras de una en cada fila del dataframe. Columna "source"
quantity_words_source = df['source'].apply(lambda frase: len(str(frase).split()))

In [15]:
quantity_words_source

0           29
1           16
2            7
3           12
4           10
            ..
16850795    25
16850796    10
16850797     5
16850798    28
16850799     8
Name: source, Length: 16850800, dtype: int64

In [16]:
# Contar palabras de una frase en cada fila del dataframe. Columna "target"
quantity_words_target = df['target'].apply(lambda frase: len(str(frase).split()))

In [17]:
# Agregar nuevas columnas al dataframe original: "quantity_words_source" y "quantity_words_target"
df['quantity_words_source']= quantity_words_source
df['quantity_words_target']= quantity_words_target

In [18]:
df

Unnamed: 0,source,target,file_name,quantity_words_source,quantity_words_target
0,A country whose people are not even aware that...,Un país cuyo pueblo ni siquiera es consciente ...,q_en_en-es_d,29,25
1,! - - - - - - Contest Announcement!! - - - - -...,¡! - - - - - ¡Concurso!! ¡- - - - - !,q_en_en-es_d,16,13
2,! Much Easier to Control the Spread.!,¡! Es mucho más fácil controlar la propagación.!,q_en_en-es_d,7,8
3,! The Administration can of course clamp Lockd...,"¡! La Administración puede, por supuesto, suje...",q_en_en-es_d,12,13
4,"!!! WE DO’NT YET KNOW, THE DEGREE IF EFFICATIO...","¡¡¡!!! NO SABEMOS TODAVÍA, EL GRADO DE EFICACIA.",q_en_en-es_d,10,8
...,...,...,...,...,...
16850795,“…there is force in the classical philosophica...,'...tiene fuerza el axioma filosófico clásico ...,quora_en_3_en-es_d,25,24
16850796,"“…these are outrageous charges,” or “…we are c...","'...son acusaciones escandalosas"", o ""...estam...",quora_en_3_en-es_d,10,10
16850797,“…they let you do it.,'...le permiten hacerlo.,quora_en_3_en-es_d,5,3
16850798,“…truth about Trump…” Is there something the w...,"'...la verdad sobre Trump..."" Hay algo que el ...",quora_en_3_en-es_d,28,26


[Siguiente: NLP](3_proc_texto.ipynb)