### Limpieza e inspección de los datos

Este notebook está esturcturado como sigue:

- **Importación de librerias**
- **Bloque A**: carga de los datos.
- **Bloque B**: inspección de los datos.
- **Bloque C**: limpieza y adecuación.
- **Bloque D**: exportación del conjunto resultante.

### Importación librerias

In [None]:
import pandas as ??
import re

from langdetect import detect

### BLOQUE A: Carga de los datos

**Pandas**: librería más popular de python que proporciona las herramientas y estructuras necesarias para manipular y analizar datos. La estructura básica de Pandas es el **DataFrame**, una colección ordenada de columnas con nombres y tipos, donde una sola fila representa un único caso (observación) y las columnas representan atributos particulares.

Guía: https://pandas.pydata.org/docs/getting_started/index.html

In [None]:
# Leemos el CSV que contiene los datos y lo cargamos en memoria
df = pd.???("data/amazon_reviews.csv", index_col=0)

### BLOQUE B: inspección de los datos

El objetivo de la inspección es la familiarización con el conjunto de datos. Algunas preguntas iniciales que podría estar bien hacerse pueden ser:

- ¿En qué tipo de objeto están almacenados los datos?
- ¿Cuál es su dimensión?
- ¿Hay datos ausentes?
- ¿Que tipos diferentes de datos hay?
- ...

In [None]:
# Ver el tipo de objeto con el que estamos trabajando
???(df)

In [None]:
# Dimensiones del dataframe
df.???

In [None]:
# Otra manera más interesante de proporcionar la misma información anterior
print(f"Hay un dataframe de {df.shape[???]} filas y {df.shape[???]} columnas.")

In [None]:
# Resumen conciso del dataframe
df.???()

In [None]:
# Mostrar las primeras 5 filas
df.???()

In [None]:
# Mostrar las últimas 5 filas
df.???()

In [None]:
# ¿Cuáles son los posibles valores que puede tomar la variable 'class_index'?
df['???'].unique()

La variable "class_index" indica el sentimiento de cada reseña:

- 1: sentimiento negativo
- 2: sentimiento positivo

### BLOQUE C: limpieza y adecuación

In [None]:
# Eliminación de las columnas que no son utiles a nuestro estudio
# Nos quedaremos solo con las reviews
df = df.???(columns=['review_title'])
df.head()

In [None]:
#Renombrar las columnas:
#    - review_text -> text
#    - class_index --> sentiment
df.???(columns={'review_text': 'text', 'class_index':'sentiment'}, inplace=True)

df.head()

In [None]:
# Calcular la longitud de cada reseña
df['length'] = df['text'].???(len)

In [None]:
# Resumen de la nueva columna "length"
df['length'].???()

In [None]:
# Búsqueda de los elementos con longitud mínima 
df[df.??? == ???]

In [None]:
# Vamos a eliminar aquellos textos que tienen una longitud mayor que la del valor de Q3.
df = df[df.length ??? ???]

In [None]:
# Comprobamos las dimensiones actuales del dataframe
df.???

In [None]:
# Detección del idioma en el que está escrita cada reseña
df['language'] = df['text'].???(detect)

In [None]:
# ¿En que idioma están escritas las reseñas? ¿Cuantas reseñas tenemos para cada idioma?
df['language'].???()

In [None]:
# ¿Cual son las reseñas en español?
df[df.language=='???']

In [None]:
# Nos quedamos solo con aquellas que están escritas únicamente en inglés
df = df[df['language']=='???']

In [None]:
# Comprobamos las dimensiones actuales del dataframe
df.???

### BLOQUE E: Exportación del conjunto resultante

En esta última fase exportamos y guardamos el conjunto de datos ya limpiado, procesado y adecuado en la carpeta 'data'. Solo guardaremos aquellas columnas que posteriormente nos serán útiles.
Ya que hay demasiados datos, vamos a quedarnos únicamente con una muestra representativa de todo el conjunto. Esa muestra será la que guardemos y utilicemos en nuestra próxima tarea.

In [None]:
# Eliminamos las columnas que ya no serán necesarias para los siguiente pasos
df = df.???(columns=['language'])

In [None]:
# Muestreo proporcional 
df_sample = df.???('sentiment', group_keys=False).apply(
    lambda x: x.???(???=0.4, random_state=2023)
)

df_sample.head()

In [None]:
# Comprobamos que las proporciones se hayan mantenido iguales
print("Proporciones antes del muestreo:")
print(df['sentiment'].???(normalize=True), "\n")

print("Proporciones despues del muestreo:")
print(df_sample['sentiment'].???(normalize=True))

In [None]:
# Guardamos los datos ya procesados en un fichero .csv
df_sample.???('data/amazon_reviews_clean.csv', index=False)