### Limpieza e inspección de los datos

Este notebook está esturcturado como sigue:

- **Importación de librerias**
- **Bloque A**: carga de los datos.
- **Bloque B**: inspección de los datos.
- **Bloque C**: limpieza y adecuación.
- **Bloque D**: exportación del conjunto resultante.

### Importación librerias

In [None]:
import pandas as pd
import re

from langdetect import detect

### BLOQUE A: Carga de los datos

**Pandas**: librería más popular de python que proporciona las herramientas y estructuras necesarias para manipular y analizar datos. La estructura básica de Pandas es el **DataFrame**, una colección ordenada de columnas con nombres y tipos, donde una sola fila representa un único caso (observación) y las columnas representan atributos particulares.

Guía: https://pandas.pydata.org/docs/getting_started/index.html

In [None]:
# Leemos el CSV que contiene los datos y lo cargamos en memoria
df = pd.???(???, encoding="latin-1")

### BLOQUE B: inspección de los datos

El objetivo de la inspección es la familiarización con el conjunto de datos. Algunas preguntas iniciales que podría estar bien hacerse pueden ser:

- ¿En qué tipo de objeto están almacenados los datos?
- ¿Cuál es su dimensión?
- ¿Hay datos ausentes?
- ¿Que tipos diferentes de datos hay?
- ...

In [None]:
# Ver el tipo de objeto con el que estamos trabajando
???(df)

In [None]:
# Dimensiones del dataframe
df.???

In [None]:
# Otra manera más interesante de proporcionar la misma información anterior
print(f"Hay un dataframe de {df.???} filas y {df.???} columnas.")

In [None]:
# Resumen conciso del dataframe
df.???

In [None]:
# Mostrar las primeras 5 filas
df.???

In [None]:
# Mostrar las últimas 5 filas
df.???

In [None]:
# ¿Cuáles son los posibles valores que puede tomar la variable 'v1'?
df[???].???

v1 será nuestra variable objetivo, por cada mensaje de texto indica si se trata de *spam* o *ham*

### BLOQUE C: limpieza y adecuación

In [None]:
# Eliminación de las variables con muchos valores NaN
# Nos quedaremos solo con los textos y sus etiquetas
df = df.???(???)
df.head()

In [None]:
# Renombrar variables
# v1 -> target
# v2 -> text
df.???(columns={???}, inplace=True)
df.head()

In [None]:
# Calcular la longitud de cada SMS y almacenar la info en una nueva variable "length"
df['length'] = df['text'].???

In [None]:
# Resumen de la nueva variable "length"
df['length'].describe()

In [None]:
# Búsqueda de los elementos con longitud mínima 
df[???]

In [None]:
# Vamos a quedarnos con aquellos textos que tienen una longitud mayor que la del valor de Q1
df_filtered = df[???].copy()

In [None]:
# Comprobamos las dimensiones actuales del dataframe
df_filtered.shape

In [None]:
# Detección del idioma en el que está escrito cada SMS
df_filtered['language'] = df_filtered['text'].???

In [None]:
# ¿En que idioma están escritos los SMS? ¿Cuantos SMS tenemos para cada idioma?
df_filtered['language'].???

In [None]:
# ¿Cuáles de los SMS están escritos en holandés?
df_filtered[???]

In [None]:
# ¿Hay algun texto que esté escrito en inglés? Vamos a corregir el idioma manualmente
df_filtered.loc[712, "language"] = 'en'
df_filtered.loc[4173, "language"] = 'en'
df_filtered.loc[4599, "language"] = 'en'
df_filtered.loc[4959, "language"] = 'en'

In [None]:
# Nos quedamos solo con aquellos SMS que están escritas únicamente en inglés
df_filtered = df_filtered[???]

In [None]:
# Comprobamos las dimensiones actuales del dataframe
df.shape

### BLOQUE E: Exportación del conjunto resultante

En esta última fase exportamos y guardamos el conjunto de datos ya limpiado, procesado y adecuado en la carpeta 'data'. Solo guardaremos aquellas columnas que posteriormente nos serán útiles.
Ya que hay demasiados datos, vamos a quedarnos únicamente con una muestra representativa de todo el conjunto. Esa muestra será la que guardemos y utilicemos en nuestra próxima tarea.

In [None]:
# Eliminamos la variable "language", ya que no será necesaria para los siguiente pasos
df_filtered = df_filtered.???
df_filtered.head()

In [None]:
# Guardamos los datos ya procesados en un fichero .csv
df_filtered.???('data/spam_filtered.csv', index=False)