### Limpieza e inspección de los datos

Este notebook está esturcturado como sigue:

- **Importación de librerias**
- **Bloque A**: carga de los datos.
- **Bloque B**: inspección de los datos.
- **Bloque C**: limpieza y adecuación.
- **Bloque D**: exportación del conjunto resultante.

### Importación librerias

In [1]:
import pandas as pd
import re

from langdetect import detect

### BLOQUE A: Carga de los datos

**Pandas**: librería más popular de python que proporciona las herramientas y estructuras necesarias para manipular y analizar datos. La estructura básica de Pandas es el **DataFrame**, una colección ordenada de columnas con nombres y tipos, donde una sola fila representa un único caso (observación) y las columnas representan atributos particulares.

Guía: https://pandas.pydata.org/docs/getting_started/index.html

In [2]:
# Leemos el CSV que contiene los datos y lo cargamos en memoria
df = pd.read_csv("../data/spam.csv", encoding="latin-1")

### BLOQUE B: inspección de los datos

El objetivo de la inspección es la familiarización con el conjunto de datos. Algunas preguntas iniciales que podría estar bien hacerse pueden ser:

- ¿En qué tipo de objeto están almacenados los datos?
- ¿Cuál es su dimensión?
- ¿Hay datos ausentes?
- ¿Que tipos diferentes de datos hay?
- ...

In [3]:
# Ver el tipo de objeto con el que estamos trabajando
type(df)

pandas.core.frame.DataFrame

In [4]:
# Dimensiones del dataframe
df.shape

(5572, 5)

In [5]:
# Otra manera más interesante de proporcionar la misma información anterior
print(f"Hay un dataframe de {df.shape[0]} filas y {df.shape[1]} columnas.")

Hay un dataframe de 5572 filas y 5 columnas.


In [6]:
# Resumen conciso del dataframe
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5572 entries, 0 to 5571
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   v1          5572 non-null   object
 1   v2          5572 non-null   object
 2   Unnamed: 2  50 non-null     object
 3   Unnamed: 3  12 non-null     object
 4   Unnamed: 4  6 non-null      object
dtypes: object(5)
memory usage: 217.8+ KB


In [7]:
# Mostrar las primeras 5 filas
df.head()

Unnamed: 0,v1,v2,Unnamed: 2,Unnamed: 3,Unnamed: 4
0,ham,"Go until jurong point, crazy.. Available only ...",,,
1,ham,Ok lar... Joking wif u oni...,,,
2,spam,Free entry in 2 a wkly comp to win FA Cup fina...,,,
3,ham,U dun say so early hor... U c already then say...,,,
4,ham,"Nah I don't think he goes to usf, he lives aro...",,,


In [8]:
# Mostrar las últimas 5 filas
df.tail()

Unnamed: 0,v1,v2,Unnamed: 2,Unnamed: 3,Unnamed: 4
5567,spam,This is the 2nd time we have tried 2 contact u...,,,
5568,ham,Will Ì_ b going to esplanade fr home?,,,
5569,ham,"Pity, * was in mood for that. So...any other s...",,,
5570,ham,The guy did some bitching but I acted like i'd...,,,
5571,ham,Rofl. Its true to its name,,,


In [9]:
# ¿Cuáles son los posibles valores que puede tomar la variable 'v1'?
df['v1'].unique()

array(['ham', 'spam'], dtype=object)

v1 será nuestra variable objetivo, por cada mensaje de texto indica si se trata de *spam* o *ham*

### BLOQUE C: limpieza y adecuación

In [None]:
# Eliminación de las variables con muchos valores NaN
# Nos quedaremos solo con los textos y sus etiquetas
df = df.drop(columns=['Unnamed: 2', 'Unnamed: 3','Unnamed: 4'])
df.head()

Unnamed: 0,v1,v2
0,ham,"Go until jurong point, crazy.. Available only ..."
1,ham,Ok lar... Joking wif u oni...
2,spam,Free entry in 2 a wkly comp to win FA Cup fina...
3,ham,U dun say so early hor... U c already then say...
4,ham,"Nah I don't think he goes to usf, he lives aro..."


In [None]:
# Renombrar variables
# v1 -> target
# v2 -> text
df.rename(columns={'v1': 'target', 'v2':'text'}, inplace=True)
df.head()

Unnamed: 0,target,text
0,ham,"Go until jurong point, crazy.. Available only ..."
1,ham,Ok lar... Joking wif u oni...
2,spam,Free entry in 2 a wkly comp to win FA Cup fina...
3,ham,U dun say so early hor... U c already then say...
4,ham,"Nah I don't think he goes to usf, he lives aro..."


In [None]:
# Calcular la longitud de cada SMS y almacenar la info en una nueva variable "length"
df['length'] = df['text'].apply(len)

In [None]:
# Resumen de la nueva variable "length"
df['length'].describe()

count    5572.000000
mean       80.118808
std        59.690841
min         2.000000
25%        36.000000
50%        61.000000
75%       121.000000
max       910.000000
Name: length, dtype: float64

In [14]:
# Búsqueda de los elementos con longitud mínima 
df[df.length == 2]

Unnamed: 0,target,text,length
1924,ham,Ok,2
3049,ham,Ok,2
4496,ham,Ok,2
5357,ham,Ok,2


In [15]:
# Vamos a quedarnos con aquellos textos que tienen una longitud mayor que la del valor de Q1
df_filtered = df[df.length >= 36].copy()

In [16]:
# Comprobamos las dimensiones actuales del dataframe
df_filtered.shape

(4181, 3)

In [None]:
# Detección del idioma en el que está escrito cada SMS
df_filtered['language'] = df_filtered['text'].apply(detect)

In [None]:
# ¿En que idioma están escritos los SMS? ¿Cuantos SMS tenemos para cada idioma?
df_filtered['language'].value_counts()

language
en    4024
af      21
nl      17
fr      15
so      13
no      13
it      10
da       9
de       9
cy       9
ca       5
et       5
id       5
sw       4
hr       4
sv       3
tl       3
sl       2
vi       2
sk       1
fi       1
es       1
pt       1
pl       1
sq       1
tr       1
ro       1
Name: count, dtype: int64

In [None]:
# ¿Cuáles de los SMS están escritos en holandés?
df_filtered[df_filtered.language=='nl']

Unnamed: 0,target,text,length,language
250,ham,Ranjith cal drpd Deeraj and deepak 5min hold,44,nl
620,ham,Dear we got &lt;#&gt; dollars hi hi,37,nl
712,spam,08714712388 between 10am-7pm Cost 10p,37,nl
1719,ham,Then u better go sleep.. Dun disturb u liao.. ...,73,nl
1825,ham,Wat makes some people dearer is not just de ha...,119,nl
2252,ham,Den wat will e schedule b lk on sun?,36,nl
2454,ham,Left dessert. U wan me 2 go suntec look 4 u?,44,nl
3133,ham,Ok going to sleep. Hope i can meet her.,39,nl
3622,ham,"Damn, poor zac doesn't stand a chance",37,nl
3633,ham,Its a big difference. &lt;#&gt; versus &lt;...,73,nl


In [None]:
# ¿Hay algun texto que esté escrito en inglés? Vamos a corregir el idioma manualmente
df_filtered.loc[712, "language"] = 'en'
df_filtered.loc[4173, "language"] = 'en'
df_filtered.loc[4599, "language"] = 'en'
df_filtered.loc[4959, "language"] = 'en'

In [None]:
# Nos quedamos solo con aquellos SMS que están escritas únicamente en inglés
df_filtered = df_filtered[df_filtered['language']=='en']

In [22]:
# Comprobamos las dimensiones actuales del dataframe
df.shape

(5572, 3)

### BLOQUE E: Exportación del conjunto resultante

En esta última fase exportamos y guardamos el conjunto de datos ya limpiado, procesado y adecuado en la carpeta 'data'. Solo guardaremos aquellas columnas que posteriormente nos serán útiles.
Ya que hay demasiados datos, vamos a quedarnos únicamente con una muestra representativa de todo el conjunto. Esa muestra será la que guardemos y utilicemos en nuestra próxima tarea.

In [None]:
# Eliminamos la variable "language", ya que no será necesaria para los siguiente pasos
df_filtered = df_filtered.drop(columns=['language'])
df_filtered.head()

Unnamed: 0,target,text,length
0,ham,"Go until jurong point, crazy.. Available only ...",111
2,spam,Free entry in 2 a wkly comp to win FA Cup fina...,155
3,ham,U dun say so early hor... U c already then say...,49
4,ham,"Nah I don't think he goes to usf, he lives aro...",61
5,spam,FreeMsg Hey there darling it's been 3 week's n...,148


In [24]:
# Guardamos los datos ya procesados en un fichero .csv
df_filtered.to_csv('../data/spam_filtered.csv', index=False)