<br>
<br>
<br>
<br>
<br>
<h1 style='text-align: center; 
          font-family:courier;
          font-size:3em;'> 
    Limpieza y preprocesamiento de datos con Pandas
</h1>
<br>
<br>
<h4 style='text-align:left; 
          font-family:courier;
          font-size:1.5em;'>
    Inferencia estadística<br>
    Por: Jorge Iván Reyes Hernández
</h4>
<br>
<br>
<br>
<br>

# Introducción
- Pandas es la libreria por default para trabajar con conjuntos de datos grandes (cuyo peso sea menor o igual a 1 GB) usando Python.

- Su nombre viene de "PANel DAta", que hace referencia a datos tabulares (que son los que generalmente se trabajan usando esta libreria).

- Pandas es ampliamente usado, por ejemplo, fue usado durante la construcción de la primera imagen de un agujero negro. [click aquí](https://solarsystem.nasa.gov/resources/2319/first-image-of-a-black-hole/)


# Instalación

Si cuentas con una instalación de Python desde Anaconda es probable que ya tengas instalado Pandas. Por otro lado, si descargaste Python desde su sitio oficial, desde brew o apt, puedes instalar la última versión estable de esta libreria usando el comando
    
    pip install pandas
    
desde la línea de comandos (y una vez activado un ambiente virtual). Si no tienes instalado un intérprete de Python o no tienes algún ambiente virtual da click [aquí](https://www.notion.so/ivanpy/Python-1e57d3105f3d4989835e363b5e19d63a) para más información.

# El ciclo de vida de los datos
<img title="a title" alt="Alt text" src="./data_life_cycle.png">
Fuente: Badia, Antonio. SQL for Data Science, Springer.

# Limpieza y preprocesamiento de datos

La limpieza y el proprocesamiento de datos es el proceso de identificar, actualizar y remover datos corruptos o incorrectos. El objetivo de realizar la limpieza y el proprocesamiento es obtener datos de alta calidad para poder realizar un análisis más robusto y libre de errores.

La limpieza y preprocesamiento de datos incluyen:
- Tratamiento de valores faltantes
- Tratamiento de outliers (valores atípicos)
- Codificación de características
- Escalamiento u otras transformaciones
- Separación de datos

# Creación o lectura de datos

Existen diversas formas de cargar datos a Pandas. Por ejemplo, podemos definir en el código los datos en un diccionario o podemos cargar datos preexisten desde un archivo .csv, .xlsl, etc.

## Creación de un dataframe desde un diccionario


In [2]:
# Importamos la libreria

import pandas as pd


In [3]:
# Creamos un diccionario con los datos

dict_to_df: dict = {"name": ["Bob", "Mary", "Mita"],
                    "account": [123846, 123972, 347209],
                    "balance": [123, 3972, 7209]}


In [4]:
print(dict_to_df)


{'name': ['Bob', 'Mary', 'Mita'], 'account': [123846, 123972, 347209], 'balance': [123, 3972, 7209]}


In [5]:
# Lo convertimos a un dataframe/tabla

df_1 = pd.DataFrame(dict_to_df)
df_1


Unnamed: 0,name,account,balance
0,Bob,123846,123
1,Mary,123972,3972
2,Mita,347209,7209


En el ejemplo anterior, el constructor **DataFrame** acepta un diccionario de datos y lo convierte en un objeto *frame.DataFrame*, esto es, una tabla. Las llaves (keys) del diccionario (en este caso "name", "account" y "balance") son tomadas como columnas de la tabla, mientras que los valores correspondientes a dichas llaves son tomados como las respectivas observaciones de cada columna.

## Creación de un dataframe desde un archivo

Para crear un DataFrame desde un archivo persistente (local) necesitamos la ruta absoluta (o relativa a nuestro script/notebook) de dicho archivo. El directorio que contiene este notebook viene acompañado de dos archivos (además del propio notebook): "top_movies.csv" y "top_movies.xlsx", scrapeados (usando PowerBI, cosa que veremos más adelante) de [Top 250 Movies](https://www.imdb.com/chart/top).

In [6]:
from os.path import join

# Ruta relativa de los archivos

filename_1: str = join(".", "top_movies.csv") 
filename_2: str = join(".", "top_movies.xlsx")


Obs: Recuérdese que el puntito "." hace referencia al directorio actual. Entonces "join(".", "top_movies.csv")" crea "./top_movies.csv" o ".\top_movies.csv", dependiendo del OS que tengamos, esto es, la ruta (path) del archivo que queremos cargar.

Para cargar/leer el archivo separado por comas (csv) usando Pandas, usamos la siguiente función.

In [7]:
df = pd.read_csv(filename_1, sep=",", encoding_errors="ignore")
df


Unnamed: 0,Rank & Title,IMDb Rating,Your Rating,_1
0,1.\r\n The Shawshank Redemption\r\n ...,9.2,12345678910 \r\n \r\n ...,
1,2.\r\n The Godfather\r\n (1972),9.2,12345678910 \r\n \r\n ...,
2,3.\r\n The Dark Knight\r\n (2008),9.0,12345678910 \r\n \r\n ...,
3,4.\r\n The Godfather Part II\r\n (...,9.0,12345678910 \r\n \r\n ...,
4,5.\r\n 12 Angry Men\r\n (1957),8.9,12345678910 \r\n \r\n ...,
...,...,...,...,...
245,246.\r\n Aladdin\r\n (1992),8.0,12345678910 \r\n \r\n ...,
246,247.\r\n Gandhi\r\n (1982),8.0,12345678910 \r\n \r\n ...,
247,248.\r\n Jai Bhim\r\n (2021),8.0,12345678910 \r\n \r\n ...,
248,249.\r\n The Help\r\n (2011),8.0,12345678910 \r\n \r\n ...,


Para cargarlo usando un archivo de Excel primero debemos instalar la libreria *openpyxl*.

In [8]:
df_2 = pd.read_excel(filename_2)
df_2


Unnamed: 0.1,Unnamed: 0,Rank & Title,IMDb Rating,Your Rating,_1
0,,1._x000D_\n The Shawshank Redemption_x000...,9.2,12345678910 _x000D_\n _x000D...,
1,,2._x000D_\n The Godfather_x000D_\n ...,9.2,12345678910 _x000D_\n _x000D...,
2,,3._x000D_\n The Dark Knight_x000D_\n ...,9.0,12345678910 _x000D_\n _x000D...,
3,,4._x000D_\n The Godfather Part II_x000D_\...,9.0,12345678910 _x000D_\n _x000D...,
4,,5._x000D_\n 12 Angry Men_x000D_\n ...,8.9,12345678910 _x000D_\n _x000D...,
...,...,...,...,...,...
245,,246._x000D_\n Aladdin_x000D_\n (1992),8.0,12345678910 _x000D_\n _x000D...,
246,,247._x000D_\n Gandhi_x000D_\n (1982),8.0,12345678910 _x000D_\n _x000D...,
247,,248._x000D_\n Jai Bhim_x000D_\n (2...,8.0,12345678910 _x000D_\n _x000D...,
248,,249._x000D_\n The Help_x000D_\n (2...,8.0,12345678910 _x000D_\n _x000D...,


Como puede verse, los datos están sucios, en el sentido de que hay información no relevante o incluso errores provenientes de la fuente (cosa usual al momento de hacer [web scraping](https://es.wikipedia.org/wiki/Web_scraping)).

Lo primero que hacemos será limpiar y preprocesar los datos para aumentar su usabilidad. En lo sucesivo usaremos el dataframe "df", pues para los demás el tratamiento es análogo.

# Limpieza y preprocesamiento de datos

Una vez que tenemos nuestros datos en una tabla (dataframe) es usual explorar algunos de ellos (pues podrían ser cientos, miles o millones de datos) usando el método *.head(n)*, donde $n$ hace referencia a cuántos datos queremos mostrar.

In [9]:
df.head(15)


Unnamed: 0,Rank & Title,IMDb Rating,Your Rating,_1
0,1.\r\n The Shawshank Redemption\r\n ...,9.2,12345678910 \r\n \r\n ...,
1,2.\r\n The Godfather\r\n (1972),9.2,12345678910 \r\n \r\n ...,
2,3.\r\n The Dark Knight\r\n (2008),9.0,12345678910 \r\n \r\n ...,
3,4.\r\n The Godfather Part II\r\n (...,9.0,12345678910 \r\n \r\n ...,
4,5.\r\n 12 Angry Men\r\n (1957),8.9,12345678910 \r\n \r\n ...,
5,6.\r\n Schindler's List\r\n (1993),8.9,12345678910 \r\n \r\n ...,
6,7.\r\n The Lord of the Rings: The Return ...,8.9,12345678910 \r\n \r\n ...,
7,8.\r\n Pulp Fiction\r\n (1994),8.9,12345678910 \r\n \r\n ...,
8,9.\r\n The Lord of the Rings: The Fellows...,8.8,12345678910 \r\n \r\n ...,
9,"10.\r\n The Good, the Bad and the Ugly\r\...",8.8,12345678910 \r\n \r\n ...,


In [10]:
df.shape


(250, 4)

In [11]:
df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 250 entries, 0 to 249
Data columns (total 4 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Rank & Title  250 non-null    object 
 1   IMDb Rating   250 non-null    float64
 2   Your Rating   250 non-null    object 
 3   _1            0 non-null      float64
dtypes: float64(2), object(2)
memory usage: 7.9+ KB


In [12]:
# Adicionalmente observamos el tipo de datos que contiene nuestra tabla

df.dtypes


Rank & Title     object
IMDb Rating     float64
Your Rating      object
_1              float64
dtype: object

Con esto podemos observar varios problemas. El primero está en la columna llamada "Rank & Title", pues contiene símbolos no deseados, probablemente de errores de codificación al momento de la obtención de los datos. Para este caso particular observamos la ocurrencia de los símbolos "\r\n", que procederemos a quitar.

A continuación se define una función que toma una cadena y la devuelve sin los símbolos no deseados.

In [13]:
def remove_symbols(string):
    return string.replace("\r\n", "")


In [14]:
print(remove_symbols("\r\n test \r\n string"))


 test  string


Ahora se la aplicamos a toda la columna "Rank & Title" usando el método *.apply(fn)*, donde *fn* es la función que le vamos a aplicar a cada elemento de la colunma deseada.

In [15]:
rank_title = df["Rank & Title"].apply(remove_symbols)
rank_title


0      1.      The Shawshank Redemption        (1994)
1                 2.      The Godfather        (1972)
2               3.      The Dark Knight        (2008)
3         4.      The Godfather Part II        (1974)
4                  5.      12 Angry Men        (1957)
                            ...                      
245                   246.      Aladdin        (1992)
246                    247.      Gandhi        (1982)
247                  248.      Jai Bhim        (2021)
248                  249.      The Help        (2011)
249      250.      Beauty and the Beast        (1991)
Name: Rank & Title, Length: 250, dtype: object

Podemos notar que aunque ya no están esos símbolos, ahora tenemos demasidos espacios. Los quitaremos usando expresiones regulares.

In [16]:
import re


def remove_spaces(string):
    # Quitamos espacios internos
    string = re.sub(' +', ' ', string)
    
    # Quitamos espacios a los extremos
    string = string.lstrip().rstrip()
    
    return string


In [17]:
print(remove_spaces(" test     string  "))


test string


In [18]:
rank_title = rank_title.apply(remove_spaces)
rank_title


0      1. The Shawshank Redemption (1994)
1                 2. The Godfather (1972)
2               3. The Dark Knight (2008)
3         4. The Godfather Part II (1974)
4                  5. 12 Angry Men (1957)
                      ...                
245                   246. Aladdin (1992)
246                    247. Gandhi (1982)
247                  248. Jai Bhim (2021)
248                  249. The Help (2011)
249      250. Beauty and the Beast (1991)
Name: Rank & Title, Length: 250, dtype: object

In [19]:
# Reemplazamos la columna inicial por la que está limpia
df["Rank & Title"] = rank_title


In [20]:
df.head(15)


Unnamed: 0,Rank & Title,IMDb Rating,Your Rating,_1
0,1. The Shawshank Redemption (1994),9.2,12345678910 \r\n \r\n ...,
1,2. The Godfather (1972),9.2,12345678910 \r\n \r\n ...,
2,3. The Dark Knight (2008),9.0,12345678910 \r\n \r\n ...,
3,4. The Godfather Part II (1974),9.0,12345678910 \r\n \r\n ...,
4,5. 12 Angry Men (1957),8.9,12345678910 \r\n \r\n ...,
5,6. Schindler's List (1993),8.9,12345678910 \r\n \r\n ...,
6,7. The Lord of the Rings: The Return of the Ki...,8.9,12345678910 \r\n \r\n ...,
7,8. Pulp Fiction (1994),8.9,12345678910 \r\n \r\n ...,
8,9. The Lord of the Rings: The Fellowship of th...,8.8,12345678910 \r\n \r\n ...,
9,"10. The Good, the Bad and the Ugly (1966)",8.8,12345678910 \r\n \r\n ...,


In [21]:
# Eliminamos las dos columnas que no deseamos
df.drop(['Your Rating', '_1'], axis=1, inplace=True)


In [22]:
df.head(15)


Unnamed: 0,Rank & Title,IMDb Rating
0,1. The Shawshank Redemption (1994),9.2
1,2. The Godfather (1972),9.2
2,3. The Dark Knight (2008),9.0
3,4. The Godfather Part II (1974),9.0
4,5. 12 Angry Men (1957),8.9
5,6. Schindler's List (1993),8.9
6,7. The Lord of the Rings: The Return of the Ki...,8.9
7,8. Pulp Fiction (1994),8.9
8,9. The Lord of the Rings: The Fellowship of th...,8.8
9,"10. The Good, the Bad and the Ugly (1966)",8.8


In [23]:
# Separamos las columnas
df[['Rank', 'Title_Year']] = df['Rank & Title'].str.split('.', 1, expand=True)

# Retiramos la columna no deseada
df.drop('Rank & Title', axis=1, inplace=True)


In [24]:
df.head(15)


Unnamed: 0,IMDb Rating,Rank,Title_Year
0,9.2,1,The Shawshank Redemption (1994)
1,9.2,2,The Godfather (1972)
2,9.0,3,The Dark Knight (2008)
3,9.0,4,The Godfather Part II (1974)
4,8.9,5,12 Angry Men (1957)
5,8.9,6,Schindler's List (1993)
6,8.9,7,The Lord of the Rings: The Return of the King...
7,8.9,8,Pulp Fiction (1994)
8,8.8,9,The Lord of the Rings: The Fellowship of the ...
9,8.8,10,"The Good, the Bad and the Ugly (1966)"


In [25]:
# Separamos las columnas
df[['Title', 'Year']] = df['Title_Year'].str.split('(', 1, expand=True)

# Retiramos la columna no deseada
df.drop('Title_Year', axis=1, inplace=True)


In [26]:
df.head(15)


Unnamed: 0,IMDb Rating,Rank,Title,Year
0,9.2,1,The Shawshank Redemption,1994)
1,9.2,2,The Godfather,1972)
2,9.0,3,The Dark Knight,2008)
3,9.0,4,The Godfather Part II,1974)
4,8.9,5,12 Angry Men,1957)
5,8.9,6,Schindler's List,1993)
6,8.9,7,The Lord of the Rings: The Return of the King,2003)
7,8.9,8,Pulp Fiction,1994)
8,8.8,9,The Lord of the Rings: The Fellowship of the ...,2001)
9,8.8,10,"The Good, the Bad and the Ugly",1966)


In [27]:
# Removemos el parentesis que sobra y convertimos a número
def remove_parenthesis(string):
    return int(string.replace(")", ""))


In [28]:
df['Year']= df["Year"].apply(remove_parenthesis)


In [29]:
df.head(15)


Unnamed: 0,IMDb Rating,Rank,Title,Year
0,9.2,1,The Shawshank Redemption,1994
1,9.2,2,The Godfather,1972
2,9.0,3,The Dark Knight,2008
3,9.0,4,The Godfather Part II,1974
4,8.9,5,12 Angry Men,1957
5,8.9,6,Schindler's List,1993
6,8.9,7,The Lord of the Rings: The Return of the King,2003
7,8.9,8,Pulp Fiction,1994
8,8.8,9,The Lord of the Rings: The Fellowship of the ...,2001
9,8.8,10,"The Good, the Bad and the Ugly",1966


In [30]:
df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 250 entries, 0 to 249
Data columns (total 4 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   IMDb Rating  250 non-null    float64
 1   Rank         250 non-null    object 
 2   Title        250 non-null    object 
 3   Year         250 non-null    int64  
dtypes: float64(1), int64(1), object(2)
memory usage: 7.9+ KB


In [31]:
# Reordenamos para una mejor visualización
df = df[["Rank", "Title", "Year", "IMDb Rating"]]

df.head(15)


Unnamed: 0,Rank,Title,Year,IMDb Rating
0,1,The Shawshank Redemption,1994,9.2
1,2,The Godfather,1972,9.2
2,3,The Dark Knight,2008,9.0
3,4,The Godfather Part II,1974,9.0
4,5,12 Angry Men,1957,8.9
5,6,Schindler's List,1993,8.9
6,7,The Lord of the Rings: The Return of the King,2003,8.9
7,8,Pulp Fiction,1994,8.9
8,9,The Lord of the Rings: The Fellowship of the ...,2001,8.8
9,10,"The Good, the Bad and the Ugly",1966,8.8


In [32]:
df.dtypes


Rank            object
Title           object
Year             int64
IMDb Rating    float64
dtype: object

In [33]:
# Convertimos en el tipo adecuado de dato
df['Rank'] = pd.to_numeric(df['Rank'])


In [34]:
df.dtypes


Rank             int64
Title           object
Year             int64
IMDb Rating    float64
dtype: object

Para saber más sobre los tipos de datos en Pandas da click [aquí](https://pbpython.com/pandas_dtypes.html).

In [35]:
df.head(15)


Unnamed: 0,Rank,Title,Year,IMDb Rating
0,1,The Shawshank Redemption,1994,9.2
1,2,The Godfather,1972,9.2
2,3,The Dark Knight,2008,9.0
3,4,The Godfather Part II,1974,9.0
4,5,12 Angry Men,1957,8.9
5,6,Schindler's List,1993,8.9
6,7,The Lord of the Rings: The Return of the King,2003,8.9
7,8,Pulp Fiction,1994,8.9
8,9,The Lord of the Rings: The Fellowship of the ...,2001,8.8
9,10,"The Good, the Bad and the Ugly",1966,8.8


# Valores faltantes (missing data)

La falta de datos puede ser manejada de las siguientes maneras:
- Eliminando aquellos registros/renglones que tienen ausencia de datos.
- Llenando los datos manualmente (si se conocen los valores pero no están en las tablas).
- Llenando los datos usando **medidas de tendencia central** (media, moda y mediana).
    - Media: para características numéricas.
    - Mediana: para características ordinales.
    - Moda: para características categóricas.
- Llenado los datos usando los valores más probables asignados por algún modelo de aprendizaje automático.

Vamos a generar una tabla artificial para ilustrar las técnicas previamente mencionadas

In [37]:
import numpy as np


In [39]:
dict_example: dict = {"Nombre": ['Carlos', 'Iván', 'Alberto', 'Jorge'],
                      "Edad": [24, 24, 25, np.nan],
                      "Promedio": [9.1, np.nan, 9.5, 9.3],
                      "Hora de nacimiento": [np.nan, "11:29", np.nan, np.nan]} 


In [40]:
df_example = pd.DataFrame(dict_example)
df_example


Unnamed: 0,Nombre,Edad,Promedio,Hora de nacimiento
0,Carlos,24.0,9.1,
1,Iván,24.0,,11:29
2,Alberto,25.0,9.5,
3,Jorge,,9.3,


Como podemos ver, la columna *Hora de nacimiento* tiene muchos valores faltantes, y para nuestros fines no es necesario conocer la hora de nacimiento, por lo que podemos eliminar esa columna usando el método *.drop()*.

In [42]:
df_example.drop('Hora de nacimiento', axis=1 ,inplace=True)


In [43]:
df_example


Unnamed: 0,Nombre,Edad,Promedio
0,Carlos,24.0,9.1
1,Iván,24.0,
2,Alberto,25.0,9.5
3,Jorge,,9.3


Ahora llenaremos el valor faltante de la columna *Edad* usando la moda.

In [44]:
df_example['Edad'] = df_example['Edad'].fillna(df_example['Edad'].mode()[0])


In [45]:
df_example


Unnamed: 0,Nombre,Edad,Promedio
0,Carlos,24.0,9.1
1,Iván,24.0,
2,Alberto,25.0,9.5
3,Jorge,24.0,9.3


De lo anterior note que estamos aplicando el método *.fillna()* para llenar los valores faltantes de una columna dada. La instrucción

    df_example['Edad'].mode()[0]
    
calcula la moda de la columna "Edad".

Finalmente llenaremos el valor faltante de la columna *Promedio* usando el valor promedio de esa misma columna.

In [47]:
df_example['Promedio'] = df_example['Promedio'].fillna(df_example['Promedio'].mean())


In [48]:
df_example


Unnamed: 0,Nombre,Edad,Promedio
0,Carlos,24.0,9.1
1,Iván,24.0,9.3
2,Alberto,25.0,9.5
3,Jorge,24.0,9.3


# Hacemos persistentes nuestros datos
Para persistir nuestros datos ya limpios y preprocesados, podemos almacenarlo en algún formato deseado, por ejemplo .csv.
En Pandas esto se hace con el método 
    
    .to_csv()

In [34]:
filename_to_save = "top_movies_cleaned.csv"

df.to_csv(filename_to_save, index=False)


**Referencias**
- https://pandas.pydata.org/pandas-docs/stable/reference/io.html
- Badia, Antonio. SQL for Data Science, Springer.
- Stepanek, Hannah. Thinking in Pandas, Apress.