# Limpieza de datos.

Importación de paquetes y lectura de datos.

In [None]:
import pandas as pd

invoices_df = pd.read_csv('../data/ecommerce.csv')
invoices_df.head()

## 1. Visión general del dataset.

En esta fase queremos conocer a nivel general aspectos como:
* Tamaño del dataset.
* Número de filas.
* Número de columnas.
* Nombre de columnas.
* Tipo de datos de las columnas.

### 1.1. Tamaño del dataset.
Para revisar el tampo del dataset y alguna información básica, como el tipo de dato inicial de la columna, podemos usar el método ```info()```

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.info.html

Si usamos ```memory_usage='deep'``` facilitará el tamaño de memoria real en lugar de una estimación

In [None]:
invoices_df.info(memory_usage = 'deep')

### 1.2. Número de filas y columnas.

A la hora de conocer el número de filas y columnas usaremos ```shape```. El primer valor es el número de filas y el segundo el de columnas

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.shape.html

In [None]:
# Número de filas y columnas
invoices_df.shape

### 1.3. Nombre de columnas.
Usaremos ```columns``` que nos devolverá los nombres de columnas como una lista de índices. Para facilitar su visionado podemos usar ```to_list()```.

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.columns.html

https://pandas.pydata.org/docs/reference/api/pandas.Index.to_list.html#pandas.Index.to_list


In [None]:
invoices_df.columns.to_list()

### 1.4. Tipos de datos de las columnas.

Con el atributo ```dtypes``` podemos listar esta información

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.dtypes.html

Los tipos de datos de columnas pueden ser:
* **object**: objetos incluidos strings.
* **int64**: números enteros.
* **floa64**: números decimales.
* **bool**: True/False.
* **datetime64**: Valores temporales y de fechas.
* **category**: Lista finita de valores en texto


In [None]:
invoices_df.dtypes

Al revisar el tipo de datos y los nombres de las columnas podemos encontrar problemas de calidad de datos. 
En el ejemplo vemos como la columna ```CustomerID``` está reconocida como un decimal cuando se trata de una cadena de caracteres que representa un id de usuario.

## 2. Renombrado de columnas.

#### 2.1. Identificación.

In [None]:
invoices_df.columns.to_list()

#### 2.2. Corrección.

In [None]:
invoice_df_col_names = [
    'invoice',
    'stock_code',
    'description',
    'quantity',
    'invoice_date',
    'unit_ price',
    'customer_id',
    'country'
]

invoices_df.columns = invoice_df_col_names
invoices_df.columns.to_list()

## 3. Conversión de tipos de datos.

#### 3.1. Identificación.

Para listar el tipo de datos de cada columna utilizaremos ```dtypes```.

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.dtypes.html

In [None]:
print(invoices_df.dtypes)
invoices_df.head()

#### 3.2. Corrección.

Para realizar conversión de datos por columnas de un dataframe usaremos ```astype```.

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.astype.html#pandas.DataFrame.astype

In [None]:
fixed_types = {
    'quantity': 'int',
    'invoice_date': 'datetime64[ns]',
    'customer_id': 'object'
}

#invoices_df_test = invoices_df.astype(fixed_types)

#print(invoices_df_test.dtypes)
#invoices_df_test.head()

In [None]:
# En el caso de tener nulos en la columnas nos dará error al utilizar el tipo 'int'
#invoices_df['customer_id'] = invoices_df['customer_id'].astype('int').astype('object')

In [None]:
# Para evitar este problema utilizaremos el tipo 'Int64'
invoices_df['customer_id'] = invoices_df['customer_id'].astype('Int64').astype('object')

print(invoices_df.dtypes)
invoices_df.head()

## 4. Manejo de nulos.

Uno de los problemas que podemos encontrar en los datos es la falta de información. Podemos encontrar registros con todos los campos nulos, o en columnas claves para nuestro análisis.

Por ello es importante conocer la cantidad de nulos por columna, tanto en valor absoluto como relativo, dentro de nuestro dataset.

#### 4.1. Identificación de la cantidad absoluta de nulos.

Utilizaremos el método ```ìsna()``` de los dataframes de Pandas para identificar en qué posiciones los valores de cada registro son nulos.

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.isna.html#pandas.DataFrame.isna

In [None]:
invoices_df.isna()

A continuación podemos utilizar el método ```sum()``` para conocer el total de nulos.

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sum.html

In [None]:
invoices_df.isna().sum()

#### 4.2. Identificación de la cantidad relativa (porcentaje) de nulos.

Utilizaremos de nuevo ```isna()``` para generar la matriz de nulos. En lugar de ```sum()``` utilizaremos ```mean()``` para calcular la media en este caso.

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.mean.html

Esta media nos dará el tanto por 1 de valores nulos con respecto a todos los registros del dataset. Al quererlo en porcentaje lo multiplicaremos por 100.

Finalmente utilizaremos ```sort_values()``` para ordenar nuestra lista de variables. Este punto es muy útil cuando tenemos un volumen grande de columnas y queremos destacar aquellas con mayor porcentaje de nulos.

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sort_values.html#pandas.DataFrame.sort_values

In [None]:
invoices_df.isna().mean().sort_values(ascending=False) * 100

#### 4.3. Corrección de columnas con todos los valores nulos.

Para eliminar registros o columnas con valores nulos se utiliza el método ```dropna()```.

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.dropna.html

Parámetros más importantes:

* **axis**: Si es 0 o index elimina los registros con nulos. Si es 1 o columns las variables.
* **how**: por defecto 'any' que elimina todo el registro o columna simplemente con que haya un nulo. Se puede poner a 'all' que lo eliminará solo si está totalmente a nulos
* **subset**: si queremos eliminar solo los nulos en algunas variables

Para borrar columnas en la que todos sus valores sean nulos se utilizará el parámetro ```axis=1```. Es importante especificar también en el argumento ```how``` el valor 'all'. En caso contrario eliminará cualquier columna en la que haya, al menos, un registro nulo.

In [None]:
# Creación de una columna con todos los valores a null
invoices_df['null_column'] = None
invoices_df.head()

In [None]:
# Borrado de la columna
invoices_df = invoices_df.dropna(axis=1, how='all')
invoices_df.head()

#### 4.4. Corrección de filas con registros nulos.

En el caso de las filas utilizaremos el parámetro ```axis``` con el valor 0. Igualmente tendremos en cuenta el valor del parámetro ```how```.

In [None]:
# Se añadieron filas nulas al final del dataset para este punto
invoices_df.tail()

In [None]:
# Borramos la fila con todos los valores nulos
invoices_df = invoices_df.dropna(axis=0, how='all')
invoices_df.tail()

En ocasiones podremos considerar un registro o fila nulo en el caso de que una o varias de sus columnas tengan valores nulos. Para especificar estas columnas se utiliza el atributo ```subset```.

Para este ejemplo vamos a considerar que, aquellas filas que no tienen número de factura y el códigod de stock, se consideran registros nulos.

In [None]:
# Creamos una fila con invoice y customer_id nulos. 
null_row_data = {
    'invoice': None,
    'stock_code': None,
    'description': 'PACK OF 20 SPACEBOY NAPKINS',
    'quantity': 4,
    'invoice_date': '12/9/2011 12:50',
    'unit_ price': 0.85,
    'customer_id': 12680,
    'country': 'France'
}

invoice_customer_null_row = pd.Series(data=null_row_data, index=invoice_df_col_names)

invoices_df.loc[len(invoices_df.index)] = invoice_customer_null_row
invoices_df.tail()

In [None]:
# Definimos el subset de variables a tener en cuenta para considerar un registro nulo y eliminamos.
subset_cols = ['invoice', 'stock_code']

invoices_df = invoices_df.dropna(axis=0, subset=subset_cols)
invoices_df.tail()

## 5. Manejo de duplicados.

#### 5.1. Identificación.

Para identificar los registros duplicados utilizaremos el método ```duplicated()```.

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.duplicated.html


Utilizando de nuevo el método ```sum()``` podremos cuantificar el número total de registros duplicados.

In [None]:
invoices_df.duplicated().sum()

En el caso de que se quiera visualizar el tipo de registros duplicados podemos utilizar el argumento ```keep```, de modo que nos mantenga todos los registros duplicados excepto la primera ocurrencia del mismo.

In [None]:
invoices_df[invoices_df.duplicated(keep=False)]

#### 5.2. Corrección.

Para eliminar los registros duplicados utilizaremos el método ```drop_duplicates()```.

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.drop_duplicates.html

In [None]:
invoices_df = invoices_df.drop_duplicates()
invoices_df[invoices_df.duplicated(keep=False)]

## 6. Manejo de valores atípicos (outliers).

#### 6.1. Generación de estadísticos básicos.

Utilizaremos ```select_dtypes``` para poder diferenciar tipos de datos a la hora de extraer estadísticos básicos de las variables.

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.select_dtypes.html

El método ```describe()``` genera estadísticos básicos para cada variable.

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.describe.html

Generación de estadísticos para **tipos numéricos**.

In [None]:
invoices_df.select_dtypes(include='number').describe()

Aquí valoramos la idoneidad de los datos e identificamos problemas, por ejemplo:
* **quantity** y **unit_price** tienen valores negativos que no tienen sentido.
* El valor máximo de **quantity** no parece ser posible (habría que confirmar con negocio que no se hacen pedidos tan grandes).

Estos valores atípicos posiblemente desvirtúan en gran medida otros como la **media** o los **cuartiles**. En este caso, con variables de tipo numérico suelen realizarse imputaciones a la media, mediana, etc. Estos puntos se verán en otros módulos, puesto que es muy relevante en la implementación de modelos.

En ocasiones estas imputaciones se calculan de forma más sofisticada a partir de varias columnas, que identificarían perfiles de facturas para este ejemplo.

Generación de estadísticos para **tipos no numéricos**.

In [None]:
invoices_df.select_dtypes(exclude='number').describe()

En el caso de las variables no numéricas se revisan principalmente las **modas**, y son las usadas frecuentemente como imputación para nulos.

## 7. Normalización y estandarización.

#### 7.1. Identificación.

En el caso de columnas de texto utilizaremos métodos de ```str```. En este caso para obtener la longitud de las cadenas tenemos el método ```len()```.

https://pandas.pydata.org/docs/reference/api/pandas.Series.str.len.html

In [None]:
invoices_df['stock_code'].str.len().sort_values().unique()

Creamos una función para visualizar los valores con cada longitud para la columna **stock_code**. El método ```unique()``` nos proporciona la lista de valores únicos.

https://pandas.pydata.org/docs/reference/api/pandas.Series.unique.html

In [None]:
def show_col_values_by_len(df, col):
    mask = df[col]

    for stock_code_len in range(1, 13):
        print(
            f"Len: {stock_code_len} --> {df[mask.str.len() == stock_code_len][col].unique()}"
        )
        
show_col_values_by_len(invoices_df, 'stock_code')

Para nuestro ejemplo vamos a suponer que las reglas de negocio que definen los códigos son las siguientes:
1. Que los códigos están formados por letras y números. No puede haber símbolos como guiones, espacios, etc.
2. Que los caracteres alfabéticos deben estar en mayúsculas.
3. Que el que el valor **'DOT'** es un error al introducir el registro en el sistema, y por lo tanto registros que vamos a eliminar.
4. Que los valores con tamaño 1, 2 y 4 son códigos antiguos, pero que tienen un código nuevo asociado:
    * 'D' = 536641.
    * 'M' = 84029G.
    * 'S' = 85179A.
    * 'B' = 90214U.
    * 'C2' = 47591B.
    * 'POST' = 79323LP.
    * 'PADS' = 79323GR.
    * 'CRUK' = 15056BL.
5. Que la longitud del código siempre tiene que ser de 11 carácteres, rellenando con 0s a la izquierda los que tengan menos.

#### 7.2. Paso 1: Corrección de caracteres alfanuméricos.

Los códigos están formados por letras y números. No puede haber símbolos como guiones, espacios, etc.

Utilizamos una expresión regular [\W_] para reemplazar con ```str.replace()``` los caracteres no alfanuméricos.

https://pandas.pydata.org/docs/reference/api/pandas.Series.str.replace.html

Podemos validar en algún servicio online https://regex101.com/, https://regexr.com/ con una muestra de nuestros valores:
```
D
M
S
m
B
C2
DOT
CRUK
21730
85123A
85179a
90214U
BANK CHARGES
gift_0001_40
gift_0001_50
gift_0001_30
gift_0001_20
gift_0001_10
```

In [None]:
invoices_df['stock_code_norm'] = invoices_df['stock_code'].str.replace(pat='[\W_]', repl='', regex=True)
show_col_values_by_len(invoices_df, 'stock_code_norm')

#### 7.3. Paso 2: Corrección de mayúsculas.


Todos los caracteres numéricos deben estar en mayúsculas

https://pandas.pydata.org/docs/reference/api/pandas.Series.str.upper.html

In [None]:
invoices_df['stock_code_norm'] = invoices_df['stock_code_norm'].str.upper()
show_col_values_by_len(invoices_df, 'stock_code_norm')

#### 7.4. Paso 3: Corrección de registros inválidos.

Los registros que tienen **'DOT'** como valor en **'stock_code'** son fruto de un error al introducir el registro en el sistema, y por lo tanto registros que vamos a eliminar.

In [None]:
invoices_df = invoices_df[invoices_df['stock_code_norm'] != 'DOT']
show_col_values_by_len(invoices_df, 'stock_code_norm')

#### 7.5. Paso 4: Corrección de códigos antiguos.

Identificamos registros con códigos antiguos para revisar tras la corrección.

In [None]:
invoices_df[invoices_df['stock_code_norm'].str.len() < 5].head()

Los valores con tamaño 1, 2 y 4 son códigos antiguos, pero que tienen un código nuevo asociado:
* 'D' = 536641.
* 'M' = 84029G.
* 'S' = 85179A.
* 'B' = 90214U.
* 'C2' = 47591B.
* 'POST' = 79323LP.
* 'PADS' = 79323GR.
* 'CRUK' = 15056BL.

Creamos un diccionario con los valores antiguos y nuevos para realizar el mapeo, aplicamos ```map()``` con el diccionario para modificar los valores y revisamos el listado de valores únicos.
Utilizamos ```fillna()``` para rellenar con el valor original aquellos registros que no tienen esta problemática.

https://pandas.pydata.org/docs/reference/api/pandas.Series.map.html#pandas.Series.map

https://pandas.pydata.org/docs/reference/api/pandas.Series.fillna.html

In [None]:
new_codes = {
    'D': '536641',
    'M': '84029G',
    'S': '85179A',
    'B': '90214U',
    'C2': '47591B',
    'POST': '79323LP',
    'PADS': '79323GR',
    'CRUK': '15056BL'
}

invoices_df['stock_code_norm'] = invoices_df['stock_code_norm'].map(new_codes).fillna(invoices_df['stock_code_norm'])
show_col_values_by_len(invoices_df, 'stock_code_norm')

Si revisamos un registro concreto donde sabemos que había un valor de stock code antiguo, comprobamos que se ha hecho el cambio correctamente.

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.iloc.html

In [None]:
invoices_df.iloc[[45]]

#### 7.6. Paso 5: Normalizar el tamaño del código.

La longitud del código siempre tiene que ser de 11 carácteres, rellenando con 0s a la izquierda los que tengan menos. Utilizamos ```str.zfill()``` para rellenar estos valores.

https://pandas.pydata.org/docs/reference/api/pandas.Series.str.zfill.html

In [None]:
invoices_df['stock_code_norm'] = invoices_df['stock_code_norm'].str.zfill(11)
invoices_df.head()

In [None]:
show_col_values_by_len(invoices_df, 'stock_code_norm')

Eliminamos la columna original del código por la normalizada.

In [None]:
invoices_df['stock_code'] = invoices_df['stock_code_norm']
invoices_df.drop('stock_code_norm', axis=1, inplace=True)
invoices_df.head()

## 8. Creación de nuevas columnas


Necesitamos generar una columna con el precio total de cada concepto de la factura.

In [None]:
invoices_df.head()

In [None]:
invoices_df['total_price'] = invoices_df['quantity'] * invoices_df['unit_ price']
invoices_df.head()

## 9. Herramientas de perfilado de datos.
Existen algunos paquetes de Python que nos ofrecen un perfilado de los datos de forma automática como **ydata_profiling**.

https://docs.profiling.ydata.ai/latest/

In [None]:

# Instalar con pip install -U ydata-profiling

from ydata_profiling import ProfileReport

profile = ProfileReport(invoices_df, title="Profiling Report")

# Reporte en html
profile.to_file("../reports/invoices_report.html")

# Reporte en embebido en notebook
profile.to_notebook_iframe()