# Limpieza de datos.

Importación de paquetes y lectura de datos.

In [106]:
import pandas as pd

invoices_df = pd.read_csv('../data/ecommerce.csv')
invoices_df.head()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6.0,12/1/2010 8:26,2.55,17850.0,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6.0,12/1/2010 8:26,3.39,17850.0,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8.0,12/1/2010 8:26,2.75,17850.0,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6.0,12/1/2010 8:26,3.39,17850.0,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6.0,12/1/2010 8:26,3.39,17850.0,United Kingdom


## 1. Visión general del dataset.

En esta fase queremos conocer a nivel general aspectos como:
* Tamaño del dataset.
* Número de filas.
* Número de columnas.
* Nombre de columnas.
* Tipo de datos de las columnas.

### 1.1. Tamaño del dataset.
Para revisar el tampo del dataset y alguna información básica, como el tipo de dato inicial de la columna, podemos usar el método ```info()```

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.info.html

Si usamos ```memory_usage='deep'``` facilitará el tamaño de memoria real en lugar de una estimación

In [107]:
invoices_df.info(memory_usage = 'deep')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 542009 entries, 0 to 542008
Data columns (total 8 columns):
 #   Column       Non-Null Count   Dtype  
---  ------       --------------   -----  
 0   InvoiceNo    541909 non-null  object 
 1   StockCode    541909 non-null  object 
 2   Description  540455 non-null  object 
 3   Quantity     541909 non-null  float64
 4   InvoiceDate  541909 non-null  object 
 5   UnitPrice    541909 non-null  float64
 6   CustomerID   406829 non-null  float64
 7   Country      541909 non-null  object 
dtypes: float64(3), object(5)
memory usage: 193.8 MB


### 1.2. Número de filas y columnas.

A la hora de conocer el número de filas y columnas usaremos ```shape```. El primer valor es el número de filas y el segundo el de columnas

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.shape.html

In [108]:
# Número de filas y columnas
invoices_df.shape

(542009, 8)

### 1.3. Nombre de columnas.
Usaremos ```columns``` que nos devolverá los nombres de columnas como una lista de índices. Para facilitar su visionado podemos usar ```to_list()```.

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.columns.html

https://pandas.pydata.org/docs/reference/api/pandas.Index.to_list.html#pandas.Index.to_list


In [109]:
invoices_df.columns.to_list()

['InvoiceNo',
 'StockCode',
 'Description',
 'Quantity',
 'InvoiceDate',
 'UnitPrice',
 'CustomerID',
 'Country']

### 1.4. Tipos de datos de las columnas.

Con el atributo ```dtypes``` podemos listar esta información
https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.dtypes.html

Los tipos de datos de columnas pueden ser:
* **object**: objetos incluidos strings.
* **int64**: números enteros.
* **floa64**: números decimales.
* **bool**: True/False.
* **datetime64**: Valores temporales y de fechas.
* **category**: Lista finita de valores en texto


In [110]:
invoices_df.dtypes

InvoiceNo       object
StockCode       object
Description     object
Quantity       float64
InvoiceDate     object
UnitPrice      float64
CustomerID     float64
Country         object
dtype: object

Al revisar el tipo de datos y los nombres de las columnas podemos encontrar problemas de calidad de datos. 
En el ejemplo vemos como la columna ```CustomerID``` está reconocida como un decimal cuando se trata de una cadena de caracteres que representa un id de usuario.

## 2. Renombrado de columnas.

#### 2.1. Identificación.

In [111]:
invoices_df.columns.to_list()

['InvoiceNo',
 'StockCode',
 'Description',
 'Quantity',
 'InvoiceDate',
 'UnitPrice',
 'CustomerID',
 'Country']

#### 2.2. Corrección.

In [112]:
invoice_df_col_names = [
    'invoice',
    'stock_code',
    'description',
    'quantity',
    'invoice_date',
    'unit_ price',
    'customer_id',
    'country'
]

invoices_df.columns = invoice_df_col_names
invoices_df.columns.to_list()

['invoice',
 'stock_code',
 'description',
 'quantity',
 'invoice_date',
 'unit_ price',
 'customer_id',
 'country']

## 3. Conversión de tipos de datos.

#### 3.1. Identificación.

In [113]:
print(invoices_df.dtypes)
invoices_df.head()

invoice          object
stock_code       object
description      object
quantity        float64
invoice_date     object
unit_ price     float64
customer_id     float64
country          object
dtype: object


Unnamed: 0,invoice,stock_code,description,quantity,invoice_date,unit_ price,customer_id,country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6.0,12/1/2010 8:26,2.55,17850.0,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6.0,12/1/2010 8:26,3.39,17850.0,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8.0,12/1/2010 8:26,2.75,17850.0,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6.0,12/1/2010 8:26,3.39,17850.0,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6.0,12/1/2010 8:26,3.39,17850.0,United Kingdom


#### 3.2. Corrección.

In [114]:
fixed_types = {
    'quantity': 'int',
    'invoice_date': 'datetime64[ns]',
    'customer_id': 'object'
}

invoices_df_test = invoices_df.astype(fixed_types)

print(invoices_df_test.dtypes)
invoices_df_test.head()


IntCastingNaNError: Cannot convert non-finite values (NA or inf) to integer: Error while type casting for column 'quantity'

In [115]:
# En el caso de tener nulos en la columnas nos dará error al utilizar el tipo 'int'
invoices_df['customer_id'] = invoices_df['customer_id'].astype('int').astype('object')

IntCastingNaNError: Cannot convert non-finite values (NA or inf) to integer

In [116]:
# Para evitar este problema utilizaremos el tipo 'Int64'
invoices_df['customer_id'] = invoices_df['customer_id'].astype('Int64').astype('object')

print(invoices_df.dtypes)
invoices_df.head()

invoice          object
stock_code       object
description      object
quantity        float64
invoice_date     object
unit_ price     float64
customer_id      object
country          object
dtype: object


Unnamed: 0,invoice,stock_code,description,quantity,invoice_date,unit_ price,customer_id,country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6.0,12/1/2010 8:26,2.55,17850,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6.0,12/1/2010 8:26,3.39,17850,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8.0,12/1/2010 8:26,2.75,17850,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6.0,12/1/2010 8:26,3.39,17850,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6.0,12/1/2010 8:26,3.39,17850,United Kingdom


## 4. Manejo de nulos.

Uno de los problemas que podemos encontrar en los datos es la falta de información. Podemos encontrar registros con todos los campos nulos, o en columnas claves para nuestro análisis.

Por ello es importante conocer la cantidad de nulos, tanto en valor absoluto como relativo, por columna dentro de nuestro dataset.

#### 4.1. Identificación de la cantidad absoluta de nulos.

Utilizaremos el método ``ìsna()``` de los dataframes de Pandas para identificar en qué posiciones los valores de cada registro son nulos


In [117]:
invoices_df.isna()

Unnamed: 0,invoice,stock_code,description,quantity,invoice_date,unit_ price,customer_id,country
0,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...
542004,True,True,True,True,True,True,True,True
542005,True,True,True,True,True,True,True,True
542006,True,True,True,True,True,True,True,True
542007,True,True,True,True,True,True,True,True


A continuación podemos utilizar el método ```sum()``` para conocer el total de nulos.

In [118]:
invoices_df.isna().sum()

invoice            100
stock_code         100
description       1554
quantity           100
invoice_date       100
unit_ price        100
customer_id     135180
country            100
dtype: int64

#### 4.2. Identificación de la cantidad relativa (porcentaje) de nulos.

Utilizaremos de nuevo ```isna()``` para generar la matriz de nulos. En lugar de ```sum()``` utilizaremos ```   mean()``` para calcular la media en este caso.

Esta media nos dará el tanto por 1 de valores nulos con respecto a todos los registros del dataset. Al quererlo en porcentaje lo multiplicaremos por 100.

Finalmente utilizaremos ```sort_values()``` para ordenar nuestra lista de variables. Este punto es muy útil cuando tenemos un volumen grande de columnas y queremos destacar aquellas con mayor porcentaje de nulos.

In [119]:
invoices_df.isna().mean().sort_values(ascending=False) * 100

customer_id     24.940545
description      0.286711
invoice          0.018450
stock_code       0.018450
quantity         0.018450
invoice_date     0.018450
unit_ price      0.018450
country          0.018450
dtype: float64

#### 4.3. Corrección de columnas con todos los valores nulos.

Para eliminar registros o columnas con valores nulos se utiliza el método ```dropna()```.

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.dropna.html

Parámetros más importantes:

* axis: Si 0 o index elimina los registros con nulos. Si 1 o columns las variables.
* how: por defecto 'any' que elimina todo el registro o columna simplemente con que haya un nulo. Se puede poner a 'all' que lo eliminará solo si está totalmente a nulos
* subset: si queremos eliminar solo los nulos en algunas variables

Para borrar columnas en la que todos sus valores sean nulos se utilizará el parámetro ```axis=1```. Es importante especificar también en el argumento ```how``` el valor 'all'. En caso contrario eliminará cualquier columna en la que haya, al menos, un registro nulo.

In [120]:
# Creación de una columna con todos los valores a null
invoices_df['null_column'] = None
invoices_df.head()

Unnamed: 0,invoice,stock_code,description,quantity,invoice_date,unit_ price,customer_id,country,null_column
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6.0,12/1/2010 8:26,2.55,17850,United Kingdom,
1,536365,71053,WHITE METAL LANTERN,6.0,12/1/2010 8:26,3.39,17850,United Kingdom,
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8.0,12/1/2010 8:26,2.75,17850,United Kingdom,
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6.0,12/1/2010 8:26,3.39,17850,United Kingdom,
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6.0,12/1/2010 8:26,3.39,17850,United Kingdom,


In [121]:
# Borrado de la columna
invoices_df = invoices_df.dropna(axis=1, how='all')
invoices_df.head()

Unnamed: 0,invoice,stock_code,description,quantity,invoice_date,unit_ price,customer_id,country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6.0,12/1/2010 8:26,2.55,17850,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6.0,12/1/2010 8:26,3.39,17850,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8.0,12/1/2010 8:26,2.75,17850,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6.0,12/1/2010 8:26,3.39,17850,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6.0,12/1/2010 8:26,3.39,17850,United Kingdom


#### 4.3. Corrección de filas con registros nulos.

En el caso de las filas utilizaremos el parámetro ```axis``` con el valor 0. Igualmente tendremos en cuenta el valor del parámetro ```how```.

In [124]:
# Se añadieron filas nulas al final del dataset para este punto
invoices_df.tail()


Unnamed: 0,invoice,stock_code,description,quantity,invoice_date,unit_ price,customer_id,country
541904,581587,22613,PACK OF 20 SPACEBOY NAPKINS,12.0,12/9/2011 12:50,0.85,12680,France
541905,581587,22899,CHILDREN'S APRON DOLLY GIRL,6.0,12/9/2011 12:50,2.1,12680,France
541906,581587,23254,CHILDRENS CUTLERY DOLLY GIRL,4.0,12/9/2011 12:50,4.15,12680,France
541907,581587,23255,CHILDRENS CUTLERY CIRCUS PARADE,4.0,12/9/2011 12:50,4.15,12680,France
541908,581587,22138,BAKING SET 9 PIECE RETROSPOT,3.0,12/9/2011 12:50,4.95,12680,France


In [123]:
# Borramos la fila con todos los valores nulos
invoices_df = invoices_df.dropna(axis=0, how='all')
invoices_df.tail()

Unnamed: 0,invoice,stock_code,description,quantity,invoice_date,unit_ price,customer_id,country
541904,581587,22613,PACK OF 20 SPACEBOY NAPKINS,12.0,12/9/2011 12:50,0.85,12680,France
541905,581587,22899,CHILDREN'S APRON DOLLY GIRL,6.0,12/9/2011 12:50,2.1,12680,France
541906,581587,23254,CHILDRENS CUTLERY DOLLY GIRL,4.0,12/9/2011 12:50,4.15,12680,France
541907,581587,23255,CHILDRENS CUTLERY CIRCUS PARADE,4.0,12/9/2011 12:50,4.15,12680,France
541908,581587,22138,BAKING SET 9 PIECE RETROSPOT,3.0,12/9/2011 12:50,4.95,12680,France


En ocasiones podremos considerar un registro o fila nulo en el caso de que una o varias de sus columnas tengan valores nulos. Para especificar estas columnas se utiliza el atributo ```subset```.

Para este ejemplo vamos a considerar que, aquellas filas que no tienen número de factura y el códigod de stock, se consideran registros nulos.

In [126]:
# Creamos una fila con invoice y customer_id nulos. 
null_row_data = {
    'invoice': None,
    'stock_code': None,
    'description': 'PACK OF 20 SPACEBOY NAPKINS',
    'quantity': 4,
    'invoice_date': '12/9/2011 12:50',
    'unit_ price': 0.85,
    'customer_id': 12680,
    'country': 'France'
}

invoice_customer_null_row = pd.Series(data=null_row_data, index=invoice_df_col_names)

invoices_df.loc[len(invoices_df.index)] = invoice_customer_null_row
invoices_df.tail()

Unnamed: 0,invoice,stock_code,description,quantity,invoice_date,unit_ price,customer_id,country
541906,581587.0,23254.0,CHILDRENS CUTLERY DOLLY GIRL,4.0,12/9/2011 12:50,4.15,12680,France
541907,581587.0,23255.0,CHILDRENS CUTLERY CIRCUS PARADE,4.0,12/9/2011 12:50,4.15,12680,France
541908,581587.0,22138.0,BAKING SET 9 PIECE RETROSPOT,3.0,12/9/2011 12:50,4.95,12680,France
541909,,,PACK OF 20 SPACEBOY NAPKINS,4.0,12/9/2011 12:50,0.85,12680,France
541910,,,PACK OF 20 SPACEBOY NAPKINS,4.0,12/9/2011 12:50,0.85,12680,France


In [127]:
# Definimos el subset de variables a tener en cuenta para considerar un registro nulo y eliminamos.
subset_cols = ['invoice', 'stock_code']

invoices_df = invoices_df.dropna(axis=0, subset=subset_cols)
invoices_df.tail()

Unnamed: 0,invoice,stock_code,description,quantity,invoice_date,unit_ price,customer_id,country
541904,581587,22613,PACK OF 20 SPACEBOY NAPKINS,12.0,12/9/2011 12:50,0.85,12680,France
541905,581587,22899,CHILDREN'S APRON DOLLY GIRL,6.0,12/9/2011 12:50,2.1,12680,France
541906,581587,23254,CHILDRENS CUTLERY DOLLY GIRL,4.0,12/9/2011 12:50,4.15,12680,France
541907,581587,23255,CHILDRENS CUTLERY CIRCUS PARADE,4.0,12/9/2011 12:50,4.15,12680,France
541908,581587,22138,BAKING SET 9 PIECE RETROSPOT,3.0,12/9/2011 12:50,4.95,12680,France


## 5. Manejo de duplicados.

#### 5.1. Identificación.

Para identificar los registros duplicados utilizaremos el método ```duplicated()```.

Utilizando de nuevo el método ```sum()``` podremos cuantificar el número total de registros duplicados.

In [128]:
invoices_df.duplicated().sum()

5268

En el caso de que se quiera visualizar el tipo de registros duplicados podemos utilizar el argumento ```keep```, de modo que nos mantenga todos los registros duplicados excepto la primera ocurrencia del mismo.

In [129]:
invoices_df[invoices_df.duplicated(keep=False)]

Unnamed: 0,invoice,stock_code,description,quantity,invoice_date,unit_ price,customer_id,country
485,536409,22111,SCOTTIE DOG HOT WATER BOTTLE,1.0,12/1/2010 11:45,4.95,17908,United Kingdom
489,536409,22866,HAND WARMER SCOTTY DOG DESIGN,1.0,12/1/2010 11:45,2.10,17908,United Kingdom
494,536409,21866,UNION JACK FLAG LUGGAGE TAG,1.0,12/1/2010 11:45,1.25,17908,United Kingdom
517,536409,21866,UNION JACK FLAG LUGGAGE TAG,1.0,12/1/2010 11:45,1.25,17908,United Kingdom
521,536409,22900,SET 2 TEA TOWELS I LOVE LONDON,1.0,12/1/2010 11:45,2.95,17908,United Kingdom
...,...,...,...,...,...,...,...,...
541675,581538,22068,BLACK PIRATE TREASURE CHEST,1.0,12/9/2011 11:34,0.39,14446,United Kingdom
541689,581538,23318,BOX OF 6 MINI VINTAGE CRACKERS,1.0,12/9/2011 11:34,2.49,14446,United Kingdom
541692,581538,22992,REVOLVER WOODEN RULER,1.0,12/9/2011 11:34,1.95,14446,United Kingdom
541699,581538,22694,WICKER STAR,1.0,12/9/2011 11:34,2.10,14446,United Kingdom


#### 5.2. Corrección.

Para eliminar los registros duplicados utilizaremos el método ```drop_duplicates()```.

In [130]:
invoices_df = invoices_df.drop_duplicates()
invoices_df[invoices_df.duplicated(keep=False)]

Unnamed: 0,invoice,stock_code,description,quantity,invoice_date,unit_ price,customer_id,country


## 6. Manejo de valores atípicos (outliers).

#### 6.1. Identificación.

#### 6.2. Corrección.

## 7. Normalización y estandarización.

#### 7.1. Identificación.

#### 7.2. Corrección.

## 8. Creación de nuevas columnas


#### 2.1. Identificación.

#### 2.2. Corrección.

## 9. Herramientas de perfilado de datos.
Existen algunos paquetes de Python que nos ofrecen información 

In [None]:

# Instalar con pip install -U ydata-profiling

from ydata_profiling import ProfileReport

profile = ProfileReport(invoices_df, title="Profiling Report")

# Reporte en html
profile.to_file("your_report.html")

# Reporte en embebido en notebook
profile.to_notebook_iframe()

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

Export report to file:   0%|          | 0/1 [00:00<?, ?it/s]