# Limpieza de datos.

Importación de paquetes y lectura de datos.

In [48]:
import pandas as pd

invoices_df = pd.read_csv('../data/ecommerce.csv')
invoices_df.head()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6.0,12/1/2010 8:26,2.55,17850.0,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6.0,12/1/2010 8:26,3.39,17850.0,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8.0,12/1/2010 8:26,2.75,17850.0,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6.0,12/1/2010 8:26,3.39,17850.0,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6.0,12/1/2010 8:26,3.39,17850.0,United Kingdom


## 1. Visión general del dataset.

En esta fase queremos conocer a nivel general aspectos como:
* Tamaño del dataset.
* Número de filas.
* Número de columnas.
* Nombre de columnas.
* Tipo de datos de las columnas.

### 1.1. Tamaño del dataset.
Para revisar el tampo del dataset y alguna información básica, como el tipo de dato inicial de la columna, podemos usar el método ```info()```

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.info.html

Si usamos ```memory_usage='deep'``` facilitará el tamaño de memoria real en lugar de una estimación

In [49]:
invoices_df.info(memory_usage = 'deep')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 542009 entries, 0 to 542008
Data columns (total 8 columns):
 #   Column       Non-Null Count   Dtype  
---  ------       --------------   -----  
 0   InvoiceNo    541909 non-null  object 
 1   StockCode    541909 non-null  object 
 2   Description  540455 non-null  object 
 3   Quantity     541909 non-null  float64
 4   InvoiceDate  541909 non-null  object 
 5   UnitPrice    541909 non-null  float64
 6   CustomerID   406829 non-null  float64
 7   Country      541909 non-null  object 
dtypes: float64(3), object(5)
memory usage: 193.8 MB


### 1.2. Número de filas y columnas.

A la hora de conocer el número de filas y columnas usaremos ```shape```. El primer valor es el número de filas y el segundo el de columnas

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.shape.html

In [50]:
# Número de filas y columnas
invoices_df.shape

(542009, 8)

### 1.3. Nombre de columnas.
Usaremos ```columns``` que nos devolverá los nombres de columnas como una lista de índices. Para facilitar su visionado podemos usar ```to_list()```.

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.columns.html

https://pandas.pydata.org/docs/reference/api/pandas.Index.to_list.html#pandas.Index.to_list


In [51]:
invoices_df.columns.to_list()

['InvoiceNo',
 'StockCode',
 'Description',
 'Quantity',
 'InvoiceDate',
 'UnitPrice',
 'CustomerID',
 'Country']

### 1.4. Tipos de datos de las columnas.

Con el atributo ```dtypes``` podemos listar esta información

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.dtypes.html

Los tipos de datos de columnas pueden ser:
* **object**: objetos incluidos strings.
* **int64**: números enteros.
* **floa64**: números decimales.
* **bool**: True/False.
* **datetime64**: Valores temporales y de fechas.
* **category**: Lista finita de valores en texto


In [52]:
invoices_df.dtypes

InvoiceNo       object
StockCode       object
Description     object
Quantity       float64
InvoiceDate     object
UnitPrice      float64
CustomerID     float64
Country         object
dtype: object

Al revisar el tipo de datos y los nombres de las columnas podemos encontrar problemas de calidad de datos. 
En el ejemplo vemos como la columna ```CustomerID``` está reconocida como un decimal cuando se trata de una cadena de caracteres que representa un id de usuario.

## 2. Renombrado de columnas.

#### 2.1. Identificación.

In [53]:
invoices_df.columns.to_list()

['InvoiceNo',
 'StockCode',
 'Description',
 'Quantity',
 'InvoiceDate',
 'UnitPrice',
 'CustomerID',
 'Country']

#### 2.2. Corrección.

In [54]:
invoice_df_col_names = [
    'invoice',
    'stock_code',
    'description',
    'quantity',
    'invoice_date',
    'unit_ price',
    'customer_id',
    'country'
]

invoices_df.columns = invoice_df_col_names
invoices_df.columns.to_list()

['invoice',
 'stock_code',
 'description',
 'quantity',
 'invoice_date',
 'unit_ price',
 'customer_id',
 'country']

## 3. Conversión de tipos de datos.

#### 3.1. Identificación.

Para listar el tipo de datos de cada columna utilizaremos ```dtypes```.

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.dtypes.html

In [55]:
print(invoices_df.dtypes)
invoices_df.head()

invoice          object
stock_code       object
description      object
quantity        float64
invoice_date     object
unit_ price     float64
customer_id     float64
country          object
dtype: object


Unnamed: 0,invoice,stock_code,description,quantity,invoice_date,unit_ price,customer_id,country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6.0,12/1/2010 8:26,2.55,17850.0,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6.0,12/1/2010 8:26,3.39,17850.0,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8.0,12/1/2010 8:26,2.75,17850.0,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6.0,12/1/2010 8:26,3.39,17850.0,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6.0,12/1/2010 8:26,3.39,17850.0,United Kingdom


#### 3.2. Corrección.

Para realizar conversión de datos por columnas de un dataframe usaremos ```astype```.

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.astype.html#pandas.DataFrame.astype

In [56]:
fixed_types = {
    'quantity': 'int',
    'invoice_date': 'datetime64[ns]',
    'customer_id': 'object'
}

#invoices_df_test = invoices_df.astype(fixed_types)

#print(invoices_df_test.dtypes)
#invoices_df_test.head()


In [57]:
# En el caso de tener nulos en la columnas nos dará error al utilizar el tipo 'int'
#invoices_df['customer_id'] = invoices_df['customer_id'].astype('int').astype('object')

In [58]:
# Para evitar este problema utilizaremos el tipo 'Int64'
invoices_df['customer_id'] = invoices_df['customer_id'].astype('Int64').astype('object')

print(invoices_df.dtypes)
invoices_df.head()

invoice          object
stock_code       object
description      object
quantity        float64
invoice_date     object
unit_ price     float64
customer_id      object
country          object
dtype: object


Unnamed: 0,invoice,stock_code,description,quantity,invoice_date,unit_ price,customer_id,country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6.0,12/1/2010 8:26,2.55,17850,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6.0,12/1/2010 8:26,3.39,17850,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8.0,12/1/2010 8:26,2.75,17850,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6.0,12/1/2010 8:26,3.39,17850,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6.0,12/1/2010 8:26,3.39,17850,United Kingdom


## 4. Manejo de nulos.

Uno de los problemas que podemos encontrar en los datos es la falta de información. Podemos encontrar registros con todos los campos nulos, o en columnas claves para nuestro análisis.

Por ello es importante conocer la cantidad de nulos, tanto en valor absoluto como relativo, por columna dentro de nuestro dataset.

#### 4.1. Identificación de la cantidad absoluta de nulos.

Utilizaremos el método ```ìsna()``` de los dataframes de Pandas para identificar en qué posiciones los valores de cada registro son nulos.

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.isna.html#pandas.DataFrame.isna

In [59]:
invoices_df.isna()

Unnamed: 0,invoice,stock_code,description,quantity,invoice_date,unit_ price,customer_id,country
0,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...
542004,True,True,True,True,True,True,True,True
542005,True,True,True,True,True,True,True,True
542006,True,True,True,True,True,True,True,True
542007,True,True,True,True,True,True,True,True


A continuación podemos utilizar el método ```sum()``` para conocer el total de nulos.

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sum.html

In [60]:
invoices_df.isna().sum()

invoice            100
stock_code         100
description       1554
quantity           100
invoice_date       100
unit_ price        100
customer_id     135180
country            100
dtype: int64

#### 4.2. Identificación de la cantidad relativa (porcentaje) de nulos.

Utilizaremos de nuevo ```isna()``` para generar la matriz de nulos. En lugar de ```sum()``` utilizaremos ```   mean()``` para calcular la media en este caso.

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sum.html#pandas.DataFrame.sum

Esta media nos dará el tanto por 1 de valores nulos con respecto a todos los registros del dataset. Al quererlo en porcentaje lo multiplicaremos por 100.

Finalmente utilizaremos ```sort_values()``` para ordenar nuestra lista de variables. Este punto es muy útil cuando tenemos un volumen grande de columnas y queremos destacar aquellas con mayor porcentaje de nulos.

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sort_values.html#pandas.DataFrame.sort_values

In [61]:
invoices_df.isna().mean().sort_values(ascending=False) * 100

customer_id     24.940545
description      0.286711
invoice          0.018450
stock_code       0.018450
quantity         0.018450
invoice_date     0.018450
unit_ price      0.018450
country          0.018450
dtype: float64

#### 4.3. Corrección de columnas con todos los valores nulos.

Para eliminar registros o columnas con valores nulos se utiliza el método ```dropna()```.

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.dropna.html

Parámetros más importantes:

* axis: Si 0 o index elimina los registros con nulos. Si 1 o columns las variables.
* how: por defecto 'any' que elimina todo el registro o columna simplemente con que haya un nulo. Se puede poner a 'all' que lo eliminará solo si está totalmente a nulos
* subset: si queremos eliminar solo los nulos en algunas variables

Para borrar columnas en la que todos sus valores sean nulos se utilizará el parámetro ```axis=1```. Es importante especificar también en el argumento ```how``` el valor 'all'. En caso contrario eliminará cualquier columna en la que haya, al menos, un registro nulo.

In [62]:
# Creación de una columna con todos los valores a null
invoices_df['null_column'] = None
invoices_df.head()

Unnamed: 0,invoice,stock_code,description,quantity,invoice_date,unit_ price,customer_id,country,null_column
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6.0,12/1/2010 8:26,2.55,17850,United Kingdom,
1,536365,71053,WHITE METAL LANTERN,6.0,12/1/2010 8:26,3.39,17850,United Kingdom,
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8.0,12/1/2010 8:26,2.75,17850,United Kingdom,
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6.0,12/1/2010 8:26,3.39,17850,United Kingdom,
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6.0,12/1/2010 8:26,3.39,17850,United Kingdom,


In [63]:
# Borrado de la columna
invoices_df = invoices_df.dropna(axis=1, how='all')
invoices_df.head()

Unnamed: 0,invoice,stock_code,description,quantity,invoice_date,unit_ price,customer_id,country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6.0,12/1/2010 8:26,2.55,17850,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6.0,12/1/2010 8:26,3.39,17850,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8.0,12/1/2010 8:26,2.75,17850,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6.0,12/1/2010 8:26,3.39,17850,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6.0,12/1/2010 8:26,3.39,17850,United Kingdom


#### 4.3. Corrección de filas con registros nulos.

En el caso de las filas utilizaremos el parámetro ```axis``` con el valor 0. Igualmente tendremos en cuenta el valor del parámetro ```how```.

In [64]:
# Se añadieron filas nulas al final del dataset para este punto
invoices_df.tail()


Unnamed: 0,invoice,stock_code,description,quantity,invoice_date,unit_ price,customer_id,country
542004,,,,,,,,
542005,,,,,,,,
542006,,,,,,,,
542007,,,,,,,,
542008,,,,,,,,


In [65]:
# Borramos la fila con todos los valores nulos
invoices_df = invoices_df.dropna(axis=0, how='all')
invoices_df.tail()

Unnamed: 0,invoice,stock_code,description,quantity,invoice_date,unit_ price,customer_id,country
541904,581587,22613,PACK OF 20 SPACEBOY NAPKINS,12.0,12/9/2011 12:50,0.85,12680,France
541905,581587,22899,CHILDREN'S APRON DOLLY GIRL,6.0,12/9/2011 12:50,2.1,12680,France
541906,581587,23254,CHILDRENS CUTLERY DOLLY GIRL,4.0,12/9/2011 12:50,4.15,12680,France
541907,581587,23255,CHILDRENS CUTLERY CIRCUS PARADE,4.0,12/9/2011 12:50,4.15,12680,France
541908,581587,22138,BAKING SET 9 PIECE RETROSPOT,3.0,12/9/2011 12:50,4.95,12680,France


En ocasiones podremos considerar un registro o fila nulo en el caso de que una o varias de sus columnas tengan valores nulos. Para especificar estas columnas se utiliza el atributo ```subset```.

Para este ejemplo vamos a considerar que, aquellas filas que no tienen número de factura y el códigod de stock, se consideran registros nulos.

In [66]:
# Creamos una fila con invoice y customer_id nulos. 
null_row_data = {
    'invoice': None,
    'stock_code': None,
    'description': 'PACK OF 20 SPACEBOY NAPKINS',
    'quantity': 4,
    'invoice_date': '12/9/2011 12:50',
    'unit_ price': 0.85,
    'customer_id': 12680,
    'country': 'France'
}

invoice_customer_null_row = pd.Series(data=null_row_data, index=invoice_df_col_names)

invoices_df.loc[len(invoices_df.index)] = invoice_customer_null_row
invoices_df.tail()

Unnamed: 0,invoice,stock_code,description,quantity,invoice_date,unit_ price,customer_id,country
541905,581587.0,22899.0,CHILDREN'S APRON DOLLY GIRL,6.0,12/9/2011 12:50,2.1,12680,France
541906,581587.0,23254.0,CHILDRENS CUTLERY DOLLY GIRL,4.0,12/9/2011 12:50,4.15,12680,France
541907,581587.0,23255.0,CHILDRENS CUTLERY CIRCUS PARADE,4.0,12/9/2011 12:50,4.15,12680,France
541908,581587.0,22138.0,BAKING SET 9 PIECE RETROSPOT,3.0,12/9/2011 12:50,4.95,12680,France
541909,,,PACK OF 20 SPACEBOY NAPKINS,4.0,12/9/2011 12:50,0.85,12680,France


In [67]:
# Definimos el subset de variables a tener en cuenta para considerar un registro nulo y eliminamos.
subset_cols = ['invoice', 'stock_code']

invoices_df = invoices_df.dropna(axis=0, subset=subset_cols)
invoices_df.tail()

Unnamed: 0,invoice,stock_code,description,quantity,invoice_date,unit_ price,customer_id,country
541904,581587,22613,PACK OF 20 SPACEBOY NAPKINS,12.0,12/9/2011 12:50,0.85,12680,France
541905,581587,22899,CHILDREN'S APRON DOLLY GIRL,6.0,12/9/2011 12:50,2.1,12680,France
541906,581587,23254,CHILDRENS CUTLERY DOLLY GIRL,4.0,12/9/2011 12:50,4.15,12680,France
541907,581587,23255,CHILDRENS CUTLERY CIRCUS PARADE,4.0,12/9/2011 12:50,4.15,12680,France
541908,581587,22138,BAKING SET 9 PIECE RETROSPOT,3.0,12/9/2011 12:50,4.95,12680,France


## 5. Manejo de duplicados.

#### 5.1. Identificación.

Para identificar los registros duplicados utilizaremos el método ```duplicated()```.

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.duplicated.html


Utilizando de nuevo el método ```sum()``` podremos cuantificar el número total de registros duplicados.

In [68]:
invoices_df.duplicated().sum()

5268

En el caso de que se quiera visualizar el tipo de registros duplicados podemos utilizar el argumento ```keep```, de modo que nos mantenga todos los registros duplicados excepto la primera ocurrencia del mismo.

In [69]:
invoices_df[invoices_df.duplicated(keep=False)]

Unnamed: 0,invoice,stock_code,description,quantity,invoice_date,unit_ price,customer_id,country
485,536409,22111,SCOTTIE DOG HOT WATER BOTTLE,1.0,12/1/2010 11:45,4.95,17908,United Kingdom
489,536409,22866,HAND WARMER SCOTTY DOG DESIGN,1.0,12/1/2010 11:45,2.10,17908,United Kingdom
494,536409,21866,UNION JACK FLAG LUGGAGE TAG,1.0,12/1/2010 11:45,1.25,17908,United Kingdom
517,536409,21866,UNION JACK FLAG LUGGAGE TAG,1.0,12/1/2010 11:45,1.25,17908,United Kingdom
521,536409,22900,SET 2 TEA TOWELS I LOVE LONDON,1.0,12/1/2010 11:45,2.95,17908,United Kingdom
...,...,...,...,...,...,...,...,...
541675,581538,22068,BLACK PIRATE TREASURE CHEST,1.0,12/9/2011 11:34,0.39,14446,United Kingdom
541689,581538,23318,BOX OF 6 MINI VINTAGE CRACKERS,1.0,12/9/2011 11:34,2.49,14446,United Kingdom
541692,581538,22992,REVOLVER WOODEN RULER,1.0,12/9/2011 11:34,1.95,14446,United Kingdom
541699,581538,22694,WICKER STAR,1.0,12/9/2011 11:34,2.10,14446,United Kingdom


#### 5.2. Corrección.

Para eliminar los registros duplicados utilizaremos el método ```drop_duplicates()```.

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.drop_duplicates.html

In [70]:
invoices_df = invoices_df.drop_duplicates()
invoices_df[invoices_df.duplicated(keep=False)]

Unnamed: 0,invoice,stock_code,description,quantity,invoice_date,unit_ price,customer_id,country


## 6. Manejo de valores atípicos (outliers).

#### 6.1. Generación de estadísticos básicos.

Utilizaremos ```select_dtypes``` para poder diferenciar tipos de datos a la hora de extraer estadísticos básicos de las variables.

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.select_dtypes.html

El método ```describe()``` genera estadísticos básicos para cada variable.

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.describe.html

Generación de estadísticos para **tipos numéricos**.

In [71]:
invoices_df.select_dtypes(include='number').describe()

Unnamed: 0,quantity,unit_ price
count,536641.0,536641.0
mean,9.620029,4.632656
std,219.130156,97.233118
min,-80995.0,-11062.06
25%,1.0,1.25
50%,3.0,2.08
75%,10.0,4.13
max,80995.0,38970.0


Generación de estadísticos para **tipos no numéricos**.

In [72]:
invoices_df.select_dtypes(exclude='number').describe()

Unnamed: 0,invoice,stock_code,description,invoice_date,customer_id,country
count,536641,536641,535187,536641,401604,536641
unique,25900,4070,4223,23260,4372,38
top,573585,85123A,WHITE HANGING HEART T-LIGHT HOLDER,10/31/2011 14:41,17841,United Kingdom
freq,1114,2301,2357,1114,7812,490300


## 7. Normalización y estandarización.

#### 7.1. Identificación.

In [73]:
invoices_df['stock_code'].str.len().sort_values().unique()

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 12])

In [74]:
def show_col_values_by_len(df, col):
    mask = invoices_df[col]

    for stock_code_len in range(1, 13):
        print(
            f"Len: {stock_code_len} --> {invoices_df[mask.str.len() == stock_code_len][col].unique()}"
        )
        
show_col_values_by_len(invoices_df, 'stock_code')

Len: 1 --> ['D' 'M' 'S' 'm' 'B']
Len: 2 --> ['C2']
Len: 3 --> ['DOT']
Len: 4 --> ['POST' 'PADS' 'CRUK']
Len: 5 --> ['71053' '22752' '21730' ... '23609' '23617' '23843']
Len: 6 --> ['85123A' '84406B' '84029G' ... '85179a' '90214U' '47591b']
Len: 7 --> ['15056BL' '15056bl' '79323GR' '79323LP']
Len: 8 --> ['DCGS0076' 'DCGS0003' 'DCGS0070' 'DCGS0055' 'DCGS0072' 'DCGS0074'
 'DCGS0069' 'DCGS0057' 'DCGSSBOY' 'DCGS0004' 'DCGS0073' 'DCGS0071'
 'DCGS0068' 'DCGS0067']
Len: 9 --> ['AMAZONFEE' 'DCGSSGIRL' 'DCGS0066P']
Len: 10 --> []
Len: 11 --> []
Len: 12 --> ['BANK CHARGES' 'gift_0001_40' 'gift_0001_50' 'gift_0001_30'
 'gift_0001_20' 'gift_0001_10']


Para nuestro ejemplo vamos a suponer que las reglas de negocio que definen los códigos son las siguientes:
1. Que los códigos están formados por letras y números. No puede haber símbolos como guiones, espacios, etc.
2. Que los caracteres alfabéticos deben estar en mayúsculas.
3. Que el que el valor **'DOT'** es un error al introducir el registro en el sistema, y por lo tanto registros que vamos a eliminar.
4. Que los valores con tamaño 1, 2 y 4 son códigos antiguos, pero que tienen un código nuevo asociado:
    * 'D' = 536641.
    * 'M' = 84029G.
    * 'S' = 85179A.
    * 'B' = 90214U.
    * 'C2' = 47591B.
    * 'POST' = 79323LP.
    * 'PADS' = 79323GR.
    * 'CRUK' = 15056BL.
5. Que la longitud del código siempre tiene que ser de 11 carácteres, rellenando con 0s a la izquierda los que tengan menos.

#### 7.2. Paso 1: Corrección de caracteres alfanuméricos.

Los códigos están formados por letras y números. No puede haber símbolos como guiones, espacios, etc.

Utilizamos una expresión regular [\W_] para reemplazar ```str.replace()``` los caracteres no alfanuméricos.

https://pandas.pydata.org/docs/reference/api/pandas.Series.str.replace.html

Podemos validar en algún servicio online https://regex101.com/, https://regexr.com/ con una muestra de nuestros valores:
```
D
M
S
m
B
C2
DOT
CRUK
21730
85123A
85179a
90214U
BANK CHARGES
gift_0001_40
gift_0001_50
gift_0001_30
gift_0001_20
gift_0001_10
```

In [75]:
invoices_df['stock_code_norm'] = invoices_df['stock_code'].str.replace(pat='[\W_]', repl='', regex=True)
show_col_values_by_len(invoices_df, 'stock_code_norm')

Len: 1 --> ['D' 'M' 'S' 'm' 'B']
Len: 2 --> ['C2']
Len: 3 --> ['DOT']
Len: 4 --> ['POST' 'PADS' 'CRUK']
Len: 5 --> ['71053' '22752' '21730' ... '23609' '23617' '23843']
Len: 6 --> ['85123A' '84406B' '84029G' ... '85179a' '90214U' '47591b']
Len: 7 --> ['15056BL' '15056bl' '79323GR' '79323LP']
Len: 8 --> ['DCGS0076' 'DCGS0003' 'DCGS0070' 'DCGS0055' 'DCGS0072' 'DCGS0074'
 'DCGS0069' 'DCGS0057' 'DCGSSBOY' 'DCGS0004' 'DCGS0073' 'DCGS0071'
 'DCGS0068' 'DCGS0067']
Len: 9 --> ['AMAZONFEE' 'DCGSSGIRL' 'DCGS0066P']
Len: 10 --> ['gift000140' 'gift000150' 'gift000130' 'gift000120' 'gift000110']
Len: 11 --> ['BANKCHARGES']
Len: 12 --> []


#### 7.3. Paso 2: Corrección de mayúsculas.


Todos los caracteres numéricos deben estar en mayúsculas

https://pandas.pydata.org/docs/reference/api/pandas.Series.str.upper.html

In [76]:
invoices_df['stock_code_norm'] = invoices_df['stock_code_norm'].str.upper()
show_col_values_by_len(invoices_df, 'stock_code_norm')

Len: 1 --> ['D' 'M' 'S' 'B']
Len: 2 --> ['C2']
Len: 3 --> ['DOT']
Len: 4 --> ['POST' 'PADS' 'CRUK']
Len: 5 --> ['71053' '22752' '21730' ... '23609' '23617' '23843']
Len: 6 --> ['85123A' '84406B' '84029G' '84029E' '82494L' '85099C' '84997B' '84997C'
 '84519A' '85183B' '85071B' '37444A' '37444C' '84971S' '15056N' '35004C'
 '85049A' '85099B' '35004G' '85014B' '85014A' '84970S' '84030E' '35004B'
 '85049E' '17091A' '84509A' '84510A' '84709B' '84625C' '84625A' '47570B'
 '85049C' '85049D' '85049G' '84970L' '90199C' '90129F' '90210B' '72802C'
 '85169B' '85099F' '85184C' '35591T' '84032B' '85049H' '72800E' '84849B'
 '90200B' '90059B' '90185C' '90059E' '90059C' '90200C' '90200D' '90200A'
 '16258A' '85231B' '85231G' '48173C' '47563A' '84558A' '46000M' '71406C'
 '84985A' '84596E' '84997D' '47599A' '47599B' '85035B' '84968C' '72800B'
 '84563A' '47504H' '17164B' '15044B' '84569B' '85114B' '85114C' '85199L'
 '85199S' '85019A' '85019C' '85071A' '85071C' '85135B' '85136A' '85136C'
 '35095A' '35095B' '3

#### 7.4. Paso 3: Corrección de registros inválidos.

Los registros que tienen **'DOT'** como valor en **'stock_code'** son fruto de un error al introducir el registro en el sistema, y por lo tanto registros que vamos a eliminar.

In [77]:
invoices_df = invoices_df[invoices_df['stock_code_norm'] != 'DOT']
show_col_values_by_len(invoices_df, 'stock_code_norm')

Len: 1 --> ['D' 'M' 'S' 'B']
Len: 2 --> ['C2']
Len: 3 --> []
Len: 4 --> ['POST' 'PADS' 'CRUK']
Len: 5 --> ['71053' '22752' '21730' ... '23609' '23617' '23843']
Len: 6 --> ['85123A' '84406B' '84029G' '84029E' '82494L' '85099C' '84997B' '84997C'
 '84519A' '85183B' '85071B' '37444A' '37444C' '84971S' '15056N' '35004C'
 '85049A' '85099B' '35004G' '85014B' '85014A' '84970S' '84030E' '35004B'
 '85049E' '17091A' '84509A' '84510A' '84709B' '84625C' '84625A' '47570B'
 '85049C' '85049D' '85049G' '84970L' '90199C' '90129F' '90210B' '72802C'
 '85169B' '85099F' '85184C' '35591T' '84032B' '85049H' '72800E' '84849B'
 '90200B' '90059B' '90185C' '90059E' '90059C' '90200C' '90200D' '90200A'
 '16258A' '85231B' '85231G' '48173C' '47563A' '84558A' '46000M' '71406C'
 '84985A' '84596E' '84997D' '47599A' '47599B' '85035B' '84968C' '72800B'
 '84563A' '47504H' '17164B' '15044B' '84569B' '85114B' '85114C' '85199L'
 '85199S' '85019A' '85019C' '85071A' '85071C' '85135B' '85136A' '85136C'
 '35095A' '35095B' '35471D

Normalización de strings "invoice" y "stock_code". Queremos normalizar con el mismo tamaño para todos los códigos, rellenando con 0s a la izquierda aquellos que no los tienen.



https://unstats.un.org/wiki/display/comtrade/Country+Codes

In [78]:
invoices_df['country'].unique()

array(['United Kingdom', 'France', 'Australia', 'Netherlands', 'Germany',
       'Norway', 'EIRE', 'Switzerland', 'Spain', 'Poland', 'Portugal',
       'Italy', 'Belgium', 'Lithuania', 'Japan', 'Iceland',
       'Channel Islands', 'Denmark', 'Cyprus', 'Sweden', 'Austria',
       'Israel', 'Finland', 'Bahrain', 'Greece', 'Hong Kong', 'Singapore',
       'Lebanon', 'United Arab Emirates', 'Saudi Arabia',
       'Czech Republic', 'Canada', 'Unspecified', 'Brazil', 'USA',
       'European Community', 'Malta', 'RSA'], dtype=object)

#### 7.5. Paso 4: Corrección de códigos antiguos.

Identificamos registros con códigos antiguos para revisar tras la corrección

In [79]:
invoices_df[invoices_df['stock_code_norm'].str.len() < 5].head()

Unnamed: 0,invoice,stock_code,description,quantity,invoice_date,unit_ price,customer_id,country,stock_code_norm
45,536370,POST,POSTAGE,3.0,12/1/2010 8:45,18.0,12583,France,POST
141,C536379,D,Discount,-1.0,12/1/2010 9:41,27.5,14527,United Kingdom,D
386,536403,POST,POSTAGE,1.0,12/1/2010 11:27,15.0,12791,Netherlands,POST
1123,536527,POST,POSTAGE,1.0,12/1/2010 13:04,18.0,12662,Germany,POST
1423,536540,C2,CARRIAGE,1.0,12/1/2010 14:05,50.0,14911,EIRE,C2


Los valores con tamaño 1, 2 y 4 son códigos antiguos, pero que tienen un código nuevo asociado:
* 'D' = 536641.
* 'M' = 84029G.
* 'S' = 85179A.
* 'B' = 90214U.
* 'C2' = 47591B.
* 'POST' = 79323LP.
* 'PADS' = 79323GR.
* 'CRUK' = 15056BL.

Creamos un diccionario con los valores antiguos y nuevos para realizar el mapeo, aplicamos ```map()``` con el diccionario para modificar los valores y revisamos el listado de valores únicos.
Utilizamos ```fillna()``` para rellenar con el valor original aquellos registros que no tienen esta problemática.

https://pandas.pydata.org/docs/reference/api/pandas.Series.map.html#pandas.Series.map

https://pandas.pydata.org/docs/reference/api/pandas.Series.fillna.html

In [80]:
new_codes = {
    'D': '536641',
    'M': '84029G',
    'S': '85179A',
    'B': '90214U',
    'C2': '47591B',
    'POST': '79323LP',
    'PADS': '79323GR',
    'CRUK': '15056BL'
}

invoices_df['stock_code_norm'] = invoices_df['stock_code_norm'].map(new_codes).fillna(invoices_df['stock_code_norm'])
show_col_values_by_len(invoices_df, 'stock_code_norm')

Len: 1 --> []
Len: 2 --> []
Len: 3 --> []
Len: 4 --> []
Len: 5 --> ['71053' '22752' '21730' ... '23609' '23617' '23843']
Len: 6 --> ['85123A' '84406B' '84029G' '84029E' '82494L' '85099C' '84997B' '84997C'
 '84519A' '85183B' '85071B' '37444A' '37444C' '84971S' '15056N' '536641'
 '35004C' '85049A' '85099B' '35004G' '85014B' '85014A' '84970S' '84030E'
 '35004B' '85049E' '17091A' '84509A' '84510A' '84709B' '84625C' '84625A'
 '47570B' '85049C' '85049D' '85049G' '84970L' '90199C' '90129F' '90210B'
 '72802C' '85169B' '85099F' '85184C' '35591T' '84032B' '85049H' '72800E'
 '84849B' '90200B' '90059B' '90185C' '90059E' '90059C' '90200C' '90200D'
 '90200A' '16258A' '85231B' '85231G' '48173C' '47563A' '84558A' '46000M'
 '71406C' '84985A' '84596E' '84997D' '47599A' '47599B' '85035B' '84968C'
 '72800B' '84563A' '47504H' '17164B' '15044B' '84569B' '85114B' '85114C'
 '85199L' '85199S' '85019A' '85019C' '85071A' '85071C' '85135B' '85136A'
 '85136C' '47591B' '35095A' '35095B' '35471D' '35598D' '35599D' '

Si revisamos un registro concreto donde sabemos que había un valor de stock code antiguo, comprobamos que se ha hecho el cambio correctamente.

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.iloc.html

In [81]:
invoices_df.iloc[[45]]

Unnamed: 0,invoice,stock_code,description,quantity,invoice_date,unit_ price,customer_id,country,stock_code_norm
45,536370,POST,POSTAGE,3.0,12/1/2010 8:45,18.0,12583,France,79323LP


#### 7.5. Paso 4: Normalizar el tamaño del código.

La longitud del código siempre tiene que ser de 11 carácteres, rellenando con 0s a la izquierda los que tengan menos.

In [82]:
invoices_df['stock_code_norm'] = invoices_df['stock_code_norm'].str.zfill(11)
invoices_df.head()

Unnamed: 0,invoice,stock_code,description,quantity,invoice_date,unit_ price,customer_id,country,stock_code_norm
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6.0,12/1/2010 8:26,2.55,17850,United Kingdom,0000085123A
1,536365,71053,WHITE METAL LANTERN,6.0,12/1/2010 8:26,3.39,17850,United Kingdom,00000071053
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8.0,12/1/2010 8:26,2.75,17850,United Kingdom,0000084406B
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6.0,12/1/2010 8:26,3.39,17850,United Kingdom,0000084029G
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6.0,12/1/2010 8:26,3.39,17850,United Kingdom,0000084029E


In [83]:
show_col_values_by_len(invoices_df, 'stock_code_norm')

Len: 1 --> []
Len: 2 --> []
Len: 3 --> []
Len: 4 --> []
Len: 5 --> []
Len: 6 --> []
Len: 7 --> []
Len: 8 --> []
Len: 9 --> []
Len: 10 --> []
Len: 11 --> ['0000085123A' '00000071053' '0000084406B' ... '00000023609' '00000023617'
 '00000023843']
Len: 12 --> []



def normalize_country(countries):
    return countries.str.upper()


invoices_df['normalized_countries'] = normalize_country(invoices_df['country'])
invoices_df['normalized_countries'].unique()

## 8. Creación de nuevas columnas


#### 2.1. Identificación.

#### 2.2. Corrección.

In [84]:
invoices_df.head()


Unnamed: 0,invoice,stock_code,description,quantity,invoice_date,unit_ price,customer_id,country,stock_code_norm
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6.0,12/1/2010 8:26,2.55,17850,United Kingdom,0000085123A
1,536365,71053,WHITE METAL LANTERN,6.0,12/1/2010 8:26,3.39,17850,United Kingdom,00000071053
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8.0,12/1/2010 8:26,2.75,17850,United Kingdom,0000084406B
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6.0,12/1/2010 8:26,3.39,17850,United Kingdom,0000084029G
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6.0,12/1/2010 8:26,3.39,17850,United Kingdom,0000084029E


In [85]:
invoices_df['total_price'] = invoices_df['quantity'] * invoices_df['unit_ price']
invoices_df.head()

Unnamed: 0,invoice,stock_code,description,quantity,invoice_date,unit_ price,customer_id,country,stock_code_norm,total_price
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6.0,12/1/2010 8:26,2.55,17850,United Kingdom,0000085123A,15.3
1,536365,71053,WHITE METAL LANTERN,6.0,12/1/2010 8:26,3.39,17850,United Kingdom,00000071053,20.34
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8.0,12/1/2010 8:26,2.75,17850,United Kingdom,0000084406B,22.0
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6.0,12/1/2010 8:26,3.39,17850,United Kingdom,0000084029G,20.34
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6.0,12/1/2010 8:26,3.39,17850,United Kingdom,0000084029E,20.34


## 9. Herramientas de perfilado de datos.
Existen algunos paquetes de Python que nos ofrecen un perfilado de los datos de forma automática como **ydata_profiling**.

https://docs.profiling.ydata.ai/latest/

In [86]:

# Instalar con pip install -U ydata-profiling

from ydata_profiling import ProfileReport

profile = ProfileReport(invoices_df, title="Profiling Report")

# Reporte en html
profile.to_file("your_report.html")

# Reporte en embebido en notebook
profile.to_notebook_iframe()

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

Export report to file:   0%|          | 0/1 [00:00<?, ?it/s]