## Imports

In [4]:
import pandas as pd
from sqlalchemy import create_engine

In [5]:
# Algunas variables útiles
nombre_archivo = "../Data/Online_Retail.csv"
conexion_postgres = "postgresql://postgres:postgres@localhost:5432/oltpretail"
nombre_tabla_staging = "online_retail"

In [6]:
# Leer el archivo Excel o CSV
df = pd.read_csv(nombre_archivo, sep=";")

## Inserto en la BD de Staging original

En esta etapa, los datos se insertan como están, sin analizar

In [7]:
# Corroboro el tipo de dato de cada columna
print(df.dtypes)

InvoiceNo       object
StockCode       object
Description     object
Quantity         int64
InvoiceDate     object
UnitPrice       object
CustomerID     float64
Country         object
dtype: object


In [8]:
# Edito el tipo de dato de UnitPrice para que encaje con la tabla
df["UnitPrice"] = df["UnitPrice"].str.replace(",", ".", regex=False)
df["UnitPrice"] = df["UnitPrice"].astype(float)

In [9]:
print(df.dtypes)

InvoiceNo       object
StockCode       object
Description     object
Quantity         int64
InvoiceDate     object
UnitPrice      float64
CustomerID     float64
Country         object
dtype: object


In [10]:
df.head()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,1/12/2010 8:26,2.55,17850.0,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,1/12/2010 8:26,3.39,17850.0,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,1/12/2010 8:26,2.75,17850.0,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,1/12/2010 8:26,3.39,17850.0,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,1/12/2010 8:26,3.39,17850.0,United Kingdom


In [11]:
# Conexión a PostgreSQL
engine = create_engine(conexion_postgres)

In [12]:
# Cargar en la tabla
df.to_sql(name=nombre_tabla_staging, schema="oltp", con=engine, if_exists="replace", index=False)

909

## Exploración de datos

In [13]:
df.head()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,1/12/2010 8:26,2.55,17850.0,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,1/12/2010 8:26,3.39,17850.0,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,1/12/2010 8:26,2.75,17850.0,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,1/12/2010 8:26,3.39,17850.0,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,1/12/2010 8:26,3.39,17850.0,United Kingdom


In [14]:
df['StockCode'].value_counts()

StockCode
85123A    2313
22423     2203
85099B    2159
47566     1727
20725     1639
          ... 
85179a       1
23617        1
90214U       1
47591b       1
72802c       1
Name: count, Length: 4070, dtype: int64

In [15]:
cant_registros_totales = len(df)
cant_StockCode_distintos = len(df["StockCode"].unique())
noNulos_por_columna = df.count()

print(f"""
Registros Totales: {cant_registros_totales}\n
Distintos StockCodes: {cant_StockCode_distintos}\n
Cantidad de no nulos por columna:\n{noNulos_por_columna}
""")

# Como datos relevantes, hay unas 1500 descripciones nulas, y 130.000 clientes nulos
# El siguiente paso será investigar qué pasa con esos valores


Registros Totales: 541909

Distintos StockCodes: 4070

Cantidad de no nulos por columna:
InvoiceNo      541909
StockCode      541909
Description    540455
Quantity       541909
InvoiceDate    541909
UnitPrice      541909
CustomerID     406829
Country        541909
dtype: int64



In [16]:
# Cantidad de registros agrupados por stockCode y por descripción
conteo = df.groupby(['StockCode', 'Description']).size().reset_index(name='Cantidad').sort_values(by="StockCode")
print(conteo)

         StockCode                          Description  Cantidad
0            10002          INFLATABLE POLITICAL GLOBE         71
1            10080             GROOVY CACTUS INFLATABLE        22
2            10080                                check         1
3            10120                         DOGGY RUBBER        30
4           10123C                HEARTS WRAPPING TAPE          3
...            ...                                  ...       ...
4787  gift_0001_20  to push order througha s stock was          1
4788  gift_0001_30   Dotcomgiftshop Gift Voucher £30.00         7
4789  gift_0001_40   Dotcomgiftshop Gift Voucher £40.00         3
4790  gift_0001_50   Dotcomgiftshop Gift Voucher £50.00         4
4791             m                               Manual         1

[4792 rows x 3 columns]


In [17]:
# Cantidad de descripciones distintas por stockCode
desc_por_stock = (
    df
    .groupby('StockCode')['Description']
    .nunique()
    .reset_index(name='Cant_Descriptions')
)
print(desc_por_stock)

         StockCode  Cant_Descriptions
0            10002                  1
1            10080                  2
2            10120                  1
3           10123C                  1
4           10123G                  0
...            ...                ...
4065  gift_0001_20                  2
4066  gift_0001_30                  1
4067  gift_0001_40                  1
4068  gift_0001_50                  1
4069             m                  1

[4070 rows x 2 columns]


In [18]:
# StockCodes con más de una descripción
stock_con_multiples = pd.DataFrame(desc_por_stock[desc_por_stock['Cant_Descriptions'] > 1])
print(stock_con_multiples)

         StockCode  Cant_Descriptions
1            10080                  2
8            10133                  2
26          15058A                  2
28          15058C                  2
31           16008                  2
...            ...                ...
3972        90195A                  2
4008        90210D                  2
4043      DCGS0003                  2
4050      DCGS0069                  2
4065  gift_0001_20                  2

[650 rows x 2 columns]


In [19]:
# StockCodes con una sola descripción asociada
stock_con_unaDesc = pd.DataFrame(desc_por_stock[desc_por_stock['Cant_Descriptions'] == 1])
descripcion_unica = df[['StockCode', 'Description']].dropna().drop_duplicates(subset='StockCode')
stock_con_unaDesc = stock_con_unaDesc.merge(descripcion_unica, on='StockCode', how='left')

stock_con_unaDesc

Unnamed: 0,StockCode,Cant_Descriptions,Description
0,10002,1,INFLATABLE POLITICAL GLOBE
1,10120,1,DOGGY RUBBER
2,10123C,1,HEARTS WRAPPING TAPE
3,10124A,1,SPOTS ON RED BOOKCOVER TAPE
4,10124G,1,ARMY CAMO BOOKCOVER TAPE
...,...,...,...
3303,gift_0001_10,1,Dotcomgiftshop Gift Voucher £10.00
3304,gift_0001_30,1,Dotcomgiftshop Gift Voucher £30.00
3305,gift_0001_40,1,Dotcomgiftshop Gift Voucher £40.00
3306,gift_0001_50,1,Dotcomgiftshop Gift Voucher £50.00


In [20]:
# Detalle de los stockCodes que tienen más de una descripción asociada
detalle = df[['StockCode', 'Description']].drop_duplicates()
detalle_filtrado = detalle.merge(stock_con_multiples[['StockCode']], on='StockCode')
print(detalle_filtrado.sort_values(['StockCode', 'Description']))

         StockCode                          Description
575          10080             GROOVY CACTUS INFLATABLE
1473         10080                                check
1018         10080                                  NaN
87           10133         COLOURING PENCILS BROWN TUBE
1530         10133                              damaged
...            ...                                  ...
1017      DCGS0003                                 ebay
542       DCGS0069                OOH LA LA DOGS COLLAR
1016      DCGS0069                                 ebay
499   gift_0001_20   Dotcomgiftshop Gift Voucher £20.00
935   gift_0001_20  to push order througha s stock was 

[1658 rows x 2 columns]


In [21]:
# De los stockCodes válidos, busco cuál es el menor y cuál el mayor
df[df["StockCode"].str.match(r'^\d', na=False)].sort_values(by="StockCode")

# El menor resulta ser 10002, y el mayor 90214

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
52333,540732,10002,INFLATABLE POLITICAL GLOBE,12,11/1/2011 10:19,0.85,16122.0,United Kingdom
93152,544278,10002,INFLATABLE POLITICAL GLOBE,12,17/2/2011 12:01,0.85,15382.0,United Kingdom
77513,542735,10002,INFLATABLE POLITICAL GLOBE,12,31/1/2011 15:36,0.85,12681.0,France
88536,543806,10002,INFLATABLE POLITICAL GLOBE,1,13/2/2011 12:48,0.85,17085.0,United Kingdom
75792,542610,10002,INFLATABLE POLITICAL GLOBE,14,30/1/2011 14:05,0.85,13148.0,United Kingdom
...,...,...,...,...,...,...,...,...
368235,568949,90214Z,"LETTER ""Z"" BLING KEY RING",1,29/9/2011 15:13,0.83,,United Kingdom
107874,545464,90214Z,"LETTER ""Z"" BLING KEY RING",1,3/3/2011 9:10,0.83,,United Kingdom
527069,580691,90214Z,"LETTER ""Z"" BLING KEY RING",12,5/12/2011 15:48,0.29,13790.0,United Kingdom
278756,561217,90214Z,"LETTER ""Z"" BLING KEY RING",1,25/7/2011 17:09,0.83,,United Kingdom


## Limpieza de datos

En esta etapa, generamos una nueva tabla Staging pero con datos limpios
En primer lugar, se generará un nuevo DF que será el staging limpio. En este DF se incluirán, primero, aquellas ventas cuyos stockCodes no presenten problemas. Esto es, StockCodes válidos que, además, no estén repetidos ni tengan más de una descripción asociada. Para todos los demás, hay que revisar caso a caso porque se presentan distintas realidades

En el análisis anterior, se desprende que hay varios casos a tener en cuenta:

- El de los stockCodes válidos, donde un stockCode siempre corresponde a una descripción, y su formato es numérico (ej: 10255)
- El de los stockCodes válidos pero que no cumplen el formato numérico (ej, gift_1). Estos códigos son válidos pero amerita revisarlos aparte
- El de los stockCodes que, aunque cumplen la primera condición, también tienen códigos "hermanos" del tipo 10255 y 10255C. Estos casos deben filtrarse aparte para revisarlos
- Los stockCodes que presentan más de una descripción. En algunos casos es solamente un error de tipeo en el nombre, en otros representan devoluciones u otras cosas que hay que revisar

### Empezando a limpiar

In [22]:
# pd.set_option('display.max_rows', 10)

In [23]:
# Antes de arrancar a limpiar, necesitamos resolver el problema de los nulos
# En este paso, voy a buscar, para todos los códigos que aparecen con solo una descripción, si tienen nulos en la descripción asociados a ese código.
# Si los hay, sustituimos la descripción

diccionario_descripciones = stock_con_unaDesc.set_index('StockCode')['Description'].to_dict()
df_tmp = df.copy()

# Crear una serie auxiliar con las descripciones a completar
descripcion_faltante = df_tmp['StockCode'].map(diccionario_descripciones)

# Rellenar los NaN solo donde haya una descripción en el diccionario
df_tmp['Description'] = df_tmp['Description'].fillna(descripcion_faltante)

### Primer paso
Crearemos el nuevo DF y cargaremos allí los StockCodes válidos, que no necesitan análisis

Para esto, el primero se filtran todos aquellos códigos que empiezan con letras

Además, filtro que esos códigos aparezcan asociados a una sola descripción, y que esta descripción no sea nula

In [42]:
df_codigos_numericos = df_tmp[df_tmp['StockCode'].str.match(r'^\d', na=False)].merge(stock_con_unaDesc[['StockCode']], on='StockCode')
df_codigos_no_numericos = df_tmp[~df_tmp['StockCode'].str.match(r'^\d', na=False)].merge(stock_con_unaDesc[['StockCode']], on='StockCode')

df_codigos_numericos2 = df_tmp[df_tmp['StockCode'].str.match(r'^\d', na=False)].merge(stock_con_multiples[['StockCode']], on='StockCode')
df_codigos_no_numericos2 = df_tmp[~df_tmp['StockCode'].str.match(r'^\d', na=False)].merge(stock_con_multiples[['StockCode']], on='StockCode')

In [40]:
df_codigos_no_numericos

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
0,536370,POST,POSTAGE,3,1/12/2010 8:45,18.00,12583.0,France
1,C536379,D,Discount,-1,1/12/2010 9:41,27.50,14527.0,United Kingdom
2,536403,POST,POSTAGE,1,1/12/2010 11:27,15.00,12791.0,Netherlands
3,536527,POST,POSTAGE,1,1/12/2010 13:04,18.00,12662.0,Germany
4,536540,C2,CARRIAGE,1,1/12/2010 14:05,50.00,14911.0,EIRE
...,...,...,...,...,...,...,...,...
2967,581498,DOT,DOTCOM POSTAGE,1,9/12/2011 10:26,1714.17,,United Kingdom
2968,C581499,M,Manual,-1,9/12/2011 10:28,224.69,15498.0,United Kingdom
2969,581570,POST,POSTAGE,1,9/12/2011 11:59,18.00,12662.0,Germany
2970,581574,POST,POSTAGE,2,9/12/2011 12:09,18.00,12526.0,Germany


In [43]:
print(cant_registros_totales)

print(len(df_codigos_numericos))
print(len(df_codigos_no_numericos))
print(len(df_codigos_numericos2))
print(len(df_codigos_no_numericos2))

541909
425360
2972
113448
17


In [36]:
# Segundo paso, filtro sólo los códigos compuestos por dígitos, para separar aquellos códigos con letras al final.
# Estos códigos se tratarán en el siguiente paso
df_codigos_numericos["CodigoBase"] = df_codigos_numericos["StockCode"].str.extract(r'^(\d+)', expand=False)
codigos_agrupados = df_codigos_numericos.groupby('CodigoBase')['StockCode'].nunique()

codigos_agrupados

CodigoBase
10002     1
10120     1
10123     1
10124     2
10125     1
         ..
90209     3
90210     3
90211     2
90212     2
90214    24
Name: StockCode, Length: 2771, dtype: int64

In [37]:
df_codigos_numericos[df_codigos_numericos['Description'].str.match(r'[a-z].*$')]

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country,CodigoBase
40490,540638,72038P,damages,-990,10/1/2011 12:14,0.0,,United Kingdom,72038
66294,543257,84611B,thrown away,-1430,4/2/2011 16:06,0.0,,United Kingdom,84611
66295,543258,84611B,thrown away,1287,4/2/2011 16:06,0.0,,United Kingdom,84611
66296,543259,84612B,thrown away,-162,4/2/2011 16:07,0.0,,United Kingdom,84612
92540,546126,35611B,thrown away,-27,9/3/2011 14:52,0.0,,United Kingdom,35611
92801,546152,72140F,throw away,-5368,9/3/2011 17:25,0.0,,United Kingdom,72140
105326,547559,72759,thrown away-can't sell.,-524,23/3/2011 17:27,0.0,,United Kingdom,72759
105327,547560,72732,thrown away-can't sell,-2472,23/3/2011 17:28,0.0,,United Kingdom,72732


In [27]:
# Obtengo la lista de códigos con variantes, útil para el egundo paso
codigos_con_variantes = pd.DataFrame(codigos_agrupados[codigos_agrupados > 1].index, columns=["CodigoBase"])
codigos_sin_variantes = pd.DataFrame(codigos_agrupados[codigos_agrupados == 1].index, columns=["CodigoBase"])

In [28]:
df_Final = df_tmp.merge(codigos_sin_variantes, left_on="StockCode", right_on="CodigoBase")[df_tmp.columns]
df_Final

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
0,536365,22752,SET 7 BABUSHKA NESTING BOXES,2,1/12/2010 8:26,7.65,17850.0,United Kingdom
1,536365,21730,GLASS STAR FROSTED T-LIGHT HOLDER,6,1/12/2010 8:26,4.25,17850.0,United Kingdom
2,536366,22633,HAND WARMER UNION JACK,6,1/12/2010 8:28,1.85,17850.0,United Kingdom
3,536367,22745,POPPY'S PLAYHOUSE BEDROOM,6,1/12/2010 8:34,2.10,13047.0,United Kingdom
4,536367,22748,POPPY'S PLAYHOUSE KITCHEN,6,1/12/2010 8:34,2.10,13047.0,United Kingdom
...,...,...,...,...,...,...,...,...
384576,581587,22629,SPACEBOY LUNCH BOX,12,9/12/2011 12:50,1.95,12680.0,France
384577,581587,22613,PACK OF 20 SPACEBOY NAPKINS,12,9/12/2011 12:50,0.85,12680.0,France
384578,581587,22899,CHILDREN'S APRON DOLLY GIRL,6,9/12/2011 12:50,2.10,12680.0,France
384579,581587,23255,CHILDRENS CUTLERY CIRCUS PARADE,4,9/12/2011 12:50,4.15,12680.0,France


In [29]:
# Para terminar, extraigo estos códigos del DataFrame de códigos Numéricos
df_codigos_numericos = df_codigos_numericos.merge(codigos_con_variantes, left_on="CodigoBase", right_on="CodigoBase")[df_codigos_numericos.columns]
df_codigos_numericos

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country,CodigoBase
0,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,1/12/2010 8:26,3.39,17850.0,United Kingdom,84029
1,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,1/12/2010 8:26,3.39,17850.0,United Kingdom,84029
2,536373,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,1/12/2010 9:02,3.39,17850.0,United Kingdom,84029
3,536373,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,1/12/2010 9:02,3.39,17850.0,United Kingdom,84029
4,536375,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,1/12/2010 9:32,3.39,17850.0,United Kingdom,84029
...,...,...,...,...,...,...,...,...,...
36658,581567,84971S,SMALL HEART FLOWERS HOOK,48,9/12/2011 11:56,0.39,16626.0,United Kingdom,84971
36659,581579,85099C,JUMBO BAG BAROQUE BLACK WHITE,10,9/12/2011 12:19,1.79,17581.0,United Kingdom,85099
36660,581580,84993A,75 GREEN PETIT FOUR CASES,2,9/12/2011 12:20,0.42,12748.0,United Kingdom,84993
36661,581580,85049A,TRADITIONAL CHRISTMAS RIBBONS,1,9/12/2011 12:20,1.25,12748.0,United Kingdom,85049


### Segundo Paso
En segundo lugar, se analizan los casos donde existe un código numérico (10255) y el mismo código seguido de una letra (10255C)


In [30]:
df_codigos_numericos = df_codigos_numericos.sort_values(by="StockCode")
df_codigos_numericos

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country,CodigoBase
31381,574686,10124A,SPOTS ON RED BOOKCOVER TAPE,4,6/11/2011 13:00,0.42,17608.0,United Kingdom,10124
10856,546913,10124A,SPOTS ON RED BOOKCOVER TAPE,4,17/3/2011 20:18,0.42,15861.0,United Kingdom,10124
7800,543397,10124A,SPOTS ON RED BOOKCOVER TAPE,3,8/2/2011 10:32,0.42,17859.0,United Kingdom,10124
1002,537382,10124A,SPOTS ON RED BOOKCOVER TAPE,4,6/12/2010 13:13,0.42,16710.0,United Kingdom,10124
11730,547881,10124A,SPOTS ON RED BOOKCOVER TAPE,1,27/3/2011 16:08,0.42,13110.0,United Kingdom,10124
...,...,...,...,...,...,...,...,...,...
2020,538349,90214Z,"LETTER ""Z"" BLING KEY RING",1,10/12/2010 14:59,0.85,,United Kingdom,90214
21734,561217,90214Z,"LETTER ""Z"" BLING KEY RING",1,25/7/2011 17:09,0.83,,United Kingdom,90214
9596,545464,90214Z,"LETTER ""Z"" BLING KEY RING",1,3/3/2011 9:10,0.83,,United Kingdom,90214
13537,550470,90214Z,"LETTER ""Z"" BLING KEY RING",1,18/4/2011 13:49,0.83,,United Kingdom,90214


In [33]:
# Se vio que las descripciones están, usualmente, en mayúsculas. Por tanto, se buscan descripciones en minúsculas para encontrar registros extraños
df_codigos_numericos[df_codigos_numericos['Description'].str.match(r'[a-z].*$')]

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country,CodigoBase
10220,546152,72140F,throw away,-5368,9/3/2011 17:25,0.0,,United Kingdom,72140


In [None]:
# Se encontró una fila con descripción "throw away" y cantidad negativa
# Se asume que esto no es una factura en si (de hecho, el cliente es null), sino que es una forma de corregir stock de un producto

In [34]:
# La conclusión es que los códigos que finalizan con una letra, son variaciones del mismo producto
# Considerando esto, y viendo que no hay nada extraño en los códigos que se tienen, se procederá a incluirlos en el df_final

df_Final = pd.concat(df_tmp.merge(codigos_con_variantes, left_on="StockCode", right_on="CodigoBase")[df_tmp.columns])

      StockCode                  Description
31381    10124A  SPOTS ON RED BOOKCOVER TAPE
31380    10124G     ARMY CAMO BOOKCOVER TAPE
20619    15044A          PINK PAPER PARASOL 
13072    15044B          BLUE PAPER PARASOL 
16310    15044C         PURPLE PAPER PARASOL
...         ...                          ...
35716    90214U    LETTER "U" BLING KEY RING
15018    90214V    LETTER "V" BLING KEY RING
35718    90214W    LETTER "W" BLING KEY RING
554      90214Y    LETTER "Y" BLING KEY RING
17671    90214Z    LETTER "Z" BLING KEY RING

[755 rows x 2 columns]


### En tercer lugar, los códigos no numéricos. Estos en algunos casos son códigos especiales para regalos y similares
