In [31]:
import pandas as pd
import great_expectations as ge
from ydata_profiling import ProfileReport

In [78]:
data = pd.read_csv('../data/bronze/Sales Transaction v.4a.csv')
df = pd.DataFrame(data)
df.tail()

Unnamed: 0,TransactionNo,Date,ProductNo,ProductName,Price,Quantity,CustomerNo,Country
536345,C536548,12/1/2018,22168,Organiser Wood Antique White,18.96,-2,12472.0,Germany
536346,C536548,12/1/2018,21218,Red Spotty Biscuit Tin,14.09,-3,12472.0,Germany
536347,C536548,12/1/2018,20957,Porcelain Hanging Bell Small,11.74,-1,12472.0,Germany
536348,C536548,12/1/2018,22580,Advent Calendar Gingham Sack,16.35,-4,12472.0,Germany
536349,C536548,12/1/2018,22767,Triple Photo Frame Cornice,20.45,-2,12472.0,Germany


In [79]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 536350 entries, 0 to 536349
Data columns (total 8 columns):
 #   Column         Non-Null Count   Dtype  
---  ------         --------------   -----  
 0   TransactionNo  536350 non-null  object 
 1   Date           536350 non-null  object 
 2   ProductNo      536350 non-null  object 
 3   ProductName    536350 non-null  object 
 4   Price          536350 non-null  float64
 5   Quantity       536350 non-null  int64  
 6   CustomerNo     536295 non-null  float64
 7   Country        536350 non-null  object 
dtypes: float64(2), int64(1), object(5)
memory usage: 32.7+ MB



### Descripción del Conjunto de Datos



 *<span style="color:skyblue">TransactionNo (Número de Transacción) (categorical):</span>*
Un número único de seis dígitos que define cada transacción. La letra "C" en el código indica una cancelación.

 *<span style="color:skyblue">Date (Fecha) (numeric):</span>*
La fecha en que se generó cada transacción.

 *<span style="color:skyblue">ProductNo (Número de Producto) (categorical):</span>*
Un carácter único de cinco o seis dígitos utilizado para identificar un producto específico.

 *<span style="color:skyblue">Product (Producto) (categorical):</span>*
Nombre del producto/artículo.

 *<span style="color:skyblue">Price (Precio) (numeric):</span>*
El precio de cada producto por unidad en libras esterlinas (£).

 *<span style="color:skyblue">Quantity (Cantidad) (numeric):</span>*
La cantidad de cada producto por transacción. Los valores negativos están relacionados con transacciones canceladas.

 *<span style="color:skyblue">CustomerNo (Número de Cliente) (categorical):</span>*
Un número único de cinco dígitos que define a cada cliente.

 *<span style="color:skyblue">Country (País) (categorical):</span>*
Nombre del país donde reside el cliente.


In [72]:
profile = ProfileReport(df, title='Pandas Profiling Report', explorative=True)
profile

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]



In [80]:
df.columns

Index(['TransactionNo', 'Date', 'ProductNo', 'ProductName', 'Price',
       'Quantity', 'CustomerNo', 'Country'],
      dtype='object')

In [81]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 536350 entries, 0 to 536349
Data columns (total 8 columns):
 #   Column         Non-Null Count   Dtype  
---  ------         --------------   -----  
 0   TransactionNo  536350 non-null  object 
 1   Date           536350 non-null  object 
 2   ProductNo      536350 non-null  object 
 3   ProductName    536350 non-null  object 
 4   Price          536350 non-null  float64
 5   Quantity       536350 non-null  int64  
 6   CustomerNo     536295 non-null  float64
 7   Country        536350 non-null  object 
dtypes: float64(2), int64(1), object(5)
memory usage: 32.7+ MB


In [82]:
# Los paises distintos
df['Country'].unique()

array(['United Kingdom', 'Norway', 'Belgium', 'Germany', 'France',
       'Austria', 'Netherlands', 'EIRE', 'USA', 'Channel Islands',
       'Iceland', 'Portugal', 'Spain', 'Finland', 'Italy', 'Greece',
       'Japan', 'Sweden', 'Denmark', 'Cyprus', 'Malta', 'Switzerland',
       'Australia', 'Czech Republic', 'Poland', 'Hong Kong', 'Singapore',
       'RSA', 'Israel', 'Unspecified', 'United Arab Emirates', 'Canada',
       'European Community', 'Bahrain', 'Brazil', 'Saudi Arabia',
       'Lebanon', 'Lithuania'], dtype=object)

In [83]:
df.isnull().sum()

TransactionNo     0
Date              0
ProductNo         0
ProductName       0
Price             0
Quantity          0
CustomerNo       55
Country           0
dtype: int64

In [84]:
# Transacciones que no tienen CustomerNo los vamos a elimianr
df[df['CustomerNo'].isnull()].head()

Unnamed: 0,TransactionNo,Date,ProductNo,ProductName,Price,Quantity,CustomerNo,Country
6511,C581406,12/8/2019,46000M,Polyester Filler Pad 45x45cm,6.19,-240,,United Kingdom
6512,C581406,12/8/2019,46000S,Polyester Filler Pad 40x40cm,6.19,-300,,United Kingdom
90098,C575153,11/8/2019,22947,Wooden Advent Calendar Red,44.25,-1,,United Kingdom
102671,C574288,11/3/2019,22178,Victorian Glass Hanging T-Light,25.37,-1,,United Kingdom
117263,C573180,10/28/2019,23048,Set Of 10 Lanterns Fairy Light Star,14.5,-1,,United Kingdom


In [85]:
df = df.dropna(subset=['CustomerNo']) # Eliminamos las filas que no tienen CustomerNo
df.isnull().sum() # Verificamos que no hayan nulos

TransactionNo    0
Date             0
ProductNo        0
ProductName      0
Price            0
Quantity         0
CustomerNo       0
Country          0
dtype: int64

In [90]:
# Casteamos CustomerNo a int
df = df.astype({'CustomerNo': 'int'})

In [91]:
# transactions que contengan C en la columna Transaction
df_canceladas = df[df['TransactionNo'].str.contains('C')]

df_canceladas.head()

Unnamed: 0,TransactionNo,Date,ProductNo,ProductName,Price,Quantity,CustomerNo,Country
1616,C581484,12/9/2019,23843,Paper Craft Little Birdie,6.19,-80995,16446,United Kingdom
1617,C581490,12/9/2019,22178,Victorian Glass Hanging T-Light,6.19,-12,14397,United Kingdom
1618,C581490,12/9/2019,23144,Zinc T-Light Holder Stars Small,6.04,-11,14397,United Kingdom
1619,C581568,12/9/2019,21258,Victorian Sewing Box Large,6.19,-5,15311,United Kingdom
1620,C581569,12/9/2019,84978,Hanging Heart Jar T-Light Holder,6.19,-1,17315,United Kingdom


In [92]:
df_concretadas = df.drop(df_canceladas.index) # Eliminamos las transacciones canceladas
df_concretadas['TransactionNo'].str.contains('C').sum() # -> 0 transacciones canceladas el df de transacciones aceptadas

0

In [93]:
df_concretadas.to_parquet('../data/transacciones_concretadas.parquet', index=False) 
df_canceladas.to_parquet('../data/transacciones_canceladas.parquet', index=False)