# **Cafe Sales - Data Cleaning**

***Note: This notebook is documented in Spanish.***

***The project README provides a full exlplanation of the workflow and conclusions in English.***

Este dataset es de ventas de una cafetería que se puede encontrar públicamente junto con sus detalles en Kaggle, liga aquí: https://www.kaggle.com/datasets/ahmedmohamed2003/cafe-sales-dirty-data-for-cleaning-training

En el presente notebook se limpiarán y preprocesarán los datos con el objetivo de obtener un dataset no solo más limpio, sino también útil para su análisis y posterior trabajo.

In [None]:
espacio='-'*1400

In [None]:
!pip install number_parser

Collecting number_parser
  Downloading number_parser-0.3.2-py2.py3-none-any.whl.metadata (5.2 kB)
Downloading number_parser-0.3.2-py2.py3-none-any.whl (51 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m51.3/51.3 kB[0m [31m1.6 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: number_parser
Successfully installed number_parser-0.3.2


In [None]:
#importando librerías que pueden ser útiles
from google.colab import files
files=files.upload() #Se necesita haber descargado el dataset previamente y posteriormente cargarlo con el botón correspondiente que va a aparecer cuando se corra este bloque de código
from number_parser import parse
import pandas as pd
import numpy as np

Saving dirty_cafe_sales.csv to dirty_cafe_sales.csv


In [None]:
#Viendo el tipo de dataset al que nos enfrentamos (posibles errores y contenido general)
raw_data=pd.read_csv('dirty_cafe_sales.csv')
data=raw_data.copy()
display(data)

Unnamed: 0,Transaction ID,Item,Quantity,Price Per Unit,Total Spent,Payment Method,Location,Transaction Date
0,TXN_1961373,Coffee,2,2.0,4.0,Credit Card,Takeaway,2023-09-08
1,TXN_4977031,Cake,4,3.0,12.0,Cash,In-store,2023-05-16
2,TXN_4271903,Cookie,4,1.0,ERROR,Credit Card,In-store,2023-07-19
3,TXN_7034554,Salad,2,5.0,10.0,UNKNOWN,UNKNOWN,2023-04-27
4,TXN_3160411,Coffee,2,2.0,4.0,Digital Wallet,In-store,2023-06-11
...,...,...,...,...,...,...,...,...
9995,TXN_7672686,Coffee,2,2.0,4.0,,UNKNOWN,2023-08-30
9996,TXN_9659401,,3,,3.0,Digital Wallet,,2023-06-02
9997,TXN_5255387,Coffee,4,2.0,8.0,Digital Wallet,,2023-03-02
9998,TXN_7695629,Cookie,3,,3.0,Digital Wallet,,2023-12-02


*Vamos a ver el tipo de dato de cada columna y sus valores faltantes, tambien valores únicos para ciertas categorías que son de interés para esta etapa*


In [None]:
#Viendo los tipos de valores por columna
for i in data.columns:
  print(data[i].apply(lambda x: type(x).__name__).value_counts() )

espacio='-'*73
print(espacio,f"\n")
#Viendo los valores faltantes totales por columna
print(data.isnull().sum())

print(espacio,f"\n")

#Viendo los valores únicos por algunas columnas de interés
unicos=["Item","Payment Method","Location"]
for i in unicos:
  print(f"{i}: {data[i].unique()}\n")

Transaction ID
str    10000
Name: count, dtype: int64
Item
str      9667
float     333
Name: count, dtype: int64
Quantity
str      9862
float     138
Name: count, dtype: int64
Price Per Unit
str      9821
float     179
Name: count, dtype: int64
Total Spent
str      9827
float     173
Name: count, dtype: int64
Payment Method
str      7421
float    2579
Name: count, dtype: int64
Location
str      6735
float    3265
Name: count, dtype: int64
Transaction Date
str      9841
float     159
Name: count, dtype: int64
------------------------------------------------------------------------- 

Transaction ID         0
Item                 333
Quantity             138
Price Per Unit       179
Total Spent          173
Payment Method      2579
Location            3265
Transaction Date     159
dtype: int64
------------------------------------------------------------------------- 

Item: ['Coffee' 'Cake' 'Cookie' 'Salad' 'Smoothie' 'UNKNOWN' 'Sandwich' nan
 'ERROR' 'Juice' 'Tea']

Payment Method: ['Cr

Ahora ya sabemos cuantos datos nulos hay, vamos a preprocesar solamente las columnas tipo string. Todas las columnas a excepción de la columna 'Transaction ID' no necesitan ser preprocesados, pues vimos que todos están escritos de la misma manera, lo único que se le tendría que hacer a las otras columnas es que todos los valores que salgan como 'UNKNOWN' o 'ERROR' pasarlos como Nan.

*Preprocesando columnas tipo string*

In [None]:
#Preprocesando formato de Transaction ID
#viendo el formato con el cual lo sulen manejar este debe ser la forma en la que debemos de procesar estos datos
data['Transaction ID']=data['Transaction ID'].astype(str).str.replace(r'^A-Za-z0-9_','',regex=True)
data['Transaction ID']=data['Transaction ID'].str.upper()

#Preprocesando Item, Payment Method y Location
lista_strings=["Item","Payment Method","Location"]
for i in lista_strings:
  data[i]=data[i].replace(r'UNKNOWN',np.nan,regex=True)
  data[i]=data[i].replace(r'ERROR',np.nan,regex=True)

print(data.isnull().sum())
display(data)

Transaction ID         0
Item                 969
Quantity             138
Price Per Unit       179
Total Spent          173
Payment Method      3178
Location            3961
Transaction Date     159
dtype: int64


Unnamed: 0,Transaction ID,Item,Quantity,Price Per Unit,Total Spent,Payment Method,Location,Transaction Date
0,TXN_1961373,Coffee,2,2.0,4.0,Credit Card,Takeaway,2023-09-08
1,TXN_4977031,Cake,4,3.0,12.0,Cash,In-store,2023-05-16
2,TXN_4271903,Cookie,4,1.0,ERROR,Credit Card,In-store,2023-07-19
3,TXN_7034554,Salad,2,5.0,10.0,,,2023-04-27
4,TXN_3160411,Coffee,2,2.0,4.0,Digital Wallet,In-store,2023-06-11
...,...,...,...,...,...,...,...,...
9995,TXN_7672686,Coffee,2,2.0,4.0,,,2023-08-30
9996,TXN_9659401,,3,,3.0,Digital Wallet,,2023-06-02
9997,TXN_5255387,Coffee,4,2.0,8.0,Digital Wallet,,2023-03-02
9998,TXN_7695629,Cookie,3,,3.0,Digital Wallet,,2023-12-02


*Preprocesando columnas tipo numérico*

In [None]:
#Primero vamos a pasar todos los posibles números que están en formato texto (si es que los hay)
numericos=["Quantity","Price Per Unit","Total Spent"]
for i in numericos:
  try:
    data[i]=data[i].apply(parse)
  except:
    pass
#Vamos a poner todos los posibles valores de 'UNKNOWN' y 'ERROR'
for i in numericos:
    data[i]=data[i].replace(r"UNKNOWN",np.nan,regex=True)
    data[i]=data[i].replace(r"ERROR",np.nan,regex=True)
#Ahora vamos a asegurarnos que estas columnas sean solamente numeros
for i in numericos:
  data[i]=data[i].astype(str).str.replace(r'[^0-9.]','',regex=True)
  data[i]=pd.to_numeric(data[i],errors='coerce')

#Por último vamos a poner las categorias como numeros para trabajarlas en un futuro si es necesario
data['Quantity']=data['Quantity'].astype('float64')
data["Price Per Unit"]=data["Price Per Unit"].astype('float64')
data["Total Spent"]=data["Total Spent"].astype('float64')

#Ahora vamos a ver cuantos nulos hay ahora
print(data.isnull().sum())
display(data)


Transaction ID         0
Item                 969
Quantity             479
Price Per Unit       533
Total Spent          502
Payment Method      3178
Location            3961
Transaction Date     159
dtype: int64


Unnamed: 0,Transaction ID,Item,Quantity,Price Per Unit,Total Spent,Payment Method,Location,Transaction Date
0,TXN_1961373,Coffee,2.0,2.0,4.0,Credit Card,Takeaway,2023-09-08
1,TXN_4977031,Cake,4.0,3.0,12.0,Cash,In-store,2023-05-16
2,TXN_4271903,Cookie,4.0,1.0,,Credit Card,In-store,2023-07-19
3,TXN_7034554,Salad,2.0,5.0,10.0,,,2023-04-27
4,TXN_3160411,Coffee,2.0,2.0,4.0,Digital Wallet,In-store,2023-06-11
...,...,...,...,...,...,...,...,...
9995,TXN_7672686,Coffee,2.0,2.0,4.0,,,2023-08-30
9996,TXN_9659401,,3.0,,3.0,Digital Wallet,,2023-06-02
9997,TXN_5255387,Coffee,4.0,2.0,8.0,Digital Wallet,,2023-03-02
9998,TXN_7695629,Cookie,3.0,,3.0,Digital Wallet,,2023-12-02


*Preprocesando las fechas*

In [None]:
#Vamos a preprocesar los otros tipos de error comunes que pasaba en otras columnas que contenian UNKNOUWN Y ERROR
data['Transaction Date']=data['Transaction Date'].astype(str).str.upper()
data['Transaction Date']=data['Transaction Date'].replace(r'UNKNOWN',np.nan,regex=True)
data['Transaction Date']=data['Transaction Date'].replace(r'ERROR',np.nan,regex=True)
data['Transaction Date']=data['Transaction Date'].replace(r'NAN',np.nan,regex=True)

#Ahora vamos a asegurarnos que solo contenga el formato de fecha
data['Transaction Date']=data['Transaction Date'].str.replace(r'[^A-Za-z0-9._/\-]',"",regex=True)
data['Transaction Date']=data['Transaction Date'].replace(r'[^A-Za-z0-9/]',"/",regex=True)

#Ahora vamos a pasar todo a formato de fecha
from datetime import datetime
formatos_posibles=[
    "%d/%m/%Y","%d/%m/%y","%m/%d/%Y","%m/%d/%y","%Y/%m/%d","%y/%m/%d",
    "%d/%b/%Y","%d/%b/%y","%b/%d/%Y","%b/%d/%y","%Y/%b/%d","%y/%b/%d",
    "%d/%B/%Y","%d/%B/%y","%B/%d/%Y","%B/%d/%y","%Y/%B/%d","%y/%B/%d"
                   ]
def procesamiento_fecha(x):
  for i in formatos_posibles:
    try:
      return datetime.strptime(x,i)
    except:
      pass

data['Transaction Date']=data['Transaction Date'].apply(procesamiento_fecha)
#revizando cuantos valores faltantes tenemos ahora
print(data.isnull().sum())
display(data)

Transaction ID         0
Item                 969
Quantity             479
Price Per Unit       533
Total Spent          502
Payment Method      3178
Location            3961
Transaction Date     460
dtype: int64


Unnamed: 0,Transaction ID,Item,Quantity,Price Per Unit,Total Spent,Payment Method,Location,Transaction Date
0,TXN_1961373,Coffee,2.0,2.0,4.0,Credit Card,Takeaway,2023-09-08
1,TXN_4977031,Cake,4.0,3.0,12.0,Cash,In-store,2023-05-16
2,TXN_4271903,Cookie,4.0,1.0,,Credit Card,In-store,2023-07-19
3,TXN_7034554,Salad,2.0,5.0,10.0,,,2023-04-27
4,TXN_3160411,Coffee,2.0,2.0,4.0,Digital Wallet,In-store,2023-06-11
...,...,...,...,...,...,...,...,...
9995,TXN_7672686,Coffee,2.0,2.0,4.0,,,2023-08-30
9996,TXN_9659401,,3.0,,3.0,Digital Wallet,,2023-06-02
9997,TXN_5255387,Coffee,4.0,2.0,8.0,Digital Wallet,,2023-03-02
9998,TXN_7695629,Cookie,3.0,,3.0,Digital Wallet,,2023-12-02


**El siguiente paso es lidiar con los valores nulos**

*Eliminando duplicados*

In [None]:
print(data['Transaction ID'].duplicated().sum())

0


**No hay ordenes de compra repetidas por lo cual podemos continuar**


Vamos a ver primero columnas en las cuales haya mucha perdida de información importante. Para situarlo en contexto las columnas más importantes van a ser Item, Total Spent, Quantity y Transaction Date (Location sería el último parametro que, si bien es importante, no es esencial para un análisis estadístico básico).Se escogieron estos parámetros ya que son los parámetros fundamentales para hacer un análisis estadístico por lo menos básico (queremos saber ganancias, producto que más se vende y que día se vende).

Los parámetros que se van a seguir son los siguientes:


1.   Las filas con información faltante en Item, Quantity y Total Spent van a ser eliminadas automaticamente

2.   Las filas que no contengan informacion en Item y Quantity y Transaction date van a ser eliminadas

3. Las filas que solo tengan valores faltantes de Item y Quantity van a ser conservadas y los valores nulos van a ser rellenados con el producto y cantidad que más coincida con el monto la fecha y el 'location' de otros registros (en caso de que falte location tambien se conservará pero se agrupara con fecha y monto)

4. Los demás registros faltantes que no formen una combinación de datos faltantes 'criticos' van a ser rellenadas con la moda de la combinación que se considere pertinente

Estos parámetros han sido establecidos ya que en el caso de rellenar una fila con muchos datos faltantes se puede sesgar un posible análisis estadístico, y si se eliminan filas con datos faltantes que no son críticos o que no son muchos se puede reducir el poder de un análisis estadístico.



*Revisando todas las comnbinaciones críticas*

In [None]:
critico1=data[["Item","Quantity","Total Spent"]].isna()
filas_criticas1=data[critico1.all(axis=1)]
#Podemos ver que en estos valores criticos no hay ninguna coincidencia
critico2=data[["Item","Quantity","Transaction Date"]].isna()
filas_criticas2=data[critico2.all(axis=1)]
display(filas_criticas1)
display(filas_criticas2)
#Podemos ver que en la comninacion de valores criticos "Item","Quantity","Transaction Date"si hay coincidencias, por lo tanto tenemos que eliminarlas del dataset
#por los parámetros que establecimos anteriormente

#eliminando esas columnas
data=data.drop(filas_criticas2.index)

#Confirmando que se eliminaron (vamos a llamar las filas de filas criticas2, pero ahora ya no debería haver coincidencias)
confirmando2=data[["Item","Quantity","Transaction Date"]].isna()
filas_criticas2=data[confirmando2.all(axis=1)]
display(filas_criticas2)

Unnamed: 0,Transaction ID,Item,Quantity,Price Per Unit,Total Spent,Payment Method,Location,Transaction Date


Unnamed: 0,Transaction ID,Item,Quantity,Price Per Unit,Total Spent,Payment Method,Location,Transaction Date
434,TXN_4796350,,,4.0,12.0,,Takeaway,NaT
551,TXN_4152036,,,3.0,6.0,Cash,,NaT
9278,TXN_1166001,,,3.0,15.0,Cash,,NaT


Unnamed: 0,Transaction ID,Item,Quantity,Price Per Unit,Total Spent,Payment Method,Location,Transaction Date


*Revisando y procesando las filas con valores faltantes en Item y Quantity (Paso 3)*

In [None]:
#Jugando con los datos encontré esto, esto es un caso algo curioso, pero solo hay 3 coincidencias de estos 3 o 4 valores faltantes, por lo cual es totalmente justificado
#eliminarlas, pues conservarlas no aportaria demasiado y sería algo de trabajo inecesario por las pocas coincidencias que hay
nan_item_quantity=data[["Item","Quantity","Price Per Unit"]].isna()
filas_nan_item_quantity=data[nan_item_quantity.all(axis=1)]
display(filas_nan_item_quantity)
#Eliminando la coincidencia de nulos con Item, Quantity, Price Per Unit y Location
data=data.drop(filas_nan_item_quantity.index)
#Confirmando que se haya eliminado
confirmando_nan_item_quantity2=data[["Item","Quantity","Price Per Unit"]].isna()
filas_nan_item_quantity=data[confirmando_nan_item_quantity2.all(axis=1)]
display(filas_nan_item_quantity)

Unnamed: 0,Transaction ID,Item,Quantity,Price Per Unit,Total Spent,Payment Method,Location,Transaction Date
3779,TXN_7376255,,,,25.0,,In-store,2023-05-27
7597,TXN_1082717,,,,9.0,Digital Wallet,In-store,2023-12-13
9819,TXN_1208561,,,,20.0,Credit Card,,2023-08-19


Unnamed: 0,Transaction ID,Item,Quantity,Price Per Unit,Total Spent,Payment Method,Location,Transaction Date


*Paso 3 continuacion*

In [None]:
#primero vamos a ver cuantos nulos hay para compararlos con cuantos nulos va a haber despues de preprocesar
print(data.isnull().sum())

#Ahora vamos a ver cuantos nulos hay ahora
print(data.isnull().sum())

#Por Price Per Unit (Item)
data['Price Per Unit']=data['Price Per Unit'].fillna(
    data['Total Spent']/data['Quantity']
)

#Por Quantity (se va a sacar dividiendo el Total Spent entre Price Per Unit )
data['Quantity']=data['Quantity'].fillna(
    data["Total Spent"]/data["Price Per Unit"]
)

#Por Total Spent (se va a sacar multiplicando Quantity por Price Per Unit)
data["Total Spent"]=data["Total Spent"].fillna(
    data["Quantity"]*data["Price Per Unit"]
    )

#por payment method
data['Payment Method']=data['Payment Method'].fillna(
    data.groupby(["Quantity","Location"])['Payment Method'].transform(lambda x: x.mode().iloc[0] if not x.mode().empty else np.nan)
)
#Por transaction Date (item, quantity) #La logica de esta agrupación es que algunos días en restaurantes se suele obvservar un fenomeno en el cual se vende más x o y
#producto
data['Transaction Date']=data["Transaction Date"].fillna(
    data.groupby(["Item","Quantity"])['Transaction Date'].transform(lambda x: x.mode().iloc[0] if not x.mode().empty else np.nan)
)
#Por Location (Item y Quantity) ya que los productos y la cantidad de productos pueden variar mucho dependiendo si es para llevar o en la tienda
data['Location']=data['Location'].fillna(
    data.groupby(["Item","Quantity"])['Location'].transform(lambda x: x.mode().iloc[0] if not x.mode().empty else np.nan)
)

#Por Item (Price Per Unit y Quantity) ya que es el precio unitario y que tan bien se vende
data['Item']=data['Item'].fillna(
    data.groupby(["Price Per Unit","Quantity"])['Item'].transform(lambda x: x.mode().iloc[0] if not x.mode().empty else np.nan)
)

#Ahora vamos a ver cuantos nulos hay ahora
print(data.isnull().sum())

Transaction ID         0
Item                 963
Quantity             473
Price Per Unit       530
Total Spent          502
Payment Method      3176
Location            3958
Transaction Date     457
dtype: int64
Transaction ID         0
Item                 963
Quantity             473
Price Per Unit       530
Total Spent          502
Payment Method      3176
Location            3958
Transaction Date     457
dtype: int64
Transaction ID         0
Item                   3
Quantity              35
Price Per Unit        35
Total Spent           40
Payment Method      1301
Location             388
Transaction Date      41
dtype: int64


*repitiendo este paso hasta que ya no queden nulos o ya no haya una diferencia en los datos vacios*

In [None]:
#Vamos a añadir un máximo de 11 iteraciones para evitar el uso de un while o porque tal vez se necesiten demasiadas iteraciones para lograr que no haya una
#diferencia en los datos nulos

n=0
for i in range(11):
  n+=1
  z=data.isnull().sum().sum()
  data['Price Per Unit']=data['Price Per Unit'].fillna(data['Total Spent']/data['Quantity'])
  data['Quantity']=data['Quantity'].fillna(data["Total Spent"]/data["Price Per Unit"])
  data["Total Spent"]=data["Total Spent"].fillna(data["Quantity"]*data["Price Per Unit"])
  data['Payment Method']=data['Payment Method'].fillna(data.groupby(["Quantity","Location"])['Payment Method'].transform(lambda x: x.mode().iloc[0] if not x.mode().empty else np.nan))
  data['Transaction Date']=data["Transaction Date"].fillna(data.groupby(["Item","Quantity"])['Transaction Date'].transform(lambda x: x.mode().iloc[0] if not x.mode().empty else np.nan))
  data['Location']=data['Location'].fillna(data.groupby(["Item","Quantity"])['Location'].transform(lambda x: x.mode().iloc[0] if not x.mode().empty else np.nan))
  data['Item']=data['Item'].fillna(data.groupby(["Price Per Unit","Quantity"])['Item'].transform(lambda x: x.mode().iloc[0] if not x.mode().empty else np.nan))
  x=data.isnull().sum().sum()
  diferencia=z-x
  print(f"Esta es la iteracion numero: {n}")
  if diferencia==0:
    print(espacio)
    print(f"El numero total de veces que se limpio el dataset con este procedimiento contando la inicial del boque de código anterior son: {n+1}")
    print(espacio)
    break
print(data.isnull().sum())

Esta es la iteracion numero: 1
Esta es la iteracion numero: 2
Esta es la iteracion numero: 3
-------------------------------------------------------------------------
El numero total de veces que se limpio el dataset con este procedimiento contando la inicial del boque de código anterior son: 4
-------------------------------------------------------------------------
Transaction ID       0
Item                 3
Quantity            35
Price Per Unit      35
Total Spent         40
Payment Method      13
Location            15
Transaction Date     2
dtype: int64


Podemos ver que ahora hay pocos datos faltantes, uno de los tipo de datos que menos valores faltantes tienen es el de Item, por lo tanto vamos a usarlo para rellenar los datos de price per unit para posteriormente volver a aplicar el bucle de antes.

*Llenando Price Per unit mediante Item, y reutilizando el bucle*

In [None]:
#Procesando de manera diferente Price Per Unit
data["Price Per Unit"]=data["Price Per Unit"].fillna(data.groupby("Item")["Price Per Unit"].transform(lambda x: x.mode().iloc[0] if not x.mode().empty else np.nan))
#Usando el bucle otra vez
n2=0
for i in range(11):
  n2+=1
  z2=data.isnull().sum().sum()
  data['Price Per Unit']=data['Price Per Unit'].fillna(data['Total Spent']/data['Quantity'])
  data['Quantity']=data['Quantity'].fillna(data["Total Spent"]/data["Price Per Unit"])
  data["Total Spent"]=data["Total Spent"].fillna(data["Quantity"]*data["Price Per Unit"])
  data['Payment Method']=data['Payment Method'].fillna(data.groupby(["Quantity","Location"])['Payment Method'].transform(lambda x: x.mode().iloc[0] if not x.mode().empty else np.nan))
  data['Transaction Date']=data["Transaction Date"].fillna(data.groupby(["Item","Quantity"])['Transaction Date'].transform(lambda x: x.mode().iloc[0] if not x.mode().empty else np.nan))
  data['Location']=data['Location'].fillna(data.groupby(["Item","Quantity"])['Location'].transform(lambda x: x.mode().iloc[0] if not x.mode().empty else np.nan))
  data['Item']=data['Item'].fillna(data.groupby(["Price Per Unit","Quantity"])['Item'].transform(lambda x: x.mode().iloc[0] if not x.mode().empty else np.nan))
  x2=data.isnull().sum().sum()
  diferencia2=z2-x2
  print(f"Esta es la iteracion numero: {n2}")
  if diferencia2==0:
    print(espacio)
    print(f"El numero total de veces que se ha limpiado el dataset es: {n+1+n2}")
    print(espacio)
    break
print(data.isnull().sum())

Esta es la iteracion numero: 1
Esta es la iteracion numero: 2
Esta es la iteracion numero: 3
-------------------------------------------------------------------------
El numero total de veces que se ha limpiado el dataset es: 7
-------------------------------------------------------------------------
Transaction ID       0
Item                 3
Quantity            20
Price Per Unit       3
Total Spent         23
Payment Method       8
Location             8
Transaction Date     0
dtype: int64


Ahora voy a tratar de rellenar todos los datos faltantes de Item para que al mismo tiempo se llenen todos los datos faltantes de Price Per Unit, y así intentar que se rellenen más datos faltantes.

Ahora para rellenar los datos faltantes de Item, lo que voy a hacer es ver que le falta a esas filas y ver cual es la forma más lógica de hacerlo

In [None]:
Item_null=data[["Item"]].isna()
filas_item_null=data[Item_null.all(axis=1)]
display(filas_item_null)

Unnamed: 0,Transaction ID,Item,Quantity,Price Per Unit,Total Spent,Payment Method,Location,Transaction Date
1761,TXN_3611851,,4.0,,,Credit Card,,2023-02-09
2289,TXN_7524977,,4.0,,,,,2023-12-09
4152,TXN_9646000,,2.0,,,Cash,In-store,2023-12-14


Podemos ver que los datos faltantes con Item tienen muchos valores faltantes, por lo cual conviene tirarlos ya que no representan una cantidad significativa en proporcion al dataset (recordemos que es un dataset de 10k datos y estas son 3 filas, lo cual podemos tirarlas sin ningún problema)

In [None]:
data=data.drop(filas_item_null.index)
#confirmando que ya no estén
Item_null2=data[["Item"]].isna()
filas_item_null2=data[Item_null2.all(axis=1)]
display(filas_item_null2)

Unnamed: 0,Transaction ID,Item,Quantity,Price Per Unit,Total Spent,Payment Method,Location,Transaction Date


Ahora vamos a ver Valores faltantes en Total Spent y en Quantity por separado para ver la forma más lógica de llenarlos

*Viendo en Total Spent*

In [None]:
#Voy a ver cuanto datos nulos hay despues del procesamiento anterior
print(data.isnull().sum())
#Viendo datos faltantes en Total Spent
nulls_total_spent=data[["Total Spent"]].isna()
filas_nulls_total_spent=data[nulls_total_spent.all(axis=1)]
display(filas_nulls_total_spent)

Transaction ID       0
Item                 0
Quantity            20
Price Per Unit       0
Total Spent         20
Payment Method       7
Location             6
Transaction Date     0
dtype: int64


Unnamed: 0,Transaction ID,Item,Quantity,Price Per Unit,Total Spent,Payment Method,Location,Transaction Date
236,TXN_8562645,Salad,,5.0,,,In-store,2023-05-18
278,TXN_3229409,Juice,,3.0,,Cash,Takeaway,2023-04-15
641,TXN_2962976,Juice,,3.0,,,,2023-03-17
738,TXN_8696094,Sandwich,,4.0,,,Takeaway,2023-05-14
2796,TXN_9188692,Cake,,3.0,,Credit Card,,2023-12-01
3203,TXN_4565754,Smoothie,,4.0,,Digital Wallet,Takeaway,2023-10-06
3224,TXN_6297232,Coffee,,2.0,,,,2023-04-07
3401,TXN_3251829,Tea,,1.5,,Digital Wallet,In-store,2023-07-25
4257,TXN_6470865,Coffee,,2.0,,Digital Wallet,Takeaway,2023-09-18
5841,TXN_5884081,Cookie,,1.0,,Digital Wallet,In-store,2023-07-05


Podemos ver que todos las filas que no tienen Total Spent, tampoco tienen Quantity. Por lo tanto no hay una forma que nos de un valor 100% confiable de llenar esos datos. Podria usar la Media o la mediana para llenarlos, pero ya he preprocesado muchos otros datos faltantes de esa manera considero que si eliminamos estas filas no debería haber mayor problema. pues son 20 coincidencias y no haría una diferencia enorme.

Recordemos que el dataset es de 10k datos y si eliminamos estas coincidencias, en total estariamos eliminando 26 filas de datos en total tomando en cuenta las otras filas que hemos eliminado anteriormente, lo cual representa apenas el 0.26% de los datos totales. Por lo tanto eliminarlas es totalmente justificado, pues no afectaría demasiado a un posible análisis estadistico posterior.

*Eliminando todas las filas restantes con Total Spent nulo*

In [None]:
#Eliminando los datos nulos de Total Spent
null_total_spent=data[["Total Spent"]].isna()
filas_null_total_spent=data[null_total_spent.all(axis=1)]
data=data.drop(filas_null_total_spent.index)
#Confirmando que ya no existen esas filas
null_total_spent=data[["Total Spent"]].isna()
filas_null_total_spent=data[null_total_spent.all(axis=1)]
display(filas_null_total_spent)

Unnamed: 0,Transaction ID,Item,Quantity,Price Per Unit,Total Spent,Payment Method,Location,Transaction Date


*Viendo que datos nulos quedan ahora*

In [None]:
print(data.isnull().sum())

Transaction ID      0
Item                0
Quantity            0
Price Per Unit      0
Total Spent         0
Payment Method      0
Location            0
Transaction Date    0
dtype: int64


Como podemos ver ya no hay Ningún dato nulo, asi que ya casi hemos terminado de limpiar y preprocesar esta base de datos.

Ahora solo falta asegurar el formato de los datos


*Asegurando formato*

In [None]:
data["Quantity"]=data["Quantity"].astype(int)
data["Price Per Unit"]=data["Price Per Unit"].astype(float)
data["Total Spent"]=data["Total Spent"].astype(float)
data['Item']=data['Item'].astype(str)
data['Payment Method']=data['Payment Method'].astype(str)
data['Location']=data['Location'].astype(str)
#Revisando el formato de cada columna
for i in data.columns:
  print(data[i].apply(lambda x: type(x).__name__).value_counts())


Transaction ID
str    9971
Name: count, dtype: int64
Item
str    9971
Name: count, dtype: int64
Quantity
int    9971
Name: count, dtype: int64
Price Per Unit
float    9971
Name: count, dtype: int64
Total Spent
float    9971
Name: count, dtype: int64
Payment Method
str    9971
Name: count, dtype: int64
Location
str    9971
Name: count, dtype: int64
Transaction Date
Timestamp    9971
Name: count, dtype: int64


Podemos ver que todos los datos se encuentran en su formato adecuado.

*Resumen del proyecto*

In [None]:
#Datos en formato correcto
for i in data.columns:
  print(data[i].apply(lambda x: type(x).__name__).value_counts())
print(espacio)
#Datos nulos totales despues del procesamiento
nulos_totales_antes=raw_data.isna().sum().sum()
nulos_totales_despues=data.isna().sum().sum()
print(f"Nulos antes del procesamiento: {nulos_totales_antes}")
print(f"Nulos despues del procesamiento: {nulos_totales_despues}")
print(espacio)
#Datos que se conservaron
datos_totales_antes=raw_data.shape[0]
datos_totales_despues=data.shape[0]
datos_eliminados=datos_totales_antes-datos_totales_despues
print(f"Datos iniciales: {datos_totales_antes}")
print(f"Datos finales: {datos_totales_despues}")
print(f"Filas eliminadas: {datos_eliminados}, que representan un {round((datos_eliminados/datos_totales_antes)*100,2)}% del dataset")
print(espacio)

Transaction ID
str    9971
Name: count, dtype: int64
Item
str    9971
Name: count, dtype: int64
Quantity
int    9971
Name: count, dtype: int64
Price Per Unit
float    9971
Name: count, dtype: int64
Total Spent
float    9971
Name: count, dtype: int64
Payment Method
str    9971
Name: count, dtype: int64
Location
str    9971
Name: count, dtype: int64
Transaction Date
Timestamp    9971
Name: count, dtype: int64
-------------------------------------------------------------------------
Nulos antes del procesamiento: 6826
Nulos despues del procesamiento: 0
-------------------------------------------------------------------------
Datos iniciales: 10000
Datos finales: 9971
Filas eliminadas: 29, que representan un 0.29% del dataset
-------------------------------------------------------------------------


***Dataset limpio listo para descargar***

In [None]:
from google.colab import files as google_download_tool
clean_cafe_sales = data.copy()
clean_cafe_sales.to_csv('clean_cafe_sales.csv', index=False)
google_download_tool.download('clean_cafe_sales.csv')