In [181]:
import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np

import warnings
warnings.filterwarnings('ignore')

In [218]:
df_cafe_dirty = pd.read_csv("/Users/maitanelopezsanchez/mi_proyecto-1/Datasets/dirty_cafe_sales.csv")

In [289]:
df_cafe_dirty

Unnamed: 0,Transaction ID,Item,Quantity,Price Per Unit,Total Spent,Payment Method,Location,Transaction Date
0,TXN_1961373,Coffee,2,2.0,4.0,Credit Card,Takeaway,2023-09-08
1,TXN_4977031,Cake,4,3.0,12.0,Cash,In-store,2023-05-16
2,TXN_4271903,Cookie,4,1.0,ERROR,Credit Card,In-store,2023-07-19
3,TXN_7034554,Salad,2,5.0,10.0,UNKNOWN,UNKNOWN,2023-04-27
4,TXN_3160411,Coffee,2,2.0,4.0,Digital Wallet,In-store,2023-06-11
...,...,...,...,...,...,...,...,...
9994,TXN_7851634,UNKNOWN,4,4.0,16.0,,,2023-01-08
9995,TXN_7672686,Coffee,2,2.0,4.0,,UNKNOWN,2023-08-30
9997,TXN_5255387,Coffee,4,2.0,8.0,Digital Wallet,,2023-03-02
9998,TXN_7695629,Cookie,3,,3.0,Digital Wallet,,2023-12-02


# Primera Parte
## Carga, Exploración, Limpieza y Visualización Básica de un Dataset

In [294]:
df_cafe_dirty.columns

Index(['Transaction ID', 'Item', 'Quantity', 'Price Per Unit', 'Total Spent',
       'Payment Method', 'Location', 'Transaction Date'],
      dtype='object')

In [333]:
df_cafe_dirty.dtypes

Transaction ID      object
Item                object
Quantity            object
Price Per Unit      object
Total Spent         object
Payment Method      object
Location            object
Transaction Date    object
dtype: object

In [None]:
df_cafe_dirty.Item.unique()
#Hay 3 tipos diferentes de valores nulos, hay que unificarlos, transformarlos o eliminarlos de la forma más coherente.

array(['Coffee', 'Cake', 'Cookie', 'Salad', 'Smoothie', 'UNKNOWN',
       'Sandwich', nan, 'Tea', 'Juice', 'ERROR'], dtype=object)

In [None]:
df_cafe_dirty["Transaction ID"].value_counts()
# Al ver que la longitud es de 10.000 podemos observar que coincide con el lenght y no hay "Transaction ID" repetidos.

Transaction ID
TXN_1961373    1
TXN_6376329    1
TXN_5308047    1
TXN_5929797    1
TXN_1228927    1
              ..
TXN_8993132    1
TXN_4268167    1
TXN_9358399    1
TXN_2793054    1
TXN_6170729    1
Name: count, Length: 9946, dtype: int64

In [None]:
df_cafe_dirty['Quantity'].isna().any()
# No hay valores nulos en la columna Quantity ya que nos devuelve un False

np.True_

In [None]:
df_cafe_dirty["Item"].isna().any()
#Efectivamente hay valores nulos en la columna Item.

np.True_

In [None]:
df_cafe_dirty["Price Per Unit"].isna().any()

np.True_

In [None]:
df_cafe_dirty["Transaction Date"].isna().any()

np.True_

In [None]:
df_cafe_dirty["Quantity"].isna().any()
#Quantity y Transaction ID son las dos unicas columnas sin valores nulos.

np.True_

In [None]:
df_cafe_dirty["Payment Method"].unique() 
#3 formas de pago y 3 tipos de valores nulos

array(['Credit Card', 'Cash', 'UNKNOWN', 'Digital Wallet', 'ERROR', nan],
      dtype=object)

## Comenzando la limpieza

In [None]:
df_cafe_dirty.groupby("Item")["Price Per Unit"].first()


Item
Cake        3.0
Coffee      2.0
Cookie      1.0
ERROR       3.0
Juice       3.0
Salad       5.0
Sandwich    4.0
Smoothie    4.0
Tea         1.5
UNKNOWN     3.0
Name: Price Per Unit, dtype: object

Tras observar el valor de cada Item, podemos ver como hay una coincidencia con el Price Per Unit del Item "ERROR"

In [None]:
df_cafe_dirty["Price Per Unit"].value_counts()

Price Per Unit
3.0    2506
4.0    2399
2.0    1265
5.0    1254
1.0    1185
1.5    1179
Name: count, dtype: int64

In [None]:
df_cafe_dirty[df_cafe_dirty["Price Per Unit"].isin(["Unknown", "ERROR"])]


Unnamed: 0,Transaction ID,Item,Quantity,Price Per Unit,Total Spent,Payment Method,Location,Transaction Date


In [None]:
df_cafe_dirty[df_cafe_dirty["Price Per Unit"].astype(str).str.contains("[A-Za-z]", regex=True)]
#De esta forma podemos ver si alguno de los valores del Price Per Unit tenía algún valor como "$" u otros.


Unnamed: 0,Transaction ID,Item,Quantity,Price Per Unit,Total Spent,Payment Method,Location,Transaction Date
56,TXN_3578141,Cake,5,,15.0,,Takeaway,2023-06-27
65,TXN_4987129,Sandwich,3,,,,In-store,2023-10-20
85,TXN_8035512,Tea,3,,4.5,Cash,UNKNOWN,2023-10-29
104,TXN_7447872,Juice,2,,6.0,,,
164,TXN_1435086,Cake,5,,15.0,,ERROR,2023-02-09
...,...,...,...,...,...,...,...,...
9643,TXN_9147596,Coffee,2,,4.0,Digital Wallet,Takeaway,2023-10-08
9738,TXN_4663964,Cookie,4,,4.0,Digital Wallet,In-store,2023-06-29
9893,TXN_3809533,Juice,2,,ERROR,Digital Wallet,Takeaway,2023-02-02
9924,TXN_5981429,Juice,2,,6.0,Digital Wallet,,2023-12-24


In [None]:
#A continuación, vamos a eliminar las filas que contentan valores nulos como son "NaN", "ERROR" o "UNKNOWN"
# tanto en la la columna Item como en la columna Price Per Unit, ya que, no nos aportan ninguna información.

In [None]:
invalid_values = ["ERROR", "UNKNOWN"]


In [None]:
#Función que elimine las filas donde AMBOS valores son invalid_values
mask_invalid_both = (
    (df_cafe_dirty["Item"].isin(invalid_values) | df_cafe_dirty["Item"].isna()) &
    (df_cafe_dirty["Price Per Unit"].isin(invalid_values) | df_cafe_dirty["Price Per Unit"].isna())
)


In [None]:
df_cafe_dirty = df_cafe_dirty[~mask_invalid_both]


In [None]:
df_cafe_dirty[
    (df_cafe_dirty["Item"].isin(invalid_values) | df_cafe_dirty["Item"].isna()) &
    (df_cafe_dirty["Price Per Unit"].isin(invalid_values) | df_cafe_dirty["Price Per Unit"].isna())
]



Unnamed: 0,Transaction ID,Item,Quantity,Price Per Unit,Total Spent,Payment Method,Location,Transaction Date


In [None]:
df_cafe_dirty.shape

(9946, 8)

Hemos eliminado y guardado la primera fase de la limpieza, podemos ver que el tamaño de la tabla de ha reducido de 10.000 filas a 9.946.

El siguiente paso que quiero dar es transormar en valores tangibles aquellos invalid_values donde sabemos el precio por unidad y no el Item o a la inversa. Por ejemplo, sabemos que un Coffee vale 2.0 y la Cookie 1.0. Y al revés, donde el precio sea 1.0 y el Item un invalid_value poder decir que es una Cookie. 
    Nota: En algunos casos se complica ya que el precio de la Cake y del Juice es el mismo.

In [None]:
df_cafe_dirty.groupby("Item")["Price Per Unit"].first()

Item
Cake        3.0
Coffee      2.0
Cookie      1.0
ERROR       3.0
Juice       3.0
Salad       5.0
Sandwich    4.0
Smoothie    4.0
Tea         1.5
UNKNOWN     3.0
Name: Price Per Unit, dtype: object

Como podemos observar, los Item: "ERROR" tienen un Price Per Unit de 1.5. El único Item que tiene ese Precio es el Té, por ello podemos transformar los Item que sean ERROR a Té.

In [None]:
df_cafe_dirty.loc[
    (df_cafe_dirty["Item"] == "ERROR") & (df_cafe_dirty["Price Per Unit"] == "1.5"),
    "Item"
] = "Tea"


In [None]:
df_cafe_dirty_tea = df_cafe_dirty[df_cafe_dirty["Price Per Unit"] == "1.5"]


Segundo paso, transformar aquellos Item con invalid_values en un valor cuando se cumpla lo siguiente: 
Coffee → 2.0
Cookie → 1.0
Salad → 5.0
Tea → 1.5
En el caso de Items con Price Per Unit iguales no se podrá realizar este cambio.

In [None]:
mapping = {
    "2.0": "Coffee",
    "1.0": "Cookie",
    "5.0": "Salad",
    "1.5": "Tea"
}

In [None]:
for price_str, item_name in mapping.items():
    df_cafe_dirty.loc[
        (df_cafe_dirty["Item"].isin(invalid_values)) &
        (df_cafe_dirty["Price Per Unit"] == price_str),
        "Item"
    ] = item_name

In [None]:
#Verificación
df_cafe_dirty[df_cafe_dirty["Item"].isin(mapping.values())]


Unnamed: 0,Transaction ID,Item,Quantity,Price Per Unit,Total Spent,Payment Method,Location,Transaction Date
0,TXN_1961373,Coffee,2,2.0,4.0,Credit Card,Takeaway,2023-09-08
2,TXN_4271903,Cookie,4,1.0,ERROR,Credit Card,In-store,2023-07-19
3,TXN_7034554,Salad,2,5.0,10.0,UNKNOWN,UNKNOWN,2023-04-27
4,TXN_3160411,Coffee,2,2.0,4.0,Digital Wallet,In-store,2023-06-11
10,TXN_2548360,Salad,5,5.0,25.0,Cash,Takeaway,2023-11-07
...,...,...,...,...,...,...,...,...
9982,TXN_8567525,Cookie,2,1.0,2.0,,Takeaway,2023-12-30
9990,TXN_1538510,Coffee,5,2.0,10.0,Digital Wallet,,2023-05-22
9995,TXN_7672686,Coffee,2,2.0,4.0,,UNKNOWN,2023-08-30
9997,TXN_5255387,Coffee,4,2.0,8.0,Digital Wallet,,2023-03-02


Tercer paso: Transformar los Price Per Unit que contengan invalid_values.

In [None]:
#Generamos un mapping con los precios de cada Item. Cake - 3.0, etc.
price_mapping = {
    "Cake": "3.0",
    "Coffee": "2.0",
    "Cookie": "1.0",
    "Juice": "3.0",
    "Salad": "5.0",
    "Sandwich": "4.0",
    "Smoothie": "4.0",
    "Tea": "1.5"
}

In [None]:
for item_name, price_str in price_mapping.items():
    df_cafe_dirty.loc[
        (df_cafe_dirty["Price Per Unit"].isin(invalid_values)) &
        (df_cafe_dirty["Item"] == item_name),
        "Price Per Unit"
    ] = price_str


In [None]:
df_cafe_dirty[df_cafe_dirty["Price Per Unit"].isin(invalid_values)]
#Devuelve una tabla vacía por lo que ya no hay valores nulos en la columna Price Per Unit.


Unnamed: 0,Transaction ID,Item,Quantity,Price Per Unit,Total Spent,Payment Method,Location,Transaction Date


Debido a que los UNKNOWN que quedan tienen precio de 3.0 y de 4.0 y ese precio puede ser de 2 Items diferentes, considero que la mejor opción es eliminarlas ya que solo son 147 de 10.000 filas.

In [None]:
df_cafe_dirty[df_cafe_dirty["Item"] != "UNKNOWN"]

Unnamed: 0,Transaction ID,Item,Quantity,Price Per Unit,Total Spent,Payment Method,Location,Transaction Date
0,TXN_1961373,Coffee,2,2.0,4.0,Credit Card,Takeaway,2023-09-08
1,TXN_4977031,Cake,4,3.0,12.0,Cash,In-store,2023-05-16
2,TXN_4271903,Cookie,4,1.0,ERROR,Credit Card,In-store,2023-07-19
3,TXN_7034554,Salad,2,5.0,10.0,UNKNOWN,UNKNOWN,2023-04-27
4,TXN_3160411,Coffee,2,2.0,4.0,Digital Wallet,In-store,2023-06-11
...,...,...,...,...,...,...,...,...
9993,TXN_4766549,Smoothie,2,4.0,,Cash,,2023-10-20
9995,TXN_7672686,Coffee,2,2.0,4.0,,UNKNOWN,2023-08-30
9997,TXN_5255387,Coffee,4,2.0,8.0,Digital Wallet,,2023-03-02
9998,TXN_7695629,Cookie,3,,3.0,Digital Wallet,,2023-12-02


In [None]:
df_cafe_dirty_unknown = df_cafe_dirty[df_cafe_dirty["Item"] == "UNKNOWN"]
#Ver el tamaño de filas de Unkonws.
df_cafe_dirty_unknown

Unnamed: 0,Transaction ID,Item,Quantity,Price Per Unit,Total Spent,Payment Method,Location,Transaction Date
6,TXN_4433211,UNKNOWN,3,3.0,9.0,ERROR,Takeaway,2023-10-06
36,TXN_6855453,UNKNOWN,4,3.0,12.0,,In-store,2023-07-17
91,TXN_5455936,UNKNOWN,5,3.0,15.0,,In-store,2023-10-28
153,TXN_6541415,UNKNOWN,UNKNOWN,3.0,12.0,Cash,In-store,2023-11-25
165,TXN_3226832,UNKNOWN,5,4.0,20.0,Cash,UNKNOWN,2023-09-04
...,...,...,...,...,...,...,...,...
9727,TXN_3562418,UNKNOWN,2,4.0,8.0,Digital Wallet,UNKNOWN,2023-08-13
9763,TXN_7652830,UNKNOWN,2,3.0,6.0,,,2023-08-15
9836,TXN_9162296,UNKNOWN,3,4.0,12.0,Cash,In-store,2023-05-10
9946,TXN_8807600,UNKNOWN,1,4.0,4.0,Cash,Takeaway,2023-09-24
