### **Proyecto Final: Análisis de Ventas de Cafeterías**

- De acuerdo al Análisis Exploratorio y los hallazgos que fueron encontrados, a través de este nuevo notebook se busca realizar una limpieza del dataset con la finalidad de garantizar su disposición para el análisis posterior.

#### I. Importación de Librerias

In [1]:
# A continuación se realiza la importación de las librerias a utilizar
import pandas as pd
import numpy as np

#### II. Carga de Datos y Lectura previa del Dataset

In [2]:
# Carga de datos desde archivo CSV
df = pd.read_csv(r'..\Coffee-Shop-Sales.csv')
# Tamaño del DataFrame
print(f"Dimensiones del DataFrame: {df.shape}")
# Mostrar primeras 5 filas
df.head()

Dimensiones del DataFrame: (149116, 11)


Unnamed: 0,transaction_id,transaction_date,transaction_time,transaction_qty,store_id,store_location,product_id,unit_price,product_category,product_type,product_detail
0,1,1/1/2023,7:06:11,2,5,Lower Manhattan,32,3.0,Coffee,Gourmet brewed coffee,Ethiopia Rg
1,2,1/1/2023,7:08:56,2,5,Lower Manhattan,57,3.1,Tea,Brewed Chai tea,Spicy Eye Opener Chai Lg
2,3,1/1/2023,7:14:04,2,5,Lower Manhattan,59,4.5,Drinking Chocolate,Hot chocolate,Dark chocolate Lg
3,4,1/1/2023,7:20:24,1,5,Lower Manhattan,22,2.0,Coffee,Drip coffee,Our Old Time Diner Blend Sm
4,5,1/1/2023,7:22:41,2,5,Lower Manhattan,57,3.1,Tea,Brewed Chai tea,Spicy Eye Opener Chai Lg


#### III. Limpieza de datos

##### 1. Limpieza general

- Tal como se identificó en el `Análisis Exploratorio`, el dataset se encuentra relativamente limpio y habilitado para trabajar con él. No se encontraron valores vacíos (NaN), tampoco se identificaron valores núlos (Null) o filas duplicadas.
- Sin embargo, dado el análisis que se pretende realizar y los gráficos que se esperan obtener, existen algunas columnas que no se utilizarán, es por esto que se eliminarán del dataframe, y se generará uno nuevo para trabajar en la siguiente sección.
- Además, se corrige el tipo de dato de las columnas transaction_date (de tipo object a datetime) y transaction_time (de tipo object a time).

In [3]:
# Columnas que no se utilizarán para el análisis: transaction_id, store_id, product_id
df.drop(columns = ["transaction_id", "store_id", "product_id"], inplace = True)

In [4]:
# Cambio de tipo de dato de la columna transaction_date
df["transaction_date"] = pd.to_datetime(df["transaction_date"])

In [5]:
# Cabmio de tipo de dato de la columna transaction_time
df["transaction_time"] = pd.to_datetime(df["transaction_time"], format = "%H:%M:%S") # La idea es poder extraer sólo la hora para graficar más adelante

In [6]:
# Mostrar primeras 5 filas del nuevo dataframe
df.head()

Unnamed: 0,transaction_date,transaction_time,transaction_qty,store_location,unit_price,product_category,product_type,product_detail
0,2023-01-01,1900-01-01 07:06:11,2,Lower Manhattan,3.0,Coffee,Gourmet brewed coffee,Ethiopia Rg
1,2023-01-01,1900-01-01 07:08:56,2,Lower Manhattan,3.1,Tea,Brewed Chai tea,Spicy Eye Opener Chai Lg
2,2023-01-01,1900-01-01 07:14:04,2,Lower Manhattan,4.5,Drinking Chocolate,Hot chocolate,Dark chocolate Lg
3,2023-01-01,1900-01-01 07:20:24,1,Lower Manhattan,2.0,Coffee,Drip coffee,Our Old Time Diner Blend Sm
4,2023-01-01,1900-01-01 07:22:41,2,Lower Manhattan,3.1,Tea,Brewed Chai tea,Spicy Eye Opener Chai Lg


In [7]:
# Mostrar tipo de dato de cada columna
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 149116 entries, 0 to 149115
Data columns (total 8 columns):
 #   Column            Non-Null Count   Dtype         
---  ------            --------------   -----         
 0   transaction_date  149116 non-null  datetime64[ns]
 1   transaction_time  149116 non-null  datetime64[ns]
 2   transaction_qty   149116 non-null  int64         
 3   store_location    149116 non-null  object        
 4   unit_price        149116 non-null  float64       
 5   product_category  149116 non-null  object        
 6   product_type      149116 non-null  object        
 7   product_detail    149116 non-null  object        
dtypes: datetime64[ns](2), float64(1), int64(1), object(4)
memory usage: 9.1+ MB
