### **Proyecto Final: Análisis de Ventas de Cafeterías**

- En este tercer notebook se desarrollarán las siguientes actividades: Creación de nuevas variables, Análisis univariado y visualizaciones, Análisis de Correlación, Análisis multivariado y visualizaciones.
- Para lograr lo anterior, se trabajará con el Dataset modificado que se creó en la etapa anterior de `Limpieza de datos`.

#### I. Importación de Librerias

In [2]:
# A continuación se realiza la importación de las librerias a utilizar
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px

#### II. Carga de datos Nuevo Dataset (modificado en la limpieza de datos)

In [3]:
# Carga de datos desde archivo CSV
df = pd.read_csv(r'.\ventas_cafeterias_nuevo.csv')
# Tamaño del DataFrame
print(f"Dimensiones del DataFrame: {df.shape}")
# Mostrar primeras 5 filas
df.head()

Dimensiones del DataFrame: (149116, 8)


Unnamed: 0,transaction_date,transaction_time,transaction_qty,store_location,unit_price,product_category,product_type,product_detail
0,2023-01-01,1900-01-01 07:06:11,2,Lower Manhattan,3.0,Coffee,Gourmet brewed coffee,Ethiopia Rg
1,2023-01-01,1900-01-01 07:08:56,2,Lower Manhattan,3.1,Tea,Brewed Chai tea,Spicy Eye Opener Chai Lg
2,2023-01-01,1900-01-01 07:14:04,2,Lower Manhattan,4.5,Drinking Chocolate,Hot chocolate,Dark chocolate Lg
3,2023-01-01,1900-01-01 07:20:24,1,Lower Manhattan,2.0,Coffee,Drip coffee,Our Old Time Diner Blend Sm
4,2023-01-01,1900-01-01 07:22:41,2,Lower Manhattan,3.1,Tea,Brewed Chai tea,Spicy Eye Opener Chai Lg


#### III. Creación de variables

##### 1. Explicación nuevas variables

- A continuación, se detallan las variables que se crearán para comenzar a realizar los diferentes análisis.

`1. day (Día):`

    - Tipo de dato: String.
    - Qué refleja: Corresponde al día en que se realizó la transacción, pero escrito en palabras (ej.: "Monday", "Tuesday", etc).
    - Usabilidad: Permitirá crear gráficos e identificar por ejemplo, qué día de la semana se vende mayor cantidad de productos.
    
`2. month (Mes):`
    
    - Tipo de dato: String.
    - Qué refleja: corresponde al mes en que se realizó la transacción, pero escrito en palabras(ej.: "January", "February", "March", etc).
    - Usabilidad: Permitirá crear gráficos y demostrar el comportamiento de una variable en un rango de meses.

`3. year (Año):`

    - Tipo de dato: Int.
    - Qué refleja: Corresponde al año en que se realizó la transacción.
    - Usabilidad: Dado que el dataset solo contine valores de 1 año, si lo vemos desde el punto de vista de la aplicación (punto 7 de la evaluación), nos permitiría conocer por ejemplo, cómo ha sido el evolutivo de las ventas de las tiendas durantes "x" años, hacer comparativos, etc. 
    
`4. hour (Hora):` 
    
    - Tipo de dato: Int.
    - Qué refleja: Corresponde a la hora en que se realizó la transacción, mostrará solo la hora en números (ej.: hora transacción 09:35:10 ==> 9).
    - Usabilidad: Permitirá crear gráficos e identificar por ejemplo, los horarios en que existe mayor demanda de productos.

`5. revenue (Ingresos):` 
    
    - Tipo de dato: float.
    - Qué refleja: Corresponde al monto percibido en cada transacción (resultado de multiplicar: transaction_qty * unit_price).
    - Usabilidad: Permitirá crear gráficos e identificar por ejemplo, cuáles son los productos que generan mayores ingresos, o comparar cuál de las 3 sucursales ha vendido más.

##### 2. Creación de Variables


- Se ha detectado que el tipo de dato de las columnas transaction_date y transaction_time (nuevo dataset), han vuelto a ser tipo object (class str). Por lo tanto, se deben transformar a tipo Datetime para poder crear las nuevas variables.

In [14]:
# Visualización del tipo de dato de las columnas del nuevo dataset
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 149116 entries, 0 to 149115
Data columns (total 8 columns):
 #   Column            Non-Null Count   Dtype  
---  ------            --------------   -----  
 0   transaction_date  149116 non-null  object 
 1   transaction_time  149116 non-null  object 
 2   transaction_qty   149116 non-null  int64  
 3   store_location    149116 non-null  object 
 4   unit_price        149116 non-null  float64
 5   product_category  149116 non-null  object 
 6   product_type      149116 non-null  object 
 7   product_detail    149116 non-null  object 
dtypes: float64(1), int64(1), object(6)
memory usage: 9.1+ MB


In [16]:
# Cambio del tipo de dato de la columna transaction_date 
df["transaction_date"] = pd.to_datetime(df["transaction_date"])
# Cambio del tipo de dato de la columna transaction_time
df["transaction_time"] = pd.to_datetime(df["transaction_time"])
df["transaction_time"] = pd.to_datetime(df["transaction_time"], format = "%H:%M:%S")

In [17]:
# Validación del cambio realizado
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 149116 entries, 0 to 149115
Data columns (total 8 columns):
 #   Column            Non-Null Count   Dtype         
---  ------            --------------   -----         
 0   transaction_date  149116 non-null  datetime64[ns]
 1   transaction_time  149116 non-null  datetime64[ns]
 2   transaction_qty   149116 non-null  int64         
 3   store_location    149116 non-null  object        
 4   unit_price        149116 non-null  float64       
 5   product_category  149116 non-null  object        
 6   product_type      149116 non-null  object        
 7   product_detail    149116 non-null  object        
dtypes: datetime64[ns](2), float64(1), int64(1), object(4)
memory usage: 9.1+ MB


In [18]:
# Creación de nuevas variables

# Variable "day"
df["day"] = df["transaction_date"].dt.day_name()

# Variable "month"
df["month"] = df["transaction_date"].dt.month_name()

# Variable "year"
df["year"] = df["transaction_date"].dt.year

# Variable "hour"
df["hour"] = df["transaction_time"].dt.hour

# Variable "revenue"
df["revenue"] = df["transaction_qty"] * df["unit_price"]

In [19]:
# Mostrar primeras 5 filas del dataframe con las nuevas columnas incorporadas
df.head()

Unnamed: 0,transaction_date,transaction_time,transaction_qty,store_location,unit_price,product_category,product_type,product_detail,day,month,year,hour,revenue
0,2023-01-01,1900-01-01 07:06:11,2,Lower Manhattan,3.0,Coffee,Gourmet brewed coffee,Ethiopia Rg,Sunday,January,2023,7,6.0
1,2023-01-01,1900-01-01 07:08:56,2,Lower Manhattan,3.1,Tea,Brewed Chai tea,Spicy Eye Opener Chai Lg,Sunday,January,2023,7,6.2
2,2023-01-01,1900-01-01 07:14:04,2,Lower Manhattan,4.5,Drinking Chocolate,Hot chocolate,Dark chocolate Lg,Sunday,January,2023,7,9.0
3,2023-01-01,1900-01-01 07:20:24,1,Lower Manhattan,2.0,Coffee,Drip coffee,Our Old Time Diner Blend Sm,Sunday,January,2023,7,2.0
4,2023-01-01,1900-01-01 07:22:41,2,Lower Manhattan,3.1,Tea,Brewed Chai tea,Spicy Eye Opener Chai Lg,Sunday,January,2023,7,6.2
