<a href="https://colab.research.google.com/github/ValentinBarco/UPSO-ML-BD/blob/main/Manejo%20de%20datasets/Manejo_de_librerias_graficas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [13]:
import plotly.graph_objects as go
import pandas as pd
import numpy as np

In [14]:
# Cargo un dataset ya existente
ruta_de_acceso = '/content/Dataset_de_ventas_Abril.csv'

df_ventas = pd.read_csv(ruta_de_acceso)

df_ventas

Unnamed: 0,Order ID,Product,Quantity Ordered,Price Each,Order Date,Purchase Address
0,176558,USB-C Charging Cable,2,11.95,04/19/19 08:46,"917 1st St, Dallas, TX 75001"
1,,,,,,
2,176559,Bose SoundSport Headphones,1,99.99,04/07/19 22:30,"682 Chestnut St, Boston, MA 02215"
3,176560,Google Phone,1,600,04/12/19 14:38,"669 Spruce St, Los Angeles, CA 90001"
4,176560,Wired Headphones,1,11.99,04/12/19 14:38,"669 Spruce St, Los Angeles, CA 90001"
...,...,...,...,...,...,...
18378,194090,Google Phone,1,600,04/08/19 17:11,"177 Jackson St, Los Angeles, CA 90001"
18379,194091,AA Batteries (4-pack),1,3.84,04/15/19 16:02,"311 Forest St, Austin, TX 73301"
18380,194092,AAA Batteries (4-pack),2,2.99,04/28/19 14:36,"347 Sunset St, San Francisco, CA 94016"
18381,194093,AA Batteries (4-pack),1,3.84,04/14/19 15:09,"835 Lake St, Portland, OR 97035"


In [15]:
# Eliminamos las filas que contienen NaN
df_ventas = df_ventas.dropna()

# Cambia los Nan por 0
df_ventas = df_ventas.fillna(0)

df_ventas = df_ventas.fillna({'Quantity Ordered':0,'Price Each':2})


In [16]:
# Transformo todos los valores no numericos en Nan en las columnas Quantity Ordered y Price Each
df_ventas['Quantity Ordered'] = pd.to_numeric(df_ventas['Quantity Ordered'], errors='coerce')  #El errors= 'coerce' transforma los valores no numericos a NaN'
df_ventas['Price Each'] = pd.to_numeric(df_ventas['Price Each'], errors='coerce')

# Elimino todos los Nan y me quedo solo con los valores numericos
df_ventas = df_ventas.dropna()

# Transformo todos los valores numericos al tipo de dato int
df_ventas['Quantity Ordered'] = df_ventas['Quantity Ordered'].astype(int)
df_ventas['Price Each'] = df_ventas['Price Each'].astype(int)

In [17]:
# Agrupo los productos y la cantidad ordenada y realizo la sumatoria de los productos vendidos
productos_vendidos = df_ventas.groupby('Product')['Quantity Ordered'].sum() #Aca se puede hacer muchas operaciones .sum() .min() .max() .std() etc

# Ordeno los de mayor a menor segun la cantidad de productos vendidos
productos_vendidos_ordenados = productos_vendidos.sort_values(ascending=False )

df_productos = pd.DataFrame({'Product':productos_vendidos_ordenados.index, 'Quantity Ordered':productos_vendidos_ordenados.values})


## Grafico de barras


In [18]:
import plotly.graph_objects as go

# Extraigo valores del dataFrame para realizar los graficos
Productos = df_productos['Product'].values
Unidades = df_productos['Quantity Ordered'].values

# Creo el objeto figura
fig = go.Figure()


# Agrego al objeto figura un grafico de barra conn los valores extraidos previamente
fig.add_trace(go.Bar(
        x= Productos,
        y= Unidades,
        yaxis="y",
        name="Unidades vendidas",
        marker=dict(color="light blue")))


# Configuro titulos y ejes del grafico
fig.update_layout(
    title="Unidades vendidas",
    xaxis=dict(title="Producto"),
    yaxis=dict(title="Unidades vendidas", side="left"))


# Muestro el grafico
fig.show()


In [19]:
# Realizo un agrupamiento de los datos donde a la cantidad ordenada le aplico la suma, a el precio el promedio y lo agrupo con los productos.
Analisis_de_productos = df_ventas.groupby('Product').agg({
    'Quantity Ordered': 'sum',
    'Price Each': 'mean'
})


# Ordeno los productos de mayor a menor segun la cantidad
Analisis_de_productos_ordenados = Analisis_de_productos.sort_values(by='Quantity Ordered',ascending=False)

# Resetear el índice para convertir 'Product' en una columna
Analisis_de_productos_ordenados.reset_index(inplace=True)

Analisis_de_productos_ordenados



Unnamed: 0,Product,Quantity Ordered,Price Each
0,AAA Batteries (4-pack),2936,2.0
1,AA Batteries (4-pack),2822,3.0
2,Lightning Charging Cable,2371,14.0
3,USB-C Charging Cable,2270,11.0
4,Wired Headphones,2066,11.0
5,Apple Airpods Headphones,1525,150.0
6,Bose SoundSport Headphones,1288,99.0
7,27in FHD Monitor,737,149.0
8,iPhone,695,700.0
9,34in Ultrawide Monitor,653,379.0


## Grafico multiple

In [20]:
import plotly.graph_objects as go

# Extraigo valores del dataFrame para realizar los graficos
Productos = Analisis_de_productos_ordenados['Product'].values
Unidades = Analisis_de_productos_ordenados['Quantity Ordered'].values
Precios =  Analisis_de_productos_ordenados['Price Each'].values

# Creo el objeto figura
fig = go.Figure()

# Agrego al objeto figura un grafico de barra con los valores extraidos previamente de productos y unidades
fig.add_trace(go.Bar(

        x= Productos,
        y= Unidades,
        yaxis="y",
        name="Unidades vendidas",
        marker=dict(color="light blue")))


# Agrego al objeto figura un grafico de de linea conn los valores extraidos previamente de productos y precios
fig.add_trace(go.Scatter(

        x= Productos,
        y= Precios,
        mode='lines',
        name="Precio",
        yaxis="y2",
        line=dict(color="red", shape='spline', smoothing=1.3, width=3)))  # Realizo ajustes para la línea suave y ancha

# Configuro los ejes y los títulos
fig.update_layout(

        title="Unidades vendidas y Precio por producto",
        xaxis=dict(title="Producto"),
        yaxis=dict(title="Unidades vendidas", side="left"),
        yaxis2=dict(title="Precio", overlaying="y", side="right"),
        yaxis_range=[0, max(Unidades) * 1.1],  # Ajusto los rangos de los ejes para que ambos comiencen en cero
        yaxis2_range=[0, max(Precios) * 1.1])


fig.show()


In [21]:
# Calculo las ventas totales como la cantidad de unidades vendidas por el precio
Analisis_de_productos['Total Sales'] = Analisis_de_productos['Quantity Ordered'] * Analisis_de_productos['Price Each']
Analisis_de_productos_ordenados = Analisis_de_productos.sort_values(by='Total Sales',ascending=False)

# Resetear el índice para convertir 'Product' en una columna
Analisis_de_productos_ordenados.reset_index(inplace=True)

Analisis_de_productos_ordenados

Unnamed: 0,Product,Quantity Ordered,Price Each,Total Sales
0,Macbook Pro Laptop,455,1700.0,773500.0
1,iPhone,695,700.0,486500.0
2,ThinkPad Laptop,392,999.0,391608.0
3,Google Phone,581,600.0,348600.0
4,34in Ultrawide Monitor,653,379.0,247487.0
5,Apple Airpods Headphones,1525,150.0,228750.0
6,27in 4K Gaming Monitor,565,389.0,219785.0
7,Flatscreen TV,459,300.0,137700.0
8,Bose SoundSport Headphones,1288,99.0,127512.0
9,27in FHD Monitor,737,149.0,109813.0


## **PREGUNTA:** ¿A qué hora debemos mostrar la publicidad para maximizar la probabilidad de que el cliente compre el producto?

In [22]:
df_ventas

Unnamed: 0,Order ID,Product,Quantity Ordered,Price Each,Order Date,Purchase Address
0,176558,USB-C Charging Cable,2,11,04/19/19 08:46,"917 1st St, Dallas, TX 75001"
2,176559,Bose SoundSport Headphones,1,99,04/07/19 22:30,"682 Chestnut St, Boston, MA 02215"
3,176560,Google Phone,1,600,04/12/19 14:38,"669 Spruce St, Los Angeles, CA 90001"
4,176560,Wired Headphones,1,11,04/12/19 14:38,"669 Spruce St, Los Angeles, CA 90001"
5,176561,Wired Headphones,1,11,04/30/19 09:27,"333 8th St, Los Angeles, CA 90001"
...,...,...,...,...,...,...
18378,194090,Google Phone,1,600,04/08/19 17:11,"177 Jackson St, Los Angeles, CA 90001"
18379,194091,AA Batteries (4-pack),1,3,04/15/19 16:02,"311 Forest St, Austin, TX 73301"
18380,194092,AAA Batteries (4-pack),2,2,04/28/19 14:36,"347 Sunset St, San Francisco, CA 94016"
18381,194093,AA Batteries (4-pack),1,3,04/14/19 15:09,"835 Lake St, Portland, OR 97035"


In [23]:
# Trasformo los valores en un formato de fecha y hora
df_ventas['Order Date'] = pd.to_datetime(df_ventas['Order Date']) #Si no aplicamos esto, cuando queremos extraer la hora nos tira error

In [24]:
# Una forma seria
df_ventas['Hour'] = df_ventas['Order Date'].dt.hour # Extrae la hora de ese formato datetime (04/19/19 08:46)

In [25]:
# Realizamos una funcion
def extraer_horario(datos):
  datos['Hora'] = datos['Order Date'].dt.hour
  return datos

In [26]:
df_ventas = extraer_horario(df_ventas) #Aplicamos la funcion

df_ventas

Unnamed: 0,Order ID,Product,Quantity Ordered,Price Each,Order Date,Purchase Address,Hour,Hora
0,176558,USB-C Charging Cable,2,11,2019-04-19 08:46:00,"917 1st St, Dallas, TX 75001",8,8
2,176559,Bose SoundSport Headphones,1,99,2019-04-07 22:30:00,"682 Chestnut St, Boston, MA 02215",22,22
3,176560,Google Phone,1,600,2019-04-12 14:38:00,"669 Spruce St, Los Angeles, CA 90001",14,14
4,176560,Wired Headphones,1,11,2019-04-12 14:38:00,"669 Spruce St, Los Angeles, CA 90001",14,14
5,176561,Wired Headphones,1,11,2019-04-30 09:27:00,"333 8th St, Los Angeles, CA 90001",9,9
...,...,...,...,...,...,...,...,...
18378,194090,Google Phone,1,600,2019-04-08 17:11:00,"177 Jackson St, Los Angeles, CA 90001",17,17
18379,194091,AA Batteries (4-pack),1,3,2019-04-15 16:02:00,"311 Forest St, Austin, TX 73301",16,16
18380,194092,AAA Batteries (4-pack),2,2,2019-04-28 14:36:00,"347 Sunset St, San Francisco, CA 94016",14,14
18381,194093,AA Batteries (4-pack),1,3,2019-04-14 15:09:00,"835 Lake St, Portland, OR 97035",15,15


In [27]:
# Preparo eje x que va de 0 a 23

horas =  list(range(24))


In [28]:
import plotly.graph_objects as go

Horas = list(range(24))
Ventas_por_hora = df_ventas.groupby('Hora')['Quantity Ordered'].count()

# Creo el objeto figura
fig = go.Figure()


# Agrego al objeto figura un grafico de de linea con las horas y las ventas por hora
fig.add_trace(go.Scatter(

    x=Horas,
    y=Ventas_por_hora,
    mode='lines',
    name="Ventas por hora",
    line=dict(color="red", shape='spline', smoothing=1.3, width=3)))


# Configuro los ejes y los títulos
fig.update_layout(

    title="Unidades vendidas por hora",
    xaxis=dict(title="Hora", tickvals=Horas),  # Para que en el eje x se muestren todos los valores uso tickvals=Horas
    yaxis=dict(title="Unidades vendidas", side="left"))

fig.show()



**RESPUESTA:** Para maximizar la probabilidad de que el cliente compre el producto, se recomienda mostrar la publicidad en dos momentos clave: alrededor del mediodía, aproximadamente a las 12:00 hs, y durante la tarde a las 19:00 hs. Estos momentos han demostrado tener un mayor impacto en las decisiones de compra, lo que sugiere una mayor receptividad por parte de los clientes en esos intervalos horarios.

In [31]:
def extraer_datos(datos):

  datos['Hora'] = datos['Order Date'].dt.hour
  datos['Dia'] = datos['Order Date'].dt.day
  return datos


df_ventas = extraer_datos(df_ventas)

In [37]:

Compras_dia = df_ventas.groupby('Dia')['Quantity Ordered'].count().astype('int')
Dias = list(Compras_dia.index)

# Creo el objeto figura
fig = go.Figure()


# Agrego al objeto figura un grafico de de linea con las horas y las ventas por hora
fig.add_trace(go.Scatter(

    x=Dias,
    y=Compras_dia,
    mode='lines',
    name="Ventas por hora",
    line=dict(color="red", shape='spline', smoothing=1.3, width=3)))


# Configuro los ejes y los títulos
fig.update_layout(

    title="Unidades vendidas en el mes de abril",
    xaxis=dict(title="Dia", tickvals=Dias),  # Para que en el eje x se muestren todos los valores uso tickvals=Horas
    yaxis=dict(title="Unidades vendidas", side="left"))

fig.show()


In [42]:
Compras_dia = df_ventas.groupby('Dia')['Quantity Ordered'].count().astype('int')
Dias = list(Compras_dia.index)

# Creo el objeto figura
fig = go.Figure()


# Agrego al objeto figura un grafico de de linea con las horas y las ventas por hora
fig.add_trace(go.Scatter(

    x=Dias,
    y=Compras_dia,
    mode='lines',
    name="Ventas por hora",
    line=dict(color="red", shape='spline', smoothing=1.3, width=3)))


# Configuro los ejes y los títulos
fig.update_layout(

    title="Unidades vendidas en el mes de abril",
    xaxis=dict(title="Dia", tickvals=Dias),  # Para que en el eje x se muestren todos los valores uso tickvals=Horas
    yaxis=dict(title="Unidades vendidas", side="left"),
    yaxis_range=[0, max(Compras_dia) * 1.1]) #Para que arranque en cero
fig.show()
