In [None]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns
import plotly.express as px
from statsmodels.tsa.seasonal import seasonal_decompose
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score, mean_squared_error
import random
from Models.Charts import Charts
from Models.Enunciados import Enunciados

In [None]:
file = 'datos/avocado.csv'
chart = Charts(file)
# FILTRAMOS POR LAS 10 REGIONES CON MAS VOLUMEN DE VENTAS
chart.topRegions(num=10,exclude='TotalUS')
#Hacemos una limpieza la columna Unnamed
chart.clearData('Unnamed: 0')
# Comprobamos si hay valores nulos
chart.isNull()
chart.showData()
enun = Enunciados()
chart.df

In [None]:
enun.getEnunciado("1.1")
promedio_por_fecha = chart.df.groupby('Date')['AveragePrice'].mean()
descomposicion = chart.seasonal_decompose(promedio_por_fecha, model='additive',period=54)
descomposicion.plot()

In [None]:
enun.getEnunciado("1.2")
chart.df['year'] = chart.df['Date'].dt.year
promedio_anual = chart.df.groupby(['region', 'year'])['AveragePrice'].mean().reset_index()
chart.figureConfig(12,6,title='Precio promedio por estación y región',xlabel="Estación",ylabel="Precio promedio")
# Itera sobre cada región para graficar su línea
for region in promedio_anual['region'].unique():
    region_data = promedio_anual[promedio_anual['region'] == region]
    plt.plot(region_data['year'], region_data['AveragePrice'], label=region,marker="o")
    
# Configura el título y etiquetas
plt.legend(title='Región', bbox_to_anchor=(1.05, 1), loc='upper left')
# Muestra la gráfica
plt.show()
enun.getExplicacion("1.2")

In [None]:
enun.getEnunciado("1.3")
promedio_mensual = chart.df.groupby(pd.Grouper(key='Date', freq='ME'))['AveragePrice'].mean().reset_index()
chart.figureConfig(title='Precio Promedio Mensual de Aguacates',xlabel="Mes",ylabel="Precio Promedio de Aguacates")

# Graficar el promedio mensual de AveragePrice
plt.plot(promedio_mensual['Date'], promedio_mensual['AveragePrice'], marker='.', label='Precio Promedio Mensual')


plt.show()

# Ahora agrupar por 'region' y por mes para calcular el promedio
promedio_mensual_region = chart.df.groupby(['region', pd.Grouper(key='Date', freq='ME')])['AveragePrice'].mean().reset_index()

# Tamaño de la figura para el gráfico por región
chart.figureConfig(title='Precio Promedio Mensual de Aguacates por Región',xlabel="mes",ylabel='Precio Promedio de Aguacates')

promedio_mensual_region['region'] = promedio_mensual_region['region'].fillna(0).sample(frac=0.1)
# Graficar el promedio mensual de AveragePrice por región
for region in promedio_mensual_region['region'].unique():
    region_data = promedio_mensual_region[promedio_mensual_region['region'] == region]
    plt.plot(region_data['Date'], region_data['AveragePrice'], marker='o', label=region)

# Mostrar el gráfico
plt.show()
enun.getExplicacion("1.3")

In [None]:
enun.getEnunciado("1.4")
chart.figureConfig(title="Tendencia de Ventas a lo Largo del Tiempo",xlabel="Fecha",ylabel="Volumen Total de Ventas")
# Agrupar por fecha y sumar el volumen total
df_grouped = chart.df.groupby('Date').agg({
    'Total Volume':'sum'
})

plt.plot(df_grouped.index, df_grouped.values, marker='', color='blue', label='Volumen Total')
plt.show()

In [None]:
enun.getEnunciado("1.5")
promedio_year =  chart.df.groupby('year')['AveragePrice'].mean().reset_index()
chart.figureConfig(title="Cambios en el Precio Promedio de Aguacates por Año",xlabel="Año",ylabel="Precio Promedio")
# Crear el gráfico de barras
plt.bar(promedio_year['year'], promedio_year['AveragePrice'], width=0.5)
plt.xticks(promedio_year['year'])  # Asegura que se muestren todos los años
plt.tight_layout()
plt.show()

In [None]:
enun.getEnunciado("2.1")
chart.figureConfig(title="Distribución de Ventas por Región (Top 5 Regiones)",xlabel="Región",ylabel="Volumen Total de Ventas")
sns.violinplot(x='region', y='Total Volume', data=chart.df, hue='region', palette="muted", dodge=False, legend=False)
plt.show()
enun.getExplicacion("2.1")

In [None]:
enun.getEnunciado("2.2")
chart.figureConfig(title='Comparación de Precios Promedio entre Años',ylabel='Precio Promedio',xlabel='Año')
sns.boxplot(x='year', y='AveragePrice', data=chart.df, palette="Set3", hue='year', legend=False)
plt.show()

In [None]:
enun.getEnunciado("2.3")
chart.figureConfig(title='Histograma del Volumen Total de Ventas',xlabel="Volumen total de ventas",ylabel="Frecuencia")
plt.hist(chart.df['Total Volume'], bins=30, color='#4fb9ea', alpha=0.7)
plt.grid(axis='y', alpha=0.75)
plt.show()

In [None]:
enun.getEnunciado("2.4")
total_bags = chart.df['Total Bags'].sum()
small_bags = chart.df['Small Bags'].sum()
large_bags = chart.df['Large Bags'].sum()
xlarge_bags = chart.df['XLarge Bags'].sum()
total_volume = chart.df['Total Volume']
# Crear una lista de tipos de bolsas y sus correspondientes ventas
labels = ['Total Bags', 'Small Bags', 'Large Bags', 'XLarge Bags']
sales = [total_bags, small_bags, large_bags, xlarge_bags]

# Crear el gráfico de barras
chart.figureConfig(title='Comparación de Ventas por Tipo de Bolsa',ylabel='Volumen Total de Ventas')

plt.bar(labels,sales)
# Añadir etiquetas y título
plt.ylim(0, max(sales) * 1.1)  # Ajustar el límite del eje y
plt.grid(axis='y', alpha=0.75)
plt.show()
enun.getExplicacion("2.4")

In [None]:
enun.getEnunciado("2.5")
# Extraer el año de la columna de fecha
chart.df['year'] = chart.df['Date'].dt.year
# Agrupar por año y calcular el promedio de AveragePrice
precios_promedio_anual = chart.df.groupby('year')['AveragePrice'].mean().reset_index()
# Crear el gráfico de líneas
chart.figureConfig(title="Tendencia de Precios Promedios por Año",xlabel="Año",ylabel="Precio Promedio")
plt.plot(precios_promedio_anual['year'], precios_promedio_anual['AveragePrice'], marker='o', linestyle='-', color='b')
plt.xticks(precios_promedio_anual['year'])  # Para mostrar todos los años en el eje x
plt.show()
enun.getExplicacion("2.5")

In [None]:
enun.getEnunciado("3.1")

# Añadir columna 'year'
chart.df['year'] = chart.df['Date'].dt.year

# Agrupar por año y calcular la suma de Total Volume y el promedio de AveragePrice
yearly_data = chart.df.groupby('year').agg(
    {
        'Total Volume': 'sum', 
        'AveragePrice': 'mean'
    }
).reset_index()

# Calcular la variación porcentual
yearly_data['Volume_pct_change'] = yearly_data['Total Volume'].pct_change()
yearly_data['Price_pct_change'] = yearly_data['AveragePrice'].pct_change()

print(yearly_data)
# Calcular la elasticidad
yearly_data['Elasticity'] = (yearly_data['Volume_pct_change'] / yearly_data['Price_pct_change']).fillna(0)
print(yearly_data['Elasticity'])

# Visualizar resultados
chart.figureConfig(title='Elasticidad Precio-Demanda por Año',xlabel='Año',ylabel='Elasticidad')
plt.plot(yearly_data['year'], yearly_data['Elasticity'], marker='o')
plt.axhline(0, color='red', linestyle='--', label='Elasticidad = 0')  # Línea de referencia
plt.legend()
plt.show()
enun.getExplicacion("3.1")

In [None]:
enun.getEnunciado("3.2")
chart.df['Date'] = pd.to_datetime(chart.df['Date'])
chart.df['year'] = chart.df['Date'].dt.year

# Agrupamos por 'region' y 'year' y calculamos el volumen total y precio promedio anual
df_grouped = chart.df.groupby(['region', 'year']).agg(
    {
        'Total Volume': 'sum', 
        'AveragePrice': 'mean'
    }
).reset_index()

# Calculamos el cambio porcentual por región para 'Total Volume' y 'AveragePrice'
df_grouped['pct_change_volume'] = df_grouped.groupby('region')['Total Volume'].pct_change()
df_grouped['pct_change_price'] = df_grouped.groupby('region')['AveragePrice'].pct_change()


# Calculamos la elasticidad para cada región y año
df_grouped['elasticity'] = df_grouped['pct_change_volume'] / df_grouped['pct_change_price']

# Filtramos los valores NaN que pueden haber resultado del cálculo de pct_change en los primeros valores
df_elasticity = df_grouped.dropna(subset=['elasticity'])

chart.figureConfig(title="Comparación de Elasticidad en Diferentes Mercados",xlabel="Year",ylabel="Elasticidad")
for region in df_elasticity['region'].unique():
    region_data = df_elasticity[df_elasticity['region'] == region]
    plt.plot(region_data['year'],region_data['elasticity'],label=region_data['region'])


plt.show()



In [None]:
# Continuacion 3.2
# Presenta un gráfico de barras que muestre la elasticidad por región usando plt.bar().

chart.df['Date'] = pd.to_datetime(chart.df['Date'])
chart.df['year'] = chart.df['Date'].dt.year

# Agrupo por año y región, y calcula el promedio de 'AveragePrice' y la suma de 'Total Volume'
el_price_vs_demanda = chart.df.groupby(['year', 'region']).agg({
    'Total Volume': 'sum',
    'AveragePrice': 'mean'
}).reset_index()

# Calcula el cambio porcentual de volumen y precio para cada región
# pct_change() es Cambio porcentual

el_price_vs_demanda['pct_change_volume'] = el_price_vs_demanda.groupby('region')['Total Volume'].pct_change().fillna(0)
el_price_vs_demanda['pct_change_price'] = el_price_vs_demanda.groupby('region')['AveragePrice'].pct_change().fillna(0)

# Calcula la elasticidad como el cociente entre el cambio porcentual de volumen y de precio
el_price_vs_demanda['elasticidad'] = el_price_vs_demanda['pct_change_volume'] / el_price_vs_demanda['pct_change_price']

# Filtra regiones sin valores NaN en elasticidad
elasticidad_por_region = el_price_vs_demanda.dropna(subset=['elasticidad'])

# Agrupa por región para obtener la elasticidad promedio de cada región
elasticidad_media_por_region = elasticidad_por_region.groupby('region')['elasticidad'].mean().reset_index()

# Graficar elasticidad promedio por región
chart.figureConfig(11, 7,title="Elasticidad Precio-Demanda por Región",xlabel="Región",ylabel="Elasticidad Precio-Demanda Promedio")
plt.bar(elasticidad_media_por_region['region'], elasticidad_media_por_region['elasticidad'], color='skyblue')
plt.xticks(rotation=90)
plt.show()
enun.getExplicacion("3.2")

In [None]:
enun.getEnunciado("3.3")
chart.df['year'] = chart.df['Date'].dt.year
# Agrupar por año y sumar volúmenes para cada tipo de bolsa y calcular el precio promedio
df_grouped = chart.df.groupby('year').agg(
    {
        'AveragePrice': 'mean',
        'Small Bags': 'sum',
        'Large Bags': 'sum',
        'XLarge Bags': 'sum'
    }
).reset_index()

# Calcular el cambio porcentual anual para cada tipo de bolsa y el precio promedio
df_grouped['pct_change_price'] = df_grouped['AveragePrice'].pct_change()
df_grouped['pct_change_small'] = df_grouped['Small Bags'].pct_change()
df_grouped['pct_change_large'] = df_grouped['Large Bags'].pct_change()
df_grouped['pct_change_xlarge'] = df_grouped['XLarge Bags'].pct_change()

# Calcular la elasticidad para cada tipo de bolsa
df_grouped['elasticity_small'] = df_grouped['pct_change_small'] / df_grouped['pct_change_price']
df_grouped['elasticity_large'] = df_grouped['pct_change_large'] / df_grouped['pct_change_price']
df_grouped['elasticity_xlarge'] = df_grouped['pct_change_xlarge'] / df_grouped['pct_change_price']

# Filtrar valores NaN resultantes de pct_change()
df_elasticity = df_grouped.dropna(subset=['elasticity_small', 'elasticity_large', 'elasticity_xlarge'])

# Visualizar los resultados en un gráfico de barras
chart.figureConfig(title="Elasticidad Precio-Demanda por Tipo de Bolsa",xlabel="Año",ylabel="Elasticidad Precio-Demanda")
plt.bar(df_elasticity['year'] - 0.2, df_elasticity['elasticity_small'], width=0.2, label='Small Bags')
plt.bar(df_elasticity['year'], df_elasticity['elasticity_large'], width=0.2, label='Large Bags')
plt.bar(df_elasticity['year'] + 0.2, df_elasticity['elasticity_xlarge'], width=0.2, label='XLarge Bags')

# Configuración del gráfico
plt.grid(axis='y', linestyle='--', alpha=0.7)
plt.show()
enun.getExplicacion("3.3")

In [None]:
enun.getEnunciado("3.3")
gp_avocado_type =  chart.df.groupby(['type']).agg({
    'AveragePrice':'mean',
    'Total Volume' : 'sum'
}).reset_index()


gp_avocado_type['pct_av_change_price'] =   gp_avocado_type['AveragePrice'].pct_change().fillna(0)
gp_avocado_type['pct_av_change_volume'] =   gp_avocado_type['Total Volume'].pct_change().fillna(0)


print(gp_avocado_type)
gp_avocado_type['elasticity'] = (gp_avocado_type['pct_av_change_price']  / gp_avocado_type['pct_av_change_volume']).fillna(0)
gp_avocado_type.dropna(subset=['AveragePrice','Total Volume'])


# Separar los datos para facilitar la visualización
elasticity_organic = gp_avocado_type[gp_avocado_type['type'] == 'organic']
elasticity_conventional = gp_avocado_type[gp_avocado_type['type'] == 'conventional']

chart.figureConfig(title="Elasticidad Precio-Demanda por Tipo de Bolsa",xlabel="Año",ylabel="Elasticidad Precio-Demanda")
plt.bar(elasticity_organic['type'], elasticity_organic['elasticity'], color='orange',label="Organico")
plt.bar(elasticity_conventional['type'], elasticity_conventional['elasticity'], color='orange',label="Conventional")
plt.show()
enun.getExplicacion("3.3")

In [None]:
enun.getEnunciado("3.5")

# Calcular la variación porcentual de AveragePrice y Total Volume
chart.df['pct_change_price'] = chart.df['AveragePrice'].pct_change().fillna(0)
chart.df['pct_change_volume'] = chart.df['Total Volume'].pct_change().fillna(0)

# Calcular la elasticidad precios-ventas
chart.df['elasticity'] = chart.df['pct_change_volume'] / chart.df['pct_change_price']

# Crear el gráfico de dispersión entre AveragePrice y Total Volume
chart.figureConfig(title="Relación entre Precio Promedio y Volumen Total de Ventas",
                   xlabel="Precio Promedio (AveragePrice)",ylabel="Volumen Total de Ventas (Total Volume)")

plt.scatter(chart.df['AveragePrice'], chart.df['Total Volume'], alpha=0.5, label='Datos')

# Ajustar una línea de tendencia para observar la relación
z = np.polyfit(chart.df['AveragePrice'], chart.df['Total Volume'], 1)
p = np.poly1d(z)
plt.plot(chart.df['AveragePrice'], p(chart.df['AveragePrice']), "r--", label='Tendencia')

# Configuración del gráfico
plt.show()
enun.getExplicacion("3.5")

In [None]:
enun.getEnunciado("4.1")

# Agrupar los datos por trimestre y calcular el promedio de AveragePrice y la suma de Total Volume
cohortes_trimestrales = chart.df.groupby(pd.Grouper(key='Date', freq='Q')).agg(
    AveragePrice=('AveragePrice', 'mean'),
    TotalVolume=('Total Volume', 'sum')
).reset_index()


chart.figureConfig(title="Cohortes Trimestrales: Evolución de Precio Promedio y Volumen Total",
                   xlabel="Fecha",ylabel="Valores")

# Línea para precios promedio trimestrales
plt.plot(cohortes_trimestrales['Date'], cohortes_trimestrales['AveragePrice'], color='red', marker='o', label='Precio Promedio Trimestral')
# Línea para volumen total trimestral
plt.plot(cohortes_trimestrales['Date'], cohortes_trimestrales['TotalVolume'], color='blue', marker='s', label='Volumen Total Trimestral')
# Configuración del gráfico
plt.show()

In [None]:
enun.getEnunciado("4.2")
# Agrupar los datos por región y fecha (trimestres) y calcular el promedio de precios y la suma de volumen
cohortes_region_fecha = chart.df.groupby([pd.Grouper(key='Date', freq='Q'), 'region']).agg(
    AveragePrice=('AveragePrice', 'mean'),
    TotalVolume=('Total Volume', 'sum')
).reset_index()

# Configurar el tamaño del gráfico
chart.figureConfig(title="Cohortes por Región y Fecha: Evolución de Precio Promedio y Volumen Total",
                   xlabel="Fecha",ylabel="Valores")
# Generar un gráfico de barras para cada región
for region in cohortes_region_fecha['region'].unique():
    data_region = cohortes_region_fecha[cohortes_region_fecha['region'] == region]
    
    # Crear subgráficos para cada región
    plt.bar(data_region['Date'], data_region['TotalVolume'], label=f'Volumen Total - {region}', alpha=0.7)
    plt.plot(data_region['Date'], data_region['AveragePrice'], marker='o', label=f'Precio Promedio - {region}')

plt.legend(loc='upper left', bbox_to_anchor=(1, 1), ncol=2)  # Leyenda fuera del gráfico para claridad
plt.show()
enun.getExplicacion("4.2")

In [None]:
enun.getEnunciado("4.3")

bolsas_por_fecha = chart.df.groupby([pd.Grouper(key='Date', freq='ME')]).agg(
    TotalBags=('Total Bags', 'sum'),
    SmallBags=('Small Bags', 'sum'),
    LargeBags=('Large Bags', 'sum'),
    XLargeBags=('XLarge Bags', 'sum')
).reset_index()

# Crear el gráfico de líneas
# Configurar el tamaño del gráfico
chart.figureConfig(title="Evolución de Ventas por Tipo de Bolsa",
                   xlabel="Fecha",ylabel="Volumen Total de Ventas")

plt.plot(bolsas_por_fecha['Date'], bolsas_por_fecha['SmallBags'], label='Small Bags', marker='o', color='blue')
plt.plot(bolsas_por_fecha['Date'], bolsas_por_fecha['LargeBags'], label='Large Bags', marker='o', color='green')
plt.plot(bolsas_por_fecha['Date'], bolsas_por_fecha['XLargeBags'], label='XLarge Bags', marker='o', color='orange')

# Configuración del gráfico
plt.legend(title='Tipo de Bolsa')
plt.show()
enun.getExplicacion("4.3")

In [None]:
enun.getEnunciado("4.4")
# Agrupar por region y Date, calculando el total de ventas
ventas_por_region_fecha = chart.df.groupby([pd.Grouper(key='Date', freq='ME'), 'region']).agg(
    TotalVolume=('Total Volume', 'sum')
).reset_index()

# Clasificar las regiones en cohortes según el volumen de ventas promedio total
# Calculamos el volumen promedio para cada región
volumen_promedio_por_region = ventas_por_region_fecha.groupby('region')['TotalVolume'].mean()

# Definimos las cohortes: Baja, Media, Alta en función del cuartil
cuartiles = pd.qcut(volumen_promedio_por_region, 3, labels=['Baja', 'Media', 'Alta'])

# Agregar la cohorte a cada región en el DataFrame original
ventas_por_region_fecha['Cohorte'] = ventas_por_region_fecha['region'].map(cuartiles)

# Crear el gráfico de líneas para cada cohorte
chart.figureConfig(title="Cohortes de Clientes Basadas en Ventas por Región",
                   xlabel="Fecha",ylabel="Volumen Total de Ventas")

for cohorte in ventas_por_region_fecha['Cohorte'].unique():
    subset = ventas_por_region_fecha[ventas_por_region_fecha['Cohorte'] == cohorte]
    subset_grouped = subset.groupby('Date')['TotalVolume'].sum()
    
    plt.plot(subset_grouped.index, subset_grouped, label=f'Cohorte {cohorte}')

plt.legend(title='Cohorte de Clientes')
plt.show()

In [None]:
enun.getEnunciado("4.5")
chart.df['Month'] = chart.df['Date'].dt.to_period('M')
ventas_mensuales = chart.df.groupby('Month')['Total Volume'].sum().reset_index()

# Crear una columna para identificar la cohorte de cada mes como mes inicial de la cohorte
ventas_mensuales['Cohorte'] = ventas_mensuales['Month']

# Convertir de periodo a fecha para simplificar manipulación posterior
ventas_mensuales['Month'] = ventas_mensuales['Month'].dt.to_timestamp()

# Crear una tabla pivote para mostrar la retención por cohorte
retencion_cohorte = pd.DataFrame()

for i, mes in enumerate(ventas_mensuales['Cohorte']):
    # Calcular el volumen inicial de la cohorte y el volumen en meses subsiguientes
    ventas_inicial = ventas_mensuales.loc[ventas_mensuales['Cohorte'] == mes, 'Total Volume'].values[0]
    ventas_sucesivas = ventas_mensuales['Total Volume'].iloc[i:].reset_index(drop=True) / ventas_inicial
    retencion_cohorte[mes] = ventas_sucesivas


chart.figureConfig(title="Retención de Ventas por Cohorte",
                   xlabel="Meses desde el Inicio de la Cohorte",ylabel="Tasa de Retención de Ventas")


for cohorte in retencion_cohorte.columns:
    plt.plot(retencion_cohorte[cohorte].values, label=f'Cohorte {cohorte.strftime("%Y-%m")}')
    
plt.legend(title="Cohorte Inicial")
plt.show()

In [None]:
enun.getEnunciado("5.1")
cols = chart.df[['AveragePrice', 'Total Volume', '4046', '4225', '4770', 'Total Bags']].reset_index()

# Calcular la matriz de correlación
correlation_matrix = cols.corr()

# Crear el heatmap
chart.figureConfig(title="Matriz de Correlación entre Variables Numéricas")
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt=".2f", linewidths=0.5)
plt.grid(False)
plt.show()

In [None]:
enun.getEnunciado("5.2")
chart.figureConfig(title="Relación entre Average Price y Total Volume con Regresión Lineal",xlabel="Average Price",ylabel="Total Volume")
sns.scatterplot(x='AveragePrice', y='Total Volume', data=chart.df, color="blue", label="Datos")
sns.regplot(x='AveragePrice', y='Total Volume', data=chart.df, scatter=False, color="red", label="Regresión Lineal")
plt.show()

In [None]:

# Obtener los coeficientes de un ajuste polinómico de grado 2
coef = np.polyfit(chart.df['AveragePrice'], chart.df['Total Volume'], 2)
poly_eq = np.poly1d(coef)


sns.scatterplot(x='AveragePrice', y='Total Volume', data=chart.df, color="blue", label="Datos")
# Línea de regresión lineal
sns.regplot(x='AveragePrice', y='Total Volume', data=chart.df, scatter=False, color="red", label="Regresión Lineal")

# Línea de regresión polinómica
x_range = np.linspace(chart.df['AveragePrice'].min(), chart.df['AveragePrice'].max(), 100)
plt.plot(x_range, poly_eq(x_range), color="green", label="Regresión Polinómica (Grado 2)")


plt.show()

In [None]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score, mean_squared_error
enun.getEnunciado("5.3")

In [None]:
enun.getEnunciado("5.4")
group_trimestre = chart.df.groupby(pd.Grouper(freq="Q",key="Date")).reset_index()
group_trimestre[[1,2,3]]