# Análisis del Conjunto de Datos de Precios de Aguacate

**Conjunto de Datos de Precios de Aguacate**: El conjunto de datos "Precios de Aguacate", obtenido de Kaggle, es un conjunto de datos ampliamente utilizado para proyectos de análisis de datos y aprendizaje automático. Proporciona datos históricos sobre precios y ventas de aguacates en varias regiones de los Estados Unidos. Este conjunto de datos es valioso para entender las tendencias en los precios de los aguacates, los volúmenes de ventas y su relación con diferentes factores.

## Atributos Clave

- **Columnas**: El conjunto de datos incluye varias columnas de información. Algunas de las columnas clave típicamente encontradas en este conjunto de datos incluyen:
    - **Fecha** (`Date`): La fecha de observación.
    - **Precio Promedio** (`AveragePrice`): El precio promedio de los aguacates.
    - **Volumen Total** (`Total Volume`): El volumen total de aguacates vendidos.
    - **4046**: Volumen de aguacates Hass pequeños vendidos.
    - **4225**: Volumen de aguacates Hass grandes vendidos.
    - **4770**: Volumen de aguacates Hass extra grandes vendidos.
    - **Bolsas Totales** (`Total Bags`): Total de bolsas de aguacates vendidas.
    - **Bolsas Pequeñas** (`Small Bags`): Bolsas de aguacates pequeños vendidas.
    - **Bolsas Grandes** (`Large Bags`): Bolsas de aguacates grandes vendidas.
    - **Bolsas Extra Grandes** (`XLarge Bags`): Bolsas de aguacates extra grandes vendidas.
    - **Tipo** (`Type`): El tipo de aguacates, generalmente categorizados como convencionales u orgánicos.
    - **Región** (`Region`): La región o ciudad dentro de los Estados Unidos donde se registraron los datos.

- **Rango de Fechas**: El conjunto de datos abarca un rango de fechas, lo que permite el análisis de series de tiempo. Puedes examinar cómo cambian los precios y ventas de aguacates a lo largo de diferentes estaciones y años.

- **Regiones**: Se proporciona información para varias regiones o ciudades a través de los Estados Unidos, lo que permite el análisis de variaciones de precios y ventas en diferentes mercados.

- **Tipos**: El conjunto de datos distingue entre diferentes tipos de aguacates, como convencionales y orgánicos, lo que puede ser útil para comparar tendencias de precios entre estas categorías.

- **Volumen**: Están disponibles datos sobre el volumen total de aguacates vendidos. Esta métrica de volumen se utiliza a menudo para analizar la demanda del mercado.

- **Precio Promedio**: El conjunto de datos contiene el precio promedio de los aguacates, una métrica fundamental para entender las tendencias de precios.

## Casos de Uso

- Este conjunto de datos se utiliza comúnmente para aprender y practicar el análisis de datos, visualización de datos y modelado de regresión en proyectos de ciencia de datos y aprendizaje automático.

- Sirve como un recurso valioso para entender cómo trabajar con datos del mundo real, extraer conocimientos y tomar decisiones basadas en datos.

---

In [1]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import avocado_manager as av
av.init(); av.help(); av.info()
display(av.df("df_type"))
df_sorted = av.sort("df_date_price_volume", ["Date","region"], asc=[False, True])
display(df_sorted)

df_cp = av.df("df_cp")
df_cp_cleaned = df_cp
df_cp_cleaned['Suma Volums'] = df_cp_cleaned['Volume_Hass_S' ]+ df_cp_cleaned['Volume_Hass_L']+ df_cp_cleaned['Volume_Hass_XL' ]
df_cp_cleaned['%Variacio'] = (df_cp_cleaned['Total Volume'] - df_cp_cleaned['Suma Volums'])*100/df_cp_cleaned['Total Volume']
av.add(df_cp_cleaned,'df_cleaned')
display(av.df("df_cleaned"))

numbers = [1, 2, 3, 4, 5]
cuadrados = av.get_map_list(lambda x: x**2, numbers)
print(cuadrados) 

df_c = df_cp.rename(columns={"AveragePrice": "av_price", "Total Volume": "to_volume"})
df_c.info()

Ajuda:
    import avocado_manager as av
    av.Init()
    av.Init("avocado.csv")
    av.info()
    av.df("df")
    df_sorted = av.sort("df_date_price_volume", ["Date","region"], asc=[False, True])
    display(av.df("df_cp"))
    av.add(df,"df_name")
    
Lista de dataframes: ['df', 'df_cp', 'df_c', 'df_type', 'regions', 'years', 'dates', 'df_date_price_volume', 'df_cp_cleaned', 'df_city', 'df_region', 'df_city_region', 'df_greater', 'df_totalUS', 'region_largest']


Unnamed: 0,type,Total Volume
0,conventional,9126
1,organic,9123


Unnamed: 0,index,Date,region,AveragePrice,Total Volume,Season
8478,8478,2018-03-25,Albany,1.57,149396.50,1.Primavera
17601,17601,2018-03-25,Albany,1.71,2321.82,1.Primavera
8490,8490,2018-03-25,Atlanta,1.04,624645.42,1.Primavera
17613,17613,2018-03-25,Atlanta,1.56,18717.08,1.Primavera
8502,8502,2018-03-25,BaltimoreWashington,1.23,986038.75,1.Primavera
...,...,...,...,...,...,...
11829,11829,2015-01-04,TotalUS,1.46,612910.15,4.Invierno
2755,2755,2015-01-04,West,0.89,5794410.58,4.Invierno
11881,11881,2015-01-04,West,1.40,187548.30,4.Invierno
2807,2807,2015-01-04,WestTexNewMexico,0.75,758118.95,4.Invierno


Unnamed: 0,index,Date,AveragePrice,Total Volume,Volume_Hass_S,Volume_Hass_L,Volume_Hass_XL,Total Bags,Small Bags,Large Bags,XLarge Bags,type,year,region,region_class,Suma Volums,%Variacio
0,0,2015-12-27,1.33,64236.62,1036.74,54454.85,48.16,8696.87,8603.62,93.25,0.0,conventional,2015,Albany,City,55539.75,13.538804
1,1,2015-12-20,1.35,54876.98,674.28,44638.81,58.33,9505.56,9408.07,97.49,0.0,conventional,2015,Albany,City,45371.42,17.321580
2,2,2015-12-13,0.93,118220.22,794.70,109149.67,130.50,8145.35,8042.21,103.14,0.0,conventional,2015,Albany,City,110074.87,6.889980
3,3,2015-12-06,1.08,78992.15,1132.00,71976.41,72.58,5811.16,5677.40,133.76,0.0,conventional,2015,Albany,City,73180.99,7.356630
4,4,2015-11-29,1.28,51039.60,941.48,43838.39,75.78,6183.95,5986.26,197.69,0.0,conventional,2015,Albany,City,44855.65,12.115984
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
18244,18244,2018-02-04,1.63,17074.83,2046.96,1529.20,0.00,13498.67,13066.82,431.85,0.0,organic,2018,WestTexNewMexico,Region,3576.16,79.055955
18245,18245,2018-01-28,1.71,13888.04,1191.70,3431.50,0.00,9264.84,8940.04,324.80,0.0,organic,2018,WestTexNewMexico,Region,4623.20,66.710925
18246,18246,2018-01-21,1.87,13766.76,1191.92,2452.79,727.94,9394.11,9351.80,42.31,0.0,organic,2018,WestTexNewMexico,Region,4372.65,68.237625
18247,18247,2018-01-14,1.93,16205.22,1527.63,2981.04,727.01,10969.54,10919.54,50.00,0.0,organic,2018,WestTexNewMexico,Region,5235.68,67.691398


[1, 4, 9, 16, 25]
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18249 entries, 0 to 18248
Data columns (total 17 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   index           18249 non-null  int64         
 1   Date            18249 non-null  datetime64[ns]
 2   av_price        18249 non-null  float64       
 3   to_volume       18249 non-null  float64       
 4   Volume_Hass_S   18249 non-null  float64       
 5   Volume_Hass_L   18249 non-null  float64       
 6   Volume_Hass_XL  18249 non-null  float64       
 7   Total Bags      18249 non-null  float64       
 8   Small Bags      18249 non-null  float64       
 9   Large Bags      18249 non-null  float64       
 10  XLarge Bags     18249 non-null  float64       
 11  type            18249 non-null  object        
 12  year            18249 non-null  int64         
 13  region          18249 non-null  object        
 14  region_class    18249 non-null  obje

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import avocado_manager as av
av.init();av.info()
#display(pd.unique(av.df("df_cp")['region']))
#df = av.df("df_cp");df.info()
#display(av.df("df_type"))
display(av.df("df_city").groupby(["region"])["Total Volume"].sum().reset_index().sort_values("Total Volume"))
display(av.df("df_region").groupby(["region"])["Total Volume"].sum().reset_index().sort_values("Total Volume"))

display(av.df("df_city_region").groupby(["region"])["Total Volume"].sum().reset_index().sort_values("Total Volume"))

display(av.df("df_greater").groupby(["region"])["Total Volume"].sum().reset_index().sort_values("Total Volume"))
#df_sort = av.sort("df_cp_greater","region"); display(df_sort)
#display(av.df("df_cp_totalUS")) #.unique("region"))
df_largest = av.df("region_largest")
display(df_largest)

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import avocado_manager as av
av.init()

# Utiliza info() para revisar la estructura y los tipos de datos del conjunto.
df = av.df("df")
df.info()

# Realiza un análisis exploratorio para entender la estructura del conjunto, incluyendo 
# el número de filas y columnas, tipos de datos y valores faltantes. 
# Imprime la cantidad de valores faltantes por columna utilizando isnull().

#Forma del DataFrame (filas, columnas)
data_shape = df.shape
print(f"Forma del DataFrame: {data_shape}")

column_names = df.columns
print(f"Nombres de Columnas: {column_names}")

# Tipos de datos de cada columna
data_types = df.dtypes
print(f"Tipos de Datos:\n{data_types}")

#df.isnull
#missing_values = pd.isnull(df)
print(f"Cantidad de nulls: {df.isnull().sum()}")

# series de tiempo
df['Date'] = pd.to_datetime(df['Date'])
ventas_mensual = df.groupby(df['Date'].dt.to_period("M"))['Total Volume'].sum()
display(ventas_mensual)

# Resumen Estadístico
data_summary = df.describe()
print("\nResumen Estadístico:")
print(data_summary)

df.head(5)
#df.tail(10)

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import avocado_manager as av
av.init()
df = av.df("df_cp")
#df["Date"]
#df.groupby(by=["region"]).count().count()
#df["Date"]
#df.index = df['Date']
#df.index = pd.to_datetime(df['Date']) #,format='%y-%m-%y')
#df.groupby(by=[df.index.year, df.index.month, df.index.day]).count()
plt.figure(figsize=(12, 4))
plt.scatter(df['AveragePrice'], df['Total Volume'], alpha=0.5)
plt.xlabel('Averag ePrice')
plt.ylabel('Total Volume)')
plt.title('Relación entre Precio medio y volumen total')
plt.show()

df.groupby(by=['region']).count()

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import avocado_manager as av
av.init();av.info()
# Claramente hay sitios donde los aguacates son más baratos, miremos si tiene que ver con otras características
classification_colors = {'City':'green' ,'Region':'red' ,'GreaterRegion':'orange', 'TotalUS': 'blue'}

df_subset = av.df("df_city_region") # df_cp[df_cp['region']!= 'TotalUS']
df_organic = df_subset[df_subset['type']=='organic']
df_convencionals = df_subset[df_subset['type']=='conventional']

fig, ax= plt.subplots(figsize=(10,3))
x_values = df_convencionals['Total Volume']
y_values = df_convencionals['AveragePrice']
c_values= list(df_convencionals['region_class'].map(classification_colors))
plt.scatter(x= x_values, y= y_values, c=c_values, alpha = .5)
plt.xscale('log')
plt.ylabel('Average price')
plt.xlabel('Market size convencionals')
plt.grid()

fig, ax= plt.subplots(figsize=(10,3))
x_values = df_organic['Total Volume']
y_values = df_organic['AveragePrice']
c_values= list(df_organic['region_class'].map(classification_colors))
plt.scatter(x= x_values, y= y_values, c=c_values, alpha = .5)
plt.xscale('log')
plt.ylabel('Average price')
plt.xlabel('Market size organic')
plt.grid()

In [None]:
# 8. Recomendaciones: Basado en tus hallazgos, proporciona recomendaciones prácticas a la cadena de tiendas de comestibles. 
# Esto puede incluir estrategias de precios, enfoques de marketing y análisis de tendencias estacionales.

# Muestreo de una fracción aleatoria (20%) de filas del DataFrame
df.sample(frac=0.2)

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import avocado_manager as av
av.init()
df_cp = av.df("df_cp")

df_count = df_cp.groupby(['Date', 'region']).size().reset_index(name='Total')
df_pivot = df_count.pivot(index='Date', columns='region', values='Total').fillna(0)
diferencias = df_pivot.apply(lambda x: x.nunique() > 1, axis=0)

regiones_con_diferencias = diferencias[diferencias].index.tolist()
df_pivot[regiones_con_diferencias].plot(kind='line', marker='o',figsize=(20, 6))
plt.title('Número de Registros por Región a lo Largo del Tiempo')
plt.xlabel('Fecha')
plt.ylabel('Total de Registros')
plt.xticks(rotation=45)
plt.grid()
plt.legend(title='Regiones:')
plt.tight_layout()
plt.show()

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import avocado_manager as av
av.init()
df_cp = av.df("df_cp")

#lstRegions = df_cp['region'].unique()
lstRegions = ['WestTexNewMexico','California','LosAngeles', 'Denver']
df_media = df_cp.groupby([pd.Grouper(key='Date', freq='Q'), 'region'])['AveragePrice'].mean().reset_index()

plt.figure( figsize=(12, 3))
for region in lstRegions:
    datos_region = df_media[df_media['region'] == region]    
    plt.plot(datos_region['Date'], datos_region['AveragePrice'], marker='o', label=region)
plt.title('Media del AveragePrice por Trimestres y Región')
trimestres = [f"{d.year}-T{(d.quarter)}" for d in df_media['Date'].unique()]
plt.xticks(df_media['Date'].unique(), trimestres, rotation=0)
plt.legend(loc='best', title='Regiones')
plt.grid(True) #plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

for region in lstRegions:     
    df_media_plt = df_media[df_media['region'] == region]
    df_media_plt.plot(x='Date', y='AveragePrice', marker='o', label=region, figsize=(10, 3)) # title=f"Precio Medio {region}"
    #plt.plot(df_media_plt['Date'], df_media_plt['AveragePrice'],  marker='o', label=region)
    plt.legend(loc='best');
    plt.xlabel('Trimestres')
    plt.grid(True); # plt.xticks(rotation=45)
    plt.tight_layout()
    plt.show()


### Notas

#### Nota:
`seasonal_decompose` es una función de la biblioteca `statsmodels` que se utiliza para descomponer una serie temporal en sus componentes principales: tendencia, estacionalidad y residuos. En esencia, busca separar las diferentes componentes que influyen en los datos a lo largo del tiempo.

**Componentes de la descomposición:**

* **Tendencia (Trend):** Representa la variación a largo plazo de la serie.  Piensa en la dirección general que siguen los datos a través del tiempo. Puede ser ascendente, descendente o constante.
* **Estacionalidad (Seasonality):**  Se refiere a patrones que se repiten a intervalos regulares de tiempo. Por ejemplo, las ventas de helados tienden a aumentar en verano y disminuir en invierno, mostrando un patrón estacional anual.  El período de estacionalidad es la duración de este ciclo repetitivo (e.g., semanal, mensual, anual).
* **Residuos (Residuals):**  Representan la parte aleatoria o irregular de la serie, lo que no puede explicarse por la tendencia ni la estacionalidad.  Estos son los datos restantes después de eliminar la tendencia y la estacionalidad.  Un buen modelo de descomposición debería tener residuos que parezcan ruido blanco (sin patrones claros).

**Cómo funciona `seasonal_decompose`:**

La función toma una serie temporal como entrada y utiliza un modelo para separar los datos en sus componentes.  El modelo puede ser `'additive'` o `'multiplicative'`.

* **Modelo aditivo:**  Asume que los componentes se suman para formar la serie:  `Serie = Tendencia + Estacionalidad + Residuos`.  Este modelo es adecuado cuando la amplitud de la estacionalidad se mantiene relativamente constante a lo largo del tiempo.

* **Modelo multiplicativo:**  Asume que los componentes se multiplican: `Serie = Tendencia * Estacionalidad * Residuos`. Este modelo es apropiado cuando la amplitud de la estacionalidad aumenta o disminuye con la tendencia.

El parámetro `period` especifica la duración del ciclo estacional. Por ejemplo, si tus datos tienen un patrón semanal, el período sería 7.  Si es mensual, sería 12 para un patrón anual.  La elección correcta del período es crucial para la precisión de la descomposición.

#### Nota:

"Utiliza la función `seasonal_decompose` de la librería `statsmodels` para descomponer la serie temporal de precios en componentes de tendencia, estacionalidad y ruido."


Se refiere a la visualización gráfica de los diferentes componentes de una serie de tiempo después de aplicar una descomposición para separar la serie temporal original (`df_grouped`) en las componentes:

a. **Tendencia (Trend):**  Muestra la dirección general a largo plazo de la serie.  Es la parte de la serie que cambia gradualmente a lo largo del tiempo.

b. **Estacionalidad (Seasonality):**  Representa patrones repetitivos que ocurren a intervalos regulares (semanales, mensuales, anuales, etc.). Por ejemplo, las ventas de helados tienden a ser más altas en verano.  En tu código, `period=7` sugiere una estacionalidad semanal.

c. **Residuos (Residuals):**  Es la parte de la serie que no se explica por la tendencia ni la estacionalidad.  Idealmente, los residuos deberían parecerse a ruido aleatorio.  Si hay patrones claros en los residuos, significa que el modelo de descomposición no ha capturado todos los aspectos importantes de la serie.


#### Nota:

The reason you need reset_index is because groupby creates a multi-index.

Seaborn's barplot (and other plotting functions) don't directly work with multi-indices.

Resetting the index makes 'Season' and 'region' regular columns, which are compatible.

#### Nota:
...

#### Nota:
...