## Desafío Empresarial: Análisis de Ventas de Aguacates

En este ejercicio, abordarás un escenario empresarial real relacionado con las ventas de aguacates. Debido al notable aumento en el consumo de aguacates en los últimos años, una cadena de tiendas de comestibles regionales te ha contratado para extraer valiosas percepciones de sus datos de ventas. La tienda desea comprender las tendencias del mercado, las estrategias de precios y los factores que influyen en las ventas de aguacates, con el objetivo de tomar decisiones informadas para mejorar la rentabilidad.

### Introducción al Conjunto de Datos de Aguacate

El conjunto de datos que utilizarás contiene información sobre las ventas de aguacates en diferentes regiones de Estados Unidos, incluyendo detalles como la fecha de venta, el precio promedio, el volumen total vendido y la región.

**Tu Misión:** Utilizando Pandas, realiza un análisis exhaustivo para responder preguntas críticas de negocio. A continuación, se presentan las tareas que deberás cumplir:

### Tareas:

1. **Carga de Datos:** Carga el conjunto de datos de aguacates (`avocado.csv`) en un DataFrame de Pandas y asegúrate de que los datos se han cargado correctamente. Utiliza `info()` para revisar la estructura y los tipos de datos del conjunto.

2. **Exploración de Datos:** Realiza un análisis exploratorio para entender la estructura del conjunto, incluyendo el número de filas y columnas, tipos de datos y valores faltantes. Imprime la cantidad de valores faltantes por columna utilizando `isnull()`.

3. **Análisis de Series de Tiempo:** Examina las ventas de aguacates a lo largo del tiempo. Convierte la columna de fecha a un formato adecuado y agrupa los datos mensuales para visualizar las tendencias de ventas en un gráfico.

4. **Análisis Regional:** Identifica las regiones con mejor rendimiento en términos de volumen de ventas y precios promedio. Esto te permitirá focalizar tus esfuerzos de marketing en áreas clave. Utiliza `groupby()` y `nlargest()` para obtener los resultados.

5. **Tendencias de Precios y Volumen:** Analiza cómo los cambios en los precios de los aguacates afectan el volumen de ventas mediante visualizaciones que ilustren esta relación.

6. **Elasticidad del Precio:** Calcula la elasticidad precio de la demanda para entender cuán sensibles son las ventas a los cambios de precio. Esto se puede hacer analizando las variaciones porcentuales de precio y volumen.

7. **Matriz de Correlación:** Selecciona solo las columnas numéricas del DataFrame y calcula la matriz de correlación para identificar relaciones significativas entre las variables. Utiliza un mapa de calor para visualizar esta correlación de manera efectiva.

8. **Recomendaciones:** Basado en tus hallazgos, proporciona recomendaciones prácticas a la cadena de tiendas de comestibles. Esto puede incluir estrategias de precios, enfoques de marketing y análisis de tendencias estacionales.

### Para Empezar:

Carga el conjunto de datos de aguacates y comienza tu exploración de datos. Utiliza Pandas para la limpieza, visualización y análisis. A medida que avances, documenta tus hallazgos e insights para presentarlos a la gerencia.

Recuerda que Pandas es una herramienta poderosa que puede ayudar a las empresas a tomar decisiones basadas en datos. Este ejercicio te brindará experiencia práctica en análisis de datos y destacará los valiosos insights que se pueden obtener del mundo real.

¡Sumérgete en el mundo de las ventas de aguacates y comienza a formular recomendaciones basadas en datos para impulsar la rentabilidad!


In [2]:
import pandas as pd
avocado_df = pd.read_csv("avocado.csv")

In [3]:
avocado_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18249 entries, 0 to 18248
Data columns (total 14 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Unnamed: 0    18249 non-null  int64  
 1   Date          18249 non-null  object 
 2   AveragePrice  18249 non-null  float64
 3   Total Volume  18249 non-null  float64
 4   4046          18249 non-null  float64
 5   4225          18249 non-null  float64
 6   4770          18249 non-null  float64
 7   Total Bags    18249 non-null  float64
 8   Small Bags    18249 non-null  float64
 9   Large Bags    18249 non-null  float64
 10  XLarge Bags   18249 non-null  float64
 11  type          18249 non-null  object 
 12  year          18249 non-null  int64  
 13  region        18249 non-null  object 
dtypes: float64(9), int64(2), object(3)
memory usage: 1.9+ MB


In [5]:
pd.isnull(avocado_df)

Unnamed: 0.1,Unnamed: 0,Date,AveragePrice,Total Volume,4046,4225,4770,Total Bags,Small Bags,Large Bags,XLarge Bags,type,year,region
0,False,False,False,False,False,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
18244,False,False,False,False,False,False,False,False,False,False,False,False,False,False
18245,False,False,False,False,False,False,False,False,False,False,False,False,False,False
18246,False,False,False,False,False,False,False,False,False,False,False,False,False,False
18247,False,False,False,False,False,False,False,False,False,False,False,False,False,False


In [6]:
avocado_df.head(100)

Unnamed: 0.1,Unnamed: 0,Date,AveragePrice,Total Volume,4046,4225,4770,Total Bags,Small Bags,Large Bags,XLarge Bags,type,year,region
0,0,2015-12-27,1.33,64236.62,1036.74,54454.85,48.16,8696.87,8603.62,93.25,0.00,conventional,2015,Albany
1,1,2015-12-20,1.35,54876.98,674.28,44638.81,58.33,9505.56,9408.07,97.49,0.00,conventional,2015,Albany
2,2,2015-12-13,0.93,118220.22,794.70,109149.67,130.50,8145.35,8042.21,103.14,0.00,conventional,2015,Albany
3,3,2015-12-06,1.08,78992.15,1132.00,71976.41,72.58,5811.16,5677.40,133.76,0.00,conventional,2015,Albany
4,4,2015-11-29,1.28,51039.60,941.48,43838.39,75.78,6183.95,5986.26,197.69,0.00,conventional,2015,Albany
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
95,43,2015-03-01,0.99,512532.44,441544.00,21183.70,347.78,49456.96,32180.90,17273.38,2.68,conventional,2015,Atlanta
96,44,2015-02-22,1.10,431308.56,369316.29,18324.76,237.47,43430.04,33423.74,10006.30,0.00,conventional,2015,Atlanta
97,45,2015-02-15,1.06,427391.28,364446.77,17420.41,638.18,44885.92,26727.66,18158.26,0.00,conventional,2015,Atlanta
98,46,2015-02-08,1.03,433883.91,377256.38,17162.50,524.85,38940.18,18044.41,20895.77,0.00,conventional,2015,Atlanta


In [7]:
avocado_df.describe()

Unnamed: 0.1,Unnamed: 0,AveragePrice,Total Volume,4046,4225,4770,Total Bags,Small Bags,Large Bags,XLarge Bags,year
count,18249.0,18249.0,18249.0,18249.0,18249.0,18249.0,18249.0,18249.0,18249.0,18249.0,18249.0
mean,24.232232,1.405978,850644.0,293008.4,295154.6,22839.74,239639.2,182194.7,54338.09,3106.426507,2016.147899
std,15.481045,0.402677,3453545.0,1264989.0,1204120.0,107464.1,986242.4,746178.5,243966.0,17692.894652,0.939938
min,0.0,0.44,84.56,0.0,0.0,0.0,0.0,0.0,0.0,0.0,2015.0
25%,10.0,1.1,10838.58,854.07,3008.78,0.0,5088.64,2849.42,127.47,0.0,2015.0
50%,24.0,1.37,107376.8,8645.3,29061.02,184.99,39743.83,26362.82,2647.71,0.0,2016.0
75%,38.0,1.66,432962.3,111020.2,150206.9,6243.42,110783.4,83337.67,22029.25,132.5,2017.0
max,52.0,3.25,62505650.0,22743620.0,20470570.0,2546439.0,19373130.0,13384590.0,5719097.0,551693.65,2018.0


In [9]:
avocado_df.columns

Index(['Unnamed: 0', 'Date', 'AveragePrice', 'Total Volume', '4046', '4225',
       '4770', 'Total Bags', 'Small Bags', 'Large Bags', 'XLarge Bags', 'type',
       'year', 'region'],
      dtype='object')

In [11]:
avocado_df.index

RangeIndex(start=0, stop=18249, step=1)