### *- **Estadística Descriptiva, Formulación y Prueba de Hipótesis** -*

In [None]:
import pandas as pd
from scipy.stats import ttest_ind

In [2]:
df_tortilla_prices = pd.read_csv('../data/processed/tortilla_prices_sin_nulos.csv')
df_tortilla_prices.head(7)

Unnamed: 0,State,City,Year,Month,Day,Store type,Price per kilogram
0,Aguascalientes,Aguascalientes,2007,1,10,Mom and Pop Store,9.9
1,Baja California,Tijuana,2007,1,10,Mom and Pop Store,10.0
2,Baja California Sur,La Paz,2007,1,10,Mom and Pop Store,10.0
3,Campeche,Campeche,2007,1,10,Mom and Pop Store,10.0
4,Coahuila,Piedras Negras,2007,1,10,Mom and Pop Store,10.0
5,Colima,Colima,2007,1,10,Mom and Pop Store,10.0
6,Chiapas,Tuxtla Gutiérrez,2007,1,10,Mom and Pop Store,9.2


##### **Estadística Descriptiva**

In [None]:
year_2007 = df_tortilla_prices['Year'] == 2007

df_tortilla_prices_2007 = df_tortilla_prices[year_2007]
df_tortilla_prices_2007

estadisticas_2007 = df_tortilla_prices_2007.groupby(['Year', 'State'])['Price per kilogram'].agg(['mean', 'median', 'std', 'min', 'max', 'count'])
estadisticas_2007


Unnamed: 0_level_0,Unnamed: 1_level_0,mean,median,std,min,max,count
Year,State,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
2007,Aguascalientes,7.718113,7.615,1.94939,5.77,10.0,318
2007,Baja California,8.467378,8.09,2.661644,5.62,12.0,614
2007,Baja California Sur,7.574591,7.55,1.878098,5.5,10.0,318
2007,Campeche,7.431792,7.285,1.770079,4.5,10.0,318
2007,Chiapas,6.936906,6.9,1.204407,4.47,9.2,614
2007,Chihuahua,7.352818,7.195,1.442022,5.26,10.0,614
2007,Coahuila,7.315619,6.95,1.526621,5.43,10.0,614
2007,Colima,7.214937,7.2,1.418793,5.6,11.0,318
2007,D.F.,6.980664,7.33,1.289037,4.9,9.6,633
2007,Durango,6.991545,7.13,1.306259,4.72,8.75,466


In [16]:
year_2024 = df_tortilla_prices['Year'] == 2024

df_tortilla_prices_2024 = df_tortilla_prices[year_2024]
df_tortilla_prices_2024

estadisticas_2024 = df_tortilla_prices_2024.groupby(['Year', 'State'])['Price per kilogram'].agg(['mean', 'median', 'std', 'min', 'max', 'count'])
estadisticas_2024


Unnamed: 0_level_0,Unnamed: 1_level_0,mean,median,std,min,max,count
Year,State,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
2024,Aguascalientes,17.558333,17.75,3.91289,13.13,21.67,240
2024,Baja California,21.642771,20.455,6.882186,13.9,30.57,480
2024,Baja California Sur,20.153917,20.575,6.867498,12.77,27.0,240
2024,Campeche,19.118083,19.435,6.899557,11.9,26.0,240
2024,Chiapas,18.116229,17.65,4.941567,12.67,24.0,480
2024,Chihuahua,21.435833,21.975,3.640291,16.2,25.83,480
2024,Coahuila,21.562653,19.815,5.099707,13.93,30.0,720
2024,Colima,20.875375,20.5,6.231858,14.37,28.0,240
2024,D.F.,17.187063,16.89,2.895527,13.97,20.39,480
2024,Durango,19.211875,17.985,5.652619,13.6,27.5,480


##### **Formulación y Pruba de Hipótesis**

* **Hipótesis 1:**  *"El precio promedio de la tortilla ha aumentado significativamente en los últimos 10 años."*
    * Realiza una prueba t de muestras independientes comparando los precios promedio de los primeros 5 años con los últimos 5 años.

In [24]:
# Filtra los datos para los primeros y últimos 5 años
primeros_5 = df_tortilla_prices[df_tortilla_prices['Year'].between(2007, 2011)]['Price per kilogram']
ultimos_5 = df_tortilla_prices[df_tortilla_prices['Year'].between(2020, 2024)]['Price per kilogram']

# Realiza la prueba t
t_stat, p_value = ttest_ind(primeros_5, ultimos_5, equal_var=False)
print(f'Estadístico t: {t_stat:.4f}, Valor p: {p_value}')

Estadístico t: -429.1513, Valor p: 0.0


* **Hipótesis 2:** *"En el norte del país los precios son más altos que en el sur (Definir las regiones norte y sur según los estados correspondientes)."*
    * Utiliza una prueba t para comparar los precios promedio entre estas dos regiones.

In [25]:
# Define listas de estados para cada región
# norte = ['Baja California', 'Chihuahua', 'Coahuila', 'Durango', 'Nuevo León', 'Sonora', 'Tamaulipas']
# sur = ['Chiapas', 'Guerrero', 'Oaxaca', 'Tabasco', 'Veracruz', 'Yucatán']

norte = ["Baja California", "Baja California Sur", "Chihuahua", "Coahuila", "Durango", "Nuevo León", "Sinaloa", "Sonora", "Tamaulipas"]
sur =["Campeche", "Chiapas", "Guerrero", "Michoacán", "Oaxaca", "Quintana Roo", "Tabasco", "Veracruz", "Yucatán"]


# Filtra los datos por región
precios_norte = df_tortilla_prices[df_tortilla_prices['State'].isin(norte)]['Price per kilogram']
precios_sur = df_tortilla_prices[df_tortilla_prices['State'].isin(sur)]['Price per kilogram']

# Realiza la prueba t
t_stat, p_value = ttest_ind(precios_norte, precios_sur, equal_var=False)
print(f'Estadístico t: {t_stat:.4f}, Valor p: {p_value}')


Estadístico t: 43.3076, Valor p: 0.0
