<a href="https://colab.research.google.com/github/elmilanos/ProbabilityStatistics/blob/main/Pr%C3%A1ctica_M%C3%B3dulo_7_Distribuciones_de_Probabilidad_Continua.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Análisis de Datos del Mundo Real con Distribuciones de Probabilidad
En este trabajo, exploraremos datos reales de Durango y analizaremos su ajuste a tres distribuciones estadísticas fundamentales:

1. **Distribución Normal:** Modela variables continuas con una tendencia central clara.

2. **Distribución Exponencial:** Modela el tiempo entre eventos aleatorios.

3. **Distribución Chi-Cuadrada:** Evalúa la relación entre variables categóricas.

Los datos utilizados provienen de fuentes como el INEGI, y el análisis se realizará en Python utilizando bibliotecas como *numpy*, *pandas*, *matplotlib*, *seaborn* y *scipy.stats*.

# Ejercicio 1: Distribución Normal
La distribución normal es una de las distribuciones más comunes en la estadística, utilizada para modelar variables continuas como **la temperatura, el ingreso per cápita o la estatura de la población.**
Esta distribución tiene forma de campana y se describe por dos parámetros:

- **Media (μ):** Representa el valor promedio.

- **Desviación estándar (σ):** Indica qué tan dispersos están los datos alrededor de la media.

## Aplicación en Durango:

- Si la temperatura sigue una normal, podemos predecir eventos climáticos con más certeza.

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import scipy.stats as stats
import seaborn as sns

# Cargar datos (Este paso dependerá del dataset que descargues del INEGI)
# Supongamos que tenemos un CSV con datos de Durango
df = pd.read_csv("datos_durango.csv")  # Ajusta el nombre del archivo según el dataset real

# --- EJERCICIO 1: DISTRIBUCIÓN NORMAL ---
# Seleccionamos una variable continua (Ejemplo: temperatura promedio mensual)
variable_normal = df["temperatura_promedio"]

# Calcular media y desviación estándar
media = np.mean(variable_normal)
desviacion = np.std(variable_normal)

# Generar histograma y superponer curva normal
plt.figure(figsize=(10, 5))
sns.histplot(variable_normal, kde=False, bins=20, color="skyblue", stat="density", label="Datos reales")
x = np.linspace(min(variable_normal), max(variable_normal), 100)
plt.plot(x, stats.norm.pdf(x, media, desviacion), "r-", label="Ajuste Normal")
plt.xlabel("Temperatura Promedio (°C)")
plt.ylabel("Densidad")
plt.title("Ajuste de Distribución Normal")
plt.legend()
plt.grid()
plt.show()

# Prueba de bondad de ajuste (Kolmogorov-Smirnov)
ks_stat, p_value = stats.kstest(variable_normal, "norm", args=(media, desviacion))
print(f"Prueba KS: Estadístico = {ks_stat}, p-valor = {p_value}")

# Interpretación del p-valor
if p_value > 0.05:
    print("Los datos se ajustan bien a una distribución normal (No se rechaza H0).")
else:
    print("Los datos NO siguen una distribución normal (Se rechaza H0).")

# Ejercicio 2: Distribución Exponencial
La distribución exponencial modela eventos que ocurren de manera aleatoria en el tiempo, como:
- El tiempo entre lluvias significativas.
- El tiempo entre accidentes de tránsito en una intersección.
- El tiempo entre llegadas de clientes a un negocio.

La distribución exponencial depende de un solo parámetro:
- **λ (lambda):** La tasa de ocurrencia de eventos por unidad de tiempo.

## Aplicación en Durango:

- Puede ayudar a **predecir lluvias** y planificar medidas de prevención de inundaciones.

In [None]:
# --- EJERCICIO 2: DISTRIBUCIÓN EXPONENCIAL ---
# Seleccionamos una variable relacionada con tiempos entre eventos (Ejemplo: tiempo entre lluvias)
variable_exp = df["tiempo_entre_lluvias"]

# Estimamos λ como el inverso de la media
lambda_estimado = 1 / np.mean(variable_exp)

# Generar histograma y superponer curva exponencial
plt.figure(figsize=(10, 5))
sns.histplot(variable_exp, kde=False, bins=20, color="lightcoral", stat="density", label="Datos reales")
x_exp = np.linspace(0, max(variable_exp), 100)
plt.plot(x_exp, stats.expon.pdf(x_exp, scale=1/lambda_estimado), "g-", label="Ajuste Exponencial")
plt.xlabel("Tiempo entre lluvias (días)")
plt.ylabel("Densidad")
plt.title("Ajuste de Distribución Exponencial")
plt.legend()
plt.grid()
plt.show()

print(f"Valor estimado de λ: {lambda_estimado:.4f}")

# Ejercicio 3: Distribución Chi-Cuadrada
La distribución chi-cuadrada se utiliza para analizar la relación entre variables categóricas y determinar si existe **una asociación estadísticamente significativa** entre ellas.

Ejemplo de análisis en Durango:
- **Sector económico vs. Tamaño de empresa** → ¿Las grandes empresas se concentran en ciertos sectores?
- **Nivel educativo vs. Nivel de ingresos** → ¿Existe relación entre la educación y el salario promedio?

*Puede ayudar a analizar la relación entre sectores económicos y el tamaño de empresas, útil para políticas de desarrollo.*

## Objetivo
Evaluar si dos variables categóricas están relacionadas mediante una **prueba de independencia chi-cuadrada.**

In [None]:
# --- EJERCICIO 3: DISTRIBUCIÓN CHI-CUADRADA ---
# Seleccionamos dos variables categóricas (Ejemplo: sector económico vs. tamaño de empresa)
tabla_contingencia = pd.crosstab(df["sector_economico"], df["tamano_empresa"])

# Prueba chi-cuadrada
chi2_stat, p_valor, dof, expected = stats.chi2_contingency(tabla_contingencia)
print(f"Prueba Chi-Cuadrado: Estadístico = {chi2_stat}, p-valor = {p_valor}")

# Visualización de frecuencias observadas y esperadas
plt.figure(figsize=(12, 5))
sns.heatmap(tabla_contingencia, annot=True, fmt="d", cmap="Blues", cbar=False)
plt.title("Frecuencias Observadas")
plt.show()

plt.figure(figsize=(12, 5))
sns.heatmap(pd.DataFrame(expected, index=tabla_contingencia.index, columns=tabla_contingencia.columns), annot=True, fmt=".1f", cmap="Oranges", cbar=False)
plt.title("Frecuencias Esperadas")
plt.show()

# Interpretación del p-valor
if p_valor > 0.05:
    print("No hay evidencia suficiente para afirmar que las variables están relacionadas (No se rechaza H0).")
else:
    print("Existe una relación significativa entre las variables (Se rechaza H0).")

### Ejemplo de Aplicación:
Si encontramos que el **sector económico y el tamaño de la empresa están relacionados**, esto podría ayudar a **diseñar políticas económicas** para fomentar el crecimiento de ciertos sectores.