#### **Análisis de Datos**  ***(Estadística descriptiva y pruebas de hipótesis)***

In [11]:
# Cargar las librerias necesarias
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from scipy import stats
# from scipy.stats import ttest_ind

In [3]:
# Cargar el dataset
df_siem = pd.read_csv('../data/processed/datos_siem_2024.csv')
df_siem.head()

Unnamed: 0,razon_social,estado,municipio,domicilio,colonia,giro,scian,rango_de_empleados,registrado_por
0,KINAM,México,Texcoco,Avenida HIDALGO 703 int 101-1,Colonia SAN SEBASTIAN,autotanques de acero al carbon,339999,11 a 50,CAMARA NACIONAL DE LA INDUSTRIA DE TRANSFORMACION
1,SANBORNS SUC PLAZA SAN PABLO TEXCOCO,México,Texcoco,Avenida JUÁREZ NTE 413 int -,Colonia CENTRO,restaurante,722511,0 a 10,CAMARA NACIONAL DE LA INDUSTRIA DE RESTAURANTE...
2,BURGER KING TEXCOCO,México,Texcoco,Avenida JUAREZ SUR 340 int -,Colonia SAN PEDRO,restaurante,722511,0 a 10,CAMARA NACIONAL DE LA INDUSTRIA DE RESTAURANTE...
3,ITALIANNIS,México,Texcoco,Calle MOLINO DE LAS FLORES S/N int -,Colonia SANTA CRUZ DE ARRIBA,restaurante,722511,0 a 10,CAMARA NACIONAL DE LA INDUSTRIA DE RESTAURANTE...
4,BURGER KING PUERTA TEXCOCO,México,Texcoco,Carretera MEXICO-TEXCOCO KM 30.5 int -,Colonia SANTIAGO CUAUTLALPAN,restaurante,722511,0 a 10,CAMARA NACIONAL DE LA INDUSTRIA DE RESTAURANTE...


In [4]:
estado = df_siem['estado'].value_counts()
estado

estado
Ciudad de México                   28245
Nuevo León                         18416
Jalisco                            11786
México                             11072
Tamaulipas                         10187
Chihuahua                           7611
Veracruz de Ignacio de la Llave     7418
Yucatán                             6025
Puebla                              5038
Guanajuato                          4812
Coahuila de Zaragoza                4335
Sinaloa                             4044
Baja California                     3344
Quintana Roo                        3153
Michoacán de Ocampo                 3068
Durango                             1980
Zacatecas                           1857
Baja California Sur                 1833
San Luis Potosí                     1754
Nayarit                             1711
Chiapas                             1473
Morelos                             1250
Querétaro                           1042
Guerrero                            1009
Hidalgo  

##### **Hipótesis 1:**
- *H0: No hay diferencia significativa entre el promedio de empresas por estado en el norte vs sur.*
- *H1: Hay diferencia significativa.*

(Aplicar prueba t de muestras independientes o ANOVA)

In [7]:
estados_norte = ['Baja California', 'Baja California Sur', 'Coahuila de Zaragoza', 'Chihuahua', 'Durango', 'Nuevo León', 'Sinaloa', 'Sonora', 'Tamaulipas', 'Zacatecas']
# La lista de estados del centro como tal no sera utilizada 
estados_centro = ['Aguascalientes', 'Ciudad de México', 'Guanajuato', 'Hidalgo', 'Jalisco', 'México', 'Michoacán de Ocampo', 'Morelos', 'Nayarit', 'Puebla', 'Querétaro', 'San Luis Potosí', 'Tlaxcala']
estados_sur = ['Campeche', 'Chiapas', 'Colima', 'Guerrero', 'Oaxaca', 'Quintana Roo', 'Tabasco', 'Veracruz de Ignacio de la Llave', 'Yucatán']

In [12]:
# Filtrar los conteos de empresas para cada grupo
empresas_norte = estado[estado.index.isin(estados_norte)]
empresas_sur = estado[estado.index.isin(estados_sur)]

# Realizar la prueba t de Student para muestras independientes
# assuming equal_var=False si no estás seguro de la igualdad de varianzas, o True si lo asumes
t_statistic, p_value = stats.ttest_ind(empresas_norte, empresas_sur, equal_var=False)

print(f"Promedio de empresas en estados del Norte: {empresas_norte.mean():.2f}")
print(f"Promedio de empresas en estados del Sur: {empresas_sur.mean():.2f}")
print(f"Estadístico t: {t_statistic:.2f}")
print(f"Valor p: {p_value:.3f}")

# Interpretar el resultado
alpha = 0.05 # Nivel de significancia común
if p_value < alpha:
    print("\nEl valor p es menor que el nivel de significancia (0.05).")
    print("Rechazamos la hipótesis nula (H0).")
    print("Hay una diferencia significativa en el promedio de empresas por estado entre el Norte y el Sur.")
else:
    print("\nEl valor p es mayor que el nivel de significancia (0.05).")
    print("No rechazamos la hipótesis nula (H0).")
    print("No hay evidencia suficiente para afirmar una diferencia significativa en el promedio de empresas por estado entre el Norte y el Sur.")


Promedio de empresas en estados del Norte: 5429.50
Promedio de empresas en estados del Sur: 2315.78
Estadístico t: 1.61
Valor p: 0.130

El valor p es mayor que el nivel de significancia (0.05).
No rechazamos la hipótesis nula (H0).
No hay evidencia suficiente para afirmar una diferencia significativa en el promedio de empresas por estado entre el Norte y el Sur.


Aunque observas que el promedio de empresas en el Norte (aproximadamente 5,430) es más del doble que en el Sur (aproximadamente 2,316), esta diferencia **no es estadísticamente significativa** a un nivel de confianza del 95% (alpha = 0.05). Esto quiere decir que, con los datos que tienes, la diferencia que ves podría ser simplemente producto del azar.

En términos prácticos, no podemos concluir que las regiones Norte y Sur de México tengan inherentemente un número promedio diferente de empresas por estado basándonos en esta muestra. Es posible que necesites más datos, un enfoque diferente, o que la variabilidad dentro de cada grupo de estados sea demasiado alta como para detectar una diferencia con esta cantidad de información.

##### **Hipótesis 2**:
- *H0: El tamaño de las empresas es independiente del sector económico.*  

(Aplicar prueba de chi-cuadrada o análisis de proporciones.)

In [13]:
# Crea la tabla de contingencia
# Las filas serán 'rango_de_empleados' y las columnas 'giro'
tabla_contingencia = pd.crosstab(df_siem['rango_de_empleados'], df_siem['giro'])

print("Tabla de Contingencia:")
print(tabla_contingencia)

# Realiza la prueba de Chi-cuadrada
chi2, p_value, dof, expected = stats.chi2_contingency(tabla_contingencia)

print(f"\nEstadístico Chi-cuadrado: {chi2:.2f}")
print(f"Valor p: {p_value:.3f}")
print(f"Grados de libertad (dof): {dof}")
# print("Frecuencias esperadas:\n", expected) # Puedes descomentar para ver las frecuencias esperadas

# Interpretar el resultado
alpha = 0.05 # Nivel de significancia
if p_value < alpha:
    print("\nEl valor p es menor que el nivel de significancia (0.05).")
    print("Rechazamos la hipótesis nula (H0).")
    print("Existe una relación significativa entre el tamaño de las empresas y el sector económico.")
else:
    print("\nEl valor p es mayor que el nivel de significancia (0.05).")
    print("No rechazamos la hipótesis nula (H0).")
    print("No hay evidencia suficiente para afirmar una relación significativa entre el tamaño de las empresas y el sector económico (son independientes).")


Tabla de Contingencia:
giro                3 comercio al por menor de ropa  \
rango_de_empleados                                    
0 a 10                                            1   
11 a 50                                           0   
51 a 250                                          0   
más de 250                                        0   

giro                8 comercio al por mayor de otras materias primas para otras industrias  \
rango_de_empleados                                                                           
0 a 10                                                              1                        
11 a 50                                                             0                        
51 a 250                                                            0                        
más de 250                                                          0                        

giro                Venta de ropa (excepto para bebé y lencería)  \
rango_de_empl

¡Este es un resultado significativo! Al rechazar la hipótesis nula, estás afirmando que el tamaño de las empresas (según tu rango_de_empleados) **NO es independiente del sector económico (giro o scian)**.

En otras palabras, existe una **asociación estadísticamente significativa** entre el tamaño de una empresa y el sector económico al que pertenece. Esto sugiere que ciertos sectores económicos tienden a tener empresas de tamaños específicos (por ejemplo, quizás el sector de servicios tiende a tener más empresas pequeñas, mientras que la manufactura podría tener más empresas grandes, o viceversa).

##### **Intervalos de confianza:**
**Por ejemplo, calcular un intervalo del 95% para el número promedio de empresas registradas en cada región o sector.**

In [16]:
# --- Intervalo de Confianza para el Norte ---
mean_norte = empresas_norte.mean()
std_norte = empresas_norte.std(ddof=1) # ddof=1 para desviación estándar muestral
n_norte = len(empresas_norte)
se_norte = std_norte / np.sqrt(n_norte) # Error estándar

# Calcular el intervalo de confianza (usando t-distribution porque el tamaño de la muestra es pequeño)
# Para 95% de confianza, alfa = 0.05, t-value para n-1 grados de libertad
# stats.t.interval(confidence, df, loc=mean, scale=se)
confidence_level = 0.95
degrees_freedom_norte = n_norte - 1
intervalo_norte = stats.t.interval(confidence_level, degrees_freedom_norte, loc=mean_norte, scale=se_norte)

print(f"--- Intervalo de Confianza del 95% para el Promedio de Empresas por Estado (Norte) ---")
print(f"Promedio observado (Norte): {mean_norte:.2f}")
print(f"Número de estados (Norte): {n_norte}")
print(f"Intervalo de Confianza: ({intervalo_norte[0]:.2f}, {intervalo_norte[1]:.2f})\n")

# --- Intervalo de Confianza para el Sur ---
mean_sur = empresas_sur.mean()
std_sur = empresas_sur.std(ddof=1)
n_sur = len(empresas_sur)
se_sur = std_sur / np.sqrt(n_sur)

degrees_freedom_sur = n_sur - 1
intervalo_sur = stats.t.interval(confidence_level, degrees_freedom_sur, loc=mean_sur, scale=se_sur)

print(f"--- Intervalo de Confianza del 95% para el Promedio de Empresas por Estado (Sur) ---")
print(f"Promedio observado (Sur): {mean_sur:.2f}")
print(f"Número de estados (Sur): {n_sur}")
print(f"Intervalo de Confianza: ({intervalo_sur[0]:.2f}, {intervalo_sur[1]:.2f})\n")

--- Intervalo de Confianza del 95% para el Promedio de Empresas por Estado (Norte) ---
Promedio observado (Norte): 5429.50
Número de estados (Norte): 10
Intervalo de Confianza: (1558.14, 9300.86)

--- Intervalo de Confianza del 95% para el Promedio de Empresas por Estado (Sur) ---
Promedio observado (Sur): 2315.78
Número de estados (Sur): 9
Intervalo de Confianza: (263.30, 4368.26)



***Conclusión clave de la superposición:*** Observe que estos dos intervalos se **superponen significativamente** . Por ejemplo, el rango de aproximadamente 1558 a 4368 es común a ambos intervalos. Esta superposición refuerza visualmente lo que su prueba t ya mostró: con un nivel de confianza del 95 %, no tenemos suficiente evidencia para concluir que el promedio real de empresas por estado difiere entre las regiones Norte y Sur. La diferencia observada podría deberse fácilmente a una variación aleatoria.

In [18]:
# Ejemplo: Intervalo de Confianza para la proporción de empresas '0 a 10' en el sector 'restaurante'

# 1. Filtra las empresas del sector 'restaurante'
empresas_restaurante = df_siem[df_siem['giro'] == 'restaurante']

# 2. Cuenta cuántas de ellas tienen '0 a 10' empleados y el total en ese sector
conteo_0_a_10_restaurante = (empresas_restaurante['rango_de_empleados'] == '0 a 10').sum()
total_restaurante = len(empresas_restaurante)

# Si no hay empresas en el sector o conteo es cero, no se puede calcular un IC
if total_restaurante == 0:
    print("\nNo hay empresas en el sector 'restaurante' o no hay empresas '0 a 10' en él para calcular el IC.")
else:
    # Proporción observada
    p_hat = conteo_0_a_10_restaurante / total_restaurante

    # Error estándar de la proporción
    # Usamos la fórmula para proporciones: sqrt(p_hat * (1 - p_hat) / n)
    se_proportion = np.sqrt(p_hat * (1 - p_hat) / total_restaurante)

    # Calcular el intervalo de confianza Z (para muestras grandes, n*p y n*(1-p) > 5)
    # Para 95% de confianza, z-value = 1.96
    z_value = stats.norm.ppf(1 - (1 - confidence_level) / 2) # Calcula el valor Z para el nivel de confianza

    margen_error_proportion = z_value * se_proportion
    intervalo_proporcion = (p_hat - margen_error_proportion, p_hat + margen_error_proportion)

    print(f"\n--- Intervalo de Confianza del 95% para la Proporción de Empresas '0 a 10' en el sector 'restaurante' ---")
    print(f"Proporción observada: {p_hat:.4f}")
    print(f"Número total de empresas en el sector 'restaurante': {total_restaurante}")
    print(f"Intervalo de Confianza: ({intervalo_proporcion[0]:.4f}, {intervalo_proporcion[1]:.4f})\n")

# Puedes repetir este proceso para otras combinaciones de 'rango_de_empleados' y 'giro'
# o incluso para la diferencia entre proporciones de dos sectores diferentes.


--- Intervalo de Confianza del 95% para la Proporción de Empresas '0 a 10' en el sector 'restaurante' ---
Proporción observada: 0.9676
Número total de empresas en el sector 'restaurante': 2901
Intervalo de Confianza: (0.9612, 0.9740)



***Conclusión clave:*** Este intervalo es muy estrecho y cercano a 1 (o 100%), lo que proporciona evidencia sólida que respalda su hallazgo anterior de chi-cuadrado. Demuestra claramente **que la gran mayoría de las empresas del sector de la restauración son pequeñas (de 0 a 10 empleados)** . Este intervalo cuantifica la relación significativa que identificó entre el tamaño de la empresa y el sector económico, mostrando una alta concentración de pequeñas empresas en el sector de la restauración.