In [25]:
import os
import requests
import zipfile
import glob
import pandas as pd
import statsmodels.api as sm
import statsmodels.formula.api as smf
from statsmodels.stats.weightstats import DescrStatsW
import numpy as np

pd.set_option('display.max_columns', None)

In [2]:
url_basica = "https://www.inegi.org.mx/contenidos/programas/enigh/nc/"
segunda_parte = "microdatos/enigh"
fin = "_ns_viviendas_csv.zip"
# Lista de años (ejemplo)
years = [2020, 2022]

In [3]:
# Crear carpeta 'datos' si no existe
os.makedirs("datos", exist_ok=True)

In [None]:
# Ciclo para descargar los archivos por año
for year in years:
    url = f"{url_basica}{year}/{segunda_parte}{year}{fin}"
    destfile = f"datos/{year}{fin}"
# Descargar el archivo
    response = requests.get(url, stream=True)
    with open(destfile, "wb") as file:
        for chunk in response.iter_content(chunk_size=1024):
            file.write(chunk)

    # Descomprimir el archivo
    with zipfile.ZipFile(destfile, 'r') as zip_ref:
        zip_ref.extractall("datos")

    # Renombrar el archivo
    os.rename("datos/viviendas.csv", f"datos/viviendas_{year}.csv")

    print(f"Procesado: {year}")

In [5]:
df = pd.read_csv(os.path.join("datos", "viviendas_2020.csv"))
df.describe()

  df = pd.read_csv(os.path.join("datos", "viviendas_2020.csv"))


Unnamed: 0,folioviv,mat_pared,mat_techos,cocina,cuart_dorm,num_cuarto,disp_agua,excusado,drenaje,disp_elect,combustible,eli_basura,tenencia,lavadero,fregadero,regadera,tinaco_azo,cisterna,pileta,calent_sol,calent_gas,medidor_luz,bomba_agua,tanque_gas,aire_acond,calefacc,tot_resid,tot_hom,tot_muj,tot_hog,ubica_geo,tam_loc,est_socio,est_dis,upm,factor,procaptar
count,87754.0,87754.0,87754.0,87754.0,87754.0,87754.0,87754.0,87754.0,87754.0,87754.0,87754.0,87754.0,87754.0,87754.0,87754.0,87754.0,87754.0,87754.0,87754.0,87754.0,87754.0,87754.0,87754.0,87754.0,87754.0,87754.0,87754.0,87754.0,87754.0,87754.0,87754.0,87754.0,87754.0,87754.0,87754.0,87754.0,87754.0
mean,1607354000.0,7.77789,8.396723,1.06884,2.047656,3.733505,1.58623,1.019566,1.495658,1.036933,2.770916,1.562755,3.331461,1.177143,1.385099,1.247556,1.431502,1.81953,1.631208,1.88992,1.654511,1.070219,1.754256,1.909691,1.789434,1.968697,3.598047,1.74996,1.848087,1.014267,15859.606707,2.521834,2.072441,259.666807,5168.394352,401.51813,0.003624
std,928412000.0,0.725728,2.760956,0.253184,0.897583,1.493519,1.42921,0.138504,0.946839,0.346952,0.869538,1.157859,1.142057,0.381792,0.486622,0.431595,0.495289,0.384581,0.48248,0.312992,0.47553,0.255517,0.43053,0.286626,0.407713,0.174137,1.866857,1.161537,1.212966,0.132909,9296.094764,1.316022,0.814935,161.828361,2911.969178,406.892039,0.060089
min,100013600.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,0.0,0.0,1.0,1001.0,1.0,1.0,1.0,1.0,10.0,0.0
25%,804240200.0,8.0,7.0,1.0,1.0,3.0,1.0,1.0,1.0,1.0,3.0,1.0,3.0,1.0,1.0,1.0,1.0,2.0,1.0,2.0,1.0,1.0,2.0,2.0,2.0,2.0,2.0,1.0,1.0,1.0,8019.0,1.0,2.0,119.0,2706.0,146.0,0.0
50%,1561158000.0,8.0,10.0,1.0,2.0,4.0,1.0,1.0,1.0,1.0,3.0,1.0,4.0,1.0,1.0,1.0,1.0,2.0,2.0,2.0,2.0,1.0,2.0,2.0,2.0,2.0,3.0,2.0,2.0,1.0,15106.0,3.0,2.0,253.0,5155.0,279.0,0.0
75%,2402962000.0,8.0,10.0,1.0,3.0,5.0,2.0,1.0,2.0,1.0,3.0,1.0,4.0,1.0,2.0,1.0,2.0,2.0,2.0,2.0,2.0,1.0,2.0,2.0,2.0,2.0,5.0,2.0,3.0,1.0,24024.0,4.0,2.0,388.0,7686.0,501.0,0.0
max,3260771000.0,8.0,10.0,2.0,13.0,23.0,7.0,2.0,5.0,5.0,6.0,8.0,6.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,25.0,13.0,12.0,5.0,32057.0,4.0,4.0,558.0,10149.0,5284.0,1.0


In [54]:
# Definimos función de estimación
def estimacion(path, variable):
    # Cargar los datos
    datos = pd.read_csv(path, low_memory=False)    
    datos['cve_ent'] = datos['folioviv'].astype(str).apply(lambda x: '0' + x[0] if len(x) == 9 else x[:2]) # Obtenermos clave geoestadistica de acuerdo columna
    datos = datos[datos['cve_ent'] == '09'] # Filtramos por entidad de interes
    cols_mat = [col for col in datos.columns if col.startswith('mat')] # Reemplazo de valores no numéricos en columnas que inician con "mat"
    for col in cols_mat:
        datos[col] = datos[col].astype(str).replace(['', 'NA', '&'], '0') # Remplaza cadenas de texto por 0
        datos[col] = pd.to_numeric(datos[col], errors='coerce').fillna(0) # Convierte los valores a numéricos y asegura que no queden NaN
    # Diseño muestral usando statsmodels y columna
    datos['factor'] = pd.to_numeric(datos['factor'], errors='coerce').fillna(0)
    weights = datos['factor']
    print("Sacar stats")
    mydesign = DescrStatsW(datos, weights=weights)
    print(f"Fin mydesign {mydesign.sum}")
    
    # Estimar viviendas con disponibilidad de agua diaria
    print(datos.dotac_agua.dtypes)
    datos['dotac_agua'] = pd.to_numeric(datos['dotac_agua'], errors='coerce').fillna(0).astype('Int64')
    print(datos.dotac_agua.dtypes)
    agua_disponible = datos.groupby('dotac_agua').apply(
        lambda x: pd.Series({
            'viviendas': mydesign.sum,
            'porcentaje': mydesign.mean * 100
        })
    ).reset_index()
    # Filtrar viviendas con agua diaria (dotac_agua == 1)
    agua_disponible = agua_disponible[agua_disponible['dotac_agua'] == 1]
    agua_disponible['year'] = path[15:19]  # Extraer el año desde la ruta del archivo
    if variable == "dispagua":
        return agua_disponible
    else:
        raise ValueError("Variable no reconocida")

In [55]:
# Obtener la lista de archivos CSV en la carpeta "data"
file_paths = glob.glob("datos/viviendas_*.csv")


# Aplicar la función de estimación a cada archivo y combinar los resultados
tabla_disp_agua = pd.concat(
    [estimacion(file, "dispagua") for file in file_paths], ignore_index=True
)

print("Porcentaje de viviendas con disponibilidad de agua diaria")
print(tabla_disp_agua)

TypeError: can't multiply sequence by non-int of type 'float'

In [26]:
# Ejemplo de validación
data = np.array([1, 2, 3, 4, 5])
weights = np.array([1, 2, 1, 3, 2])


print(data.dtype)  # Asegúrate de que sea numérico (por ejemplo, float64 o int64)
print(weights.dtype)  # Lo mismo aplica aquí

int32
int32


In [27]:
mydesign = DescrStatsW(data, weights=weights)

In [31]:
mydesign

<statsmodels.stats.weightstats.DescrStatsW at 0x21cc65bb8b0>