<a href="https://colab.research.google.com/github/AngelBReal/Proyecto_IC_MCD_GINI/blob/main/notebooks/Proyecto_ic.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# ***Proyecto 1. Descargando datos de la web***


---
Curso Ingeniería de Características


## ***ENCO***

Primero vamos a extraer los datos de la Encuesta Nacional sobre Confianza del Consumidor ([ENCO](https://www.inegi.org.mx/programas/enco/#datos_abiertos)), específicamente los del año 2022, puesto que los datos con los que lo queremos comparar son de ese año.

In [1]:
# Importación de librerías necesarias
import requests
import zipfile
import os
import pandas as pd
from io import BytesIO

In [2]:
# URLs de los archivos a descargar
base_url = "https://www.inegi.org.mx/contenidos/programas/enco/datosabiertos/2022/"
urls = [f"{base_url}conjunto_de_datos_enco_2022_{str(i).zfill(2)}_csv.zip" for i in range(1, 13)]

In [3]:
# Función para descargar y extraer los archivos
def descargar_y_extraer_zip(url, extract_path='/content/enco_2022'):
    response = requests.get(url)
    if response.status_code == 200:
        with zipfile.ZipFile(BytesIO(response.content)) as z:
            z.extractall(extract_path)
            print(f"Archivos extraídos de {url}")
    else:
        print(f"Error al descargar {url}")

In [4]:
# Descarga y extracción de los archivos
os.makedirs('/content/enco_2022', exist_ok=True)

for url in urls:
    descargar_y_extraer_zip(url)

Archivos extraídos de https://www.inegi.org.mx/contenidos/programas/enco/datosabiertos/2022/conjunto_de_datos_enco_2022_01_csv.zip
Archivos extraídos de https://www.inegi.org.mx/contenidos/programas/enco/datosabiertos/2022/conjunto_de_datos_enco_2022_02_csv.zip
Archivos extraídos de https://www.inegi.org.mx/contenidos/programas/enco/datosabiertos/2022/conjunto_de_datos_enco_2022_03_csv.zip
Archivos extraídos de https://www.inegi.org.mx/contenidos/programas/enco/datosabiertos/2022/conjunto_de_datos_enco_2022_04_csv.zip
Archivos extraídos de https://www.inegi.org.mx/contenidos/programas/enco/datosabiertos/2022/conjunto_de_datos_enco_2022_05_csv.zip
Archivos extraídos de https://www.inegi.org.mx/contenidos/programas/enco/datosabiertos/2022/conjunto_de_datos_enco_2022_06_csv.zip
Archivos extraídos de https://www.inegi.org.mx/contenidos/programas/enco/datosabiertos/2022/conjunto_de_datos_enco_2022_07_csv.zip
Archivos extraídos de https://www.inegi.org.mx/contenidos/programas/enco/datosabier

Ahora vamos a extraer los conjuntos de datos de los cuestionarios sociodemográficos de cada uno de los meses del 2022.

In [5]:
base_path = '/content/enco_2022'

cs_enco = []  # Lista para almacenar los DataFrames de cada archivo

for i in range(1, 13):
    month_str = str(i).zfill(2)
    file_name = f'conjunto_de_datos_cs_enco_2022_{month_str}.CSV'
    folder_path = f'{base_path}/conjunto_de_datos_cs_enco_2022_{month_str}/conjunto_de_datos'
    file_path = os.path.join(folder_path, file_name)
    # Comprobar si el archivo existe antes de intentar leerlo
    if os.path.exists(file_path):
        df = pd.read_csv(file_path)
        cs_enco.append(df)  # Almacenar cada DataFrame
        print(f"Archivo leído: {file_name}")
    else:
        print(f"Archivo no encontrado: {file_name}")

Archivo leído: conjunto_de_datos_cs_enco_2022_01.CSV
Archivo leído: conjunto_de_datos_cs_enco_2022_02.CSV
Archivo leído: conjunto_de_datos_cs_enco_2022_03.CSV
Archivo leído: conjunto_de_datos_cs_enco_2022_04.CSV
Archivo leído: conjunto_de_datos_cs_enco_2022_05.CSV
Archivo leído: conjunto_de_datos_cs_enco_2022_06.CSV
Archivo leído: conjunto_de_datos_cs_enco_2022_07.CSV
Archivo leído: conjunto_de_datos_cs_enco_2022_08.CSV
Archivo leído: conjunto_de_datos_cs_enco_2022_09.CSV
Archivo leído: conjunto_de_datos_cs_enco_2022_10.CSV
Archivo leído: conjunto_de_datos_cs_enco_2022_11.CSV
Archivo leído: conjunto_de_datos_cs_enco_2022_12.CSV


Así mismo, vamos a descargar y extraer el conjunto de datos de viviendas de cada uno de los meses del año 2022.

In [6]:
base_path = '/content/enco_2022'

viv_enco = []  # Lista para almacenar los DataFrames de cada archivo

for i in range(1, 13):
    month_str = str(i).zfill(2)
    file_name = f'conjunto_de_datos_viv_enco_2022_{month_str}.CSV'
    folder_path = f'{base_path}/conjunto_de_datos_viv_enco_2022_{month_str}/conjunto_de_datos'
    file_path = os.path.join(folder_path, file_name)
    # Comprobar si el archivo existe antes de intentar leerlo
    if os.path.exists(file_path):
        df = pd.read_csv(file_path)
        viv_enco.append(df)  # Almacenar cada DataFrame
        print(f"Archivo leído: {file_name}")
    else:
        print(f"Archivo no encontrado: {file_name}")

Archivo leído: conjunto_de_datos_viv_enco_2022_01.CSV
Archivo leído: conjunto_de_datos_viv_enco_2022_02.CSV
Archivo leído: conjunto_de_datos_viv_enco_2022_03.CSV
Archivo leído: conjunto_de_datos_viv_enco_2022_04.CSV
Archivo leído: conjunto_de_datos_viv_enco_2022_05.CSV
Archivo leído: conjunto_de_datos_viv_enco_2022_06.CSV
Archivo leído: conjunto_de_datos_viv_enco_2022_07.CSV
Archivo leído: conjunto_de_datos_viv_enco_2022_08.CSV
Archivo leído: conjunto_de_datos_viv_enco_2022_09.CSV
Archivo leído: conjunto_de_datos_viv_enco_2022_10.CSV
Archivo leído: conjunto_de_datos_viv_enco_2022_11.CSV
Archivo leído: conjunto_de_datos_viv_enco_2022_12.CSV


Concatenamos los dataframes para tener los datos del 2022 completos, posteriormente, cortaremos el dataframe para quedarnos únicamente con las columnas que nos interesan.

In [7]:
df_total = pd.concat(viv_enco, ignore_index=True)
df_total

Unnamed: 0,cd,per,mpio,n_ent,ageb,upm,area,fol,ent,con,...,p2,p3,p4,r_inf,r_ele,tel,r_hab,r_nue,r_aus,obs
0,14,122,1,3,049-8,100107,14,12A207,1,40007,...,1,,,2.0,1.0,-,4.0,0.0,0.0,
1,14,122,1,3,049-8,100107,14,12A207,1,40007,...,1,,,1.0,1.0,-,6.0,0.0,0.0,
2,14,122,1,3,049-8,100107,14,12A207,1,40007,...,1,,,5.0,2.0,-,5.0,0.0,0.0,
3,14,122,1,3,049-8,100107,14,12A207,1,40007,...,1,,,2.0,2.0,-,2.0,0.0,0.0,
4,14,122,1,7,3613,101732,14,11B193,1,40048,...,1,,,1.0,1.0,-,2.0,0.0,0.0,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
28027,32,1222,17,7,118-6,3200613,32,12A206,32,40325,...,1,,,2.0,2.0,-,2.0,0.0,0.0,
28028,32,1222,56,3,037-9,3200834,32,12B212,32,40385,...,1,,,2.0,2.0,-,5.0,0.0,0.0,
28029,32,1222,56,3,037-9,3200834,32,12B212,32,40385,...,1,,,1.0,1.0,-,2.0,0.0,0.0,
28030,32,1222,56,3,037-9,3200834,32,12B212,32,40385,...,1,,,1.0,1.0,-,2.0,0.0,0.0,


***NOTA:*** primero juntar con las de viv. por folio para tener las fechas, agebs, etc. luego filtrar todos solo las columnas que se necesitan y por ultimo unir los dataframes.

## ***ENIGH***