#### Script para descargar bases de INEGI de forma automática y no se me olvide!!

In [1]:
# Limpiamos el entorno de trabajo
rm(list = ls())


In [2]:
#Cargamos las librerías necesarias! (Otro día tendré que hacer un archivo para explicar las librerías que más uso)
if(!require('pacman')) install.packages('pacman')
pacman::p_load(tidyverse, srvyr, utils)

Loading required package: pacman



In [3]:
# URL del archivo ZIP 
url_zip <- "https://www.inegi.org.mx/contenidos/programas/enigh/nc/2024/microdatos/enigh2024_ns_poblacion_csv.zip"


In [4]:
# Crear un directorio temporal para guardar el ZIP
temp_dir <- tempdir()
zip_path <- file.path(temp_dir, "archivo.zip")


In [5]:
# Descargar el ZIP
download.file(url_zip, destfile = zip_path, mode = "wb")

# Descomprimir los archivos dentro del ZIP al mismo directorio temporal
unzip(zip_path, exdir = temp_dir)

# Ver qué archivos se extrajeron
list.files(temp_dir)


In [6]:
# Localizar el CSV (ajusta el nombre según el archivo que haya dentro)
csv_file <- list.files(temp_dir, pattern = "poblacion.csv$", full.names = TRUE)[1]   #Aquí solo se modifica el nombre del archivo,
#dependiendo del que quiera :)

# Leer el CSV
datos <- read_csv(csv_file)


"[1m[22mOne or more parsing issues, call `problems()` on your data frame for details,
e.g.:
  dat <- vroom(...)
  problems(dat)"
[1mRows: [22m[34m308598[39m [1mColumns: [22m[34m185[39m
[36m──[39m [1mColumn specification[22m [36m────────────────────────────────────────────────────────[39m
[1mDelimiter:[22m ","
[31mchr[39m  (38): folioviv, numren, madre_id, padre_id, disc_ver, disc_oir, disc_br...
[32mdbl[39m (116): foliohog, parentesco, sexo, edad, madre_hog, padre_hog, pais_nac,...
[33mlgl[39m  (31): otorg_c, forma_c, inscr_8, noatenc_4, noatenc_6, noatenc_7, noate...

[36mℹ[39m Use `spec()` to retrieve the full column specification for this data.
[36mℹ[39m Specify the column types or set `show_col_types = FALSE` to quiet this message.


In [7]:
names(datos)

#### Ya descargué mis datos!. ¿Cómo uso el diseño muestral de una encuesta?

In [8]:
#Vamos a suponer que quiero medir el número de hombres y mujeres en la CDMX de 15 a 60 años

#Limpio mis datos! 

datos<- datos %>%
    select(sexo, edad, entidad, upm, factor, est_dis)%>%
    filter(entidad == '09') %>%
    mutate(edad_objetivo= case_when(
        edad >= 15 & edad <=60 ~ 1, 
        TRUE ~ 0
    )) 


head(datos)

sexo,edad,entidad,upm,factor,est_dis,edad_objetivo
<dbl>,<dbl>,<chr>,<chr>,<dbl>,<chr>,<dbl>
2,75,9,3222,1182,166,0
1,48,9,3222,1182,166,1
1,40,9,3222,1182,166,1
2,40,9,3222,1182,166,1
2,23,9,3222,1182,166,1
1,13,9,3222,1182,166,0


In [9]:
# Ya que tenemos el indicador ... (sonido de tambores)
# Establecemos el diseño muestral!

dm <- datos %>%
    as_survey_design(ids= upm, strata=est_dis, weights= factor)

In [11]:
dato <- dm %>%
  group_by(sexo) %>%
  summarise(
    total_poblacion = survey_total(vartype = "cv"),  # total ponderado
    total_edad_objetivo = survey_total(edad_objetivo, vartype = "cv")  # total 15–60
  ) %>%
  mutate(
    porcentaje_edad_objetivo = (total_edad_objetivo / total_poblacion) * 100,
    sexo = recode(sexo, `1` = "Hombres", `2` = "Mujeres")
  )
dato

sexo,total_poblacion,total_poblacion_cv,total_edad_objetivo,total_edad_objetivo_cv,porcentaje_edad_objetivo
<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>
Hombres,4356216,0.02282543,2898767,0.02655506,66.54323
Mujeres,5025039,0.01938147,3279843,0.02292302,65.27


In [17]:
#Jugando ando 
#Total de la pob de cdmx
pob_tot_cdmx <- dm %>%
    summarise(pob_tot_cdmx = survey_total(vartype = "cv"))
print("Total de la población de la CDMX")
pob_tot_cdmx

[1] "Total de la población de la CDMX"


pob_tot_cdmx,pob_tot_cdmx_cv
<dbl>,<dbl>
9381255,0.01799828


In [13]:
#Cálculo del total de población CDMX
total_cdmx <- dm %>%
  summarise(total_cdmx = survey_total(vartype = NULL)) %>%
  pull(total_cdmx)

# Cálculo por sexo (respecto al total CDMX)
dato <- dm %>%
  group_by(sexo) %>%
  summarise(
    total_edad_objetivo = survey_total(edad_objetivo, vartype = "cv")
  ) %>%
  mutate(
    porcentaje_sobre_total = (total_edad_objetivo / total_cdmx) * 100,
    sexo = recode(sexo, `1` = "Hombres", `2` = "Mujeres"))

#Ver resultados
dato


sexo,total_edad_objetivo,total_edad_objetivo_cv,porcentaje_sobre_total
<chr>,<dbl>,<dbl>,<dbl>
Hombres,2898767,0.02655506,30.89957
Mujeres,3279843,0.02292302,34.96167


In [16]:
#Porcentaje de hombres y mujeres en la cdmx (sin filtro de edad)
hom_muj <- dm %>%
    group_by(sexo)%>%
    summarise(total=survey_total(vartype = "cv"))%>%
    mutate(porcentaje=(total/total_cdmx * 100),
            sexo = recode(sexo, `1` = "Hombres", `2` = "Mujeres"))
print("¡Valores!:")
hom_muj


[1] "¡Valores!:"


sexo,total,total_cv,porcentaje
<chr>,<dbl>,<dbl>,<dbl>
Hombres,4356216,0.02282543,46.43532
Mujeres,5025039,0.01938147,53.56468
