# Transformación y limpieza de datos

In [1]:
# Cargar librerías necesarias
import pandas as pd
import datetime as dt

In [12]:
# Abrimos los archivos
df_agricultura = pd.read_csv("../data/df_agricultura.csv")
df_ganaderia = pd.read_csv("../data/df_pecuaria.csv")
df_pesca = pd.read_csv("../data/df_pesca.csv")
df_imss = pd.read_csv("../data/df_imss.csv")

## 1. Tipo de datos

### 1.1 Agricultura

In [13]:
# Exploramos el DataFrame
df_agricultura.head()

Unnamed: 0.1,Unnamed: 0,ANO,CIERREYAVAN,CICLO,CDDR,NDDR,CMUN,NMUN,CVECUL,CULTIVO,...,SUPCOSE,SUPSINI,PRODTON,RENDMNTO,PMR,VALPROD,CVMES,NMES,CVEVAR,DESVAR
0,0,2006,CIERRE DE PRODUCCION AGRICOLA 2006,1,142,DDR 142 URES,1,ACONCHI,2,Ajo,...,30.0,0.0,156.0,5.2,10000.0,1560.0,,,,
1,1,2006,CIERRE DE PRODUCCION AGRICOLA 2006,1,142,DDR 142 URES,1,ACONCHI,4,Avena forrajera en verde,...,25.0,0.0,925.0,37.0,350.0,323.75,,,,
2,2,2006,CIERRE DE PRODUCCION AGRICOLA 2006,1,142,DDR 142 URES,1,ACONCHI,11,Cebada forrajera en verde,...,140.0,0.0,4760.0,34.0,350.0,1666.0,,,,
3,3,2006,CIERRE DE PRODUCCION AGRICOLA 2006,1,142,DDR 142 URES,1,ACONCHI,44,Rye grass en verde,...,95.0,0.0,3705.0,39.0,400.0,1482.0,,,,
4,4,2006,CIERRE DE PRODUCCION AGRICOLA 2006,1,141,DDR 141 AGUA PRIETA,2,AGUA PRIETA,4,Avena forrajera en verde,...,40.0,0.0,1000.0,25.0,750.0,750.0,,,,


In [14]:
df_agricultura = df_agricultura.drop(columns=['Unnamed: 0'])
df_agricultura.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 19296 entries, 0 to 19295
Data columns (total 20 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   ANO          19296 non-null  int64  
 1   CIERREYAVAN  19296 non-null  object 
 2   CICLO        19296 non-null  int64  
 3   CDDR         19296 non-null  int64  
 4   NDDR         19296 non-null  object 
 5   CMUN         19296 non-null  int64  
 6   NMUN         19296 non-null  object 
 7   CVECUL       19296 non-null  int64  
 8   CULTIVO      19296 non-null  object 
 9   SUPSEM       19296 non-null  float64
 10  SUPCOSE      19296 non-null  float64
 11  SUPSINI      19296 non-null  float64
 12  PRODTON      19296 non-null  float64
 13  RENDMNTO     19281 non-null  float64
 14  PMR          19129 non-null  float64
 15  VALPROD      19296 non-null  float64
 16  CVMES        115 non-null    float64
 17  NMES         115 non-null    object 
 18  CVEVAR       9 non-null      float64
 19  DESV

In [15]:
# Identificamos columnas numericas y categoricas
columnas_numericas_int = ["CVECUL", "CVMES"]
columnas_numericas_float = ["SUPSEM", "SUPCOSE", "SUPSINI", "PRODTON", "RENDMNTO", "PMR", "VALPROD"]
columnas_categoricas = ["CIERREYAVAN", "NDDR", "CDDR", "CMUN", "NMUN", "CVECUL", "CULTIVO", "NMES", "CVEVAR", "DESVAR"]

# Convertimos las variables al tipo adecuado
df_agricultura[columnas_numericas_int] = df_agricultura[columnas_numericas_int].astype(int, errors = 'ignore')
df_agricultura[columnas_numericas_float] = df_agricultura[columnas_numericas_float].astype(float)
df_agricultura[columnas_categoricas] = df_agricultura[columnas_categoricas].astype("category")
df_agricultura['ANO'] = pd.to_datetime(df_agricultura['ANO'], format='%Y')

In [16]:
df_agricultura.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 19296 entries, 0 to 19295
Data columns (total 20 columns):
 #   Column       Non-Null Count  Dtype         
---  ------       --------------  -----         
 0   ANO          19296 non-null  datetime64[ns]
 1   CIERREYAVAN  19296 non-null  category      
 2   CICLO        19296 non-null  int64         
 3   CDDR         19296 non-null  category      
 4   NDDR         19296 non-null  category      
 5   CMUN         19296 non-null  category      
 6   NMUN         19296 non-null  category      
 7   CVECUL       19296 non-null  category      
 8   CULTIVO      19296 non-null  category      
 9   SUPSEM       19296 non-null  float64       
 10  SUPCOSE      19296 non-null  float64       
 11  SUPSINI      19296 non-null  float64       
 12  PRODTON      19296 non-null  float64       
 13  RENDMNTO     19281 non-null  float64       
 14  PMR          19129 non-null  float64       
 15  VALPROD      19296 non-null  float64       
 16  CVME

In [17]:
df_agricultura.head()

Unnamed: 0,ANO,CIERREYAVAN,CICLO,CDDR,NDDR,CMUN,NMUN,CVECUL,CULTIVO,SUPSEM,SUPCOSE,SUPSINI,PRODTON,RENDMNTO,PMR,VALPROD,CVMES,NMES,CVEVAR,DESVAR
0,2006-01-01,CIERRE DE PRODUCCION AGRICOLA 2006,1,142,DDR 142 URES,1,ACONCHI,2,Ajo,30.0,30.0,0.0,156.0,5.2,10000.0,1560.0,,,,
1,2006-01-01,CIERRE DE PRODUCCION AGRICOLA 2006,1,142,DDR 142 URES,1,ACONCHI,4,Avena forrajera en verde,25.0,25.0,0.0,925.0,37.0,350.0,323.75,,,,
2,2006-01-01,CIERRE DE PRODUCCION AGRICOLA 2006,1,142,DDR 142 URES,1,ACONCHI,11,Cebada forrajera en verde,140.0,140.0,0.0,4760.0,34.0,350.0,1666.0,,,,
3,2006-01-01,CIERRE DE PRODUCCION AGRICOLA 2006,1,142,DDR 142 URES,1,ACONCHI,44,Rye grass en verde,95.0,95.0,0.0,3705.0,39.0,400.0,1482.0,,,,
4,2006-01-01,CIERRE DE PRODUCCION AGRICOLA 2006,1,141,DDR 141 AGUA PRIETA,2,AGUA PRIETA,4,Avena forrajera en verde,40.0,40.0,0.0,1000.0,25.0,750.0,750.0,,,,


### 1.2 Ganadería

In [18]:
# Exploramos el DataFrame
df_ganaderia.head()

Unnamed: 0.1,Unnamed: 0,ANO,CIERYAVAN,CDDR,NDDR,CMUN,NMUN,CVEMES,NMES,CVESPE,ESPECIE,PRODUC,UMED,VOLTON,VALPROD
0,0,2013,CIERRE DE PRODUCCION PECUARIA 2013,143,143 MOCTEZUMA,40,NACORI CHICO,,,4,CAPRINO,CARNE,TONELADAS,1.0,34.0
1,1,2013,CIERRE DE PRODUCCION PECUARIA 2013,143,143 MOCTEZUMA,40,NACORI CHICO,,,2,BOVINO,LECHE,MILES DE LITROS,58.0,348.0
2,2,2013,CIERRE DE PRODUCCION PECUARIA 2013,141,141 AGUA PRIETA,41,NACOZARI DE GARCIA,,,1,BOVINO,CARNE,TONELADAS,381.0,15269.0
3,3,2013,CIERRE DE PRODUCCION PECUARIA 2013,148,148 CAJEME,42,NAVOJOA,,,1,BOVINO,CARNE,TONELADAS,294.0,13446.0
4,4,2013,CIERRE DE PRODUCCION PECUARIA 2013,148,148 CAJEME,42,NAVOJOA,,,3,PORCINO,CARNE,TONELADAS,9443.0,274089.0


In [19]:
# Verificamos los tipos de variables
df_ganaderia = df_ganaderia.drop(columns=["Unnamed: 0"])
df_ganaderia.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5082 entries, 0 to 5081
Data columns (total 14 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   ANO        5082 non-null   int64  
 1   CIERYAVAN  5082 non-null   object 
 2   CDDR       5082 non-null   int64  
 3   NDDR       5082 non-null   object 
 4   CMUN       5082 non-null   int64  
 5   NMUN       5082 non-null   object 
 6   CVEMES     2492 non-null   float64
 7   NMES       2492 non-null   object 
 8   CVESPE     5082 non-null   int64  
 9   ESPECIE    5082 non-null   object 
 10  PRODUC     5082 non-null   object 
 11  UMED       5082 non-null   object 
 12  VOLTON     5081 non-null   float64
 13  VALPROD    5081 non-null   float64
dtypes: float64(3), int64(4), object(7)
memory usage: 556.0+ KB


In [20]:
# Identificamos columnas numericas y categoricas
columnas_numericas_int = ["CDDR", "CMUN", "CVEMES", "CVESPE"]
columnas_numericas_float = ["VOLTON", "VALPROD"]
columnas_categoricas = ["CIERYAVAN", "NDDR", "NMUN", "ESPECIE", "PRODUC", "UMED"]

# Convertimos las variables al tipo adecuado
df_ganaderia[columnas_numericas_int] = df_ganaderia[columnas_numericas_int].fillna(0).astype(int)
df_ganaderia[columnas_numericas_float] = df_ganaderia[columnas_numericas_float].astype(float)
df_ganaderia[columnas_categoricas] = df_ganaderia[columnas_categoricas].astype("category")
df_ganaderia['ANO'] = pd.to_datetime(df_ganaderia['ANO'], format='%Y')

In [21]:
df_ganaderia.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5082 entries, 0 to 5081
Data columns (total 14 columns):
 #   Column     Non-Null Count  Dtype         
---  ------     --------------  -----         
 0   ANO        5082 non-null   datetime64[ns]
 1   CIERYAVAN  5082 non-null   category      
 2   CDDR       5082 non-null   int64         
 3   NDDR       5082 non-null   category      
 4   CMUN       5082 non-null   int64         
 5   NMUN       5082 non-null   category      
 6   CVEMES     5082 non-null   int64         
 7   NMES       2492 non-null   object        
 8   CVESPE     5082 non-null   int64         
 9   ESPECIE    5082 non-null   category      
 10  PRODUC     5082 non-null   category      
 11  UMED       5082 non-null   category      
 12  VOLTON     5081 non-null   float64       
 13  VALPROD    5081 non-null   float64       
dtypes: category(6), datetime64[ns](1), float64(2), int64(4), object(1)
memory usage: 352.8+ KB


In [22]:
df_ganaderia.head()

Unnamed: 0,ANO,CIERYAVAN,CDDR,NDDR,CMUN,NMUN,CVEMES,NMES,CVESPE,ESPECIE,PRODUC,UMED,VOLTON,VALPROD
0,2013-01-01,CIERRE DE PRODUCCION PECUARIA 2013,143,143 MOCTEZUMA,40,NACORI CHICO,0,,4,CAPRINO,CARNE,TONELADAS,1.0,34.0
1,2013-01-01,CIERRE DE PRODUCCION PECUARIA 2013,143,143 MOCTEZUMA,40,NACORI CHICO,0,,2,BOVINO,LECHE,MILES DE LITROS,58.0,348.0
2,2013-01-01,CIERRE DE PRODUCCION PECUARIA 2013,141,141 AGUA PRIETA,41,NACOZARI DE GARCIA,0,,1,BOVINO,CARNE,TONELADAS,381.0,15269.0
3,2013-01-01,CIERRE DE PRODUCCION PECUARIA 2013,148,148 CAJEME,42,NAVOJOA,0,,1,BOVINO,CARNE,TONELADAS,294.0,13446.0
4,2013-01-01,CIERRE DE PRODUCCION PECUARIA 2013,148,148 CAJEME,42,NAVOJOA,0,,3,PORCINO,CARNE,TONELADAS,9443.0,274089.0


### 1.3 Pesca

In [23]:
# Exploramos el DataFrame
df_pesca.head()

Unnamed: 0.1,Unnamed: 0,ANO,CDDR,NDDR,CMUN,CVEOF,NOFICINA,CVOTRAS,DOTRAS,CESPE,ESPECIE,CVORIGEN,ORIGEN,PESODESEMB,PVIVO,VALOR
0,0,2016,148,DDR 148 CAJEME,18,2602,CD. OBREGON,1,ALMEJA,1,ALMEJA,1,CAPTURA,648682.0,648682.0,1530609.0
1,1,2016,148,DDR 148 CAJEME,18,2602,CD. OBREGON,11,BERRUGATA,11,BERRUGATA,1,CAPTURA,26174.0,26174.0,309648.0
2,2,2016,148,DDR 148 CAJEME,18,2602,CD. OBREGON,42,OTRAS,13,CALAMAR,1,CAPTURA,2433.0,2433.0,22332.0
3,3,2016,148,DDR 148 CAJEME,18,2602,CD. OBREGON,66,CAMARON,14,CAMARON,2,COSECHA,19993036.0,19733571.0,1737166000.0
4,4,2016,148,DDR 148 CAJEME,18,2602,CD. OBREGON,42,OTRAS,18,CARACOL,1,CAPTURA,75973.0,75973.0,186267.0


In [24]:
# Verificamos los tipos de variables
df_pesca = df_pesca.drop(columns=["Unnamed: 0"])
df_pesca.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3466 entries, 0 to 3465
Data columns (total 15 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   ANO         3466 non-null   int64  
 1   CDDR        3466 non-null   int64  
 2   NDDR        3466 non-null   object 
 3   CMUN        3466 non-null   int64  
 4   CVEOF       3466 non-null   int64  
 5   NOFICINA    3466 non-null   object 
 6   CVOTRAS     3466 non-null   int64  
 7   DOTRAS      3466 non-null   object 
 8   CESPE       3466 non-null   int64  
 9   ESPECIE     3466 non-null   object 
 10  CVORIGEN    3466 non-null   int64  
 11  ORIGEN      3466 non-null   object 
 12  PESODESEMB  3466 non-null   float64
 13  PVIVO       3466 non-null   float64
 14  VALOR       3466 non-null   float64
dtypes: float64(3), int64(7), object(5)
memory usage: 406.3+ KB


In [25]:
# Identificamos columnas numericas y categoricas
columnas_numericas_int = ["CDDR", "CMUN", "CVEOF", "CVOTRAS", "CESPE", "CVORIGEN"]
columnas_numericas_float = ["PESODESEMB", "PVIVO", "VALOR"]
columnas_categoricas = ["NDDR", "NOFICINA", "DOTRAS", "ESPECIE", "ORIGEN"]

# Convertimos las variables al tipo adecuado
df_pesca[columnas_numericas_int] = df_pesca[columnas_numericas_int].astype(int)
df_pesca[columnas_numericas_float] = df_pesca[columnas_numericas_float].astype(float)
df_pesca[columnas_categoricas] = df_pesca[columnas_categoricas].astype("category")
df_pesca['ANO'] = pd.to_datetime(df_pesca['ANO'], format='%Y')

In [26]:
df_pesca.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3466 entries, 0 to 3465
Data columns (total 15 columns):
 #   Column      Non-Null Count  Dtype         
---  ------      --------------  -----         
 0   ANO         3466 non-null   datetime64[ns]
 1   CDDR        3466 non-null   int64         
 2   NDDR        3466 non-null   category      
 3   CMUN        3466 non-null   int64         
 4   CVEOF       3466 non-null   int64         
 5   NOFICINA    3466 non-null   category      
 6   CVOTRAS     3466 non-null   int64         
 7   DOTRAS      3466 non-null   category      
 8   CESPE       3466 non-null   int64         
 9   ESPECIE     3466 non-null   category      
 10  CVORIGEN    3466 non-null   int64         
 11  ORIGEN      3466 non-null   category      
 12  PESODESEMB  3466 non-null   float64       
 13  PVIVO       3466 non-null   float64       
 14  VALOR       3466 non-null   float64       
dtypes: category(5), datetime64[ns](1), float64(3), int64(6)
memory usage: 29

In [27]:
df_pesca.head()

Unnamed: 0,ANO,CDDR,NDDR,CMUN,CVEOF,NOFICINA,CVOTRAS,DOTRAS,CESPE,ESPECIE,CVORIGEN,ORIGEN,PESODESEMB,PVIVO,VALOR
0,2016-01-01,148,DDR 148 CAJEME,18,2602,CD. OBREGON,1,ALMEJA,1,ALMEJA,1,CAPTURA,648682.0,648682.0,1530609.0
1,2016-01-01,148,DDR 148 CAJEME,18,2602,CD. OBREGON,11,BERRUGATA,11,BERRUGATA,1,CAPTURA,26174.0,26174.0,309648.0
2,2016-01-01,148,DDR 148 CAJEME,18,2602,CD. OBREGON,42,OTRAS,13,CALAMAR,1,CAPTURA,2433.0,2433.0,22332.0
3,2016-01-01,148,DDR 148 CAJEME,18,2602,CD. OBREGON,66,CAMARON,14,CAMARON,2,COSECHA,19993036.0,19733571.0,1737166000.0
4,2016-01-01,148,DDR 148 CAJEME,18,2602,CD. OBREGON,42,OTRAS,18,CARACOL,1,CAPTURA,75973.0,75973.0,186267.0


### 1.4 Empleos IMSS

In [28]:
df_imss

NameError: name 'df_imss' is not defined

In [119]:
# Verificamos los tipos de variables
df_imss = df_imss.drop(columns=["Unnamed: 0"])
df_imss.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1576259 entries, 0 to 1576258
Data columns (total 14 columns):
 #   Column              Non-Null Count    Dtype  
---  ------              --------------    -----  
 0   cve_delegacion      1576259 non-null  int64  
 1   cve_subdelegacion   1576259 non-null  int64  
 2   cve_entidad         1576259 non-null  int64  
 3   cve_municipio       1576259 non-null  object 
 4   sector_economico_2  1576259 non-null  float64
 5   sector_economico_4  1576259 non-null  float64
 6   tamaño_patron       1575442 non-null  object 
 7   sexo                1576259 non-null  int64  
 8   rango_edad          1576259 non-null  object 
 9   rango_salarial      1572728 non-null  object 
 10  asegurados          1576259 non-null  int64  
 11  no_trabajadores     1576259 non-null  int64  
 12  año                 1576259 non-null  int64  
 13  mes                 1576259 non-null  int64  
dtypes: float64(2), int64(8), object(4)
memory usage: 168.4+ MB


In [120]:
# Identificamos columnas numericas y categoricas
columnas_numericas_int = ["cve_delegacion", "cve_subdelegacion", "sector_economico_2", "sector_economico_4", "sexo", "asegurados", "no_trabajadores", "año", "mes"]
columnas_categoricas = ["tamaño_patron", "rango_edad", "rango_salarial", "cve_municipio"]

# Convertimos las variables al tipo adecuado
df_imss[columnas_numericas_int] = df_imss[columnas_numericas_int].astype(int)
df_imss[columnas_categoricas] = df_imss[columnas_categoricas].astype("category")


# Crea la columna 'fecha' combinando 'año' y 'mes'
df_imss['fecha'] = pd.to_datetime(df_imss['año'].astype(str) + '-' + df_imss['mes'].astype(str) + '-01')
df_imss['fecha'] = pd.to_datetime(df_imss['fecha'], format='%Y-%m-%d')

In [121]:
df_imss.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1576259 entries, 0 to 1576258
Data columns (total 15 columns):
 #   Column              Non-Null Count    Dtype         
---  ------              --------------    -----         
 0   cve_delegacion      1576259 non-null  int64         
 1   cve_subdelegacion   1576259 non-null  int64         
 2   cve_entidad         1576259 non-null  int64         
 3   cve_municipio       1576259 non-null  category      
 4   sector_economico_2  1576259 non-null  int64         
 5   sector_economico_4  1576259 non-null  int64         
 6   tamaño_patron       1575442 non-null  category      
 7   sexo                1576259 non-null  int64         
 8   rango_edad          1576259 non-null  category      
 9   rango_salarial      1572728 non-null  category      
 10  asegurados          1576259 non-null  int64         
 11  no_trabajadores     1576259 non-null  int64         
 12  año                 1576259 non-null  int64         
 13  mes         

In [122]:
df_imss.head()

Unnamed: 0,cve_delegacion,cve_subdelegacion,cve_entidad,cve_municipio,sector_economico_2,sector_economico_4,tamaño_patron,sexo,rango_edad,rango_salarial,asegurados,no_trabajadores,año,mes,fecha
0,2,4,26,E71,1,101,S1,1,E10,W2,6,0,2006,1,2006-01-01
1,2,4,26,E71,1,101,S1,1,E11,W2,6,0,2006,1,2006-01-01
2,2,4,26,E71,1,101,S1,1,E13,W2,3,0,2006,1,2006-01-01
3,2,4,26,E71,1,101,S1,1,E5,W2,6,0,2006,1,2006-01-01
4,2,4,26,E71,1,101,S1,1,E6,W2,5,0,2006,1,2006-01-01


## 2. Seleccion de variables y generación de una sola tabla para producción agropecuaria y pesquera de SAGARHPA

### 2.1 Agricultura

In [29]:
df_agricultura.head()

Unnamed: 0,ANO,CIERREYAVAN,CICLO,CDDR,NDDR,CMUN,NMUN,CVECUL,CULTIVO,SUPSEM,SUPCOSE,SUPSINI,PRODTON,RENDMNTO,PMR,VALPROD,CVMES,NMES,CVEVAR,DESVAR
0,2006-01-01,CIERRE DE PRODUCCION AGRICOLA 2006,1,142,DDR 142 URES,1,ACONCHI,2,Ajo,30.0,30.0,0.0,156.0,5.2,10000.0,1560.0,,,,
1,2006-01-01,CIERRE DE PRODUCCION AGRICOLA 2006,1,142,DDR 142 URES,1,ACONCHI,4,Avena forrajera en verde,25.0,25.0,0.0,925.0,37.0,350.0,323.75,,,,
2,2006-01-01,CIERRE DE PRODUCCION AGRICOLA 2006,1,142,DDR 142 URES,1,ACONCHI,11,Cebada forrajera en verde,140.0,140.0,0.0,4760.0,34.0,350.0,1666.0,,,,
3,2006-01-01,CIERRE DE PRODUCCION AGRICOLA 2006,1,142,DDR 142 URES,1,ACONCHI,44,Rye grass en verde,95.0,95.0,0.0,3705.0,39.0,400.0,1482.0,,,,
4,2006-01-01,CIERRE DE PRODUCCION AGRICOLA 2006,1,141,DDR 141 AGUA PRIETA,2,AGUA PRIETA,4,Avena forrajera en verde,40.0,40.0,0.0,1000.0,25.0,750.0,750.0,,,,


In [30]:
df_agricultura.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 19296 entries, 0 to 19295
Data columns (total 20 columns):
 #   Column       Non-Null Count  Dtype         
---  ------       --------------  -----         
 0   ANO          19296 non-null  datetime64[ns]
 1   CIERREYAVAN  19296 non-null  category      
 2   CICLO        19296 non-null  int64         
 3   CDDR         19296 non-null  category      
 4   NDDR         19296 non-null  category      
 5   CMUN         19296 non-null  category      
 6   NMUN         19296 non-null  category      
 7   CVECUL       19296 non-null  category      
 8   CULTIVO      19296 non-null  category      
 9   SUPSEM       19296 non-null  float64       
 10  SUPCOSE      19296 non-null  float64       
 11  SUPSINI      19296 non-null  float64       
 12  PRODTON      19296 non-null  float64       
 13  RENDMNTO     19281 non-null  float64       
 14  PMR          19129 non-null  float64       
 15  VALPROD      19296 non-null  float64       
 16  CVME

Vemos que las variables de mes y variedad de cultivo tienen más del 90% de datos faltantes, por lo que hemos decidido prescindir de estas variables. Además, como queremos generar un solo DataFrame con los tres DataFrames de agricultura, ganadería y pesca, necesitamos seleccionar las variables que de alguna manera son correspondientes y que nos permitirán contrastar produccion con trabajos generados.

In [31]:
# Seleccionamos las columnas de agricultura que conservaremos
columnas_agricultura =["ANO", "CDDR", "CMUN", "CVECUL", "PRODTON", "VALPROD"]
df_agricultura_seleccion = df_agricultura[columnas_agricultura]
df_agricultura_seleccion["SECTOR"] = "Agricultura"
df_agricultura_seleccion

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_agricultura_seleccion["SECTOR"] = "Agricultura"


Unnamed: 0,ANO,CDDR,CMUN,CVECUL,PRODTON,VALPROD,SECTOR
0,2006-01-01,142,1,2,156.0,1560.00,Agricultura
1,2006-01-01,142,1,4,925.0,323.75,Agricultura
2,2006-01-01,142,1,11,4760.0,1666.00,Agricultura
3,2006-01-01,142,1,44,3705.0,1482.00,Agricultura
4,2006-01-01,141,2,4,1000.0,750.00,Agricultura
...,...,...,...,...,...,...,...
19291,2022-01-01,139,17,51,3700.0,33869.50,Agricultura
19292,2022-01-01,139,17,929,330.0,1270.50,Agricultura
19293,2022-01-01,139,17,930,77380.0,2473207.95,Agricultura
19294,2022-01-01,139,17,932,17100.0,306491.00,Agricultura


Abrimos el catálogo de agricultura

In [32]:
# Especificamos la ruta del archivo Excel
archivo_excel = "../data/cat_Agricultura.xlsx"

# Abrimos el archivo Excel usando ExcelFile
xls = pd.ExcelFile(archivo_excel)

# Obtenemos una lista de las hojas disponibles en el archivo Excel
hojas = xls.sheet_names

# Imprime la lista de hojas
print("Pestañas (hojas) en el archivo Excel:\n")
for hoja in hojas:
    print(hoja)

Pestañas (hojas) en el archivo Excel:

ClasificaciónCultivos
CiclosCultivos
Distritos
Municipios
Regiones


In [33]:
# Especificamos los nombres de las hojas que deseamos abrir
cat_clasificacion_cultivo = "ClasificaciónCultivos"
cat_distritos = "Distritos"
cat_municipios = "Municipios"
cat_regiones = "Regiones"

# Utilizamos pandas para leer las hojas específicas del archivo Excel
df_cat_clasificacion_cultivo = pd.read_excel(archivo_excel, sheet_name=cat_clasificacion_cultivo)
df_cat_distritos = pd.read_excel(archivo_excel, sheet_name=cat_distritos)
df_cat_municipios = pd.read_excel(archivo_excel, sheet_name=cat_municipios)
df_cat_regiones = pd.read_excel(archivo_excel, sheet_name=cat_regiones)


In [34]:
# Haremos merge para agregar las categorias que deseamos

# Cultivos
# Limpiamos el catálogo
df_cat_clasificacion_cultivo["DESCRIP"] = df_cat_clasificacion_cultivo["DESCRIP"].astype(str).str.capitalize().str.strip()
df_cat_clasificacion_cultivo["FOTOS"] = df_cat_clasificacion_cultivo["FOTOS"].astype(str).str.capitalize().str.strip()
df_cat_clasificacion_cultivo = df_cat_clasificacion_cultivo.drop(columns = ["CCILO", "TIPO"]).drop_duplicates()

# Hacemos left merge
df_agricultura_seleccion = pd.merge(df_agricultura_seleccion, df_cat_clasificacion_cultivo, left_on='CVECUL', right_on='CULTIVO', how='left')

# Seleccionamos las columnas que utilizaremos
df_agricultura_seleccion = df_agricultura_seleccion[["ANO", "SECTOR", "CDDR", "CMUN", "DESCRIP", "FOTOS", "PRODTON", "VALPROD"]]
df_agricultura_seleccion.columns = ["ANO", "SECTOR", "CVE_DDR", "CVE_MUN", "ESPECIE_CULTIVO", "TIPO", "PRODTON", "VALPROD"]

In [35]:
df_agricultura_seleccion

Unnamed: 0,ANO,SECTOR,CVE_DDR,CVE_MUN,ESPECIE_CULTIVO,TIPO,PRODTON,VALPROD
0,2006-01-01,Agricultura,142,1,Ajo,Hortalizas,156.0,1560.00
1,2006-01-01,Agricultura,142,1,Avena forrajera en verde,Plantas forrajeras,925.0,323.75
2,2006-01-01,Agricultura,142,1,Cebada forrajera en verde,Plantas forrajeras,4760.0,1666.00
3,2006-01-01,Agricultura,142,1,Rye grass en verde,Plantas forrajeras,3705.0,1482.00
4,2006-01-01,Agricultura,141,2,Avena forrajera en verde,Plantas forrajeras,1000.0,750.00
...,...,...,...,...,...,...,...,...
19291,2022-01-01,Agricultura,139,17,Trigo grano,Cereales,3700.0,33869.50
19292,2022-01-01,Agricultura,139,17,Uva industrial,Frutales,330.0,1270.50
19293,2022-01-01,Agricultura,139,17,Uva mesa,Frutales,77380.0,2473207.95
19294,2022-01-01,Agricultura,139,17,Uva pasa,Frutales,17100.0,306491.00


### 2.2 Ganadería

In [36]:
df_ganaderia.head()

Unnamed: 0,ANO,CIERYAVAN,CDDR,NDDR,CMUN,NMUN,CVEMES,NMES,CVESPE,ESPECIE,PRODUC,UMED,VOLTON,VALPROD
0,2013-01-01,CIERRE DE PRODUCCION PECUARIA 2013,143,143 MOCTEZUMA,40,NACORI CHICO,0,,4,CAPRINO,CARNE,TONELADAS,1.0,34.0
1,2013-01-01,CIERRE DE PRODUCCION PECUARIA 2013,143,143 MOCTEZUMA,40,NACORI CHICO,0,,2,BOVINO,LECHE,MILES DE LITROS,58.0,348.0
2,2013-01-01,CIERRE DE PRODUCCION PECUARIA 2013,141,141 AGUA PRIETA,41,NACOZARI DE GARCIA,0,,1,BOVINO,CARNE,TONELADAS,381.0,15269.0
3,2013-01-01,CIERRE DE PRODUCCION PECUARIA 2013,148,148 CAJEME,42,NAVOJOA,0,,1,BOVINO,CARNE,TONELADAS,294.0,13446.0
4,2013-01-01,CIERRE DE PRODUCCION PECUARIA 2013,148,148 CAJEME,42,NAVOJOA,0,,3,PORCINO,CARNE,TONELADAS,9443.0,274089.0


In [37]:
# Seleccionamos las columnas de ganaderia que conservaremos
columnas_ganaderia =["ANO", "CDDR", "CMUN", "CVESPE", "PRODUC", "VOLTON", "VALPROD"]
df_ganaderia_seleccion = df_ganaderia[columnas_ganaderia]
df_ganaderia_seleccion['SECTOR']="Ganadería"
df_ganaderia_seleccion

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_ganaderia_seleccion['SECTOR']="Ganadería"


Unnamed: 0,ANO,CDDR,CMUN,CVESPE,PRODUC,VOLTON,VALPROD,SECTOR
0,2013-01-01,143,40,4,CARNE,1.0,34.0,Ganadería
1,2013-01-01,143,40,2,LECHE,58.0,348.0,Ganadería
2,2013-01-01,141,41,1,CARNE,381.0,15269.0,Ganadería
3,2013-01-01,148,42,1,CARNE,294.0,13446.0,Ganadería
4,2013-01-01,148,42,3,CARNE,9443.0,274089.0,Ganadería
...,...,...,...,...,...,...,...,...
5077,2008-01-01,142,66,3,CARNE,3429.0,60228.0,Ganadería
5078,2008-01-01,142,66,6,CARNE,18.0,511.0,Ganadería
5079,2008-01-01,142,66,2,LECHE,3717.0,17635.0,Ganadería
5080,2008-01-01,142,66,7,HUEVO,748.0,8250.0,Ganadería


**Carga de catálogo**

In [38]:
# Especificamos la ruta del archivo Excel
archivo_excel = "../data/cat_Ganaderia.xlsx"

# Abrimos el archivo Excel usando ExcelFile
xls = pd.ExcelFile(archivo_excel)

# Obtenemos una lista de las hojas disponibles en el archivo Excel
hojas = xls.sheet_names

# Imprime la lista de hojas
print("Pestañas (hojas) en el archivo Excel:\n")
for hoja in hojas:
    print(hoja)

Pestañas (hojas) en el archivo Excel:

Catálogo_Ganadería
Distritos
Municipios
Regiones


In [39]:
# Especificamos los nombres de las hojas que deseamos abrir
cat_clasificacion_ganaderia = "Catálogo_Ganadería"

# Utilizamos pandas para leer las hojas específicas del archivo Excel
df_cat_ganaderia = pd.read_excel(archivo_excel, sheet_name=cat_clasificacion_ganaderia)
df_cat_ganaderia

Unnamed: 0,cvespe,espe,produc,umedida
0,1,BOVINO,CARNE,TONELADAS
1,2,BOVINO,LECHE,MILES DE LITROS
2,3,PORCINO,CARNE,TONELADAS
3,4,CAPRINO,CARNE,TONELADAS
4,5,CAPRINO,LECHE,MILES DE LITROS
5,6,OVINO,CARNE,TONELADAS
6,7,AVE,HUEVO,TONELADAS
7,8,AVE,CARNE,TONELADAS
8,9,ABEJA,MIEL,TONELADAS
9,10,GUAJOLOTE,CARNE,TONELADAS


In [40]:
# Haremos merge para agregar las categorias que deseamos

# Ganadería
# Limpiamos el catálogo
df_cat_ganaderia["espe"] = df_cat_ganaderia["espe"].astype(str).str.capitalize().str.strip()
df_cat_ganaderia["produc"] = df_cat_ganaderia["produc"].astype(str).str.capitalize().str.strip()
df_cat_ganaderia = df_cat_ganaderia.drop(columns = ["umedida"]).drop_duplicates()

# Hacemos left merge
df_ganaderia_seleccion = pd.merge(df_ganaderia_seleccion, df_cat_ganaderia, left_on='CVESPE', right_on='cvespe', how='left')

# Seleccionamos las columnas que utilizaremos
df_ganaderia_seleccion = df_ganaderia_seleccion[["ANO", "SECTOR", "CDDR", "CMUN", "espe", "produc", "VOLTON", "VALPROD"]]
df_ganaderia_seleccion.columns = ["ANO", "SECTOR", "CVE_DDR", "CVE_MUN", "ESPECIE_CULTIVO", "TIPO", "PRODTON", "VALPROD"]

In [41]:
df_ganaderia_seleccion

Unnamed: 0,ANO,SECTOR,CVE_DDR,CVE_MUN,ESPECIE_CULTIVO,TIPO,PRODTON,VALPROD
0,2013-01-01,Ganadería,143,40,Caprino,Carne,1.0,34.0
1,2013-01-01,Ganadería,143,40,Bovino,Leche,58.0,348.0
2,2013-01-01,Ganadería,141,41,Bovino,Carne,381.0,15269.0
3,2013-01-01,Ganadería,148,42,Bovino,Carne,294.0,13446.0
4,2013-01-01,Ganadería,148,42,Porcino,Carne,9443.0,274089.0
...,...,...,...,...,...,...,...,...
5077,2008-01-01,Ganadería,142,66,Porcino,Carne,3429.0,60228.0
5078,2008-01-01,Ganadería,142,66,Ovino,Carne,18.0,511.0
5079,2008-01-01,Ganadería,142,66,Bovino,Leche,3717.0,17635.0
5080,2008-01-01,Ganadería,142,66,Ave,Huevo,748.0,8250.0


### 2.3 Pesca

In [42]:
df_pesca.head()

Unnamed: 0,ANO,CDDR,NDDR,CMUN,CVEOF,NOFICINA,CVOTRAS,DOTRAS,CESPE,ESPECIE,CVORIGEN,ORIGEN,PESODESEMB,PVIVO,VALOR
0,2016-01-01,148,DDR 148 CAJEME,18,2602,CD. OBREGON,1,ALMEJA,1,ALMEJA,1,CAPTURA,648682.0,648682.0,1530609.0
1,2016-01-01,148,DDR 148 CAJEME,18,2602,CD. OBREGON,11,BERRUGATA,11,BERRUGATA,1,CAPTURA,26174.0,26174.0,309648.0
2,2016-01-01,148,DDR 148 CAJEME,18,2602,CD. OBREGON,42,OTRAS,13,CALAMAR,1,CAPTURA,2433.0,2433.0,22332.0
3,2016-01-01,148,DDR 148 CAJEME,18,2602,CD. OBREGON,66,CAMARON,14,CAMARON,2,COSECHA,19993036.0,19733571.0,1737166000.0
4,2016-01-01,148,DDR 148 CAJEME,18,2602,CD. OBREGON,42,OTRAS,18,CARACOL,1,CAPTURA,75973.0,75973.0,186267.0


PESO DESEMBARCADO. Peso que, al desembarque, conserva el producto en sus distintas modalidades: descabezado, fileteado, eviscerado, en pulpa, rebanado u otras.

PESO VIVO. Peso total del producto en el momento de su captura. Se estima mediante factores de conversión aplicados al peso desembarcado, conforme a la metodología empleada por la FAO; tales factores son establecidos por el Instituto Nacional de la Pesca.

In [43]:
# Seleccionamos las columnas de pesca que conservaremos
columnas_pesca =["ANO", "CDDR", "CMUN", "CESPE", "ORIGEN", "PESODESEMB", "VALOR"]
df_pesca_seleccion = df_pesca[columnas_pesca]
df_pesca_seleccion['SECTOR']="Pesca"
df_pesca_seleccion

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_pesca_seleccion['SECTOR']="Pesca"


Unnamed: 0,ANO,CDDR,CMUN,CESPE,ORIGEN,PESODESEMB,VALOR,SECTOR
0,2016-01-01,148,18,1,CAPTURA,648682.0,1.530609e+06,Pesca
1,2016-01-01,148,18,11,CAPTURA,26174.0,3.096480e+05,Pesca
2,2016-01-01,148,18,13,CAPTURA,2433.0,2.233200e+04,Pesca
3,2016-01-01,148,18,14,COSECHA,19993036.0,1.737166e+09,Pesca
4,2016-01-01,148,18,18,CAPTURA,75973.0,1.862670e+05,Pesca
...,...,...,...,...,...,...,...,...
3461,2015-01-01,144,30,50,CAPTURA,5000.0,4.900000e+04,Pesca
3462,2015-01-01,139,47,66,CAPTURA,0.0,0.000000e+00,Pesca
3463,2015-01-01,144,30,46,CAPTURA,1000.0,8.000000e+03,Pesca
3464,2015-01-01,147,29,24,CAPTURA,0.0,0.000000e+00,Pesca


**Carga de catálogo**

In [44]:
# Especificamos la ruta del archivo Excel
archivo_excel = "../data/cat_Pesca.xlsx"

# Abrimos el archivo Excel usando ExcelFile
xls = pd.ExcelFile(archivo_excel)

# Obtenemos una lista de las hojas disponibles en el archivo Excel
hojas = xls.sheet_names

# Imprime la lista de hojas
print("Pestañas (hojas) en el archivo Excel:\n")
for hoja in hojas:
    print(hoja)

Pestañas (hojas) en el archivo Excel:

Especie_Pesca
Distritos
Municipios
Regiones


In [45]:
# Especificamos los nombres de las hojas que deseamos abrir
cat_clasificacion_pesca = "Especie_Pesca"

# Utilizamos pandas para leer las hojas específicas del archivo Excel
df_cat_pesca = pd.read_excel(archivo_excel, sheet_name=cat_clasificacion_pesca)
df_cat_pesca

Unnamed: 0,CVESPE,ESPECIE
0,1,Almeja
1,2,Almeja
2,3,Anchoveta
3,4,Atún
4,6,Bagre
...,...,...
63,68,Abulón
64,69,Caracol
65,71,Almeja
66,72,Peto


In [46]:
# Haremos merge para agregar las categorias que deseamos

# Pesca
# Limpiamos el catálogo
df_cat_pesca["ESPECIE"] = df_cat_pesca["ESPECIE"].astype(str).str.capitalize().str.strip()
df_cat_pesca = df_cat_pesca.drop_duplicates()

# Hacemos left merge
df_pesca_seleccion = pd.merge(df_pesca_seleccion, df_cat_pesca, left_on='CESPE', right_on='CVESPE', how='left')

# Limpiamos la columna origen
df_pesca_seleccion["ORIGEN"] = df_pesca_seleccion["ORIGEN"].astype(str).str.capitalize().str.strip()

# Seleccionamos las columnas que utilizaremos
df_pesca_seleccion = df_pesca_seleccion[["ANO", "SECTOR", "CDDR", "CMUN", "ESPECIE", "ORIGEN", "PESODESEMB", "VALOR"]]
df_pesca_seleccion.columns = ["ANO", "SECTOR", "CVE_DDR", "CVE_MUN", "ESPECIE_CULTIVO", "TIPO", "PRODTON", "VALPROD"]

# Adecuamos lel valor producido ya que agricultura y ganaderia maneja miles de pesos mientras que pesca tiene valores en pesos MXN
df_pesca_seleccion["VALPROD"]= df_pesca_seleccion["VALPROD"]/1000
df_pesca_seleccion["PRODTON"]= df_pesca_seleccion["PRODTON"]/1000


In [47]:
df_pesca_seleccion

Unnamed: 0,ANO,SECTOR,CVE_DDR,CVE_MUN,ESPECIE_CULTIVO,TIPO,PRODTON,VALPROD
0,2016-01-01,Pesca,148,18,Almeja,Captura,648.682,1530.609
1,2016-01-01,Pesca,148,18,Berrugata,Captura,26.174,309.648
2,2016-01-01,Pesca,148,18,Calamar,Captura,2.433,22.332
3,2016-01-01,Pesca,148,18,Camarón,Cosecha,19993.036,1737166.048
4,2016-01-01,Pesca,148,18,Caracol,Captura,75.973,186.267
...,...,...,...,...,...,...,...,...
3461,2015-01-01,Pesca,144,30,Ronco,Captura,5.000,49.000
3462,2015-01-01,Pesca,139,47,Camarón,Captura,0.000,0.000
3463,2015-01-01,Pesca,144,30,Pierna,Captura,1.000,8.000
3464,2015-01-01,Pesca,147,29,Fauna,Captura,0.000,0.000


### 2.4 Juntar en tabla general de agropecuario y pesquero (AGP, Agricultura-Ganadería-Pesca)

In [48]:
df_agp = pd.concat([df_agricultura_seleccion, df_ganaderia_seleccion, df_pesca_seleccion], axis=0)
df_agp = df_agp.reset_index(drop=True)
df_agp

Unnamed: 0,ANO,SECTOR,CVE_DDR,CVE_MUN,ESPECIE_CULTIVO,TIPO,PRODTON,VALPROD
0,2006-01-01,Agricultura,142,1,Ajo,Hortalizas,156.0,1560.00
1,2006-01-01,Agricultura,142,1,Avena forrajera en verde,Plantas forrajeras,925.0,323.75
2,2006-01-01,Agricultura,142,1,Cebada forrajera en verde,Plantas forrajeras,4760.0,1666.00
3,2006-01-01,Agricultura,142,1,Rye grass en verde,Plantas forrajeras,3705.0,1482.00
4,2006-01-01,Agricultura,141,2,Avena forrajera en verde,Plantas forrajeras,1000.0,750.00
...,...,...,...,...,...,...,...,...
27839,2015-01-01,Pesca,144,30,Ronco,Captura,5.0,49.00
27840,2015-01-01,Pesca,139,47,Camarón,Captura,0.0,0.00
27841,2015-01-01,Pesca,144,30,Pierna,Captura,1.0,8.00
27842,2015-01-01,Pesca,147,29,Fauna,Captura,0.0,0.00


In [49]:
columnas_categoricas = ["SECTOR", "ESPECIE_CULTIVO", "TIPO"]
df_agp[columnas_categoricas] = df_agp[columnas_categoricas].astype("category")
df_agp[['PRODTON','VALPROD']]= df_agp[['PRODTON','VALPROD']].fillna(0)
df_agp.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 27844 entries, 0 to 27843
Data columns (total 8 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   ANO              27844 non-null  datetime64[ns]
 1   SECTOR           27844 non-null  category      
 2   CVE_DDR          27844 non-null  int64         
 3   CVE_MUN          27844 non-null  int64         
 4   ESPECIE_CULTIVO  27844 non-null  category      
 5   TIPO             27844 non-null  category      
 6   PRODTON          27844 non-null  float64       
 7   VALPROD          27844 non-null  float64       
dtypes: category(3), datetime64[ns](1), float64(2), int64(2)
memory usage: 1.2 MB


## 3. Seleccion de variables y generación de tabla tidy de IMSS

In [None]:
df_imss

Unnamed: 0,cve_delegacion,cve_subdelegacion,cve_entidad,cve_municipio,sector_economico_2,sector_economico_4,tamaño_patron,sexo,rango_edad,rango_salarial,asegurados,no_trabajadores,año,mes,fecha
0,2,4,26,E71,1,101,S1,1,E10,W2,6,0,2006,1,2006-01-01
1,2,4,26,E71,1,101,S1,1,E11,W2,6,0,2006,1,2006-01-01
2,2,4,26,E71,1,101,S1,1,E13,W2,3,0,2006,1,2006-01-01
3,2,4,26,E71,1,101,S1,1,E5,W2,6,0,2006,1,2006-01-01
4,2,4,26,E71,1,101,S1,1,E6,W2,5,0,2006,1,2006-01-01
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1576254,27,70,26,Y96,4,403,S3,1,E9,W9,1,0,2022,12,2022-12-01
1576255,27,70,26,Y96,4,403,S3,2,E4,W4,1,0,2022,12,2022-12-01
1576256,27,70,26,Y96,4,403,S3,2,E5,W3,1,0,2022,12,2022-12-01
1576257,27,70,26,Y96,4,403,S3,2,E6,W2,1,0,2022,12,2022-12-01


Vemos que varias columnas del dataframe se encuentran codificadas, por lo que tendremos que hacer uso de los catálogos para decodificarlas.

Además, para tener el mismo nivel de granularidad geográfica y ser consistente con los datos de SAGARHPA nos quedaremos hasta el nivel municipio, por lo que podemos deshacernos de las columnas de delegación y subdelegación.

In [None]:
# Nos deshacemos de las columnas delegacion y subdelegacion
df_imss_seleccion = df_imss.drop(columns = ["cve_delegacion", "cve_subdelegacion"])
df_imss_seleccion.head()

Unnamed: 0,cve_entidad,cve_municipio,sector_economico_2,sector_economico_4,tamaño_patron,sexo,rango_edad,rango_salarial,asegurados,no_trabajadores,año,mes,fecha
0,26,E71,1,101,S1,1,E10,W2,6,0,2006,1,2006-01-01
1,26,E71,1,101,S1,1,E11,W2,6,0,2006,1,2006-01-01
2,26,E71,1,101,S1,1,E13,W2,3,0,2006,1,2006-01-01
3,26,E71,1,101,S1,1,E5,W2,6,0,2006,1,2006-01-01
4,26,E71,1,101,S1,1,E6,W2,5,0,2006,1,2006-01-01


In [None]:
# Abrimos catálogos que utilizaremos 
df_cat_entidad_municipio_imss = pd.read_csv("../data/imss_cat/imss_entidad-municipio.csv")
df_cat_sector_1_imss = pd.read_csv("../data/imss_cat/imss_sector_1.csv")
df_cat_sector_2_imss = pd.read_csv("../data/imss_cat/imss_sector_2.csv")
df_cat_sector_4_imss = pd.read_csv("../data/imss_cat/imss_sector_4.csv")
df_cat_tamaño_patron_imss = pd.read_csv("../data/imss_cat/imss_Tamaño_de_registro_patronal.csv")
df_cat_sexo_imss = pd.read_csv("../data/imss_cat/imss_sexo.csv")
df_cat_edad_imss = pd.read_csv("../data/imss_cat/imss_Rango_edad.csv")
df_cat_salario_imss = pd.read_csv("../data/imss_cat/imss_Rango_salario.csv")

In [None]:
# Limpieza de catalogo de municipios
df_cat_entidad_municipio_imss.columns = df_cat_entidad_municipio_imss.iloc[0,]
df_cat_entidad_municipio_imss = df_cat_entidad_municipio_imss.iloc[1:,].reset_index(drop=True)
df_cat_entidad_municipio_imss = df_cat_entidad_municipio_imss.loc[df_cat_entidad_municipio_imss["cve_entidad"]=="26"]
df_cat_entidad_municipio_imss = df_cat_entidad_municipio_imss[["cve_municipio", "descripción municipio"]]
df_cat_entidad_municipio_imss.columns = ["cve_municipio", "municipio"]
# Creamos columna de nombre de municipios en mayusculas ya que la clave no coincide con la que manejamos en SAGARHPA
df_cat_entidad_municipio_imss["municipio_mayuscula"] = df_cat_entidad_municipio_imss["municipio"].str.upper()
df_cat_entidad_municipio_imss.head()

# Hacemos left merge
df_imss_seleccion = pd.merge(df_imss_seleccion, df_cat_entidad_municipio_imss, left_on='cve_municipio', right_on='cve_municipio', how='left')

# Eliminamos columnas innecesarias
df_imss_seleccion = df_imss_seleccion.drop(columns=["cve_entidad", "cve_municipio", "municipio"])
df_imss_seleccion.head()

Unnamed: 0,sector_economico_2,sector_economico_4,tamaño_patron,sexo,rango_edad,rango_salarial,asegurados,no_trabajadores,año,mes,fecha,municipio_mayuscula
0,1,101,S1,1,E10,W2,6,0,2006,1,2006-01-01,SAN LUIS RÍO COLORADO
1,1,101,S1,1,E11,W2,6,0,2006,1,2006-01-01,SAN LUIS RÍO COLORADO
2,1,101,S1,1,E13,W2,3,0,2006,1,2006-01-01,SAN LUIS RÍO COLORADO
3,1,101,S1,1,E5,W2,6,0,2006,1,2006-01-01,SAN LUIS RÍO COLORADO
4,1,101,S1,1,E6,W2,5,0,2006,1,2006-01-01,SAN LUIS RÍO COLORADO


In [None]:
# Limpieza de catalogos de sectores economicos
df_cat_sector_1_imss.columns  = df_cat_sector_1_imss.iloc[0,]
df_cat_sector_1_imss = df_cat_sector_1_imss.iloc[1:,]
df_cat_sector_1_imss = pd.concat([df_cat_sector_1_imss, df_cat_sector_1_imss.iloc[2:3,:]], axis=0, ignore_index=True)
df_cat_sector_1_imss.loc[2,"sector_economico_1"] = 2
df_cat_sector_1_imss.loc[9,"sector_economico_1"] = 3
df_cat_sector_1_imss["sector_economico_1"] = pd.to_numeric(df_cat_sector_1_imss["sector_economico_1"])
df_cat_sector_1_imss

Unnamed: 0,0,sector_economico_1,descripción sector_economico_1
0,1,0,"Agricultura, ganadería, silvicultura, pesca y ..."
1,2,1,Industrias extractivas
2,3,2,Industrias de transformación
3,4,4,Industria de la construcción
4,5,5,"Industria eléctrica, y captación y suministro ..."
5,6,6,Comercio
6,7,7,Transportes y comunicaciones
7,8,8,"Servicios para empresas, personas y el hogar"
8,9,9,Servicios sociales y comunales
9,3,3,Industrias de transformación


In [None]:
# Limpieza de catalogos de sectores economicos
df_cat_sector_2_imss.columns  = df_cat_sector_2_imss.iloc[0,]
df_cat_sector_2_imss = df_cat_sector_2_imss.iloc[1:,]
df_cat_sector_2_imss["sector_economico_2"] = pd.to_numeric(df_cat_sector_2_imss["sector_economico_2"])
df_cat_sector_2_imss["sector_economico_2_2pos"] = pd.to_numeric(df_cat_sector_2_imss["sector_economico_2_2pos"])
df_cat_sector_2_imss = df_cat_sector_2_imss[["sector_economico_2_2pos", "descripción sector_economico_2"]]
df_cat_sector_2_imss

Unnamed: 0,sector_economico_2_2pos,descripción sector_economico_2
1,1,Agricultura
2,2,Ganadería
3,3,Silvicultura
4,4,Pesca
5,5,Caza
...,...,...
58,91,"Servicios de enseñanza, investigación científi..."
59,92,"Servicios médicos, asistencia social y veterin..."
60,93,"Agrupaciones mercantiles, profesionales, cívic..."
61,94,Servicios de administración pública y segurida...


In [None]:
# Hacemos left merge
df_imss_seleccion = pd.merge(df_imss_seleccion, df_cat_sector_2_imss, left_on='sector_economico_2', right_on="sector_economico_2_2pos", how='left')
df_imss_seleccion

Unnamed: 0,sector_economico_2,sector_economico_4,tamaño_patron,sexo,rango_edad,rango_salarial,asegurados,no_trabajadores,año,mes,fecha,municipio_mayuscula,sector_economico_2_2pos,descripción sector_economico_2
0,1,101,S1,1,E10,W2,6,0,2006,1,2006-01-01,SAN LUIS RÍO COLORADO,1,Agricultura
1,1,101,S1,1,E11,W2,6,0,2006,1,2006-01-01,SAN LUIS RÍO COLORADO,1,Agricultura
2,1,101,S1,1,E13,W2,3,0,2006,1,2006-01-01,SAN LUIS RÍO COLORADO,1,Agricultura
3,1,101,S1,1,E5,W2,6,0,2006,1,2006-01-01,SAN LUIS RÍO COLORADO,1,Agricultura
4,1,101,S1,1,E6,W2,5,0,2006,1,2006-01-01,SAN LUIS RÍO COLORADO,1,Agricultura
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1576254,4,403,S3,1,E9,W9,1,0,2022,12,2022-12-01,SAN IGNACIO RÍO MUERTO,4,Pesca
1576255,4,403,S3,2,E4,W4,1,0,2022,12,2022-12-01,SAN IGNACIO RÍO MUERTO,4,Pesca
1576256,4,403,S3,2,E5,W3,1,0,2022,12,2022-12-01,SAN IGNACIO RÍO MUERTO,4,Pesca
1576257,4,403,S3,2,E6,W2,1,0,2022,12,2022-12-01,SAN IGNACIO RÍO MUERTO,4,Pesca


In [None]:
# Limpieza de catalogos de sectores economicos
df_cat_sector_4_imss.columns  = df_cat_sector_4_imss.iloc[0,]
df_cat_sector_4_imss = df_cat_sector_4_imss.iloc[1:,]
df_cat_sector_4_imss = df_cat_sector_4_imss.loc[df_cat_sector_4_imss["sector_economico_1"]=="0"]
df_cat_sector_4_imss["sector_economico_4"] = pd.to_numeric(df_cat_sector_4_imss["sector_economico_4_4_pos"])
df_cat_sector_4_imss["sector_economico_2"] = pd.to_numeric(df_cat_sector_4_imss["sector_economico_2"])
df_cat_sector_4_imss = df_cat_sector_4_imss[["sector_economico_4", "descripción sector_economico_4"]]
df_cat_sector_4_imss

Unnamed: 0,sector_economico_4,descripción sector_economico_4
1,101,Agricultura
2,201,Cría y explotación de ganado y otras clases de...
3,301,Explotación de bosques madereros; extracción d...
4,401,Pesca de altura y costera
5,402,Pesca en aguas interiores
6,403,Acuicultura
7,404,Trabajos de buceo
8,500,Caza


In [None]:
# Hacemos left merge
df_imss_seleccion = pd.merge(df_imss_seleccion, df_cat_sector_4_imss, left_on=['sector_economico_4'], right_on=['sector_economico_4'], how='left')

# Seleccionamos columnas
df_imss_seleccion = df_imss_seleccion.drop(columns=["sector_economico_1", "sector_economico_2", "sector_economico_4", "sector_economico_2_2pos", 0], errors = 'ignore')
# Exploramos el dataframe
df_imss_seleccion

Unnamed: 0,tamaño_patron,sexo,rango_edad,rango_salarial,asegurados,no_trabajadores,año,mes,fecha,municipio_mayuscula,descripción sector_economico_2,descripción sector_economico_4
0,S1,1,E10,W2,6,0,2006,1,2006-01-01,SAN LUIS RÍO COLORADO,Agricultura,Agricultura
1,S1,1,E11,W2,6,0,2006,1,2006-01-01,SAN LUIS RÍO COLORADO,Agricultura,Agricultura
2,S1,1,E13,W2,3,0,2006,1,2006-01-01,SAN LUIS RÍO COLORADO,Agricultura,Agricultura
3,S1,1,E5,W2,6,0,2006,1,2006-01-01,SAN LUIS RÍO COLORADO,Agricultura,Agricultura
4,S1,1,E6,W2,5,0,2006,1,2006-01-01,SAN LUIS RÍO COLORADO,Agricultura,Agricultura
...,...,...,...,...,...,...,...,...,...,...,...,...
1576254,S3,1,E9,W9,1,0,2022,12,2022-12-01,SAN IGNACIO RÍO MUERTO,Pesca,Acuicultura
1576255,S3,2,E4,W4,1,0,2022,12,2022-12-01,SAN IGNACIO RÍO MUERTO,Pesca,Acuicultura
1576256,S3,2,E5,W3,1,0,2022,12,2022-12-01,SAN IGNACIO RÍO MUERTO,Pesca,Acuicultura
1576257,S3,2,E6,W2,1,0,2022,12,2022-12-01,SAN IGNACIO RÍO MUERTO,Pesca,Acuicultura


In [None]:
# # Limpieza de catalogos de tamaño patronal
df_cat_tamaño_patron_imss.columns  = df_cat_tamaño_patron_imss.iloc[0,]
df_cat_tamaño_patron_imss = df_cat_tamaño_patron_imss.iloc[1:,]
df_cat_tamaño_patron_imss = df_cat_tamaño_patron_imss.drop(columns = [0])
df_cat_tamaño_patron_imss["tamaño_patron"] = df_cat_tamaño_patron_imss["tamaño_patron"].str.upper()
df_cat_tamaño_patron_imss

Unnamed: 0,tamaño_patron,descripción
1,S1,Con un puesto de trabajo
2,S2,con 2 y hasta 5 puestos de trabajo
3,S3,con 6 y hasta 50 puestos de trabajo
4,S4,con 51 y hasta 250 puestos de trabajo
5,S5,con 251 y hasta 500 puestos de trabajo
6,S6,"con 501 y hasta 1,000 puestos de trabajo"
7,S7,"con más de 1,000 puestos de trabajo"
8,,No aplica


In [None]:
# Hacemos left merge
df_imss_seleccion = pd.merge(df_imss_seleccion, df_cat_tamaño_patron_imss, left_on=['tamaño_patron'], right_on=['tamaño_patron'], how='left')

# Cambiamos nombres 
df_imss_seleccion.rename(columns={'descripción': 'tamaño_patronal'}, inplace=True)

# Eliminamos columna
df_imss_seleccion = df_imss_seleccion.drop(columns=["tamaño_patron"])

df_imss_seleccion

Unnamed: 0,sexo,rango_edad,rango_salarial,asegurados,no_trabajadores,año,mes,fecha,municipio_mayuscula,descripción sector_economico_2,descripción sector_economico_4,tamaño_patronal
0,1,E10,W2,6,0,2006,1,2006-01-01,SAN LUIS RÍO COLORADO,Agricultura,Agricultura,Con un puesto de trabajo
1,1,E11,W2,6,0,2006,1,2006-01-01,SAN LUIS RÍO COLORADO,Agricultura,Agricultura,Con un puesto de trabajo
2,1,E13,W2,3,0,2006,1,2006-01-01,SAN LUIS RÍO COLORADO,Agricultura,Agricultura,Con un puesto de trabajo
3,1,E5,W2,6,0,2006,1,2006-01-01,SAN LUIS RÍO COLORADO,Agricultura,Agricultura,Con un puesto de trabajo
4,1,E6,W2,5,0,2006,1,2006-01-01,SAN LUIS RÍO COLORADO,Agricultura,Agricultura,Con un puesto de trabajo
...,...,...,...,...,...,...,...,...,...,...,...,...
1576254,1,E9,W9,1,0,2022,12,2022-12-01,SAN IGNACIO RÍO MUERTO,Pesca,Acuicultura,con 6 y hasta 50 puestos de trabajo
1576255,2,E4,W4,1,0,2022,12,2022-12-01,SAN IGNACIO RÍO MUERTO,Pesca,Acuicultura,con 6 y hasta 50 puestos de trabajo
1576256,2,E5,W3,1,0,2022,12,2022-12-01,SAN IGNACIO RÍO MUERTO,Pesca,Acuicultura,con 6 y hasta 50 puestos de trabajo
1576257,2,E6,W2,1,0,2022,12,2022-12-01,SAN IGNACIO RÍO MUERTO,Pesca,Acuicultura,con 6 y hasta 50 puestos de trabajo


In [None]:
df_cat_sexo_imss.columns  = df_cat_sexo_imss.iloc[0,]
df_cat_sexo_imss = df_cat_sexo_imss.iloc[1:,]
df_cat_sexo_imss = df_cat_sexo_imss.drop(columns = [0])
df_cat_sexo_imss["sexo"] = pd.to_numeric(df_cat_sexo_imss["sexo"])
df_cat_sexo_imss

Unnamed: 0,sexo,descripción
1,1,Hombre
2,2,Mujer


In [None]:
# Hacemos left merge
df_imss_seleccion = pd.merge(df_imss_seleccion, df_cat_sexo_imss, left_on=['sexo'], right_on=['sexo'], how='left')

# Eliminamos columna
df_imss_seleccion = df_imss_seleccion.drop(columns=["sexo"])

# Cambiamos nombres 
df_imss_seleccion.rename(columns={'descripción': 'sexo'}, inplace=True)
df_imss_seleccion.head()

Unnamed: 0,rango_edad,rango_salarial,asegurados,no_trabajadores,año,mes,fecha,municipio_mayuscula,descripción sector_economico_2,descripción sector_economico_4,tamaño_patronal,sexo
0,E10,W2,6,0,2006,1,2006-01-01,SAN LUIS RÍO COLORADO,Agricultura,Agricultura,Con un puesto de trabajo,Hombre
1,E11,W2,6,0,2006,1,2006-01-01,SAN LUIS RÍO COLORADO,Agricultura,Agricultura,Con un puesto de trabajo,Hombre
2,E13,W2,3,0,2006,1,2006-01-01,SAN LUIS RÍO COLORADO,Agricultura,Agricultura,Con un puesto de trabajo,Hombre
3,E5,W2,6,0,2006,1,2006-01-01,SAN LUIS RÍO COLORADO,Agricultura,Agricultura,Con un puesto de trabajo,Hombre
4,E6,W2,5,0,2006,1,2006-01-01,SAN LUIS RÍO COLORADO,Agricultura,Agricultura,Con un puesto de trabajo,Hombre


In [None]:
# Limpieza del catálogo edad
df_cat_edad_imss
df_cat_edad_imss.columns  = df_cat_edad_imss.iloc[0,]
df_cat_edad_imss = df_cat_edad_imss.iloc[1:,]
df_cat_edad_imss = df_cat_edad_imss.drop(columns = [0])
df_cat_edad_imss

Unnamed: 0,rango_edad,descripción
1,E1,Menores de 15 años de edad
2,E2,Mayor o igual a 15 y menor a 20 años de edad
3,E3,Mayor o igual a 20 y menor a 25 años de edad
4,E4,Mayor o igual a 25 y menor a 30 años de edad
5,E5,Mayor o igual a 30 y menor a 35 años de edad
6,E6,Mayor o igual a 35 y menor a 40 años de edad
7,E7,Mayor o igual a 40 y menor a 45 años de edad
8,E8,Mayor o igual a 45 y menor a 50 años de edad
9,E9,Mayor o igual a 50 y menor a 55 años de edad
10,E10,Mayor o igual a 55 y menor a 60 años de edad


In [None]:
# Hacemos left merge
df_imss_seleccion = pd.merge(df_imss_seleccion, df_cat_edad_imss, left_on=['rango_edad'], right_on=['rango_edad'], how='left')

# Eliminamos columna
df_imss_seleccion = df_imss_seleccion.drop(columns=["rango_edad"])

# Cambiamos nombres 
df_imss_seleccion.rename(columns={'descripción': 'rango_edad'}, inplace=True)
df_imss_seleccion.head()

Unnamed: 0,rango_salarial,asegurados,no_trabajadores,año,mes,fecha,municipio_mayuscula,descripción sector_economico_2,descripción sector_economico_4,tamaño_patronal,sexo,rango_edad
0,W2,6,0,2006,1,2006-01-01,SAN LUIS RÍO COLORADO,Agricultura,Agricultura,Con un puesto de trabajo,Hombre,Mayor o igual a 55 y menor a 60 años de edad
1,W2,6,0,2006,1,2006-01-01,SAN LUIS RÍO COLORADO,Agricultura,Agricultura,Con un puesto de trabajo,Hombre,Mayor o igual a 60 y menor a 65 años de edad
2,W2,3,0,2006,1,2006-01-01,SAN LUIS RÍO COLORADO,Agricultura,Agricultura,Con un puesto de trabajo,Hombre,Mayor o igual a 70 y menor a 75 años de edad
3,W2,6,0,2006,1,2006-01-01,SAN LUIS RÍO COLORADO,Agricultura,Agricultura,Con un puesto de trabajo,Hombre,Mayor o igual a 30 y menor a 35 años de edad
4,W2,5,0,2006,1,2006-01-01,SAN LUIS RÍO COLORADO,Agricultura,Agricultura,Con un puesto de trabajo,Hombre,Mayor o igual a 35 y menor a 40 años de edad


In [None]:
# Limpieza del catalogo de salario
df_cat_salario_imss
df_cat_salario_imss.columns  = df_cat_salario_imss.iloc[0,]
df_cat_salario_imss = df_cat_salario_imss.iloc[1:,]
df_cat_salario_imss = df_cat_salario_imss.drop(columns = [0])
df_cat_salario_imss

Unnamed: 0,rango_salarial,descripción
1,W1,Hasta 1 vez el salario mínimo
2,W2,mayor a 1 y hasta 2 veces el salario mínimo
3,W3,mayor a 2 y hasta 3 veces el salario mínimo
4,W4,mayor a 3 y hasta 4 veces el salario mínimo
5,W5,mayor a 4 y hasta 5 veces el salario mínimo
6,W6,mayor a 5 y hasta 6 veces el salario mínimo
7,W7,mayor a 6 y hasta 7 veces el salario mínimo
8,W8,mayor a 7 y hasta 8 veces el salario mínimo
9,W9,mayor a 8 y hasta 9 veces el salario mínimo
10,W10,mayor a 9 y hasta 10 veces el salario mínimo


In [None]:
# Hacemos left merge
df_imss_seleccion = pd.merge(df_imss_seleccion, df_cat_salario_imss, left_on=['rango_salarial'], right_on=['rango_salarial'], how='left')

# Cambiamos nombres 
df_imss_seleccion.rename(columns={'descripción': 'rango_salarial_descripcion', 
                                  'municipio_mayuscula': 'municipio',
                                  'descripción sector_economico_1' : 'sector_economico_1',
                                  'descripción sector_economico_2' : 'sector_economico_2',
                                  'descripción sector_economico_4' : 'sector_economico_4'}, inplace=True)
df_imss_seleccion.head()

Unnamed: 0,rango_salarial,asegurados,no_trabajadores,año,mes,fecha,municipio,sector_economico_2,sector_economico_4,tamaño_patronal,sexo,rango_edad,rango_salarial_descripcion
0,W2,6,0,2006,1,2006-01-01,SAN LUIS RÍO COLORADO,Agricultura,Agricultura,Con un puesto de trabajo,Hombre,Mayor o igual a 55 y menor a 60 años de edad,mayor a 1 y hasta 2 veces el salario mínimo
1,W2,6,0,2006,1,2006-01-01,SAN LUIS RÍO COLORADO,Agricultura,Agricultura,Con un puesto de trabajo,Hombre,Mayor o igual a 60 y menor a 65 años de edad,mayor a 1 y hasta 2 veces el salario mínimo
2,W2,3,0,2006,1,2006-01-01,SAN LUIS RÍO COLORADO,Agricultura,Agricultura,Con un puesto de trabajo,Hombre,Mayor o igual a 70 y menor a 75 años de edad,mayor a 1 y hasta 2 veces el salario mínimo
3,W2,6,0,2006,1,2006-01-01,SAN LUIS RÍO COLORADO,Agricultura,Agricultura,Con un puesto de trabajo,Hombre,Mayor o igual a 30 y menor a 35 años de edad,mayor a 1 y hasta 2 veces el salario mínimo
4,W2,5,0,2006,1,2006-01-01,SAN LUIS RÍO COLORADO,Agricultura,Agricultura,Con un puesto de trabajo,Hombre,Mayor o igual a 35 y menor a 40 años de edad,mayor a 1 y hasta 2 veces el salario mínimo


In [None]:
# Conversión de las características de acuerdo a su tipo
columnas_categoricas = ["rango_salarial", "municipio", "sector_economico_2", "sector_economico_4", "tamaño_patronal", "sexo", "rango_edad", "rango_salarial_descripcion"]
df_imss_seleccion[columnas_categoricas] = df_imss_seleccion[columnas_categoricas].astype("category")
df_imss_seleccion.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1576259 entries, 0 to 1576258
Data columns (total 13 columns):
 #   Column                      Non-Null Count    Dtype         
---  ------                      --------------    -----         
 0   rango_salarial              1572728 non-null  category      
 1   asegurados                  1576259 non-null  int64         
 2   no_trabajadores             1576259 non-null  int64         
 3   año                         1576259 non-null  int64         
 4   mes                         1576259 non-null  int64         
 5   fecha                       1576259 non-null  datetime64[ns]
 6   municipio                   1576259 non-null  category      
 7   sector_economico_2          1576259 non-null  category      
 8   sector_economico_4          1576259 non-null  category      
 9   tamaño_patronal             1576259 non-null  category      
 10  sexo                        1576259 non-null  category      
 11  rango_edad              

## 3. Guardamos tablas tidy

In [50]:
path_archivo_agp = '../tidy/tidy_agricultura_ganaderia_pesca.csv'
df_agp.to_csv(path_archivo_agp, index=False)

path_archivo_imss = '../tidy/tidy_imss.csv'
df_imss_seleccion.to_csv(path_archivo_imss, index=False)

## 4. Diccionarios

### 4.1 Tabla tidy: IMSS

In [None]:
# Obtener información del DataFrame y almacenarla en un nuevo DataFrame llamado info_df
info_df = pd.DataFrame(df_imss_seleccion.dtypes, columns=['Tipo de Dato'])
info_df['Nombre de Columna'] = info_df.index

In [None]:
# Creamos el diccionario
metadatos = pd.DataFrame()
metadatos["Nombre"] = df_imss_seleccion.columns
metadatos["Tipo de valor"] = [df_imss_seleccion[col].dtype for col in df_imss_seleccion.columns]
metadatos["Valores"] = [df_imss_seleccion[col].unique() for col in df_imss_seleccion.columns]
metadatos["Valores"].iloc[5]="Fecha en formato AAAA-MM-DD"
metadatos["Descripción de la variable"] = ["Clave del rango salarial",
                                           "Se refiere a las personas que están aseguradas en el IMSS de manera directa como titulares. Incluye todas las modalidades de aseguramiento, tanto las relacionadas con puestos de trabajo afiliados al IMSS (empleos asegurados o asegurados asociados a un empleo), como las afiliaciones de asegurados sin un empleo asociado (o cotizantes sin un puesto de trabajo asociado) en las modalidades 32 (seguro facultativo), 33 (seguro de salud para la familia) y 40 (continuación voluntaria al régimen obligatorio). No considera a pensionados o jubilados, ni a los beneficiarios de asegurados, pensionados o jubilados. Debido a que un asegurado puede registrarse en el Instituto en más de un tipo de afiliación, la cifra de asegurados contabiliza a estos asegurados tantas veces como tipos de afiliación mantengan. La descripción de las modalidades de aseguramiento en el IMSS se detalla en el apartado de asegurados por modalidad y tipo de afiliación. ",
                                           "Asegurados sin un empleo asociado",
                                           "Año del registro.",
                                           "Mes del registro.",
                                           "Fecha del registro.",
                                           "Se refiere al municipio asociado a la ubicación del patrón asegurado ante el IMSS. La delegación de adscripción al IMSS y la entidad federativa no abarcan la misma circunscripción ya que algunas entidades están asociadas a más de una delegación. Por ejemplo, el municipio de Chinicuila en el estado de Michoacán está asociado a la delegación de adscripción de Colima.",
                                           "Identificador de sector económico a 2 posiciones (grupo, catálogo IMSS). Es la clasificación de la actividad económica de los patrones afiliados al IMSS, de acuerdo con el artículo 196 del Reglamento de la Ley del Seguro Social en Materia de Afiliación, Clasificación de Empresas, Recaudación y Fiscalización. Este reglamento se puede consultar en: http://datos.imss.gob.mx/sites/default/files/Cat%C3%A1logo%20de%20archivos.pdf. ",
                                           "Identificador de sector económico a 4 posiciones (fracción, catálogo IMSS). Es la clasificación de la actividad económica de los patrones afiliados al IMSS, de acuerdo con el artículo 196 del Reglamento de la Ley del Seguro Social en Materia de Afiliación, Clasificación de Empresas, Recaudación y Fiscalización. Este reglamento se puede consultar en: http://datos.imss.gob.mx/sites/default/files/Cat%C3%A1logo%20de%20archivos.pdf. ",
                                           "Se refiere al tamaño del patrón determinado con base en el número de asegurados vigentes que registra ante el IMSS. Este rango no aplica a registros patronales asociados a las modalidades de aseguramiento 32 (seguro facultativo, familiares del personal del IMSS y de la CFE), 33 (seguro de salud para la familia) y 40 (continuación voluntaria al régimen obligatorio). Tampoco aplica a registros convencionales que no están asociados a empresas o establecimientos, a asegurados del programa piloto de personas trabajadoras del hogar (modalidad 34), a asegurados en incorporación voluntaria del campo al Régimen Obligatorio (modalidad 43) y a trabajadores independientes (modalidad 44)",
                                           "Se refiere a la clasificación del asegurado entre hombre y mujer",
                                           "Se refiere al rango de edad asociado al asegurado",
                                           "Se refiere al rango salarial, en número de veces el salario mínimo de la Ciudad de México. La tabla de salarios mínimos generales y profesionales por áreas geográficas publicada por la Comisión de Salarios Mínimos (CONASAMI) se puede consultar en la liga http://www.conasami.gob.mx/t_sal_mini_prof.html. El rango W1 incluye a los asegurados con ingreso de hasta 1 salario mínimo, W2 de más de 1 y hasta 2 veces el salario mínimo, y así sucesivamente. "]
metadatos

Unnamed: 0,Nombre,Tipo de valor,Valores,Descripción de la variable
0,rango_salarial,category,"['W2', 'W3', 'W5', 'W4', 'W8', ..., 'W17', 'W2...",Clave del rango salarial
1,asegurados,int64,"[6, 3, 5, 4, 2, 1, 9, 7, 16, 20, 14, 18, 8, 10...",Se refiere a las personas que están aseguradas...
2,no_trabajadores,int64,[0],Asegurados sin un empleo asociado
3,año,int64,"[2006, 2007, 2008, 2009, 2010, 2011, 2012, 201...",Año del registro.
4,mes,int64,"[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12]",Mes del registro.
5,fecha,datetime64[ns],Fecha en formato AAAA-MM-DD,Fecha del registro.
6,municipio,category,"['SAN LUIS RÍO COLORADO', 'HERMOSILLO', 'URES'...",Se refiere al municipio asociado a la ubicació...
7,sector_economico_2,category,"['Agricultura', 'Ganadería', 'Pesca'] Categori...",Identificador de sector económico a 2 posicion...
8,sector_economico_4,category,"['Agricultura', 'Cría y explotación de ganado ...",Identificador de sector económico a 4 posicion...
9,tamaño_patronal,category,"['Con un puesto de trabajo', 'con 2 y hasta 5 ...",Se refiere al tamaño del patrón determinado co...


In [None]:
# Guardamos el diccionario
path_archivo_imss = '../data/diccionario_tidy_IMSS.csv'
df_imss_seleccion.to_csv(path_archivo_imss, index=False)

## 5. Catálogos

In [None]:
df_cat_salario_imss = df_cat_salario_imss.reset_index()
df_cat_salario_imss.columns = ["Clave", "Rango_salarial", "Descripcion"]
df_cat_salario_imss.to_csv('../data/imss_cat/imss_Rango_salario_clave.csv', index=False)

In [None]:
df_cat_edad_imss = df_cat_edad_imss.reset_index()
df_cat_edad_imss.columns = ["Clave", "Rango_edad", "Descripcion"]
df_cat_edad_imss.to_csv('../data/imss_cat/imss_Rango_edad_clave.csv', index=False)

In [None]:
df_cat_tamaño_patron_imss

Unnamed: 0,tamaño_patron,descripción
1,S1,Con un puesto de trabajo
2,S2,con 2 y hasta 5 puestos de trabajo
3,S3,con 6 y hasta 50 puestos de trabajo
4,S4,con 51 y hasta 250 puestos de trabajo
5,S5,con 251 y hasta 500 puestos de trabajo
6,S6,"con 501 y hasta 1,000 puestos de trabajo"
7,S7,"con más de 1,000 puestos de trabajo"
8,,No aplica


In [None]:
df_cat_tamaño_patron_imss = df_cat_tamaño_patron_imss.reset_index()
df_cat_tamaño_patron_imss.columns = ["Clave", "Tamano_patron", "Descripcion"]
df_cat_tamaño_patron_imss.to_csv('../data/imss_cat/imss_Tamaño_de_registro_patronal_clave.csv', index=False)