# Data Cleaning Listado de Listado de Beneficiarios 2022

## Autores
- José Luis Delgado Dávara
- Arturo Ortiz Aguilar
- Beltrán Valle Gutiérrez-Cortines

## Importante leer para entender

En este Notebook se trabaja con 3 listados importantes:

1. beneficiarios_22 -> Dataset con el listado de TODOS los beneficiarios de 2022.
2. Estados_Beneficiarios_2019_2022 -> Dataset sólo con los estados *únicos* encontrados en el dataset anterior.
3. Diccionario -> Emparejamiento entre ambos listados de beneficiarios
4. Dataset_Inegi -> Catálogo obtenido de Inegi

In [1]:
import pandas as pd
import seaborn as sns
from thefuzz import fuzz
from thefuzz import process
import matplotlib.pyplot as plt
import numpy as np
import os
import glob
import re
import unidecode

In [2]:
def clean_text(text):
    """
    De esta manera tenemos el texto sin espacios blancos extra y sobre todo con todas las palabras con capitalización correcta.
    """
    if pd.isna(text):
        return text
    text = text.strip()  # Eliminate white spaces
    text = text.lower()  # Convert to lowercase
    text = unidecode.unidecode(text)  # Remove accents
    text = re.sub('-.*-', '', text)  #Remove what is in between - -
    text = re.sub('\s+', ' ', text)  # Eliminate extra white spaces
    text = re.sub('^\s+|\s+?$', '', text)  # Eliminate spaces at the beginning and end
    return text

# 1. Lectura y limpieza de datos

### 1.1 Beneficiarios 2022

Obtenemos el listado único de localidades y listado único de municipios con sus claves.

In [3]:
beneficiarios_22 = pd.read_csv(
    '../../data/productores_beneficiarios 2019-2022/listado_beneficiarios_fertilizantes_2022.csv', encoding='utf-8',
    skiprows=0)

In [4]:
beneficiarios_22 = beneficiarios_22[~(
            (beneficiarios_22['ENTIDAD'] == 'NACIONAL') & (beneficiarios_22['MUNICIPIO'] == 'NACIONAL') & (
                beneficiarios_22['LOCALIDAD'] == 'NACIONAL'))]

In [5]:
beneficiarios_22.shape

(826385, 16)

In [6]:
nan_rows = beneficiarios_22[beneficiarios_22.isna().any(axis=1)]

In [7]:
nan_rows

Unnamed: 0,BENEFICIARIO,ZONA,ENTIDAD,MUNICIPIO,LOCALIDAD,ESTRATIFICACIÓN,PROGRAMA,COMPONENTE,SUBCOMPONENTE,PRODUCTO,FECHA,MONTO FEDERAL,APOYO,ACTIVIDAD,ESLABÓN,CICLO AGRÍCOLA
826382,,,,,,,,,,,,,,,,
826383,,,,,,,,,,,,,,,,
826384,"""Nota: El Sistema de Rendición de Cuentas sobr...",,,,,,,,,,,,,,,


In [8]:
beneficiarios_22['ENTIDAD'].unique()

array(['GUERRERO', 'OAXACA', 'PUEBLA', 'MORELOS', 'CHIAPAS', 'DURANGO',
       'TLAXCALA', 'NAYARIT', 'ZACATECAS', nan], dtype=object)

Dropeamos los tres valores nulos debido a que las rows enteras salen como nan

In [9]:
beneficiarios_22.dropna(inplace=True)

In [10]:
# Obtenemos las localidades únicas en el dataset.
Localidades_22 = beneficiarios_22[['ENTIDAD', 'MUNICIPIO', 'LOCALIDAD']]
Localidades_22 = Localidades_22.drop_duplicates()


In [11]:
Localidades_22['ENTIDAD_c_benef'] = Localidades_22['ENTIDAD'].apply(clean_text)
Localidades_22['MUNICIPIO_c_benef'] = Localidades_22['MUNICIPIO'].apply(clean_text)
Localidades_22['LOCALIDAD_c_benef'] = Localidades_22['LOCALIDAD'].apply(clean_text)

In [12]:
# Creamos las dos keys de beneficiarios 2019
Localidades_22['KEY_benef_mun'] = Localidades_22['ENTIDAD_c_benef'].astype(str) + '-' + Localidades_22[
    'MUNICIPIO_c_benef'].astype(str)
Localidades_22['KEY_benef_loc'] = Localidades_22['MUNICIPIO_c_benef'].astype(str) + '-' + Localidades_22['LOCALIDAD_c_benef'].astype(str)

In [13]:
Localidades_22.shape

(12513, 8)

In [14]:
# Obtenemos las localidades únicas en el dataset.
Municipios_22 = beneficiarios_22[['ENTIDAD', 'MUNICIPIO']]
Municipios_22 = Municipios_22.drop_duplicates()

In [15]:
# Estandarizamos la limpieza de los datos
Municipios_22['ENTIDAD_c_benef'] = Municipios_22['ENTIDAD'].apply(clean_text)
Municipios_22['MUNICIPIO_c_benef'] = Municipios_22['MUNICIPIO'].apply(clean_text)

In [16]:
# Creamos las dos keys de beneficiarios 
Municipios_22['KEY_benef_mun'] = Municipios_22['ENTIDAD_c_benef'].astype(str) + '-' + Municipios_22[
    'MUNICIPIO_c_benef'].astype(str)

In [17]:
Municipios_22.shape

(1029, 5)

In [18]:
Municipios_22.columns

Index(['ENTIDAD', 'MUNICIPIO', 'ENTIDAD_c_benef', 'MUNICIPIO_c_benef',
       'KEY_benef_mun'],
      dtype='object')

### 1.2 INEGI 2022

Obtener listado único de municipios y listado único de localidades de inegi de 2022 con sus claves.

In [19]:
path_dataset_inegi_2022 = '../../data/inegi/dataset_inegi_clean_2022.csv'
#dataset_inegi_clean = pd.read_csv(path_dataset_inegi_2022, encoding='utf-8', dtype={'CVE_ENT': str, 'CVE_MUN': str, 'CVE_LOC': str})
dataset_inegi_2022 = pd.read_csv(path_dataset_inegi_2022)

### 1.2.1 INEGI 2022 Municipios únicos para cada año.

In [20]:
dataset_inegi_2022['KEY_inegi_municipio'] = dataset_inegi_2022['Entidad_c_inegi'].astype(str) + '-' + dataset_inegi_2022['Municipio_c_inegi'].astype(str)
dataset_inegi_2022['KEY_inegi_localidad'] = dataset_inegi_2022['Municipio_c_inegi'].astype(str) + '-' + dataset_inegi_2022['Localidad_c_inegi'].astype(str)

In [21]:
INEGI_UNIQUEMUN_2022 = dataset_inegi_2022.drop(columns=["CVE_LOC", "Localidad_inegi", "Localidad_c_inegi", "KEY_inegi_localidad", "POB_TOTAL"])

INEGI_UNIQUEMUN_2022 = INEGI_UNIQUEMUN_2022.drop_duplicates()

In [22]:
INEGI_UNIQUEMUN_2022.shape

(2475, 7)

In [23]:
INEGI_UNIQUEMUN_2022.columns

Index(['CVE_ENT', 'Entidad_inegi', 'CVE_MUN', 'Municipio_inegi',
       'Entidad_c_inegi', 'Municipio_c_inegi', 'KEY_inegi_municipio'],
      dtype='object')

# 2. Diccionario de los datasets de INEGI Y LISTADO BENEFICIARIOS 2019

El objetivo de esta sección es crear dos diccionarios de códigos según BENEFICIARIOS-MUNICIPIOS_INEGI y otro BENEFICIARIOS-LOCALIDADES_INEGI, para cada uno de los estados encontrados en inegi_2022, en este caso el número de keys es menor con lo cual no nos hará falta dividir por estado.

Para ello haremos un Left join entre Localidades_22 y el dataset de INEGI correspondiente.

In [24]:
# Crear una función para encontrar la mejor coincidencia difusa con límites entre 85 y 100 de coincidencia
def fuzzy_merge_benef2019_2022(df_benef, df_inegi, key1, key2, threshold=85, limit=1):
    """
    df_inegi: DataFrame de la izquierda (el DataFrame principal)
    df_prod: DataFrame de la derecha (el DataFrame con el que se quiere hacer el join)
    key1: Columna de la clave en df_inegi
    key2: Columna de la clave en df_prod
    threshold: Umbral de coincidencia difusa
    limit: Número de coincidencias a encontrar
    """
    s = df_inegi[key2].tolist()

    # Encontrar las mejores coincidencias para cada clave en df_inegi
    matches = df_benef[key1].apply(lambda x: process.extractOne(x, s, score_cutoff=threshold))

    # Crear una columna con las mejores coincidencias
    df_benef['best_match'] = [match[0] if match else None for match in matches]

    df_benef['match_score'] = [match[1] if match else None for match in matches]

    # Hacer el merge con las mejores coincidencias
    df_merged = pd.merge(df_benef, df_inegi, left_on='best_match', right_on=key2, how='left',
                         suffixes=('_benef', '_inegi'))

    return df_merged

In [25]:
diccionario_MUN_22 = fuzzy_merge_benef2019_2022(Municipios_22, INEGI_UNIQUEMUN_2022, 'KEY_benef_mun',
                                                'KEY_inegi_municipio')
diccionario_MUN_22.shape

(1031, 14)

In [26]:
diccionario_MUN_22.drop(columns=['ENTIDAD', 'MUNICIPIO', 'ENTIDAD_c_benef', 'MUNICIPIO_c_benef', 'Entidad_c_inegi',
                                 'Municipio_c_inegi'], inplace=True)
diccionario_MUN_22.drop_duplicates(subset='KEY_benef_mun', keep='first', inplace=True)

In [27]:
diccionario_MUN_22.shape

(1029, 8)

In [28]:
diccionario_MUN_22.to_csv('../../data/productores_beneficiarios 2019-2022/diccionarios_E3/diccionario_MUN_22.csv',
                          index=False)
diccionario_MUN_22_simple = diccionario_MUN_22.drop(
    columns=['best_match', 'match_score', 'CVE_ENT', 'Entidad_inegi', 'CVE_MUN', 'Municipio_inegi'])
# # TODO Es necesario modificar el diccionario manual
# diccionario_MUN_22_simple.to_csv(
#     '../../data/productores_beneficiarios 2019-2022/diccionarios_E3/diccionario_MUN_22_simple.csv', index=False)

In [29]:
diccionario_MUN_22_simple = pd.read_csv(
    '../../data/productores_beneficiarios 2019-2022/diccionarios_E3/diccionario_MUN_22_simple.csv')

In [30]:
beneficiarios_22.shape

(826382, 16)

In [31]:
duplicates_specific_column = diccionario_MUN_22_simple[
    diccionario_MUN_22_simple.duplicated(subset=['KEY_benef_mun', 'KEY_inegi_municipio'], keep=False)]
print(duplicates_specific_column)

                 KEY_benef_mun        KEY_inegi_municipio
13    oaxaca-san juan mixtepec   oaxaca-san juan mixtepec
14    oaxaca-san juan mixtepec   oaxaca-san juan mixtepec
339  oaxaca-san pedro mixtepec  oaxaca-san pedro mixtepec
340  oaxaca-san pedro mixtepec  oaxaca-san pedro mixtepec


In [32]:
duplicates_specific_column = diccionario_MUN_22_simple[
    diccionario_MUN_22_simple.duplicated(subset='KEY_inegi_municipio', keep=False)]
print(duplicates_specific_column)

                                      KEY_benef_mun  \
0     oaxaca-heroica ciudad de juchitan de zaragoza   
13                         oaxaca-san juan mixtepec   
14                         oaxaca-san juan mixtepec   
339                       oaxaca-san pedro mixtepec   
340                       oaxaca-san pedro mixtepec   
1016                    oaxaca-juchitan de zaragoza   

              KEY_inegi_municipio  
0     oaxaca-juchitan de zaragoza  
13       oaxaca-san juan mixtepec  
14       oaxaca-san juan mixtepec  
339     oaxaca-san pedro mixtepec  
340     oaxaca-san pedro mixtepec  
1016  oaxaca-juchitan de zaragoza  


In [33]:
diccionario_MUN_22_simple = diccionario_MUN_22_simple.drop_duplicates(subset='KEY_inegi_municipio', keep='first')

In [34]:
diccionario_MUN_22_simple = diccionario_MUN_22_simple.drop_duplicates(subset='KEY_benef_mun', keep='first')

In [35]:
nan_rows = beneficiarios_22[beneficiarios_22.isna().any(axis=1)]

In [36]:
# Assuming your DataFrame is named df
filtered_df = beneficiarios_22[beneficiarios_22['ENTIDAD'] == 'NACIONAL']

### MERGE

Armamos por partes el dataset definitivo:
1. Juntamos beneficiarios_19 con el diccionario simple. (listado_beneficiario_parte_I)
2. Al df anterior juntamos las claver provenientes del catálogo de Inegi. (listado_beneficiario_parte_II)

In [37]:
beneficiarios_22.columns

Index(['BENEFICIARIO', 'ZONA', 'ENTIDAD', 'MUNICIPIO', 'LOCALIDAD',
       'ESTRATIFICACIÓN', 'PROGRAMA', 'COMPONENTE', 'SUBCOMPONENTE',
       'PRODUCTO', 'FECHA', 'MONTO FEDERAL', 'APOYO', 'ACTIVIDAD', 'ESLABÓN',
       'CICLO AGRÍCOLA'],
      dtype='object')

In [38]:
beneficiarios_22.shape

(826382, 16)

In [39]:
# Crear una variable KEY en listado de productores y el diccionario para hacer el join

# Clean listado beneficiarios
beneficiarios_22['ESTADO_Clean'] = beneficiarios_22['ENTIDAD'].apply(clean_text)
beneficiarios_22['MUNICIPIO_Clean'] = beneficiarios_22['MUNICIPIO'].apply(clean_text)

# Create KEY in listado beneficiarios
beneficiarios_22['Estado-mun-KEY'] = beneficiarios_22['ESTADO_Clean'].astype(str) + '-' + beneficiarios_22[
    'MUNICIPIO_Clean'].astype(str)

In [40]:
# Hacer el join de la Parte I
listado_beneficiarios_parte_I = pd.merge(beneficiarios_22, diccionario_MUN_22_simple, left_on="Estado-mun-KEY",
                                         right_on="KEY_benef_mun", how='left', suffixes=('_benef', '_inegi'))

In [41]:
listado_beneficiarios_parte_I.columns

Index(['BENEFICIARIO', 'ZONA', 'ENTIDAD', 'MUNICIPIO', 'LOCALIDAD',
       'ESTRATIFICACIÓN', 'PROGRAMA', 'COMPONENTE', 'SUBCOMPONENTE',
       'PRODUCTO', 'FECHA', 'MONTO FEDERAL', 'APOYO', 'ACTIVIDAD', 'ESLABÓN',
       'CICLO AGRÍCOLA', 'ESTADO_Clean', 'MUNICIPIO_Clean', 'Estado-mun-KEY',
       'KEY_benef_mun', 'KEY_inegi_municipio'],
      dtype='object')

In [42]:
listado_beneficiarios_parte_I.shape

(826382, 21)

In [43]:
print(INEGI_UNIQUEMUN_2022.shape)
INEGI_UNIQUEMUN_2022.drop_duplicates(subset='KEY_inegi_municipio', keep='first', inplace=True)
print(INEGI_UNIQUEMUN_2022.shape)

(2475, 7)
(2473, 7)


In [44]:
# TODO: REVISAR ESTA PARTE (ARTURO)
listado_beneficiarios_parte_II = pd.merge(listado_beneficiarios_parte_I, INEGI_UNIQUEMUN_2022,
                                          left_on="KEY_inegi_municipio",
                                          right_on="KEY_inegi_municipio", how='left', suffixes=('_benef', '_inegi'))

In [45]:
listado_beneficiarios_parte_II.columns

Index(['BENEFICIARIO', 'ZONA', 'ENTIDAD', 'MUNICIPIO', 'LOCALIDAD',
       'ESTRATIFICACIÓN', 'PROGRAMA', 'COMPONENTE', 'SUBCOMPONENTE',
       'PRODUCTO', 'FECHA', 'MONTO FEDERAL', 'APOYO', 'ACTIVIDAD', 'ESLABÓN',
       'CICLO AGRÍCOLA', 'ESTADO_Clean', 'MUNICIPIO_Clean', 'Estado-mun-KEY',
       'KEY_benef_mun', 'KEY_inegi_municipio', 'CVE_ENT', 'Entidad_inegi',
       'CVE_MUN', 'Municipio_inegi', 'Entidad_c_inegi', 'Municipio_c_inegi'],
      dtype='object')

In [46]:
listado_beneficiarios_parte_II = listado_beneficiarios_parte_II.drop(
    columns=['ESTADO_Clean', 'MUNICIPIO_Clean', 'KEY_inegi_municipio', 'Entidad_c_inegi', 'Estado-mun-KEY',
             'Municipio_c_inegi', 'ESTRATIFICACIÓN', 'PROGRAMA', 'COMPONENTE', 'SUBCOMPONENTE', 'APOYO', 'ACTIVIDAD',
             'ESLABÓN'])

In [47]:
listado_beneficiarios_parte_II.columns

Index(['BENEFICIARIO', 'ZONA', 'ENTIDAD', 'MUNICIPIO', 'LOCALIDAD', 'PRODUCTO',
       'FECHA', 'MONTO FEDERAL', 'CICLO AGRÍCOLA', 'KEY_benef_mun', 'CVE_ENT',
       'Entidad_inegi', 'CVE_MUN', 'Municipio_inegi'],
      dtype='object')

In [48]:
listado_beneficiarios_parte_II.to_csv('../../data/listados_completos/listado_beneficiarios_2022.csv', index=False)

In [49]:
listado_beneficiarios_parte_II.shape

(826382, 14)

In [50]:
listado_beneficiarios_parte_II.isna().sum()

BENEFICIARIO         0
ZONA                 0
ENTIDAD              0
MUNICIPIO            0
LOCALIDAD            0
PRODUCTO             0
FECHA                0
MONTO FEDERAL        0
CICLO AGRÍCOLA       0
KEY_benef_mun      198
CVE_ENT            198
Entidad_inegi      198
CVE_MUN            198
Municipio_inegi    198
dtype: int64

In [51]:
# Assuming listado_beneficiarios_parte_II is your DataFrame
rows_with_nan = listado_beneficiarios_parte_II[listado_beneficiarios_parte_II.isna().any(axis=1)]

# rows_with_nan now contains only the rows with NaN values in any column

In [52]:
rows_with_nan

Unnamed: 0,BENEFICIARIO,ZONA,ENTIDAD,MUNICIPIO,LOCALIDAD,PRODUCTO,FECHA,MONTO FEDERAL,CICLO AGRÍCOLA,KEY_benef_mun,CVE_ENT,Entidad_inegi,CVE_MUN,Municipio_inegi
59305,BARRIOS ROBLERO ESTEBAN,SUR SURESTE,CHIAPAS,BELISARIO DOMINGUEZ,FLOR DE CHIAPAS,Cultivo de maíz grano blanco,2022-09-05,7491.34,PV2022,,,,,
76582,BRAVO PEREZ GUALTERIO DIONICIO,SUR SURESTE,CHIAPAS,BELISARIO DOMINGUEZ,FLOR DE CHIAPAS,Cultivo de maíz grano blanco,2022-09-05,7491.34,PV2022,,,,,
133667,CRUS ROBLERO CANDIDO,SUR SURESTE,CHIAPAS,BELISARIO DOMINGUEZ,FLOR DE CHIAPAS,Cultivo de maíz grano blanco,2022-09-10,7491.34,PV2022,,,,,
133668,CRUS ROBLERO JOSE PEDRO,SUR SURESTE,CHIAPAS,BELISARIO DOMINGUEZ,FLOR DE CHIAPAS,Cultivo de maíz grano blanco,2022-09-10,7491.34,PV2022,,,,,
141160,CRUZ LOPEZ ALBERTO,SUR SURESTE,CHIAPAS,BELISARIO DOMINGUEZ,FLOR DE CHIAPAS,Cultivo de maíz grano blanco,2022-09-12,7491.34,PV2022,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
796076,VAZQUEZ SOLIS NEIME,SUR SURESTE,CHIAPAS,BELISARIO DOMINGUEZ,FLOR DE CHIAPAS,Cultivo de maíz grano blanco,2022-09-05,7491.34,PV2022,,,,,
803973,VELAZQUEZ GONZALEZ LORENZO,SUR SURESTE,CHIAPAS,BELISARIO DOMINGUEZ,FLOR DE CHIAPAS,Cultivo de maíz grano blanco,2022-09-05,7491.34,PV2022,,,,,
820122,ZALAZ PEREZ DOMITILA,SUR SURESTE,CHIAPAS,BELISARIO DOMINGUEZ,FLOR DE CHIAPAS,Cultivo de maíz grano blanco,2022-09-05,7491.34,PV2022,,,,,
825316,ZUNUN ROBLERO ELIZABETH,SUR SURESTE,CHIAPAS,BELISARIO DOMINGUEZ,FLOR DE CHIAPAS,Cultivo de maíz grano blanco,2022-12-05,7491.34,PV2022,,,,,


# 3. Join por entidad (Divide y Vencerás)

In [53]:
listado_beneficiarios_2022 = pd.read_csv('../../data/listados_completos/listado_beneficiarios_2022.csv')

In [54]:
listado_beneficiarios_2022.columns

Index(['BENEFICIARIO', 'ZONA', 'ENTIDAD', 'MUNICIPIO', 'LOCALIDAD', 'PRODUCTO',
       'FECHA', 'MONTO FEDERAL', 'CICLO AGRÍCOLA', 'KEY_benef_mun', 'CVE_ENT',
       'Entidad_inegi', 'CVE_MUN', 'Municipio_inegi'],
      dtype='object')

In [55]:
listado_beneficiarios_2022['ENTIDAD_c_benef'] = listado_beneficiarios_2022['ENTIDAD'].apply(clean_text)
listado_beneficiarios_2022['MUNICIPIO_c_benef'] = listado_beneficiarios_2022['MUNICIPIO'].apply(clean_text)
listado_beneficiarios_2022['LOCALIDAD_c_benef'] = listado_beneficiarios_2022['LOCALIDAD'].apply(clean_text)

In [56]:
listado_beneficiarios_2022['KEY_benef_loc'] = listado_beneficiarios_2022['MUNICIPIO_c_benef'].astype(str) + '-' + listado_beneficiarios_2022['LOCALIDAD_c_benef'].astype(str)

In [57]:
listado_beneficiarios_2022.shape

(826382, 18)

In [58]:
listado_beneficiarios_2022 = listado_beneficiarios_2022.drop_duplicates(subset=['KEY_benef_loc'])

In [59]:
listado_beneficiarios_2022.shape

(12509, 18)

In [60]:
listado_beneficiarios_2022.ENTIDAD.unique()

array(['GUERRERO', 'OAXACA', 'PUEBLA', 'MORELOS', 'CHIAPAS', 'DURANGO',
       'TLAXCALA', 'NAYARIT', 'ZACATECAS'], dtype=object)

### 3.2.1 Join de localidades - GUERRERO

Empezamos creando los datasets por entiedad del dataset de beneficiarios.


In [61]:
entities = ['GUERRERO', 'OAXACA', 'PUEBLA', 'MORELOS', 'CHIAPAS', 'DURANGO','TLAXCALA', 'NAYARIT', 'ZACATECAS']

# Dictionary to hold DataFrames
dataframes_dict = {}

for entity in entities:
    variable_name = f"Localidades_22_{entity.upper().replace(' ', '_')}"
    dataframe = listado_beneficiarios_2022[listado_beneficiarios_2022["ENTIDAD"] == entity]
    
    # Check if the DataFrame for this entity already exists in the dictionary
    if variable_name in dataframes_dict:
        # If it exists, concatenate the new DataFrame with the existing one
        dataframes_dict[variable_name] = pd.concat([dataframes_dict[variable_name], dataframe])
    else:
        # If it does not exist, create a new entry in the dictionary
        dataframes_dict[variable_name] = dataframe

# Define each DataFrame as a separate variable
for name, df in dataframes_dict.items():
    globals()[name] = df
    print(f"{name} defined with shape: {df.shape}")

Localidades_22_GUERRERO defined with shape: (4613, 18)
Localidades_22_OAXACA defined with shape: (1793, 18)
Localidades_22_PUEBLA defined with shape: (640, 18)
Localidades_22_MORELOS defined with shape: (260, 18)
Localidades_22_CHIAPAS defined with shape: (3252, 18)
Localidades_22_DURANGO defined with shape: (638, 18)
Localidades_22_TLAXCALA defined with shape: (405, 18)
Localidades_22_NAYARIT defined with shape: (333, 18)
Localidades_22_ZACATECAS defined with shape: (575, 18)


In [62]:
listado_beneficiarios_2022.shape

(12509, 18)

### 3.2.2 Diccionarios de Inegi por entidad.

In [63]:
folder_path = '../../data/productores_beneficiarios 2019-2022/diccionarios_E3/2022'

# Listar todos los archivos en la carpeta
files = os.listdir(folder_path)

# Filtrar solo los archivos CSV
csv_files = [file for file in files if file.endswith('.csv')]

# Leer cada archivo CSV y almacenar en variables separadas
for file_name in csv_files:
    file_path = os.path.join(folder_path, file_name)
    # Crear un nombre de variable dinámicamente eliminando la extensión .csv
    var_name = file_name.replace('.csv', '')
    # Leer el archivo CSV y asignar el DataFrame a la variable
    globals()[var_name] = pd.read_csv(file_path)

# Opcional: Imprimir el nombre de las variables creadas y la cantidad de filas y columnas de cada DataFrame
for file_name in csv_files:
    var_name = file_name.replace('.csv', '')
    df = globals()[var_name]
    print(f'{var_name}: {df.shape[0]} filas, {df.shape[1]} columnas')


INEGI_UNIQUELOC_2022_durango: 9106 filas, 11 columnas
INEGI_UNIQUELOC_2022_oaxaca: 12916 filas, 11 columnas
INEGI_UNIQUELOC_2022_tlaxcala: 1699 filas, 11 columnas
INEGI_UNIQUELOC_2022_puebla: 7723 filas, 11 columnas
INEGI_UNIQUELOC_2022_morelos: 1904 filas, 11 columnas
INEGI_UNIQUELOC_2022_nayarit: 4440 filas, 11 columnas
INEGI_UNIQUELOC_2022_chiapas: 22233 filas, 11 columnas
INEGI_UNIQUELOC_2022_zacatecas: 6461 filas, 11 columnas
INEGI_UNIQUELOC_2022_guerrero: 9207 filas, 11 columnas


In [64]:
INEGI_UNIQUELOC_2022_guerrero.shape

(9207, 11)

In [65]:
Localidades_22_GUERRERO_parte_I = fuzzy_merge_benef2019_2022(Localidades_22_GUERRERO, INEGI_UNIQUELOC_2022_guerrero, 'KEY_benef_loc', 'KEY_inegi_localidad')
Localidades_22_GUERRERO_parte_I.shape

Localidades_22_PUEBLA_parte_I = fuzzy_merge_benef2019_2022(Localidades_22_PUEBLA, INEGI_UNIQUELOC_2022_puebla, 'KEY_benef_loc', 'KEY_inegi_localidad')
Localidades_22_PUEBLA_parte_I.shape

Localidades_22_MORELOS_parte_I = fuzzy_merge_benef2019_2022(Localidades_22_MORELOS, INEGI_UNIQUELOC_2022_morelos, 'KEY_benef_loc', 'KEY_inegi_localidad')
Localidades_22_MORELOS_parte_I.shape

Localidades_22_TLAXCALA_parte_I = fuzzy_merge_benef2019_2022(Localidades_22_TLAXCALA, INEGI_UNIQUELOC_2022_tlaxcala, 'KEY_benef_loc', 'KEY_inegi_localidad')
Localidades_22_TLAXCALA_parte_I.shape

Localidades_22_DURANGO_parte_I = fuzzy_merge_benef2019_2022(Localidades_22_DURANGO, INEGI_UNIQUELOC_2022_durango, 'KEY_benef_loc', 'KEY_inegi_localidad')
Localidades_22_DURANGO_parte_I.shape

Localidades_22_OAXACA_parte_I = fuzzy_merge_benef2019_2022(Localidades_22_OAXACA, INEGI_UNIQUELOC_2022_oaxaca, 'KEY_benef_loc', 'KEY_inegi_localidad')
Localidades_22_OAXACA_parte_I.shape

Localidades_22_NAYARIT_parte_I = fuzzy_merge_benef2019_2022(Localidades_22_NAYARIT, INEGI_UNIQUELOC_2022_nayarit, 'KEY_benef_loc', 'KEY_inegi_localidad')
Localidades_22_NAYARIT_parte_I.shape

Localidades_22_CHIAPAS_parte_I = fuzzy_merge_benef2019_2022(Localidades_22_CHIAPAS, INEGI_UNIQUELOC_2022_chiapas, 'KEY_benef_loc', 'KEY_inegi_localidad')
Localidades_22_CHIAPAS_parte_I.shape

Localidades_22_ZACATECAS_parte_I = fuzzy_merge_benef2019_2022(Localidades_22_ZACATECAS, INEGI_UNIQUELOC_2022_zacatecas, 'KEY_benef_loc', 'KEY_inegi_localidad')
Localidades_22_ZACATECAS_parte_I.shape

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_benef['best_match'] = [match[0] if match else None for match in matches]
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_benef['match_score'] = [match[1] if match else None for match in matches]
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_benef['best_match'] = [match[0] if match else Non

(575, 31)

In [66]:
# Concatenate datasets vertically
diccionario_LOC_22 = pd.concat([
    Localidades_22_GUERRERO_parte_I,
    Localidades_22_PUEBLA_parte_I,
    Localidades_22_MORELOS_parte_I,
    Localidades_22_TLAXCALA_parte_I,
    Localidades_22_DURANGO_parte_I,
    Localidades_22_OAXACA_parte_I,
    Localidades_22_NAYARIT_parte_I,
    Localidades_22_CHIAPAS_parte_I,
    Localidades_22_ZACATECAS_parte_I
], axis=0)

# Check the shape of the concatenated DataFrame
diccionario_LOC_22.shape

(12511, 31)

In [67]:
diccionario_LOC_22.columns

Index(['BENEFICIARIO', 'ZONA', 'ENTIDAD', 'MUNICIPIO', 'LOCALIDAD', 'PRODUCTO',
       'FECHA', 'MONTO FEDERAL', 'CICLO AGRÍCOLA', 'KEY_benef_mun',
       'CVE_ENT_benef', 'Entidad_inegi_benef', 'CVE_MUN_benef',
       'Municipio_inegi_benef', 'ENTIDAD_c_benef', 'MUNICIPIO_c_benef',
       'LOCALIDAD_c_benef', 'KEY_benef_loc', 'best_match', 'match_score',
       'CVE_ENT_inegi', 'Entidad_inegi_inegi', 'CVE_MUN_inegi',
       'Municipio_inegi_inegi', 'CVE_LOC', 'Localidad_inegi', 'POB_TOTAL',
       'Entidad_c_inegi', 'Municipio_c_inegi', 'Localidad_c_inegi',
       'KEY_inegi_localidad'],
      dtype='object')

In [68]:
diccionario_LOC_22.drop(columns=['BENEFICIARIO', 'ZONA', 'ENTIDAD', 'MUNICIPIO', 'LOCALIDAD', 'PRODUCTO',
       'FECHA', 'MONTO FEDERAL', 'CICLO AGRÍCOLA', 'KEY_benef_mun',
       'CVE_ENT_benef', 'Entidad_inegi_benef', 'CVE_MUN_benef',
       'Municipio_inegi_benef', 'ENTIDAD_c_benef', 'MUNICIPIO_c_benef',
       'LOCALIDAD_c_benef', 'best_match',
       'CVE_ENT_inegi', 'Entidad_inegi_inegi', 'CVE_MUN_inegi',
       'Municipio_inegi_inegi', 'CVE_LOC', 'Localidad_inegi', 'POB_TOTAL',
       'Entidad_c_inegi', 'Municipio_c_inegi', 'Localidad_c_inegi',], inplace=True)

In [69]:
diccionario_LOC_22.columns

Index(['KEY_benef_loc', 'match_score', 'KEY_inegi_localidad'], dtype='object')

In [70]:
diccionario_LOC_22.to_csv('../../data/productores_beneficiarios 2019-2022/diccionarios_E3/diccionario_LOC_22.csv', index=False)

In [118]:
diccionario_LOC_22.isna().sum()

KEY_benef_loc          0
match_score            0
KEY_inegi_localidad    0
dtype: int64

# 4. Diccionarios de localidades y merge respectivos.

Empezamos leyendo el diccionario_LOC_22_simple, el cual solo tiene key_benef_mun y key_inegi_municipio manipulada.

In [119]:
import pandas as pd

# Intentar leer el archivo CSV con diferentes configuraciones de lectura
try:
    diccionario_LOC_22_simple = pd.read_csv('../../data/productores_beneficiarios 2019-2022/diccionarios_E3/diccionario_LOC_22_simple.csv', encoding='cp1252', 
                          delimiter=';')
    diccionario_LOC_22_simple.drop(columns=['ValidaciÃ³n', 'Propuesta'], inplace=True)
    print(diccionario_LOC_22_simple.head())
except pd.errors.ParserError as e:
    print("Error al leer el archivo CSV:", e)




                                    ï»¿KEY_benef_loc  match_score  \
0  pungarabato-seminario diocesano la anunciacion...         86.0   
1               arcelia-colonia emperador cuauhtemoc         86.0   
2  malinaltepec-el potrerillo (potrerillo del rin...         86.0   
3  pungarabato-monasterio hermanas clsas. de mari...         86.0   
4  arcelia-reforma de lazaro cardenas (el aterriz...         86.0   

             KEY_inegi_localidad  
0  pungarabato-ciudad altamirano  
1    juarez-emperador cuauhtemoc  
2   acapulco de juarez-el arenal  
3  pungarabato-ciudad altamirano  
4                arcelia-arcelia  


In [120]:
diccionario_LOC_22_simple.columns

Index(['ï»¿KEY_benef_loc', 'match_score', 'KEY_inegi_localidad'], dtype='object')

In [121]:
diccionario_LOC_22_simple.rename(columns={'ï»¿KEY_benef_loc': 'KEY_benef_loc'}, inplace=True)

In [122]:
diccionario_LOC_22_simple.columns

Index(['KEY_benef_loc', 'match_score', 'KEY_inegi_localidad'], dtype='object')

In [123]:
diccionario_LOC_22_simple

Unnamed: 0,KEY_benef_loc,match_score,KEY_inegi_localidad
0,pungarabato-seminario diocesano la anunciacion...,86.0,pungarabato-ciudad altamirano
1,arcelia-colonia emperador cuauhtemoc,86.0,juarez-emperador cuauhtemoc
2,malinaltepec-el potrerillo (potrerillo del rin...,86.0,acapulco de juarez-el arenal
3,pungarabato-monasterio hermanas clsas. de mari...,86.0,pungarabato-ciudad altamirano
4,arcelia-reforma de lazaro cardenas (el aterriz...,86.0,arcelia-arcelia
...,...,...,...
12507,pinos-el mezquite,100.0,pinos-el mezquite
12508,villa gonzalez ortega-bajio de san nicolas (sa...,100.0,villa gonzalez ortega-bajio de san nicolas (sa...
12509,juan aldama-paradillas,100.0,juan aldama-paradillas
12510,pinos-la escondida (cerrito del calvario),100.0,pinos-la escondida (cerrito del calvario)


In [124]:
listado_beneficiarios_parte_II['MUNICIPIO_Clean'] = listado_beneficiarios_parte_II['MUNICIPIO'].apply(clean_text)
listado_beneficiarios_parte_II['LOCALIDAD_Clean'] = listado_beneficiarios_parte_II['LOCALIDAD'].apply(clean_text)

# Create KEY in listado beneficiarios
listado_beneficiarios_parte_II['Municipio-loc-KEY'] = listado_beneficiarios_parte_II['MUNICIPIO_Clean'].astype(str) + '-' + listado_beneficiarios_parte_II[
    'LOCALIDAD_Clean'].astype(str)

Primer merge entre listado_beneficiarios_parte_II, y diccionario_LOC_22_simple. En este merge cogemos el dataset con los municipios corregidos previamente y ejecutamos el merge de manera que nos traemos las key_inegi_localidad corregidas.

In [125]:
listado_beneficiarios_parte_II.shape

(826382, 17)

In [126]:
# Hacer el join de la Parte I
listado_beneficiarios_parte_I_localidades = pd.merge(listado_beneficiarios_parte_II, diccionario_LOC_22_simple, left_on="Municipio-loc-KEY",
                                         right_on="KEY_benef_loc", how='left', suffixes=('_benef', '_inegi'))

In [127]:
# Marcar todos los duplicados en las columnas 'columna1' y 'columna2' como True
duplicados = listado_beneficiarios_parte_I_localidades.duplicated(subset=['FECHA', 'BENEFICIARIO'], keep=False)

# Filtrar el DataFrame original para mostrar solo los duplicados
df_duplicados = listado_beneficiarios_parte_I_localidades[duplicados]

In [128]:
df_duplicados

Unnamed: 0,BENEFICIARIO,ZONA,ENTIDAD,MUNICIPIO,LOCALIDAD,PRODUCTO,FECHA,MONTO FEDERAL,CICLO AGRÍCOLA,KEY_benef_mun,CVE_ENT,Entidad_inegi,CVE_MUN,Municipio_inegi,MUNICIPIO_Clean,LOCALIDAD_Clean,Municipio-loc-KEY,KEY_benef_loc,match_score,KEY_inegi_localidad
611,ABARCA HERNANDEZ ELENA,CENTRO PAÍS,GUERRERO,CHILAPA DE ÁLVAREZ,ZELOCOTITLÁN,Cultivo de maíz grano blanco,2022-05-13,6122.09,PV2022,guerrero-chilapa de alvarez,12.0,Guerrero,28.0,Chilapa de Álvarez,chilapa de alvarez,zelocotitlan,chilapa de alvarez-zelocotitlan,chilapa de alvarez-zelocotitlan,100.0,chilapa de alvarez-zelocotitlan
612,ABARCA HERNANDEZ ELENA,CENTRO PAÍS,GUERRERO,CHILAPA DE ÁLVAREZ,ZELOCOTITLÁN,Cultivo de maíz grano blanco,2022-05-13,6122.09,PV2022,guerrero-chilapa de alvarez,12.0,Guerrero,28.0,Chilapa de Álvarez,chilapa de alvarez,zelocotitlan,chilapa de alvarez-zelocotitlan,chilapa de alvarez-zelocotitlan,100.0,chilapa de alvarez-zelocotitlan
1485,ABONZA CHAVEZ JUAN,CENTRO PAÍS,GUERRERO,CUTZAMALA DE PINZÓN,NUEVO GALEANA,Cultivo de maíz grano blanco,2022-06-06,12244.18,PV2022,guerrero-cutzamala de pinzon,12.0,Guerrero,27.0,Cutzamala de Pinzón,cutzamala de pinzon,nuevo galeana,cutzamala de pinzon-nuevo galeana,cutzamala de pinzon-nuevo galeana,100.0,cutzamala de pinzon-nuevo galeana
1486,ABONZA CHAVEZ JUAN,CENTRO PAÍS,GUERRERO,CUTZAMALA DE PINZÓN,NUEVO GALEANA,Cultivo de maíz grano blanco,2022-06-06,6122.09,PV2022,guerrero-cutzamala de pinzon,12.0,Guerrero,27.0,Cutzamala de Pinzón,cutzamala de pinzon,nuevo galeana,cutzamala de pinzon-nuevo galeana,cutzamala de pinzon-nuevo galeana,100.0,cutzamala de pinzon-nuevo galeana
4898,AGUILAR AGUILAR MIGUEL,SUR SURESTE,CHIAPAS,COMITÁN DE DOMÍNGUEZ,COMITÁN DE DOMÍNGUEZ,Cultivo de maíz grano blanco,2022-08-15,7491.34,PV2022,chiapas-comitan de dominguez,7.0,Chiapas,19.0,Comitán de Domínguez,comitan de dominguez,comitan de dominguez,comitan de dominguez-comitan de dominguez,comitan de dominguez-comitan de dominguez,100.0,comitan de dominguez-comitan de dominguez
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
824572,ZEFERINO VAZQUEZ GUADALUPE,CENTRO PAÍS,GUERRERO,OLINALÁ,TEMALACATZINGO,Cultivo de frijol grano,2022-06-05,12244.18,PV2022,guerrero-olinala,12.0,Guerrero,45.0,Olinalá,olinala,temalacatzingo,olinala-temalacatzingo,olinala-temalacatzingo,100.0,olinala-temalacatzingo
824916,ZEPEDA GOMEZ JUANA,SUR SURESTE,CHIAPAS,AMATENANGO DEL VALLE,AMATENANGO DEL VALLE,Cultivo de maíz grano blanco,2022-09-29,7491.34,PV2022,chiapas-amatenango del valle,7.0,Chiapas,7.0,Amatenango del Valle,amatenango del valle,amatenango del valle,amatenango del valle-amatenango del valle,amatenango del valle-amatenango del valle,100.0,amatenango del valle-amatenango del valle
824917,ZEPEDA GOMEZ JUANA,SUR SURESTE,CHIAPAS,AMATENANGO DEL VALLE,AMATENANGO DEL VALLE,Cultivo de maíz grano blanco,2022-09-29,7491.34,PV2022,chiapas-amatenango del valle,7.0,Chiapas,7.0,Amatenango del Valle,amatenango del valle,amatenango del valle,amatenango del valle-amatenango del valle,amatenango del valle-amatenango del valle,100.0,amatenango del valle-amatenango del valle
824925,ZEPEDA GOMEZ PETRONA,SUR SURESTE,CHIAPAS,AMATENANGO DEL VALLE,AMATENANGO DEL VALLE,Cultivo de maíz grano blanco,2022-09-29,7491.34,PV2022,chiapas-amatenango del valle,7.0,Chiapas,7.0,Amatenango del Valle,amatenango del valle,amatenango del valle,amatenango del valle-amatenango del valle,amatenango del valle-amatenango del valle,100.0,amatenango del valle-amatenango del valle


In [129]:
listado_beneficiarios_parte_II_localidades = listado_beneficiarios_parte_I_localidades.drop_duplicates()

In [130]:
listado_beneficiarios_parte_I_localidades.shape

(826444, 20)

In [131]:
dataset_inegi_2022.columns

Index(['CVE_ENT', 'Entidad_inegi', 'CVE_MUN', 'Municipio_inegi', 'CVE_LOC',
       'Localidad_inegi', 'POB_TOTAL', 'Entidad_c_inegi', 'Municipio_c_inegi',
       'Localidad_c_inegi', 'KEY_inegi_municipio', 'KEY_inegi_localidad'],
      dtype='object')

In [132]:
INEGI_UNIQUELOC_2022 = dataset_inegi_2022.drop(columns=['Entidad_c_inegi', 'Municipio_c_inegi',
       'Localidad_c_inegi', 'POB_TOTAL'])
INEGI_UNIQUELOC_2022 = INEGI_UNIQUELOC_2022.drop_duplicates(subset='KEY_inegi_localidad', keep='first')

In [133]:
INEGI_UNIQUELOC_2022.shape

(272086, 8)

In [134]:
listado_beneficiarios_parte_I_localidades.columns

Index(['BENEFICIARIO', 'ZONA', 'ENTIDAD', 'MUNICIPIO', 'LOCALIDAD', 'PRODUCTO',
       'FECHA', 'MONTO FEDERAL', 'CICLO AGRÍCOLA', 'KEY_benef_mun', 'CVE_ENT',
       'Entidad_inegi', 'CVE_MUN', 'Municipio_inegi', 'MUNICIPIO_Clean',
       'LOCALIDAD_Clean', 'Municipio-loc-KEY', 'KEY_benef_loc', 'match_score',
       'KEY_inegi_localidad'],
      dtype='object')

In [135]:
listado_beneficiarios_parte_I_localidades.isna().sum()

BENEFICIARIO             0
ZONA                     0
ENTIDAD                  0
MUNICIPIO                0
LOCALIDAD                0
PRODUCTO                 0
FECHA                    0
MONTO FEDERAL            0
CICLO AGRÍCOLA           0
KEY_benef_mun          198
CVE_ENT                198
Entidad_inegi          198
CVE_MUN                198
Municipio_inegi        198
MUNICIPIO_Clean          0
LOCALIDAD_Clean          0
Municipio-loc-KEY        0
KEY_benef_loc            0
match_score              0
KEY_inegi_localidad      0
dtype: int64

In [136]:
# Assuming listado_beneficiarios_parte_II is your DataFrame
rows_with_nan = listado_beneficiarios_parte_I_localidades[listado_beneficiarios_parte_I_localidades.isna().any(axis=1)]

# rows_with_nan now contains only the rows with NaN values in any column

In [137]:
rows_with_nan

Unnamed: 0,BENEFICIARIO,ZONA,ENTIDAD,MUNICIPIO,LOCALIDAD,PRODUCTO,FECHA,MONTO FEDERAL,CICLO AGRÍCOLA,KEY_benef_mun,CVE_ENT,Entidad_inegi,CVE_MUN,Municipio_inegi,MUNICIPIO_Clean,LOCALIDAD_Clean,Municipio-loc-KEY,KEY_benef_loc,match_score,KEY_inegi_localidad
59305,BARRIOS ROBLERO ESTEBAN,SUR SURESTE,CHIAPAS,BELISARIO DOMINGUEZ,FLOR DE CHIAPAS,Cultivo de maíz grano blanco,2022-09-05,7491.34,PV2022,,,,,,belisario dominguez,flor de chiapas,belisario dominguez-flor de chiapas,belisario dominguez-flor de chiapas,86.0,palenque-la flor de chiapas
76585,BRAVO PEREZ GUALTERIO DIONICIO,SUR SURESTE,CHIAPAS,BELISARIO DOMINGUEZ,FLOR DE CHIAPAS,Cultivo de maíz grano blanco,2022-09-05,7491.34,PV2022,,,,,,belisario dominguez,flor de chiapas,belisario dominguez-flor de chiapas,belisario dominguez-flor de chiapas,86.0,palenque-la flor de chiapas
133679,CRUS ROBLERO CANDIDO,SUR SURESTE,CHIAPAS,BELISARIO DOMINGUEZ,FLOR DE CHIAPAS,Cultivo de maíz grano blanco,2022-09-10,7491.34,PV2022,,,,,,belisario dominguez,flor de chiapas,belisario dominguez-flor de chiapas,belisario dominguez-flor de chiapas,86.0,palenque-la flor de chiapas
133680,CRUS ROBLERO JOSE PEDRO,SUR SURESTE,CHIAPAS,BELISARIO DOMINGUEZ,FLOR DE CHIAPAS,Cultivo de maíz grano blanco,2022-09-10,7491.34,PV2022,,,,,,belisario dominguez,flor de chiapas,belisario dominguez-flor de chiapas,belisario dominguez-flor de chiapas,86.0,palenque-la flor de chiapas
141172,CRUZ LOPEZ ALBERTO,SUR SURESTE,CHIAPAS,BELISARIO DOMINGUEZ,FLOR DE CHIAPAS,Cultivo de maíz grano blanco,2022-09-12,7491.34,PV2022,,,,,,belisario dominguez,flor de chiapas,belisario dominguez-flor de chiapas,belisario dominguez-flor de chiapas,86.0,palenque-la flor de chiapas
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
796138,VAZQUEZ SOLIS NEIME,SUR SURESTE,CHIAPAS,BELISARIO DOMINGUEZ,FLOR DE CHIAPAS,Cultivo de maíz grano blanco,2022-09-05,7491.34,PV2022,,,,,,belisario dominguez,flor de chiapas,belisario dominguez-flor de chiapas,belisario dominguez-flor de chiapas,86.0,palenque-la flor de chiapas
804035,VELAZQUEZ GONZALEZ LORENZO,SUR SURESTE,CHIAPAS,BELISARIO DOMINGUEZ,FLOR DE CHIAPAS,Cultivo de maíz grano blanco,2022-09-05,7491.34,PV2022,,,,,,belisario dominguez,flor de chiapas,belisario dominguez-flor de chiapas,belisario dominguez-flor de chiapas,86.0,palenque-la flor de chiapas
820184,ZALAZ PEREZ DOMITILA,SUR SURESTE,CHIAPAS,BELISARIO DOMINGUEZ,FLOR DE CHIAPAS,Cultivo de maíz grano blanco,2022-09-05,7491.34,PV2022,,,,,,belisario dominguez,flor de chiapas,belisario dominguez-flor de chiapas,belisario dominguez-flor de chiapas,86.0,palenque-la flor de chiapas
825378,ZUNUN ROBLERO ELIZABETH,SUR SURESTE,CHIAPAS,BELISARIO DOMINGUEZ,FLOR DE CHIAPAS,Cultivo de maíz grano blanco,2022-12-05,7491.34,PV2022,,,,,,belisario dominguez,flor de chiapas,belisario dominguez-flor de chiapas,belisario dominguez-flor de chiapas,86.0,palenque-la flor de chiapas


In [138]:
# TODO: REVISAR ESTA PARTE (ARTURO)
listado_beneficiarios_parte_II_localidades = pd.merge(listado_beneficiarios_parte_I_localidades, INEGI_UNIQUELOC_2022,
                                          left_on="KEY_inegi_localidad",
                                          right_on="KEY_inegi_localidad", how='left', suffixes=('_benef', '_inegi'))

In [139]:
listado_beneficiarios_parte_II_localidades.isna().sum()

BENEFICIARIO               0
ZONA                       0
ENTIDAD                    0
MUNICIPIO                  0
LOCALIDAD                  0
PRODUCTO                   0
FECHA                      0
MONTO FEDERAL              0
CICLO AGRÍCOLA             0
KEY_benef_mun            198
CVE_ENT_benef            198
Entidad_inegi_benef      198
CVE_MUN_benef            198
Municipio_inegi_benef    198
MUNICIPIO_Clean            0
LOCALIDAD_Clean            0
Municipio-loc-KEY          0
KEY_benef_loc              0
match_score                0
KEY_inegi_localidad        0
CVE_ENT_inegi            636
Entidad_inegi_inegi      636
CVE_MUN_inegi            636
Municipio_inegi_inegi    636
CVE_LOC                  636
Localidad_inegi          636
KEY_inegi_municipio      636
dtype: int64

In [140]:
# Assuming listado_beneficiarios_parte_II is your DataFrame
rows_with_nan = listado_beneficiarios_parte_II_localidades[listado_beneficiarios_parte_II_localidades.isna().any(axis=1)]

# rows_with_nan now contains only the rows with NaN values in any column

In [142]:
rows_with_nan.tail(50)

Unnamed: 0,BENEFICIARIO,ZONA,ENTIDAD,MUNICIPIO,LOCALIDAD,PRODUCTO,FECHA,MONTO FEDERAL,CICLO AGRÍCOLA,KEY_benef_mun,...,KEY_benef_loc,match_score,KEY_inegi_localidad,CVE_ENT_inegi,Entidad_inegi_inegi,CVE_MUN_inegi,Municipio_inegi_inegi,CVE_LOC,Localidad_inegi,KEY_inegi_municipio
750061,SOLIS VELAZQUEZ RAMIRO,SUR SURESTE,CHIAPAS,BELISARIO DOMINGUEZ,FLOR DE CHIAPAS,Cultivo de maíz grano blanco,2022-08-16,7491.34,PV2022,,...,belisario dominguez-flor de chiapas,86.0,palenque-la flor de chiapas,7.0,Chiapas,65.0,Palenque,205.0,La Flor de Chiapas,chiapas-palenque
750148,SOLIZ ROBLERO JOAQUIN,SUR SURESTE,CHIAPAS,BELISARIO DOMINGUEZ,FLOR DE CHIAPAS,Cultivo de maíz grano blanco,2022-08-13,7491.34,PV2022,,...,belisario dominguez-flor de chiapas,86.0,palenque-la flor de chiapas,7.0,Chiapas,65.0,Palenque,205.0,La Flor de Chiapas,chiapas-palenque
753573,SOTO SOLIS SILMA JUDITH,SUR SURESTE,CHIAPAS,BELISARIO DOMINGUEZ,FLOR DE CHIAPAS,Cultivo de maíz grano blanco,2022-08-23,7491.34,PV2022,,...,belisario dominguez-flor de chiapas,86.0,palenque-la flor de chiapas,7.0,Chiapas,65.0,Palenque,205.0,La Flor de Chiapas,chiapas-palenque
758657,TENORIO ELENA MARIA ROSA,CENTRO PAÍS,GUERRERO,AYUTLA DE LOS LIBRES,EL PIÑAL,Cultivo de maíz grano blanco,2022-05-25,6122.09,PV2022,guerrero-ayutla de los libres,...,ayutla de los libres-el pinal,95.0,nuu-savi-el pinal,,,,,,,
758917,TEODORA EPITACIA FELIPA,CENTRO PAÍS,GUERRERO,AYUTLA DE LOS LIBRES,EL PLATANAR (SAN ANTONIO),Cultivo de frijol grano,2022-05-17,6122.09,PV2022,guerrero-ayutla de los libres,...,ayutla de los libres-el platanar (san antonio),95.0,ayutla de los libres-el platanar,,,,,,,
759004,TEODORO EPITACIO ARMANDO,CENTRO PAÍS,GUERRERO,AYUTLA DE LOS LIBRES,EL PLATANAR (SAN ANTONIO),Cultivo de maíz grano blanco,2022-05-17,12244.18,PV2022,guerrero-ayutla de los libres,...,ayutla de los libres-el platanar (san antonio),95.0,ayutla de los libres-el platanar,,,,,,,
759005,TEODORO EPITACIO BERNABE,CENTRO PAÍS,GUERRERO,AYUTLA DE LOS LIBRES,EL PLATANAR (SAN ANTONIO),Cultivo de maíz grano blanco,2022-05-17,6122.09,PV2022,guerrero-ayutla de los libres,...,ayutla de los libres-el platanar (san antonio),95.0,ayutla de los libres-el platanar,,,,,,,
759046,TEODORO LIBRADO GENARO,CENTRO PAÍS,GUERRERO,AYUTLA DE LOS LIBRES,EL PLATANAR (SAN ANTONIO),Cultivo de maíz grano blanco,2022-05-17,6122.09,PV2022,guerrero-ayutla de los libres,...,ayutla de los libres-el platanar (san antonio),95.0,ayutla de los libres-el platanar,,,,,,,
759164,TEOFILA SILVERIA VIGENIA,CENTRO PAÍS,GUERRERO,AYUTLA DE LOS LIBRES,EL PLATANAR (SAN ANTONIO),Cultivo de maíz grano blanco,2022-05-17,12244.18,PV2022,guerrero-ayutla de los libres,...,ayutla de los libres-el platanar (san antonio),95.0,ayutla de los libres-el platanar,,,,,,,
761083,TIBURCIO PATRICIO MARGARITA,CENTRO PAÍS,GUERRERO,MALINALTEPEC,TIERRA COLORADA,Cultivo de maíz grano blanco,2022-06-07,6122.09,PV2022,guerrero-malinaltepec,...,malinaltepec-tierra colorada,95.0,malinaltepec-el rincon (santa cruz del rincon),,,,,,,
