# **Financiamientos cleaning**

In [73]:
import pandas as pd

# Different encodings to handle the UnicodeDecodeError
encodings = ['latin-1', 'iso-8859-1', 'cp1252']

for encoding in encodings:
    try:
        df = pd.read_csv('financiamientos_2024.csv', encoding=encoding)
        print(f"Successfully read the file using {encoding} encoding.")
        break
    except UnicodeDecodeError:
        print(f"Failed to read the file using {encoding} encoding.")
    except Exception as e:
        print(f"An unexpected error occurred: {str(e)}")
else:
    print("Failed to read the file with all attempted encodings.")
    df = None

if df is not None:
    print(df.head())
else:
    print("Unable to display data as the file could not be read.")

Successfully read the file using latin-1 encoding.
    año  mes  cve_ent         entidad  cve_mun       municipio  organismo  \
0  2024    1      NaN  No distribuido      NaN  No distribuido          4   
1  2024    1      1.0  Aguascalientes      NaN  No distribuido          4   
2  2024    1      1.0  Aguascalientes      1.0  Aguascalientes          1   
3  2024    1      1.0  Aguascalientes      1.0  Aguascalientes          1   
4  2024    1      1.0  Aguascalientes      1.0  Aguascalientes          1   

   modalidad  destino  tipo  sexo  edad_rango  ingresos_rango  vivienda_valor  \
0          2        1     1   NaN         NaN             NaN             NaN   
1          2        1     1   NaN         NaN             NaN             NaN   
2          1        2     2   1.0         NaN             1.0             2.0   
3          1        2     2   1.0         NaN             1.0             4.0   
4          1        2     2   1.0         NaN             1.0             5.0   


In [74]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 184550 entries, 0 to 184549
Data columns (total 16 columns):
 #   Column          Non-Null Count   Dtype  
---  ------          --------------   -----  
 0   año             184550 non-null  int64  
 1   mes             184550 non-null  int64  
 2   cve_ent         184542 non-null  float64
 3   entidad         184550 non-null  object 
 4   cve_mun         184315 non-null  float64
 5   municipio       184547 non-null  object 
 6   organismo       184550 non-null  int64  
 7   modalidad       184550 non-null  int64  
 8   destino         184550 non-null  int64  
 9   tipo            184550 non-null  int64  
 10  sexo            184317 non-null  float64
 11  edad_rango      180982 non-null  float64
 12  ingresos_rango  171320 non-null  float64
 13  vivienda_valor  143143 non-null  float64
 14  acciones        184550 non-null  float64
 15  monto           184550 non-null  float64
dtypes: float64(8), int64(6), object(2)
memory usage: 22.5+ M

In [75]:
df.isna().sum()

año                   0
mes                   0
cve_ent               8
entidad               0
cve_mun             235
municipio             3
organismo             0
modalidad             0
destino               0
tipo                  0
sexo                233
edad_rango         3568
ingresos_rango    13230
vivienda_valor    41407
acciones              0
monto                 0
dtype: int64

In [76]:
df['cve_ent'] = df['cve_ent'].fillna(0)
df['cve_ent'].unique()

array([ 0.,  1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9., 10., 11., 12.,
       13., 14., 15., 16., 17., 18., 19., 20., 21., 22., 23., 24., 25.,
       26., 27., 28., 29., 30., 31., 32.])

In [77]:
df['cve_mun'] = df['cve_mun'].fillna(0)

In [78]:
df['destino'] = df['destino'].fillna(0)
df['destino'].unique()

array([ 1,  2,  5,  3,  7,  4,  6, 10, 18,  9,  8], dtype=int64)

In [79]:
unique_sexo = df['sexo'].unique()
df['sexo'] = df['sexo'].fillna(0)

In [80]:
df['edad_rango'].unique()
df['edad_rango'] = df['edad_rango'].fillna(0)

In [81]:
df['ingresos_rango'] = df['ingresos_rango'].fillna(0)
df['ingresos_rango'].unique()

array([0., 1., 5., 6., 2., 3., 4.])

In [82]:
df['vivienda_valor'] = df['vivienda_valor'].fillna(0)
df['vivienda_valor'].unique()

array([0., 2., 4., 5., 3., 1., 6.])

## CIUDAD 

In [27]:
df['entidad'].unique()

array(['Aguascalientes', 'Baja California', 'Baja California Sur',
       'Campeche', 'Coahuila de Zaragoza', 'Colima', 'Chiapas',
       'Chihuahua', 'Ciudad de México', 'Durango', 'Guanajuato',
       'Guerrero', 'Hidalgo', 'Jalisco', 'México', 'Michoacán de Ocampo',
       'Morelos', 'Nayarit', 'Nuevo León', 'Oaxaca', 'Puebla',
       'Querétaro', 'Quintana Roo', 'San Luis Potosí', 'Sinaloa',
       'Sonora', 'Tabasco', 'Tamaulipas', 'Tlaxcala',
       'Veracruz de Ignacio de la Llave', 'Yucatán', 'Zacatecas',
       'No distribuido'], dtype=object)

In [83]:
df_filtrado = df[df['entidad'] == 'Puebla']
df_filtrado['entidad'].unique()

array(['Puebla'], dtype=object)

In [57]:
df_filtrado['municipio'].unique()

array(['No distribuido', 'Acajete', 'Acatlán', 'Acatzingo', 'Ahuazotepec',
       'Ajalpan', 'Altepexi', 'Amozoc', 'Atexcal', 'Atlixco',
       'Atoyatempan', 'Calpan', 'Caltepec', 'Coronango', 'Coxcatlán',
       'Coyotepec', 'Cuautinchán', 'Cuautlancingo', 'Cuayuca de Andrade',
       'Cuetzalan del Progreso', 'Chalchicomula de Sesma', 'Chietla',
       'Chignahuapan', 'Chignautla', 'Francisco Z. Mena',
       'Guadalupe Victoria', 'Huauchinango', 'Huejotzingo', 'Hueyapan',
       'Hueytlalpan', 'Ixtepec', 'Izúcar de Matamoros', 'Juan C. Bonilla',
       'Juan N. Méndez', 'Libres', 'Molcaxac', 'Nopalucan', 'Ocoyucan',
       'Olintla', 'Oriental', 'Pahuatlán', 'Palmar de Bravo', 'Puebla',
       'Quecholac', 'Rafael Lara Grajales', 'Los Reyes de Juárez',
       'San Andrés Cholula', 'San Antonio Cañada', 'San Gabriel Chilac',
       'San José Chiapa', 'San Martín Texmelucan',
       'San Martín Totoltepec', 'San Nicolás de los Ranchos',
       'San Pedro Cholula', 'San Pedro Yeloixtl

In [20]:
selected_municipalities = ['Pachuca de Soto','Mineral de la Reforma']
df_filtrado = df_filtrado[df_filtrado['municipio'].isin(selected_municipalities)]

df_filtrado['municipio'].unique()

array(['Pachuca de Soto'], dtype=object)

In [84]:
df_filtrado['id'] = range(1, len(df_filtrado) + 1)
print(df_filtrado[['id', 'entidad', 'municipio','año']])

          id entidad       municipio   año
14496      1  Puebla  No distribuido  2024
14497      2  Puebla         Acatlán  2024
14498      3  Puebla         Acatlán  2024
14499      4  Puebla         Acatlán  2024
14500      5  Puebla       Acatzingo  2024
...      ...     ...             ...   ...
176238  6530  Puebla        Zacatlán  2024
176239  6531  Puebla        Zacatlán  2024
176240  6532  Puebla        Zaragoza  2024
176241  6533  Puebla     Zinacatepec  2024
176242  6534  Puebla     Zinacatepec  2024

[6534 rows x 4 columns]


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_filtrado['id'] = range(1, len(df_filtrado) + 1)


In [85]:
output_file = '../ciudades/puebla/financiamientos_2024_puebla.csv'
df_filtrado.to_csv(output_file, index=False, encoding='utf-8')