# **Financiamientos cleaning**

In [86]:
import pandas as pd

# Different encodings to handle the UnicodeDecodeError
encodings = ['latin-1', 'iso-8859-1', 'cp1252']

for encoding in encodings:
    try:
        df = pd.read_csv('financiamientos_2024.csv', encoding=encoding)
        print(f"Successfully read the file using {encoding} encoding.")
        break
    except UnicodeDecodeError:
        print(f"Failed to read the file using {encoding} encoding.")
    except Exception as e:
        print(f"An unexpected error occurred: {str(e)}")
else:
    print("Failed to read the file with all attempted encodings.")
    df = None

if df is not None:
    print(df.head())
else:
    print("Unable to display data as the file could not be read.")

Successfully read the file using latin-1 encoding.
    año  mes  cve_ent         entidad  cve_mun       municipio  organismo  \
0  2024    1      NaN  No distribuido      NaN  No distribuido          4   
1  2024    1      1.0  Aguascalientes      NaN  No distribuido          4   
2  2024    1      1.0  Aguascalientes      1.0  Aguascalientes          1   
3  2024    1      1.0  Aguascalientes      1.0  Aguascalientes          1   
4  2024    1      1.0  Aguascalientes      1.0  Aguascalientes          1   

   modalidad  destino  tipo  sexo  edad_rango  ingresos_rango  vivienda_valor  \
0          2        1     1   NaN         NaN             NaN             NaN   
1          2        1     1   NaN         NaN             NaN             NaN   
2          1        2     2   1.0         NaN             1.0             2.0   
3          1        2     2   1.0         NaN             1.0             4.0   
4          1        2     2   1.0         NaN             1.0             5.0   


### 2022

In [87]:
# Manejo de datos
import os # Directorios
import pandas as pd # Manipulación df
# Gráficas
import plotly.graph_objects as go #Para obtener librería usar: pip install plotly
from plotly.subplots import make_subplots
import plotly.io as pio # Exportar gráfica

data = {
    'modalidad': ['Nueva','Nueva','Nueva','Nueva', 'Usada', 'Usada', 'Usada', 'Usada'],
    'trimestre': ['1T 2022','2T 2022','3T 2022','4T 2022','1T 2022','2T 2022','3T 2022','4T 2022'],
    'promedio': ['1,533,116.58', '1,584,256.88', '1,564,172.85', '1,915,828.41', '1,805,506.13', '1,911,416.26', '2,253,129.77', '2,372,802.68'],
}
# Convertir a DataFrame
promedio_monto_por_modalidad_mes = pd.DataFrame(data)

In [88]:
# Datos
trimestres = promedio_monto_por_modalidad_mes['trimestre']
modalidades = promedio_monto_por_modalidad_mes['modalidad']
promedios = promedio_monto_por_modalidad_mes['promedio']

# Limpiar las cadenas de promedio y convertirlas a números
promedios_limpios = [float(promedio.replace(',', '')) for promedio in promedios]

colors = ['#9500ff', '#ff0059']
fig = go.Figure()

# Agregar líneas para cada modalidad
for i, modalidad in enumerate(modalidades.unique()):
    df_modalidad = promedio_monto_por_modalidad_mes[promedio_monto_por_modalidad_mes['modalidad'] == modalidad]
    fig.add_trace(go.Scatter(
        x=df_modalidad['trimestre'],
        y=df_modalidad['promedio'].apply(lambda x: float(x.replace(',', ''))),  # Usar los promedios limpios
        mode='markers+lines',
        name=modalidad,
        line=dict(color=colors[i % len(colors)])  # Asignar colores a las líneas
    ))

fig.update_layout(
    #title='Promedio de valor de créditos para viviendas nuevas y usadas (2023)',
    #xaxis=dict(title='Trimestre'),
    yaxis=dict(title='Promedio del monto', gridcolor='#dddcda'),
    margin=dict(l=10, r=10, t=10, b=10),  # Ajusta los márgenes (left, right, top, bottom)
    plot_bgcolor='rgba(0,0,0,0)',  # Color de fondo del gráfico
)

# Agregar etiquetas de texto a los puntos
for trace in fig.data:
    df_modalidad = promedio_monto_por_modalidad_mes[promedio_monto_por_modalidad_mes['modalidad'] == trace.name]
    for i, point in enumerate(trace.y):
        fig.add_annotation(
            x=trace.x[i],
            y=point,
            text=f'{df_modalidad.iloc[i]["promedio"]}',
            showarrow=False,
            font=dict(color='black', size=10),
            yshift=10
        )

# Exportar gráfica como archivo HTML
def guardar_grafico_como_html(fig, nombre_archivo, carpeta='assets\graficas'):
    # Crear la carpeta si no existe
    if not os.path.exists(carpeta):
        os.makedirs(carpeta)
        
    # Configuración personalizada para la gráfica
    config = {
        'displaylogo': False,  # Ocultar el logo de Plotly
        'modeBarButtonsToRemove': [
            'toImage',       # Botón para guardar como imagen
            'select2d',      # Box select
            'lasso2d',       # Lasso select
            'resetScale2d',  # Reset Axes
        ]
    }

    # Guardar la gráfica como archivo HTML
    pio.write_html(fig, f'{carpeta}/{nombre_archivo}.html', config=config)

guardar_grafico_como_html(fig, 'g_scatt_creditos_nuevausada_2022', carpeta='assets\graficas')
fig.show()

  def guardar_grafico_como_html(fig, nombre_archivo, carpeta='assets\graficas'):
  guardar_grafico_como_html(fig, 'g_scatt_creditos_nuevausada_2022', carpeta='assets\graficas')


In [89]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 293554 entries, 0 to 293553
Data columns (total 16 columns):
 #   Column          Non-Null Count   Dtype  
---  ------          --------------   -----  
 0   año             293554 non-null  int64  
 1   mes             293554 non-null  int64  
 2   cve_ent         293543 non-null  float64
 3   entidad         293554 non-null  object 
 4   cve_mun         293191 non-null  float64
 5   municipio       293554 non-null  object 
 6   organismo       293554 non-null  int64  
 7   modalidad       293554 non-null  int64  
 8   destino         293554 non-null  int64  
 9   tipo            293554 non-null  int64  
 10  sexo            293188 non-null  float64
 11  edad_rango      287528 non-null  float64
 12  ingresos_rango  279503 non-null  float64
 13  vivienda_valor  231453 non-null  float64
 14  acciones        293554 non-null  float64
 15  monto           293554 non-null  float64
dtypes: float64(8), int64(6), object(2)
memory usage: 35.8+ M

In [90]:
df.isna().sum()

año                   0
mes                   0
cve_ent              11
entidad               0
cve_mun             363
municipio             0
organismo             0
modalidad             0
destino               0
tipo                  0
sexo                366
edad_rango         6026
ingresos_rango    14051
vivienda_valor    62101
acciones              0
monto                 0
dtype: int64

In [91]:
df['cve_ent'] = df['cve_ent'].fillna(0)
df['cve_ent'].unique()

array([ 0.,  1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9., 10., 11., 12.,
       13., 14., 15., 16., 17., 18., 19., 20., 21., 22., 23., 24., 25.,
       26., 27., 28., 29., 30., 31., 32.])

In [92]:
df['cve_mun'] = df['cve_mun'].fillna(0)

In [93]:
df['destino'] = df['destino'].fillna(0)
df['destino'].unique()

array([ 1,  2,  5,  3,  7,  4,  6, 10, 18,  9,  8])

In [94]:
unique_sexo = df['sexo'].unique()
df['sexo'] = df['sexo'].fillna(0)

In [95]:
df['edad_rango'].unique()
df['edad_rango'] = df['edad_rango'].fillna(0)

In [96]:
df['ingresos_rango'] = df['ingresos_rango'].fillna(0)
df['ingresos_rango'].unique()

array([0., 1., 5., 6., 2., 3., 4.])

In [97]:
df['vivienda_valor'] = df['vivienda_valor'].fillna(0)
df['vivienda_valor'].unique()

array([0., 2., 4., 5., 3., 1., 6.])

## CIUDAD 

In [98]:
df['entidad'].unique()

array(['No distribuido', 'Aguascalientes', 'Baja California',
       'Baja California Sur', 'Campeche', 'Coahuila de Zaragoza',
       'Colima', 'Chiapas', 'Chihuahua', 'Ciudad de México', 'Durango',
       'Guanajuato', 'Guerrero', 'Hidalgo', 'Jalisco', 'México',
       'Michoacán de Ocampo', 'Morelos', 'Nayarit', 'Nuevo León',
       'Oaxaca', 'Puebla', 'Querétaro', 'Quintana Roo', 'San Luis Potosí',
       'Sinaloa', 'Sonora', 'Tabasco', 'Tamaulipas', 'Tlaxcala',
       'Veracruz de Ignacio de la Llave', 'Yucatán', 'Zacatecas'],
      dtype=object)

In [99]:
df_filtrado = df[df['entidad'] == 'Jalisco']
df_filtrado['entidad'].unique()

array(['Jalisco'], dtype=object)

In [100]:
df_filtrado['municipio'].unique()

array(['No distribuido', 'Acatic', 'Acatlán de Juárez',
       'Ahualulco de Mercado', 'Amatitán', 'Ameca', 'Arandas',
       'El Arenal', 'Atotonilco el Alto', 'Atoyac', 'Autlán de Navarro',
       'Ayotlán', 'La Barca', 'Cabo Corrientes', 'Casimiro Castillo',
       'Cihuatlán', 'Zapotlán el Grande', 'Colotlán', 'Chapala',
       'Encarnación de Díaz', 'Etzatlán', 'El Grullo', 'Guachinango',
       'Guadalajara', 'Ixtlahuacán de los Membrillos',
       'Ixtlahuacán del Río', 'Jalostotitlán', 'Jamay', 'Jocotepec',
       'Juanacatlán', 'Lagos de Moreno', 'Magdalena', 'Mazamitla',
       'Ocotlán', 'Poncitlán', 'Puerto Vallarta', 'El Salto',
       'San Cristóbal de la Barranca', 'San Juan de los Lagos',
       'San Julián', 'San Martín Hidalgo', 'San Miguel el Alto',
       'Gómez Farías', 'Sayula', 'Tala', 'Talpa de Allende',
       'Tamazula de Gordiano', 'Tapalpa', 'Tecolotlán', 'Teocaltiche',
       'Tepatitlán de Morelos', 'Tequila', 'Teuchitlán',
       'Tizapán el Alto', 'Tlajo

In [101]:
selected_municipalities = ['Puerto Vallarta']
df_filtrado = df_filtrado[df_filtrado['municipio'].isin(selected_municipalities)]

df_filtrado['municipio'].unique()

array(['Puerto Vallarta'], dtype=object)

In [102]:
df_filtrado['id'] = range(1, len(df_filtrado) + 1)
print(df_filtrado[['id', 'entidad', 'municipio','año']])

          id  entidad        municipio   año
7529       1  Jalisco  Puerto Vallarta  2024
7530       2  Jalisco  Puerto Vallarta  2024
7531       3  Jalisco  Puerto Vallarta  2024
7532       4  Jalisco  Puerto Vallarta  2024
7533       5  Jalisco  Puerto Vallarta  2024
...      ...      ...              ...   ...
276010  1176  Jalisco  Puerto Vallarta  2024
276011  1177  Jalisco  Puerto Vallarta  2024
276012  1178  Jalisco  Puerto Vallarta  2024
276013  1179  Jalisco  Puerto Vallarta  2024
276014  1180  Jalisco  Puerto Vallarta  2024

[1180 rows x 4 columns]


In [103]:
output_file = 'C:\\xampp\\htdocs\\datalpine\\resources\\db\\datos_json\\datos_financiamientos_2024_vallarta.json'
df_filtrado.to_json(output_file, orient='records', lines=False, force_ascii=False)

output_file = '../ciudades/puebla/financiamientos_2024_puebla.csv'
df_filtrado.to_csv(output_file, index=False, encoding='utf-8')