## Recuperación y limpieza de datos. Construcción de dataframe general.
#### En este notbook se muestra el proceso de construcción del dataframe, desde la obtención de datos de diferentes fuentes, la limpieza y estandarización de información, y la integración de dataframes.

In [1]:
#Importación de funciones y librerías requeridas
import p1_functions as f
import pandas as pd

In [2]:
#Obteción de información sobre precios de commodities mediante API de Yahoo finance
df=f.comm_price_df() #Construcción de dataframe mediante el llamado a la función commodities price dataframe: comm_price_df()

In [3]:
df=f.renombrar_columnas(df) #Estandarizacion a minúsculas, no espacios ni acentos de nombres de columnas
df=f.estandarizar_fechas(df) #Estandarización del formato de fecha
df=f.convertir_columnas_a_float(df,df.columns[1:].tolist()) #Convierte los valores de las columnas del dataframe a float, exceptuando la primera columna de fecha
df=f.completar_columnas_interpolacion(df)
df=f.limpiar_dataframe(df) # Limpieza de los valores en el dataframe y resultados del proceso

Reporte de valores nulos antes de la limpieza:
date           0
oro            0
plata          0
petroleo       0
gas_natural    0
dtype: int64



Se eliminaron las filas con al menos un valor nulo.
Cantidad de datos antes de la limpieza: 290 filas.
Cantidad de datos después de la limpieza: 290 filas.
Se eliminaron 0 filas con valores nulos.


In [4]:
df=f.indices_precios_comm(df) #Cálculo y adición de columnas para índicies de los precios de los commodities

#### Importanción y limpieza de datos gubernamentales en .csv de México

In [6]:
df_incp=pd.read_csv("Data\INCP.csv") #Lee archivo .csv con datos del Indice Nacional de Precios al COnsumidor (MX)
df_incp=f.renombrar_columnas(df_incp) #Elimina espacios y mayúsculas de nombres de columnas
df_incp=f.renombrar_columnas_incp(df_incp) #Cambia nombres de columnas a nombres especificados dentro de la función
df_incp=f.convertir_columnas_a_float(df_incp,df_incp.columns[1:].tolist())#Convierte los valores de las columnas del dataframe a float, exceptuando la primera columna de fecha
df_incp=f.estandarizar_fechas(df_incp) #Estandariza formato de los valores en la columna fecha
df_incp=f.limpiar_csv(df_incp)


Total de valores NaN antes de la limpieza: 576
Total de valores NaN después de eliminar filas: 0

Cantidad de datos antes de la limpieza: 658 filas
Cantidad de datos después de la limpieza: 514 filas


#### Importación y limpieza de datos gubernamentales en .csv de España

In [7]:
df_ipc=pd.read_csv("Data\IPC.csv") #Lee archivo .csv con datos del Indice Nacional de Precios al COnsumidor (MX)
df_ipc=f.renombrar_columnas(df_ipc) #Elimina espacios y mayúsculas de nombres de columnas
df_ipc=f.renombrar_columnas_icp(df_ipc) #Cambia nombres de columnas a nombres especificados dentro de la función
df_ipc=f.convertir_columnas_a_float(df_ipc,df_ipc.columns[1:].tolist()) #Convierte los valores de las columnas del dataframe a float, exceptuando la primera columna de fecha
df_ipc=f.estandarizar_fechas(df_ipc) #Estandariza formato de los valores en la columna fecha
df_ipc=f.limpiar_csv(df_ipc)

Total de valores NaN antes de la limpieza: 0
Total de valores NaN después de eliminar filas: 0

Cantidad de datos antes de la limpieza: 274 filas
Cantidad de datos después de la limpieza: 274 filas


### Detección definición de límites de fechas para análisis y unión de los datos en un único dataframe

In [8]:
f.fechas_limite(df,df_incp,df_ipc) #Función para calcular los límites de fecha para los tres dataframe
#Estos límites justifican la intersección de los dataframe.

Fecha límite menor:2002-01-01 00:00:00 
 Fecha límite mayor: 2024-10-01 00:00:00


In [9]:
df_final=f.unir_dataframes(df,df_incp,"date","inner") #Unión de dataframe precios de commodities y datos incp
df_final=f.unir_dataframes(df_final,df_ipc,"date","inner") #Unicón de dataframe anterior y datos ipc

Cantidad de filas en el DataFrame 'df1' antes de la unión: 290
Cantidad de filas en el DataFrame 'df2' antes de la unión: 514
Cantidad de filas en el DataFrame resultante después de la unión: 290 

Cantidad de filas en el DataFrame 'df1' antes de la unión: 290
Cantidad de filas en el DataFrame 'df2' antes de la unión: 274
Cantidad de filas en el DataFrame resultante después de la unión: 274 



### Obtención de datos adicionales mediante web scraping

##### Datos sobre la cantidad de suicidios en España

In [11]:
df_sui_es=f.data_sui_es() # Utiliza funciones de Selenium para hacer web scraping y obtener datos de la web
df_sui_es=f.renombrar_columnas(df_sui_es) #Estandarizacion a minúsculas, no espacios ni acentos de nombres de columnas
df_sui_es=f.renombrar_columnas_sui_es(df_sui_es) #Cambia nombres de columnas a nombres especificados dentro de la función
df_sui_es=f.estandarizar_fechas(df_sui_es) #Estandariza formato de los valores en la columna fecha
df_sui_es=f.convertir_columnas_a_float(df_sui_es,df_sui_es.columns[1:].tolist()) #Convierte los valores de las columnas del dataframe a float, exceptuando la primera columna de fecha
df_sui_es=f.limpiar_dataframe(df_sui_es) # Limpieza de los valores en el dataframe y resultados del proceso
df_sui_es=f.convertir_a_mensual(df_sui_es)

Reporte de valores nulos antes de la limpieza:
date        0
sui_h_es    0
sui_m_es    0
sui_es      0
dtype: int64



Se eliminaron las filas con al menos un valor nulo.
Cantidad de datos antes de la limpieza: 44 filas.
Cantidad de datos después de la limpieza: 44 filas.
Se eliminaron 0 filas con valores nulos.


##### Datos sobre la cantidad de suicidios en México

In [13]:
df_sui_mx=f.data_sui_mx()

In [14]:
df_sui_mx=f.renombrar_columnas(df_sui_mx) #Estandarizacion a minúsculas, no espacios ni acentos de nombres de columnas
df_sui_mx=f.renombrar_columnas_sui_mx(df_sui_mx) #Cambia nombres de columnas a nombres especificados dentro de la función
df_sui_mx=f.eliminar_columnas(df_sui_mx,df_sui_mx.columns[4:].tolist()) #Esta función elimina columnas de un dataframe
df_sui_mx=f.estandarizar_fechas(df_sui_mx) #Estandariza formato de los valores en la columna fecha
df_sui_mx=f.eliminar_puntos(df_sui_mx,df_sui_mx.columns[1:].tolist())
df_sui_mx=f.convertir_columnas_a_float(df_sui_mx,df_sui_mx.columns[1:].tolist()) #Convierte los valores de las columnas del dataframe a float, exceptuando la primera columna de fecha
df_sui_mx=f.limpiar_dataframe(df_sui_mx) # Limpieza de los valores en el dataframe y resultados del proceso
df_sui_mx=f.convertir_a_mensual(df_sui_mx)

Reporte de valores nulos antes de la limpieza:
date        0
sui_m_mx    0
sui_h_mx    0
sui_mx      0
dtype: int64



Se eliminaron las filas con al menos un valor nulo.
Cantidad de datos antes de la limpieza: 48 filas.
Cantidad de datos después de la limpieza: 48 filas.
Se eliminaron 0 filas con valores nulos.


### Unión de dataframes de datos de suicidios en España y México

In [15]:
df_sui=f.unir_dataframes(df_sui_es,df_sui_mx,"date","inner")

Cantidad de filas en el DataFrame 'df1' antes de la unión: 528
Cantidad de filas en el DataFrame 'df2' antes de la unión: 576
Cantidad de filas en el DataFrame resultante después de la unión: 504 



### Unión de dataframes de commodities y suicidios

In [16]:
df_final=f.unir_dataframes(df_final,df_sui,"date","left")

Cantidad de filas en el DataFrame 'df1' antes de la unión: 274
Cantidad de filas en el DataFrame 'df2' antes de la unión: 504
Cantidad de filas en el DataFrame resultante después de la unión: 274 



### Creación de archivo .csv del dataframe final

In [21]:
df_final.to_csv('df_final.csv', index=False)

# Referencias

Banco de México. (n.d.). Cuadro de precios al consumidor (CP154). Banco de México. Recuperado de https://www.banxico.org.mx/SieInternet/consultarDirectorioInternetAction.do?sector=8&accion=consultarCuadro&idCuadro=CP154&locale=es

Instituto Nacional de Estadística y Geografía (INEGI). (n.d.). Índice Nacional de Precios al Consumidor (INPC). INEGI. Recuperado de https://www.inegi.org.mx/temas/inpc/

Instituto Nacional de Estadística (INE). (n.d.). Índice de Precios de Consumo (IPC). INE. Recuperado de https://www.ine.es/jaxiT3/Datos.htm?t=50902#_tabs-tabla

AlgoTrading101. (2021). Guía completa de yFinance: aprende a usar la API de Yahoo Finance. Recuperado de https://algotrading101.com/learn/yfinance-guide/

Wikipedia. (2024). Suicidio en España. Wikipedia. Recuperado de https://es.wikipedia.org/wiki/Suicidio_en_Espa%C3%B1a

Universidad Europea. (n.d.). ¿Qué son los commodities? Universidad Europea. Recuperado de https://universidadeuropea.com/blog/que-son-los-commodities/

Instituto Nacional de Estadística (INE). (2024). El Índice de Precios de Consumo (IPC). INE. Recuperado de https://www.ine.es/prensa/ipc_prensa.htm#:~:text=El%20%C3%8Dndice%20de%20Precios%20de,en%20viviendas%20familiares%20en%20Espa%C3%B1a.