## Recuperación y limpieza de datos. Construcción de dataframe general.
#### En este notbook se muestra el proceso de construcción del dataframe, desde la obtención de datos de diferentes fuentes, la limpieza y estandarización de información, y la integración de dataframes.

In [1]:
#Importación de funciones y librerías requeridas
import p1_functions as f
import pandas as pd

In [2]:
#Obteción de información sobre precios de commodities mediante API de Yahoo finance
df=f.comm_price_df() #Construcción de dataframe mediante el llamado a la función commodities price dataframe: comm_price_df()

In [3]:
df=f.renombrar_columnas(df) #Estandarizacion a minúsculas, no espacios ni acentos de nombres de columnas
df=f.estandarizar_fechas(df) #Estandarización del formato de fecha
df=f.convertir_columnas_a_float(df,df.columns[1:].tolist()) #Convierte los valores de las columnas del dataframe a float, exceptuando la primera columna de fecha
df=f.completar_columnas_interpolacion(df)
df=f.limpiar_dataframe(df) # Limpieza de los valores en el dataframe y resultados del proceso

Reporte de valores nulos antes de la limpieza:
date           0
oro            0
plata          0
petroleo       0
gas_natural    0
dtype: int64



Se eliminaron las filas con al menos un valor nulo.
Cantidad de datos antes de la limpieza: 290 filas.
Cantidad de datos después de la limpieza: 290 filas.
Se eliminaron 0 filas con valores nulos.


In [4]:
df=f.indices_precios_comm(df) #Cálculo y adición de columnas para índicies de los precios de los commodities

In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 290 entries, 0 to 289
Data columns (total 9 columns):
 #   Column              Non-Null Count  Dtype         
---  ------              --------------  -----         
 0   date                290 non-null    datetime64[ns]
 1   oro                 290 non-null    float64       
 2   plata               290 non-null    float64       
 3   petroleo            290 non-null    float64       
 4   gas_natural         290 non-null    float64       
 5   indice_oro          290 non-null    float64       
 6   indice_plata        290 non-null    float64       
 7   indice_petroleo     290 non-null    float64       
 8   indice_gas_natural  290 non-null    float64       
dtypes: datetime64[ns](1), float64(8)
memory usage: 20.5 KB


#### Importanción y limpieza de datos gubernamentales en .csv de México

In [6]:
df_incp=pd.read_csv("Data\INCP.csv") #Lee archivo .csv con datos del Indice Nacional de Precios al COnsumidor (MX)
df_incp=f.renombrar_columnas(df_incp) #Elimina espacios y mayúsculas de nombres de columnas
df_incp=f.renombrar_columnas_incp(df_incp) #Cambia nombres de columnas a nombres especificados dentro de la función
df_incp=f.convertir_columnas_a_float(df_incp,df_incp.columns[1:].tolist())#Convierte los valores de las columnas del dataframe a float, exceptuando la primera columna de fecha
df_incp=f.estandarizar_fechas(df_incp) #Estandariza formato de los valores en la columna fecha
df_incp=f.limpiar_csv(df_incp)


Total de valores NaN antes de la limpieza: 576
Total de valores NaN después de eliminar filas: 0

Cantidad de datos antes de la limpieza: 658 filas
Cantidad de datos después de la limpieza: 514 filas


#### Importación y limpieza de datos gubernamentales en .csv de España

In [7]:
df_ipc=pd.read_csv("Data\IPC.csv") #Lee archivo .csv con datos del Indice Nacional de Precios al COnsumidor (MX)
df_ipc=f.renombrar_columnas(df_ipc) #Elimina espacios y mayúsculas de nombres de columnas
df_ipc=f.renombrar_columnas_icp(df_ipc) #Cambia nombres de columnas a nombres especificados dentro de la función
df_ipc=f.convertir_columnas_a_float(df_ipc,df_ipc.columns[1:].tolist()) #Convierte los valores de las columnas del dataframe a float, exceptuando la primera columna de fecha
df_ipc=f.estandarizar_fechas(df_ipc) #Estandariza formato de los valores en la columna fecha
df_ipc=f.limpiar_csv(df_ipc)

Total de valores NaN antes de la limpieza: 0
Total de valores NaN después de eliminar filas: 0

Cantidad de datos antes de la limpieza: 274 filas
Cantidad de datos después de la limpieza: 274 filas


### Detección definición de límites de fechas para análisis y unión de los datos en un único dataframe

In [8]:
f.fechas_limite(df,df_incp,df_ipc) #Función para calcular los límites de fecha para los tres dataframe
#Estos límites justifican la intersección de los dataframe.

Fecha límite menor:2002-01-01 00:00:00 
 Fecha límite mayor: 2024-10-01 00:00:00


In [9]:
df_final=f.unir_dataframes(df,df_incp,"date","inner") #Unión de dataframe precios de commodities y datos incp
df_final=f.unir_dataframes(df_final,df_ipc,"date","inner") #Unicón de dataframe anterior y datos ipc

Cantidad de filas en el DataFrame 'df1' antes de la unión: 290
Cantidad de filas en el DataFrame 'df2' antes de la unión: 514
Cantidad de filas en el DataFrame resultante después de la unión: 290 

Cantidad de filas en el DataFrame 'df1' antes de la unión: 290
Cantidad de filas en el DataFrame 'df2' antes de la unión: 274
Cantidad de filas en el DataFrame resultante después de la unión: 274 



In [10]:
df_final.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 274 entries, 0 to 273
Data columns (total 19 columns):
 #   Column                Non-Null Count  Dtype         
---  ------                --------------  -----         
 0   date                  274 non-null    datetime64[ns]
 1   oro                   274 non-null    float64       
 2   plata                 274 non-null    float64       
 3   petroleo              274 non-null    float64       
 4   gas_natural           274 non-null    float64       
 5   indice_oro            274 non-null    float64       
 6   indice_plata          274 non-null    float64       
 7   indice_petroleo       274 non-null    float64       
 8   indice_gas_natural    274 non-null    float64       
 9   indice_general_mx     274 non-null    float64       
 10  alimentos_bebidas_mx  274 non-null    float64       
 11  vivienda_mx           274 non-null    float64       
 12  educacion_mx          274 non-null    float64       
 13  transporte_mx       

### Obtención de datos adicionales mediante web scraping

##### Datos sobre la cantidad de suicidios en España

In [11]:
df_sui_es=f.data_sui_es() # Utiliza funciones de Selenium para hacer web scraping y obtener datos de la web
df_sui_es=f.renombrar_columnas(df_sui_es) #Estandarizacion a minúsculas, no espacios ni acentos de nombres de columnas
df_sui_es=f.renombrar_columnas_sui_es(df_sui_es) #Cambia nombres de columnas a nombres especificados dentro de la función
df_sui_es=f.estandarizar_fechas(df_sui_es) #Estandariza formato de los valores en la columna fecha
df_sui_es=f.convertir_columnas_a_float(df_sui_es,df_sui_es.columns[1:].tolist()) #Convierte los valores de las columnas del dataframe a float, exceptuando la primera columna de fecha
df_sui_es=f.limpiar_dataframe(df_sui_es) # Limpieza de los valores en el dataframe y resultados del proceso
df_sui_es=f.convertir_a_mensual(df_sui_es)

Reporte de valores nulos antes de la limpieza:
date        0
sui_h_es    0
sui_m_es    0
sui_es      0
dtype: int64



Se eliminaron las filas con al menos un valor nulo.
Cantidad de datos antes de la limpieza: 44 filas.
Cantidad de datos después de la limpieza: 44 filas.
Se eliminaron 0 filas con valores nulos.


In [12]:
df_sui_es.sample(8)

Unnamed: 0,date,sui_h_es,sui_m_es,sui_es
0,1980-04-01,103.083333,34.583333,137.666667
29,2009-08-01,222.166667,63.583333,285.75
6,1986-03-01,169.333333,60.25,229.583333
9,1989-10-01,184.416667,64.5,248.916667
29,2009-11-01,222.166667,63.583333,285.75
34,2014-10-01,244.833333,81.0,325.833333
23,2003-07-01,220.833333,69.0,289.833333
9,1989-01-01,184.416667,64.5,248.916667


##### Datos sobre la cantidad de suicidios en México

In [13]:
df_sui_mx=f.data_sui_mx()

In [14]:
df_sui_mx=f.renombrar_columnas(df_sui_mx) #Estandarizacion a minúsculas, no espacios ni acentos de nombres de columnas
df_sui_mx=f.renombrar_columnas_sui_mx(df_sui_mx) #Cambia nombres de columnas a nombres especificados dentro de la función
df_sui_mx=f.eliminar_columnas(df_sui_mx,df_sui_mx.columns[4:].tolist()) #Esta función elimina columnas de un dataframe
df_sui_mx=f.estandarizar_fechas(df_sui_mx) #Estandariza formato de los valores en la columna fecha
df_sui_mx=f.eliminar_puntos(df_sui_mx,df_sui_mx.columns[1:].tolist())
df_sui_mx=f.convertir_columnas_a_float(df_sui_mx,df_sui_mx.columns[1:].tolist()) #Convierte los valores de las columnas del dataframe a float, exceptuando la primera columna de fecha
df_sui_mx=f.limpiar_dataframe(df_sui_mx) # Limpieza de los valores en el dataframe y resultados del proceso
df_sui_mx=f.convertir_a_mensual(df_sui_mx)

Reporte de valores nulos antes de la limpieza:
date        0
sui_m_mx    0
sui_h_mx    0
sui_mx      0
dtype: int64



Se eliminaron las filas con al menos un valor nulo.
Cantidad de datos antes de la limpieza: 48 filas.
Cantidad de datos después de la limpieza: 48 filas.
Se eliminaron 0 filas con valores nulos.


### Unión de dataframes de datos de suicidios en España y México

In [15]:
df_sui=f.unir_dataframes(df_sui_es,df_sui_mx,"date","inner")

Cantidad de filas en el DataFrame 'df1' antes de la unión: 528
Cantidad de filas en el DataFrame 'df2' antes de la unión: 576
Cantidad de filas en el DataFrame resultante después de la unión: 504 



### Unión de dataframes de commodities y suicidios

In [16]:
df_final=f.unir_dataframes(df_final,df_sui,"date","left")

Cantidad de filas en el DataFrame 'df1' antes de la unión: 274
Cantidad de filas en el DataFrame 'df2' antes de la unión: 504
Cantidad de filas en el DataFrame resultante después de la unión: 274 



In [20]:
df_final.sample(8)

Unnamed: 0,date,oro,plata,petroleo,gas_natural,indice_oro,indice_plata,indice_petroleo,indice_gas_natural,indice_general_mx,...,alimentos_bebidas_es,vivienda_es,educacion_es,transporte_es,sui_h_es,sui_m_es,sui_es,sui_m_mx,sui_h_mx,sui_mx
107,2010-12-01,1421.1,30.91,91.38,4.41,114.540179,186.541943,198.479583,145.065789,74.93,...,84.95,84.55,81.8,87.5,205.666667,57.5,263.166667,75.25,333.0,417.666667
270,2024-07-01,2426.5,28.78,77.91,2.04,195.575079,173.687387,169.222415,67.105263,136.0,...,129.06,106.05,105.38,113.44,,,,,,
34,2004-11-01,451.3,7.72,49.13,7.62,36.374627,46.590223,106.711555,250.657895,58.19,...,73.44,64.37,66.17,71.43,220.916667,71.333333,292.25,56.5,284.5,343.083333
88,2009-05-01,978.8,15.6,66.31,3.84,78.890949,94.146047,144.026933,126.315789,70.05,...,84.7,78.88,78.03,78.22,222.166667,63.583333,285.75,81.0,340.583333,432.5
4,2002-05-01,326.5,5.03,25.35,3.22,26.315789,30.356065,55.060817,105.921053,51.51,...,66.9,59.32,58.56,66.19,212.833333,68.083333,280.916667,54.75,265.75,322.583333
102,2010-07-01,1181.7,17.99,78.95,4.92,95.24462,108.569704,171.481321,161.842105,72.93,...,83.9,82.82,80.06,84.81,205.666667,57.5,263.166667,75.25,333.0,417.666667
90,2009-07-01,953.7,13.93,69.45,3.65,76.867897,84.067592,150.847089,120.065789,70.37,...,84.18,79.44,78.06,79.87,222.166667,63.583333,285.75,81.0,340.583333,432.5
24,2004-01-01,402.2,6.25,33.05,5.4,32.417184,37.718769,71.785404,177.631579,55.77,...,71.83,62.16,63.76,66.99,220.916667,71.333333,292.25,56.5,284.5,343.083333


### Creación de archivo .csv del dataframe final

In [21]:
df_final.to_csv('df_final.csv', index=False)

# Fuentes

https://www.banxico.org.mx/SieInternet/consultarDirectorioInternetAction.do?sector=8&accion=consultarCuadro&idCuadro=CP154&locale=es

https://www.inegi.org.mx/temas/inpc/

https://www.ine.es/jaxiT3/Datos.htm?t=50902#_tabs-tabla

https://algotrading101.com/learn/yfinance-guide/

https://es.wikipedia.org/wiki/Suicidio_en_Espa%C3%B1a