## Recuperación y limpieza de datos. Construcción de dataframe general.
#### En este notebook se muestra el proceso de construcción del dataframe, desde la obtención de datos de diferentes fuentes, la limpieza y estandarización de información, y la integración de dataframes.

In [1]:
#Importación de funciones y librerías requeridas
import general_functions as f
import commodities as c
import datos_esp as esp
import datos_mex as mx
import graficos as g
import Union as u
import pandas as pd

##### Resumen del Proceso de Limpieza y Transformación de Datos de Commodities

La función `commodities` procesa un DataFrame de datos relacionados con commodities, realizando los siguientes pasos clave:

1. **Renombrado de columnas**: Se estandarizan los nombres de las columnas del DataFrame, eliminando espacios, acentos y convirtiéndolos a minúsculas para mantener la consistencia.

2. **Estandarización de fechas**: La columna de fecha se convierte a un formato uniforme para garantizar que los datos de tiempo sean consistentes.

3. **Conversión a tipo numérico (float)**: Las columnas que contienen datos numéricos (exceptuando la columna de fecha) se convierten a tipo `float` para facilitar su análisis.

4. **Interpolación de valores faltantes**: Se completan las columnas con valores faltantes utilizando interpolación, asegurando que no haya huecos en los datos.

5. **Limpieza de datos**: Se eliminan filas con valores nulos o no deseados y se realiza una limpieza final de los datos para asegurarse de que estén listos para el análisis.

**Resultado final**: El DataFrame resultante estará limpio, con columnas estandarizadas y datos listos para análisis posteriores.


In [2]:
df=c.comm_price_df()
df=f.commodities(df)


Reporte de valores nulos antes de la limpieza:
date           0
oro            0
plata          0
petroleo       0
gas_natural    0
dtype: int64



Se eliminaron las filas con al menos un valor nulo.
Cantidad de datos antes de la limpieza: 290 filas.
Cantidad de datos después de la limpieza: 290 filas.
Se eliminaron 0 filas con valores nulos.


#### Importación y limpieza de datos gubernamentales en .csv de México

##### RESUMEN DE LAS ACCIONES QUE SE VAN A REALIZAR EN ESTE PROCESO:

La función `mex_sui` realiza una serie de pasos para limpiar y transformar un DataFrame `df_incp` que contiene datos de un índice de precios. Los pasos son los siguientes:

1. **Renombrado de columnas**: Se renombra automáticamente las columnas del DataFrame, eliminando espacios y convirtiéndolas a minúsculas para asegurar consistencia.

2. **Renombrado de columnas específicas (INCP)**: Se aplican nombres específicos a las columnas, asegurando que el DataFrame tenga las etiquetas correctas para su análisis.

3. **Conversión a tipo numérico**: Se convierten las columnas numéricas (excepto la columna de fechas) a tipo `float` para asegurar la coherencia de los datos.

4. **Estandarización de fechas**: Las fechas en la columna 'date' se estandarizan para tener un formato consistente.

5. **Limpieza final del DataFrame**: Se elimina cualquier valor no deseado (como 'N/E' o NaN), y se realizan otras transformaciones necesarias para que los datos estén listos para análisis posteriores.

**Resultado final**: El DataFrame se devuelve limpio, con fechas estandarizadas y columnas numéricas listas para ser analizadas.



In [3]:
#Cargar csv Indice nacional de precios consumidos México
df_incp=pd.read_csv("Data\INCP.csv")
df_incp=f.mex_incp(df_incp)

1. Renombrando columnas...
2. Renombrando columnas INCP...
3. Convertiendo las columnas a float...
4. Estandarizando las fechas...
5. Limpiando el CSV...
Total de valores NaN antes de la limpieza: 576
Total de valores NaN después de eliminar filas: 0

Cantidad de datos antes de la limpieza: 658 filas
Cantidad de datos después de la limpieza: 514 filas
PROCESAMIENTO COMPLETO DEL INCP.


### Importación y limpieza de datos gubernamentales en .csv de España

#### Procesamiento del DataFrame IPC

Esta función realiza una serie de transformaciones y limpiezas en el DataFrame `df_ipc` para prepararlo para el análisis. Las acciones incluyen:

1. **Renombrar Columnas**:
   - Se eliminan los espacios en los nombres de las columnas y se convierten a minúsculas, asegurando un formato consistente.

2. **Renombrar Columnas Específicas para IPC**:
   - Los nombres de las columnas son cambiados a un formato predefinido mediante una función específica.

3. **Convertir Columnas a Tipo Float**:
   - Todas las columnas, excepto la de fecha (`date`), se convierten al tipo numérico `float`.

4. **Estandarizar Fechas**:
   - Las fechas se limpian y estandarizan para que tengan un formato uniforme y correcto.

5. **Limpiar CSV**:
   - Se eliminan valores no deseados (como 'N/E') y las columnas se convierten al formato adecuado.

6. **Resultado Final**:
   - El DataFrame procesado se devuelve, listo para ser utilizado en análisis posteriores.

**Objetivo**: Preparar los datos del IPC mediante un flujo de limpieza y transformación para garantizar calidad y uniformidad.


In [None]:
#Cargar csv Indice nacional de precios consumidos España
df_ipc=pd.read_csv("Data\IPC.csv")
df_ipc=f.esp_ipc(df_ipc)


1. Renombrando columnas...
2. Renombrando columnas IPC...
3. Convertiendo las columnas a float...
4. Estandarizando las fechas...
5. Limpiando el CSV...
Total de valores NaN antes de la limpieza: 0
Total de valores NaN después de eliminar filas: 0

Cantidad de datos antes de la limpieza: 274 filas
Cantidad de datos después de la limpieza: 274 filas
PROCESAMIENTO COMPLETO DEL IPC.


### Detección definición de límites de fechas para análisis y unión de los datos en un único dataframe

In [5]:
df_final=f.unir_esp_mx_comm(df, df_incp, df_ipc)

Fecha límite menor:2002-01-01 00:00:00 
 Fecha límite mayor: 2024-10-01 00:00:00
Cantidad de filas en el DataFrame 'df1' antes de la unión: 290
Cantidad de filas en el DataFrame 'df2' antes de la unión: 514
Cantidad de filas en el DataFrame resultante después de la unión: 290 

Cantidad de filas en el DataFrame 'df1' antes de la unión: 290
Cantidad de filas en el DataFrame 'df2' antes de la unión: 274
Cantidad de filas en el DataFrame resultante después de la unión: 274 



### Obtención de datos adicionales mediante web scraping

#### Datos sobre la cantidad de suicidios en España

#### Recopilación y Procesamiento de Datos de Suicidio en España

Estas funciones se encargan de extraer y procesar datos relacionados con el suicidio en España desde Wikipedia, estructurándolos para su análisis.

##### Función: `data_sui_es`

- **Web Scraping**: Navega a la página de Wikipedia y extrae datos de la tabla clasificada como `wikitable`.
- **Estructuración**: Procesa encabezados y datos de filas para convertirlos en un `DataFrame`.

##### Función: `procesar_sui_es`

- **Procesamiento de Datos**:
  - Estandariza nombres de columnas y formatos de fecha.
  - Convierte valores numéricos y limpia el `DataFrame`.
  - Transforma datos anuales en datos mensuales.

**Resultado**: Genera un `DataFrame` limpio y mensualizado para análisis estadístico.


In [6]:
df_sui_es=esp.data_sui_es() # Utiliza funciones de Selenium para hacer web scraping y obtener datos de la web
df_sui_es=f.procesar_sui_es(df_sui_es)

Reporte de valores nulos antes de la limpieza:
date        0
sui_h_es    0
sui_m_es    0
sui_es      0
dtype: int64



Se eliminaron las filas con al menos un valor nulo.
Cantidad de datos antes de la limpieza: 44 filas.
Cantidad de datos después de la limpieza: 44 filas.
Se eliminaron 0 filas con valores nulos.


##### Datos sobre la cantidad de suicidios en México

#### Recopilación y Procesamiento de Datos de Suicidio en México

Estas funciones se encargan de extraer y procesar datos relacionados con el suicidio en México desde Wikipedia, estructurándolos para su análisis.

##### Función: `data_sui_mx`

- **Web Scraping**: Navega a la página de Wikipedia y extrae datos de la tabla clasificada como `wikitable`.
- **Estructuración**: Procesa encabezados y datos de filas para convertirlos en un `DataFrame`.

##### Función: `procesar_sui_mx`

- **Procesamiento de Datos**:
  - Estandariza nombres de columnas y formatos de fecha.
  - Convierte valores numéricos y limpia el `DataFrame`.
  - Transforma datos anuales en datos mensuales.

**Resultado**: Genera un `DataFrame` limpio y mensualizado para análisis estadístico.


In [7]:
df_sui_mx=mx.data_sui_mx()
df_sui_mx=f.procesar_sui_mx(df_sui_mx)


Reporte de valores nulos antes de la limpieza:
date        0
sui_m_mx    0
sui_h_mx    0
sui_mx      0
dtype: int64



Se eliminaron las filas con al menos un valor nulo.
Cantidad de datos antes de la limpieza: 48 filas.
Cantidad de datos después de la limpieza: 48 filas.
Se eliminaron 0 filas con valores nulos.


### Unión de dataframes de datos de suicidios en España y México

In [8]:
df_sui=u.unir_dataframes(df_sui_es,df_sui_mx,"date","inner")

Cantidad de filas en el DataFrame 'df1' antes de la unión: 528
Cantidad de filas en el DataFrame 'df2' antes de la unión: 576
Cantidad de filas en el DataFrame resultante después de la unión: 504 



### Unión de dataframes de commodities y suicidios

In [9]:
df_final=u.unir_dataframes(df_final,df_sui,"date","left")

Cantidad de filas en el DataFrame 'df1' antes de la unión: 274
Cantidad de filas en el DataFrame 'df2' antes de la unión: 504
Cantidad de filas en el DataFrame resultante después de la unión: 274 



### Creación de archivo .csv del dataframe final

In [10]:
df_final.to_csv('df_final.csv', index=False)

# Referencias

Banco de México. (n.d.). Cuadro de precios al consumidor (CP154). Banco de México. Recuperado de https://www.banxico.org.mx/SieInternet/consultarDirectorioInternetAction.do?sector=8&accion=consultarCuadro&idCuadro=CP154&locale=es

Instituto Nacional de Estadística y Geografía (INEGI). (n.d.). Índice Nacional de Precios al Consumidor (INPC). INEGI. Recuperado de https://www.inegi.org.mx/temas/inpc/

Instituto Nacional de Estadística (INE). (n.d.). Índice de Precios de Consumo (IPC). INE. Recuperado de https://www.ine.es/jaxiT3/Datos.htm?t=50902#_tabs-tabla

AlgoTrading101. (2021). Guía completa de yFinance: aprende a usar la API de Yahoo Finance. Recuperado de https://algotrading101.com/learn/yfinance-guide/

Wikipedia. (2024). Suicidio en España. Wikipedia. Recuperado de https://es.wikipedia.org/wiki/Suicidio_en_Espa%C3%B1a

Universidad Europea. (n.d.). ¿Qué son los commodities? Universidad Europea. Recuperado de https://universidadeuropea.com/blog/que-son-los-commodities/

Instituto Nacional de Estadística (INE). (2024). El Índice de Precios de Consumo (IPC). INE. Recuperado de https://www.ine.es/prensa/ipc_prensa.htm#:~:text=El%20%C3%8Dndice%20de%20Precios%20de,en%20viviendas%20familiares%20en%20Espa%C3%B1a.