# Proyecto 2: Análisis Inicial y Selección de Problema

### **Objetivo:** Realizar un análisis exploratorio de datos (EDA) inicial para al menos cuatro conjuntos de datos, diagnosticar y elegir una problemática específica para abordar (regresión, clasificación, clusterización, predicción). Entregar un repositorio con el dataset elegido, el EDA inicial y la problemática seleccionada.

### Parte I: Búsqueda y Análisis de Conjuntos de Datos

## Instrucciones

### Búsqueda de Conjuntos de Datos:

- Buscar al menos cuatro conjuntos de datos en plataformas como Kaggle, UCI Machine Learning Repository o cualquier otra fuente confiable.
- Asegurarse de que los conjuntos de datos seleccionados sean diversos y cubran diferentes dominios y tipos de datos.

### [**Gold Price Prediction**](https://www.kaggle.com/datasets/franciscogcc/financial-data)
  - The data is a time series dataset with financial info for some market indices, commodities, economic indicators and forex rates. Market indices and commodities are represented via the respective exchange traded fund. It includes values from 2010 to 2024.

In real world applications, sometimes data will come in different granularities. In this dataset we can find daily, monthly and trimonthly data. Normalizing this inconsistencies and handling nan values should be one of the first challenges when dealing with this dataset.

#### About this file

Add Suggestion
Time series dataset with financial info for the following:

- S&P 500 - SPDR S&P 500 ETF Trust

- Nasdaq 100 - Invesco QQQ ETF

- US Interest Rates - monthly federal rates

- CPI - Consumer Price Index, monthly

- USD / CHF forex rate

- EUR / USD forex rate

- GDP - Gross Domestic Product, trimonthly

- Silver - abrdn Physical Silver Shares ETF

- Oil - USO ETF

- Platinum - abrdn Physical Platinum Shares ETF

- Palladium - abrdn Physical Palladium Shares ETF

- Gold - SPDR Gold Trust ETF

- Data obtained via Alpha Vantage and FRED API services

#### Análisis Exploratorio de Datos (EDA) Inicial:
- Realizar un EDA inicial para cada uno de los cuatro conjuntos de datos seleccionados.
- Incluir visualizaciones, análisis estadístico descriptivo, identificación de valores nulos y outliers.
- Documentar los hallazgos de cada EDA en un notebook de Jupyter.

#### Diagnóstico y Selección de Problema:
- Basándose en el EDA inicial, diagnosticar las principales características y desafíos de cada conjunto de datos.
- Elegir una problemática específica para abordar (regresión, clasificación, clusterización, predicción).
- Justificar la elección del problema y explicar por qué es relevante y desafiante.

### Análisis Estadístico Descriptivo:

- Calcular estadísticas descriptivas básicas (media, mediana, desviación estándar, etc.) para las variables numéricas.
- Analizar la distribución de las variables categóricas.

### Visualizaciones:

- Crear visualizaciones para entender la distribución de las variables (histogramas, gráficos de barras, box plots, etc.).
- Visualizar las correlaciones entre variables (mapa de calor de correlación).


In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [6]:
#importamos el dataset
df = pd.read_csv('../datasets/gold_financial_regression.csv', sep=',')
print(df.info())
df

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3904 entries, 0 to 3903
Data columns (total 47 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   date                3904 non-null   object 
 1   sp500 open          3719 non-null   float64
 2   sp500 high          3719 non-null   float64
 3   sp500 low           3719 non-null   float64
 4   sp500 close         3719 non-null   float64
 5   sp500 volume        3719 non-null   float64
 6   sp500 high-low      3719 non-null   float64
 7   nasdaq open         3719 non-null   float64
 8   nasdaq high         3719 non-null   float64
 9   nasdaq low          3719 non-null   float64
 10  nasdaq close        3719 non-null   float64
 11  nasdaq volume       3719 non-null   float64
 12  nasdaq high-low     3719 non-null   float64
 13  us_rates_%          176 non-null    float64
 14  CPI                 176 non-null    float64
 15  usd_chf             3694 non-null   float64
 16  eur_us

Unnamed: 0,date,sp500 open,sp500 high,sp500 low,sp500 close,sp500 volume,sp500 high-low,nasdaq open,nasdaq high,nasdaq low,...,palladium high,palladium low,palladium close,palladium volume,palladium high-low,gold open,gold high,gold low,gold close,gold volume
0,2010-01-14,114.49,115.1400,114.4200,114.93,115646960.0,0.7200,46.26,46.520,46.2200,...,45.0200,43.8600,44.84,364528.0,1.1600,111.51,112.37,110.79,112.03,18305238.0
1,2010-01-15,114.73,114.8400,113.2000,113.64,212252769.0,1.6400,46.46,46.550,45.6500,...,45.7600,44.4000,45.76,442210.0,1.3600,111.35,112.01,110.38,110.86,18000724.0
2,2010-01-18,,,,,,,,,,...,,,,,,,,,,
3,2010-01-19,113.62,115.1300,113.5900,115.06,138671890.0,1.5400,45.96,46.640,45.9500,...,47.0800,45.7000,46.94,629150.0,1.3800,110.95,111.75,110.83,111.52,10467927.0
4,2010-01-20,114.28,114.4500,112.9800,113.89,216330645.0,1.4700,46.27,46.604,45.4300,...,47.3100,45.1700,47.05,643198.0,2.1400,109.97,110.05,108.46,108.94,17534231.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3899,2024-10-17,585.91,586.1200,582.1600,582.35,34393714.0,3.9600,496.44,496.490,491.1901,...,96.0259,94.5400,95.68,52414.0,1.4859,247.75,249.06,247.62,248.63,5176170.0
3900,2024-10-18,584.07,585.3900,582.5800,584.59,37416801.0,2.8100,494.06,495.570,493.3000,...,99.6600,97.2700,99.46,205027.0,2.3900,250.00,251.37,249.90,251.27,7833614.0
3901,2024-10-21,583.85,584.8500,580.6001,583.63,36439010.0,4.2499,493.25,496.230,491.3100,...,98.3500,95.8900,97.35,227394.0,2.4600,252.74,253.14,250.73,251.22,9258590.0
3902,2024-10-22,581.05,584.5000,580.3800,583.32,34183835.0,4.1200,492.73,497.445,491.9700,...,99.5899,97.9600,99.41,136431.0,1.6299,253.06,253.94,252.52,253.93,5756321.0


In [None]:
# agrupar por cada uno de bolsas de valores y cada uno de los minerales


### Identificación de Valores Nulos y Outliers:

- Detectar valores nulos y discutir cómo podrían ser tratados.
- Identificar outliers y evaluar su impacto potencial en el análisis.

### Resumen de Hallazgos:

- Resumir los principales hallazgos de cada EDA, destacando las características y desafíos únicos de cada conjunto de datos.