# Proyecto 2: Análisis Inicial y Selección de Problema

### **Objetivo:** Realizar un análisis exploratorio de datos (EDA) inicial para al menos cuatro conjuntos de datos, diagnosticar y elegir una problemática específica para abordar (regresión, clasificación, clusterización, predicción). Entregar un repositorio con el dataset elegido, el EDA inicial y la problemática seleccionada.

### Parte I: Búsqueda y Análisis de Conjuntos de Datos



## Instrucciones

### Búsqueda de Conjuntos de Datos:

- Buscar al menos cuatro conjuntos de datos en plataformas como Kaggle, UCI Machine Learning Repository o cualquier otra fuente confiable.
- Asegurarse de que los conjuntos de datos seleccionados sean diversos y cubran diferentes dominios y tipos de datos.

### 1. [**S&P 500 Stocks**](https://www.kaggle.com/datasets/andrewmvd/sp-500-stocks)
  - Create a time series regression model to predict S&P value and/or stock prices.
Explore the most the returns, components and volatility of the S&P 500 index.
Identify high and low performance stocks among the list. 
  - The Standard and Poor's 500 or S&P 500 is the most famous financial benchmark in the world.

  - This stock market index tracks the performance of 500 large companies listed on stock exchanges in the United States. As of December 31, 2020, more than $5.4 trillion was invested in assets tied to the performance of this index.

  - Because the index includes multiple classes of stock of some constituent companies—for example, Alphabet's Class A (GOOGL) and Class C (GOOG)—there are actually 505 stocks in the gauge.

### 2. [**Gold Price Prediction**](https://www.kaggle.com/datasets/franciscogcc/financial-data)
  - The data is a time series dataset with financial info for some market indices, commodities, economic indicators and forex rates. Market indices and commodities are represented via the respective exchange traded fund. It includes values from 2010 to 2024.

In real world applications, sometimes data will come in different granularities. In this dataset we can find daily, monthly and trimonthly data. Normalizing this inconsistencies and handling nan values should be one of the first challenges when dealing with this dataset.

#### About this file

Add Suggestion
Time series dataset with financial info for the following:

- S&P 500 - SPDR S&P 500 ETF Trust

- Nasdaq 100 - Invesco QQQ ETF

- US Interest Rates - monthly federal rates

- CPI - Consumer Price Index, monthly

- USD / CHF forex rate

- EUR / USD forex rate

- GDP - Gross Domestic Product, trimonthly

- Silver - abrdn Physical Silver Shares ETF

- Oil - USO ETF

- Platinum - abrdn Physical Platinum Shares ETF

- Palladium - abrdn Physical Palladium Shares ETF

- Gold - SPDR Gold Trust ETF

- Data obtained via Alpha Vantage and FRED API services

### 3. [**Global Daily Port Activity and Trade Estimates**](https://www.kaggle.com/datasets/arunvithyasegar/daily-port-activity-data-and-trade-estimates)

  - Daily transit calls and estimates of transit trade volumes (in metric tons) for 24 chokepoints around the world.

- last update: 11/11/2024

#### Key Features of the Dataset
- Port Activity Data: Includes daily logs of port activities, detailing the number of vessels, types of vessels (such as container ships, tankers, bulk carriers), and their activities at each port.

- Trade Estimates: Provides estimates on trade volumes for different cargo types, including containerized cargo, bulk goods, and other materials.

- Geographic Coverage: Covers multiple ports around the world, making it ideal for global trade analysis.

- Temporal Coverage: Offers daily data, allowing for time series analysis to detect trends, seasonal patterns, and anomalies in port activities.

- Potential Use Cases
Supply Chain and Logistics Optimization: The dataset helps in understanding port congestion, turnaround times, and vessel traffic, assisting in improving logistics and supply chain management.

- Economic Analysis: By analyzing the flow of goods, it can provide insights into economic activities, especially in import/export-heavy regions.

- Trade Route Planning: Useful for companies planning trade routes, as it highlights busy ports and peak times for port activities.

- Predictive Modeling: The data can be used to build models to predict trade volumes, port congestion, and other aspects crucial for stakeholders in the shipping industry.

- Possible Analyses

- Port Efficiency Comparisons: Compare how different ports manage their daily vessel traffic and cargo handling.

- Trade Volume Forecasting: Use historical data to predict future trade volumes based on trends.

- Seasonality and Trends: Identify seasonal trends and fluctuations in global trade and port activities.
This dataset is valuable for researchers, data analysts, economists, and professionals in the maritime and logistics industries who are interested in understanding and optimizing global trade flows and port operations.

### 4. [**Usual Intakes from Food for Energy**](https://www.kaggle.com/datasets/mahdiehhajian/usual-intakes-from-food-for-energy)
  - Some of these energy-generating nutrients are listed below:

- Vitamin B (B);
- carnitine;
- Coenzyme Q10 (CoQ10);
- keratin;
- iron;
- magnesium;
- protein;
- potassium.

When looking at this group of fatigue fighters, you should also consider carbohydrates and protein. Carbohydrates from sugary foods and grains give you instant energy;

The Nutrition Surveillance Data Tool presents usual intakes of energy, nutrients and other dietary components using data collected in the 2015 Canadian Community Health Survey – Nutrition (CCHS – Nutrition). The goal is to complement the full usual intake dataset, also provided below, by presenting key data in an interactive and user-friendly way.

[Health Canada (2019).Usual Intakes from Food for Energy, Nutrients and Other Dietary Components (2004 and 2015 CCHS-Nutrition) derived from Statistics Canada's 2004 and 2015 Canadian Community Health Survey, Nutrition, Share file. Ottawa.](https://www.kaggle.com/datasets/mahdiehhajian/usual-intakes-from-food-for-energy)

- Asegurarse de que los conjuntos de datos seleccionados sean diversos y cubran diferentes dominios y tipos de datos.

#### Análisis Exploratorio de Datos (EDA) Inicial:

- Realizar un EDA inicial para cada uno de los cuatro conjuntos de datos seleccionados.
- Incluir visualizaciones, análisis estadístico descriptivo, identificación de valores nulos y outliers.
- Documentar los hallazgos de cada EDA en un notebook de Jupyter.

#### Diagnóstico y Selección de Problema:

- Basándose en el EDA inicial, diagnosticar las principales características y desafíos de cada conjunto de datos.
- Elegir una problemática específica para abordar (regresión, clasificación, clusterización, predicción).
- Justificar la elección del problema y explicar por qué es relevante y desafiante.

#### Creación del Repositorio en GitHub:
- Crear un repositorio en GitHub para el Proyecto 2.
- Incluir el EDA inicial de los cuatro conjuntos de datos en notebooks separados.
- Incluir una carpeta para el dataset elegido con su EDA correspondiente.
- Documentar la problemática seleccionada y justificar la elección en un archivo README.md.
- Detalles del EDA Inicial

#### Descripción del Conjunto de Datos:

- Breve descripción de cada conjunto de datos, incluyendo la fuente, el tamaño y las variables.

#### Análisis Estadístico Descriptivo:

Calcular estadísticas descriptivas básicas (media, mediana, desviación estándar, etc.) para las variables numéricas.
Analizar la distribución de las variables categóricas.
Visualizaciones:
Crear visualizaciones para entender la distribución de las variables (histogramas, gráficos de barras, box plots, etc.).
Visualizar las correlaciones entre variables (mapa de calor de correlación).
Identificación de Valores Nulos y Outliers:
Detectar valores nulos y discutir cómo podrían ser tratados.
Identificar outliers y evaluar su impacto potencial en el análisis.
Resumen de Hallazgos:
Resumir los principales hallazgos de cada EDA, destacando las características y desafíos únicos de cada conjunto de datos.
Ejemplo de Estructura del Repositorio en GitHub

/Proyecto2
|-- /datasets
|   |-- dataset1.csv
|   |-- dataset2.csv
|   |-- dataset3.csv
|   |-- dataset4.csv
|-- /EDA
|   |-- EDA_dataset1.ipynb
|   |-- EDA_dataset2.ipynb
|   |-- EDA_dataset3.ipynb
|   |-- EDA_dataset4.ipynb
|-- /selected_dataset
|   |-- selected_dataset.csv
|   |-- EDA_selected_dataset.ipynb
|-- README.md

Contenido del Archivo README.md

Título del Proyecto: Análisis Inicial y Selección de Problema
Descripción: Breve descripción del objetivo del proyecto y su importancia.
Conjuntos de Datos Analizados: Descripción breve de los cuatro conjuntos de datos analizados.
Resumen del EDA Inicial: Resumen de los hallazgos principales de los EDA realizados.
Problema Seleccionado: Descripción detallada del problema seleccionado, la justificación de la elección y los objetivos específicos.
Instrucciones para Ejecutar: Pasos para ejecutar los notebooks y reproducir los resultados.
Autores: Nombres y roles de los participantes en el proyecto.
Licencia: Información sobre la licencia del proyecto.


# Proyecto 2: Análisis y Selección de Problema 

### **Objetivo:** Realizar el preprocesamiento de datos y la optimización de modelos de machine learning para el conjunto de datos seleccionado. La meta es elegir la técnica de machine learning más adecuada y optimizar sus hiperparámetros para obtener el mejor rendimiento posible.

### Parte II: Preprocesamiento y Optimización



### Instrucciones Detalladas

#### **Parte 1:** Preprocesamiento de Datos

#### Limpieza de Datos:

- Tratar los valores nulos utilizando técnicas adecuadas (imputación, eliminación, etc.).
- Manejar los outliers mediante técnicas de filtrado o transformación.

#### Transformación de Columnas:

- Utilizar ColumnTransformer para aplicar transformaciones específicas a diferentes columnas.
- Realizar codificación de variables categóricas utilizando técnicas como One-Hot Encoding.
- Escalar las variables numéricas usando StandardScaler u otros métodos de normalización.

#### Creación de Pipelines:

- Crear pipelines utilizando Pipeline de sklearn para automatizar el preprocesamiento de datos y asegurar la reproducibilidad.
- Incluir todos los pasos de preprocesamiento en el pipeline.


#### **Parte 2:** Selección de Técnica de Machine Learning

#### Entrenamiento Inicial:

- Entrenar múltiples modelos de machine learning (por ejemplo, Regresión Lineal, KNN, Árbol de Decisión, Random Forest, XGBoost, LGBM).
- Evaluar los modelos utilizando validación cruzada y seleccionar el modelo con el mejor rendimiento inicial.

#### Comparación de Modelos:

- Comparar los modelos utilizando métricas de rendimiento relevantes (exactitud, precisión, recall, F1-Score, ROC-AUC, etc.).
- Seleccionar la técnica de machine learning más adecuada basándose en las métricas y la naturaleza del problema.


#### **Parte 3:** Optimización de Hiperparámetros

#### GridSearchCV:

- Implementar GridSearchCV para realizar una búsqueda exhaustiva de los mejores hiperparámetros para el modelo seleccionado.
- Definir el espacio de búsqueda para los hiperparámetros relevantes.

#### RandomizedSearchCV:

- Implementar RandomizedSearchCV para realizar una búsqueda aleatoria de los mejores hiperparámetros, especialmente útil si el espacio de búsqueda es grande.

#### Optuna:

- Implementar Optuna para una optimización avanzada de los hiperparámetros, aprovechando técnicas como la optimización bayesiana y el pruning.

#### Evaluación de Modelos Optimizados:

- Entrenar el modelo con los mejores hiperparámetros encontrados y evaluar su rendimiento en el conjunto de prueba.
- Comparar el rendimiento del modelo optimizado con el modelo inicial.


#### **Parte 4:** Documentación y Entrega

#### Documentación del Proceso:

- Documentar todos los pasos del preprocesamiento, selección de técnica y optimización en un notebook de Jupyter.
- Incluir explicaciones detalladas y justificaciones para cada decisión tomada.

#### Subida a GitHub:

- Actualizar el repositorio de GitHub con los notebooks de preprocesamiento, selección de técnica y optimización.
- Incluir los resultados de la optimización y la comparación de modelos.
- Crear un tag de liberación (v2.0.0) para esta versión del proyecto.