# Proyecto EDA optimizacion de carteras mediante modelos estadisticos y de Machine Learning

# Indice

[0.- Introduccion](#0--Introduccion)

[1.- Fuente de datos](#1--fuente-de-datos)

[2.- Extraccion, limpieza y organizacion de datos](#2--extraccion-limpieza-y-organizacion-de-datos)

   - [2.1.- Extraccion](#21--Extraccion)

   - [2.2.- Limpieza](#22--Limpieza)

   - [2.3.- Organizacion](#23--Organizacion)

[3.- Hipotesis del EDA](#3--Hipotesis-del-EDA)

[4.- Modelado de los 5 modelos de optimizacion de carteras](#4--modelado-de-los-5-modelos-de-optimizacion-de-carteras)

[5.- Resultados finales](#5.--Resultados-finales)

[6.- Conclusiones y futuros pasos](#6--conclusiones-y-futuros-pasos)


# 0.- Introduccion

Este proyecto se trata de un EDA desarrollado por Adolfo Gutierrez Campos como parte del curso/Bootcamp de Data Science en The Bridge entre Abril y Julio de 2024.

En este proyecto de análisis exploratorio de datos (EDA), se ha llevado a cabo un estudio exhaustivo para optimizar una cartera de inversiones utilizando un conjunto de 10 valores seleccionados, incluyendo tanto acciones de empresas del IBEX 35 como índices bursátiles globales.

Para escoger la muestra de los 10 valores, se ha extraído los datos financieros de las 35 empresas que conforman el IBEX 35 (a fecha de 20/05/2024) y 10 índices bursátiles, como por ejemplo el S&P 500 de Estados Unidos o el NIFTY 50 de la India. De entre las 35 empresas y 10 valores, las carteras a optimizar estarán compuestas por los siguientes valores:

- 5 acciones de empresas dentro del IBEX 35
- 5 indices bursátiles globales

La optimización de carteras es una técnica crucial en la gestión de inversiones que busca maximizar el retorno ajustado por riesgo, generalmente medido a través del ratio Sharpe. A través de este análisis, se han implementado y comparado cinco enfoques distintos para la optimización de carteras:

1- Optimización básica de cartera.

2- Optimización mediante simulaciones de Monte Carlo.

3- Optimización con un modelo supervisado de Gradient Boosting.

4- Optimización con un modelo supervisado de XGBoost.

5- Optimización con un modelo no supervisado de PCA (Análisis de Componentes Principales).

El desarrollo de los 5 modelos están expuestos en el siguiente documento:

                Notebooks/2- Investment Portfolio 5 models.ipynb

# 1.- Fuente de datos

Con el fin de elaborar los análisis para desarrollar los 5 enfoques previamente mencionados, se ha utilizado la biblioteca 'yfinance' con Python para conectarse a la API de Yahoo Finance. Este es un enfoque muy común y conveniente para obtener datos financieros en Python. A través de la biblioteca, se ha podido acceder a las funciones y clases proporcionadas por esta biblioteca en el código.

Utilizando el método Ticker de la biblioteca yfinance, se crean objetos para las acciones específicas que se han requerido. Cada objeto Ticker está asociado con una acción específica, identificada por su símbolo en el mercado, como 'ANA.MC' para Acciona en la bolsa de Madrid (MC) o ^NSEI para un índice bursátil como el NIFTY 50 de la India.

Tras haber creado los Ticker para las acciones de las 35 empresas del IBEX 35 y los 10 índices bursátiles, se puede utilizar los objetos mencionados para obtener diferentes tipos de datos financieros, como precios históricos, información sobre la empresa, datos en tiempo real, etc.

Gracias a los Ticker, se ha podido importar los datos financieros de las 35 empresas que conforman el IBEX 35 y los 10 índices, y se ha escogido el período temporal de entre el 01/01/2018 y 20/05/2024. Es decir, 6 años y casi 5 meses en total.

# 2.- Extraccion-limpieza y organizacion de datos

## 2.1.- Extraccion

La extracción de datos se ha dividido en dos partes:

1- Con el fin de importar los datos de las 35 empresas del IBEX 35, así como el proceso de extracción y limpieza de datos, se ha generado un documento:

                Notebooks/0- Extraccion de datos de yahoo finance empresas IBEX 35.ipynb

2- Con el fin de importar los datos de los 10 índices bursátiles globales, así como el proceso de extracción y limpieza de datos, se ha generado un documento:

                Notebooks/1- Extraccion de datos de yf de indices bursatiles.ipynb

Tras haber importado los datasets de las 35 empresas y los 10 índices, se ha guardado cada uno de los datasets en formato CSV en la carpeta 'Data'. Siendo en total 45 archivos CSV.

## 2.2.- Limpieza

Tras haber importado los datos financieros de las 35 empresas, no ha sido necesaria una limpieza de los datasets de las 35 empresas y 10 índices.

## 2.3.- Organizacion

En la organización de datasets, se ha modificado el formato de fecha a YYYY-MM-DD.

# 3.- Hipotesis del EDA

1- **Diversificación**: ¿Puede una cartera diversificada reducir la volatilidad general y mejorar el ratio Sharpe?

2- **Eficiencia de Mercado**: ¿Cómo impacta la inclusión de valores de distintos mercados globales en la estabilidad y el rendimiento de la cartera?

3- **Modelos Supervisados**: ¿Pueden los modelos de machine learning supervisados (Gradient Boosting y XGBoost) identificar patrones complejos en los datos históricos de precios y mejorar la optimización de la cartera?

4- **Simulación de Monte Carlo**: ¿Generar múltiples combinaciones de pesos aleatorios puede proporcionar configuraciones óptimas sin necesidad de un modelo supervisado?

5- **Reducción de Dimensionalidad con PCA**: ¿La utilización de PCA para reducir la dimensionalidad del problema puede simplificar la optimización de la cartera sin perder información crucial?

# 4.- Modelado de los 5 modelos de optimizacion de carteras

1) Modelo 1: Optimización básica sin modelos de Machine Learning

Descripción: Este método se basa en técnicas tradicionales de optimización, utilizando la matriz de covarianza para medir cómo los retornos de los valores se mueven juntos y minimizando la volatilidad de la cartera.

Proceso:

- Cálculo del Retorno y la Volatilidad: Se calcula el retorno anualizado y la volatilidad anualizada para cada valor.

- Matriz de Covarianza: Se crea una matriz de covarianza para medir la relación entre los retornos de los valores.

- Optimización: Se define una función objetivo para minimizar la volatilidad de la cartera y se utilizan restricciones para asegurar que la suma de los pesos sea igual a 1.

2) Modelo 2: Optimización mediante simulaciones de Monte Carlo

Descripción: Este método utiliza simulaciones de Monte Carlo para generar múltiples combinaciones de pesos aleatorios, evaluando sus rendimientos y volatilidades para identificar configuraciones óptimas.

Proceso:

- Generación de Combinaciones de Pesos: Se generan 10,000 combinaciones de pesos aleatorios.

- Cálculo de Retorno y Volatilidad: Para cada combinación, se calculan el retorno esperado, la volatilidad esperada y el ratio Sharpe.

- Selección de la Mejor Cartera: Se selecciona la combinación de pesos que maximiza el ratio Sharpe.

3) Modelo 3: Optimización con un Modelo Supervisado de Gradient Boosting

Descripción: Utiliza Gradient Boosting Regressor para predecir el ratio Sharpe en función de los pesos de los valores, optimizando la cartera para maximizar este ratio.

Proceso:

- Generación de Datos para el Modelo: Se generan 10,000 combinaciones de pesos aleatorios y se calculan sus ratios Sharpe.

- Entrenamiento del Modelo: Se entrena un modelo de Gradient Boosting con los datos generados.

- Optimización de la Cartera: Se utiliza el modelo para encontrar los pesos que maximizan el ratio Sharpe.

4) Modelo 4: Optimización con un Modelo Supervisado de XGBoost

Descripción: Similar al modelo anterior, pero utilizando XGBoost para predecir el ratio Sharpe y optimizar la cartera.

Proceso:

- Generación de Datos para el Modelo: Se generan 10,000 combinaciones de pesos aleatorios y se calculan sus ratios Sharpe.

- Entrenamiento del Modelo: Se entrena un modelo de XGBoost con los datos generados.

- Optimización de la Cartera: Se utiliza el modelo para encontrar los pesos que maximizan el ratio Sharpe.

5) Modelo 5: Optimización con un Modelo No Supervisado de PCA

Descripción: Utiliza PCA para reducir la dimensionalidad de los datos, identificando las componentes principales que explican la mayor parte de la variabilidad en los retornos y utilizando estas componentes para optimizar la cartera.

Proceso:

- Aplicación de PCA: Se aplican técnicas de PCA para identificar las componentes principales y reducir la dimensionalidad del problema.

- Optimización de la Cartera: Se utilizan las componentes principales para calcular los retornos y las volatilidades, y se optimiza la cartera para maximizar el ratio Sharpe.

# 5.- Resultados finales

Los resultados de la optimización de carteras utilizando los cinco modelos presentan distintas combinaciones de pesos y ratios Sharpe. A continuación se muestran los pesos de las carteras óptimas y los ratios Sharpe obtenidos:

1) Modelo 1: Optimización sin ML

Pesos de la cartera: ACS: 3.07%, SAN: 0.00%, BBVA: 0.00%, REP: 2.33%, IBE: 11.94%, NIFTY50: 26.41%, ASX200: 27.02%, SP500: 11.13%, Nasdaq: 0.00%, SPCanada: 18.10%

2) Modelo 2: Simulación de Monte Carlo

Ratio Sharpe: 2.221

Pesos de la cartera: ACS: 0.48%, SAN: 3.42%, BBVA: 2.92%, REP: 8.43%, IBE: 13.07%, NIFTY50: 26.78%, ASX200: 18.69%, SP500: 5.24%, Nasdaq: 7.90%, SPCanada: 13.07%

3) Modelo 3: Gradient Boosting

Ratio Sharpe: 2.222

Pesos de la cartera: ACS: 1.37%, SAN: 4.36%, BBVA: 0.41%, REP: 2.99%, IBE: 14.25%, NIFTY50: 22.90%, ASX200: 24.07%, SP500: 8.87%, Nasdaq: 9.32%, SPCanada: 11.46%

4) Modelo 4: XGBoost

Ratio Sharpe: 2.193

Pesos de la cartera: ACS: 3.95%, SAN: 3.15%, BBVA: 0.22%, REP: 9.89%, IBE: 16.98%, NIFTY50: 19.66%, ASX200: 20.07%, SP500: 2.57%, Nasdaq: 13.83%, SPCanada: 9.68%

5) Modelo 5: PCA

Ratio Sharpe: 1.161

Pesos de la cartera: ACS: 2.83%, SAN: 0.36%, BBVA: 0.00%, REP: 2.15%, IBE: 11.68%, NIFTY50: 26.74%, ASX200: 26.80%, SP500: 11.27%, Nasdaq: 0.00%, SPCanada: 18.17%

# 6.- Conclusiones y Futuros Pasos

1) Análisis de los Resultados y Fortalezas/Debilidades del proyecto

- Fortalezas: Los modelos de machine learning, especialmente Gradient Boosting y XGBoost, demostraron una alta capacidad para maximizar el ratio Sharpe, indicando un rendimiento ajustado por riesgo superior.

- Debilidades: Los modelos no supervisados, como PCA, mostraron una capacidad limitada para optimizar la cartera, lo que sugiere que la reducción de dimensionalidad podría no capturar toda la complejidad necesaria para este tipo de optimización.

2) Propuesta de Futuras mejoras y Optimizaciones

- Incorporación de datos macroeconómicos: Integrar indicadores macroeconómicos y noticias del mercado podría mejorar las predicciones de los modelos supervisados.

- Hiperparámetros avanzados: Realizar una búsqueda más exhaustiva de hiperparámetros para los modelos de machine learning podría mejorar aún más su rendimiento.

- Optimización robusta: Implementar técnicas de optimización robusta para manejar mejor la incertidumbre en las estimaciones de retornos y covarianzas.

- Validación Cruzada: Utilizar técnicas de validación cruzada para evaluar la estabilidad y la robustez de las carteras optimizadas a lo largo del tiempo.