# CASO 1  - Tolerancia al riesgo

*Caso tomado de: Tatsat, H., Puri, S., & Lookabaugh, B. (2020). Machine Learning and Data Science Blueprints for Finance. O'Reilly media.*

**Detalle del caso**

<p style="text-align: justify;">
La empresa de asesoramiento financiero AGUERRE S.A. se especializa en la gestión de portafolios de inversión de diversos clientes. Para optimizar las inversiones, evalúa el perfil de riesgo de cada cliente en función de sus ingresos, objetivos de inversión (ahorro, mantenimiento de valor, entre otros) y otros factores que permiten definir un portafolio acorde a sus necesidades.
Actualmente, el análisis manual del perfil de riesgo consume demasiado tiempo y se ha observado que existen patrones recurrentes en los perfiles de los clientes, aunque también se dan casos excepcionales. Generalmente, para determinado tipo de clientes con un nivel de riesgo similar, los asesores de la empresa han cumplido con las finalidades y las expectativas de rentabilidad de los clientes, optimizando mediante el modelo de Markowitz.
</p>
    
<p style="text-align: justify;">
Por este motivo, AGUERRE S.A. te ha contratado para ayudar a automatizar este análisis y, si es posible, desarrollar una aplicación que facilite la evaluación del perfil de riesgo de los clientes, y además permita encontrar fácilmente un portafolio óptimo.
</p>

<p style="text-align: justify;">
La empresa cuenta con una base de datos de clientes con cararacterísticas sociodemográficas, ingresos, entre otros. Los asesores de la empresa, luego de un minucioso estudio de cada inversor, y en función de su conocimiento avanzado en Finanzas, han establecido un índice de riesgo del mismo.
Por otra parte, usted ha descargado datos de SP 500 de diversos activos, a efectos de poder formar un portafolio con los activos financieros con los que más comercia la empresa.
</p>

## 1) y 2) Entender el negocio y  problema

Es una empresa especializada en inversiones, que aconseja a sus clientes en qué deben invertir. La empresa debe seleccionar cuidadosamente el portafolio óptimo que satisfaga su finalidad, y obtener la mayor rentabilidad dado el riesgo que está dispuesto a asumir el cliente (a mayor rentabilidad, mayor el riesgo).

La empresa establece que quiere disminuir los tiempos de análisis del perfil de riesgo., por lo que parecería correcto que pretenda automatizarlo, siempre que ello sea posible y que dicha automatización sea confiable. Como la empresa ya tiene una base de datos de clientes con diversas características, y además cuenta con una variable referente a la tolerancia al riesgo por el cliente, y es determinada por expertos de la empresa, entonces es posible realizar modelos de machine learning supervisado para automatizar el análisis del perfil de riesgo de nuevos clientes. Un supuesto fuerte de hacer esto, es que damos por bueno el análisis que hicieron los asesores de la empresa. 

Posteriormente, si elaboramos un modelo que sea satisfactorio, use puede hacer un deploy del mismo, incorporándolo a un dashboard donde, ingresando las características del inversor, se pueda predecir el perfil de riesgo del mismo (el índice). Con este índice de tolerancia al riesgo, se puede automatizar la selección del portafolio óptimo para ese riesgo usando el modelo de Markowitz, lo cual creando así un robo-advisor.

## 3) Análisis del set de datos


In [11]:
# primero cargo las librerías
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [134]:
#Cargo el set de datos
df = pd.read_csv('data_investors.csv',sep=";",decimal=",")

In [135]:
#veo los primeros 5 registros
df.head()

Unnamed: 0,YY1,Y1,WGT09,AGE07,AGECL07,EDUC07,EDCL07,MARRIED07,KIDS07,LIFECL07,...,NHMORTPCT,WAGEINCPCT,BUSSEFARMINCPCT,INTDIVINCPCT,KGINCPCT,SSRETINCPCT,TRANSFOTHINCPCT,PSAVINGPCT,LEVERAGEPCT,I
0,1,11,11668.1342,47,3,12,2,1,0,2,...,-21.052632,-32.931828,0.0,15939.27894,0.0,0.0,0.0,93.125197,270.403054,57
1,1,12,11823.45649,47,3,12,2,1,0,2,...,-21.052632,-32.931828,0.0,15939.27894,0.0,0.0,0.0,93.125197,249.59362,57
2,1,13,11913.22835,47,3,12,2,1,0,2,...,-50.0,-32.931828,0.0,15939.27894,0.0,0.0,0.0,93.125197,209.233358,57
3,1,14,11929.39427,47,3,12,2,1,0,2,...,-33.333333,-32.931828,0.0,15939.27894,0.0,0.0,0.0,93.125197,209.273158,57
4,1,15,11917.72291,47,3,12,2,1,0,2,...,-38.596491,-32.931828,0.0,15939.27894,0.0,0.0,0.0,93.125197,232.690767,57


In [136]:
#tamaño
df.shape

(19285, 515)

In [138]:
#info general
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 19285 entries, 0 to 19284
Columns: 515 entries, YY1 to I
dtypes: float64(212), int64(303)
memory usage: 75.8 MB


In [142]:
#me fijo estadísticos de  variables numéricas
df.describe()

Unnamed: 0,YY1,Y1,WGT09,AGE07,AGECL07,EDUC07,EDCL07,MARRIED07,KIDS07,LIFECL07,...,NHMORTPCT,WAGEINCPCT,BUSSEFARMINCPCT,INTDIVINCPCT,KGINCPCT,SSRETINCPCT,TRANSFOTHINCPCT,PSAVINGPCT,LEVERAGEPCT,I
count,19285.0,19285.0,19285.0,19285.0,19285.0,19285.0,19285.0,19285.0,19285.0,19285.0,...,19285.0,19285.0,19285.0,19285.0,19285.0,19285.0,19285.0,19285.0,19285.0,19285.0
mean,2222.613689,22229.136894,5868.854779,51.647654,3.228157,14.072855,3.055535,1.314752,0.876588,3.792585,...,976824.1,784213.8,523009.9,151344.7,431548.5,254629.9,303789.8,541630.3,430610.8,57.0
std,1275.293152,12752.9316,3881.525292,15.662512,1.494929,2.733539,1.055146,0.464429,1.20059,1.598757,...,11426860.0,18697230.0,13603530.0,5184665.0,33843630.0,4677663.0,3916706.0,20366400.0,21160430.0,0.0
min,1.0,11.0,0.885319,19.0,1.0,-1.0,1.0,1.0,0.0,1.0,...,-100.0,-100.0,-101680500.0,-260.3585,-99620490.0,-100.0,-8168880.0,-100.9656,-100.0,57.0
25%,1130.0,11302.0,1992.217143,40.0,2.0,12.0,2.0,1.0,0.0,3.0,...,-5.405405,-21.15196,-6.457549,-28.67388,0.0,0.0,0.0,-35.62493,-25.84808,57.0
50%,2233.0,22333.0,6756.245225,51.0,3.0,14.0,3.0,1.0,0.0,4.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,37.94657,0.0,57.0
75%,3323.0,33234.0,8538.990444,62.0,4.0,16.0,4.0,2.0,2.0,5.0,...,0.0,16.92806,0.0,0.0,0.0,0.0,0.0,222.5191,63.44615,57.0
max,4423.0,44235.0,17895.93663,95.0,6.0,17.0,4.0,2.0,10.0,6.0,...,500000000.0,1095825000.0,747153700.0,309421300.0,1870849000.0,271764700.0,122533200.0,886000100.0,1721023000.0,57.0


In [143]:
#me fijo si hay missings
nan_counts = df.isna().sum()
nan_counts

YY1                0
Y1                 0
WGT09              0
AGE07              0
AGECL07            0
                  ..
SSRETINCPCT        0
TRANSFOTHINCPCT    0
PSAVINGPCT         0
LEVERAGEPCT        0
I                  0
Length: 515, dtype: int64

In [146]:
#me fijo cuántos tienen nan
nan_counts[nan_counts > 0]

Series([], dtype: int64)

In [148]:
#tipo de variables
df.dtypes.value_counts()

int64      303
float64    212
Name: count, dtype: int64

In [None]:
#chequeo duplicados