# PERFIL CLIENTE VENTAS SEGUROS

Teniendo el dataset las siguientes columnas:
- CCLIEN	Código del cliente que le identifica en las BBDD de la entidad
- COD EDAD	Edad del cliente
- FEC_ALTA	Fecha en la que el cliente se dio de alta en la entidad con su primer producto
- COD_TERRIT	Código de territorial en la que reside el cliente (ver catálogo)
- SALDO CUENTA	Saldo disponible a fin de mes en la cuenta personal en la que el cliente es 1er Titular
- IMPORTE PPI	Saldo disponible a fin de mes en el contrato de PPI (planes pensiones individual) en el que el cliente es 1er Titular
- IMPORTE HIPOTECA	Capital pendiente a fin de mes en el contrato de Hipoteca en el que el cliente es Titular en cualquier orden
- IMPORTE PLAZO	Saldo disponible a fin de mes en el contrato de Plazo en el que el cliente es 1er Titular
- IMPORTE FONDOS	Saldo disponible a fin de mes en el contrato de Fondos de Inversión en el que el cliente es 1er Titular
- XTI_IDEFISCO	Identificación fiscal cliente (ver catálogo)
- SEGURO HOGAR	Tenencia (1 ó 0) de Seguro de Hogar
- SEGURO VIDA	Tenencia (1 ó 0) de Seguro de Vida
- SEGURO COCHE	Tenencia (1 ó 0) de Seguro de Coche

Desde Negocio nos piden incrementar las ventas de Seguros de Hogar y Seguros de Vida.
Para ello nos piden que analicemos el perfil de los clientes que disponen de Seguro de Hogar / Vida y que en función de las variables de que disponemos, les demos alguna conclusión accionable que les permita organizar su estrategia de venta.

### Abrir el fichero de datos

In [None]:
import pandas as pd

In [None]:
df = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/Transformación Digital/2. PERFIL CLIENTE_ VENTAS SEGUROS.csv')
df

Unnamed: 0,CCLIEN,COD EDAD,FEC_ALTA,COD_TERRIT,SALDO CUENTA,IMPORTE PPI,IMPORTE HIPOTECA,IMPORTE PLAZO,IMPORTE FONDOS,XTI_IDEFISCO,SEGURO HOGAR,SEGURO VIDA,SEGURO COCHE
0,24113,48,9/3/1983,1964,97351,9027,270233.0,0,0,1,1,1.0,0
1,24504,34,30/8/2007,51,94837,6044,285799.0,0,10785,1,1,1.0,0
2,69383,25,13/7/1979,8302,95180,6784,185803.0,7126,0,1,1,1.0,0
3,43964,71,5/1/2015,63,80999,9479,0.0,0,0,1,1,0.0,0
4,39177,30,21/9/1977,1525,7428,8977,93622.0,29713,0,1,1,0.0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,68582,51,5/10/1983,1964,38715,3529,40232.0,0,17465,1,1,1.0,0
996,93011,46,16/8/1981,72,23578,1797,0.0,0,0,1,1,0.0,1
997,82051,44,28/12/2007,63,2536,0,0.0,0,0,1,1,1.0,0
998,21777,67,2/9/1975,1523,66623,5212,0.0,60530,10852,1,0,0.0,0


### Filtros
Es un problema de clientes particulares, así tendremos que filtrar a las personas jurídicas, que si comprobamos en el catálogo, se seleccionan por XTI_IDEFISCO = 2 Ó 3
Los menores de edad no aplican para la venta de seguros, así que tendremos que filtrar mayores de 18 años

In [None]:
df.groupby('XTI_IDEFISCO')['XTI_IDEFISCO'].count()

XTI_IDEFISCO
1    940
2     15
3     40
7      5
Name: XTI_IDEFISCO, dtype: int64

In [None]:
print('Número de registros: ', df.shape[0])
df_filtro_partic = df[(df['XTI_IDEFISCO'] != 2) & (df['XTI_IDEFISCO'] != 3)]
print('Número de registros filtrando por particulares: ', df_filtro_partic.shape[0])

Número de registros:  1000
Número de registros filtrando por particulares:  945


In [None]:
df['COD EDAD'].unique()

array([48, 34, 25, 71, 30,  9, 17, 59, 61, 47, 33, 77, 45, 35, 85, 69, 67,
       58, 55, 46, 26, 10, 27, 38, 84, 65, 22, 18, 56, 40, 24, 80, 11, 62,
       83, 21, 43, 66, 87, 68, 60, 42,  8, 39, 75, 74, 29, 50, 73, 12, 16,
       44, 32, 15, 79, 31, 51, 70, 52, 88, 41, 14, 82, 49, 78, 23, 13, 76,
       20, 81, 64, 36, 19, 37, 63, 54, 72, 57, 28, 53, 89])

In [None]:
df_filtro_edad = df_filtro_partic[(df_filtro_partic['COD EDAD'] >= 18)]
print('Número de registros filtrando por mayores de edad: ', df_filtro_edad.shape[0])

Número de registros filtrando por mayores de edad:  832


#### Limpieza de datos
Comprobamos si hay missing values, sustituyéndolos por 0

In [None]:
df_filtro_edad.isna().sum()

CCLIEN               0
COD EDAD             0
FEC_ALTA             1
COD_TERRIT           0
SALDO CUENTA         0
IMPORTE PPI          0
IMPORTE HIPOTECA    32
IMPORTE PLAZO        0
IMPORTE FONDOS       0
XTI_IDEFISCO         0
SEGURO HOGAR         0
SEGURO VIDA          6
SEGURO COCHE         0
dtype: int64

In [None]:
df_limpio = df_filtro_edad.fillna(0)

In [None]:
df_limpio

Unnamed: 0,CCLIEN,COD EDAD,FEC_ALTA,COD_TERRIT,SALDO CUENTA,IMPORTE PPI,IMPORTE HIPOTECA,IMPORTE PLAZO,IMPORTE FONDOS,XTI_IDEFISCO,SEGURO HOGAR,SEGURO VIDA,SEGURO COCHE
0,24113,48,9/3/1983,1964,97351,9027,270233.0,0,0,1,1,1.0,0
1,24504,34,30/8/2007,51,94837,6044,285799.0,0,10785,1,1,1.0,0
2,69383,25,13/7/1979,8302,95180,6784,185803.0,7126,0,1,1,1.0,0
3,43964,71,5/1/2015,63,80999,9479,0.0,0,0,1,1,0.0,0
4,39177,30,21/9/1977,1525,7428,8977,93622.0,29713,0,1,1,0.0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,68582,51,5/10/1983,1964,38715,3529,40232.0,0,17465,1,1,1.0,0
996,93011,46,16/8/1981,72,23578,1797,0.0,0,0,1,1,0.0,1
997,82051,44,28/12/2007,63,2536,0,0.0,0,0,1,1,1.0,0
998,21777,67,2/9/1975,1523,66623,5212,0.0,60530,10852,1,0,0.0,0


In [None]:
df_limpio.isna().sum()

CCLIEN              0
COD EDAD            0
FEC_ALTA            0
COD_TERRIT          0
SALDO CUENTA        0
IMPORTE PPI         0
IMPORTE HIPOTECA    0
IMPORTE PLAZO       0
IMPORTE FONDOS      0
XTI_IDEFISCO        0
SEGURO HOGAR        0
SEGURO VIDA         0
SEGURO COCHE        0
dtype: int64

#### Seguros de Hogar o Seguros de Vida
Generamos variables contador:
- Contador de tenencia de Seguros de Hogar o Seguros de Vida
- Contador de tenencia de contrato de Hipoteca
- Contador de tenencia de contrato de Plazo
- Contador de tenencia de contrato de Fondos de Inversión
- Contador de tenencia de contrato de Plan de Pensiones
- Para poder analizar el perfil por edades, vamos a crear 2 tramos: entre 18 y 55 y mayores de 55 años

In [None]:
import numpy as np

df_limpio['SEGURO_HOGAR_O_VIDA'] = np.where((df_limpio['SEGURO HOGAR'] != 0) | (df_limpio['SEGURO VIDA'] != 0), 1, 0)
df_limpio['HIPOTECA'] = np.where(df_limpio['IMPORTE HIPOTECA'] > 0, 1, 0)
df_limpio['PLAZO'] = np.where(df_limpio['IMPORTE PLAZO'] > 0, 1, 0)
df_limpio['FONDOS'] = np.where(df_limpio['IMPORTE FONDOS'] > 0, 1, 0)
df_limpio['PPI'] = np.where(df_limpio['IMPORTE PPI'] > 0, 1, 0)

In [None]:
df_limpio['TRAMO_EDAD'] = np.where((df_limpio['COD EDAD'] < 55), 'MENOR_55', 'MAYOR_55')
df_limpio['TRAMO_EDAD']

0      MENOR_55
1      MENOR_55
2      MENOR_55
3      MAYOR_55
4      MENOR_55
         ...   
995    MENOR_55
996    MENOR_55
997    MENOR_55
998    MAYOR_55
999    MENOR_55
Name: TRAMO_EDAD, Length: 832, dtype: object

#### Analizamos la tenencia de seguros por tramo edad:

In [None]:
df_limpio.groupby('TRAMO_EDAD').agg({'TRAMO_EDAD': 'count',
                                      'SEGURO_HOGAR_O_VIDA':['sum', lambda x: x.sum() / float(x.count()) * 100]})

Unnamed: 0_level_0,TRAMO_EDAD,SEGURO_HOGAR_O_VIDA,SEGURO_HOGAR_O_VIDA
Unnamed: 0_level_1,count,sum,<lambda_0>
TRAMO_EDAD,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
MAYOR_55,336,210,62.5
MENOR_55,496,309,62.298387


El 62% de nuestra base tiene seguros de hogar o de vida, no se ven diferencias significativas por edades

#### Vemos si hay relación entre productos, si la tenencia de seguros está relacionada con algún otro producto:

In [None]:
df_limpio.groupby('SEGURO_HOGAR_O_VIDA').agg({'SEGURO_HOGAR_O_VIDA': 'count',
                                              'HIPOTECA': ['sum', lambda x: x.sum() / float(x.count())*100],
                                              'PLAZO': ['sum', lambda x: x.sum() / float(x.count())*100],
                                              'FONDOS': ['sum', lambda x: x.sum() / float(x.count())*100],
                                              'PPI': ['sum', lambda x: x.sum() / float(x.count())*100]})

Unnamed: 0_level_0,SEGURO_HOGAR_O_VIDA,HIPOTECA,HIPOTECA,PLAZO,PLAZO,FONDOS,FONDOS,PPI,PPI
Unnamed: 0_level_1,count,sum,<lambda_0>,sum,<lambda_0>,sum,<lambda_0>,sum,<lambda_0>
SEGURO_HOGAR_O_VIDA,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2
0,313,10,3.194888,151,48.242812,126,40.255591,110,35.14377
1,519,292,56.262042,226,43.545279,210,40.462428,321,61.849711


En general la tenencia de depósitos a plazo y de fondos de inversión es elevada
Hay una elevada tenencia de hipoteca entre clientes con seguro de hogar / vida, así como de planes de pensiones

En este punto deberíamos consultar a los conocedores del Negocio / Productos, para ver si esta relación entre productos está motivada por algo en especial
Nos aclaran que cuando se concede una Hipoteca, para conseguir un mejor precio, se pide la contratación de productos adicionales como Seguro de Vida, Hogar o Planes de Pensiones
Así que deberíamos eliminar de nuestro análisis los clientes con hipoteca, ya que no nos darán una estrategia de aumento de ventas de seguros

Centramos nuestro análisis entonces en los Seguros de Venta Libre (es decir, a los que no están vinculados a la hipoteca)

#### Volvemos a hacer el análisis eliminando aquellos vinculados a Hipotecas:

In [None]:
df_limpio = df_limpio[(df_limpio['HIPOTECA'] == 0)]

df_limpio.groupby('TRAMO_EDAD').agg({'TRAMO_EDAD': 'count',
                                      'SEGURO_HOGAR_O_VIDA':['sum', lambda x: x.sum() / float(x.count())]})

Unnamed: 0_level_0,TRAMO_EDAD,SEGURO_HOGAR_O_VIDA,SEGURO_HOGAR_O_VIDA
Unnamed: 0_level_1,count,sum,<lambda_0>
TRAMO_EDAD,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
MAYOR_55,284,160,0.56338
MENOR_55,246,67,0.272358


* 1ª Conclusión: los Seguros de Venta Libre (no vinculados a Hipoteca) funcionan mejor en clientes de más de 59 años

In [None]:
df_limpio.groupby('COD_TERRIT').agg({'COD_TERRIT': 'count',
                                      'SEGURO_HOGAR_O_VIDA':['sum', lambda x: x.sum() / float(x.count())]})

Unnamed: 0_level_0,COD_TERRIT,SEGURO_HOGAR_O_VIDA,SEGURO_HOGAR_O_VIDA
Unnamed: 0_level_1,count,sum,<lambda_0>
COD_TERRIT,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
51,66,25,0.378788
63,72,26,0.361111
72,108,70,0.648148
1523,69,16,0.231884
1525,78,37,0.474359
1964,61,22,0.360656
8302,76,31,0.407895


* 2ª Conclusión: revisar las prácticas de ventas libres de seguros en la territorial Sur, ya que están consiguiendo unas ventas más elevadas que otras territoriales