In [1]:
import numpy as np
import pandas as pd

# Pandas - Explorando información de seguros

### 1. Carga del set de datos en una variable llamada “seguros”.

In [2]:
# cragamos el set y observamos las primeras filas
seguros = pd.read_csv('../data/seguro_medico.csv', sep=';')
seguros.head()

Unnamed: 0,edad,co_genero,imc,num_hijos,co_fumador,region,costes_seguro
0,19.0,1.0,27.9,0.0,1,southwest,16884.924
1,18.0,0.0,33.77,1.0,0,southeast,1725.5523
2,28.0,0.0,33.0,3.0,0,southeast,4449.462
3,33.0,0.0,22.705,0.0,0,northwest,21984.47061
4,32.0,0.0,28.88,0.0,0,northwest,3866.8552


### 2. Número de observaciones incluidas en el set de datos.

In [3]:
seguros.shape[0]

1338

### 3. Listado de variables (y sus tipos) incluidas en el set de datos.

In [4]:
seguros.dtypes

edad             float64
co_genero        float64
imc              float64
num_hijos        float64
co_fumador         int64
region            object
costes_seguro    float64
dtype: object

### 4. Estadísticos básicos sólo de las variables numéricas del set de datos.

In [5]:
seguros[['edad', 'imc', 'num_hijos', 'costes_seguro']].describe()

Unnamed: 0,edad,imc,num_hijos,costes_seguro
count,1332.0,1335.0,1334.0,1338.0
mean,39.175676,30.642637,1.097451,13270.422265
std,14.054014,6.150285,1.206177,12110.011237
min,18.0,1.0,0.0,1121.8739
25%,26.75,26.3025,0.0,4740.28715
50%,39.0,30.4,1.0,9382.033
75%,51.0,34.6375,2.0,16639.912515
max,64.0,53.13,5.0,63770.42801


### 5. Tablas de frecuencia sólo de las variables categóricas del set de dato.

In [32]:
# cada tabla individualmente
print(seguros['region'].value_counts(), "\n\n", seguros['co_genero'].value_counts(), "\n\n", seguros['co_fumador'].value_counts())
# tablas de frecuencias unificadas
seguros[['region', 'co_genero', 'co_fumador']].value_counts()

southeast    362
southwest    324
northwest    324
northeast    323
Name: region, dtype: int64 

 0.0    674
1.0    660
Name: co_genero, dtype: int64 

 0    1064
1     274
Name: co_fumador, dtype: int64


region     co_genero  co_fumador
southwest  1.0        0             140
southeast  1.0        0             137
northwest  1.0        0             135
southeast  0.0        0             132
northeast  1.0        0             131
northwest  0.0        0             130
southwest  0.0        0             126
northeast  0.0        0             124
southeast  0.0        1              55
northeast  0.0        1              38
southwest  0.0        1              37
southeast  1.0        1              36
northeast  1.0        1              29
northwest  0.0        1              29
           1.0        1              29
southwest  1.0        1              21
dtype: int64

### 6. Identificación de variables con missing values y proporción de los mismos

In [7]:
# cantidad de missing values 
seguros.isna().sum()

edad             6
co_genero        4
imc              3
num_hijos        4
co_fumador       0
region           5
costes_seguro    0
dtype: int64

In [8]:
# proporción de missing values
seguros.isna().mean() * 100

edad             0.448430
co_genero        0.298954
imc              0.224215
num_hijos        0.298954
co_fumador       0.000000
region           0.373692
costes_seguro    0.000000
dtype: float64

### 7. Cruza los datos de seguros con los catálogos de géneros y condición de fumador para tener un set de datos completo y elimina las columnas con los códigos numéricos.

In [9]:
catalogo_fumador = pd.read_csv('../data/catalogo_fumador.csv', sep=';')
catalogo_genero = pd.read_csv('../data/catalogo_genero.csv', sep=';')
# cruzamos los datos manteniendo aquellos en los que haya missing values (hemos visto que había 5 missing values para co_genero)
seguros_info_fumar = pd.merge(seguros, catalogo_fumador, how = 'outer')
seguros_completo = pd.merge(seguros_info_fumar, catalogo_genero, how='outer')
# eliminamos las columnas de códigos
del seguros_completo['co_fumador']
del seguros_completo['co_genero']
seguros_completo

Unnamed: 0,edad,imc,num_hijos,region,costes_seguro,fumador,genero
0,19.0,27.900,0.0,southwest,16884.92400,si,mujer
1,62.0,26.290,0.0,southeast,27808.72510,si,mujer
2,34.0,31.920,1.0,northeast,37701.87680,si,mujer
3,53.0,22.880,1.0,southeast,23244.79020,si,mujer
4,20.0,22.420,0.0,northwest,14711.74380,si,mujer
...,...,...,...,...,...,...,...
1333,50.0,30.970,3.0,northwest,10600.54830,no,hombre
1334,59.0,27.720,3.0,southeast,14001.13380,no,
1335,58.0,32.010,1.0,southeast,11946.62590,no,
1336,35.0,34.770,2.0,northwest,5729.00530,no,


# Pandas - Analizando información de seguros

### 1. ¿Qué género es el que tiene el coste medio de seguro más alto?

In [10]:
seguros_completo.groupby('genero')['costes_seguro'].mean().sort_values(ascending = False)
# podríamos hacer .head(1) pero para prevenir igualdades mostramos los dos

genero
hombre    13971.940898
mujer     12578.342403
Name: costes_seguro, dtype: float64

### 2. ¿Qué IMC medio tienen los seguros con costes inferiores a 9000?

In [11]:
seguros_completo[seguros_completo.costes_seguro < 9000]['imc'].mean()

30.14768160741884

### 3. ¿Qué relación hay entre la región de residencia y los costes del seguro?

In [12]:
seguros_completo.groupby('region')['costes_seguro'].mean().sort_values(ascending = False)

region
southeast    14742.967648
northeast    13440.474959
northwest    12420.849801
southwest    12350.868740
Name: costes_seguro, dtype: float64

A partir de estos datos podemos deducir que de manera generalizada es más alto el coste del seguro en las regiones del este

### 4. ¿Qué género predomina entre los fumadores?

In [13]:
seguros_completo[seguros_completo.fumador == "si"].groupby('genero').size().sort_values(ascending = False)
# podríamos hacer .head(1) pero para prevenir igualdades mostramos los dos

genero
hombre    159
mujer     115
dtype: int64

### 5. Calcula la edad media de los tomadores de los seguros por región y género.

In [14]:
seguros_completo.groupby(['region', 'genero'])['edad'].mean()

region     genero
northeast  hombre    39.000000
           mujer     39.550633
northwest  hombre    38.704403
           mujer     39.490798
southeast  hombre    38.668449
           mujer     38.929825
southwest  hombre    39.208589
           mujer     39.562500
Name: edad, dtype: float64

### 6. ¿Qué relación existe entre la edad y los costes del seguro?

In [15]:
seguros_completo.groupby('edad')['costes_seguro'].mean().sort_values(ascending = False)

edad
64.0    23275.530837
60.0    22377.171760
61.0    22024.457609
63.0    19884.998461
43.0    19267.278653
62.0    19163.856573
59.0    18895.869532
54.0    18758.546475
52.0    18256.269719
37.0    18019.911877
47.0    17653.999593
57.0    16447.185250
55.0    16164.545488
53.0    16020.930755
44.0    15859.396587
51.0    15682.255867
50.0    15663.003301
56.0    15144.762790
45.0    14830.199856
48.0    14632.500445
46.0    14539.708911
58.0    13878.928112
42.0    13061.038669
49.0    12847.660967
30.0    12719.110358
23.0    12419.820040
33.0    12351.532987
36.0    12204.476138
27.0    12184.701721
40.0    11952.830614
39.0    11778.242945
34.0    11613.528121
35.0    11307.182031
24.0    10648.015962
29.0    10430.158727
31.0    10196.980573
20.0    10159.697736
22.0    10012.932802
25.0     9838.365311
19.0     9747.909335
41.0     9653.745650
32.0     9220.300291
28.0     9069.187564
38.0     8102.733674
18.0     7086.217556
26.0     6235.338216
21.0     4730.464330
Name: co

In [16]:
# Agrupando por grupos de edad (sabemos que tienen desde 18 hasta 64 años gracias al ejercicio de estadísticas)
# Podemos hacernos una idea de las diferencias por edades
seguros_rango_coste = seguros_completo.groupby(pd.cut(seguros_completo["edad"], np.arange(15, 65, 5)))['costes_seguro']
seguros_rango_coste.mean().sort_values(ascending = False)

edad
(55, 60]    17218.809805
(50, 55]    16988.005623
(45, 50]    15102.354172
(40, 45]    14538.651124
(35, 40]    12407.997713
(30, 35]    10929.364789
(25, 30]    10134.987570
(20, 25]     9529.919689
(15, 20]     8713.482413
Name: costes_seguro, dtype: float64

Viendo los resultados, podemos concluir que lo normal es que a mayor edad, mayor coste del seguro.