<h1>pandas - Exploración de datos (6 puntos)</h1>

En este notebook se debe realizar un pequeño análisis exploratorio sobre el set de datos(insurance.csv) que se adjunta en la carpeta data.

Dichos datos contienen información sobre costes en seguro de salud de EEUU: edad del tomador principal del seguro, género, índice de masa corporal, si es fumadora o no y la zona de EEUU donde vive. Además, también tenemos indormación sobre la proporción de niños cubiertos por el seguro de salud, en relación al número de adultos en dicho seguro.

Una vez cargado el set de datos, responde a las siguientes preguntas utilizando sentencias de <b>pandas</b>.

<h3>1. Carga el set de datos en una variable llamada "insurance".</h3>

In [1]:
import pandas as pd
import numpy as np #cargamos los módulos que vamos a necesitar. 

In [2]:
insurance = pd.read_csv(".\\data\\insurance.csv")


In [3]:
insurance.head() #sacamos las primeras 5 entradas del df para echarle un ojo. 

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
0,19,female,27.9,0,yes,southwest,16884.924
1,18,male,33.77,1,no,southeast,1725.5523
2,28,male,33.0,3,no,southeast,4449.462
3,33,male,22.705,0,no,northwest,21984.47061
4,32,male,28.88,0,no,northwest,3866.8552


<h3>2. Obtén el número de observaciones incluidas en el set de datos.</h3>

In [4]:
insurance.shape[0] #1338 observaciones

1338

<h3>3. Obtén el listado de variables incluidas en el set de datos (y sus tipos).

In [5]:
insurance.dtypes

age           int64
sex          object
bmi         float64
children      int64
smoker       object
region       object
charges     float64
dtype: object

<h3>4. Obtén estadísticos básicos de las variables numéricas del set de datos.

In [6]:
insurance.describe()

Unnamed: 0,age,bmi,children,charges
count,1338.0,1338.0,1338.0,1338.0
mean,39.207025,30.663397,1.094918,13270.422265
std,14.04996,6.098187,1.205493,12110.011237
min,18.0,15.96,0.0,1121.8739
25%,27.0,26.29625,0.0,4740.28715
50%,39.0,30.4,1.0,9382.033
75%,51.0,34.69375,2.0,16639.912515
max,64.0,53.13,5.0,63770.42801


<h3>5. Indica en qué variables hay valores nulos y cuál es su proporción dentro de la variable.</h3>

In [7]:
for key in insurance.columns:
    valores_nulos = insurance[key].isnull().sum()
    proporcion = (valores_nulos / len(insurance[key]))*100
    print("la variable " + str(key) + "  tiene  " + str(valores_nulos)  + "  valores nulos, que son un " + str(proporcion) + "%")

la variable age  tiene  0  valores nulos, que son un 0.0%
la variable sex  tiene  0  valores nulos, que son un 0.0%
la variable bmi  tiene  0  valores nulos, que son un 0.0%
la variable children  tiene  0  valores nulos, que son un 0.0%
la variable smoker  tiene  0  valores nulos, que son un 0.0%
la variable region  tiene  0  valores nulos, que son un 0.0%
la variable charges  tiene  0  valores nulos, que son un 0.0%


<h3>6. ¿Hay más hombres o mujeres en el estudio? ¿Cuánto más en porcentaje?</h3>

In [8]:
mujeres = insurance[insurance["sex"] == "female"]
len(mujeres)

662

In [9]:
hombres = insurance[insurance["sex"] == "male"]
len(hombres)

676

In [10]:
porcentaje_hombres = len(hombres) / len(insurance)
porcentaje_mujeres = len(mujeres) / len(insurance)
porcentaje_hombres - porcentaje_mujeres  #vemos una diferencia de 0.0105%: siendo los hombres algo más numerosos que las mujeres. 

0.01046337817638271

la diferencia calculada arriba sería una diferencia bruta, si queremos la diferencia porcentual debemos dividir el anterior resultado entre el porcentaje de mujeres: Pdiff = (Phombre - Pmujer) / Pmujer; ya que Pmujer es la variable con respecto a la cual queremos conocer esta diferencia.


In [11]:
(porcentaje_hombres - porcentaje_mujeres) / porcentaje_mujeres #hay una diferencia del 2%. 

0.021148036253776533

<h3>7. ¿La mujer con bmi máximo es fumadora. ¿Y el hombre?</h3>

In [12]:
insurance[insurance["sex"] == "female"][insurance["bmi"] == insurance[insurance["sex"] == "female"]["bmi"].max()]["smoker"]
#no es fumadora

  """Entry point for launching an IPython kernel.


286    no
Name: smoker, dtype: object

In [13]:
insurance[insurance["sex"] == "male"][insurance["bmi"] == insurance[insurance["sex"] == "male"]["bmi"].max()]["smoker"]
#no es fumador. 

  """Entry point for launching an IPython kernel.


1317    no
Name: smoker, dtype: object

### 8. ¿Cuál es el bmi medio cada región?

In [14]:
insurance.groupby("region")["bmi"].mean()

region
northeast    29.173503
northwest    29.199785
southeast    33.355989
southwest    30.596615
Name: bmi, dtype: float64

<h3>9. ¿Cuál es la región con más gastos en seguros de salud? ¿Y la región con más fumadores?</h3>

In [15]:
insurance.groupby("region")["charges"].sum().idxmax() #vemos que southeast es la región con más gastos en seguros. 

'southeast'

In [16]:
insurance[insurance["smoker"] == "yes"].groupby("region")[["smoker"]].count().idxmax()
#y es también la región con más fumadores, lo cual tiene sentido. 

smoker    southeast
dtype: object

<h3>10. ¿Qué relación hay entre ser fumador y los gastos en seguro? ¿Y entre la proporción del número de niños cubiertos por el seguro y el coste del mismo? </h3>

In [17]:
insurance[["smoker", "charges"]].groupby("smoker").mean()
#increible la diferencia en la media de los gastos de seguro para fumadores y no fumadores... hay que dejarlo o nos arruinamos. 

Unnamed: 0_level_0,charges
smoker,Unnamed: 1_level_1
no,8434.268298
yes,32050.231832


Vemos que para los fumadores, los cargos por seguros de salud son casi 4 veces mayores; para los no fumadores la media de los gastos en seguros de salud asciende a 8434.27, mientras que para los fumadores es de más de 32000. Esto no es de extrañar, ya que lo lógico es que los fumadores tengan unos gastos de seguro mayores; sin embargo, llama la atención la magnitud de la diferencia...

In [18]:
insurance[["children", "charges"]].groupby("children").mean()

Unnamed: 0_level_0,charges
children,Unnamed: 1_level_1
0,12365.975602
1,12731.171832
2,15073.563734
3,15355.318367
4,13850.656311
5,8786.035247


En la tabla superior podemos ver los gastos de seguros de salud medios para cada número de niños por familia. Vemos que desde 0 hijos a 3 hijos los gastos medios van en aumento, mientras que a partir del cuarto hijo baja la media de los gastos, y para las familias con cinco hijos los gastos de seguro medios son incluso inferiores a los que no tienen hijos en absoluto. Esto puede deberse a subvenciones o ayudas a familias numerosas, una mejor gestión del ahorro derivado de la necesidad, u otros motivos.

### 11. ¿Qué correlación hay entre la edad, bmi y gastos?

In [19]:
corr = insurance[["age", "bmi", "charges"]].corr()
corr

Unnamed: 0,age,bmi,charges
age,1.0,0.109272,0.299008
bmi,0.109272,1.0,0.198341
charges,0.299008,0.198341,1.0


En la tabla superior podemos ver la matriz de correlaciones entre la edad, el bmi y los gastos en seguros de salud. Como puede observarse, no existe ninguna correlación relativamente significativa (no hay ninguna por encima del 0.3); la correlación más débil la encontramos entre la edad y el bmi; esto significa que la edad de las personas que formaron parte del estudio no tiene prácticamente ningún efecto sobre el body mass index. Si bien es cierto que es débil, también es positiva, con lo cual en caso de tener algún efecto, es positivo, es decir el body mass index aumenta con la edad de los participantes, lo cual sería esperable, pues las personas con el tiempo tienden a ganar más grasa, tienen menos tiempo para hacer deporte y un metabolismo más lento. Sin embargo, viendo que es tan bajo, no podemos sacar conclusiones; lo más adecuado sería decir que la edad no tiene un efecto significativo sobre el bmi. Dados los últimos informes mundiales sobre la obesidad infantil, esto no debería ser ninguna sorpresa. 
Sí es algo más significativa la correlación entre los cargos por seguros de salud y la edad (0.299), lo cual es lógico pues cuando aumenta nuestra edad también empeora nuestra salud y por lo tanto las empresas de seguros tenderán a cargarnos unas primas más altas. 
Llama la atención que la correlación entre el bmi y los cargos por seguros de salud sea de sólo 0.198, ya que cuando la gente tiene un mayor bmi, significa que tiene peor salud, y por lo tanto el riesgo de que la empresa de seguros tenga que cubrir gastos hospitalarios u otros derivados de una mala salud es mayor. Al ser este riesgo mayor, también deberían ser mayores los gastos de seguro. 

### 12. Calcula, para cada región y cada género,  la media de los costes en sanidad. Haz lo mismo teniendo en cuenta también si la persona es fumadora o no.

In [20]:
insurance.groupby(["region", "sex"])["charges"].mean()
#en esta tabla podemos ver la media de los costes de sanidad por región y género. 
#los mayores gastos (de media) los encontramos en los hombres de la región southeast. 
#los menores gastos (de media), por otro lado, son los de las mujeres de la región southwest. 

region     sex   
northeast  female    12953.203151
           male      13854.005374
northwest  female    12479.870397
           male      12354.119575
southeast  female    13499.669243
           male      15879.617173
southwest  female    11274.411264
           male      13412.883576
Name: charges, dtype: float64

In [21]:
insurance.groupby(["region", "sex", "smoker"])["charges"].mean()
#y aquí, lo mismo pero incluyendo la contingencia de si es o no es fumadora. 
#vemos que los mayores gastos de media los encontramos en la región southeast, para los hombres fumadores; 
#los menores gastos de media los encontramos en los hombres de la región southeast que no son fumadores.
#es curioso que en este caso tanto los mayores como los menores de media los encontramos en los hombres y en la misma región, siendo la diferencia si son o no fumadores. Esto significa que la variable que determina de una forma más clara la media de los gastos en seguros de salud es si es o no fumador(a) la persona. 

region     sex     smoker
northeast  female  no         9640.426984
                   yes       28032.046398
           male    no         8664.042222
                   yes       30926.252583
northwest  female  no         8786.998679
                   yes       29670.824946
           male    no         8320.689321
                   yes       30713.181419
southeast  female  no         8440.205552
                   yes       33034.820716
           male    no         7609.003587
                   yes       36029.839367
southwest  female  no         8234.091260
                   yes       31687.988430
           male    no         7778.905534
                   yes       32598.862854
Name: charges, dtype: float64