# U.S. Medical Insurance Costs

##### Objetivos:
1. Averiguar la edad promedio de los pacientes en el dataset
2. Analizar el origen de cada uno de los individuos.
3. Cual es el promedio pagado en cada región?
4. Buscar diferencias entre fumadores y no fumadores y diferenciarlos por género.
5. Descubrir cual es el promedio de edad para la gente que tiene al menos un hijo.

In [14]:
#Librerías necesarias 
import pandas as pd
import numpy

In [9]:
insurance = pd.read_csv("insurance.csv")

In [13]:
#Analizamos el dataset en sus primeros registros para entender su estructura
print(insurance.head())

   age     sex     bmi  children smoker     region      charges
0   19  female  27.900         0    yes  southwest  16884.92400
1   18    male  33.770         1     no  southeast   1725.55230
2   28    male  33.000         3     no  southeast   4449.46200
3   33    male  22.705         0     no  northwest  21984.47061
4   32    male  28.880         0     no  northwest   3866.85520


In [12]:
#Buscamos información descriptiva del dataset y llegamos al primer objetivo:
print(insurance.describe())

               age          bmi     children       charges
count  1338.000000  1338.000000  1338.000000   1338.000000
mean     39.207025    30.663397     1.094918  13270.422265
std      14.049960     6.098187     1.205493  12110.011237
min      18.000000    15.960000     0.000000   1121.873900
25%      27.000000    26.296250     0.000000   4740.287150
50%      39.000000    30.400000     1.000000   9382.033000
75%      51.000000    34.693750     2.000000  16639.912515
max      64.000000    53.130000     5.000000  63770.428010


In [19]:
#Observamos que el promedio de edad en el dataset es de 39.2070 años.
#Comprobamos la información y la formateamos:

avg_age = insurance.age.mean()

avg_age_rounded = round(avg_age, 2)

print("El promedio de edad es de " + str(avg_age_rounded) + " años por paciente.")

El promedio de edad es de 39.21 años por paciente.


In [21]:
#Agrupamos y contamos los pacientes por región:

patients_regions = insurance.groupby(['region'])['region'].count()

print(patients_regions)

region
northeast    324
northwest    325
southeast    364
southwest    325
Name: region, dtype: int64


In [31]:
#Descubrimos que la distribución de pacientes es pareja. 
#Buscamos averiguar si hay diferencias en los costos por región.

insurance_per_region = insurance.groupby(['region'])
#print(insurance_per_region.describe())

#Aislamos los costos promedio por region
charges_per_region = insurance_per_region["charges"].mean()

print(charges_per_region)

#Observamos que no hay diferencias significativas por región.

region
northeast    13406.384516
northwest    12417.575374
southeast    14735.411438
southwest    12346.937377
Name: charges, dtype: float64


In [41]:
#Buscamos diferencias entre fumadores y no fumadores:

smokers = insurance.groupby("smoker", axis=0)
print(smokers.mean())

#Observamos que el promedio de edad, bmi e hijos no cambia, pero el costo es completamente diferente cuando el asegurado es fumador.
#Concluímos que fumar afecta gravemente el precio del seguro.


              age        bmi  children       charges
smoker                                              
no      39.385338  30.651795  1.090226   8434.268298
yes     38.514599  30.708449  1.113139  32050.231832


In [61]:
#Diferenciamos los generos para observar que parte de la poblacion observada fumadora es mujer u hombre

smokers_by_gender = insurance.groupby(["smoker","sex"])['smoker'].count()

print(smokers_by_gender.head())

smoker  sex   
no      female    547
        male      517
yes     female    115
        male      159
Name: smoker, dtype: int64


In [62]:
#Observamos la diferencia en costos por sexo:

smokers_charges_by_gender = insurance.groupby(["smoker","sex"])['charges'].mean()

print(smokers_charges_by_gender.head())

smoker  sex   
no      female     8762.297300
        male       8087.204731
yes     female    30678.996276
        male      33042.005975
Name: charges, dtype: float64


In [70]:
#Calculamos el promedio de edad cuando los pacientes tienen al menos un hijo

patients_with_childrens = insurance[insurance.children >= 1]

#print(patiens_with_childrens.head())

avg_age_with_childrens = patients_with_childrens.age.mean()

avg_age_wc_rounded = round(avg_age_with_childrens, 2)

print("El promedio de edad es de " + str(avg_age_wc_rounded) + " años por paciente con al menos 1 hijo.")

   age     sex    bmi  children smoker     region    charges
1   18    male  33.77         1     no  southeast  1725.5523
2   28    male  33.00         3     no  southeast  4449.4620
6   46  female  33.44         1     no  southeast  8240.5896
7   37  female  27.74         3     no  northwest  7281.5056
8   37    male  29.83         2     no  northeast  6406.4107
El promedio de edad es de 39.78 años por paciente con al menos 1 hijo.
