# Portfolio Project: U.S. Medical Insurance 

Datos y cifras:
  - Desde 1975, la obesidad se ha casi triplicado en todo el mundo.
  - En 2016, más de 1900 millones de adultos de 18 o más años tenían sobrepeso, de los cuales, más de 650 millones eran obesos.
  - En 2016, el 39% de las personas adultas de 18 o más años tenían sobrepeso, y el 13% eran obesas.
  - La mayoría de la población mundial vive en países donde el sobrepeso y la obesidad se cobran más vidas de personas que la insuficiencia ponderal.
  - En 2016, 41 millones de niños menores de cinco años tenían sobrepeso o eran obesos. 
  - En 2016 había más de 340 millones de niños y adolescentes (de 5 a 19 años) con sobrepeso u obesidad. 
  - La obesidad puede prevenirse.
  - El tabaco mata hasta a la mitad de las personas que lo consumen.
  - Cada año, más de 8 millones de personas fallecen a causa del tabaco. Más de 7 millones de estas defunciones se deben al consumo directo de tabaco y alrededor de 1,2 millones son consecuencia de la exposición de no fumadores al humo ajeno.
  - Más del 80% de los 1300 millones de consumidores de tabaco que hay en el mundo viven en países de ingresos medianos o bajos.
  - En 2020, el 22,3% de la población mundial consumía tabaco, concretamente el 36,7% de todos los hombres y el 7,8% de las mujeres del mundo.
  - Para hacer frente a la epidemia de tabaquismo, los Estados Miembros de la OMS adoptaron en 2003 el Convenio Marco de la OMS para el Control del Tabaco (CMCT de la OMS), tratado que actualmente han ratificado 182 países.

Referencia: 
 - Temas de salud. (s. f.). https://www.who.int/es/health-topics


In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
import statsmodels
import matplotlib.pyplot as plt
import math
import statistics as stat

In [2]:
insurance = pd.read_csv("insurance.csv")

In [3]:
print(insurance.head())

  age     sex     bmi  children smoker     region      charges
0  19  female  27.900       0.0    yes  southwest  16884.92400
1  18    male  33.770       1.0     no  southeast   1725.55230
2  28    male  33.000       3.0     no  southeast   4449.46200
3  33    male  22.705       0.0     no  northwest  21984.47061
4  32    male  28.880       0.0     no  northwest   3866.85520


El dataframe cuenta con 4 variables cuantitativas y 3 varibles cualitativas.

 - Cuantitativas.
  - Age : discreta.
  - BMI : continua.
  - Children : discreta.
  - Charges : continua.

 - Cualitativas:
  - Sex : binaria.
  - Smoker : binaria.
  - Region : nominal.


#### Revisión de tipos de variables y estadísticas.

In [4]:
insurance.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1339 entries, 0 to 1338
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   age       1339 non-null   object 
 1   sex       1338 non-null   object 
 2   bmi       1338 non-null   float64
 3   children  1338 non-null   float64
 4   smoker    1338 non-null   object 
 5   region    1338 non-null   object 
 6   charges   1338 non-null   float64
dtypes: float64(3), object(4)
memory usage: 73.4+ KB


In [5]:
describe = insurance.describe()

.describe() permite visualizar las caracteristícas estadisticas de las variables númericas:
- Número de observaciones.
- Media.
- Desviación estándar.
- Mínino y máximo.
- Percentiles 25, 52(mediana) y 75.


In [6]:
x = []
valores = {}
valores_list = []
for i in describe.columns:
    x.append(i)
    for j in range(0, len(describe)):
        valores.update({
            describe.index[j]:describe[i][j]
        })
    valores_list.append(valores)
    valores = {}

D = dict(zip(x, valores_list))

##### Resumen de estadísticas.
Edades:

In [7]:
print("Información estadística de edades: \n\n"
      "Media: " + str(D["age"]["mean"]) +"\n" 
      "Desviación estándar: " +str(D["age"]["std"]) + "\n" 
      "Valor mínimo: " + str(D["age"]["min"]) +"\n"
      "Percentil 25: " + str(D["age"]["25%"]) +"\n"
      "Percentil 50 ó mediana: " + str(D["age"]["50%"]) +"\n"
      "Percentil 75: " + str(D["age"]["75%"]) +"\n"
      "Valor máximo: " + str(D["age"]["max"]) +"\n"
      "Moda: " + str(stat.mode(insurance.age))
     )

KeyError: 'age'

Índice de masa corporal.

In [None]:
print("Información estadística de índice de masa corporal: \n\n"
      "Media: " + str(D["bmi"]["mean"]) +"\n" 
      "Desviación estándar: " +str(D["bmi"]["std"]) + "\n" 
      "Valor mínimo: " + str(D["bmi"]["min"]) +"\n"
      "Percentil 25: " + str(D["bmi"]["25%"]) +"\n"
      "Percentil 50 ó mediana: " + str(D["bmi"]["50%"]) +"\n"
      "Percentil 75: " + str(D["bmi"]["75%"]) +"\n"
      "Valor máximo: " + str(D["bmi"]["max"]) +"\n"
      "Moda: " + str(stat.mode(insurance.bmi))
      
     )

Número de hijos.

In [None]:
print("Información estadística de número de hijos: \n\n"
      "Media: " + str(D["children"]["mean"]) +"\n" 
      "Desviación estándar: " +str(D["children"]["std"]) + "\n" 
      "Valor mínimo: " + str(D["children"]["min"]) +"\n"
      "Percentil 25: " + str(D["children"]["25%"]) +"\n"
      "Percentil 50 ó mediana: " + str(D["children"]["50%"]) +"\n"
      "Percentil 75: " + str(D["children"]["75%"]) +"\n"
      "Valor máximo: " + str(D["children"]["max"]) +"\n"
      "Moda: " + str(stat.mode(insurance.children))
     )

Cargos.

In [None]:
print("Información estadística de los costos de seguros médicos: \n\n"
      "Media: " + str(D["charges"]["mean"]) +"\n" 
      "Desviación estándar: " +str(D["charges"]["std"]) + "\n" 
      "Valor mínimo: " + str(D["charges"]["min"]) +"\n"
      "Percentil 25: " + str(D["charges"]["25%"]) +"\n"
      "Percentil 50 ó mediana: " + str(D["charges"]["50%"]) +"\n"
      "Percentil 75: " + str(D["charges"]["75%"]) +"\n"
      "Valor máximo: " + str(D["charges"]["max"]) +"\n"
      "Moda: " + str(stat.mode(insurance.charges))
     )

De la información de lo cargos se puede observar que tiene una valor máximo muy alejado de la media.
Con respecto a los valores en orden ascendente: moda, mediana y media se puede concluir que tal vez se trata de de una distribución sesgada a la derecha para confirmar esto se realizará un gráfico.

## Objetivos
- Encontrar qué variables son las más influenciables para que el costo del seguro médico tenga un precio alto (mayor a la media).
- Mostrar de una manera gráfica y entendible a todo tipo de público los resultados.

In [None]:
sns.histplot(insurance.charges)
plt.title('Charges')
plt.show()
plt.clf()

Analizando el precio de los seguros médicos; es una distribución sesgada a la derecha. Tiene outliers altos, se procede a analizar las variables que provocan ese alto precio.

In [None]:

def region_distribution(insurance):
    regions=[0,0,0,0]
    #regions = [Northwest,Northeast, Southwest, Southeast]
    for region in insurance["region"]:
        if region == "northwest":
            regions[0]+=1
        if region == "northeast":
            regions[1]+=1
        if region == "southwest":
            regions[2]+=1
        if region == "southeast":
            regions[3]+=1
    return [round(regions[i]*100/sum(regions),2) for i in range(0,len(regions))]


In [None]:
colors = ['red', 'cyan', 'gray', 'yellow']
region_names = ["Northwest","Northeast","Southwest","Southeast"]
plt.title("Regional distribution")
plt.pie(region_distribution(insurance), autopct='%.2f%%',colors=colors, radius = 1,
    explode = (0,0,0,0.1),shadow=True,labels=region_names)

plt.show()

In [None]:
sns.histplot(insurance.bmi)
plt.title('Charges')
plt.show()
plt.clf()

El BMI tiene una distribución normal, de acuerdo a los valores obtenidos anteriormente: moda, mediana y media tienden a tener el mismo valor. Se puede concluir del grafico anterior que un poco menos del 50% de la población del dataframe tiene un BMI menor a 30 y el resto mayor a 30.



![image-2.png](attachment:image-2.png)


In [None]:
def bmi_levels(df):
    level_bmi = [0,0,0,0,0,0]
    #level_bmi=[under_weight,normal_weight,over_weight,Obese_ClassI,Obese_ClassII,Obese_ClassIII]
    for bmi in df['bmi']:
        if bmi<18.5:
            level_bmi[0]+=1
        elif bmi<24.9:
            level_bmi[1]+=1
        elif bmi<29.9:
            level_bmi[2]+=1
        elif bmi<34.9:
            level_bmi[3]+=1
        elif bmi<39.9:
            level_bmi[4]+=1
        elif bmi>=40:
            level_bmi[5]+=1
    return [round(bmi*100/sum(level_bmi)) for bmi in level_bmi]



In [None]:
bmi_group_names = ["Under_weight","Normal_weight","Over_weight","Obese_ClassI","Obese_ClassII","Obese_ClassIII"]
plt.title('BMI groups')
plt.pie(bmi_levels(insurance), autopct='%.2f%%', radius = 1.2,
    explode = (0,0,0.1,0.1,0,0),shadow=True,labels=bmi_group_names, colors = ['skyblue','darkblue','green','crimson','beige','dimgray'])
plt.show()

In [None]:
insurance.groupby("bmi")["charges"].describe().sort_values("max",ascending=False)

In [None]:
x = np.arange(len(bmi_group_names))
x1 = [i+0.15 for i in x]
x2 = [i-0.15 for i in x]
df_male = insurance[insurance.sex=='male']
df_female = insurance[insurance.sex=='female']
y1 = bmi_levels(df_male)
y2 = bmi_levels(df_female)
width = 0.3
fig, ax = plt.subplots()
ax.bar(x1, y1, width, label='male')
ax.bar(x2, y2, width, label='female')
ax.set_title('Distribution of male and female in BMI groups')
ax.set_xticks(x)
ax.set_xticklabels(bmi_group_names, rotation = 60)
ax.legend()

De acuerdo a la información anterior el 82% de la población tiene un problema de sobrepeso y obesidad pero aún con ello infiere con el costo del seguro médico pero no es determinante. Por otro lado los hombres tienden a tener más obesidad que las mujeres.

In [None]:
sns.scatterplot(data=insurance, x="bmi", y="charges",hue ="smoker")

In [None]:
insurance.groupby("smoker")["charges"].describe()

In [None]:
insurance.groupby("sex")["charges"].describe()

Con la información anterior se puede concluir que tener un BMI alto y ser fumador, definitivamente aumenta el costo del seguro médico. Los hombres tienden a tener estas dos condiciones por lo cual la media de su seguro médico es mayor.

In [None]:
inf_chil = insurance.groupby("children")["charges"].describe()
plt.title("Average price with respect to the number of children.")
plt.bar(range(len(insurance.children.unique())),inf_chil["mean"])

Las personas que cuentan con 2 ó 3 hijos tienen un seguro de vida un poco más costoso pero no es una variable, tan influyente como ser fumador.

In [None]:
insurance[(insurance.sex== "male")]

In [None]:
def similar_data(df): 
    for i in range(0,len(df)):
        df_i= df.iloc[i]
        df_new = df[(df.age==df_i.age) & (df.children==df_i.children) &
                (df.smoker == df_i.smoker) & (df.sex == df_i.sex) & 
                (df.region == df_i.region) ]
        print(df_new)
        
similar_data(insurance)

El código anterior nos permite ver las observaciones que tienen datos similares de lo cual surge un comentario:

![Captura%20de%20pantalla%202023-03-13%20174917.png](attachment:Captura%20de%20pantalla%202023-03-13%20174917.png)

Aquí se tiene la misma edad, mismo genero, BMI similar, 0 número de hijos, no son fumadoras y pertenecen a la misma región; con todo lo anterior se esperaría que el costo del seguro médico fuese similar pero es casí el triple. Hay que cotejar los datos del dataframe o puede que existan datos que no se estén proporcionando.

Como conclusión:
 - Los hombres tienden a tener un seguro médico más costoso que las mujeres.
 - Tener un BMI alto va ascendiendo con la edad lo que provoca un aumento en el costo.
 - Ser fumador aumenta notablemente el costo del seguro médico.
 - La región y el número de hijos no es una situación que afecte notablemente el costo.