In [2]:
import pandas as pd
import numpy as np

In [3]:
df = pd.read_csv("data/insurance.csv")

In [6]:
#Primeiras linhas
df.head()

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
0,19,female,27.9,0,yes,southwest,16884.924
1,18,male,33.77,1,no,southeast,1725.5523
2,28,male,33.0,3,no,southeast,4449.462
3,33,male,22.705,0,no,northwest,21984.47061
4,32,male,28.88,0,no,northwest,3866.8552


In [7]:
#Últimas linhas
df.tail()

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
1333,50,male,30.97,3,no,northwest,10600.5483
1334,18,female,31.92,0,no,northeast,2205.9808
1335,18,female,36.85,0,no,southeast,1629.8335
1336,21,female,25.8,0,no,southwest,2007.945
1337,61,female,29.07,0,yes,northwest,29141.3603


In [10]:
#Memória e valores nulos
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1338 entries, 0 to 1337
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   age       1338 non-null   int64  
 1   sex       1338 non-null   object 
 2   bmi       1338 non-null   float64
 3   children  1338 non-null   int64  
 4   smoker    1338 non-null   object 
 5   region    1338 non-null   object 
 6   charges   1338 non-null   float64
dtypes: float64(2), int64(2), object(3)
memory usage: 73.3+ KB


Nenhum valor nulo presente no dataset
Memória: 73,3Kb

In [11]:
#Estatísticas descritivas
df.describe()

Unnamed: 0,age,bmi,children,charges
count,1338.0,1338.0,1338.0,1338.0
mean,39.207025,30.663397,1.094918,13270.422265
std,14.04996,6.098187,1.205493,12110.011237
min,18.0,15.96,0.0,1121.8739
25%,27.0,26.29625,0.0,4740.28715
50%,39.0,30.4,1.0,9382.033
75%,51.0,34.69375,2.0,16639.912515
max,64.0,53.13,5.0,63770.42801


Mediana de BMI: 30.4
Média de BMI: 30.6

A média é ligeiramente maior que a mediana, isso pode significar que os dados não possuem assimetria(?)

Correção: Se a média é maior que a mediana, isso pode indicar assimetria à direita. Nesse caso, os dados são quase simétricos, mas ainda possuem uma leve assimetria à direita.

### Regras rápidas:

- Média ≈ Mediana → distribuição aproximadamente simétrica.

- Média > Mediana → cauda longa à direita (assimetria positiva).

- Média < Mediana → cauda longa à esquerda (assimetria negativa).

In [13]:
#Proporção de fumantes
df['smoker'].value_counts(normalize = True)

smoker
no     0.795217
yes    0.204783
Name: proportion, dtype: float64

In [17]:
#Diferença de cobrança para fumantes
df.groupby('smoker')['charges'].mean()

smoker
no      8434.268298
yes    32050.231832
Name: charges, dtype: float64

Média de cobrança consideravelmente maior entre fumantes. Considerando que as cobranças são referentes a seguros médicos, é esperado que os custos relativos a fumantes sejam maiores.

In [18]:
#Média de BMI entre fumantes e não fumantes.
df.groupby('smoker')['bmi'].mean()

smoker
no     30.651795
yes    30.708449
Name: bmi, dtype: float64

A média do índice de massa corporal (BMI) é ligeiramente mais alta entre fumantes, o que pode indicar que estes sejam mais sedentários.

Entretanto, a média de ambos estão na faixa de obesidade(>30).

In [23]:
#Média de cobrança por quantidade de filhos (0 ou >1)

media_sem_filho = df.loc[df['children'] == 0, 'charges'].mean()

media_com_filho = df.loc[df['children'] > 0, 'charges'].mean()

print(f'''
Filhos
0 : {media_sem_filho}
> 1: {media_com_filho}

''')


Filhos
0 : 12365.97560163589
> 1: 13949.941093481675




Para segurados com filhos, há uma média de cobrança consideravelmente maior.

In [31]:
#Classificação por BMI para homens

df['bmi_male'] = np.where(
    df['sex'] == 'male',
    df['bmi'],
    np.nan
)

df['bmi_male'] = df['bmi_male'].apply(
    lambda x: np.nan if pd.isna(x) else
                    'abaixo do normal' if x < 20 else
                    'normal' if 20 <= x < 24.9 else
                    'acima do normal'
                    )

df.head()

Unnamed: 0,age,sex,bmi,children,smoker,region,charges,bmi_male
0,19,female,27.9,0,yes,southwest,16884.924,
1,18,male,33.77,1,no,southeast,1725.5523,acima do normal
2,28,male,33.0,3,no,southeast,4449.462,acima do normal
3,33,male,22.705,0,no,northwest,21984.47061,normal
4,32,male,28.88,0,no,northwest,3866.8552,acima do normal


In [38]:
#Quantidade de homens fumantes e com BMI acima do normal
qnt_indicador = df.loc[((df['smoker'] == 'yes') & (df['sex'] == 'male') & (df['bmi_male'] == 'acima do normal'))].shape[0]

print(f'Na categoria de homens, fumantes e com BMI acima do normal, temos um total de {indicador} indivíduos.')

Na categoria de homens, fumantes e com BMI acima do normal, temos um total de 136 indivíduos.
