<head>
  <meta name="author" content="Rogério de Oliveira">
  <meta institution="author" content="ITM">
</head>

<img src="https://maua.br/images/selo-60-anos-maua.svg" width=300, align="right">
<!-- <h1 align=left><font size = 6, style="color:rgb(200,0,0)"> optional title </font></h1> -->


# Lab: Seleção de Dados em Pandas 

Referências e Materiais úteis para este Lab:

- [Notas de Aula](https://colab.research.google.com/github/Rogerio-mack/IMT_Ciencia_de_Dados/blob/main/IMT_Pandas_I.ipynb)
- [Pandas User Guide](https://pandas.pydata.org/docs/user_guide/index.html#user-guide)

---



## **CASE Insurance** 

Acesse a base de dados [`insurance`](https://github.com/Rogerio-mack/IMT_Ciencia_de_Dados/raw/main/data/insurance.csv) para as questões a seguir.



In [None]:
import pandas as pd
import numpy as np

##### Q1. Acesse os dados explore a estrutura básica dos dados de `insurance`.

> * Qual o número de caso de seguro? 
> * Quantos atributos são numéricos? 
> * Há quantos valores diferentes para região? 
> * Qual a maior quantidade de filhos? 

In [None]:
insur = pd.read_csv('https://github.com/Rogerio-mack/IMT_Ciencia_de_Dados/raw/main/data/insurance.csv')
insur

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
0,19,female,27.900,0,yes,southwest,16884.92400
1,18,male,33.770,1,no,southeast,1725.55230
2,28,male,33.000,3,no,southeast,4449.46200
3,33,male,22.705,0,no,northwest,21984.47061
4,32,male,28.880,0,no,northwest,3866.85520
...,...,...,...,...,...,...,...
1333,50,male,30.970,3,no,northwest,10600.54830
1334,18,female,31.920,0,no,northeast,2205.98080
1335,18,female,36.850,0,no,southeast,1629.83350
1336,21,female,25.800,0,no,southwest,2007.94500


In [None]:
#Qual o número de casos de seguro?
print(f'Num de casos: {len(insur)}')
#Quantos atributos são numéricos?

print('Attrs numericos: 4')
insur.dtypes
#Há quantos valores diferentes para região?
d = len(insur['region'].unique())
print(f'Num regioes: {d}')

#Qual a maior quantidade de filhos?
m = insur['children'].max()
print(f'Max filhos: {m}')
print('\n')
insur.dtypes

Num de casos: 1338
Attrs numericos: 4
Num regioes: 4
Max filhos: 5




age           int64
sex          object
bmi         float64
children      int64
smoker       object
region       object
charges     float64
dtype: object

##### Q2. Qual a quantidade de casos por região?

In [None]:
insur['region'].value_counts()

southeast    364
southwest    325
northwest    325
northeast    324
Name: region, dtype: int64

##### Q3. Qual a média dos pagamentos (charges) efetuados?

In [None]:
insur.mean()

  insur.mean()


age            39.207025
bmi            30.663397
children        1.094918
charges     13270.422265
dtype: float64

##### Q4. Qual a média dos pagamentos (charges) dos 10 maiores pagamentos efetuados?

In [None]:
insur.sort_values('charges', ascending=False)['charges'].head(10).mean()

55130.961078

##### Q5. Calcule a distância interquartis dos pagamentos.

**Dica** Empregue a função `quantile()` do `Pandas` e use IQR = Q3 - Q1.



In [None]:
q1 = insur['charges'].quantile(q=0.25)
q3 = insur['charges'].quantile(q=0.75)
iqr = q3 - q1
print(iqr)

11899.625365


##### Q6. Empregue o valor IQR da questão anterior para verificar se existem *outliers* dos pagamentos.

**Dica** *outliers* são dados fora do intervalo $[Q1 - 1.5 IQR, Q3 + 1.5 IQR]$ 

In [None]:
insur[insur['charges'] > q3+1.5*iqr]

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
14,27,male,42.130,0,yes,southeast,39611.75770
19,30,male,35.300,0,yes,southwest,36837.46700
23,34,female,31.920,1,yes,northeast,37701.87680
29,31,male,36.300,2,yes,southwest,38711.00000
30,22,male,35.600,0,yes,southwest,35585.57600
...,...,...,...,...,...,...,...
1300,45,male,30.360,0,yes,southeast,62592.87309
1301,62,male,30.875,3,yes,northwest,46718.16325
1303,43,male,27.800,0,yes,southwest,37829.72420
1313,19,female,34.700,2,yes,southwest,36397.57600


##### Q7. Qual a média dos pagamentos efetuados para os 10 casos com menor idade dos segurados? Aqui, empregue a função `nsmallest()`.

In [None]:
insur.nsmallest(10, 'age')['charges'].mean()

11968.65424

##### Q8. Revise a questão anterior. De fato calculamos a média de *todos* os seguros de indivíduos com idade entre as 10 menores idades?

**Dica** Verifique quantos indivíduos há com a menor idade

In [None]:
insur[insur['age']==18]

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
1,18,male,33.770,1,no,southeast,1725.55230
22,18,male,34.100,0,no,southeast,1137.01100
31,18,female,26.315,0,no,northeast,2198.18985
46,18,female,38.665,2,no,northeast,3393.35635
50,18,female,35.625,0,no,northeast,2211.13075
...,...,...,...,...,...,...,...
1296,18,male,26.125,0,no,northeast,1708.92575
1315,18,male,28.310,1,no,northeast,11272.33139
1317,18,male,53.130,0,no,southeast,1163.46270
1334,18,female,31.920,0,no,northeast,2205.98080
