<head>
  <meta name="author" content="Rogério de Oliveira">
  <meta institution="author" content="ITM">
</head>

<img src="https://maua.br/images/selo-60-anos-maua.svg" width=300, align="right">
<!-- <h1 align=left><font size = 6, style="color:rgb(200,0,0)"> optional title </font></h1> -->


# Lab: Seleção de Dados em Pandas

Referências e Materiais úteis para este Lab:

- [Notas de Aula](https://colab.research.google.com/github/Rogerio-mack/IMT_Ciencia_de_Dados/blob/main/IMT_Pandas_I.ipynb)
- [Pandas User Guide](https://pandas.pydata.org/docs/user_guide/index.html#user-guide)

---



In [1]:
import pandas as pd
import numpy as np

## **CASE Insurance**

Acesse a base de dados [`insurance`](https://github.com/Rogerio-mack/IMT_Ciencia_de_Dados/raw/main/data/insurance.csv) para as questões a seguir.



##### Q1. Acesse os dados explore a estrutura básica dos dados de `insurance`.

> * Qual o número de caso de seguro?
> * Quantos atributos são numéricos?
> * Há quantos valores diferentes para região?
> * Qual a maior quantidade de filhos?

In [2]:
df = pd.read_csv('https://github.com/Rogerio-mack/IMT_Ciencia_de_Dados/raw/main/data/insurance.csv')
df.head()

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
0,19,female,27.9,0,yes,southwest,16884.924
1,18,male,33.77,1,no,southeast,1725.5523
2,28,male,33.0,3,no,southeast,4449.462
3,33,male,22.705,0,no,northwest,21984.47061
4,32,male,28.88,0,no,northwest,3866.8552


In [23]:
print(f"> * Qual o número de caso de seguro? {len(df)} ou {df.shape[0]}")
print(f"> * Quantos atributos são numéricos?" )
print(df.dtypes)
print(f"> * Há quantos valores diferentes para região? {df.region.unique()}")
# print(df.describe(include='all'))
print(f"> * Qual a maior quantidade de filhos? {df.children.max()}")

> * Qual o número de caso de seguro? 1338 ou 1338
> * Quantos atributos são numéricos?
age           int64
sex          object
bmi         float64
children      int64
smoker       object
region       object
charges     float64
dtype: object
> * Há quantos valores diferentes para região? ['southwest' 'southeast' 'northwest' 'northeast']
> * Qual a maior quantidade de filhos? 5


###### Gabarito

In [None]:
df.shape

(1338, 7)

In [None]:
df.columns.to_list()

['age', 'sex', 'bmi', 'children', 'smoker', 'region', 'charges']

In [15]:
df.dtypes

age           int64
sex          object
bmi         float64
children      int64
smoker       object
region       object
charges     float64
dtype: object

In [None]:
df.describe(include='all')

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
count,1338.0,1338,1338.0,1338.0,1338,1338,1338.0
unique,,2,,,2,4,
top,,male,,,no,southeast,
freq,,676,,,1064,364,
mean,39.207025,,30.663397,1.094918,,,13270.422265
std,14.04996,,6.098187,1.205493,,,12110.011237
min,18.0,,15.96,0.0,,,1121.8739
25%,27.0,,26.29625,0.0,,,4740.28715
50%,39.0,,30.4,1.0,,,9382.033
75%,51.0,,34.69375,2.0,,,16639.912515


##### Q2. Qual a quantidade de casos por região?

In [28]:
df.groupby("region")[["region"]].count()

Unnamed: 0_level_0,region
region,Unnamed: 1_level_1
northeast,324
northwest,325
southeast,364
southwest,325


###### gabarito

In [None]:
df.region.value_counts()

southeast    364
southwest    325
northwest    325
northeast    324
Name: region, dtype: int64

##### Q3. Qual a média dos pagamentos (charges) efetuados?

In [29]:
df["charges"].mean()

13270.422265141257

###### gabarito

In [None]:
print( f'Média de pagamentos efetuados {df.charges.mean():.2f}' )

Média de pagamentos efetuados 13270.42


##### Q4. Qual a média dos pagamentos (charges) dos 10 maiores pagamentos efetuados?

In [30]:
top10 = df.nlargest(10,'charges')
print( f'Média dos 10 maiores pagamentos efetuados {top10.charges.mean():.2f}' )

Média dos 10 maiores pagamentos efetuados 55130.96


##### Q5. Calcule a distância interquartis dos pagamentos.

**Dica** Empregue a função `quantile()` do `Pandas` e use IQR = Q3 - Q1.



In [31]:
IQR = df.charges.quantile(0.75) - df.charges.quantile(0.25)
IQR

11899.625365

##### Q6. Empregue o valor IQR da questão anterior para verificar se existem *outliers* dos pagamentos.

**Dica** *outliers* são dados fora do intervalo $[Q1 - 1.5 IQR, Q3 + 1.5 IQR]$

In [32]:
inf = df.charges.quantile(0.25) - 1.5 * IQR
sup = df.charges.quantile(0.75) + 1.5 * IQR
print(inf, sup)

-13109.1508975 34489.350562499996


In [33]:
df.charges.describe()

count     1338.000000
mean     13270.422265
std      12110.011237
min       1121.873900
25%       4740.287150
50%       9382.033000
75%      16639.912515
max      63770.428010
Name: charges, dtype: float64

In [34]:
sum(df.charges < inf)

0

In [35]:
sum(df.charges > sup)

139

In [36]:
sum(df.charges < inf) + sum(df.charges > sup)

139

##### Q7. Qual a média dos pagamentos efetuados para os 10 casos com menor idade dos segurados? Aqui, empregue a função `nsmallest()`.

In [37]:
less10 = df.nsmallest(10,'age')
less10.charges.mean()

11968.654240000002

##### Q8. Revise a questão anterior. De fato calculamos a média de *todos* os seguros de indivíduos com idade entre as 10 menores idades?

**Dica** Verifique quantos indivíduos há com a menor idade

In [38]:
df.age.value_counts()

18    69
19    68
50    29
51    29
47    29
46    29
45    29
20    29
48    29
52    29
22    28
49    28
54    28
53    28
21    28
26    28
24    28
25    28
28    28
27    28
23    28
43    27
29    27
30    27
41    27
42    27
44    27
31    27
40    27
32    26
33    26
56    26
34    26
55    26
57    26
37    25
59    25
58    25
36    25
38    25
35    25
39    25
61    23
60    23
63    23
62    23
64    22
Name: age, dtype: int64

Existem 69 indivíduos com a menor idade (18 anos) e o cálculo dos valores para as 10 menores idades deveria considerar esses 69 valores.

Aprenderemos depois como fazer essa seleção de dados.