# Exercícios com Pandas

## Seguros de Saúde

In [2]:
import pandas as pd
import numpy as np

In [3]:
df = pd.read_csv("data/insurance.csv")

In [6]:
#Primeiras linhas
df.head()

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
0,19,female,27.9,0,yes,southwest,16884.924
1,18,male,33.77,1,no,southeast,1725.5523
2,28,male,33.0,3,no,southeast,4449.462
3,33,male,22.705,0,no,northwest,21984.47061
4,32,male,28.88,0,no,northwest,3866.8552


In [7]:
#Últimas linhas
df.tail()

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
1333,50,male,30.97,3,no,northwest,10600.5483
1334,18,female,31.92,0,no,northeast,2205.9808
1335,18,female,36.85,0,no,southeast,1629.8335
1336,21,female,25.8,0,no,southwest,2007.945
1337,61,female,29.07,0,yes,northwest,29141.3603


In [10]:
#Memória e valores nulos
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1338 entries, 0 to 1337
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   age       1338 non-null   int64  
 1   sex       1338 non-null   object 
 2   bmi       1338 non-null   float64
 3   children  1338 non-null   int64  
 4   smoker    1338 non-null   object 
 5   region    1338 non-null   object 
 6   charges   1338 non-null   float64
dtypes: float64(2), int64(2), object(3)
memory usage: 73.3+ KB


Nenhum valor nulo presente no dataset
Memória: 73,3Kb

In [11]:
#Estatísticas descritivas
df.describe()

Unnamed: 0,age,bmi,children,charges
count,1338.0,1338.0,1338.0,1338.0
mean,39.207025,30.663397,1.094918,13270.422265
std,14.04996,6.098187,1.205493,12110.011237
min,18.0,15.96,0.0,1121.8739
25%,27.0,26.29625,0.0,4740.28715
50%,39.0,30.4,1.0,9382.033
75%,51.0,34.69375,2.0,16639.912515
max,64.0,53.13,5.0,63770.42801


Mediana de BMI: 30.4
Média de BMI: 30.6

A média é ligeiramente maior que a mediana, isso pode significar que os dados não possuem assimetria(?)

Correção: Se a média é maior que a mediana, isso pode indicar assimetria à direita. Nesse caso, os dados são quase simétricos, mas ainda possuem uma leve assimetria à direita.

### Regras rápidas:

- Média ≈ Mediana → distribuição aproximadamente simétrica.

- Média > Mediana → cauda longa à direita (assimetria positiva).

- Média < Mediana → cauda longa à esquerda (assimetria negativa).

In [13]:
#Proporção de fumantes
df['smoker'].value_counts(normalize = True)

smoker
no     0.795217
yes    0.204783
Name: proportion, dtype: float64

In [17]:
#Diferença de cobrança para fumantes
df.groupby('smoker')['charges'].mean()

smoker
no      8434.268298
yes    32050.231832
Name: charges, dtype: float64

Média de cobrança consideravelmente maior entre fumantes. Considerando que as cobranças são referentes a seguros médicos, é esperado que os custos relativos a fumantes sejam maiores.

In [18]:
#Média de BMI entre fumantes e não fumantes.
df.groupby('smoker')['bmi'].mean()

smoker
no     30.651795
yes    30.708449
Name: bmi, dtype: float64

A média do índice de massa corporal (BMI) é ligeiramente mais alta entre fumantes, o que pode indicar que estes sejam mais sedentários.

Entretanto, a média de ambos estão na faixa de obesidade(>30).

In [23]:
#Média de cobrança por quantidade de filhos (0 ou >1)

media_sem_filho = df.loc[df['children'] == 0, 'charges'].mean()

media_com_filho = df.loc[df['children'] > 0, 'charges'].mean()

print(f'''
Filhos
0 : {media_sem_filho}
> 1: {media_com_filho}

''')


Filhos
0 : 12365.97560163589
> 1: 13949.941093481675




Para segurados com filhos, há uma média de cobrança consideravelmente maior.

In [31]:
#Classificação por BMI para homens

df['bmi_male'] = np.where(
    df['sex'] == 'male',
    df['bmi'],
    np.nan
)

df['bmi_male'] = df['bmi_male'].apply(
    lambda x: np.nan if pd.isna(x) else
                    'abaixo do normal' if x < 20 else
                    'normal' if 20 <= x < 24.9 else
                    'acima do normal'
                    )

df.head()

Unnamed: 0,age,sex,bmi,children,smoker,region,charges,bmi_male
0,19,female,27.9,0,yes,southwest,16884.924,
1,18,male,33.77,1,no,southeast,1725.5523,acima do normal
2,28,male,33.0,3,no,southeast,4449.462,acima do normal
3,33,male,22.705,0,no,northwest,21984.47061,normal
4,32,male,28.88,0,no,northwest,3866.8552,acima do normal


In [38]:
#Quantidade de homens fumantes e com BMI acima do normal
qnt_indicador = df.loc[((df['smoker'] == 'yes') & (df['sex'] == 'male') & (df['bmi_male'] == 'acima do normal'))].shape[0]

print(f'Na categoria de homens, fumantes e com BMI acima do normal, temos um total de {indicador} indivíduos.')

Na categoria de homens, fumantes e com BMI acima do normal, temos um total de 136 indivíduos.


## Incêndios Florestais

In [40]:
df_2 = pd.read_csv("data/amazon.csv", encoding ="latin1")

In [44]:
df_2.head()

Unnamed: 0,year,state,month,number,date
0,1998,Acre,Janeiro,0.0,1998-01-01
1,1999,Acre,Janeiro,0.0,1999-01-01
2,2000,Acre,Janeiro,0.0,2000-01-01
3,2001,Acre,Janeiro,0.0,2001-01-01
4,2002,Acre,Janeiro,0.0,2002-01-01


In [83]:
df_2['state'].unique()

array(['Acre', 'Alagoas', 'Amapa', 'Amazonas', 'Bahia', 'Ceara',
       'Distrito Federal', 'Espirito Santo', 'Goias', 'Maranhao',
       'Mato Grosso', 'Minas Gerais', 'Pará', 'Paraiba', 'Pernambuco',
       'Piau', 'Rio', 'Rondonia', 'Roraima', 'Santa Catarina',
       'Sao Paulo', 'Sergipe', 'Tocantins'], dtype=object)

In [42]:
print(f"Esse dataset contém um total de {df_2.shape[0]} linhas e {df_2.shape[1]} colunas.")

Esse dataset contém um total de 6454 linhas e 5 colunas.


- Selecionar linhas 100 a 120, coluna 2,3,4 usando loc e iloc

In [55]:
df_2.loc[100:120, ['state', 'month', 'number']]

Unnamed: 0,state,month,number
100,Acre,Junho,3.0
101,Acre,Junho,0.0
102,Acre,Junho,1.0
103,Acre,Junho,1.0
104,Acre,Junho,0.0
105,Acre,Junho,0.0
106,Acre,Junho,5.0
107,Acre,Junho,27.0
108,Acre,Junho,1.0
109,Acre,Junho,4.0


In [53]:
#iloc não considera o último índice
df_2.iloc[100:121, [1, 2, 3]]

Unnamed: 0,state,month,number
100,Acre,Junho,3.0
101,Acre,Junho,0.0
102,Acre,Junho,1.0
103,Acre,Junho,1.0
104,Acre,Junho,0.0
105,Acre,Junho,0.0
106,Acre,Junho,5.0
107,Acre,Junho,27.0
108,Acre,Junho,1.0
109,Acre,Junho,4.0


In [62]:
# Total de incêndios no Brasil no ano de 2010

df_2.loc[(df_2['year'] == 2010), 'number'].sum()

37037.449

In [64]:
# Total de incêndios no Mato Grosso no ano de 2010

df_2.loc[(df_2['state'] == 'Mato Grosso') & (df_2['year'] == 2010), 'number' ].sum()

6252.445

In [72]:
# Média de incêndios por mês no Acre
acre = df_2[df_2['state'] == 'Acre']

acre.groupby('month')['number'].mean()

month
Abril          2.050000
Agosto       319.651700
Dezembro       2.473684
Fevereiro      0.950000
Janeiro        2.000000
Julho        114.800000
Junho         12.850000
Maio           4.050000
Março          1.150000
Novembro      35.400000
Outubro      362.325400
Setembro      65.624400
Name: number, dtype: float64

In [70]:
# Desvio padrão
acre.groupby('month')['number'].std()

month
Abril          4.334379
Agosto       336.205557
Dezembro       2.893833
Fevereiro      1.637553
Janeiro        4.142209
Julho        153.931837
Junho         21.976722
Maio           5.114222
Março          2.497894
Novembro      36.864474
Outubro      265.668310
Setembro     139.748975
Name: number, dtype: float64

In [89]:
# Média de incêndios por estado

media_mensal_estado = df_2.groupby(['state', 'month'])['number'].mean()

media_por_estado = media_mensal_estado.groupby('state').mean()

media_por_estado.head(30)

state
Acre                 76.943765
Alagoas              19.376284
Amapa                91.952619
Amazonas            128.196590
Bahia               187.442479
Ceara               127.935171
Distrito Federal     14.838596
Espirito Santo       27.327412
Goias               157.285500
Maranhao            104.887538
Mato Grosso         201.345319
Minas Gerais        156.582654
Paraiba             109.704434
Pará                102.614267
Pernambuco          102.807456
Piau                159.057279
Rio                  62.994850
Rondonia             84.867577
Roraima             102.125747
Santa Catarina      101.672410
Sao Paulo           213.226264
Sergipe              13.603070
Tocantins           140.789214
Name: number, dtype: float64

In [88]:
print(f"O estado com maior média mensal é {media_por_estado.idxmax()}, com uma média de {media_por_estado.max():.2f} incêndios por mês")
print(f"O estado com menor média mensal é {media_por_estado.idxmin()}, com uma média de {media_por_estado.min():.2f} incêndios por mês")

O estado com maior média mensal é Sao Paulo, com uma média de 213.23 incêndios por mês
O estado com menor média mensal é Sergipe, com uma média de 13.60 incêndios por mês


In [93]:
#Criando coluna sudeste

df_2['regiao_sudeste'] = np.where(
    df_2['state'].isin(['Rio', 'Sao Paulo', 'Minas Gerais', 'Espirito Santo']),
    1,
    0
)

In [94]:
#Criando coluna centro-oeste

df_2['regiao_centro-oeste'] = np.where(
    df_2['state'].isin(['Mato Grosso', 'Distrito Federal', 'Goias']),
    1,
    0
)

In [95]:
df_2.head(10)

Unnamed: 0,year,state,month,number,date,regiao_sudeste,regiao_centro-oeste
0,1998,Acre,Janeiro,0.0,1998-01-01,0,0
1,1999,Acre,Janeiro,0.0,1999-01-01,0,0
2,2000,Acre,Janeiro,0.0,2000-01-01,0,0
3,2001,Acre,Janeiro,0.0,2001-01-01,0,0
4,2002,Acre,Janeiro,0.0,2002-01-01,0,0
5,2003,Acre,Janeiro,10.0,2003-01-01,0,0
6,2004,Acre,Janeiro,0.0,2004-01-01,0,0
7,2005,Acre,Janeiro,12.0,2005-01-01,0,0
8,2006,Acre,Janeiro,4.0,2006-01-01,0,0
9,2007,Acre,Janeiro,0.0,2007-01-01,0,0


In [103]:
#Incêndios por região
incendios_CO = df_2.loc[df_2['regiao_centro-oeste'] == 1, 'number']
incendios_SUD = df_2.loc[df_2['regiao_sudeste'] == 1, 'number']

In [109]:
print(f"Total de incêndios no Sudeste: {incendios_SUD.sum():.2f}")
print(f"Total de incêndios no Centro-Oeste: {incendios_CO.sum():.2f}")

print(f"\nSudeste apresenta mais incêndios no total por um diferença de {incendios_SUD.sum() - incendios_CO.sum():.2f}")

Total de incêndios no Sudeste: 140303.32
Total de incêndios no Centro-Oeste: 137502.55

Sudeste apresenta mais incêndios no total por um diferença de 2800.77


Essa diferença pode ser devida à maior densidade populacional e atividade econômica/industrial mais intensa na região Sudeste.