# Análise Exploratória de Dados com Python

## Análise Univariada

O objetivo deste notebook é apresentar as principais funções em Python para conduzir uma análise univariada de dados, a saber:  
- Medidas Resumo
- Tabela de Frequência 

In [1]:
import pandas as pd
import numpy as np

In [2]:
pd.__version__

'2.1.4'

In [3]:
np.__version__

'1.26.4'

In [4]:
# Definir o número de casas decimais desejado
pd.set_option('display.float_format', '{:.2f}'.format)

### Contexto 
Suponha que você necessite fazer uma análise sobre a saúde dos funcionários de uma empresa. 
A base de dados disponível possui informações de funcionários de várias profissões e incluem dados de idade, atividade física, avaliação cardíaca, qualidade do sono, entre outras.

### Carregando dados
Referência: Adaptado de https://www.kaggle.com/datasets/uom190346a/sleep-health-and-lifestyle-dataset  
(Sob Licença CC0 - Domínio Público)

In [5]:
# Lendo os dados da planilha Excel
df = pd.read_excel('dados_sono_e_saude.xlsx')
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 374 entries, 0 to 373
Data columns (total 13 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   ID                         374 non-null    int64  
 1   Gênero                     374 non-null    object 
 2   Idade                      374 non-null    int64  
 3   Profissão                  374 non-null    object 
 4   Duração do sono            374 non-null    float64
 5   Qualidade do sono          374 non-null    int64  
 6   Nível de Atividade Física  374 non-null    int64  
 7   Nível de Stress            374 non-null    int64  
 8   Categoria IMC              374 non-null    object 
 9   Pressão Sanguínea          374 non-null    object 
 10  Batimento Cardíaco         374 non-null    int64  
 11  Passos diários             374 non-null    int64  
 12  Distúrbio do sono          374 non-null    object 
dtypes: float64(1), int64(7), object(5)
memory usage: 3

In [6]:
df.head(3)

Unnamed: 0,ID,Gênero,Idade,Profissão,Duração do sono,Qualidade do sono,Nível de Atividade Física,Nível de Stress,Categoria IMC,Pressão Sanguínea,Batimento Cardíaco,Passos diários,Distúrbio do sono
0,1,M,27,Engenheiro de Software,6.1,6,42,6,Sobrepeso,126/83,77,4200,-
1,2,M,28,Médico,6.2,6,60,8,Normal,125/80,75,10000,-
2,3,M,28,Médico,6.2,6,60,8,Normal,125/80,75,10000,-


### Medidas Resumo

#### Média

In [7]:
# com pandas
df['Idade'].mean()

42.18449197860963

In [8]:
# com numpy
np.mean(df['Idade'])

42.18449197860963

#### Mediana

In [9]:
# com pandas
df['Idade'].median()

43.0

In [10]:
# com numpy
np.median(df['Idade'])

43.0

#### Máximo e Mínimo

In [11]:
# com pandas - máximo
df['Idade'].max()

59

In [12]:
# com pandas - mínimo
df['Idade'].min()

27

In [13]:
# com numpy - máximo
np.max(df['Idade'])

59

In [14]:
# com numpy - mínimo
np.min(df['Idade'])

27

#### Desvio Padrão

Desvio Padrão da População - supondo que a base de dados representa todos os funcionários da empresa

In [15]:
# com numpy - Desvio Padrão da População
np.std(df['Idade'])

8.661530606217873

In [16]:
# com pandas - Desvio Padrão da População
df['Idade'].std(ddof=0)

8.661530606217873

Desvio Padrão da Amostra - supondo que a base de dados não seja de todos os funcionários da empresa mas apenas de uma amostra

In [17]:
# com numpy - Desvio Padrão da Amostra
np.std(df['Idade'],ddof=1)

8.67313346554724

In [19]:
# com pandas - Desvio Padrão da Amostra
df['Idade'].std(ddof=1)
#df['Idade'].std()

8.67313346554724

#### Quartis, Percentis

In [20]:
# com pandas - 1o quartil
df['Idade'].quantile(.25)

35.25

In [21]:
# com pandas - percentil (1o. decil)
df['Idade'].quantile(.10)

31.0

In [22]:
# com numpy - 1o quartil
np.percentile(df['Idade'],25)

35.25

In [23]:
# com numpy - 1o quartil - outra forma
np.quantile(df['Idade'],.25)

35.25

In [24]:
# com numpy - 1o decil
np.percentile(df['Idade'],10)

31.0

#### Resumo das Medidas Resumo - Describe!

In [25]:
# apenas variáveis numéricas
df.describe()

Unnamed: 0,ID,Idade,Duração do sono,Qualidade do sono,Nível de Atividade Física,Nível de Stress,Batimento Cardíaco,Passos diários
count,374.0,374.0,374.0,374.0,374.0,374.0,374.0,374.0
mean,187.5,42.18,7.13,7.31,59.17,5.39,70.17,6816.84
std,108.11,8.67,0.8,1.2,20.83,1.77,4.14,1617.92
min,1.0,27.0,5.8,4.0,30.0,3.0,65.0,3000.0
25%,94.25,35.25,6.4,6.0,45.0,4.0,68.0,5600.0
50%,187.5,43.0,7.2,7.0,60.0,5.0,70.0,7000.0
75%,280.75,50.0,7.8,8.0,75.0,7.0,72.0,8000.0
max,374.0,59.0,8.5,9.0,90.0,8.0,86.0,10000.0


In [26]:
# para todos os tipos de dados
df.describe(include='all')

Unnamed: 0,ID,Gênero,Idade,Profissão,Duração do sono,Qualidade do sono,Nível de Atividade Física,Nível de Stress,Categoria IMC,Pressão Sanguínea,Batimento Cardíaco,Passos diários,Distúrbio do sono
count,374.0,374,374.0,374,374.0,374.0,374.0,374.0,374,374,374.0,374.0,374
unique,,2,,10,,,,,3,25,,,3
top,,M,,Enfermeiro,,,,,Normal,130/85,,,-
freq,,189,,73,,,,,216,99,,,220
mean,187.5,,42.18,,7.13,7.31,59.17,5.39,,,70.17,6816.84,
std,108.11,,8.67,,0.8,1.2,20.83,1.77,,,4.14,1617.92,
min,1.0,,27.0,,5.8,4.0,30.0,3.0,,,65.0,3000.0,
25%,94.25,,35.25,,6.4,6.0,45.0,4.0,,,68.0,5600.0,
50%,187.5,,43.0,,7.2,7.0,60.0,5.0,,,70.0,7000.0,
75%,280.75,,50.0,,7.8,8.0,75.0,7.0,,,72.0,8000.0,


### Tabela de Frequência

In [28]:
# com pandas
df['Profissão'].value_counts()

Profissão
Enfermeiro                73
Médico                    71
Engenheiro                63
Advogado                  47
Professor                 40
Contador                  37
Vendedor                  34
Engenheiro de Software     4
Cientista                  4
Manager                    1
Name: count, dtype: int64

#### Frequência Absoluta

In [29]:
# mesmo resultado com formatação
tabela_frequencia = df['Profissão'].value_counts().reset_index() 
tabela_frequencia.columns = ['Profissão', 'Frequência Absoluta']
tabela_frequencia

Unnamed: 0,Profissão,Frequência Absoluta
0,Enfermeiro,73
1,Médico,71
2,Engenheiro,63
3,Advogado,47
4,Professor,40
5,Contador,37
6,Vendedor,34
7,Engenheiro de Software,4
8,Cientista,4
9,Manager,1


#### Frequência Relativa

In [30]:
tabela_frequencia['Frequência Relativa']=tabela_frequencia['Frequência Absoluta']/tabela_frequencia['Frequência Absoluta'].sum()
tabela_frequencia

Unnamed: 0,Profissão,Frequência Absoluta,Frequência Relativa
0,Enfermeiro,73,0.2
1,Médico,71,0.19
2,Engenheiro,63,0.17
3,Advogado,47,0.13
4,Professor,40,0.11
5,Contador,37,0.1
6,Vendedor,34,0.09
7,Engenheiro de Software,4,0.01
8,Cientista,4,0.01
9,Manager,1,0.0


#### Frequência Acumulada

In [31]:
tabela_frequencia['Frequência Acumulada']=tabela_frequencia['Frequência Relativa'].cumsum()
tabela_frequencia

Unnamed: 0,Profissão,Frequência Absoluta,Frequência Relativa,Frequência Acumulada
0,Enfermeiro,73,0.2,0.2
1,Médico,71,0.19,0.39
2,Engenheiro,63,0.17,0.55
3,Advogado,47,0.13,0.68
4,Professor,40,0.11,0.79
5,Contador,37,0.1,0.89
6,Vendedor,34,0.09,0.98
7,Engenheiro de Software,4,0.01,0.99
8,Cientista,4,0.01,1.0
9,Manager,1,0.0,1.0


#### Frequência com Intervalos de Dados

In [32]:
tabela_frequencia_idade = df['Idade'].value_counts().reset_index() 
tabela_frequencia_idade.columns = ['Idade', 'Frequência Absoluta']
tabela_frequencia_idade

Unnamed: 0,Idade,Frequência Absoluta
0,43,34
1,44,30
2,37,20
3,38,20
4,50,20
5,31,18
6,32,17
7,53,17
8,59,16
9,39,15


In [35]:
df['Idade'].head()

0    27
1    28
2    28
3    28
4    28
Name: Idade, dtype: int64

In [33]:
# Nova coluna para intervalos de idades
df['Faixa Etaria'] = pd.Series(pd.cut(df['Idade'], 5,precision=0))
df['Faixa Etaria']

0      (27.0, 33.0]
1      (27.0, 33.0]
2      (27.0, 33.0]
3      (27.0, 33.0]
4      (27.0, 33.0]
           ...     
369    (53.0, 59.0]
370    (53.0, 59.0]
371    (53.0, 59.0]
372    (53.0, 59.0]
373    (53.0, 59.0]
Name: Faixa Etaria, Length: 374, dtype: category
Categories (5, interval[float64, right]): [(27.0, 33.0] < (33.0, 40.0] < (40.0, 46.0] < (46.0, 53.0] < (53.0, 59.0]]

In [36]:
# Frequencia Absoluta das faixas etárias
tabela_frequencia_faixa_etaria = df['Faixa Etaria'].value_counts().reset_index() 
tabela_frequencia_faixa_etaria.columns = ['Faixa Etaria', 'Frequência Absoluta']
tabela_frequencia_faixa_etaria

Unnamed: 0,Faixa Etaria,Frequência Absoluta
0,"(40.0, 46.0]",103
1,"(33.0, 40.0]",81
2,"(27.0, 33.0]",80
3,"(53.0, 59.0]",59
4,"(46.0, 53.0]",51


In [38]:
# Frequencia Absoluta das faixas etárias - ordenada por Faixa Etária
#tabela_frequencia_faixa_etaria.sort_values(by='Faixa Etaria', inplace=True)
tabela_frequencia_faixa_etaria = tabela_frequencia_faixa_etaria.sort_values(by='Faixa Etaria')
tabela_frequencia_faixa_etaria

Unnamed: 0,Faixa Etaria,Frequência Absoluta
2,"(27.0, 33.0]",80
1,"(33.0, 40.0]",81
0,"(40.0, 46.0]",103
4,"(46.0, 53.0]",51
3,"(53.0, 59.0]",59


In [39]:
# Frequencia Relativa das faixas etárias
tabela_frequencia_faixa_etaria['Frequência Relativa']=tabela_frequencia_faixa_etaria['Frequência Absoluta']/tabela_frequencia_faixa_etaria['Frequência Absoluta'].sum()
tabela_frequencia_faixa_etaria

Unnamed: 0,Faixa Etaria,Frequência Absoluta,Frequência Relativa
2,"(27.0, 33.0]",80,0.21
1,"(33.0, 40.0]",81,0.22
0,"(40.0, 46.0]",103,0.28
4,"(46.0, 53.0]",51,0.14
3,"(53.0, 59.0]",59,0.16


In [40]:
# Frequencia Acumulada das faixas etárias
tabela_frequencia_faixa_etaria['Frequência Acumulada']=tabela_frequencia_faixa_etaria['Frequência Relativa'].cumsum()
tabela_frequencia_faixa_etaria

Unnamed: 0,Faixa Etaria,Frequência Absoluta,Frequência Relativa,Frequência Acumulada
2,"(27.0, 33.0]",80,0.21,0.21
1,"(33.0, 40.0]",81,0.22,0.43
0,"(40.0, 46.0]",103,0.28,0.71
4,"(46.0, 53.0]",51,0.14,0.84
3,"(53.0, 59.0]",59,0.16,1.0
