# ***Estatistica Descritiva com Pandas***

# **Carregando os dados**

In [None]:
import numpy as np
import pandas as pd

In [None]:
dfPoll = pd.read_csv('dataset.csv')

In [None]:
# lista os 5 primeiros registros do dataset
dfPoll.head()

Unnamed: 0,Qual sua idade?,Qual sua altura em metros?,Seu peso em kg.,Sexo?,Grau de escolaridade?,Em qual estado você nasceu?,Em quantos irmãos vocês são (contando contigo)?,"Quantos membros tem sua família? (Quantos moram contigo, ou 1 caso more sozinho)",Você trabalha/estuda atualmente?,Qual atividade realiza com mais frequência?
0,20,1.82,85,M,Ensino superior (completo ou incompleto),SP,3,5,trabalho e estudo,Cozinhar
1,25,1.72,64,M,Pós-graduação (completo ou incompleto),MS,5,1,estudo,Rede social
2,29,1.82,65,M,Pós-graduação (completo ou incompleto),SP,1,2,estudo,Ler livro
3,27,1.63,60,F,Pós-graduação (completo ou incompleto),MS,2,4,trabalho,Assistir TV
4,28,1.57,63,F,Ensino superior (completo ou incompleto),MS,2,3,estudo,Rede social


In [None]:
# observar o tamanho do dataset (dataframe)
# lista o número de linhas e o número de colunas
dfPoll.shape

(68, 10)

In [None]:
# alterar o nome das colunas do dataset
dfPoll.columns =['idade', 'altura_m', 'peso_kg', 'sexo', 'escolaridade', 'estado', 'qtde_irmaos_maisvoce', 'numero_familiares', 'trabalha_estuda', 'atividade_frequente']

In [None]:
# lista os 5 primeiros registros do dataset novamente
dfPoll.head()

Unnamed: 0,idade,altura_m,peso_kg,sexo,escolaridade,estado,qtde_irmaos_maisvoce,numero_familiares,trabalha_estuda,atividade_frequente
0,20,1.82,85,M,Ensino superior (completo ou incompleto),SP,3,5,trabalho e estudo,Cozinhar
1,25,1.72,64,M,Pós-graduação (completo ou incompleto),MS,5,1,estudo,Rede social
2,29,1.82,65,M,Pós-graduação (completo ou incompleto),SP,1,2,estudo,Ler livro
3,27,1.63,60,F,Pós-graduação (completo ou incompleto),MS,2,4,trabalho,Assistir TV
4,28,1.57,63,F,Ensino superior (completo ou incompleto),MS,2,3,estudo,Rede social


# **Tabela de Distribuição de Frequências com Pandas**

**Calculando a Frequência Absoluta**

In [None]:
#Contamos a frequência para cada valor da columa 'freq_activity'
dfPoll['atividade_frequente'].value_counts()

Unnamed: 0_level_0,count
atividade_frequente,Unnamed: 1_level_1
Rede social,20
Ler livro,15
Assistir TV,12
Jogar videogame,12
Cozinhar,6
Praticar esporte,3


In [None]:
#Para somar o total da coluna
sum(dfPoll['atividade_frequente'].value_counts())

68

In [None]:
# outra maneira de somar o total da coluna
dfPoll['atividade_frequente'].value_counts().sum()

68

**Calculando a Frequência Relativa**

In [None]:
#É a proporção da frequência absoluta comparada com o total dos dados. A soma das frequências relativas deve ser 1
#A mesma ideia de contar o número de vezes que um valor aparece, mas em relação a todos os dados
df = dfPoll['atividade_frequente'].value_counts()
df / len(dfPoll['atividade_frequente'])

Rede social         0.294118
Ler livro           0.220588
Assistir TV         0.176471
Jogar videogame     0.176471
Cozinhar            0.088235
Praticar esporte    0.044118
Name: atividade_frequente, dtype: float64

**Calculando a Frequência Acumulada**

In [None]:
#A frequência acumulada depende de todos os valores porque devemos soma-los até que tenhamos os dados 𝑁.
#Funciona para frequências absolutas e relativas.
#Portanto, na primeira linha teríamos 𝑓1, na segunda linha 𝑓1 + 𝑓2 e assim por diante.
dfPoll['atividade_frequente'].value_counts().cumsum()

Unnamed: 0_level_0,count
atividade_frequente,Unnamed: 1_level_1
Rede social,20
Ler livro,35
Assistir TV,47
Jogar videogame,59
Cozinhar,65
Praticar esporte,68


**Exemplo de Uma Tabela de Distribuição de Frequências**

In [None]:
# Exemplo de uma tabela completa para a variável 'freq_activity'
dfFrequencies = dfPoll['atividade_frequente'].value_counts().to_frame()

dfFrequencies['relativa'] = dfPoll['atividade_frequente'].value_counts() / len(dfPoll['atividade_frequente'])
dfFrequencies['acumulada'] = dfPoll['atividade_frequente'].value_counts().cumsum()
dfFrequencies['relacum'] = (dfPoll['atividade_frequente'].value_counts() / len(dfPoll['atividade_frequente'])).cumsum()

# Resetando o índice e renomeando a coluna gerada
dfFrequencies = dfFrequencies.reset_index()
dfFrequencies.columns = ['Atividade', 'Frequência Absoluta', 'Frequência Relativa', 'Frequência Absoluta Acumulada', 'Frequência Relativa Acumulada']

# Criando a linha de totais
totais = {
    'Atividade': 'Totais (∑)',
    'Frequência Absoluta': dfFrequencies['Frequência Absoluta'].sum(),
    'Frequência Relativa': dfFrequencies['Frequência Relativa'].sum(),
    'Frequência Absoluta Acumulada': dfFrequencies['Frequência Absoluta Acumulada'].max(),
    'Frequência Relativa Acumulada': dfFrequencies['Frequência Relativa Acumulada'].max()
}

# Adiciona a linha de totais ao DataFrame
dfFrequencies = pd.concat([dfFrequencies, pd.DataFrame([totais])], ignore_index=True)

# Substituição de valores nulos por '-'
dfFrequencies = dfFrequencies.fillna('-')

dfFrequencies


Unnamed: 0,Atividade,Frequência Absoluta,Frequência Relativa,Frequência Absoluta Acumulada,Frequência Relativa Acumulada
0,Rede social,20,0.294118,20,0.294118
1,Ler livro,15,0.220588,35,0.514706
2,Assistir TV,12,0.176471,47,0.691176
3,Jogar videogame,12,0.176471,59,0.867647
4,Cozinhar,6,0.088235,65,0.955882
5,Praticar esporte,3,0.044118,68,1.0
6,Totais (∑),68,1.0,68,1.0


In [None]:
#Exemplo de uma tabela completa para a variável 'estado'
dfFrequencies = dfPoll['estado'].value_counts().to_frame()

dfFrequencies['relative'] = dfPoll['estado'].value_counts()/len(dfPoll['estado'])

dfFrequencies['cumulative'] = dfPoll['estado'].value_counts().cumsum()

dfFrequencies['relcum'] = (dfPoll['estado'].value_counts()/len(dfPoll['estado'])).cumsum()

# Resetando o índice e renomeando a coluna gerada
dfFrequencies = dfFrequencies.reset_index()
dfFrequencies.columns = ['Estado', 'Frequência Absoluta', 'Frequência Relativa', 'Frequência Absoluta Acumulada', 'Frequência Relativa Acumulada']

# Criando a linha de totais
totais = {
    'Estado': 'Totais (∑)',
    'Frequência Absoluta': dfFrequencies['Frequência Absoluta'].sum(),
    'Frequência Relativa': dfFrequencies['Frequência Relativa'].sum(),
    'Frequência Absoluta Acumulada': dfFrequencies['Frequência Absoluta Acumulada'].max(),
    'Frequência Relativa Acumulada': dfFrequencies['Frequência Relativa Acumulada'].max()
}

# Adiciona a linha de totais ao DataFrame
dfFrequencies = pd.concat([dfFrequencies, pd.DataFrame([totais])], ignore_index=True)


dfFrequencies = dfFrequencies.fillna('-')

dfFrequencies

Unnamed: 0,Estado,Frequência Absoluta,Frequência Relativa,Frequência Absoluta Acumulada,Frequência Relativa Acumulada
0,SP,45,0.661765,45,0.661765
1,MS,9,0.132353,54,0.794118
2,MG,6,0.088235,60,0.882353
3,GO,2,0.029412,62,0.911765
4,RJ,2,0.029412,64,0.941176
5,RO,1,0.014706,65,0.955882
6,PI,1,0.014706,66,0.970588
7,PR,1,0.014706,67,0.985294
8,Estrangeiro,1,0.014706,68,1.0
9,Totais (∑),68,1.0,68,1.0


# **Desafio**

**Escolha uma das colunas do "dataset.csv" e crie a tabela de distribuição de frequência usando o Pandas**

In [1]:
import pandas as pd

data_sexo = {'sexo': ['Masculino'] * 36 + ['Feminino'] * 32}
dfPoll = pd.DataFrame(data_sexo)

dfFrequencies_sexo = dfPoll['sexo'].value_counts().to_frame()
dfFrequencies_sexo['relative'] = dfPoll['sexo'].value_counts() / len(dfPoll['sexo'])
dfFrequencies_sexo['cumulative'] = dfPoll['sexo'].value_counts().cumsum()
dfFrequencies_sexo['relcum'] = (dfPoll['sexo'].value_counts() / len(dfPoll['sexo'])).cumsum()

dfFrequencies_sexo = dfFrequencies_sexo.reset_index()
dfFrequencies_sexo.columns = ['Sexo', 'Frequência Absoluta', 'Frequência Relativa', 'Frequência Absoluta Acumulada', 'Frequência Relativa Acumulada']

totais_sexo = {
    'Sexo': 'Totais (∑)',
    'Frequência Absoluta': dfFrequencies_sexo['Frequência Absoluta'].sum(),
    'Frequência Relativa': dfFrequencies_sexo['Frequência Relativa'].sum(),
    'Frequência Absoluta Acumulada': dfFrequencies_sexo['Frequência Absoluta Acumulada'].max(),
    'Frequência Relativa Acumulada': dfFrequencies_sexo['Frequência Relativa Acumulada'].max()
}

dfFrequencies_sexo = pd.concat([dfFrequencies_sexo, pd.DataFrame([totais_sexo])], ignore_index=True)

dfFrequencies_sexo = dfFrequencies_sexo.fillna('-')

dfFrequencies_sexo

Unnamed: 0,Sexo,Frequência Absoluta,Frequência Relativa,Frequência Absoluta Acumulada,Frequência Relativa Acumulada
0,Masculino,36,0.529412,36,0.529412
1,Feminino,32,0.470588,68,1.0
2,Totais (∑),68,1.0,68,1.0
