## Distribuição de Frequência com Python


Um professor coletou as notas de todos os alunos na avaliação final de um curso de Matemática. O professor gostaria de tabular os dados a fim de extrair insights e compreender como os dados estão organizados. Crie uma distribuição de frequência para ajudar o professor.

In [1]:
# Imports
import pandas as pd

In [2]:
# Criar lista de notas de alunos na avaliação final do curso de Matemática
notas_alunos = [92, 81, 100, 92, 71, 73, 100, 92, 84, 100, 73, 92, 73, 84, 92, 92, 92, 84, 73, 100]

In [3]:
len(notas_alunos)
# Verificar tamanho da lista de notas de alunos

20

## Solução com Series em Pandas

In [4]:
# Série - frequência de ocorrência por ntas
df1 = pd.Series(notas_alunos).value_counts().reset_index().sort_values('index').reset_index(drop=True)
df1.columns = ['Nota', 'Frequencia']
print(df1)
# 1.Chama a função series, passa a lista de notas como parâmetro
#   2.value_counts() fará a contagem da lista, contabilizar quantas vezes cada nota aparece
#     3.reset_index() garantir índices na sequência correta.
#      4.sort_values('index') order pelo valor do índice
#       5.reset_index() resetar novamente o índice.
#         6.objeto.columns renomear colunas

   Nota  Frequencia
0    71           1
1    73           4
2    81           1
3    84           3
4    92           7
5   100           4


In [5]:
# Série com notas e frequências, alterando a quantidade de classes com parâmetro bins dentro de value_counts
df1 = pd.Series(notas_alunos).value_counts(bins=3).reset_index().sort_values('index').reset_index(drop=True)
df1.columns = ['Nota', 'Frequencia']
print(df1)
# A saída dessa série tem apenas 3 registros, especificando 3 classes na contagem

               Nota  Frequencia
0   (70.97, 80.667]           5
1  (80.667, 90.333]           4
2   (90.333, 100.0]          11


## Solução com Dataframes em Pandas

### Distribuição de Frequência Simples ou Absoluta - fi 

São os valores que representam o número de dados de cada classe. A soma das frequências simples é igual ao número total dos dados.


In [6]:
df2 = pd.value_counts(notas_alunos).to_frame(name='fi').rename_axis('Nota').sort_index()
print(df2)
#1. pandas
# 2.contagem das notas .value_counts(lista)
#  3.converter para dataframe .to_frame(sendo nome da coluna='fi')
#   4.colocar um eixo para nota .rename_axis('Nota')
#    5.ordernar por índice sort_index()


      fi
Nota    
71     1
73     4
81     1
84     3
92     7
100    4


### Distribuição de Frequência Relativa Simples -  % fri 

Permite visualizar os valores das razões entre as Frequências Simples e a Frequência Total.

In [7]:
df2['fri'] = pd.value_counts(notas_alunos) / len(notas_alunos)
print(df2)
#1. pandas
# 2. contagem das notas .value_counts(lista)
#  3. dividir por total de observações len(lista)
#   4. salvar em uma nova coluna chama 'fri' no dataframe df2

      fi   fri
Nota          
71     1  0.05
73     4  0.20
81     1  0.05
84     3  0.15
92     7  0.35
100    4  0.20


### Distribuição de Frequência Acumulada -  Fi 

Permite visualizar o total das Frequências de todos os valores inferiores ao limite superior do intervalo de uma dada classe.

In [8]:
df2['Fi'] = df2.fi.cumsum()
print(df2)
#1. chamar método cumsum()- soma acumulada
 #2. aplicar a uma nova coluna chamada 'fi' no dataframe df2

      fi   fri  Fi
Nota              
71     1  0.05   1
73     4  0.20   5
81     1  0.05   6
84     3  0.15   9
92     7  0.35  16
100    4  0.20  20


### Distribuição de Frequência Relativa Acumulada -  Fri 

Permite visualizar a frequência acumulada da classe, dividida pela frequência total da distribuição.

In [9]:
# Temos a frequência relativa acumulada, pegar o percentual da frequência acumulada
df2['Fri'] = df2.fi.cumsum() / len(notas_alunos)
print(df2)
# 1.aplicando valor da soma acumulada
#  2.dividir pelo comprimento da lsita 
#   3.atibuir para nova coluna 'Fri' novamente ao dataframe df2

# Cada classe é uma nota
# fi - frequência, número de ocorrências
# fri - frequência relativa simples, percentual
# FI - frequência acumulada, valor total das frequências de cada classe
# Fri - frquência acumulada simples, valor percentual



      fi   fri  Fi   Fri
Nota                    
71     1  0.05   1  0.05
73     4  0.20   5  0.25
81     1  0.05   6  0.30
84     3  0.15   9  0.45
92     7  0.35  16  0.80
100    4  0.20  20  1.00
