# Estatística descritiva

O objetivo deste notebook é fazer uma revisão de estatísica descritiva, comparando comandos criados pelo usuário e das bibliotecas Numpy e Pandas. As atividades foram propostas na aula 3 da disciplina de Análise Exploratória de Dados do curso de Mineração de Dados do IFES - SERRA

## Importando os arquivos

In [39]:
import numpy as np
import pandas as pd
import statistics as st
from collections import Counter

## Média aritmética

A partir das notas do aluno, calcular a média artimética

In [40]:
notas_alunos = [9.5, 7.2, 4.1, 8.9, 10.0]
print('Notas: ', notas_alunos)

Notas:  [9.5, 7.2, 4.1, 8.9, 10.0]


### Cálculo da média aritmética 

In [41]:
media_aritmetica = sum(notas_alunos) / len(notas_alunos)
print(f'média usando definição: {media_aritmetica:0.1f}')

média usando definição: 7.9


### Cálculo da média aritmética usando o Numpy

In [42]:
media_aritmetica_numpy = np.mean(notas_alunos)
print(f'média usando numpy: {media_aritmetica_numpy:0.1f}')

média usando numpy: 7.9


### Cálculo da média aritmética usando Pandas

In [43]:
df = pd.DataFrame({'notas': notas_alunos})
media_aritmetica_pandas = df['notas'].mean()
print(f'média usando pandas: {media_aritmetica_pandas:0.1f}')

média usando pandas: 7.9


## Média ponderada

Cálculo das média ponderada a partir das notas e dos pesos

In [44]:
notas_alunos = [9.5, 7.2, 4.1, 8.9, 10.0]
pesos = [0.1, 0.2, 0.2, 0.3, 0.2]

### Cálculo da média ponderada usando a definição

In [45]:
media_ponderada = 0
for nota, peso in zip(notas_alunos, pesos):
    media_ponderada += nota * peso

media_ponderada = media_ponderada / sum(pesos)
print(f'Média ponderada: {media_ponderada: .1f}')

Média ponderada:  7.9


### Cálculo da média ponderada usando Numpy

In [46]:
media_ponderada_numpy = np.average(notas_alunos, weights=pesos)
print(f'Média ponderada numpy: {media_ponderada_numpy: .1f}')

Média ponderada numpy:  7.9


## Moda

Cálculo da moda do novo conjunto de notas de alunos

In [47]:
notas_alunos = [9.5, 7.2, 4.1, 8.9, 10.0, 4.1, 8.5, 6.3, 9.0, 4.1, 8.5, 8.5]

### Cálculo da moda usando a definição

In [48]:
c = Counter(notas_alunos)
moda = c.most_common()
print(f'\nModa: {moda}')


Moda: [(4.1, 3), (8.5, 3), (9.5, 1), (7.2, 1), (8.9, 1), (10.0, 1), (6.3, 1), (9.0, 1)]


Ou seja, os valores `4.1` e `8.5` são os mais frequentes. O médito Counter devolve a contagem de todos os valores

### Cálculo da moda usando Pandas

In [49]:
df = pd.DataFrame({'notas': notas_alunos})
moda = df['notas'].mode()
moda

0    4.1
1    8.5
Name: notas, dtype: float64

### Cálculo da moda usando Statistics

In [50]:
moda = st.mode(notas_alunos)
print(f'\nModa: {moda}')


Moda: 4.1


## Mediana

Cálculo da mediana usando os novos dados de alunos

In [51]:
notas_alunos = [9.5, 7.2, 4.1, 8.9, 10.0, 4.1, 8.5, 6.3, 9.0,
                4.1, 8.5]

### Cálculo da mediana usando numpy

In [52]:
mediana = np.median(notas_alunos)
print(f'Mediana usando numpy: {mediana:0.1f}')

Mediana usando numpy: 8.5


## Amplitude

Cáluclo da amplitude da uma lista de notas. A amplitude é a diferença entre os valores maiores e menores. No cálculo da amplitude, vamos usar o métido ptp do Numpy

In [53]:
notas_alunos = [9.5, 7.2, 4.1, 8.9, 10.0, 4.1, 8.5, 6.3, 9.0, 4.1, 8.5]
amplitude = np.ptp(notas_alunos)
print(f'Amplitude: {amplitude:0.2f}')

Amplitude: 5.90


## Variância e desvio padrão

In [54]:
notas_alunos = [9.5, 7.2, 4.1, 8.9, 10.0, 4.1, 8.5, 6.3, 9.0, 4.1, 8.5]

variancia = np.var(notas_alunos, ddof=1)
desvio_padrao = np.std(notas_alunos, ddof=1)

print(f'Variância: {variancia: .1f}')
print(f'Desvio Padrão: {desvio_padrao: .1f}')

Variância:  5.2
Desvio Padrão:  2.3
