# Estatística Descritiva

In [1]:
# Carregando bibliotecas

import numpy as np
import matplotlib.pyplot as plt
from cycler import cycler

In [2]:
# Carregando bibliotecas

from scipy.stats.mstats import gmean, hmean
from scipy import stats

### Média Aritmética

   * É a soma de todos os elementos do conjunto divididos pelo número de elementos que compõe o conjunto.

In [3]:
# Exemplo

dados = [1, 2, 3, 4, 5, 6] # Criando um conjunto de dados
np.mean(dados)             # Calculando a média aritmética

3.5

### Média Geométrica

   * É a raiz n-ésima do produto de todos os elementos que compõe o conjunto

In [4]:
# Exemplo

dados_2 = [7, 8, 9, 10, 11, 12] # Criando conjunto de dados
gmean(dados_2)                  # Calculando a média geométrica

9.343309701893514

### Média Harmônica

   * É o número de elementos divididos pela soma dos inversos dos elementos que compõe o conjunto.

In [5]:
# Exemplo

dados_3 = [13, 14, 15, 16, 17, 18] # Criando conjunto de dados
hmean(dados_3)                     # Calculando a média harmônica

15.310129641635603

### Moda

   * São os valores mais frequentes em uma distribuição

In [6]:
# Exemplo

dados_4 = [1, 2, 3, 4, 4, 5, 4, 6, 7] # Criando conjunto de dados
stats.mode(dados_4)                   # Calculando a moda

ModeResult(mode=array([4]), count=array([3]))

In [7]:
# Exemplo bimodal

dados_5 = [1, 1, 1, 2, 3, 4, 4, 4] # Criando o conjunto de dados
stats.mode(dados_5)                # Calculando a moda

ModeResult(mode=array([1]), count=array([3]))

**Observação:** Usando stats.mode() em um exemplo bimodal, o resultado exibido será apenas o primeiro valor que se repete e não todos.

In [8]:
# Criando uma função para calcular a moda

from collections import Counter

def moda (x_dados):
    elementos = Counter(x_dados)
    print(elementos)
    moda = [x for x, conte in elementos.items() if conte == max(elementos.values())]
    return moda

In [9]:
# Aplicando função ao exemplo bimodal

moda(dados_5)

Counter({1: 3, 4: 3, 2: 1, 3: 1})


[1, 4]

In [10]:
# Exemplo amodal

dados_6 = [1, 2, 3, 4, 5, 6] # Criando conjunto de dados
moda(dados_6)                # Calculando a moda

Counter({1: 1, 2: 1, 3: 1, 4: 1, 5: 1, 6: 1})


[1, 2, 3, 4, 5, 6]

### Mediana

   * É o valor da variável que divide os dados ordenados em duas partes de igual frequência.

In [11]:
# Exemplo 1

dados_7 = [9, 7, 1, 7, 6, 4, 6,3, 2, 4, 8, 4] # Criando conjunto de dados
np.sort(dados_7)                              # Ordenando os dados
np.median(dados_7)                            # Calculando a mediana

5.0

In [12]:
# Exemplo 2

dados_8 = [1, 2, 1, 1, 4, 5, 3, 6] # Criando conjunto de dados
np.sort(dados_8)                   # Ordenando os dados
np.median(dados_8)                 # Calculando a mediana

2.5

### Medidas Separatrizes

In [13]:
# Criando e ordenando um conjunto de dados

notas = [8.7, 5.3, 7.8, 6.7, 9.7, 8.2]
np.sort(notas)

array([5.3, 6.7, 7.8, 8.2, 8.7, 9.7])

**Quatis**

In [14]:
# 1º Quartil: representa 25% dos dados

np.quantile(notas, .25)

6.975

In [15]:
# 2º Quartil: representa 50% dos dados. É igual a mediana

np.quantile(notas, .50)

8.0

In [16]:
# Calculando a mediana e com o 2º quartil

np.median(notas)

8.0

In [17]:
# 3º Quartil: representa 75% dos dados

np.quantile(notas, .75)

8.575

**Percentil**

In [18]:
# P25: Percentil 25 = 1º quartil

np.percentile(notas, 25)

6.975

In [19]:
# P50: Percentil 50 = 2º quartil = Mediana

np.percentile(notas, 50)

8.0

In [20]:
# P75: Percentil 75 = 3º quartil

np.percentile(notas, 75)

8.575

### Medidas de Variação e Dispersão

   * Média;
   * Variância;
   * Desvio Padrão;
   * Coeficiente de Variação.

In [21]:
# Gerando conjunto de dados

dados_9 = [10, 20, 30, 40, 50, 60, 70, 80]

In [22]:
# Calculando a média

np.mean(dados_9)

45.0

In [23]:
# Calculando a variância

np.var(dados_9)

525.0

In [24]:
# Calculando o desvio padrão

np.std(dados_9)

22.9128784747792

In [25]:
# Calculado o coeficiente de variação

stats.variation(dados_9)

0.5091750772173155

In [26]:
# Calculando o coeficiente de variação 'manualmente'

media = np.mean(dados_9)
desvio = np.std(dados_9)

coeficiente = desvio / media
coeficiente

0.5091750772173155

### Medidas de Assimetria

   * Possibilita analisar uma distribuição em relação a moda, mediana e variância.

In [27]:
# Carregando biblioteca

from scipy.stats import kurtosis, skew

In [28]:
# Coeficiente de Pearson

stats.skew(dados_9)

0.0

In [29]:
# Coeficiente de Curtose

stats.kurtosis(dados_9)

-1.2380952380952381

###  Criando uma função para o cálculo das medidas estatísticas

In [30]:
# Criando função

def estatisticas(dados):
    media = round(np.mean(dados), 2)
    moda = round(stats.mode(dados,)[0][0], 2)
    mediana = round(np.median(dados), 2)
    variancia = round(np.var(dados), 2)
    desvio = round(np.std(dados), 2)
    pearson = round(stats.skew(dados), 2)
    kurtosis = round(stats.kurtosis(dados), 2)
    result = print("Média: {}\nModa: {}\nMedian: {}\nVariância: {}\nDesvio Padrão: {}\nCoeficiente de Pearson: {}\nCoeficiente de Curtose: {}".format(
    media, moda, mediana, variancia, desvio, pearson, kurtosis))
    return result

In [31]:
# Aplicando função criada

dados_x = [4, 5, 6, 5, 5, 6, 6, 5, 4, 5, 5, 5] # Criando conjunto de dados
estatisticas(dados_x)                          # Aplicando função

Média: 5.08
Moda: 5
Median: 5.0
Variância: 0.41
Desvio Padrão: 0.64
Coeficiente de Pearson: -0.08
Coeficiente de Curtose: -0.58
