# Capítulo 3 - Estatística Descritiva: Medidas de Tendência Central e de Dispersão

In [2]:
%pip install rpy2 pandas numpy matplotlib scipy

Note: you may need to restart the kernel to use updated packages.


In [3]:
# Habilita a execução de R no Google Colab
%load_ext rpy2.ipython



## Média aritmética

In [4]:
# Import da função
from statistics import mean
# Dados
dados = [1,2,5,3,4]
# Calculando a média aritmética
mean(dados)

3

In [5]:
%%R
# Dados
dados = c(1,2,5,3,4)
# Calculando a média aritmética
mean(dados)

[1] 3


## Média geométrica

In [6]:
# Import da função
from scipy.stats.mstats import gmean
# Dados
dados = [1,2,5,3,4]
# Calculando a média geométrica
print(gmean(dados))

2.6051710846973517


In [7]:
%%R
# Dados
dados = c(1,2,5,3,4)
# Calculando a média geométrica
exp(mean(log(dados)))

[1] 2.605171


In [8]:
%%R
# Instalando a biblioteca
# install.packages("EnvStats")
# Carregando a biblioteca
library(EnvStats)
# Calculando a média geométrica
geoMean(dados)

[1] 2.605171



Attaching package: 'EnvStats'

The following objects are masked from 'package:stats':

    predict, predict.lm

The following object is masked from 'package:base':

    print.default



## Média Harmônica

In [9]:
# Import da função
from statistics import harmonic_mean
# Dados
dados = [1,2,5,3,4]
# Calculando a média harmônica
harmonic_mean(dados)

2.18978102189781

In [10]:
%%R
# Dados
dados = c(1,2,5,3,4)
# Calculando a média harmônica
1/mean(1/dados)

[1] 2.189781


In [11]:
%%R
# Instalando a biblioteca
# install.packages("psych")
# Carregando a biblioteca
library(psych)
# Calculando a média Harmônica
harmonic.mean(dados)

[1] 2.189781


## Mediana

In [None]:
# Import da função
from statistics import median
# Dados
dados = [7,1,5,2,3,1,6]
# Calculando a mediana
median(dados)

In [None]:
%%R
# Dados
dados = c(7,1,5,2,3,1,6)
# Calculando a mediana
median(dados)

In [None]:
# Import da função
from statistics import median
# Dados
dados = [1,2,1,1,4,5,3,6]
# Calculando a mediana
median(dados)

In [None]:
%%R
# Dados
dados = c(1,2,1,1,4,5,3,6)
# Calculando a mediana
median(dados)

## Moda

In [None]:
# Import da função
from statistics import mode
# Dados
dados = [4,5,4,6,5,8,4]
# Calculando a moda
mode(dados)

In [None]:
%%R
# Dados
dados=c(4,5,4,6,5,8,4)
# Instalando a biblioteca
install.packages("DescTools")
# Carregando a biblioteca
library(DescTools)
# Calculando a moda
Mode(dados)

In [None]:
# Import da função
from statistics import multimode # Python >= 3.8
# Dados
dados = [4,5,4,6,5,8,4,4,5,5]
# Calculando a moda
multimode(dados)

In [None]:
# Se sua versão do Python for < 3.8, use o código a seguir:

# Imports das funções
from collections import Counter
from itertools import groupby
# Dados
dados = [4,5,4,6,5,8,4,4,5,5]
# Agrupando por frequência
freqs = groupby(Counter(dados).most_common(), lambda x:x[1])
# Imprimindo os grupos de maior frequência
print([val for val,count in next(freqs)[1]])

In [None]:
%%R
# Dados
dados = c(4,5,4,6,5,8,4,4,5,5)
# Instalando a biblioteca
#install.packages("DescTools")
# Carregando a biblioteca
library(DescTools)
# Calculando a moda
Mode(dados)

In [None]:
# Import da função
from statistics import multimode # Python >= 3.8
# Dados
dados = [1,2,3,4,5]
# Calculando a moda
multimode(dados)

In [None]:
%%R
# Dados
dados=c(1,2,3,4,5)
# Instalando a biblioteca
#install.packages("DescTools")
# Carregando a biblioteca
library(DescTools)
# Calculando a moda
Mode(dados)

## Medidas Separatrizes

In [None]:
# Import da função
from statistics import median
import numpy as np
# Dados
dados = [3,1,5,2,3,1,7]
# Mediana
print(median(dados))
print(np.quantile(dados, 0.25))
print(np.quantile(dados, 0.75))

In [None]:
%%R
# Dados
dados = c(3,1,5,2,3,1,7)
# Mediana
print(median(dados))
# Primeiro quartil
print(quantile(dados,.25))
# Terceiro quartil
print(quantile(dados,.75))
# Achando o Primeiro quartil (Q1), Segundo quartil(Q2) e Terceiro Quartil (Q3) de uma vez.
print(summary(dados))

## Medidas de Assimetria

In [None]:
# Import da função
from scipy.stats import skew
# Dados
x = [8.0, 1, 2.5, 4, 28.0]
# Calculando a assimetria manualmente
n = len(x)
mean_ = sum(x) / n
var_ = sum((item - mean_)**2 for item in x) / (n - 1)
std_ = var_ ** 0.5
skew_ = (sum((item - mean_)**3 for item in x) * n / ((n - 1) * (n - 2) * std_**3))
# Calculando a assimetria usando a biblioteca
skew_
# AS > 0 (1.9470432273905929) --> distribuição será assimétrica à direita ou positiva, terá concentração dos valores no gráfico à esquerda e a curva se alongará mais à direita do gráfico)

In [None]:
%%R
# Instalando a biblioteca
#install.packages("e1071")
# Carregando a biblioteca
library(e1071)
# Dados
x = c(8.0, 1, 2.5, 4, 28.0)
# Calculando a assimetria manualmente
n = length(x)
mean_ = sum(x) / n
a = (sum((x - mean_)**3) * n / ((n - 1) * (n - 2) * sd(x)**3))
# Calculando a assimetria usando a biblioteca
skewness(x,type = 2)
# AS > 0 (1.947043) --> distribuição será assimétrica à direita ou positiva, terá concentração dos valores no gráfico à esquerda e a curva se alongará mais à direita do gráfico)

## Medidas de Dispersão

In [None]:
# Imports das bibliotecas
from statistics import variance
from statistics import stdev
from statistics import mean
import numpy as np
# Dados
dados = [3,4,5,6,12]
# Amplitude
print(np.max(dados)-np.min(dados))
# Variância
print(variance(dados))
# Desvio padrão
print(stdev(dados))
# Coeficiente de variação
print(stdev(dados)/mean(dados)*100)

In [None]:
%%R
# Dados
dados = c(3,4,5,6,12)
# Amplitude
print(diff(range(dados)))
# Variância
print(var(dados))
# Desvio padrão
print(sd(dados))
# Coeficiente de variação
print(sd(dados)/mean(dados)*100)

## Boxplot

In [None]:
# Imports das bibliotecas
import seaborn as sns
import matplotlib.pyplot as plt

# Carregando o dataset
dados = sns.load_dataset('iris')
# Plotando um boxplot por species da característica petal length
sns.boxplot(x=dados["species"], y=dados["petal_length"])
plt.show()


In [None]:
%%R
# Carregando a biblioteca
library(ggplot2)
# Carregando o dataset nativo Iris
dados = iris
# Plotando um boxplot por Species da característica Petal.Length
ggplot(dados, aes(x=Species, y=Petal.Length, fill=Species)) + 
  geom_boxplot()