# EXEMPLOS DE ESTATÍSTIVA BÁSICA

# 1 CARREGAMENTO DAS BIBLIOTECAS

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import scipy.stats as stats
%matplotlib widget

# 2 GERAÇÃO DOS DADOS

In [2]:
s1 = pd.Series([7, 7, 6, 2,	5, 4, 3, 7,	3, 1, 2, 4, 8, 6, 3, 7, 9, 6, 1, 3])
pd.DataFrame.head(s1)

0    7
1    7
2    6
3    2
4    5
dtype: int64

In [3]:
s2 = pd.Series([3, 3, 5, 12, 3, 4, 10, 5, 4, 4, 3, 4, 8, 4, 5, 5, 6, 6, 4, 7])
pd.DataFrame.head(s2)

0     3
1     3
2     5
3    12
4     3
dtype: int64

In [4]:
s3 = pd.Series([7, 7, 7, 8, 8, 7, 7, 7, 4, 8, 7, 8, 8, 9, 8, 8, 7, 9, 8, 8])
pd.DataFrame.head(s3)

0    7
1    7
2    7
3    8
4    8
dtype: int64

# 3 ANÁLISE GRÁFICA DESCRITIVA 01

## 3.1 Gráfico de histograma

In [5]:
# Cria uma imagem vazia
fig = plt.figure()

# Plota o histograma
plt.hist(s1, bins = 10)

# Coloca título nos eixos
plt.title("Distribuição da variável S1", loc = 'left')

# Coloca nome nos eixos
plt.xlabel('s1')
plt.ylabel('Frequência')

Canvas(toolbar=Toolbar(toolitems=[('Home', 'Reset original view', 'home', 'home'), ('Back', 'Back to previous …

Text(0, 0.5, 'Frequência')

### Múltiplos gráficos

In [6]:
# Cria a figura e os subplots
fig = plt.figure()
plt.subplots_adjust(hspace = 0.3, wspace = 0.4)
fig.suptitle('Comparação de distribuições', x=0.1, y=.95, horizontalalignment = 'left', verticalalignment = 'top')
ax1 = fig.add_subplot(2, 2, 1)
ax2 = fig.add_subplot(2, 2, 2)
ax3 = fig.add_subplot(2, 2, 3)

# Cria os gráficos de histograma e acerta os nomes dos eixos
ax1.hist(s1, bins = 5)
ax1.set_xlabel('s1')
ax1.set_ylabel('Frequência')

ax2.hist(s2, bins = 5)
ax2.set_xlabel('s2')
ax2.set_ylabel('Frequência')

ax3.hist(s3, bins = 5)
ax3.set_xlabel('s3')
ax3.set_ylabel('Frequência')

Canvas(toolbar=Toolbar(toolitems=[('Home', 'Reset original view', 'home', 'home'), ('Back', 'Back to previous …

Text(0, 0.5, 'Frequência')

### Histogramas superpostos

In [7]:
fig = plt.figure()
plt.hist(s1, alpha = 0.5, label = 's1')
plt.hist(s2, alpha = 0.5, label = 's1')
plt.hist(s3, alpha = 0.5, label = 's1')
# Código alternativo
# plt.hist([s1, s2, s3], bins, label=['s1', 's2', 's3'])

plt.legend(loc = 'upper right')
plt.ylabel('Frequência')
plt.title('Comparação entre variáveis', loc = 'left')



Canvas(toolbar=Toolbar(toolitems=[('Home', 'Reset original view', 'home', 'home'), ('Back', 'Back to previous …

Text(0.0, 1.0, 'Comparação entre variáveis')

# 4 MEDIDAS DE CENTRALIZAÇÃO

## 4.1 Moda

In [8]:
moda1, count1 = stats.mode(s1)
# Converte o objeto para np.float64
moda1 = np.float64(moda1[0])
moda1

type

# Código alternativo
# s1.mode()

3.0

In [9]:
moda2, count2 = stats.mode(s2)
# Converte o objeto para np.float64
moda2 = np.float64(moda2[0])
moda2

4.0

In [10]:
moda3, count3 = stats.mode(s3)
# Converte o objeto para np.float64
moda3 = np.float64(moda3[0])
moda3

8.0

# 4.2 Mediana

In [11]:
# A mediana já é retornada como np.float64
mediana1 = np.median(s1)
mediana1

# Código alternativo
# s2.median()

4.5

In [12]:
# A mediana já é retornada como np.float64
mediana2 = np.median(s2)
mediana2

4.5

In [13]:
# A mediana já é retornada como np.float64
mediana3 = np.median(s3)
mediana3

8.0

# 4.3 Média

In [14]:
media1 = np.mean(s1)
# Converte o objeto para np.float64
media1 = np.float64(media1)
media1

# Código alternativo
# s1.mean(axis = 0)

4.7

In [15]:
media2 = np.mean(s2)
# Converte o objeto para np.float64
media2 = np.float64(media2)
media2

# Código alternativo
# s2.mean(axis = 0)

5.25

In [16]:
media3 = np.mean(s3)
# Converte o objeto para np.float64
media3 = np.float64(media3)
media3

# Código alternativo
# s3.mean(axis = 0)

7.5

# 4.4 Vizualização

In [17]:
xCoords = pd.Series([moda1, mediana1, media1], ['moda', 'mediana', 'media'])

In [18]:
xCoords.index

Index(['moda', 'mediana', 'media'], dtype='object')

### 4.4.1 Gráfico único

In [19]:
# Cria uma imagem vazia
fig = plt.figure()

# Plota o histograma
h = plt.hist(s1, bins = 5)

# Coloca título nos eixos
plt.title("Distribuição da variável S1", loc = 'left')

# Coloca nome nos eixos
plt.xlabel('s1')
plt.ylabel('Frequência')

# Define a coordenada das linhas
xCoords = pd.Series([moda1, mediana1, media1], ['moda', 'mediana', 'media'])

# Define a cor das linhas
colors = ['r', 'k', 'y']

# Plota linhas verticais
for xc,xn,c in zip(xCoords, xCoords.index, colors):
    plt.axvline(x = xc, label = xn, c = c)
    
plt.legend()

Canvas(toolbar=Toolbar(toolitems=[('Home', 'Reset original view', 'home', 'home'), ('Back', 'Back to previous …

<matplotlib.legend.Legend at 0x1abd05da130>

### 4.4.2 Múltiplos gráficos

In [20]:
# Cria a figura e os subplots
fig = plt.figure()
plt.subplots_adjust(hspace = 0.3, wspace = 0.4)
fig.suptitle('Comparação de distribuições, modas, médias e medianas', x=0.1, y=.95, horizontalalignment = 'left', verticalalignment = 'top')
ax1 = fig.add_subplot(2, 2, 1)
ax2 = fig.add_subplot(2, 2, 2)
ax3 = fig.add_subplot(2, 2, 3)

# Cria os gráficos de histograma e acerta os nomes dos eixos
ax1.hist(s1, bins = 5)
ax1.set_xlabel('s1')
ax1.set_ylabel('Frequência')

ax2.hist(s2, bins = 5)
ax2.set_xlabel('s2')
ax2.set_ylabel('Frequência')

ax3.hist(s3, bins = 5)
ax3.set_xlabel('s3')
ax3.set_ylabel('Frequência')

# Cria as séries com as coordenadas das linhas verticais

xCoords1 = pd.Series([moda1, mediana1, media1], ['moda', 'mediana', 'media'])
xCoords2 = pd.Series([moda2, mediana2, media2], ['moda', 'mediana', 'media'])
xCoords3 = pd.Series([moda3, mediana3, media3], ['moda', 'mediana', 'media'])

# Plota as linhas

for xc,xn,c in zip(xCoords1, xCoords1.index, colors):
    ax1.axvline(x = xc, label = xn, c = c)
    
for xc,xn,c in zip(xCoords2, xCoords2.index, colors):
    ax2.axvline(x = xc, label = xn, c = c)
    
for xc,xn,c in zip(xCoords3, xCoords3.index, colors):
    ax3.axvline(x = xc, label = xn, c = c)

Canvas(toolbar=Toolbar(toolitems=[('Home', 'Reset original view', 'home', 'home'), ('Back', 'Back to previous …

# 5 MÉTRICAS DE VARIABBILIDADE

## 5.1 AMPLITUDE

In [25]:
range1 = np.ptp(s1)
range1

8

In [26]:
range2 = np.ptp(s2)
range2

9

In [27]:
range3 = np.ptp(s3)
range3

5

## 5.2 VARIÂNCIA

In [28]:
# NumPy calcula por padrão variância populacional. Para amostra, ddof = 1
var1 = np.var(s1, ddof = 1)
# Converte para np.float64
var1 = np.float64(var1)
var1

# Código alternativo
#s1.var(axis = 0)

5.8

In [29]:
var2 = np.var(s2, ddof = 1)
# Converte para np.float64
var2 = np.float64(var2)
var2

5.776315789473684

In [30]:
var3 = np.var(s3, ddof = 1)
# Converte para np.float64
var3 = np.float64(var3)
var3

1.105263157894737

## 5.3 Desvio Padrão

In [31]:
sd1 = np.std(s1, ddof = 1)
sd1 = np.float64(sd1)
sd1

# Código alternatico
# s1.std()

2.4083189157584592

In [32]:
sd2 = np.std(s2, ddof = 1)
sd2 = np.float64(sd2)
sd2

2.403396719119356

In [33]:
sd3 = np.std(s3, ddof = 1)
sd3 = np.float64(sd3)
sd3

1.0513149660756937

# 6 QUANTIS

In [34]:
# Quantil 75 (75% dos dados são menores que o valor caculado)
s175 = np.quantile(s1, 0.75)
s175

7.0

In [35]:
s275 = np.quantile(s2, 0.75)
s275

6.0

In [36]:
s375 = np.quantile(s3, 0.75)
s375

8.0

# 7 GRÁFICO BOX-PLOT

## 7.1 Gráfico único

In [37]:
plt.close('all')

In [54]:
fig = plt.figure()
plt.boxplot(s2, showmeans = True)
plt.ylabel('Valores')

# Remove o valor do eixo x
plt.xticks([1], [''])

# Remove o tick do eixo x
plt.tick_params(axis = "x", which = "both", bottom = False, top = False)

plt.title('Gráfico Box-Plot da Variável s2', loc = 'left')

Canvas(toolbar=Toolbar(toolitems=[('Home', 'Reset original view', 'home', 'home'), ('Back', 'Back to previous …

Text(0.0, 1.0, 'Gráfico Box-Plot da Variável s2')

## 7.2 Múltiplas variáveis em um gráfico

In [55]:
fig = plt.figure()
plt.boxplot([s1, s2, s3], showmeans = True)
plt.xticks([1, 2, 3], ['s1', 's2', 's3'])
plt.ylabel('Valores')
plt.title('Gráfico Box-plot', loc = 'left')

Canvas(toolbar=Toolbar(toolitems=[('Home', 'Reset original view', 'home', 'home'), ('Back', 'Back to previous …

Text(0.0, 1.0, 'Gráfico Box-plot')

# 8 CORRELAÇÃO

## 8.1 Carregando dados

In [40]:
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/auto-mpg/auto-mpg.data'

In [41]:
## Nome das colunas foi adquirido do arquivo aut-mp.names
## https://archive.ics.uci.edu/ml/machine-learning-databases/auto-mpg/auto-mpg.names
names = ['mpg', 'cyl', 'disp', 'hp', 'weight', 'acc', 'year', 'origin', 'name']

In [42]:
df = pd.read_table(url, header = None, delim_whitespace = True, names = names)

In [43]:
pd.DataFrame.head(df)

Unnamed: 0,mpg,cyl,disp,hp,weight,acc,year,origin,name
0,18.0,8,307.0,130.0,3504.0,12.0,70,1,chevrolet chevelle malibu
1,15.0,8,350.0,165.0,3693.0,11.5,70,1,buick skylark 320
2,18.0,8,318.0,150.0,3436.0,11.0,70,1,plymouth satellite
3,16.0,8,304.0,150.0,3433.0,12.0,70,1,amc rebel sst
4,17.0,8,302.0,140.0,3449.0,10.5,70,1,ford torino


## 8.2 Estatísticas descritivas

In [44]:
desc = df.describe()
desc

Unnamed: 0,mpg,cyl,disp,weight,acc,year,origin
count,398.0,398.0,398.0,398.0,398.0,398.0,398.0
mean,23.514573,5.454774,193.425879,2970.424623,15.56809,76.01005,1.572864
std,7.815984,1.701004,104.269838,846.841774,2.757689,3.697627,0.802055
min,9.0,3.0,68.0,1613.0,8.0,70.0,1.0
25%,17.5,4.0,104.25,2223.75,13.825,73.0,1.0
50%,23.0,4.0,148.5,2803.5,15.5,76.0,1.0
75%,29.0,8.0,262.0,3608.0,17.175,79.0,2.0
max,46.6,8.0,455.0,5140.0,24.8,82.0,3.0


## 8.3 Seleção das variáveis numéricas

In [45]:
num = df.select_dtypes(include = 'number')
pd.DataFrame.head(num)

Unnamed: 0,mpg,cyl,disp,weight,acc,year,origin
0,18.0,8,307.0,3504.0,12.0,70,1
1,15.0,8,350.0,3693.0,11.5,70,1
2,18.0,8,318.0,3436.0,11.0,70,1
3,16.0,8,304.0,3433.0,12.0,70,1
4,17.0,8,302.0,3449.0,10.5,70,1


In [46]:
# Cria a figura e os subplots
fig = plt.figure()
plt.subplots_adjust(hspace = 0.3, wspace = 0.4)
ax1 = fig.add_subplot(1, 2, 1)
ax2 = fig.add_subplot(1, 2, 2)

# Cria os gráficos de histograma e acerta os nomes dos eixos
ax1.hist(num['year'], bins = 5)
ax2.hist(num['origin'], bins = 5)


Canvas(toolbar=Toolbar(toolitems=[('Home', 'Reset original view', 'home', 'home'), ('Back', 'Back to previous …

(array([249.,   0.,  70.,   0.,  79.]),
 array([1. , 1.4, 1.8, 2.2, 2.6, 3. ]),
 <BarContainer object of 5 artists>)

## 8.4 Remover colunas 'year' e 'origin'

In [47]:
numClean = num.drop(['year', 'origin'], axis = 1)
numClean.head()

Unnamed: 0,mpg,cyl,disp,weight,acc
0,18.0,8,307.0,3504.0,12.0
1,15.0,8,350.0,3693.0,11.5
2,18.0,8,318.0,3436.0,11.0
3,16.0,8,304.0,3433.0,12.0
4,17.0,8,302.0,3449.0,10.5


## 8.5 Correlação entre duas variáveis

In [48]:
plt.close('all')

In [49]:
fig = plt.figure()
plt.scatter(numClean['weight'], numClean['disp'])
plt.xlabel('Weight [lbs]')
plt.ylabel('Displacement [m]')

Canvas(toolbar=Toolbar(toolitems=[('Home', 'Reset original view', 'home', 'home'), ('Back', 'Back to previous …

Text(0, 0.5, 'Displacement [m]')

In [50]:
np.corrcoef(numClean['weight'], numClean['disp'])

array([[1.        , 0.93282415],
       [0.93282415, 1.        ]])

In [51]:
np.corrcoef(numClean['weight'], numClean['disp'])[0,1]

0.9328241468416341

## 8.6 Correlação entre várias variáveis

In [52]:
sns.pairplot(numClean)

Canvas(toolbar=Toolbar(toolitems=[('Home', 'Reset original view', 'home', 'home'), ('Back', 'Back to previous …

<seaborn.axisgrid.PairGrid at 0x1abd28f4850>

In [53]:
corrMatPd = numClean.corr()
corrMatPd

Unnamed: 0,mpg,cyl,disp,weight,acc
mpg,1.0,-0.775396,-0.804203,-0.831741,0.420289
cyl,-0.775396,1.0,0.950721,0.896017,-0.505419
disp,-0.804203,0.950721,1.0,0.932824,-0.543684
weight,-0.831741,0.896017,0.932824,1.0,-0.417457
acc,0.420289,-0.505419,-0.543684,-0.417457,1.0
