https://www.udemy.com/course/estatistica-para-ciencia-de-dados-machine-learning/l

# Medidas de posição e dispersão

## Base de dados

In [1]:
import numpy as np
import statistics
from scipy import stats
import math

In [2]:
dados = np.array([150, 151, 152, 152, 153, 154, 155, 155, 155, 155, 156, 156, 156,
                  157, 158, 158, 160, 160, 160, 160, 160, 161, 161, 161, 161, 162,
                  163, 163, 164, 164, 164, 165, 166, 167, 168, 168, 169, 170, 172,
                  173])

## Média aritmética simples

In [3]:
dados.sum() / len(dados)

160.375

In [4]:
dados.mean()

160.375

In [5]:
statistics.mean(dados)

160

## Moda

In [6]:
statistics.mode(dados)

160

In [7]:
stats.mode(dados)

ModeResult(mode=array([160]), count=array([5]))

## Mediana

In [8]:
dados_impar = [150, 151, 152, 152, 153, 154, 155, 155, 155]

### Cálculo manual (ímpar)

In [9]:
posicao = len(dados_impar) / 2
posicao

4.5

In [10]:
posicao = math.ceil(posicao)
posicao

5

In [11]:
dados_impar[posicao - 1]

153

### Cálculo manual (par)

In [12]:
posicao = len(dados) // 2
posicao

20

In [13]:
dados[posicao - 1], dados[posicao]

(160, 160)

In [14]:
mediana = (dados[posicao - 1] + dados[posicao]) / 2
mediana

160.0

### Bibliotecas

In [15]:
np.median(dados_impar)

153.0

In [16]:
np.median(dados)

160.0

In [17]:
statistics.median(dados_impar)

153

In [18]:
statistics.median(dados)

160.0

## Média aritmética ponderada

In [19]:
notas = np.array([9, 8, 7, 3])
pesos = np.array([1, 2, 3, 4])

In [20]:
(9 * 1 + 8 * 2 + 7 * 3 + 3 * 4) / (1 + 2 + 3 + 4)

5.8

In [21]:
media_ponderada = (notas * pesos).sum() / pesos.sum()
media_ponderada

5.8

In [22]:
np.average(notas, weights=pesos)

5.8

## Média aritmética, moda e mediana com distribuição de frequência (dados agrupados)

In [23]:
dados = {'inferior': [150, 154, 158, 162, 166, 170],
         'superior': [154, 158, 162, 166, 170, 174],
         'fi': [5, 9, 11, 7, 5, 3]}

In [24]:
import pandas as pd
dataset = pd.DataFrame(dados)
dataset

Unnamed: 0,inferior,superior,fi
0,150,154,5
1,154,158,9
2,158,162,11
3,162,166,7
4,166,170,5
5,170,174,3


In [25]:
dataset['xi'] = (dataset['superior'] + dataset['inferior']) / 2
dataset

Unnamed: 0,inferior,superior,fi,xi
0,150,154,5,152.0
1,154,158,9,156.0
2,158,162,11,160.0
3,162,166,7,164.0
4,166,170,5,168.0
5,170,174,3,172.0


In [26]:
dataset['fi.xi'] = dataset['fi'] * dataset['xi']
dataset

Unnamed: 0,inferior,superior,fi,xi,fi.xi
0,150,154,5,152.0,760.0
1,154,158,9,156.0,1404.0
2,158,162,11,160.0,1760.0
3,162,166,7,164.0,1148.0
4,166,170,5,168.0,840.0
5,170,174,3,172.0,516.0


In [27]:
dataset['Fi'] = 0
dataset

Unnamed: 0,inferior,superior,fi,xi,fi.xi,Fi
0,150,154,5,152.0,760.0,0
1,154,158,9,156.0,1404.0,0
2,158,162,11,160.0,1760.0,0
3,162,166,7,164.0,1148.0,0
4,166,170,5,168.0,840.0,0
5,170,174,3,172.0,516.0,0


In [28]:
frequencia_acumulada = []
somatorio = 0
for linha in dataset.iterrows():
  #print(linha[1])
  #print(linha[1][2])
  somatorio += linha[1][2]
  frequencia_acumulada.append(somatorio)

In [29]:
frequencia_acumulada

[5.0, 14.0, 25.0, 32.0, 37.0, 40.0]

In [30]:
dataset['Fi'] = frequencia_acumulada
dataset

Unnamed: 0,inferior,superior,fi,xi,fi.xi,Fi
0,150,154,5,152.0,760.0,5.0
1,154,158,9,156.0,1404.0,14.0
2,158,162,11,160.0,1760.0,25.0
3,162,166,7,164.0,1148.0,32.0
4,166,170,5,168.0,840.0,37.0
5,170,174,3,172.0,516.0,40.0


### Média

In [31]:
dataset['fi'].sum(), dataset['fi.xi'].sum()

(40, 6428.0)

In [32]:
dataset['fi.xi'].sum() / dataset['fi'].sum()

160.7

### Moda

In [33]:
dataset['fi'].max()

11

In [34]:
dataset[dataset['fi'] == dataset['fi'].max()]

Unnamed: 0,inferior,superior,fi,xi,fi.xi,Fi
2,158,162,11,160.0,1760.0,25.0


In [35]:
dataset[dataset['fi'] == dataset['fi'].max()]['xi'].values[0]

160.0

### Mediana

In [36]:
dataset

Unnamed: 0,inferior,superior,fi,xi,fi.xi,Fi
0,150,154,5,152.0,760.0,5.0
1,154,158,9,156.0,1404.0,14.0
2,158,162,11,160.0,1760.0,25.0
3,162,166,7,164.0,1148.0,32.0
4,166,170,5,168.0,840.0,37.0
5,170,174,3,172.0,516.0,40.0


In [37]:
fi_2 = dataset['fi'].sum() / 2
fi_2

20.0

In [38]:
limite_inferior, frequencia_classe, id_frequencia_anterior = 0, 0, 0
for linha in dataset.iterrows():
  #print(linha)
  limite_inferior = linha[1][0]
  frequencia_classe = linha[1][2]
  id_frequencia_anterior = linha[0]
  if linha[1][5] >= fi_2:
    id_frequencia_anterior -= 1
    break

In [39]:
limite_inferior, frequencia_classe, id_frequencia_anterior

(158.0, 11.0, 1)

In [40]:
Fi_anterior = dataset.iloc[[id_frequencia_anterior]]['Fi'].values[0]
Fi_anterior

14.0

In [41]:
mediana = limite_inferior + ((fi_2 - Fi_anterior) * 4) / frequencia_classe
mediana

160.1818181818182

### Função completa

In [42]:
def get_estatisticas(dataframe):
  media = dataset['fi.xi'].sum() / dataset['fi'].sum()
  moda = dataset[dataset['fi'] == dataset['fi'].max()]['xi'].values[0]

  fi_2 = dataset['fi'].sum() / 2
  limite_inferior, frequencia_classe, id_frequencia_anterior = 0, 0, 0
  for i, linha in enumerate(dataset.iterrows()):
    limite_inferior = linha[1][0]
    frequencia_classe = linha[1][2]
    id_frequencia_anterior = linha[0]
    if linha[1][5] >= fi_2:
      id_frequencia_anterior -= 1
      break
  Fi_anterior = dataset.iloc[[id_frequencia_anterior]]['Fi'].values[0]
  mediana = limite_inferior + ((fi_2 - Fi_anterior) * 4) / frequencia_classe

  return media, moda, mediana

In [43]:
get_estatisticas(dataset)

(160.7, 160.0, 160.1818181818182)

## Média geométrica, harmônica e quadrática

### Média geométrica

In [44]:
from scipy.stats.mstats import gmean

In [None]:
gmean(dados)

### Média harmônica

In [45]:
from scipy.stats.mstats import hmean

In [46]:
hmean(dados)

ERROR! Session/line number was not unique in database. History logging moved to new session 9


TypeError: '>=' not supported between instances of 'dict' and 'int'

### Média quadrática

In [None]:
def quadratic_mean(dados):
  return math.sqrt(sum(n * n for n in dados) / len(dados))

In [None]:
quadratic_mean(dados)

## Quartis

In [None]:
dados_impar = [150, 151, 152, 152, 153, 154, 155, 155, 155]

### Cálculo manual

In [None]:
np.median(dados_impar)

In [None]:
posicao_mediana = math.floor(len(dados_impar) / 2)
posicao_mediana

In [None]:
esquerda = dados_impar[0:posicao_mediana]
esquerda

In [None]:
np.median(esquerda)

In [None]:
direita = dados_impar[posicao_mediana + 1:]
direita

In [None]:
np.median(direita)

### Bibliotecas

#### numpy

In [None]:
np.quantile(dados_impar, 0.5)

In [None]:
np.quantile(dados_impar, 0.75)

In [None]:
np.quantile(dados_impar, 0.25)

In [None]:
esquerda2 = dados_impar[0:posicao_mediana + 1]
esquerda2

In [None]:
np.median(esquerda2)

In [None]:
np.quantile(dados, 0.25), np.quantile(dados, 0.50), np.quantile(dados, 0.75)

#### scipy

In [None]:
stats.scoreatpercentile(dados, 25), stats.scoreatpercentile(dados, 50), stats.scoreatpercentile(dados, 75)

#### pandas

In [None]:
import pandas as pd
dataset = pd.DataFrame(dados)
dataset.head()

In [None]:
dataset.quantile([0.25, 0.5, 0.75])

In [None]:
dataset.describe()

## Quartis com distribuição de frequência (dados agrupados)

In [None]:
dataset

In [None]:
def get_quartil(dataframe, q1 = True):
  if q1 == True:
    fi_4 = dataset['fi'].sum() / 4
  else:
    fi_4 = (3 * dataset['fi'].sum()) / 4
  
  limite_inferior, frequencia_classe, id_frequencia_anterior = 0, 0, 0
  for linha in dataset.iterrows():
    limite_inferior = linha[1][0]
    frequencia_classe = linha[1][2]
    id_frequencia_anterior = linha[0]
    if linha[1][5] >= fi_4:
      id_frequencia_anterior -= 1
      break
  Fi_anterior = dataset.iloc[[id_frequencia_anterior]]['Fi'].values[0]
  q = limite_inferior + ((fi_4 - Fi_anterior) * 4) / frequencia_classe

  return q

In [None]:
get_quartil(dados), get_quartil(dados, q1 = False)

## Percentis

In [None]:
np.median(dados)

In [None]:
np.quantile(dados, 0.5)

In [None]:
np.percentile(dados, 50)

In [None]:
np.percentile(dados, 5), np.percentile(dados, 10), np.percentile(dados, 90)

In [None]:
stats.scoreatpercentile(dados, 5), stats.scoreatpercentile(dados, 10), stats.scoreatpercentile(dados, 90)

In [None]:
import pandas as pd
dataset = pd.DataFrame(dados)
dataset.head()

In [None]:
dataset.quantile([0.05, 0.10, 0.90])

## Exercício

In [None]:
dataset = pd.read_csv('census.csv')

In [None]:
dataset.head()

In [None]:
dataset['age'].mean()

In [None]:
stats.hmean(dataset['age'])

In [None]:
from scipy.stats.mstats import gmean
gmean(dataset['age'])

In [None]:
quadratic_mean(dataset['age'])

In [None]:
dataset['age'].median()

In [None]:
statistics.mode(dataset['age'])

## Medidas de dispersão

### Amplitude total e diferença interquartil

In [None]:
dados

In [None]:
dados.max() - dados.min()

In [None]:
q1 = np.quantile(dados, 0.25)
q3 = np.quantile(dados, 0.75)
q1, q3

In [None]:
diferenca_interquartil = q3 - q1
diferenca_interquartil

In [None]:
inferior = q1 - (1.5 * diferenca_interquartil)
inferior

In [None]:
superior = q3 + (1.5 * diferenca_interquartil)
superior

### Variância, desvio padrão e coeficiente de variação

In [None]:
dados_impar = np.array([150, 151, 152, 152, 153, 154, 155, 155, 155])

#### Cálculo manual

In [None]:
media = dados_impar.sum() / len(dados_impar)
media

In [None]:
desvio = abs(dados_impar - media)
desvio

In [None]:
desvio = desvio ** 2
desvio

In [None]:
soma_desvio = desvio.sum()
soma_desvio

In [None]:
v = soma_desvio / len(dados_impar)
v

In [None]:
dp = math.sqrt(v)
dp

In [None]:
cv = (dp / media) * 100
cv

In [None]:
def get_variancia_desvio_padrao_coeficiente(dataset):
  media = dataset.sum() / len(dataset)
  desvio = abs(dados_impar - media)
  desvio = desvio ** 2
  soma_desvio = desvio.sum()
  variancia = soma_desvio / len(dados_impar)
  dp = math.sqrt(variancia)
  return variancia, dp, (dp / media) * 100

In [None]:
get_variancia_desvio_padrao_coeficiente(dados_impar)

#### Bibliotecas

In [None]:
np.var(dados_impar)

In [None]:
np.std(dados_impar)

In [None]:
np.var(dados)

In [None]:
np.std(dados)

In [None]:
statistics.variance(dados)

In [None]:
statistics.stdev(dados)

In [None]:
from scipy import ndimage
ndimage.variance(dados)

In [None]:
stats.tstd(dados, ddof = 0)

In [None]:
stats.variation(dados_impar) * 100

In [None]:
stats.variation(dados) * 100

### Desvio padrão com dados agrupados

In [None]:
dataset

In [None]:
dataset['xi_2'] = dataset['xi'] * dataset['xi']
dataset

In [None]:
dataset['fi_xi_2'] = dataset['fi'] * dataset['xi_2']
dataset

In [None]:
dataset.columns

In [None]:
colunas_ordenadas = ['inferior', 'superior', 'fi', 'xi', 'fi.xi', 'xi_2', 'fi_xi_2', 'Fi']

In [None]:
dataset = dataset[colunas_ordenadas]
dataset

In [None]:
dp = math.sqrt(dataset['fi_xi_2'].sum() / dataset['fi'].sum() - math.pow(dataset['fi.xi'].sum() / dataset['fi'].sum(), 2))
dp

## Testes com algoritmos de classificação

In [None]:
import pandas as pd
dataset = pd.read_csv('credit_data.csv')

In [None]:
dataset.dropna(inplace=True)
dataset.shape

In [None]:
dataset

In [None]:
X = dataset.iloc[:, 1:4].values
X

In [None]:
y = dataset.iloc[:, 4].values
y

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

In [None]:
resultados_naive_bayes = []
resultados_logistica = []
resultados_forest = []
for i in range(30):
  X_treinamento, X_teste, y_treinamento, y_teste = train_test_split(X, y, test_size = 0.2,
                                                                    stratify = y, random_state = i)
  naive_bayes = GaussianNB()
  naive_bayes.fit(X_treinamento, y_treinamento)
  resultados_naive_bayes.append(accuracy_score(y_teste, naive_bayes.predict(X_teste)))

  logistica = LogisticRegression()
  logistica.fit(X_treinamento, y_treinamento)
  resultados_logistica.append(accuracy_score(y_teste, logistica.predict(X_teste)))

  random_forest = RandomForestClassifier()
  random_forest.fit(X_treinamento, y_treinamento)
  resultados_forest.append(accuracy_score(y_teste, random_forest.predict(X_teste)))

In [None]:
print(resultados_naive_bayes)

In [None]:
print(resultados_logistica)

In [None]:
print(resultados_forest)

In [None]:
type(resultados_naive_bayes)

In [None]:
resultados_naive_bayes = np.array(resultados_naive_bayes)
resultados_logistica = np.array(resultados_logistica)
resultados_forest = np.array(resultados_forest)

In [None]:
type(resultados_naive_bayes)

### Média

In [None]:
resultados_naive_bayes.mean(), resultados_logistica.mean(), resultados_forest.mean()

### Moda

In [None]:
statistics.mode(resultados_naive_bayes)

In [None]:
stats.mode(resultados_naive_bayes), stats.mode(resultados_logistica), stats.mode(resultados_forest)

### Mediana

In [None]:
np.median(resultados_naive_bayes), np.median(resultados_logistica), np.median(resultados_forest)

### Variância

In [None]:
np.set_printoptions(suppress=True)
np.var(resultados_naive_bayes), np.var(resultados_logistica), np.var(resultados_forest)

In [None]:
np.min([8.756250000000001e-05, 0.00020933333333333337, 2.9229166666666637e-05])

In [None]:
np.max([8.756250000000001e-05, 0.00020933333333333337, 2.9229166666666637e-05])

In [None]:
resultados_forest

### Desvio padrão

In [None]:
np.std(resultados_naive_bayes), np.std(resultados_logistica), np.std(resultados_forest)

### Coeficiente de variação

In [None]:
stats.variation(resultados_naive_bayes) * 100, stats.variation(resultados_logistica) * 100, stats.variation(resultados_forest) * 100

### Exercício: validação cruzada

In [None]:
from sklearn.model_selection import cross_val_score, KFold

In [None]:
resultados_naive_bayes_cv = []
resultados_logistica_cv = []
resultados_forest_cv = []
for i in range(30):
  kfold = KFold(n_splits = 10, shuffle = True, random_state = i)
  
  naive_bayes = GaussianNB()
  scores = cross_val_score(naive_bayes, X, y, cv = kfold)
  resultados_naive_bayes_cv.append(scores.mean())

  logistica = LogisticRegression()
  scores = cross_val_score(logistica, X, y, cv = kfold)
  resultados_logistica_cv.append(scores.mean())
  
  random_forest = RandomForestClassifier()
  scores = cross_val_score(random_forest, X, y, cv = kfold)
  resultados_forest_cv.append(scores.mean())

In [None]:
scores, 10 * 30

In [None]:
scores.mean()

In [None]:
print(resultados_naive_bayes_cv)

In [None]:
print(resultados_logistica_cv)

In [None]:
print(resultados_forest_cv)

In [None]:
stats.variation(resultados_naive_bayes) * 100, stats.variation(resultados_logistica) * 100, stats.variation(resultados_forest) * 100

In [None]:
stats.variation(resultados_naive_bayes_cv) * 100, stats.variation(resultados_logistica_cv) * 100, stats.variation(resultados_forest_cv) * 100

### Seleção de atributos utilizando variância

In [None]:
np.random.rand(50)

In [None]:
np.random.randint(0, 2)

In [None]:
base_selecao = {'a': np.random.rand(20),
                'b': np.array([0.5] * 20),
                'classe': np.random.randint(0, 2, size = 20)}

In [None]:
base_selecao

In [None]:
dataset = pd.DataFrame(base_selecao)
dataset.head()

In [None]:
dataset.describe()

In [None]:
math.sqrt(0.08505323963215053)

In [None]:
np.var(dataset['a']), np.var(dataset['b'])

In [None]:
X = dataset.iloc[:, 0:2].values
X

In [None]:
from sklearn.feature_selection import VarianceThreshold

In [None]:
selecao = VarianceThreshold(threshold=0.07)
X_novo = selecao.fit_transform(X)

In [None]:
X_novo, X_novo.shape

In [None]:
selecao.variances_

In [None]:
indices = np.where(selecao.variances_ > 0.07)
indices

#### Exercício seleção de atributos utilizando variância

In [None]:
dataset = pd.read_csv('credit_data.csv')

In [None]:
dataset.dropna(inplace=True)

In [None]:
dataset.head()

In [None]:
dataset.describe()

In [None]:
X = dataset.iloc[:, 1:4].values
X

In [None]:
y = dataset.iloc[:, 4].values
y

In [None]:
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
X = scaler.fit_transform(X)

In [None]:
X

In [None]:
selecao = VarianceThreshold(threshold=0.027)
X_novo = selecao.fit_transform(X)

In [None]:
X_novo

In [None]:
np.var(X[0]), np.var(X[1]), np.var(X[2])

In [None]:
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score
naive_sem_selecao = GaussianNB()
naive_sem_selecao.fit(X, y)
previsoes = naive_sem_selecao.predict(X)
accuracy_score(previsoes, y)

In [None]:
naive_com_selecao = GaussianNB()
naive_com_selecao.fit(X_novo, y)
previsoes = naive_com_selecao.predict(X_novo)
accuracy_score(previsoes, y)

## Valores faltantes com média e moda

### Média

In [None]:
import pandas as pd
dataset = pd.read_csv('credit_data.csv')

In [None]:
dataset.isnull().sum()

In [None]:
nulos = dataset[dataset.isnull().any(axis=1)]
nulos

In [None]:
dataset['age'].mean(), dataset['age'].median()

In [None]:
dataset['age'] = dataset['age'].replace(to_replace = np.nan, value = dataset['age'].mean())

In [None]:
dataset[dataset.isnull().any(axis=1)]

### Moda

In [None]:
dataset = pd.read_csv('autos.csv', encoding='ISO-8859-1')

In [None]:
dataset.head()

In [None]:
dataset.isnull().sum()

In [None]:
dataset['fuelType'].unique()

In [None]:
stats.mode(dataset['fuelType'])

In [None]:
statistics.mode(dataset['fuelType'])

In [None]:
dataset['fuelType'] = dataset['fuelType'].replace(to_replace = np.nan, value = statistics.mode(dataset['fuelType']))

In [None]:
dataset['fuelType'].unique()