# Intervalos de confiança e classificação

In [None]:
import pandas as pd
import numpy as np
import seaborn as srn
import matplotlib.pyplot as plt
from scipy import stats
import math
srn.set()
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import cross_val_score, KFold

In [None]:
dataset = pd.read_csv('Bases de dados/credit_data.csv')
dataset.dropna(inplace=True)
print(dataset.shape)
dataset.head()

In [None]:
X = dataset.iloc[:, 1:4].values
y = dataset.iloc[:, 4].values
X.shape, y.shape

In [None]:
resultados_naive_bayes_cv = []
resultados_naive_bayes_cv_300 = []
resultados_logistica_cv = []
resultados_logistica_cv_300 = []
resultados_forest_cv = []
resultados_forest_cv_300 = []

for i in range(30):
    kfold = KFold(n_splits=10, shuffle=True, random_state=i)
    
    naive_bayes = GaussianNB()
    scores = cross_val_score(naive_bayes, X, y, cv=kfold)
    resultados_naive_bayes_cv_300.append(scores)
    resultados_naive_bayes_cv.append(scores.mean())
    
    logistic = LogisticRegression()
    scores = cross_val_score(logistic, X, y, cv=kfold)
    resultados_logistica_cv_300.append(scores)
    resultados_logistica_cv.append(scores.mean())
    
    forest = RandomForestClassifier()
    scores = cross_val_score(forest, X, y, cv=kfold)
    resultados_forest_cv_300.append(scores)
    resultados_forest_cv.append(scores.mean())

In [None]:
resultados_naive_bayes_cv = np.array( resultados_naive_bayes_cv)
resultados_naive_bayes_cv_300 = np.array(np.asarray(resultados_naive_bayes_cv_300).reshape(-1))
resultados_logistica_cv = np.array(resultados_logistica_cv)
resultados_logistica_cv_300 = np.array(np.asarray(resultados_logistica_cv_300).reshape(-1))
resultados_forest_cv = np.array(resultados_forest_cv)
resultados_forest_cv_300 = np.array(np.asarray(resultados_forest_cv_300).reshape(-1))

In [None]:
fig, ax = plt.subplots(2, 3, figsize=(14,8))
srn.histplot(resultados_naive_bayes_cv, ax=ax[0,0]);
srn.histplot(resultados_naive_bayes_cv_300, ax=ax[1,0]);
srn.histplot(resultados_logistica_cv, ax=ax[0,1]);
srn.histplot(resultados_logistica_cv_300, ax=ax[1,1] );
srn.histplot(resultados_forest_cv, ax=ax[0,2]);
srn.histplot(resultados_forest_cv_300, ax=ax[1,2]);

In [None]:
print('Média: \n')
print(f'Naive-bayes: {resultados_naive_bayes_cv.mean()}')
print(f'Regressão Logística: {resultados_logistica_cv.mean()}')
print(f'Random Forest: {resultados_forest_cv.mean()}')

In [None]:
print('Variação dos resultados: \n')
print(f'Naive-bayes: {stats.variation(resultados_naive_bayes_cv)*100}')
print(f'Regressão Logística: {stats.variation(resultados_logistica_cv)*100}')
print(f'Random Forest: {stats.variation(resultados_forest_cv)*100}')

## Intervalos de confiança

In [None]:
from scipy.stats import t, norm

### Naive Bayes

In [None]:
intervalos_nb_t = t.interval(0.956,
                             len(resultados_naive_bayes_cv)-1,
                             resultados_naive_bayes_cv.mean(), 
                             stats.sem(resultados_naive_bayes_cv, ddof=0))
intervalos_nb_t

In [None]:
# Margem de erro
abs(resultados_naive_bayes_cv.mean() - intervalos_nb_t[1])

In [None]:
intervalos_nb_n = norm.interval(0.956,
                             resultados_naive_bayes_cv.mean(), 
                             stats.sem(resultados_naive_bayes_cv, ddof=0))
intervalos_nb_n

In [None]:
# Margem de erro
abs(resultados_naive_bayes_cv.mean() - intervalos_nb_n[1])

### Regressão Logística

In [None]:
intervalos_rl_t = t.interval(0.956,
                             len(resultados_logistica_cv)-1,
                             resultados_logistica_cv.mean(), 
                             stats.sem(resultados_logistica_cv, ddof=0))
intervalos_rl_t

In [None]:
# Margem de erro
abs(resultados_logistica_cv.mean() - intervalos_rl_t[1])

In [None]:
intervalos_rl_n = norm.interval(0.95,
                             resultados_logistica_cv.mean(), 
                             stats.sem(resultados_logistica_cv, ddof=0))
intervalos_rl_n

In [None]:
# Margem de erro
abs(resultados_logistica_cv.mean() - intervalos_rl_n[1])

### Random Forest

In [None]:
intervalos_rf_t = t.interval(0.95,
                             len(resultados_forest_cv)-1,
                             resultados_forest_cv.mean(), 
                             stats.sem(resultados_forest_cv, ddof=0))
intervalos_rf_t

In [None]:
# Margem de erro
abs(resultados_forest_cv.mean() - intervalos_rf_t[1])

In [None]:
intervalos_rf_n = norm.interval(0.95,
                             resultados_forest_cv.mean(), 
                             stats.sem(resultados_forest_cv, ddof=0))
intervalos_rf_n

In [None]:
# Margem de erro
abs(resultados_forest_cv.mean() - intervalos_rf_n[1])

Temos 95% de confiança de que a média de acertos do Random Forest está no intervalo entre 98.65-98.66 e 98.77-98.78

Testando:

In [None]:
kfold = KFold(n_splits=10, shuffle=True)
random_forest = RandomForestClassifier()
socre = cross_val_score(random_forest, X, y, cv=kfold)
print(scores.mean())

Já mostrou uma valor fora do intervalo!

## Teste de hipótese Z

In [None]:
dados = np.array([126. , 129.5, 133. , 133. , 136.5, 136.5, 140. , 140. , 140. ,
                  140. , 143.5, 143.5, 143.5, 143.5, 143.5, 143.5, 147. , 147. ,
                  147. , 147. , 147. , 147. , 147. , 150.5, 150.5, 150.5, 150.5,
                  150.5, 150.5, 150.5, 150.5, 154. , 154. , 154. , 154. , 154. ,
                  154. , 154. , 154. , 154. , 157.5, 157.5, 157.5, 157.5, 157.5,
                  157.5, 157.5, 157.5, 157.5, 157.5, 161. , 161. , 161. , 161. ,
                  161. , 161. , 161. , 161. , 161. , 161. , 164.5, 164.5, 164.5,
                  164.5, 164.5, 164.5, 164.5, 164.5, 164.5, 168. , 168. , 168. ,
                  168. , 168. , 168. , 168. , 168. , 171.5, 171.5, 171.5, 171.5,
                  171.5, 171.5, 171.5, 175. , 175. , 175. , 175. , 175. , 175. ,
                  178.5, 178.5, 178.5, 178.5, 182. , 182. , 185.5, 185.5, 189., 192.5])
print(len(dados))
#dados

In [None]:
h0_media = np.mean(dados)
h0_desvio_padrao = np.std(dados)
h0_media, h0_desvio_padrao

In [None]:
dados_novos = dados * 1.03

In [None]:
h1_media = np.mean(dados_novos)
h1_desvio_padrao = np.std(dados_novos)
h1_media, h1_desvio_padrao

In [None]:
H1_n = len(dados_novos)
H0_n = len(dados)
alpha = 0.05

### Teste manual

In [None]:
Z = (h1_media - h0_media) / (h1_desvio_padrao / math.sqrt(H1_n))
Z

In [None]:
Z = norm.cdf(Z)
Z

In [None]:
p = 1 - Z
p

In [None]:
if p < alpha:
    print('Rejeitar hipótese nula')
else:
    print('Rejeita hipótese alternativa')

### Teste com statsmodels

In [None]:
from statsmodels.stats.weightstats import ztest

In [None]:
_, p = ztest(dados, 
             dados_novos, 
             value = h1_media - h0_media, 
             alternative='larger')
p = 1 - p

In [None]:
if p < alpha:
    print('Rejeitar hipótese nula')
else:
    print('Rejeita hipótese alternativa')

## Exercício - T student

In [None]:
df = np.array([149. , 160., 147., 189., 175., 168., 156., 160., 152.])
df.shape

In [None]:
df_2 = df * 1.02

In [None]:
from scipy.stats import ttest_rel

In [None]:
_, p = ttest_rel(df, df_2)
p

In [None]:
alpha = 0.01
if p < alpha:
    print('Rejeitar hipótese nula')
else:
    print('Rejeita hipótese alternativa')

## Qui Quadrado

In [None]:
from scipy.stats import chi2_contingency

In [None]:
tabela = np.array([[30, 20], [22, 29]])
df_tabela = pd.DataFrame(tabela, 
             columns=['Visão computacional', 'Algoritmos de busca'], 
             index=['Homens', "Mulheres"])
print(df_tabela.shape)
df_tabela

In [None]:
p = chi2_contingency(tabela)[1]
freq_esperada = chi2_contingency(tabela)[3]
p

In [None]:
alpha = 0.05
if p <= alpha:
    print('Rejeitar hipótese nula')
else:
    print('Rejeitar hipótese alternativa')

Ou seja, não há diferença estatística significativa nesse conjunto de dados (eles não dizem nada).

## Qui quadrado - seleção de atributos

In [None]:
from sklearn.feature_selection import SelectFdr
from sklearn.feature_selection import chi2

In [None]:
dataset = pd.read_csv('Bases de dados/ad.data', header=None)
print(dataset.shape)
dataset.head()

In [None]:
X = dataset.iloc[:, 0:1558].values
y = dataset.iloc[:, 1558].values
X.shape, y.shape

In [None]:
np.unique(y, return_counts=True)

In [None]:
naive1 = GaussianNB()
naive1.fit(X, y)
previsoes1 = naive1.predict(X)
accuracy_score(previsoes1, y)

In [None]:
selecao = SelectFdr(chi2, alpha=0.01)
X_novo = selecao.fit_transform(X, y)

In [None]:
X_novo.shape, y.shape   # reduziu X de 1558 para 433 atributos

In [None]:
selecao.pvalues_, len(selecao.pvalues_), np.sum(selecao.pvalues_ <= 0.01)

In [None]:
colunas = selecao.get_support()
print(colunas.shape)
indices = np.where(colunas == True)
len(indices[0])

In [None]:
naive2 = GaussianNB()
naive2.fit(X_novo, y)
previsoes2 = naive2.predict(X_novo)
accuracy_score(previsoes2, y)

Melhorou!

## ANOVA - Análise de variância