In [3]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import confusion_matrix, accuracy_score
from scipy.stats import chi2_contingency

# Carregando o dataset Iris
import statsmodels.api as sm
iris = sm.datasets.get_rdataset("iris", "datasets", cache=True).data

# Dividindo o dataset em features (X) e target (y)
X = iris.drop(columns=['Species'])
y = iris['Species']

# Dividindo em conjuntos de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Treinando o classificador
clf = RandomForestClassifier(random_state=42)
clf.fit(X_train, y_train)

# Fazendo previsões
y_pred = clf.predict(X_test)

# Matriz de Confusão para o classificador
conf_matrix = confusion_matrix(y_test, y_pred)
print('Matriz de Confusão do Classificador:')
print(conf_matrix)

# Avaliando a acurácia
accuracy = accuracy_score(y_test, y_pred)
print(f'Acurácia: {accuracy}')

# Comparando com um classificador aleatório
np.random.seed(42)
random_predictions = np.random.choice(y_train.unique(), size=y_test.shape[0])
random_conf_matrix = confusion_matrix(y_test, random_predictions)
print('Matriz de Confusão do Classificador Aleatório:')
print(random_conf_matrix)

# Calculando o teste Qui-Quadrado para o classificador
chi2, p, dof, ex = chi2_contingency(conf_matrix)
print(f'Estatística Qui-Quadrado (classificador): {chi2}')
print(f'Valor-p (classificador): {p}')
print(f'Graus de Liberdade (classificador): {dof}')
print(f'Frequências Esperadas (classificador):\n {ex}')

# Calculando o teste Qui-Quadrado para o classificador aleatório
chi2_random, p_random, dof_random, ex_random = chi2_contingency(random_conf_matrix)
print(f'Estatística Qui-Quadrado (aleatório): {chi2_random}')
print(f'Valor-p (aleatório): {p_random}')
print(f'Graus de Liberdade (aleatório): {dof_random}')
print(f'Frequências Esperadas (aleatório):\n {ex_random}')

# Interpretando o valor-p
alpha = 0.05
if p < alpha:
    print("Rejeitamos a hipótese nula. Há uma associação significativa entre as previsões do classificador e as classes reais.")
else:
    print("Não podemos rejeitar a hipótese nula. Não há evidências suficientes para afirmar que o classificador não é aleatório.")


Matriz de Confusão do Classificador:
[[19  0  0]
 [ 0 13  0]
 [ 0  0 13]]
Acurácia: 1.0
Matriz de Confusão do Classificador Aleatório:
[[8 7 4]
 [8 2 3]
 [3 5 5]]
Estatística Qui-Quadrado (classificador): 90.0
Valor-p (classificador): 1.316758547052716e-18
Graus de Liberdade (classificador): 4
Frequências Esperadas (classificador):
 [[8.02222222 5.48888889 5.48888889]
 [5.48888889 3.75555556 3.75555556]
 [5.48888889 3.75555556 3.75555556]]
Estatística Qui-Quadrado (aleatório): 4.70282487595507
Valor-p (aleatório): 0.319170269719175
Graus de Liberdade (aleatório): 4
Frequências Esperadas (aleatório):
 [[8.02222222 5.91111111 5.06666667]
 [5.48888889 4.04444444 3.46666667]
 [5.48888889 4.04444444 3.46666667]]
Rejeitamos a hipótese nula. Há uma associação significativa entre as previsões do classificador e as classes reais.


In [5]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import confusion_matrix, accuracy_score
from scipy.stats import chi2_contingency
from scipy.stats import chi2

# Carregando o dataset Wine Quality
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv"
wine_quality = pd.read_csv(url, delimiter=';')

# Dividindo o dataset em features (X) e target (y)
X = wine_quality.drop(columns=['quality'])
y = wine_quality['quality']

# Dividindo em conjuntos de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Treinando o classificador
clf = RandomForestClassifier(random_state=42)
clf.fit(X_train, y_train)

# Fazendo previsões
y_pred = clf.predict(X_test)

# Matriz de Confusão para o classificador
conf_matrix = confusion_matrix(y_test, y_pred)
print('Matriz de Confusão do Classificador:')
print(conf_matrix)

# Avaliando a acurácia
accuracy = accuracy_score(y_test, y_pred)
print(f'Acurácia: {accuracy}')

# Comparando com um classificador aleatório
np.random.seed(42)
random_predictions = np.random.choice(y_train.unique(), size=y_test.shape[0])
random_conf_matrix = confusion_matrix(y_test, random_predictions)
print('Matriz de Confusão do Classificador Aleatório:')
print(random_conf_matrix)

# Adicionando uma pequena correção para evitar zeros
conf_matrix += 1
random_conf_matrix += 1

# Calculando o teste Qui-Quadrado para o classificador
chi2, p, dof, ex = chi2_contingency(conf_matrix)
print(f'Estatística Qui-Quadrado (classificador): {chi2}')
print(f'Valor-p (classificador): {p}')
print(f'Graus de Liberdade (classificador): {dof}')
print(f'Frequências Esperadas (classificador):\n {ex}')

# Calculando o teste Qui-Quadrado para o classificador aleatório
chi2_random, p_random, dof_random, ex_random = chi2_contingency(random_conf_matrix)
print(f'Estatística Qui-Quadrado (aleatório): {chi2_random}')
print(f'Valor-p (aleatório): {p_random}')
print(f'Graus de Liberdade (aleatório): {dof_random}')
print(f'Frequências Esperadas (aleatório):\n {ex_random}')

# Interpretando o valor-p
alpha = 0.05
if p < alpha:
    print("Rejeitamos a hipótese nula. Há uma associação significativa entre as previsões do classificador e as classes reais.")
else:
    print("Não podemos rejeitar a hipótese nula. Não há evidências suficientes para afirmar que o classificador não é aleatório.")



Matriz de Confusão do Classificador:
[[  0   0   1   0   0   0]
 [  0   0  11   6   0   0]
 [  0   0 147  46   2   0]
 [  0   0  46 138  16   0]
 [  0   0   0  32  28   1]
 [  0   0   0   1   4   1]]
Acurácia: 0.6541666666666667
Matriz de Confusão do Classificador Aleatório:
[[ 0  0  0  1  0  0]
 [ 3  2  1  4  4  3]
 [40 29 29 30 34 33]
 [37 39 30 31 40 23]
 [12 10 10  9  9 11]
 [ 1  1  2  1  1  0]]
Estatística Qui-Quadrado (classificador): 310.826520490461
Valor-p (classificador): 4.017144431844431e-51
Graus de Liberdade (classificador): 25
Frequências Esperadas (classificador):
 [[8.13953488e-02 8.13953488e-02 2.86240310e+00 3.10658915e+00
  7.59689922e-01 1.08527132e-01]
 [2.67441860e-01 2.67441860e-01 9.40503876e+00 1.02073643e+01
  2.49612403e+00 3.56589147e-01]
 [2.33720930e+00 2.33720930e+00 8.21918605e+01 8.92034884e+01
  2.18139535e+01 3.11627907e+00]
 [2.39534884e+00 2.39534884e+00 8.42364341e+01 9.14224806e+01
  2.23565891e+01 3.19379845e+00]
 [7.79069767e-01 7.79069767e-01 

: 