<a href="https://colab.research.google.com/github/katiacardoso/Selector_Hat/blob/main/SelectorHat_DecisionTreeClassifier.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [8]:
import requests
from io import StringIO
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.tree import DecisionTreeClassifier
from sklearn.pipeline import Pipeline
from sklearn.metrics import classification_report
from sklearn.model_selection import train_test_split

#importação dos dados
url = 'https://raw.githubusercontent.com/katiacardoso/Selector_Hat/main/dataset.csv'

# Baixar o conteúdo do arquivo usando requests
response = requests.get(url)

# Verificar se a requisição foi bem-sucedida
if response.status_code == 200:
    # Criar um objeto pandas DataFrame a partir do conteúdo baixado
    data = pd.read_csv(StringIO(response.text), usecols=['Name', 'House'], delimiter=';')
    # Agora você pode usar o DataFrame 'data' normalmente
else:
    print("Falha ao baixar o arquivo. Código de status:", response.status_code)




## Validação do pré processamento dos nomes

In [26]:
# Pré-processamento dos nomes usando CountVectorizer
vectorizer = CountVectorizer(analyzer='char', ngram_range=(2, 3))  # Convertendo nomes em vetores de caracteres (bigramas e trigramas)
name_vectors = vectorizer.fit_transform(data['Name'])

# Visualize as características (tokens) e suas representações numéricas
features = vectorizer.get_feature_names_out()
print("Características (tokens):", features)
print("Representações numéricas dos nomes:")
for idx, name in enumerate(data['Name']):
    print(f"{name}: {name_vectors[idx].toarray()}")

Características (tokens): [' (' ' (g' ' (m' ... 'zab' 'zac' 'zar']
Representações numéricas dos nomes:
Harry James Potter: [[0 0 0 ... 0 0 0]]
Ronald Bilius Weasley: [[0 0 0 ... 0 0 0]]
Hermione Jean Granger: [[0 0 0 ... 0 0 0]]
Albus Percival Wulfric Brian Dumbledore: [[0 0 0 ... 0 0 0]]
Rubeus Hagrid: [[0 0 0 ... 0 0 0]]
Neville Longbottom: [[0 0 0 ... 0 0 0]]
Fred Weasley: [[0 0 0 ... 0 0 0]]
George Weasley: [[0 0 0 ... 0 0 0]]
Ginevra (Ginny) Molly Weasley: [[1 1 0 ... 0 0 0]]
Dean Thomas: [[0 0 0 ... 0 0 0]]
Seamus Finnigan: [[0 0 0 ... 0 0 0]]
Lily J. Potter: [[0 0 0 ... 0 0 0]]
James Potter: [[0 0 0 ... 0 0 0]]
Sirius Black: [[0 0 0 ... 0 0 0]]
Remus John Lupin: [[0 0 0 ... 0 0 0]]
Peter Pettigrew: [[0 0 0 ... 0 0 0]]
Percy Ignatius Weasley: [[0 0 0 ... 0 0 0]]
(Bill) William Arthur Weasley: [[0 0 0 ... 0 0 0]]
Charles Weasley: [[0 0 0 ... 0 0 0]]
Lee Jordan : [[0 0 0 ... 0 0 0]]
Oliver Wood: [[0 0 0 ... 0 0 0]]
Angelina Johnson: [[0 0 0 ... 0 0 0]]
Katie Bell: [[0 0 0 ... 0 0 0

## Validação dos dados de treinamento e dados de treino

In [28]:
# Divida os dados em conjuntos de treino e teste (por exemplo, 80% para treino, 20% para teste)
X_train, X_test, y_train, y_test = train_test_split(data['Name'], data['House'], test_size=0.2, random_state=42)

# Verifique o tamanho dos conjuntos de treino e teste
print("Tamanho do conjunto de treino:", len(X_train))
print("Tamanho do conjunto de teste:", len(X_test))

# Verifique algumas amostras dos conjuntos de treino e teste
print("Amostras do conjunto de treino:")
print(X_train.head())
print(y_train.head())

print("\nAmostras do conjunto de teste:")
print(X_test.head())
print(y_test.head())

Tamanho do conjunto de treino: 77
Tamanho do conjunto de teste: 20
Amostras do conjunto de treino:
49                         Bellatrix Lestrange
70                Nicholas de Mimsy-Porpington
68                           Godric Gryffindor
15                             Peter Pettigrew
39    Myrtle Elizabeth Warren (Moaning Myrtle)
Name: Name, dtype: object
49     Slytherin
70    Gryffindor
68    Gryffindor
15    Gryffindor
39     Ravenclaw
Name: House, dtype: object

Amostras do conjunto de teste:
62                Bloody Baron
40                 Padma Patil
93    Scorpius Hyperion Malfoy
18             Charles Weasley
81             Zacharias Smith
Name: Name, dtype: object
62     Slytherin
40     Ravenclaw
93     Slytherin
18    Gryffindor
81    Hufflepuff
Name: House, dtype: object


In [6]:
# Criando um pipeline com CountVectorizer e MultinomialNB (classificador Naive Bayes)
pipeline = Pipeline([
    ('vectorizer', CountVectorizer(analyzer='char', ngram_range=(2, 3))),  # Convertendo nomes em vetores de caracteres
    ('classifier', MultinomialNB())  # Usando o classificador Naive Bayes
])

# Separando dados em conjunto de treino e teste
X_train, X_test, y_train, y_test = train_test_split(data['Name'], data['House'], test_size=0.2, random_state=42)

# Treinando o modelo
pipeline.fit(X_train, y_train)

# Fazendo previsões
user_input = input("Digite o nome do usuário: ")
predicted_house = pipeline.predict([user_input])[0]
print(f'O usuário pertence à casa: {predicted_house}')

# Relatório de classificação
y_pred = pipeline.predict(X_test)
print("Relatório de Classificação:\n", classification_report(y_test, y_pred))

# Relatório em relação aos dados de treino
y_pred_train = pipeline.predict(X_train)
print("Relatório de Classificação (dados de treino):\n", classification_report(y_train, y_pred_train))


Digite o nome do usuário: Hermione
O usuário pertence à casa: Gryffindor
Relatório de Classificação:
               precision    recall  f1-score   support

  Gryffindor       0.67      0.67      0.67         9
  Hufflepuff       0.00      0.00      0.00         3
   Ravenclaw       0.25      0.20      0.22         5
   Slytherin       0.43      1.00      0.60         3

    accuracy                           0.50        20
   macro avg       0.34      0.47      0.37        20
weighted avg       0.43      0.50      0.45        20

Relatório de Classificação (dados de treino):
               precision    recall  f1-score   support

  Gryffindor       1.00      1.00      1.00        29
  Hufflepuff       1.00      1.00      1.00        10
   Ravenclaw       1.00      0.92      0.96        13
   Slytherin       0.96      1.00      0.98        25

    accuracy                           0.99        77
   macro avg       0.99      0.98      0.99        77
weighted avg       0.99      0.99   

  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


# Arvore de Decisão

- Até o momento foi o qu deu mais certo, mas está designando para apenas uma casa, então farei algumas validações


## Visualização dos dados


In [23]:
import matplotlib.pyplot as plt

# Contar o número de amostras em cada classe
class_count = data['House'].value_counts()

# Exibir a contagem de amostras em cada classe
print("Contagem de Amostras por Classe:")
print(class_count)

Contagem de Amostras por Classe:
Gryffindor    38
Slytherin     28
Ravenclaw     18
Hufflepuff    13
Name: House, dtype: int64


## Visualizar rotulação

In [25]:
# Liste as casas únicas no conjunto de dados
unique_houses = data['House'].unique()
print("Casas de Hogwarts no Conjunto de Dados:")
for house in unique_houses:
    print(house)

Casas de Hogwarts no Conjunto de Dados:
Gryffindor
Ravenclaw
Slytherin
Hufflepuff


In [34]:
from imblearn.over_sampling import SMOTE



# Criando um pipeline com CountVectorizer e DecisionTreeClassifier (árvore de decisão)
pipeline = Pipeline([
    ('vectorizer', CountVectorizer(analyzer='char', ngram_range=(2, 3))),  # Convertendo nomes em vetores de caracteres
    ('classifier', DecisionTreeClassifier(max_depth=5, min_samples_leaf=1, min_samples_split=2, ccp_alpha=0.01, random_state=42))  # Usando árvore de decisão com ajuste de hiperparâmetros e regularização
])

# Separando dados em conjunto de treino e teste
X_train, X_test, y_train, y_test = train_test_split(data['Name'], data['House'], test_size=0.2, random_state=42)

# Treinando o modelo
pipeline.fit(X_train, y_train)

# Fazendo previsões
user_input = input("Digite o nome do usuário: ")
predicted_house = pipeline.predict([user_input])[0]
print(f'O usuário pertence à casa: {predicted_house}')

# Avaliação do modelo
accuracy = pipeline.score(X_test, y_test)
print(f'Acurácia do modelo: {accuracy:.2f}')

# Relatório de classificação
y_pred = pipeline.predict(X_test)
print("Relatório de Classificação:\n", classification_report(y_test, y_pred))

# Relatório em relação aos dados de treino
y_pred_train = pipeline.predict(X_train)
print("Relatório de Classificação (dados de treino):\n", classification_report(y_train, y_pred_train))

Digite o nome do usuário: Katia 
O usuário pertence à casa: Gryffindor
Acurácia do modelo: 0.55
Relatório de Classificação:
               precision    recall  f1-score   support

  Gryffindor       0.64      0.78      0.70         9
  Hufflepuff       0.00      0.00      0.00         3
   Ravenclaw       0.50      0.40      0.44         5
   Slytherin       0.40      0.67      0.50         3

    accuracy                           0.55        20
   macro avg       0.38      0.46      0.41        20
weighted avg       0.47      0.55      0.50        20

Relatório de Classificação (dados de treino):
               precision    recall  f1-score   support

  Gryffindor       0.49      1.00      0.66        29
  Hufflepuff       0.00      0.00      0.00        10
   Ravenclaw       1.00      0.38      0.56        13
   Slytherin       1.00      0.52      0.68        25

    accuracy                           0.61        77
   macro avg       0.62      0.48      0.47        77
weighted avg 

  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
