# **Classificador de nomes com os algoritmos: DecisionTreeClassifier + NaiveBayesClassifier**



O Decision Tree Classifier é um algoritmo de aprendizagem **supervisionada** que cria um modelo de classificação a partir de um conjunto de dados de treinamento. O modelo é uma árvore de decisão, que consiste em um conjunto de nós e ramos. ***Cada nó representa uma pergunta ou condição, e cada ramo representa uma resposta ou ação***.




***Como funciona:***

O algoritmo funciona construindo a árvore de decisão a partir do conjunto de dados de treinamento. O processo de construção começa com um nó raiz, que representa a categoria de classificação mais geral. Em seguida, o algoritmo itera sobre o conjunto de dados de treinamento, procurando por uma pergunta ou condição que possa ser usada para dividir os dados em duas categorias mais específicas.

O algoritmo continua a iterar até que todos os dados estejam divididos em categorias únicas. As categorias mais específicas são as folhas da árvore de decisão.

<img alt="Natural and artificial neurons" width="500" src="https://www.zigya.com/blog/wp-content/uploads/2021/01/dig10.png" />

**Exemplo**

Considere o seguinte conjunto de dados de treinamento:

Nome | Gênero
---|---
Ana | Feminino
João | Masculino
Maria | Feminino
Pedro | Masculino

Este conjunto de dados consiste em quatro nomes, cada um rotulado com seu gênero. O algoritmo pode ser usado para construir uma árvore de decisão que possa ser usada para classificar novos nomes como masculinos ou femininos.

O algoritmo começaria com um nó raiz que representa as duas categorias de gênero, masculino e feminino. Em seguida, o algoritmo procuraria por uma pergunta ou condição que pudesse ser usada para dividir os dados em duas categorias mais específicas, uma **feature**.

Uma pergunta possível seria: **"O nome começa ou termina com a letra A?"**. Esta pergunta dividiria os dados em duas categorias:

* Nomes que começam ou terminam a letra A: Ana, Maria
* Nomes que não começam e não terminam com a letra A: João, Pedro

O algoritmo continuaria a iterar até que todos os dados estivessem divididos em categorias únicas. No exemplo, o algoritmo chegaria a uma árvore de decisão com a seguinte estrutura:

***Nome começa com a letra A?***

    Sim?: Feminino
    Não?: Masculino

## ****Importando as bibliotecas****

In [1]:
import nltk
from nltk.corpus import names
from random import shuffle

nltk.download('names') # Baixando o conjunto de dados de nomes já etiquetados

[nltk_data] Downloading package names to /root/nltk_data...
[nltk_data]   Unzipping corpora/names.zip.


True

## ****Coletando os dados para cada categoria/genêro****

In [2]:
tagged_names = []
for name in names.words('female.txt'):
    tagged_names.append((name, 'feminino'))

for name in names.words('male.txt'):
    tagged_names.append((name, 'masculino'))

shuffle(tagged_names)

## ****Extraindo características do nome para classificação de gênero****

In [3]:
def extract_features(name):
    features = {
        'primeira_letra': name[0],
        'ultima_letra': name[-1]

    }
    return features

## ****Lista de características para cada nome + Divisão dos dados em treinamento e teste****

In [5]:
featuresets = []
for (name, category) in tagged_names:
    features = extract_features(name)
    featuresets.append((features, category))


# Divide os dados em dois conjuntos: treinamento e teste.
training_set = featuresets[800:]
testing_set = featuresets[:800]

## ****Predição para um novo nome****

In [6]:
classifier = nltk.DecisionTreeClassifier.train(training_set)

while True:
    name = input("Digite um nome: ")
    if name == "sair":
        break
    print("Previsão para", name + ":", classifier.classify(extract_features(name)))

Digite um nome: Anderson
Previsão para Anderson: masculino
Digite um nome: Marcos
Previsão para Marcos: masculino
Digite um nome: Katarina
Previsão para Katarina: feminino
Digite um nome: Mariana
Previsão para Mariana: feminino
Digite um nome: sair


In [7]:
accuracy_decisiontree = nltk.classify.accuracy(classifier, testing_set)
accuracy_decisiontree

0.7725



**Vantagens**

* Fácil de entender e implementar: O Classificador de árvore de decisão é um algoritmo relativamente simples, mas é bastante eficaz em muitos tipos de problemas de classificação. Ele é fácil de entender e de implementar, e pode ser usado para classificar dados de diferentes formatos.

* Interpretabilidade: As árvores de decisão são modelos de caixa branca, o que significa que são fáceis de interpretar. Isso pode ser útil para cientistas de dados que precisam explicar como o modelo chegou às suas conclusões.

**Desvantagens**

* Suscetibilidade ao overfitting: As árvores de decisão podem ser suscetíveis ao overfitting, o que pode prejudicar a precisão do modelo em dados novos.

* Limitações em problemas complexos: As árvores de decisão podem ter limitações em problemas complexos, como classificação multi-label.


# ***Predição com o Algoritmo:*** **NaiveBayesClassifier**


**Classificador Naive Bayes sob o capô:**

* ***Modelo Probabilístico:*** Calcula probabilidades com base no teorema de Bayes para prever classes.
* ***Suposição de independência de recursos:*** assume que os recursos são independentes, simplificando os cálculos, mas às vezes levando a imprecisões.
* ***Treinamento:*** Aprende probabilidades de características que ocorrem dentro de cada classe (por exemplo, probabilidade de “a” ser a primeira ou ultima letra em nomes femininos).Cada classe no geral (por exemplo, probabilidade de um nome ser feminino).
* ***Classificação:*** Prevê a classe com maior probabilidade, dados os recursos de entrada (nome).

In [8]:
classifier = nltk.NaiveBayesClassifier.train(training_set)

while True:
    name = input("Digite um nome: ")
    if name == "sair":
        break
    print("Previsão para", name + ":", classifier.classify(extract_features(name)))

Digite um nome: Anderson
Previsão para Anderson: masculino
Digite um nome: Brian
Previsão para Brian: masculino
Digite um nome: Bruna
Previsão para Bruna: feminino
Digite um nome: Regiane
Previsão para Regiane: feminino
Digite um nome: Mel
Previsão para Mel: feminino
Digite um nome: sair


In [11]:
accuracy_naivebayes = nltk.classify.accuracy(classifier, testing_set)
accuracy_naivebayes

0.78375

**Vantagens do NaiveBayesClassifier**

* Ganho em relação a accuracy
* Inferência mais rápida
* Têm a possibilidade de mostrar as **features** mais informativas para classificação

In [None]:
classifier.show_most_informative_features(10) # Mostrando as features mais relevantes para cada gênero

Most Informative Features
            ultima_letra = 'a'            femini : mascul =     36.7 : 1.0
            ultima_letra = 'k'            mascul : femini =     31.6 : 1.0
            ultima_letra = 'f'            mascul : femini =     15.9 : 1.0
            ultima_letra = 'p'            mascul : femini =     12.5 : 1.0
            ultima_letra = 'd'            mascul : femini =     10.4 : 1.0
            ultima_letra = 'v'            mascul : femini =      9.8 : 1.0
            ultima_letra = 'm'            mascul : femini =      8.1 : 1.0
            ultima_letra = 'o'            mascul : femini =      7.7 : 1.0
            ultima_letra = 'r'            mascul : femini =      6.9 : 1.0
            ultima_letra = 'w'            mascul : femini =      5.1 : 1.0
