# Projeto de Classificação de Gênero por Nome

## Descrição do Projeto
    O objetivo deste projeto é prever o gênero (masculino ou feminino) com base no nome fornecido. Para isso, utilizamos um modelo de árvore de decisão, uma técnica de aprendizado de máquina supervisionado, implementada com o auxílio da biblioteca scikit-learn em Python.

## Dataset
    O conjunto de dados utilizado consiste em uma lista de nomes acompanhados por seus respectivos gêneros. O dataset foi pré-processado para remover duplicatas e mapear os gêneros para valores numéricos (0 para feminino e 1 para masculino).

## Técnica Utilizada
    Optamos por utilizar a técnica de árvore de decisão devido à sua simplicidade e capacidade de lidar com problemas de classificação. A árvore de decisão é uma ferramenta intuitiva que pode ser facilmente visualizada e interpretada, o que é importante ao lidar com problemas onde a interpretabilidade do modelo é desejada.

## Implementação
    O código foi implementado em Python utilizando a biblioteca pandas para manipulação dos dados e scikit-learn para a criação e treinamento do modelo de árvore de decisão. O conjunto de dados é carregado, pré-processado e utilizado para treinar o modelo. Em seguida, o usuário fornece um nome e o modelo faz a previsão do gênero correspondente.

Este projeto visa demonstrar como utilizar técnicas de aprendizado de máquina para tarefas de classificação simples, como a predição de gênero com base em características específicas, como nomes.



In [2]:
import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.preprocessing import LabelEncoder


def read_pandas(path):

    df = pd.read_csv(path)

    df.columns = ['Nomes', 'Sexo']
    df.drop_duplicates(subset='Nomes', inplace=True)
    df.reset_index(drop=True, inplace=True)

    df['Sexo'] = df['Sexo'].map({"F": 0, "M": 1})

    return df

def train(nome):
    df = read_pandas(path)
    label_encoder = LabelEncoder()

    df['Nomes_Encodados'] = label_encoder.fit_transform(df['Nomes'])

    X = df[['Nomes_Encodados']]
    Y = df['Sexo']

    clf = DecisionTreeClassifier()
    clf.fit(X, Y)

    try: 
        nome_codificado = label_encoder.transform([nome])
        entrada_previsao = [[nome_codificado[0]]]

        previsao = clf.predict(entrada_previsao)

        sexo = f'O nome {nome} é masculino' if previsao[0] == 1 else f'O nome {nome} é feminino'
        return print(sexo)
    except ValueError:
        return print(f"{nome} não é um nome de verdade!")




In [3]:
path = "/home/cricka/repositorio/formacao_ciencia_dados/ciencia_dados/classificador_nomes/dataset/names/name_gender_all.csv"
nome = input("Entre com um nome para saber: ").capitalize()

df = read_pandas(path)
if not df.empty:
    train(nome)
else:
    print("Erro ao ler o arquivo CSV ou DataFrame vazio.")

O nome Maria é feminino


