In [209]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import LabelEncoder
from sklearn.linear_model import LogisticRegression
from sklearn import metrics
from sklearn.ensemble import HistGradientBoostingClassifier
from sklearn.neighbors import KNeighborsClassifier

class Modelo():
    def __init__(self):
        self = self

    def CarregarDataset(self, path):
        """
        Carrega o conjunto de dados a partir de um arquivo CSV.

        Parâmetros:
        - path (str): Caminho para o arquivo CSV contendo o dataset.

        O dataset é carregado com as seguintes colunas: SepalLengthCm, SepalWidthCm, PetalLengthCm, PetalWidthCm e Species.
        """
        names = ['SepalLengthCm', 'SepalWidthCm', 'PetalLengthCm', 'PetalWidthCm', 'Species']
        try:
          self.df = pd.read_csv(path, names=names)
          print("Dataset carregado com sucesso.\n")
        except FileNotFoundError:
          print("Arquivo não encontrado. Verifique o caminho especificado.\n")

    def TratamentoDeDados(self):
        """
        Realiza o pré-processamento dos dados carregados.

        Sugestões para o tratamento dos dados:
            * Utilize `self.df.head()` para visualizar as primeiras linhas e entender a estrutura.
            * Verifique a presença de valores ausentes e faça o tratamento adequado.
            * Considere remover colunas ou linhas que não são úteis para o treinamento do modelo.

        Dicas adicionais:
            * Explore gráficos e visualizações para obter insights sobre a distribuição dos dados.
            * Certifique-se de que os dados estão limpos e prontos para serem usados no treinamento do modelo.
        """
        # print(self.df.isnull().sum().sum()) # Sem valores NaN

        # Transformando os valores em rótulos de 0 a 2
        encoder = LabelEncoder()
        obj_cols = ['Species']

        values = self.df[obj_cols[0]].values
        encoder.fit(values)
        self.df[obj_cols[0]] = encoder.transform(values)


    def Treinamento(self):
        """
        Treina o modelo de machine learning.

        Detalhes:
            * Utilize a função `train_test_split` para dividir os dados em treinamento e teste.
            * Escolha o modelo de machine learning que queira usar. Lembrando que não precisa ser SMV e Regressão linear.
            * Experimente técnicas de validação cruzada (cross-validation) para melhorar a acurácia final.

        Nota: Esta função deve ser ajustada conforme o modelo escolhido.
        """
        self.X=self.df.drop('Species', axis=1)  # Features (todas as colunas exceto a de alvo)
        self.y=self.df['Species']

        self.X_train,self.X_test,self.y_train,self.y_test=train_test_split(self.X,self.y,test_size=0.2)


    def Teste(self):
        """
        Avalia o desempenho do modelo treinado nos dados de teste.

        Esta função deve ser implementada para testar o modelo e calcular métricas de avaliação relevantes,
        como acurácia, precisão, ou outras métricas apropriadas ao tipo de problema.
        """
        logreg=LogisticRegression()
        logreg.fit(self.X_train,self.y_train)


        y_pred=logreg.predict(self.X_test)
        print('Precisão de Regressão Logistica:')
        print(metrics.accuracy_score(self.y_test,y_pred))
        print('Score:')
        print(logreg.score(self.X, self.y))

        lreg=HistGradientBoostingClassifier()
        lreg.fit(self.X_train,self.y_train)


        y_pred=lreg.predict(self.X_test)
        print('Precisão de Gradiente Booster:')
        print(metrics.accuracy_score(self.y_test,y_pred))
        print('Score:')
        print(lreg.score(self.X, self.y))

        knn=KNeighborsClassifier(n_neighbors=5)
        knn.fit(self.X_train,self.y_train)

        y_pred=knn.predict(self.X_test)
        print('Precisao do KNN com 5 vizinhos')
        print(metrics.accuracy_score(self.y_test,y_pred))
        print('Score:')
        print(knn.score(self.X, self.y))

    def Train(self):
        """
        Função principal para o fluxo de treinamento do modelo.

        Este método encapsula as etapas de carregamento de dados, pré-processamento e treinamento do modelo.
        Sua tarefa é garantir que os métodos `CarregarDataset`, `TratamentoDeDados` e `Treinamento` estejam implementados corretamente.

        Notas:
            * O dataset padrão é "iris.data", mas o caminho pode ser ajustado.
            * Caso esteja executando fora do Colab e enfrente problemas com o path, use a biblioteca `os` para gerenciar caminhos de arquivos.
        """
        self.CarregarDataset("iris.data")  # Carrega o dataset especificado.

        # Tratamento de dados opcional, pode ser comentado se não for necessário
        self.TratamentoDeDados()

        self.Treinamento()  # Executa o treinamento do modelo

        self.Teste()

# Lembre-se de instanciar as classes após definir suas funcionalidades
# Recomenda-se criar ao menos dois modelos (e.g., Regressão Linear e SVM) para comparar o desempenho.
# A biblioteca já importa LinearRegression e SVC, mas outras escolhas de modelo são permitidas.

In [95]:
!git clone https://github.com/Dkmister/USP-Projeto-Final/

Cloning into 'USP-Projeto-Final'...
remote: Enumerating objects: 11, done.[K
remote: Counting objects: 100% (11/11), done.[K
remote: Compressing objects: 100% (9/9), done.[K
remote: Total 11 (delta 1), reused 0 (delta 0), pack-reused 0 (from 0)[K
Receiving objects: 100% (11/11), 16.70 KiB | 2.78 MiB/s, done.
Resolving deltas: 100% (1/1), done.


In [96]:
%cd USP-Projeto-Final/
!ls

/content/USP-Projeto-Final/USP-Projeto-Final
iris.data  LICENSE  main.py  README.md


In [207]:

model = Modelo()



In [208]:
model.Train()

Dataset carregado com sucesso.
Precisão de Regressão Logistica:
0.9666666666666667
Score:
0.96
Precisão de Gradiente Booster:
0.9666666666666667
Score:
0.9933333333333333
Precisao do KNN com 5 vizinhos
0.9666666666666667
Score:
0.9733333333333334


# Conclusões





*   Pode se perceber que todos métodos tem valores bem altos de predição, dependendo da iteração, um algoritmo é melhor que outro, mas não há uma diferença nítida.
*   O método de Gradiente Booster teve uma eficácia menor que os outros métodos em algumas iterações.
*   Parece que as vezes o KNN tem um overfit, conseguindo uma acurácia de 100%
*   Foi necessário LabelEncoder para fazer a limpagem dos dados
*   Não foi encontrado nenhum valor NaN no dataset.
*   Acurácia varia muito dependendo do tamanho de treino.
