In [52]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from sklearn.linear_model import LinearRegression

class Modelo():
    def __init__(self):
        pass

    def CarregarDataset(self, path):
        """
        Carrega o conjunto de dados a partir de um arquivo CSV.

        Parâmetros:
        - path (str): Caminho para o arquivo CSV contendo o dataset.

        O dataset é carregado com as seguintes colunas: SepalLengthCm, SepalWidthCm, PetalLengthCm, PetalWidthCm e Species.
        """
        modelo = Modelo()
        modelo.CarregarDataset('/content/drive/MyDrive/python usp/iris.data')
        names = ['SepalLengthCm', 'SepalWidthCm', 'PetalLengthCm', 'PetalWidthCm', 'Species']
        self.df = pd.read_csv(path, names=names)

        print("Dataset carregado com sucesso!")
        print(self.df.head())  # Mostra as primeiras linhas para verificação


In [53]:
class Modelo:
    def __init__(self):
        self.df = None

    def CarregarDataset(self, path):
        colunas = ['SepalLengthCm', 'SepalWidthCm', 'PetalLengthCm', 'PetalWidthCm', 'Species']
        self.df = pd.read_csv(path, header=None, names=colunas)

    def TratamentoDeDados(self):
        """
        Realiza o pré-processamento dos dados carregados.

        Sugestões para o tratamento dos dados:
            * Utilize `self.df.head()` para visualizar as primeiras linhas e entender a estrutura.
            * Verifique a presença de valores ausentes e faça o tratamento adequado.
            * Considere remover colunas ou linhas que não são úteis para o treinamento do modelo.

        Dicas adicionais:
            * Explore gráficos e visualizações para obter insights sobre a distribuição dos dados.
            * Certifique-se de que os dados estão limpos e prontos para serem usados no treinamento do modelo.
        """
        # 1. Visualizar o início do dataset
        print("Visualização inicial dos dados:")
        print(self.df.head())  # Mostra as primeiras linhas para análise

        # 2. Verificar e tratar dados faltantes
        print("\nVerificando valores ausentes:")
        missing_data = self.df.isnull().sum()  # Conta valores nulos em cada coluna
        print(missing_data)  # Exibe contagem de valores nulos

        # Se houver dados faltantes, pode-se optar por eliminar ou preencher
        if missing_data.any():
            print("\nTratando valores ausentes:")
            # Exemplo: preenche valores ausentes com a média da coluna
            self.df.fillna(self.df.mean(numeric_only=True), inplace=True)
            print("Valores ausentes preenchidos com a média nas colunas numéricas.")

        # 3. Análise e seleção de colunas
        # Neste caso, todas as colunas são relevantes para o dataset Iris
        # Mas se fosse necessário, poderíamos descartar ou modificar algumas colunas aqui
        print("\nDados após o pré-processamento:")
        print(self.df.head())

        # Verifica dados estatísticos (útil para entender as distribuições e identificar outliers)
        print("\nEstatísticas descritivas dos dados:")
        print(self.df.describe())



In [54]:
    def Treinamento(self):
        """
        Treina o modelo de machine learning.

        Detalhes:
            * Utilize a função `train_test_split` para dividir os dados em treinamento e teste.
            * Escolha o modelo de machine learning que queira usar. Lembrando que não precisa ser SMV e Regressão linear.
            * Experimente técnicas de validação cruzada (cross-validation) para melhorar a acurácia final.

        Nota: Esta função deve ser ajustada conforme o modelo escolhido.
        """
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score


    def CarregarDataset(self, path):
        colunas = ['SepalLengthCm', 'SepalWidthCm', 'PetalLengthCm', 'PetalWidthCm', 'Species']
        self.df = pd.read_csv(path, header=None, names=colunas)

    def TratamentoDeDados(self):
        # Visualizar o início do dataset
        print("Visualização inicial dos dados:")
        print(self.df.head())

        # Tratar dados faltantes
        if self.df.isnull().values.any():
            print("Tratamento de valores ausentes")
            self.df.fillna(self.df.mean(numeric_only=True), inplace=True)

        # Codificar a coluna 'Species' para valores numéricos
        from sklearn.preprocessing import LabelEncoder
        label_encoder = LabelEncoder()
        self.df['Species'] = label_encoder.fit_transform(self.df['Species'])
        self.label_encoder = label_encoder

        # Separar features (X) e labels (y)
        self.X = self.df[['SepalLengthCm', 'SepalWidthCm', 'PetalLengthCm', 'PetalWidthCm']]
        self.y = self.df['Species']

    def Treinamento(self, modelo_escolhido="SVC"):
        """
        Treina o modelo de machine learning.

        Parâmetros:
        - modelo_escolhido (str): Define qual modelo usar. Padrão é 'SVC'.
        """
        # Dividir o dataset em treino e teste
        X_train, X_test, y_train, y_test = train_test_split(self.X, self.y, test_size=0.2, random_state=42)

        # Escolha e treino do modelo
        if modelo_escolhido == "SVC":
            self.model = SVC(kernel='linear')  # Configura um SVM com kernel linear
        elif modelo_escolhido == "KNN":
            from sklearn.neighbors import KNeighborsClassifier
            self.model = KNeighborsClassifier(n_neighbors=5)
        else:
            raise ValueError("Modelo não suportado. Escolha 'SVC' ou 'KNN'.")

        # Treinando o modelo
        self.model.fit(X_train, y_train)
        print(f"Modelo {modelo_escolhido} treinado com sucesso.")

        # Validação cruzada para avaliar o desempenho do modelo
        scores = cross_val_score(self.model, X_train, y_train, cv=5)
        print(f"Acurácia média na validação cruzada (5-fold): {scores.mean():.2f}")

        # Armazenando o conjunto de teste para a avaliação
        self.X_test = X_test
        self.y_test = y_test

    def Teste(self):
        """
        Avalia o desempenho do modelo treinado nos dados de teste.
        """
        # Avaliação do modelo no conjunto de teste
        y_pred = self.model.predict(self.X_test)
        accuracy = accuracy_score(self.y_test, y_pred)
        print(f"Acurácia no conjunto de teste: {accuracy:.2f}")


In [55]:
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, classification_report, confusion_matrix

class Modelo:
    def __init__(self):
        self.df = None
        self.model = None
        self.X_test = None
        self.y_test = None

    def CarregarDataset(self, path):
        colunas = ['SepalLengthCm', 'SepalWidthCm', 'PetalLengthCm', 'PetalWidthCm', 'Species']
        self.df = pd.read_csv(path, header=None, names=colunas)

    def TratamentoDeDados(self):
        print("Visualização inicial dos dados:")
        print(self.df.head())

        if self.df.isnull().values.any():
            print("Tratamento de valores ausentes")
            self.df.fillna(self.df.mean(numeric_only=True), inplace=True)

        from sklearn.preprocessing import LabelEncoder
        label_encoder = LabelEncoder()
        self.df['Species'] = label_encoder.fit_transform(self.df['Species'])
        self.label_encoder = label_encoder

        self.X = self.df[['SepalLengthCm', 'SepalWidthCm', 'PetalLengthCm', 'PetalWidthCm']]
        self.y = self.df['Species']

    def Treinamento(self, modelo_escolhido="SVC"):
        from sklearn.model_selection import train_test_split, cross_val_score
        from sklearn.svm import SVC
        from sklearn.neighbors import KNeighborsClassifier

        X_train, X_test, y_train, y_test = train_test_split(self.X, self.y, test_size=0.2, random_state=42)

        if modelo_escolhido == "SVC":
            self.model = SVC(kernel='linear')
        elif modelo_escolhido == "KNN":
            self.model = KNeighborsClassifier(n_neighbors=5)
        else:
            raise ValueError("Modelo não suportado. Escolha 'SVC' ou 'KNN'.")

        self.model.fit(X_train, y_train)
        print(f"Modelo {modelo_escolhido} treinado com sucesso.")

        scores = cross_val_score(self.model, X_train, y_train, cv=5)
        print(f"Acurácia média na validação cruzada (5-fold): {scores.mean():.2f}")

        self.X_test = X_test
        self.y_test = y_test

    def Teste(self):
        """
        Avalia o desempenho do modelo treinado nos dados de teste.

        Calcula e exibe a acurácia, precisão, revocação e F1-score, além de uma matriz de confusão.
        """
        if self.model is None or self.X_test is None or self.y_test is None:
            print("Erro: O modelo precisa ser treinado antes de realizar os testes.")
            return

        # Realiza previsões no conjunto de teste
        y_pred = self.model.predict(self.X_test)

        # Calcula métricas de avaliação
        accuracy = accuracy_score(self.y_test, y_pred)
        precision = precision_score(self.y_test, y_pred, average='weighted')
        recall = recall_score(self.y_test, y_pred, average='weighted')
        f1 = f1_score(self.y_test, y_pred, average='weighted')

        print("\nResultados no conjunto de teste:")
        print(f"Acurácia: {accuracy:.2f}")
        print(f"Precisão: {precision:.2f}")
        print(f"Revocação: {recall:.2f}")
        print(f"F1-Score: {f1:.2f}")

        # Relatório de classificação completo
        print("\nRelatório de Classificação:")
        print(classification_report(self.y_test, y_pred, target_names=self.label_encoder.classes_))

        # Matriz de confusão
        print("\nMatriz de Confusão:")
        print(confusion_matrix(self.y_test, y_pred))



In [56]:
    def Train(self):
        """
        Função principal para o fluxo de treinamento do modelo.

        Este método encapsula as etapas de carregamento de dados, pré-processamento e treinamento do modelo.
        Sua tarefa é garantir que os métodos `CarregarDataset`, `TratamentoDeDados` e `Treinamento` estejam implementados corretamente.

        Notas:
            * O dataset padrão é "iris.data", mas o caminho pode ser ajustado.
            * Caso esteja executando fora do Colab e enfrente problemas com o path, use a biblioteca `os` para gerenciar caminhos de arquivos.
        """
        self.CarregarDataset("iris.data")  # Carrega o dataset especificado.

        # Tratamento de dados opcional, pode ser comentado se não for necessário
        self.TratamentoDeDados()

        self.Treinamento()  # Executa o treinamento do modelo

# Lembre-se de instanciar as classes após definir suas funcionalidades
# Recomenda-se criar ao menos dois modelos (e.g., Regressão Linear e SVM) para comparar o desempenho.
# A biblioteca já importa LinearRegression e SVC, mas outras escolhas de modelo são permitidas.

In [57]:
import os

class Modelo:
    def __init__(self):
        self.df = None
        self.model = None
        self.X = None
        self.y = None
        self.X_test = None
        self.y_test = None

    def CarregarDataset(self, path):
        colunas = ['SepalLengthCm', 'SepalWidthCm', 'PetalLengthCm', 'PetalWidthCm', 'Species']
        self.df = pd.read_csv(path, header=None, names=colunas)

    def TratamentoDeDados(self):
        print("Visualização inicial dos dados:")
        print(self.df.head())

        if self.df.isnull().values.any():
            print("Tratamento de valores ausentes")
            self.df.fillna(self.df.mean(numeric_only=True), inplace=True)

        from sklearn.preprocessing import LabelEncoder
        label_encoder = LabelEncoder()
        self.df['Species'] = label_encoder.fit_transform(self.df['Species'])
        self.label_encoder = label_encoder

        self.X = self.df[['SepalLengthCm', 'SepalWidthCm', 'PetalLengthCm', 'PetalWidthCm']]
        self.y = self.df['Species']

    def Treinamento(self, modelo_escolhido="SVC"):
        from sklearn.model_selection import train_test_split, cross_val_score
        from sklearn.svm import SVC
        from sklearn.neighbors import KNeighborsClassifier

        X_train, X_test, y_train, y_test = train_test_split(self.X, self.y, test_size=0.2, random_state=42)

        if modelo_escolhido == "SVC":
            self.model = SVC(kernel='linear')
        elif modelo_escolhido == "KNN":
            self.model = KNeighborsClassifier(n_neighbors=5)
        else:
            raise ValueError("Modelo não suportado. Escolha 'SVC' ou 'KNN'.")

        self.model.fit(X_train, y_train)
        print(f"Modelo {modelo_escolhido} treinado com sucesso.")

        scores = cross_val_score(self.model, X_train, y_train, cv=5)
        print(f"Acurácia média na validação cruzada (5-fold): {scores.mean():.2f}")

        self.X_test = X_test
        self.y_test = y_test

    def Teste(self):
        from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, classification_report, confusion_matrix

        if self.model is None or self.X_test is None or self.y_test is None:
            print("Erro: O modelo precisa ser treinado antes de realizar os testes.")
            return

        y_pred = self.model.predict(self.X_test)

        accuracy = accuracy_score(self.y_test, y_pred)
        precision = precision_score(self.y_test, y_pred, average='weighted')
        recall = recall_score(self.y_test, y_pred, average='weighted')
        f1 = f1_score(self.y_test, y_pred, average='weighted')

        print("\nResultados no conjunto de teste:")
        print(f"Acurácia: {accuracy:.2f}")
        print(f"Precisão: {precision:.2f}")
        print(f"Revocação: {recall:.2f}")
        print(f"F1-Score: {f1:.2f}")

        print("\nRelatório de Classificação:")
        print(classification_report(self.y_test, y_pred, target_names=self.label_encoder.classes_))

        print("\nMatriz de Confusão:")
        print(confusion_matrix(self.y_test, y_pred))

    def Train(self, path="iris.data", modelo_escolhido="SVC"):
        """
        Função principal para o fluxo de treinamento e teste do modelo.

        Parâmetros:
        - path (str): Caminho para o arquivo CSV contendo o dataset.
        - modelo_escolhido (str): Define qual modelo usar para o treinamento ('SVC' ou 'KNN').

        Notas:
            * Certifique-se de que o arquivo está acessível no caminho especificado.
            * Caso o caminho tenha problemas, use a biblioteca `os` para verificar a existência do arquivo.
        """
        if not os.path.exists(path):
            print(f"Erro: O arquivo '{path}' não foi encontrado.")
            return

        print("Carregando dataset...")
        self.CarregarDataset(path)

        print("Iniciando o pré-processamento dos dados...")
        self.TratamentoDeDados()

        print("Treinando o modelo...")
        self.Treinamento(modelo_escolhido)

        print("Testando o modelo...")
        self.Teste()


In [58]:
# Exemplo de uso do modelo
modelo = Modelo()
modelo.CarregarDataset('/content/drive/MyDrive/python usp/iris.data')
modelo.TratamentoDeDados()
modelo.Treinamento(modelo_escolhido="SVC")
modelo.Teste()

Visualização inicial dos dados:
   SepalLengthCm  SepalWidthCm  PetalLengthCm  PetalWidthCm      Species
0            5.1           3.5            1.4           0.2  Iris-setosa
1            4.9           3.0            1.4           0.2  Iris-setosa
2            4.7           3.2            1.3           0.2  Iris-setosa
3            4.6           3.1            1.5           0.2  Iris-setosa
4            5.0           3.6            1.4           0.2  Iris-setosa
Modelo SVC treinado com sucesso.
Acurácia média na validação cruzada (5-fold): 0.96

Resultados no conjunto de teste:
Acurácia: 1.00
Precisão: 1.00
Revocação: 1.00
F1-Score: 1.00

Relatório de Classificação:
                 precision    recall  f1-score   support

    Iris-setosa       1.00      1.00      1.00        10
Iris-versicolor       1.00      1.00      1.00         9
 Iris-virginica       1.00      1.00      1.00        11

       accuracy                           1.00        30
      macro avg       1.00      1.0

In [59]:
# Exemplo de uso da classe Modelo com o fluxo Train completo
modelo = Modelo()
modelo.Train(path="/content/drive/MyDrive/python usp/iris.data", modelo_escolhido="SVC")


Carregando dataset...
Iniciando o pré-processamento dos dados...
Visualização inicial dos dados:
   SepalLengthCm  SepalWidthCm  PetalLengthCm  PetalWidthCm      Species
0            5.1           3.5            1.4           0.2  Iris-setosa
1            4.9           3.0            1.4           0.2  Iris-setosa
2            4.7           3.2            1.3           0.2  Iris-setosa
3            4.6           3.1            1.5           0.2  Iris-setosa
4            5.0           3.6            1.4           0.2  Iris-setosa
Treinando o modelo...
Modelo SVC treinado com sucesso.
Acurácia média na validação cruzada (5-fold): 0.96
Testando o modelo...

Resultados no conjunto de teste:
Acurácia: 1.00
Precisão: 1.00
Revocação: 1.00
F1-Score: 1.00

Relatório de Classificação:
                 precision    recall  f1-score   support

    Iris-setosa       1.00      1.00      1.00        10
Iris-versicolor       1.00      1.00      1.00         9
 Iris-virginica       1.00      1.00      