**-----------------------------------------------------------------------------------------------------------------------**

## **Arquivo principal**

#### **Nesse arquivo tem toda a solução pensada em formato .ipynb**

**-----------------------------------------------------------------------------------------------------------------------**

## **Explicação breve sobre o principal componente**

**Linear Regression:** *Linear Regression é uma técnica estatística usada para modelar a relação entre uma variável dependente (y) e uma ou mais variáveis independentes (x). O objetivo é encontrar a equação de uma linha reta que melhor descreve a relação linear entre as variáveis, permitindo que se faça previsões sobre a variável dependente com base nos valores conhecidos da variável independente. Essa equação é conhecida como a equação de regressão e pode ser usada para prever novos valores da variável dependente com base nos valores conhecidos da variável independente. O método de regressão linear é amplamente utilizado em diversas áreas, como finanças, economia, ciência de dados e engenharia, e é uma das técnicas mais básicas e simples de aprendizado supervisionado em machine learning.*

In [1]:
'''
NECESSIDADE 01:
Esse código tem como objetivo preencher dados faltantes em uma base de dados usando
um modelo de regressão linear treinado com as linhas que não possuem dados faltantes. 
Ele carrega os dados de um arquivo CSV, encontra a coluna com dados faltantes e as 
linhas correspondentes, treina um modelo de regressão linear com as linhas sem dados faltantes,
preenche os valores faltantes usando o modelo treinado, verifica se ainda há dados faltantes
e, se não houver, salva o modelo treinado.
'''

# Importar bibliotecas necessárias
import  pandas                  as pd 
import  joblib
from    sklearn.linear_model    import LinearRegression


# Carregar os dados
data = pd.read_csv('dados_modificados 1.csv')

# Encontrar a coluna com dados faltantes
coluna_com_faltantes = data.columns[data.isnull().any()].tolist()[0]

# Encontrar as linhas com dados faltantes
linhas_com_faltantes = data[data[coluna_com_faltantes].isnull()]

# Pegar as linhas sem dados faltantes e treinar um modelo para preencher os valores faltantes
linhas_sem_faltantes = data.dropna(subset=[coluna_com_faltantes])
X_train = linhas_sem_faltantes.drop(coluna_com_faltantes, axis=1)
y_train = linhas_sem_faltantes[coluna_com_faltantes]
model = LinearRegression()
model.fit(X_train, y_train)

# Preencher os valores faltantes usando o modelo treinado
X_test = linhas_com_faltantes.drop(coluna_com_faltantes, axis=1)
y_pred = model.predict(X_test)

# Substituir os valores faltantes pelos valores previstos
data.loc[data[coluna_com_faltantes].isnull(), coluna_com_faltantes] = y_pred

# Verificar se ainda há dados faltantes
if data.isnull().any().any():
    print("Ainda há dados faltantes na base de dados.")
else:
    print("Todos os dados faltantes foram preenchidos com sucesso.")

# Salvar o modelo treinado
joblib.dump(model, 'linear_regression_model.joblib')

# Indicar que o modelo foi treinado com sucesso
print("O modelo foi treinado com sucesso!")



Todos os dados faltantes foram preenchidos com sucesso.
O modelo foi treinado com sucesso!


## **Explicação breve sobre os principais componentes**

1. **Random Forest:** *Random Forest é um algoritmo de aprendizado de máquina supervisionado que combina várias árvores de decisão independentes e aleatórias para criar um modelo mais robusto e geral. Ele é frequentemente utilizado para tarefas de classificação, regressão e detecção de anomalias em grandes conjuntos de dados com muitas variáveis. A técnica envolve a construção de árvores de decisão aleatórias durante o treinamento, usando a técnica de bagging e a escolha aleatória de subconjuntos de recursos para serem usados em cada divisão de nó. A diversidade resultante aumenta a robustez do modelo, permitindo que ele capture com mais eficiência os padrões e relacionamentos complexos nos dados. Random Forest é popular porque é relativamente fácil de usar, pode lidar com dados ausentes e é resistentes a valores atípicos e ruídos nos dados.*

2. **KNNImputer:** *KNNImputer é uma técnica de imputação de dados que utiliza o algoritmo K-Nearest Neighbors (KNN) para preencher valores faltantes em um conjunto de dados. O método KNNImputer substitui os valores faltantes pela média ou mediana dos k vizinhos mais próximos do ponto de dados com valor faltante. Essa técnica é útil quando os dados faltantes não estão em um padrão específico e os valores ausentes precisam ser estimados com base nos valores das outras variáveis. O KNNImputer é implementado na biblioteca scikit-learn do Python e é uma das várias técnicas de imputação de dados disponíveis para tratar valores ausentes em conjuntos de dados.*

3. **Accuracy:** *Accuracy é uma métrica comum utilizada para avaliar a precisão de um modelo de aprendizado de máquina. É definida como a proporção de predições corretas feitas pelo modelo em relação ao total de predições. É calculada dividindo o número de predições corretas pelo número total de exemplos de teste. A accuracy é uma medida útil quando as classes do conjunto de dados estão equilibradas, ou seja, possuem aproximadamente a mesma quantidade de exemplos em cada classe. No entanto, pode ser enganosa quando há um desequilíbrio significativo entre as classes, pois o modelo pode ter uma alta accuracy simplesmente prevendo a classe majoritária. Nesses casos, outras métricas como precision, recall e F1-score podem ser mais adequadas. A accuracy é amplamente utilizada para avaliar a performance de modelos de classificação, mas deve ser usada com cuidado e em conjunto com outras métricas para uma avaliação mais completa e precisa.*

In [2]:
'''
NECESSIDADE 02:
Este código tem como objetivo treinar um modelo de Floresta Aleatória usando o conjunto 
de dados de cogumelos para prever se os cogumelos são venenosos ou não. Ele começa 
carregando os dados de um arquivo CSV, dividindo-os em conjuntos de treinamento e teste
e verificando se há valores faltantes. Se houver valores faltantes, eles são preenchidos 
usando um imputador KNN. Em seguida, um modelo de Floresta Aleatória é treinado 
usando o conjunto de treinamento e ajustando seus hiperparâmetros com o Grid Search. 
O modelo treinado é salvo em um arquivo. Finalmente, o modelo é carregado a partir do 
arquivo para fazer previsões com o conjunto de teste e avaliar sua precisão.
'''

# Importar bibliotecas necessárias
import  pandas                      as pd
import  joblib
from    sklearn.model_selection     import train_test_split
from    sklearn.impute              import KNNImputer
from    sklearn.ensemble            import RandomForestClassifier
from    sklearn.model_selection     import GridSearchCV
from    sklearn.metrics             import accuracy_score


# Carregar os dados
data = pd.read_csv('dados_modificados 1.csv')

# Dividir os dados em conjunto de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(data.drop('Venenoso', axis=1), data['Venenoso'], test_size=0.2, random_state=42)

# Verificar valores faltantes
if X_train.isnull().sum().sum() == 0 and X_test.isnull().sum().sum() == 0:
    print("Não há valores faltantes nos dados.")
else:
    # Preencher os valores faltantes com um imputador KNN
    imputer = KNNImputer()
    X_train_imputed = imputer.fit_transform(X_train)
    X_test_imputed = imputer.transform(X_test)

# Treinar um modelo de Random Forest com Grid Search para ajustar os hiperparâmetros
parameters = {
    'n_estimators': [50, 100, 200],
    'max_depth': [5, 10, 15],
    'min_samples_split': [2, 5, 10]
}
model = RandomForestClassifier(random_state=42)
grid_search = GridSearchCV(model, parameters, cv=5)
grid_search.fit(X_train_imputed, y_train)

# Salvar o modelo treinado
joblib.dump(grid_search, 'Random_Forest.joblib')

# Indicar que o modelo foi treinado com sucesso
print("O modelo foi treinado com sucesso!")

# Usar o modelo para fazer previsões
model = joblib.load('Random_Forest.joblib')
y_pred = model.predict(X_test_imputed)

# Avaliar a precisão do modelo com o conjunto de teste
accuracy = accuracy_score(y_test, y_pred)
print("Precisão do modelo: {:.2f}%".format(accuracy * 100))


O modelo foi treinado com sucesso!
Precisão do modelo: 92.95%
