### Questão 1:

In [None]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier

# carrega os dados
data = pd.read_csv('fruits.csv', sep=';').dropna()

# separa os dados em features e target
X = data.iloc[:, :-1].to_numpy()
y = data.iloc[:, -1].to_numpy()

# divide em conjuntos de treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# define os parâmetros para o K-Vizinhos
knn_params = {'n_neighbors': range(1, 11),
              'metric': ['euclidean', 'manhattan', 'minkowski'],
              'weights': ['uniform', 'distance']}

# define os parâmetros para a Floresta Aleatória
rf_params = {'n_estimators': [50, 100],
             'max_features': ['sqrt', 'log2'],
             'max_depth': [4, 6, 8],
             'criterion': ['gini', 'entropy']}

# define o classificador de K-Vizinhos
knn = KNeighborsClassifier()

# realiza a busca de parâmetros para o K-Vizinhos
knn_search = GridSearchCV(knn, knn_params, cv=10)
knn_search.fit(X_train, y_train)

# exibe os melhores parâmetros encontrados para o K-Vizinhos
print('Melhores parâmetros para o K-Vizinhos:')
print(knn_search.best_params_)

# define o classificador de Floresta Aleatória
rf = RandomForestClassifier()

# realiza a busca de parâmetros para a Floresta Aleatória
rf_search = GridSearchCV(rf, rf_params, cv=10)
rf_search.fit(X_train, y_train)

# exibe os melhores parâmetros encontrados para a Floresta Aleatória
print('Melhores parâmetros para a Floresta Aleatória:')
print(rf_search.best_params_)

# treina o modelo de K-Vizinhos com os melhores parâmetros encontrados
knn_best = KNeighborsClassifier(**knn_search.best_params_)
knn_best.fit(X_train, y_train)

# calcula a acurácia do modelo de K-Vizinhos
knn_acc = knn_best.score(X_test, y_test)
print('Acurácia do K-Vizinhos: {:.2f}%'.format(knn_acc * 100))

# treina o modelo de Floresta Aleatória com os melhores parâmetros encontrados
rf_best = RandomForestClassifier(**rf_search.best_params_)
rf_best.fit(X_train, y_train)

# calcula a acurácia do modelo de Floresta Aleatória
rf_acc = rf_best.score(X_test, y_test)
print('Acurácia da Floresta Aleatória: {:.2f}%'.format(rf_acc * 100))


Melhores parâmetros para o K-Vizinhos:
{'metric': 'manhattan', 'n_neighbors': 10, 'weights': 'uniform'}
Melhores parâmetros para a Floresta Aleatória:
{'criterion': 'gini', 'max_depth': 8, 'max_features': 'log2', 'n_estimators': 50}
Acurácia do K-Vizinhos: 92.50%
Acurácia da Floresta Aleatória: 94.15%


###Questão 2:

In [None]:
import pandas as pd
import numpy as np
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.metrics import r2_score

# leitura dos dados
data = pd.read_csv('Advertising.csv', header=(0))
data = data.dropna() # remove nan
data = data.drop(data.columns[[0]], axis=1) # remove the first column
# define a variável de saída
ylabel = data.columns[-1]

# separação dos dados em entrada (X) e saída (y)
X = data.drop(ylabel, axis=1)
y = data[ylabel]

# separação dos dados em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# definição dos hiperparâmetros para o grid search
rf_param_grid = {
    'max_depth': [5, 10, 20], # Maximum number of levels in each decision tree
    'max_features': ['sqrt', 'log2'], # Maximum number of features considered for splitting a node
    'min_samples_leaf': [1, 3, 4, 5], # Minimum number of data points allowed in a leaf node
    'n_estimators': [10, 50, 100] # Number of trees in the forest
}

# definição do modelo de regressão de florestas aleatórias
rf = RandomForestRegressor()

# definição do grid search com validação cruzada
grid_search_rf = GridSearchCV(rf, param_grid=rf_param_grid, cv=10, n_jobs=-1)

# ajuste do modelo aos dados de treinamento
grid_search_rf.fit(X_train, y_train)

# predição com os dados de teste
y_pred = grid_search_rf.predict(X_test)

# cálculo do coeficiente R2
r2 = r2_score(y_test, y_pred)
print("Coeficiente R2:", r2)


Coeficiente R2: 0.9254745307518176
