In [None]:
import seaborn as sns
import pandas as pd
from sklearn import metrics
from sklearn.preprocessing import MinMaxScaler, LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression, LinearRegression
from sklearn.tree import DecisionTreeRegressor, DecisionTreeClassifier
from sklearn.neighbors import KNeighborsRegressor, KNeighborsClassifier

## Exercício 1 - Dataset "car_crashes" do seaborn

In [None]:
## Exercício 1 - Dataset "car_crashes" do seaborn

# 1) Carregar o dataset "car_crashes"do seaborn
# 2) Dropar a coluna "abbrev"
# 3) Separar o dataframe, deixando a coluna 'total' para o target (coluna objetivo - y) e o restante para o X
# 4) Normalizar todo o X
# 5) Separar os dados em treinamento e teste
# 6) Treinar um modelo linear
# 7) Treinar uma árvores de regressão
# 8) Treinar um KNN para regressão
# 9) Apresentar os resultados dos erros usando: MSE, MAE e RMSE para os 3 modelos

dataset = sns.load_dataset('car_crashes')
dataset = dataset.drop('abbrev', axis=1)

y = dataset['total']
X = dataset.drop('total', axis=1)

dataset = X.values
min_max_scaler = MinMaxScaler()
x_scaled = min_max_scaler.fit_transform(dataset)
X = pd.DataFrame(x_scaled)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

model_1 = LinearRegression()
model_2 = DecisionTreeRegressor()
model_3 = KNeighborsRegressor(n_neighbors=10, algorithm='brute', metric='euclidean')

model_1 = model_1.fit(X_train, y_train)
model_2 = model_2.fit(X_train, y_train)
model_3 = model_3.fit(X_train, y_train)

result_1 = model_1.predict(X_test)
result_2 = model_2.predict(X_test)
result_3 = model_3.predict(X_test)

In [None]:
mse_1 = metrics.mean_squared_error(result_1, y_test)
mae_1 = metrics.mean_absolute_error(result_1, y_test)
rmse_1 = metrics.root_mean_squared_error(result_1, y_test)
print('----- LinearRegression')
print(f'MSE: {mse_1:.2f}')
print(f'MAE: {mae_1:.2f}')
print(f'RMSE: {rmse_1:.2f}')

----- LinearRegression
MSE: 0.81
MAE: 0.73
RMSE: 0.90


In [None]:
mse_2 = metrics.mean_squared_error(result_2, y_test)
mae_2 = metrics.mean_absolute_error(result_2, y_test)
rmse_2 = metrics.root_mean_squared_error(result_2, y_test)
print('----- DecisionTreeRegressor')
print(f'MSE: {mse_2:.2f}')
print(f'MAE: {mae_2:.2f}')
print(f'RMSE: {rmse_2:.2f}')

----- DecisionTreeRegressor
MSE: 5.19
MAE: 2.01
RMSE: 2.28


In [None]:
mse_3 = metrics.mean_squared_error(result_3, y_test)
mae_3 = metrics.mean_absolute_error(result_3, y_test)
rmse_3 = metrics.root_mean_squared_error(result_3, y_test)
print('----- KNeighborsRegressor')
print(f'MSE: {mse_3:.2f}')
print(f'MAE: {mae_3:.2f}')
print(f'RMSE: {rmse_3:.2f}')

----- KNeighborsRegressor
MSE: 8.25
MAE: 2.13
RMSE: 2.87


## Exercício 2 - Dataset Parkinsons (dataset com 2 classes)

In [None]:
## Exercício 2 - Dataset Parkinsons (dataset com 2 classes)

# 1) Carregar o dataset "parkinsons" pela URL abaixo:

# url = "https://raw.githubusercontent.com/tmoura/machinelearning/master/parkinsons.data"

# 2) Separar os dados y e X. A coluna y é a coluna 0 (zero)
# 3) Normalizar todas as colunas de X (usando o mesmo código da questão anterior)
# 4) Separar oa dados em treinamento e teste
# 5) Treinar um modelo de regressão logística
# 6) Treinar uma árvore de decisão
# 7) Treinar um KNN para classificação
# 8) Apresentar os resultados de acurácia em percentual

url = 'https://raw.githubusercontent.com/tmoura/machinelearning/master/parkinsons.data'

dataset = pd.read_csv(url, header=None)
columns = len(dataset.columns)

y = dataset[0]
X = dataset.iloc[:, 1:columns - 1]

dataset = X.values
min_max_scaler = MinMaxScaler()
x_scaled = min_max_scaler.fit_transform(dataset)
X = pd.DataFrame(x_scaled)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, stratify=y)

model_1 = LogisticRegression()
model_2 = DecisionTreeClassifier()
model_3 = KNeighborsClassifier(n_neighbors=7, algorithm='brute', metric='euclidean')

model_1 = model_1.fit(X_train, y_train)
model_2 = model_2.fit(X_train, y_train)
model_3 = model_3.fit(X_train, y_train)

result_1 = model_1.predict(X_test)
result_2 = model_2.predict(X_test)
result_3 = model_3.predict(X_test)

In [None]:
acc_1 = metrics.accuracy_score(result_1, y_test)
acc_2 = metrics.accuracy_score(result_2, y_test)
acc_3 = metrics.accuracy_score(result_3, y_test)

print(f'----- LogistcRegression: {round(acc_1 * 100)}%')
print(f'----- DecisionTreeRegressor: {round(acc_2 * 100)}%')
print(f'----- KNeighborsRegressor: {round(acc_3 * 100)}%')

----- LogistcRegression: 90%
----- DecisionTreeRegressor: 97%
----- KNeighborsRegressor: 95%


## Exercício 3 - Dataset attention do seaborn

In [None]:
## Exercício 3 - Dataset attention do seaborn

# 1) Carregar o dataset "attention" do seaborn
# 2) Fazer um LabelEncoder na coluna "attention"
# 3) Separar o dataframe, deixando a coluna 'attention' para o target (coluna objetivo - y) e as colunas "solutions" e "score" para o X
# 4) Normalizar todo o X usando o mesmo código da questão 1
# 5) Separar os dados em treinamento e teste
# 6) Treinar um modelo de regressão logística
# 7) Treinar uma árvore de decisão
# 8) Treinar um KNN para classificação
# 9) Apresentar os resultados de acurárica em percentual

dataset = sns.load_dataset('attention')

label_encoder = LabelEncoder()
dataset['attention'] = label_encoder.fit_transform(dataset['attention'])
dataset

y = dataset['attention']
X = dataset[['solutions', 'score']]

dataset = X.values
min_max_scaler = MinMaxScaler()
x_scaled = min_max_scaler.fit_transform(dataset)
X = pd.DataFrame(x_scaled)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, stratify=y)

model_1 = LogisticRegression()
model_2 = DecisionTreeClassifier()
model_3 = KNeighborsClassifier(n_neighbors=7, algorithm='brute', metric='euclidean')

model_1 = model_1.fit(X_train, y_train)
model_2 = model_2.fit(X_train, y_train)
model_3 = model_3.fit(X_train, y_train)

result_1 = model_1.predict(X_test)
result_2 = model_2.predict(X_test)
result_3 = model_3.predict(X_test)

In [None]:
acc_1 = metrics.accuracy_score(result_1, y_test)
acc_2 = metrics.accuracy_score(result_2, y_test)
acc_3 = metrics.accuracy_score(result_3, y_test)

print(f'----- LogistcRegression: {round(acc_1 * 100)}%')
print(f'----- DecisionTreeRegressor: {round(acc_2 * 100)}%')
print(f'----- KNeighborsRegressor: {round(acc_3 * 100)}%')

----- LogistcRegression: 67%
----- DecisionTreeRegressor: 58%
----- KNeighborsRegressor: 58%
