# Pontifícia Universidade Católica do Paraná
## Disciplina: Técnicas de Machine Learning
## Alunos: Douglas Branco Pessanha Lopes e Fábio Henrique dos Santos
## Atividade Somativa 2

Este notebook faz parte de um processo seletivo para estaǵio em uma grande consultoria. Como forma de demonstrar conhecimentos em python e algorítimos de machine learning, foram fornecidas uma série de datasets para que os autores pudessem escolher um e analisá-lo com a finalidade de extrair conhecimentos de um modelo.
O dataset escolhido foi "nba_stats". Ele traz diversas estatísticas de jogodores de basquete da NBA no período de 1950 até 2017. Com base nas informações disponíveis foi desenvolvido um algorítimo capaz de prever o "winshares" do jogador.

In [71]:
#bibliotecas importadas
import pandas as pd # manipular datasets
from sklearn.model_selection import train_test_split #fazer a divisão entre treinamento e teste
from sklearn.svm import SVR #faz regressões possibilitando realizar predições
from sklearn.preprocessing import RobustScaler #usado para converter textos ("strings") em dados numéricos
from sklearn.preprocessing import OrdinalEncoder #usado para converter textos ("strings") em dados numéricos
from sklearn.metrics import * #usado para calcular perfomance do modelo
from sklearn.pipeline import Pipeline # cria os pipelines

Abaixo temos algumas informações do dataset. As categorias analisada são facilmente compreendidas por quem acompanha basquete e entende inglês. O dataset possui 24624 linhas e 22 colunas 

In [72]:
df_nba_stats = pd.read_csv("nba_stats.csv") #transformação de um aquivo csv num dataframe manupulável com a biblioteca pandas
df_nba_stats.info() #fornece as informações sobre o dataset

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 24624 entries, 0 to 24623
Data columns (total 22 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   Ano                           24624 non-null  int64  
 1   Posicao                       24624 non-null  object 
 2   Idade                         24616 non-null  float64
 3   Jogos                         24624 non-null  int64  
 4   TrueShootingPercentage        24538 non-null  float64
 5   FreeThrowRate                 24525 non-null  float64
 6   OffensiveWinShares            24585 non-null  float64
 7   DefensiveWinShares            24585 non-null  float64
 8   WinShares                     24585 non-null  float64
 9   FieldGoals                    24624 non-null  int64  
 10  FieldGoalAttempts             24624 non-null  int64  
 11  FieldGoalPercentage           24525 non-null  float64
 12  TwoPointFieldGoals            24624 non-null  int64  
 13  T

Em seguida é feita a separação dos dados entre treino e teste, realizado os treinamento dos dados e mostradas as predições. Posteriormente são utilizadas métricas para medir a acurácia do modelo

In [73]:
df_nba_stats = df_nba_stats.drop(columns = ["Ano"]) #optou-se por eliminar a coluna ano por não interfir no modelo
df_nba_stats = df_nba_stats.dropna() #optou-se por eliminar os valores nulos por causar pouco impacto no modelo

In [74]:
#separa o dataframe entre treino e teste. A categoria alvo, aquela que estamos tentando prever, é a "WinShares"
X_train, X_test, y_train, y_test = train_test_split(df_nba_stats.drop("WinShares", axis=1), df_nba_stats["WinShares"], test_size=0.25)

In [75]:
#cria-se o pipeline que encapsula o código facilitando seu uso posterior em novos datasets com informações semelhantes
#dentro do pipeline estão os códigos para transformar os dados necessários no dataframe e para realizar o treinamento
pipe_SVR = Pipeline([('encoder', OrdinalEncoder(handle_unknown='use_encoded_value', unknown_value=-1)),
                        ('scaler', RobustScaler()),
                        ('modelo', SVR())]).fit(X_train, y_train)

In [76]:
#executa o pipiline e mostra as predições
y_pred_SVR = pipe_SVR.predict(X_test)
display(f'Resultados de y_pred_SVR: {y_pred_SVR}')

'Resultados de y_pred_SVR: [0.12300268 0.04412869 1.02676665 ... 0.09031499 0.21070444 4.19805293]'

In [77]:
#São utilizadas duas métricas diferentes pra medir a acuracia do modelo
display(f"MSE: {mean_squared_error(y_test, y_pred_SVR)}")
display(f"RMSE: {mean_squared_error(y_test, y_pred_SVR, squared=False)}")

'MSE: 0.9115328152350494'

'RMSE: 0.9547422768658824'

## Conclusões
As duas métricas utilizadas para verificar a acurácia do modelo são: MSE(mean squared error) e RMSE(root mean squared error). Quanto mais próximo de 0 melhor o modelo, e não há límite superior. É possível dizer que o modelo possui boa acuracia de acordo com as métricas utilizadas, todavia quase sempre é possível melhorar um algorítimo. Pode-se utilizar treinamentos de hiperparâmetros para buscar combinações melhores de parâmetros que afetam modelos.
As métricas de regressão também podem ser usadas para séries temporais.
