#**Notebook 02**
- **Professor:** Iális Cavalcante
- **Monitor:** Iago Magalhães
- **Disciplina:** Ciência de dados
- **Curso:** Engenharia da Computação
- **Descrição:**
No notebook 02 continuaremos aprendendo sobre reressão linear. Agora iremos aplicar este algoritmo a base de dados 'WorlCup 2022' que tras informações sobre a copa do mundo de futebol masculino de 2022. Neste dataset algumas informações são fornecidas como Times, Gols, Assitências e outras informações primodiais através de um arquivo CSV. Neste exemplo básico iremos explorar um pouco os dados presentes no dataset e realizar a previsão do número de gols com base em alguns atributos.



##Instalação de bibliotecas

In [None]:
!pip install plotly --upgrade

##Importações de bibliotecas

In [2]:
import plotly.graph_objects as go
import matplotlib.pyplot as plt
import plotly.express as px
import seaborn as sns
import pandas as pd
import numpy as np

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error
from sklearn.metrics import mean_squared_error
from sklearn.metrics import max_error

##Leitura de dados

In [None]:
worldcup = pd.read_csv('2022worldcup.csv')
worldcup

##Funções extras

##Análise de dados

In [None]:
#Crie um código para exibir o shape da base de dados disponibilizada
worldcup.shape

In [None]:
worldcup.dtypes

In [None]:
#Verifique a existência de valores nulos
print(worldcup.isnull().sum())

In [None]:
worldcup.describe()

In [None]:
#Aplicando gráfico de boxplot ao campo 'Age' do dataset
plt.boxplot(worldcup['Age'])

In [None]:
#Aplicando gráfico de boxplot ao campo 'Gls' do dataset
plt.boxplot(worldcup['Gls'])

In [None]:
#Analisando a correlação dos dados
worldcup.corr()

In [None]:
plt.figure(figsize=(20,10))
plt.plot(worldcup['Squad'], worldcup['Age'])
plt.tick_params(axis='x', labelrotation=45)
plt.show()

In [None]:
plt.figure(figsize=(20,10))
plt.plot(worldcup['Squad'], worldcup['Gls'])
plt.tick_params(axis='x', labelrotation=45)
plt.show()

##Algoritmo de Machine Learning

###Divisão de dados de treino e teste

In [23]:
#Utilizando dados de 'Acidity', 'Weight', 'Sweetness', 'Crunchiness' e 'Juiciness' para prever os dados de 'Size'
X_train, X_test, y_train, y_test = train_test_split(worldcup[['Age', 'Poss', 'Ast']], worldcup['Gls'], test_size = 0.3, random_state = 0)

In [None]:
print('Shape dos dados de treino: {}'.format(X_train.shape))
print('Shape das classes de treino: {}'.format(y_train.shape, '\n'))
print('Shape dos dados de teste: {}'.format(X_test.shape))
print('Shape das classes de teste: {}'.format(y_test.shape))

###Algoritmo de Regressão Linear

In [26]:
#Crie um algortimo de Regressão Linear
regressor_linear = LinearRegression()

###Treinamento do modelo

In [None]:
#Treine o modelo com a função fit
regressor_linear.fit(X_train, y_train)

In [None]:
regressor_linear.score(X_test, y_test)

In [None]:
#Realize previsões com a função predict
previsoes = regressor_linear.predict(X_test)
previsoes

##Visualização dos resultados

In [None]:
#Calculando ponto de interceptação
regressor_linear.intercept_

In [None]:
#Calculando valores de coenficiente
regressor_linear.coef_

In [None]:
plt.figure(figsize=(20,10))
plt.plot(np.linspace(-1, 1, len(y_test)), previsoes, label='Previsões', color='black', linewidth=1.5)
plt.plot(np.linspace(-1, 1, len(y_test)), y_test, label='Saída Original', color='red', linewidth=1.5)
plt.legend(loc="lower right")
plt.show()

In [None]:
plt.figure(figsize=(10,5))
plt.plot(np.linspace(-1, 1, 10), previsoes, label='Previsões', color='black', linewidth=1.5)
plt.plot(np.linspace(-1, 1, 10), y_test, label='Saída Original', color='red', linewidth=1.5)
plt.legend(loc="lower right")
plt.show()

In [None]:
#Calculando métricas de avaliação para modelos de regressão
print(" Erro máx. {}.\n Erro médio absoluto: {}.\n Erro quadrático absoluto: {}.\n Raiz do erro quadrático médio: {}. "
      .format(max_error(previsoes, y_test),mean_absolute_error(previsoes, y_test),
      mean_squared_error(previsoes, y_test),mean_squared_error(previsoes, y_test)
      ))

##Referências
- [Dataset World Cup 2022](https://www.kaggle.com/datasets/greysonmb/2022-world-cup-stats)
- [Basics charts with Plotly](https://plotly.com/python/basic-charts/)
- [Seaborn](https://seaborn.pydata.org/)
- [Entendendo correlação](https://www.significados.com.br/correlacao/)
- [Regressão Linear](https://scikit-learn.org/stable/modules/linear_model.html)
- [Métricas de avaliação](https://scikit-learn.org/stable/modules/model_evaluation.html#model-evaluation)