#**Notebook 03**
- **Professor:** Iális Cavalcante
- **Monitor:** Iago Magalhães
- **Disciplina:** Ciência de dados
- **Curso:** Engenharia da Computação
- **Descrição:**
No notebook 03 vamos avançar um pouco mais sobre os conceitos de regressão linear e entenderemos um pouco sobre outros algoritmos.
- **Questão:** A engenheira de computação, Amanda, esta trabalhando em uma empresa de aço e precisa analisar e realizar previsões sobre o uso da energia na fábrica em que ela trabalha. Utilize seus conhecimentos em regressão e realize previsões sobre o consumo de energia em kWh, selecionando o melhor conjunto de amostras para tal.



##Instalação de bibliotecas

In [None]:
!pip install plotly --upgrade

##Importações de bibliotecas

In [2]:
import plotly.graph_objects as go
import matplotlib.pyplot as plt
import plotly.express as px
import seaborn as sns
import pandas as pd
import numpy as np

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error
from sklearn.metrics import mean_squared_error
from sklearn.metrics import max_error

##Leitura de dados

In [None]:
steel = pd.read_csv('Steel_industry.csv')
steel

##Funções extras

##Análise de dados

In [4]:
steel.shape

(35041, 11)

In [None]:
steel.dtypes

In [None]:
print(steel.isnull().sum())

In [None]:
steel.describe()

In [None]:
#Aplicando gráfico de boxplot ao campo 'Usage_kWh' do dataset
plt.boxplot(steel['Usage_kWh'])

In [None]:
#Analisando a correlação dos dados
steel['Lagging_Current_Reactive.Power_kVarh', 'Leading_Current_Reactive_Power_kVarh', 'CO2(tCO2)', 'Lagging_Current_Power_Factor', 'Leading_Current_Power_Factor', 'Usage_kWh'].corr()

In [None]:
plt.figure(figsize=(20,10))
plt.plot(steel['Usage_kWh'])
plt.tick_params(axis='x', labelrotation=45)
plt.show()

##Algoritmo de Machine Learning

###Divisão de dados de treino e teste

In [11]:
#Utilizando dados de 'Lagging_Current_Reactive.Power_kVarh', 'Leading_Current_Reactive_Power_kVarh', 'CO2(tCO2)', 'Lagging_Current_Power_Factor' e 'Leading_Current_Power_Factor' para prever os dados de 'Usage_kWh'
X_train, X_test, y_train, y_test = train_test_split(steel[['Lagging_Current_Reactive.Power_kVarh', 'Leading_Current_Reactive_Power_kVarh', 'CO2(tCO2)', 'Lagging_Current_Power_Factor', 'Leading_Current_Power_Factor']], steel['Usage_kWh'], test_size = 0.3, random_state = 0)

In [None]:
print('Shape dos dados de treino: {}'.format(X_train.shape))
print('Shape das classes de treino: {}'.format(y_train.shape, '\n'))
print('Shape dos dados de teste: {}'.format(X_test.shape))
print('Shape das classes de teste: {}'.format(y_test.shape))

###Algoritmo de Regressão Linear

In [13]:
#Crie um algortimo de Regressão Linear
regressor_linear = LinearRegression()

###Treinamento do modelo

In [None]:
#Treine o modelo com a função fit
regressor_linear.fit(X_train, y_train)

In [None]:
regressor_linear.score(X_test, y_test)

In [None]:
#Realize previsões com a função predict
previsoes = regressor_linear.predict(X_test)
previsoes

##Visualização dos resultados

In [None]:
#Calculando ponto de interceptação
regressor_linear.intercept_

In [None]:
#Calculando valores de coenficiente
regressor_linear.coef_

In [None]:
plt.figure(figsize=(20,10))
plt.plot(np.linspace(-1, 1, len(y_test)), previsoes, label='Previsões', color='black', linewidth=1.5)
plt.plot(np.linspace(-1, 1, len(y_test)), y_test, label='Saída Original', color='red', linewidth=1.5)
plt.legend(loc="lower right")
plt.show()

In [None]:
plt.figure(figsize=(10,5))
plt.plot(np.linspace(-1, 1, 10), previsoes[0:10], label='Previsões', color='black', linewidth=1.5)
plt.plot(np.linspace(-1, 1, 10), y_test[0:10], label='Saída Original', color='red', linewidth=1.5)
plt.legend(loc="lower right")
plt.show()

In [None]:
#Calculando métricas de avaliação para modelos de regressão
print(" Erro máx. {}.\n Erro médio absoluto: {}.\n Erro quadrático absoluto: {}.\n Raiz do erro quadrático médio: {}. "
      .format(max_error(previsoes, y_test),mean_absolute_error(previsoes, y_test),
      mean_squared_error(previsoes, y_test),mean_squared_error(previsoes, y_test)
      ))

##Referências
- [Dataset Steel](https://www.kaggle.com/datasets/nimapourmoradi/steel-dataset/data)
- [Basics charts with Plotly](https://plotly.com/python/basic-charts/)
- [Seaborn](https://seaborn.pydata.org/)
- [Entendendo correlação](https://www.significados.com.br/correlacao/)
- [Regressão Linear](https://scikit-learn.org/stable/modules/linear_model.html)
- [Métricas de avaliação](https://scikit-learn.org/stable/modules/model_evaluation.html#model-evaluation)