#**Notebook 01**
- **Professor:** Iális Cavalcante
- **Monitor:** Iago Magalhães
- **Disciplina:** Ciência de dados
- **Curso:** Engenharia da Computação
- **Descrição:**
O notebook 01 apresenta de forma introdutória o algoritmo de regressão linear aplicado ao dataset 'Apple Quality'. Neste dataset algumas informações são fornecidas como ID, Tamanho, Peso, Doçura, Crocância, Suculência, Maturação, Acidez e Qualidade, através de um arquivo CSV.
Agora imagine a seguinte situação problema, o comerciante Iális deseja comprar maçãs para utilizar no restaurante universitário da UFC que demanda a compra de frutos a partir de certo tamanho. O produtor de maçãs, João Vitor, possui uma máquina que coleta informações das frutas colhidas como Tamanho, Peso, Doçura, Crocância, Suculência, Maturação, Acidez e Qualidade. Com base em seus conhecimentos de ciência de dados ajude o produtor João VItor a estimar o tamanho das maçãs utilizando o algoritmo de **regressão linear**.
Através da imagem a seguir é possível enteder o passo a passo a ser realizado para solucionar o problema.



##Instalação de bibliotecas

In [None]:
!pip install plotly --upgrade

##Importações de bibliotecas

In [None]:
import plotly.graph_objects as go
import matplotlib.pyplot as plt
import plotly.express as px
import seaborn as sns
import pandas as pd
import numpy as np

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error
from sklearn.metrics import mean_squared_error
from sklearn.metrics import max_error

##Leitura de dados

In [None]:
apples = pd.read_csv('apple_quality.csv')
apples

##Funções extras

In [None]:
def corr(df):
  '''
    Função de correlação
    :param df: recebe dataframe com os dados a serem analisados para gerar a matriz de correlação
    :return: retorna um heatmap dos dados
  '''
  figura = plt.figure(figsize=(10,5))
  return sns.heatmap(df.corr(), annot=True);

##Análise de dados

In [None]:
#Crie um código para exibir o shape da base de dados disponibilizada
apples._

(4001, 9)

In [None]:
apples.dtypes

In [None]:
#Verifique a existência de valores nulos
print(apples._._)

In [None]:
#Removendo valores nulos do dataset
apples = apples.dropna().reset_index(drop=True)
apples

In [None]:
apples.describe()

In [None]:
#Aplicando gráfico de boxplot ao campo 'Size' do dataset
plt.boxplot(apples['Size'])

In [None]:
#Analisando a correlação dos dados
apples.iloc[:, 0:-2].corr()

In [None]:
#Análise da correlação de forma gráfica
corr(apples.iloc[:, 0:-2])

##Algoritmo de Machine Learning

###Divisão de dados de treino e teste

In [None]:
#Utilizando dados de 'Acidity', 'Weight', 'Sweetness', 'Crunchiness' e 'Juiciness' para prever os dados de 'Size'
X_train, X_test, y_train, y_test = train_test_split(apples[['Acidity', 'Weight', 'Sweetness', 'Crunchiness', 'Juiciness']], apples['Size'], test_size = 0.3, random_state = 0)

In [None]:
print('Shape dos dados de treino: {}'.format(X_train.shape))
print('Shape das classes de treino: {}'.format(y_train.shape, '\n'))
print('Shape dos dados de teste: {}'.format(X_test.shape))
print('Shape das classes de teste: {}'.format(y_test.shape))

###Algoritmo de Regressão Linear

In [None]:
#Crie um algortimo de Regressão Linear
regressor_linear = _

###Treinamento do modelo

In [None]:
#Treine o modelo com a função fit
regressor_linear._

In [None]:
regressor_linear.score(X_test, y_test)

In [None]:
#Realize previsões com a função predict
previsoes = regressor_linear._
previsoes

##Visualização dos resultados

In [None]:
#Calculando ponto de interceptação
regressor_linear.intercept_

In [None]:
#Calculando valores de coenficiente
regressor_linear.coef_

In [None]:
plt.figure(figsize=(20,10))
plt.plot(np.linspace(-1, 1, len(y_test)), previsoes, label='Previsões', color='black', linewidth=1.5)
plt.plot(np.linspace(-1, 1, len(y_test)), y_test, label='Saída Original', color='red', linewidth=1.5)
plt.legend(loc="lower right")
plt.show()

In [None]:
plt.figure(figsize=(10,5))
plt.plot(np.linspace(-1, 1, 100), previsoes[0:100], label='Previsões', color='black', linewidth=1.5)
plt.plot(np.linspace(-1, 1, 100), y_test[0:100], label='Saída Original', color='red', linewidth=1.5)
plt.legend(loc="lower right")
plt.show()

In [None]:
#Calculando métricas de avaliação para modelos de regressão
print(" Erro máx. {}.\n Erro médio absoluto: {}.\n Erro quadrático absoluto: {}.\n Raiz do erro quadrático médio: {}. "
      .format(max_error(previsoes, y_test),mean_absolute_error(previsoes, y_test),
      mean_squared_error(previsoes, y_test),mean_squared_error(previsoes, y_test)
      ))

##Atividades de casa
- Configure o conjunto de dados de entrada para obter melhores desempenhos do algoritmo de regressão linear para estimar o tamanho da maça;
- Desenvolva um algoritmo utilizando regressão linear para estimar a qualidade da maça;
- Utilizando a correlação das variaveis, construa um algoritmo de regressão linear para estimar o peso da maçã.

##Referências
- [Basics charts with Plotly](https://plotly.com/python/basic-charts/)
- [Seaborn](https://seaborn.pydata.org/)
- [Entendendo correlação](https://www.significados.com.br/correlacao/)
- [Regressão Linear](https://scikit-learn.org/stable/modules/linear_model.html)
- [Métricas de avaliação](https://scikit-learn.org/stable/modules/model_evaluation.html#model-evaluation)