## Importações

In [None]:
import pandas as pd
import seaborn as sns
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score, accuracy_score
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.preprocessing import StandardScaler

In [None]:
#Fução besta apenas para mostrar o número em um quadrado bonitinho
def show_box(value):
  sns.set(font_scale=2)
  sns.heatmap([[value]], annot=True)
  sns.set(font_scale=1)

## Separar Previssores de Classes

In [None]:
X = np.array([1, 2, 3, 4, 5, 7, 9, 12, 14 ,16]).reshape(-1, 1)
y = np.array([2, 4, 5, 4, 6, 9, 15, 16, 18, 20])

In [None]:
# Criar modelo

regressor = LinearRegression()

In [None]:
# Treinar o modelo

regressor.fit(X, y)

In [None]:
# Fazer Previsões

y_pred = regressor.predict(X)

In [None]:
# Plotar o gráfico

plt.figure(figsize=(14,8))
plt.scatter(X, y, color='blue', label='Dados')
plt.plot(X, y_pred, color='red', linewidth=2, label='Regressão Linear')
plt.xlabel('X')
plt.ylabel('y')
plt.legend()
plt.show()

In [None]:
# Fazendo novas previsões

show_box(regressor.predict([[3.6]])[0])

## Linhas de ajuste
    Underffiting (Subajustado) 👎 | Overffiting (Superajustado) 👎 | Melhor Ajuste 👍

In [None]:
plt.figure(figsize=(20,10))
plt.subplot(2,2,1)
plt.scatter(X, y)
plt.plot(X, (y_pred + 5), color='red', linewidth=2)
plt.title("Underfitting (Subajustado)")
plt.subplot(2,2,2)
plt.scatter(X, y)
plt.plot(X, y, color='red', linewidth=2)
plt.title("Overfitting (Superajustado)")
plt.subplot(2,2,3)
plt.scatter(X, y)
plt.plot(X, y_pred, color='red', linewidth=2)
plt.title("Melhor Ajuste!")
plt.show()

In [None]:
# Coeficiente de determinação

r2 = r2_score(y, y_pred)
show_box(r2)

## Vamos codar!

In [None]:
gorgeta = sns.load_dataset('tips')

gorgeta.head()

In [None]:
#g_X = gorgeta['total_bill'].values.reshape(-1,1)

#Variável Independente, Previsor, Atributo
g_X = gorgeta[['total_bill']].values

#Variável Dependente, Classe, Alvo
g_y = gorgeta['tip'].values
     

In [None]:
#Separar entre treino e teste
treino_g_X, teste_g_X, treino_g_y, teste_g_y =  train_test_split(
    g_X, g_y, test_size=0.2, random_state=42
)

In [None]:
#Criar o modelo
modelo_gorgeta = LinearRegression()

In [None]:
#Treinar o modelo
modelo_gorgeta.fit(treino_g_X,treino_g_y)

In [None]:
gorgeta_predict = modelo_gorgeta.predict(teste_g_X)

In [None]:
# Plotar gráfico

plt.scatter(teste_g_X,teste_g_y)
plt.xlabel('Total da Conta')
plt.ylabel('Gorgeta')
plt.plot(teste_g_X, gorgeta_predict, color='red')

In [None]:
r2 = r2_score(teste_g_y, gorgeta_predict)
show_box(r2)

## Árvores de Decisão

    Utilizando a biblioteca Scikit Learn Podemos Fazer Predições utilizando árvores de decisão para isso devemos importar a biblioteca

    Para predizer variáveis numéricas:
        - from sklearn.tree import DecisionTreeRegressor

    Para predizer variáveis categóricas:
        - from sklearn.tree import DecisionTreeClassifier

In [None]:
diabetes = pd.read_csv('/content/drive/MyDrive/Aulas/Analise de Dados/Aula5SVG/diabetes.csv')

In [None]:
X = diabetes.drop('Outcome', axis=1)
y = diabetes['Outcome']

In [None]:
X_train, X_test, y_train, y_test = train_test_split(
    X,y, test_size=0.2, random_state=42
    )

In [None]:
arvore = DecisionTreeClassifier()

In [None]:
arvore.fit(X_train,y_train)

In [None]:
y_pred = arvore.predict(X_test)

In [None]:
novo_df = pd.DataFrame(
        [
              {
                'Pregnancies': 4,
                'Glucose':	40, #experimente subir esse parâmetro para 500
                'BloodPressure': 76,
                'SkinThickness': 30,
                'Insulin': 80,
                'BMI': 25,
                'DiabetesPedigreeFunction': 0.242,
                'Age'	: 35
            }

        ]
    )


show_box(arvore.predict(novo_df)[0])

In [None]:
accuracy = accuracy_score(y_test, y_pred)

show_box(accuracy)

## Florestas Aleatórias

In [None]:
floresta = RandomForestClassifier()

In [None]:
floresta.fit(X_train, y_train)

In [None]:
y_predict = floresta.predict(X_test)

In [None]:
accuracy_score(y_test, y_predict)

## Como melhorar a acurácia do meu modelo?
    Algumas Dicas! ✌
    
    1. Faça uma boa análise exploratória, atenção a limpeza dos dados

In [None]:
gorgeta.info()

In [None]:
gorgeta = gorgeta.dropna()

    2. As máquinas lidão melhor com números.

In [None]:
pd.get_dummies(gorgeta)

    3. Estabeleça Correlações para Entender seu Conjunto de Dados

In [None]:
gorgeta_dummies = pd.get_dummies(gorgeta)

In [None]:
plt.figure(figsize=(20,10))
sns.heatmap(gorgeta_dummies.corr(), annot=True)

## Nível Hacker 💻

In [None]:
# Aplicar pré-processamento nos dados (normalização)
scaler = StandardScaler()
X = scaler.fit_transform(X)


# Vamos recriar o modelo, ajustando hiperparâmetros
model = DecisionTreeClassifier(max_depth=5, min_samples_split=3)

# Treinamos o modelo novamente
model.fit(X_train, y_train)

# Fazer previsões
y_pred = model.predict(X_test)

# Calcular a acurácia do modelo
accuracy = accuracy_score(y_test, y_pred)
show_box(accuracy)