# 1 Normalização e Padronização

Normalização e padronização são processos usados para preparar dados antes de apicar modelos de ML ou estatístico. O objetivo das técnicas é melhora de desempenho e garantir que diferentes variáveis estejam em escalas comparáveis. No entanto, são duas abordagens diferentes para situações diferentes

In [None]:
import pandas as pd
import numpy as np

dados = np.random.randint(10, 100, size=(100,5))
df = pd.DataFrame(dados)
df

## Normalização Min-Max
É o processo de ajustar variáveis para que fiquem dentro de um intervalo específico. Normalmente 0 e 1 na técnica Min-Max Scaling pois temos o valor máximo sendo 1 e o valor mínimo sendo 0 tornando mais fácil comparar e interpretar as relações entre as variáveis por conta da ausência de valores discrepantes.
Algoritmos como regressão linear e redes neurais são sensíveis a valores discrepantes e por isso normalizar para a faixa 0-1 ajuda a evitar que recursos com valores muito maiores afete desproporcionalmente o resultado do modelo.
Além dos coeficientes do modelo linear terem uma interpretação melhor com a escala normalizada.

In [None]:
df.describe()

In [None]:
norm = (df - df.min()) / (df.max() - df.min())
norm

## Padronização z-score

Essa técnica visa colocar todos os valores em uma escala onde a média seja 0 e o desvio padrão seja 1 pois em muitos casos de modelagem para algoritmos de aprendizado de máquina não estamos interessados na média absoluta dos dados e sim nas diferenças dos dados em relação a média. Centralizar os valores em torno da média facilita a interpretação e análise dos dados.
Os dados tendo DP igual a 1 também temos uma escala comparável para algortimos sensíveis as escalas.

In [None]:
padr = (df - df.mean()) / df.std()
padr

## Underfitting e Overfitting

O subajuste é comum quando o modelo é incapaz de se ajustar adequadamente aos dados de treinamento, ou seja, o modelo não consegue capturar as relações subjacentes nos dados resultando em um desempenho insatisfatório.

* Isso pode acontecer porque o modelo não consegue reduzir os erros nos dados de treinamento, logo, não consegue aprender com os dados efetivamente;
* O subajuste ocorre muito quando o modelo é simples demais em relação a complexidade dos dados como uma regressão linear emq ue os dados não possuem uma relação linear;
* Como não se ajustou bem aos dados de treinamento, o modelo é incapaz de generalizar para novos dados;
* Um modelo com viés elevado pode fazer previsões simplistas  sendo capaz de generalizar depois para novos dados

Enquanto o sobreajuste é um fenômeno que ocorre quando o modelo se ajusta muito aos dados de treino e se torna incapax de generalizar os resultados para dados não aprendidos, como os dados de teste por exemplo.

* Pode ocorrer quando temos modelos muito complexos, ou seja com muitos parâmetros ou graus de liberdade como redes neurais profundas ou árvores de decisão profundas;
* Quando treinamos um modelo muito complexo com poucos dados impossibilitando que o modelo generalize efetivamente;
* Dados com ruídos e aleatoriedades podem impedir que o modelo capture relações genuínas e acabe aprendendo a ajustar esses ruídos;
* Utilizar um número excessivo de épocas ou iterações ao treinar o modelo. Não parar o treinamento no momento correto;

## Learning rate

O nível de aprendizado é o parâmetro que define o ajuste dos pesos da nossa rede em respeito ao gradiente descendente de custo. Ele determina o quão rápido o algoritmo se ajusta em direção ao peso ótimo.
Se esssa taxa for muito alta,  nós vamos pular a solução ótima e se for muita baixa precisaremos de muitas iterações para convergir para os melhores valores.
Em outras palavras, o Learning Rate é o quão rápido nossa rede abandona conceitos que ela aprendeu até agora para novos conceitos serem aprendidos.

## Modelos de otimização

Função objetivo: É o que será maximizado ou minimzado. Expressa o objetivo do problema em termos das variáveis de decisão. Costuma ser uma combinação matemática das variáveis de decisão

Restrições: São as regras que limitam as possíveis soluções do problema. Podem ser equações ou desigualdades  que conectam as variáveis de decisão e devem ser atendidas para que a solução seja considerada válida.

Variáveis de decisão: São as variáveis que serão ajustadas para otimzar o problema.

O processo de formulação de um modelo matemático de um problema de otimização é crucial para que se possa aplicar técnicas de otimização, como programação linear, não linear, inteira etc para encontrar a solução ótima que atenda aos objetivos do problema, respeitando as restrições impostas.

### Problema

Suponha que você trabalhe em uma fábrica de móveis e tenha uma chapa de madeira de tamanho fixo, por exemplo, 4 metros por 2 metros, e você precisa cortá-la para produzir peças de móveis. Cada peça de móvel requer um tamanho específico de corte na chapa de madeira. O objetivo é maximizar a quantidade de peças de móveis que você pode produzir a partir da chapa de madeira, minimizando o desperdício de material.

Aqui estão algumas informações adicionais:

Você tem uma lista de peças de móveis que precisam ser cortadas a partir da chapa de madeira, cada uma com dimensões específicas.
Cada corte na chapa de madeira resulta em uma perda de material devido à largura da serra ou à espessura da lâmina de corte.
Suas peças de móveis não podem se sobrepor na chapa de madeira, e você não pode cortar partes de uma peça de móvel para encaixar em outra.
O problema é encontrar o arranjo ótimo para cortar as peças de móveis na chapa de madeira de forma a maximizar o número de peças produzidas, minimizando o desperdício de material.

Você pode formular esse problema como um problema de programação linear ou um problema de programação inteira e usar algoritmos de otimização para encontrar a solução ótima.

Este é um problema comum em indústrias de manufatura e pode ser abordado de várias maneiras, dependendo das restrições específicas e das características das peças de móveis em questão. É um ótimo exercício de otimização que requer habilidades de modelagem e resolução de problemas.

### Regras
Restrições:
* Suas peças de móveis não podem se sobrepor na chapa de madeira
* Você não pode cortar partes de uma peça de móvel para encaixar em outra.

Objetivo:
* Encontrar o arranjo ótimo para cortar as peças de móveis na chapa de madeira de forma a maximizar o número de peças produzidas.

Variáveis de decisão:

* xP Tamanho de cada peça (peça 1 =  1 x 0.5, peça 2 = 1 x 0.3, peça 3 = 1.5 x 0.7) = 3.5 x 1.5 = 0.5 x 0.5
* xC Tamanho da chapa que será cortada ( 4 x 2 )
* xD Desperdício final ( 0.5 x 0.5 )

xP = 3.5 x 1.5 = 
xC = 4 X 2 =
xD <= 0.5 x 0.5 = 

max = 3.5 x 1.5*xP + 4 X 2*xC + 0.5 x 0.5*xD

In [1]:
!pip install pulp
from pulp import *
import warnings

warnings.filterwarnings('ignore')

# Criação do problema
prob = LpProblem("Produção de peças", LpMaximize)

# Variáveis de decisão
xP = LpVariable("xP", 0, None)
xC = LpVariable("xC", 0, None)
xD = LpVariable("xD", 0, None)



In [None]:
# Função objetivo
prob += 5.25*xP + 8*xC + 0.25*xD, "Retorno Esperado"

# Restrições
prob += xA + xT + xFI <= 1000, "Capital Disponível"
prob += xA <= 0.5*1000, "Restrição de Ações"
prob += xFI <= 0.3*1000, "Restrição de Fundos Imobiliários"
prob += xT >= 0.1*1000, "Restrição de Títulos"

# Resolução do problema
prob.solve()

# Impressão da solução
print("Status da solução:", LpStatus[prob.status])
print("Valor ótimo da função objetivo:", value(prob.objective))
print("xA:", value(xA.varValue))
print("xT:", value(xT.varValue))
print("xFI:", value(xFI.varValue))

# 2 Conteúdo adicional

### Validação cruzada

Técnica onde se divide a base de dados em k partes iguais permitindo que o modelo seja testado várias vezes em diferentes partições dos dados

* Divisão dos Dados: 
O conjunto de dados é dividido em k partes iguais, chamadas de "fold" ou dobras. Por exemplo, se k for 5, o conjunto de dados será dividido em 5 partes iguais.

* Treinamento e Teste: 
O modelo é treinado em k-1 das partes (folds) e testado na parte restante. Isso é repetido k vezes, com cada uma das k partes sendo usada como conjunto de teste uma vez, enquanto as outras k-1 partes são usadas como conjunto de treinamento.

* Métricas de Desempenho: 
Para cada execução, calcula-se uma métrica de desempenho (como erro médio quadrático, acurácia, F1-score, etc.) no conjunto de teste. Essas métricas são usadas para avaliar o desempenho do modelo.

* Média das Métricas: 
As métricas de desempenho calculadas em cada execução (fold) são então geralmente combinadas para produzir uma única medida de desempenho do modelo. Por exemplo, pode-se calcular a média das métricas de erro quadrático médio ou acurácia.

In [None]:
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import cross_val_predict
from sklearn.model_selection import cross_val_score
import numpy as np
import pandas as pd

In [None]:
df2 = sns.load_dataset("iris")
df2

In [None]:
X = df2.drop(['species'], axis = 1)
y = df2['species']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
model = LogisticRegression()

In [None]:
#By default, cv parameters assumes splits for StratifiedK-fold
cv_scores_5_folds = cross_val_score(model, X, y, cv=5)
#Specify K-Fold in cv parameter
#cv_scores_5_folds = cross_val_score(model, X, y, cv=KFold(n_splits=5))

cv_predicts_5_folds = cross_val_predict(model,X,y,cv=5)

print("Accuracy score in each iteration: {}".format(cv_scores_5_folds))
print("Predicted class for each record: {}".format(cv_predicts_5_folds))
print("K-Fold Score: {}".format(np.mean(cv_scores_5_folds)))
print("Total records: {}, Total predicted values: {}".format(df2.shape[0],len(cv_predicts_5_folds)))

### Exemplo 2

In [None]:
data = sns.load_dataset("titanic")
data

In [None]:
data = data.dropna()

In [None]:
df3 = data[['class','embark_town','survived']]
df3

In [None]:
from sklearn.preprocessing import LabelEncoder

label_encoder = LabelEncoder()

df3['class_encoded'] = label_encoder.fit_transform(df3['class'])
df3['embark_town_encoded'] = label_encoder.fit_transform(df3['embark_town'])

In [None]:
df3.drop(['class','embark_town'], axis=1, inplace=True)

In [None]:
df3

In [None]:
X = df3.drop(['survived'], axis = 1)
y = df3['survived']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)
model = LogisticRegression()

In [None]:
#By default, cv parameters assumes splits for StratifiedK-fold
cv_scores_5_folds = cross_val_score(model, X, y, cv=10)
#Specify K-Fold in cv parameter
#cv_scores_5_folds = cross_val_score(model, X, y, cv=KFold(n_splits=5))

cv_predicts_5_folds = cross_val_predict(model,X,y,cv=10)

print("Accuracy score in each iteration: {}".format(cv_scores_5_folds))
print("Predicted class for each record: {}".format(cv_predicts_5_folds))
print("K-Fold Score: {}".format(np.mean(cv_scores_5_folds)))
print("Total records: {}, Total predicted values: {}".format(df3.shape[0],len(cv_predicts_5_folds)))