# Statement

A companhia de seguros Proteja Seu Amanh√£ quer resolver algumas tarefas com a ajuda de aprendizado de m√°quina e voc√™ precisa avaliar a possibilidade de faz√™-lo.

- Tarefa 1: Encontrar clientes semelhantes a um determinado cliente. Isso vai ajudar os agentes da empresa com tarefas de marketing.
- Tarefa 2: Predizer se um novo cliente provavelmente receber√° um pagamento de seguro. Um modelo de predi√ß√£o pode ser melhor do que um modelo dummy?
- Tarefa 3: Predizer o n√∫mero de pagamentos de seguro que um novo cliente provavelmente receber√° usando um modelo de regress√£o linear.
- Tarefa 4: Proteger os dados pessoais dos clientes sem estragar o modelo da tarefa anterior. √â necess√°rio desenvolver um algoritmo de transforma√ß√£o de dados que tornaria dif√≠cil recuperar informa√ß√µes pessoais se os dados ca√≠ssem nas m√£os erradas. Isso √© chamado de mascaramento de dados ou ofusca√ß√£o de dados. Mas os dados devem ser protegidos de forma que a qualidade dos modelos de aprendizado de m√°quina n√£o piore. Voc√™ n√£o precisa escolher o melhor modelo, s√≥ prove que o algoritmo funciona corretamente.

# Pr√©-processamento de dados & Explora√ß√£o

## Inicializa√ß√£o

In [1]:
pip install scikit-learn --upgrade

Collecting scikit-learnNote: you may need to restart the kernel to use updated packages.



[notice] A new release of pip available: 22.3.1 -> 23.2.1
[notice] To update, run: python.exe -m pip install --upgrade pip



  Downloading scikit_learn-1.3.0-cp311-cp311-win_amd64.whl (9.2 MB)
     ---------------------------------------- 9.2/9.2 MB 9.8 MB/s eta 0:00:00
Collecting numpy>=1.17.3
  Downloading numpy-1.25.2-cp311-cp311-win_amd64.whl (15.5 MB)
     --------------------------------------- 15.5/15.5 MB 27.3 MB/s eta 0:00:00
Collecting scipy>=1.5.0
  Downloading scipy-1.11.2-cp311-cp311-win_amd64.whl (44.0 MB)
     --------------------------------------- 44.0/44.0 MB 50.4 MB/s eta 0:00:00
Collecting joblib>=1.1.1
  Downloading joblib-1.3.2-py3-none-any.whl (302 kB)
     ---------------------------------------- 302.2/302.2 kB ? eta 0:00:00
Collecting threadpoolctl>=2.0.0
  Downloading threadpoolctl-3.2.0-py3-none-any.whl (15 kB)
Installing collected packages: threadpoolctl, numpy, joblib, scipy, scikit-learn
Successfully installed joblib-1.3.2 numpy-1.25.2 scikit-learn-1.3.0 scipy-1.11.2 threadpoolctl-3.2.0


In [2]:
import numpy as np
import pandas as pd
import plotly.express as px
from sklearn.metrics import r2_score
import seaborn as sns
import math
import sklearn.metrics
import sklearn.linear_model
import sklearn.metrics
import sklearn.neighbors
import sklearn.preprocessing
from sklearn.neighbors import KNeighborsClassifier
from sklearn.neighbors import NearestNeighbors
from sklearn.model_selection import train_test_split
from scipy.spatial import distance
from sklearn.ensemble import RandomForestRegressor

from IPython.display import display

ModuleNotFoundError: No module named 'pandas'

## Carregar Dados

Carregue os dados e fa√ßa uma verifica√ß√£o b√°sica de que est√£o livres de problemas √≥bvios.

In [None]:
df = pd.read_csv('/datasets/insurance_us.csv')

Renomeamos as colunas para tornar o c√≥digo mais consistente com seu estilo.

In [None]:
df = df.rename(columns={'Gender': 'gender', 'Age': 'age', 'Salary': 'income', 'Family members': 'family_members', 'Insurance benefits': 'insurance_benefits'})

In [None]:
df.sample(10)

In [None]:
df.info()

In [None]:
# podemos querer corrigir o tipo de idade (de float para int), embora isso n√£o seja cr√≠tico

# escreva sua convers√£o aqui se voc√™ escolher:

df['age'] = df['age'].astype('int')

In [None]:
# verifique se a convers√£o foi bem-sucedida
df.info()

In [None]:
# agora d√™ uma olhada nas estat√≠sticas descritivas dos dados.
# Parece que est√° tudo bem?

In [None]:
df.describe()

* Aparentemente a coluna insurance_benefits tem muitos outliars

In [None]:
df.duplicated().sum()

In [None]:
df =  df.drop_duplicates().reset_index(drop=True)

In [None]:
df.duplicated().sum()

* Utilizei o drop_duplicated pois n√£o 153 linhas s√£o insignificante em um dataframe de 5000 linhas

## AED

Vamos verificar rapidamente se existem determinados grupos de clientes observando o gr√°fico de pares.

In [None]:
g = sns.pairplot(df, kind='hist')
g.fig.set_size_inches(12, 12)

In [None]:
px.scatter_3d(df,x='age',y='income',z='insurance_benefits', color = 'family_members')

* Podemos ver uma rela√ß√£o em que o grupo que mais recebe insurance benefits √© o grupo mais velho acima de 40 anos, com uma rela√ß√£o de estreitamento em dire√ß√£o a 'm√©dia' com o income, conforme a idade aumenta os selecionados est√£o mais no meio ainda. E com poucos membros na fam√≠lia. Obviamente levando em conta uma igualdade de g√™neros.

In [None]:
df['gender'].value_counts()

* O que se confirma

Ok, √© um pouco dif√≠cil identificar grupos √≥bvios (clusters), pois √© dif√≠cil combinar v√°rias vari√°veis simultaneamente (para analisar distribui√ß√µes multivariadas). √â a√≠ que √Ålgebra Linear e Aprendizado de M√°quina podem ser bastante √∫teis.

# Tarefa 1. Clientes Similares

Na linguagem de AM, √© necess√°rio desenvolver um procedimento que retorne k vizinhos mais pr√≥ximos (objetos) para um determinado objeto com base na dist√¢ncia entre os objetos.
Voc√™ pode querer rever as seguintes li√ß√µes (cap√≠tulo -> li√ß√£o)- Dist√¢ncia Entre Vetores -> Dist√¢ncia Euclidiana
- Dist√¢ncia Entre Vetores -> Dist√¢ncia de Manhattan

Para resolver a tarefa, podemos tentar diferentes m√©tricas de dist√¢ncia.

Escreva uma fun√ß√£o que retorne k vizinhos mais pr√≥ximos para um n-√©simo objeto com base em uma m√©trica de dist√¢ncia especificada. O n√∫mero de pagamentos de seguro recebidos n√£o deve ser levado em considera√ß√£o para esta tarefa. 

Voc√™ pode usar uma implementa√ß√£o pronta do algoritmo kNN do scikit-learn (verifique [o link](https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.NearestNeighbors.html#sklearn.neighbors.NearestNeighbors)) ou usar a sua pr√≥pria.
Teste-o para quatro combina√ß√µes de dois casos
- Escalabilidade
  - os dados n√£o s√£o escalados
  - os dados escalados com o escalonador [MaxAbsScaler](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.MaxAbsScaler.html) 
- M√©tricas de dist√¢ncia
  - Euclidiana
  - Manhattan

Responda √†s perguntas:
- Os dados n√£o escalados afetam o algoritmo kNN? Se sim, como isso acontece?
-Qu√£o semelhantes s√£o os resultados usando a m√©trica de dist√¢ncia de Manhattan (independentemente da escalabilidade)?

In [None]:
feature_names = ['gender', 'age', 'income', 'family_members']

In [None]:
def get_knn(df, n, k, metric):
    
    """
    Retorna os vizinhos mais pr√≥ximos de k

    :param df: DataFrame pandas usado para encontrar objetos semelhantes dentro de    :param n: n√∫mero do objeto pelo qual os vizinhos mais pr√≥ximos s√£o procurados
    :param k: o n√∫mero dos vizinhos mais pr√≥ximos a serem retornados
    :param metric: nome da m√©trica de dist√¢ncia    """
    
    if metric == 'euclidean':
        nbrs = NearestNeighbors(n_neighbors=k, metric='euclidean')
    elif metric == 'manhattan':
        nbrs = NearestNeighbors(n_neighbors=k, metric='manhattan')
    else:
        raise ValueError("M√©trica n√£o suportada. Escolha 'euclidean' ou 'manhattan'")

   
    nbrs = nbrs.fit(df[feature_names])
   
    nbrs_distances, nbrs_indices = nbrs.kneighbors([df.iloc[n][feature_names]], k, return_distance=True)
    
    df_res = pd.concat([
        df.iloc[nbrs_indices[0]], 
        pd.DataFrame(nbrs_distances.T, index=nbrs_indices[0], columns=['distance'])
        ], axis=1)
    
    return df_res

Escalando os dados

In [None]:
feature_names = ['gender', 'age', 'income', 'family_members']

transformer_mas = sklearn.preprocessing.MaxAbsScaler().fit(df[feature_names].to_numpy())

df_scaled = df.copy()
df_scaled.loc[:, feature_names] = transformer_mas.transform(df[feature_names].to_numpy())

In [None]:
df_scaled.sample(5)

Agora, vamos obter registros semelhantes para um determinado registro para cada combina√ß√£o

In [None]:
get_knn(df, 1, 10, 'manhattan')

In [None]:
get_knn(df, 1, 10, 'euclidean')

In [None]:
get_knn(df_scaled, 1, 10, 'euclidean')

In [None]:
get_knn(df_scaled, 1, 10, 'manhattan')

Respostas para as perguntas

**Os dados n√£o escalados afetam o algoritmo kNN? Se sim, como isso acontece?** 

Afetam sim, deixando a dist√¢ncia calculada maior.

As diferen√ßas de escala podem levar a uma maior influ√™ncia de algumas caracter√≠sticas em rela√ß√£o a outras. Por exemplo, se uma caracter√≠stica tiver valores muito maiores em compara√ß√£o com outras, ela dominar√° as dist√¢ncias calculadas pelo kNN, mesmo que outras caracter√≠sticas sejam mais relevantes para a tarefa.

**Qu√£o semelhantes s√£o os resultados usando a m√©trica de dist√¢ncia de Manhattan (independentemente da escalabilidade)?** 

Bem semelhantes, mas maiores que a dist√¢ncia euclidiana

# Tarefa 2. √â prov√°vel que o cliente receba um pagamento do seguro?

Em termos de aprendizado de m√°quina, podemos olhar para isso como uma tarefa de classifica√ß√£o bin√°ria.

Com os pagamentos de seguro sendo mais do que zero como objetivo, avalie se a abordagem da classifica√ß√£o kNN pode ser melhor do que um modelo dummy.

Instru√ß√µes:
- Construa um classificador baseado em kNN e me√ßa sua qualidade com a m√©trica F1 para k=1..10 tanto para os dados originais quanto para os escalados. Seria interessante ver como k pode influenciar a m√©trica de avalia√ß√£o e se a escalabilidade dos dados faz alguma diferen√ßa. Voc√™ pode usar uma implementa√ß√£o pronta do algoritmo de classifica√ß√£o kNN do scikit-learn (verifique [o link](https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html)) ou usar a sua pr√≥pria.
- Construa o modelo dummy, que √© aleat√≥rio para este caso. Deve retornar com alguma probabilidade o valor "1". LVamos testar o modelo com quatro valores de probabilidade: 0, a probabilidade de fazer qualquer pagamento de seguro, 0,5, 1.

A probabilidade de fazer qualquer pagamento de seguro pode ser definida como

$$
P\{\text{pagamento de seguro recebido}= n√∫mero de clientes que receberam qualquer pagamento de seguro}}{\text{n√∫mero total de clientes}}.
$$

Divida os dados inteiros na propor√ß√£o 70:30 para as partes de treinamento/teste.

In [None]:
def update(insurance_benefits):
    if insurance_benefits >= 1:
        return 1
    else:
        return 0

df['insurance_benefits_received'] = df['insurance_benefits'].apply(update)
df_scaled['insurance_benefits_received'] = df_scaled['insurance_benefits'].apply(update)

In [None]:
# verifique o desequil√≠brio de classe com value_counts()

display(df['insurance_benefits_received'].value_counts())
df_scaled['insurance_benefits_received'].value_counts()

In [None]:
df_train, df_test = train_test_split(df, test_size=0.3, random_state=12345)

df_train2, df_test2 = train_test_split(df_scaled, test_size=0.3, random_state=12345)

In [None]:
features_train = df_train.drop(['insurance_benefits_received','insurance_benefits'], axis=1)
target_train = df_train['insurance_benefits_received']

features_test = df_test.drop(['insurance_benefits_received','insurance_benefits'], axis=1)
target_test = df_test['insurance_benefits_received']

features_train2 = df_train2.drop(['insurance_benefits_received','insurance_benefits'], axis=1)
target_train2 = df_train2['insurance_benefits_received']

features_test2 = df_test2.drop(['insurance_benefits_received','insurance_benefits'], axis=1)
target_test2 = df_test2['insurance_benefits_received'] 


print(features_train.shape)
print(target_train.shape)
print(features_test.shape)
print(target_test.shape)


print(features_train2.shape)
print(target_train2.shape)
print(features_test2.shape)
print(target_test2.shape)

In [None]:
for i in range(1,11):
    model = KNeighborsClassifier(n_neighbors=i)
    model.fit(features_train, target_train)
    test_predictions = model.predict(features_test)

    model2 = KNeighborsClassifier(n_neighbors=i)
    model2.fit(features_train2, target_train2)
    test_predictions2 = model2.predict(features_test2)

In [None]:
def eval_classifier(y_true, y_pred):
    
    f1_score = sklearn.metrics.f1_score(y_true, y_pred)
    print(f'F1: {f1_score:.2f}')
    
# se voc√™ tiver um problema com a linha a seguir, reinicie o kernel e execute o caderno novamente
    cm = sklearn.metrics.confusion_matrix(y_true, y_pred, normalize='all')
    print('Matriz de Confus√£o')
    print(cm)

In [None]:
# gerando sa√≠da de um modelo aleat√≥rio

def rnd_model_predict(P, size, seed=42):

    rng = np.random.default_rng(seed=seed)
    return rng.binomial(n=1, p=P, size=size)

In [None]:
for P in [0, df['insurance_benefits_received'].sum() / len(df), 0.5, 1]:

    print(f'A probabilidade: {P:.2f}')
    y_pred_rnd = rnd_model_predict(P, size=len(df['insurance_benefits_received']))
        
    eval_classifier(df['insurance_benefits_received'], y_pred_rnd)
    
    print()

In [None]:
for i in range(1,11):
    print('k=',i)
    model = KNeighborsClassifier(n_neighbors=i)
    model.fit(features_train, target_train)
    test_predictions = model.predict(features_test)
    eval_classifier(target_test, test_predictions)
    print('k scaled=',i)
    model2 = KNeighborsClassifier(n_neighbors=i)
    model2.fit(features_train2, target_train2)
    test_predictions2 = model2.predict(features_test2)
    eval_classifier(target_test2, test_predictions2)
    

* O maior valor f1 encontrado foi com o par√¢metro k=1 com os dados *scaled*

# Tarefa 3. Regress√£o (com Regress√£o Linear)

Com os pagamentos de seguro como objetivo, avalie qual seria o REQM para um modelo de Regress√£o Linear.

Construa sua pr√≥pria implementa√ß√£o de Regress√£o Linear. Para isso, lembre-se de como a solu√ß√£o da tarefa de regress√£o linear √© formulada em termos de √Ålgebra linear. Verifique o REQM para os dados originais e os escalados. Voc√™ pode ver alguma diferen√ßa no REQM entre esses dois casos?

Vamos denotar
- $X$ ‚Äî matriz de caracter√≠sticas, cada linha √© um caso, cada coluna √© uma caracter√≠stica, a primeira coluna consiste em unidades
- $y$ ‚Äî objetivo (um vetor)
- $\hat{y}$ ‚Äî objetivo estimado (um vetor)- $w$ ‚Äî vetor de peso

A tarefa de regress√£o linear na linguagem de matrizes pode ser formulada como
$$
y = Xw
$$

O objetivo do treinamento, ent√£o, √© encontrar os $w$ que minimizaria a dist√¢ncia L2 (EQM) entre $Xw$ e $y$:

$$
\min_w d_2(Xw, y) \quad \text{or} \quad \min_w \text{MSE}(Xw, y)
$$

Parece que h√° uma solu√ß√£o anal√≠tica para a quest√£o acima:

$$
w = (X^T X)^{-1} X^T y
$$

A f√≥rmula acima pode ser usada para encontrar os pesos $w$ e o √∫ltimo pode ser usado para calcular valores preditos

$$
\hat{y} = X_{val}w
$$

Divida todos os dados na propor√ß√£o 70:30 para as partes de treinamento/valida√ß√£o. Use a m√©trica REQM para a avalia√ß√£o do modelo.

In [None]:


class MyLinearRegression:
    
    def __init__(self):
        self.weights = None
    
    def fit(self, X, y):
        # Adicionando uma coluna de uns para representar o termo de bias
        X2 = np.append(np.ones([len(X), 1]), X, axis=1)
        
        # Calculando os pesos usando a f√≥rmula dos m√≠nimos quadrados
        self.weights = np.linalg.inv(X2.T @ X2) @ X2.T @ y

    def predict(self, X):
        # Adicionando uma coluna de uns para representar o termo de bias
        X2 = np.append(np.ones([len(X), 1]), X, axis=1)
        
        # Realizando a previs√£o usando os pesos aprendidos
        y_pred = X2 @ self.weights
        
        return y_pred


In [None]:
def eval_regressor(y_true, y_pred):
    
    rmse = math.sqrt(sklearn.metrics.mean_squared_error(y_true, y_pred))
    print(f'REQM: {rmse:.2f}')
    
    r2_score = math.sqrt(sklearn.metrics.r2_score(y_true, y_pred))
    print(f'R2: {r2_score:.2f}')    

In [None]:
Xx = df[['age', 'gender', 'income', 'family_members']].to_numpy()
y = df['insurance_benefits'].to_numpy()

X_train, X_test, y_train, y_test = train_test_split(Xx, y, test_size=0.3, random_state=12345)

lr = MyLinearRegression()

lr.fit(X_train, y_train)
print(lr.weights)

y_test_pred = lr.predict(X_test)
eval_regressor(y_test, y_test_pred)

In [None]:
Xxx = df_scaled[['age', 'gender', 'income', 'family_members']].to_numpy()
yx = df_scaled['insurance_benefits'].to_numpy()

X_trainx, X_testx, y_trainx, y_testx = train_test_split(Xxx, yx, test_size=0.3, random_state=12345)

lrx = MyLinearRegression()

lrx.fit(X_trainx, y_trainx)
print(lrx.weights)

y_test_predx = lrx.predict(X_testx)
eval_regressor(y_testx, y_test_predx)

* Sem diferen√ßa no REQM nesses dois casos.


# Tarefa 4. Ofuscando dados

√â melhor ofuscar os dados multiplicando as caracter√≠sticas num√©ricas (lembre-se, elas podem ser vistos como a matriz $X$) por uma matriz invert√≠vel $P$. 

$$
X' = X \times P
$$

Tente fazer isso e verifique como os valores das caracter√≠sticas ficar√£o ap√≥s a transforma√ß√£o. Ali√°s, a invertibilidade √© importante aqui, portanto, certifique-se de que $P$ seja realmente invert√≠vel.

Voc√™ pode querer revisar a li√ß√£o 'Matrizes e Opera√ß√µes com Matrizes -> Multiplica√ß√£o de Matrizes' para relembrar a regra de multiplica√ß√£o de matrizes e sua implementa√ß√£o com NumPy.

In [None]:
personal_info_column_list = ['gender', 'age', 'income', 'family_members']
df_pn = df[personal_info_column_list]

In [None]:
#matriz original
X = df_pn.to_numpy()
X

Gerando uma matriz $P$ aleat√≥ria.

In [None]:
# matriz aleatoria
rng = np.random.default_rng(seed=42)
P = rng.random(size=(X.shape[1], X.shape[1]))

Verificando se a matriz $P$ √© invert√≠vel

In [None]:
p1=np.linalg.inv(P)

Voc√™ consegue adivinhar a idade ou a renda dos clientes ap√≥s a transforma√ß√£o?
* N√£o

In [None]:
#matriz transformada
X1=X @ P
X1

Voc√™ pode recuperar os dados originais de $X‚Ä≤$ se souber $P$? Tente verificar isso com c√°lculos movendo $P$ do lado direito da f√≥rmula acima para o esquerdo. As regras da multiplica√ß√£o de matrizes s√£o realmente √∫teis aqui

In [None]:

XX=X1 @ p1
XX

Imprima todos os tr√™s casos para alguns clientes- Os dados originais
- O transformado
- O invertido (recuperado)

In [None]:
display(X,X1,XX)


Voc√™ provavelmente pode ver que alguns valores n√£o s√£o exatamente iguais aos dos dados originais. Qual pode ser a raz√£o disso?

* Acredito que se deve √† natureza das transforma√ß√µes aplicadas e √† complexidade dos algoritmos envolvidos. Por se tratar de uma matriz aleat√≥ria na ofusca√ß√£o e a inversa dela na recupera√ß√£o. 

## Provas de que a ofusca√ß√£o de dados pode funcionar com a Regress√£o Linear

A tarefa de regress√£o foi resolvida com regress√£o linear neste projeto. Sua pr√≥xima tarefa √© provar analiticamente que o m√©todo de ofusca√ß√£o fornecido n√£o afetar√° a regress√£o linear em termos de valores preditos, ou seja, seus valores permanecer√£o os mesmos. Voc√™ acredita nisso? Bem, voc√™ n√£o precisa acreditar, voc√™ deve provar isso!

Assim, os dados s√£o ofuscados e h√° $X \ P$ em vez de apenas X agora. Consequentemente, existem outros pesos $w_P$ como
$$
w = (X^T X)^{-1} X^T y \quad \Rightarrow \quad w_P = [(XP)^T XP]^{-1} (XP)^T y
$$

Como  $w$ e $w_P$ seriam ligados se voc√™ simplificasse a f√≥rmula para $w_P$ acima? 

Quais seriam os valores previstos com $w_P$? 

O que isso significa para a qualidade da regress√£o linear se voc√™ medir com REQM?

Verifique o Ap√™ndice B Propriedades das Matrizes no final do caderno. Existem f√≥rmulas √∫teis l√°!

Nenhum c√≥digo √© necess√°rio nesta se√ß√£o, apenas explica√ß√£o anal√≠tica!

**Resposta**

1- Para simplificar essa f√≥rmula, podemos usar a propriedade das matrizes que diz que <td>$(AB)^T = B^TA^T$</td>. Aplicando isso, podemos reescrever ùë§ùëÉ como <td>$$ùë§ùëÉ=(ùëãùëÉ)^{-1}(ùëãùëÉ)^ùëáùë¶$$</td>.

2- Para calcular os valores previstos com ùë§ùëÉ, voc√™ multiplica a matriz de caracter√≠sticas ùëãùëÉ pelos pesos ùë§ùëÉ. Ou seja, os valores previstos ùë¶ÃÇùëÉ seriam <td>$$ùë¶ÃÇùëÉ=ùëãùëÉùë§ùëÉ$$</td>.

3- O REQM (Raiz do Erro Quadr√°tico M√©dio) √© uma medida comum de qualidade para avaliar a efic√°cia de um modelo de regress√£o. Portanto, se o REQM for menor, significa que os valores previstos est√£o mais pr√≥ximos dos valores reais, o que indica uma melhor qualidade da regress√£o linear.


**Prova anal√≠tica**

<td>
$$
w=(X^{T}X)^{-1}X^{T}y
$$

$$
w_P = [(XP)^{T}(XP)]^{-1}(XP)^{T}y
$$

$$
w_P = [(P^{T}X^{T})(XP)]^{-1}(XP)^{T}y,
$$

Usando a propriedade de reversividade da transposi√ß√£o de um produto de matrizes, assim conseguimos passar de $(XP)^{T}$ para $(P^{T}X^{T})$.

Ap√≥s esse passo, podemos aplicar a inversa num produto matricial junto da propriedade associativa da multiplica√ß√£o,

$$
w_P = [P^{T}(X^{T}X)P]^{-1}(XP)^{T}y = P^{-1}(X^{T}X)^{-1}(P^{T})^{-1}P^{T}(X^{T}y).
$$
    
Antes do termo $(X^{T}y)$ temos o termo $(P^{T})^{-1}P^{T}$, por√©m pela propriedade da identidade multiplicativa, temos que:
    
$$
(P^{T})^{-1}P^{T} = I,
$$

Continuando:
‚Äã
$$
w_P = P^{-1}(X^{T}X)^{-1}(P^{T})^{-1}P^{T}(X^{T}y) = P^{-1}(X^{T}X)^{-1}I(X^{T}y) = P^{-1}(X^{T}X)^{-1}(X^{T}y).
$$
    
Bem, se $w = (X^{T}X)^{-1}X^{T}y$, ent√£o:
    
$$
w_P = P^{-1}(X^{T}X)^{-1}(X^{T}y) = P^{-1}w,
$$
    
logo a matriz $A$ desconhecida √© igual a $P^{-1}$ e:
    
$$
w_P = P^{-1}w.
$$
‚Äã
Para demonstrar de forma anal√≠tica que a ofusca√ß√£o de dados n√£o afeta a regress√£o linear, √© suficiente substituir o valor de ùë§ùëÉ
na equa√ß√£o a seguir pela rela√ß√£o previamente estabelecida:
    
$$
\hat{y_P} = (X_{val}P)w_P = X_{val}PP^{-1}w,
$$
    
pela propriedade da identidade multiplicativa, temos que:
‚Äã
$$
\hat{y_P} = X_{val}PP^{-1}w = X_{val}Iw = X_{val}w = \hat{y}.
$$
    
Assim, demonstramos que $\hat{y_P} = \hat{y}$, o que implica que a ofusca√ß√£o de dados n√£o tem efeito sobre a previs√£o realizada, embora possa modificar os coeficientes estimados. Como resultado, uma vez que a previs√£o permanece inalterada, nenhuma m√©trica de erro sofrer√° modifica√ß√£o.
</td>

In [None]:


def calculate_w(X, y):
    XTX_inv = np.linalg.inv(np.dot(X.T, X))
    w = np.dot(np.dot(XTX_inv, X.T), y)
    return w

def calculate_wP(XP, y):
    wP = np.dot(np.dot(np.linalg.inv(np.dot(XP.T, XP)), XP.T), y)
    return wP




XP = Xx + 1 #ex de dados ofuscados 

w = calculate_w(Xx, y)
wP = calculate_wP(XP, y)

print("w:", w)
print("wP:", wP)


In [None]:
def predict_values(X, w):
    y_pred = np.dot(X, w)
    return y_pred

def predict_values_P(XP, wP):
    y_pred_P = np.dot(XP, wP)
    return y_pred_P

# Exemplo de uso
y_pred = predict_values(Xx, w)
y_pred_P = predict_values_P(XP, wP)

print("y_pred:", y_pred)
print("y_pred_P:", y_pred_P)


In [None]:
def calculate_RMSE(y_true, y_pred):
    mse = np.mean((y_true - y_pred) ** 2)
    rmse = np.sqrt(mse)
    return rmse

# Exemplo de uso
RMSE_w = calculate_RMSE(y, y_pred)
RMSE_wP = calculate_RMSE(y, y_pred_P)

print("RMSE for w:", RMSE_w)
print("RMSE for wP:", RMSE_wP)


## Teste de regress√£o linear com ofusca√ß√£o de dados

Agora, vamos provar que a Regress√£o Linear pode funcionar computacionalmente com a transforma√ß√£o de ofusca√ß√£o escolhida.
Crie um procedimento ou uma classe que execute a Regress√£o Linear opcionalmente com a ofusca√ß√£o. Voc√™ pode usar uma implementa√ß√£o pronta de Regress√£o Linear do scikit-learn ou sua pr√≥pria.

Execute a Regress√£o Linear para os dados originais e os ofuscados, compare os valores previstos e os valores da m√©trica $R^2$ do REQM. H√° alguma diferen√ßa?

**Procedimento**

- Crie uma matriz quadrada $P$ de n√∫meros aleat√≥rios.
- Verifique se √© invert√≠vel. Caso contr√°rio, repita o primeiro ponto at√© obtermos uma matriz invert√≠vel.
- <! seu coment√°rio aqui!>
- Use $XP$ como a nova matriz de caracter√≠sticas

In [None]:
def ev(y_true,y_pred):
    rmse = math.sqrt(sklearn.metrics.mean_squared_error(y_true, y_pred))
    print(f'REQM: {rmse:.2f}')

In [None]:
G=df[['age', 'gender', 'income', 'family_members']].to_numpy()

In [None]:
B=df_scaled[['age', 'gender', 'income', 'family_members']].to_numpy()

In [None]:
rng = np.random.default_rng(seed=42)
Pw = rng.random(size=(G.shape[1], G.shape[1]))
Pw

In [None]:
rng = np.random.default_rng(seed=42)
Pb = rng.random(size=(B.shape[1], B.shape[1]))
Pb

In [None]:
oo = np.linalg.inv(Pw)

In [None]:
bb=np.linalg.inv(Pb)

In [None]:
mo=G@oo
mo

In [None]:
mb=B@bb
mb

In [None]:
x1 = mo
y1 = G


X_train1, X_test1, y_train1, y_test1 = train_test_split(x1, y1, test_size=0.3, random_state=12345)

lr1 = MyLinearRegression()

lr1.fit(X_train1, y_train1)
print(lr1.weights)

ev(y_train1, lr1.predict(X_train1))
ev(y_test1, lr1.predict(X_test1))


In [None]:
lr1.fit(X_test1, y_test1)
ev(y_train1, lr1.predict(X_train1))
ev(y_test1, lr1.predict(X_test1))

In [None]:
x2 = mb
y2 = B

X_train2, X_test2, y_train2, y_test2 = train_test_split(x2, y2, test_size=0.3, random_state=12345)

lr2 = MyLinearRegression()

lr2.fit(X_train2, y_train2)
print(lr2.weights)
ev(y_train2, lr2.predict(X_train2))
ev(y_test2, lr2.predict(X_test2))




In [None]:
lr2.fit(X_test2, y_test2)
ev(y_train2, lr2.predict(X_train2))
ev(y_test2, lr2.predict(X_test2))

# Conclus√µes

* N√£o existe grupos muito claros, por√©m em um gr√°fico 3d da para ter uma no√ß√£o melhor de como o dataframe se comporta

* Escalamento de dados melhora o desempenho do Knn, e normalmente de todos os testes. 

* A Prova que o REQM n√£o muda com a ofusca√ß√£o de dados foi feita.