# √â prov√°vel que oi cliente receba um pagamento de seguro?

# Contents <a id='back'></a>

* [Introdu√ß√£o](#intro)
* [Etapa 1. Vis√£o geral dos dados](#data_review)
* [Etapa 2. Modelo](#model)
* [Etapa 3. Ofuscar Dados](#obfuscate)
* [Conclus√µes](#end)

A companhia de seguros Proteja Seu Amanh√£ quer resolver algumas tarefas com a ajuda de aprendizado de m√°quina e voc√™ precisa avaliar a possibilidade de faz√™-lo.

- Tarefa 1: Encontrar clientes semelhantes a um determinado cliente. Isso vai ajudar os agentes da empresa com tarefas de marketing.
- Tarefa 2: Predizer se um novo cliente provavelmente receber√° um pagamento de seguro. Um modelo de predi√ß√£o pode ser melhor do que um modelo dummy?
- Tarefa 3: Predizer o n√∫mero de pagamentos de seguro que um novo cliente provavelmente receber√° usando um modelo de regress√£o linear.
- Tarefa 4: Proteger os dados pessoais dos clientes sem estragar o modelo da tarefa anterior. √â necess√°rio desenvolver um algoritmo de transforma√ß√£o de dados que tornaria dif√≠cil recuperar informa√ß√µes pessoais se os dados ca√≠ssem nas m√£os erradas. Isso √© chamado de mascaramento de dados ou ofusca√ß√£o de dados. Mas os dados devem ser protegidos de forma que a qualidade dos modelos de aprendizado de m√°quina n√£o piore. Voc√™ n√£o precisa escolher o melhor modelo, s√≥ prove que o algoritmo funciona corretamente.

# Pr√©-processamento de dados & Explora√ß√£o

## Inicializa√ß√£o

In [1]:
pip install scikit-learn --upgrade

Defaulting to user installation because normal site-packages is not writeable
Collecting scikit-learn
  Obtaining dependency information for scikit-learn from https://files.pythonhosted.org/packages/17/1c/ccdd103cfcc9435a18819856fbbe0c20b8fa60bfc3343580de4be13f0668/scikit_learn-1.5.2-cp311-cp311-win_amd64.whl.metadata
  Downloading scikit_learn-1.5.2-cp311-cp311-win_amd64.whl.metadata (13 kB)
Collecting threadpoolctl>=3.1.0 (from scikit-learn)
  Obtaining dependency information for threadpoolctl>=3.1.0 from https://files.pythonhosted.org/packages/4b/2c/ffbf7a134b9ab11a67b0cf0726453cedd9c5043a4fe7a35d1cefa9a1bcfb/threadpoolctl-3.5.0-py3-none-any.whl.metadata
  Downloading threadpoolctl-3.5.0-py3-none-any.whl.metadata (13 kB)
Downloading scikit_learn-1.5.2-cp311-cp311-win_amd64.whl (11.0 MB)
   ---------------------------------------- 0.0/11.0 MB ? eta -:--:--
    --------------------------------------- 0.2/11.0 MB 4.1 MB/s eta 0:00:03
   -- ------------------------------------- 0.7/11.0

## Etapa 1. Vis√£o geral dos dados <a id='data_review'></a>

In [2]:
# Importando as bibliotecas necess√°rias
import numpy as np  # Biblioteca para opera√ß√µes matem√°ticas e manipula√ß√£o de arrays
import pandas as pd  # Biblioteca para manipula√ß√£o e an√°lise de dados em formato tabular

import seaborn as sns  # Biblioteca para visualiza√ß√£o de dados baseada no Matplotlib

import sklearn.linear_model  # M√≥dulo do scikit-learn para modelos de regress√£o linear
import sklearn.metrics  # M√≥dulo do scikit-learn para avalia√ß√£o de modelos
import sklearn.neighbors  # M√≥dulo do scikit-learn para algoritmos de vizinhos mais pr√≥ximos
import sklearn.preprocessing  # M√≥dulo do scikit-learn para pr√©-processamento de dados

from sklearn.model_selection import train_test_split  # Fun√ß√£o para dividir os dados em conjuntos de treino e teste

from IPython.display import display  # Fun√ß√£o para exibir objetos em um formato mais elegante no Jupyter Notebook

## Carregar Dados

Carregue os dados e fa√ßa uma verifica√ß√£o b√°sica de que est√£o livres de problemas √≥bvios.

In [3]:
df = pd.read_csv('/datasets/insurance_us.csv')

FileNotFoundError: [Errno 2] No such file or directory: '/datasets/insurance_us.csv'

Renomeamos as colunas para tornar o c√≥digo mais consistente com seu estilo.

In [None]:
df = df.rename(columns={'Gender': 'gender', 'Age': 'age', 'Salary': 'income', 'Family members': 'family_members', 'Insurance benefits': 'insurance_benefits'})

In [None]:
df.sample(10)

In [None]:
df.info()

In [None]:
# podemos querer corrigir o tipo de idade (de float para int), embora isso n√£o seja cr√≠tico
df['age'] = df['age'].astype('int')
# escreva sua convers√£o aqui se voc√™ escolher:

In [None]:
# verifique se a convers√£o foi bem-sucedida

In [None]:
# agora d√™ uma olhada nas estat√≠sticas descritivas dos dados.
# Parece que est√° tudo bem?

In [None]:
df.sample(10)

In [None]:
df.info()

In [None]:
df.describe()

## AED

Vamos verificar rapidamente se existem determinados grupos de clientes observando o gr√°fico de pares.

In [None]:
g = sns.pairplot(df, kind='hist')
g.fig.set_size_inches(12, 12)

Ok, √© um pouco dif√≠cil identificar grupos √≥bvios (clusters), pois √© dif√≠cil combinar v√°rias vari√°veis simultaneamente (para analisar distribui√ß√µes multivariadas). √â a√≠ que √Ålgebra Linear e Aprendizado de M√°quina podem ser bastante √∫teis.

# Tarefa 1. Clientes Similares

Na linguagem de AM, √© necess√°rio desenvolver um procedimento que retorne k vizinhos mais pr√≥ximos (objetos) para um determinado objeto com base na dist√¢ncia entre os objetos.
Voc√™ pode querer rever as seguintes li√ß√µes (cap√≠tulo -> li√ß√£o)- Dist√¢ncia Entre Vetores -> Dist√¢ncia Euclidiana
- Dist√¢ncia Entre Vetores -> Dist√¢ncia de Manhattan

Para resolver a tarefa, podemos tentar diferentes m√©tricas de dist√¢ncia.

Escreva uma fun√ß√£o que retorne k vizinhos mais pr√≥ximos para um n-√©simo objeto com base em uma m√©trica de dist√¢ncia especificada. O n√∫mero de pagamentos de seguro recebidos n√£o deve ser levado em considera√ß√£o para esta tarefa. 

Voc√™ pode usar uma implementa√ß√£o pronta do algoritmo kNN do scikit-learn (verifique [o link](https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.NearestNeighbors.html#sklearn.neighbors.NearestNeighbors)) ou usar a sua pr√≥pria.
Teste-o para quatro combina√ß√µes de dois casos
- Escalabilidade
  - os dados n√£o s√£o escalados
  - os dados escalados com o escalonador [MaxAbsScaler](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.MaxAbsScaler.html) 
- M√©tricas de dist√¢ncia
  - Euclidiana
  - Manhattan

Responda √†s perguntas:
- Os dados n√£o escalados afetam o algoritmo kNN? Se sim, como isso acontece?
-Qu√£o semelhantes s√£o os resultados usando a m√©trica de dist√¢ncia de Manhattan (independentemente da escalabilidade)?

In [None]:
feature_names = ['gender', 'age', 'income', 'family_members']

In [None]:
from sklearn.neighbors import NearestNeighbors

In [None]:
def get_knn(df, n, k, metric):
    
    """
    Retorna os vizinhos mais pr√≥ximos de k

    :param df: DataFrame pandas usado para encontrar objetos semelhantes dentro de    
    :param n: n√∫mero do objeto pelo qual os vizinhos mais pr√≥ximos s√£o procurados
    :param k: o n√∫mero dos vizinhos mais pr√≥ximos a serem retornados
    :param metric: nome da m√©trica de dist√¢ncia    """

    nbrs = NearestNeighbors(n_neighbors=k,metric=metric).fit(df[feature_names])
    nbrs_distances, nbrs_indices = nbrs.kneighbors([df.iloc[n][feature_names]], k, return_distance=True)
    
    df_res = pd.concat([
        df.iloc[nbrs_indices[0]], 
        pd.DataFrame(nbrs_distances.T, index=nbrs_indices[0], columns=['distance'])
        ], axis=1)
    
    return df_res

Escalando os dados

In [None]:
feature_names = ['gender', 'age', 'income', 'family_members']

transformer_mas = sklearn.preprocessing.MaxAbsScaler().fit(df[feature_names].to_numpy())

df_scaled = df.copy()
df_scaled.loc[:, feature_names] = transformer_mas.transform(df[feature_names].to_numpy())

In [None]:
df_scaled.sample(5)

Agora, vamos obter registros semelhantes para um determinado registro para cada combina√ß√£o

In [None]:
get_knn(df, 1, 5, "manhattan")

In [None]:
get_knn(df_scaled, 1, 5, "manhattan")

In [None]:
get_knn(df, 1, 5, "euclidean")

In [None]:
get_knn(df_scaled, 1, 5, "euclidean")

Respostas para as perguntas

**Os dados n√£o escalados afetam o algoritmo kNN? Se sim, como isso acontece?** 

Sim, afetam a imprescindibilidade, podendo ocasionar em erros de predi√ß√µes.

**Qu√£o semelhantes s√£o os resultados usando a m√©trica de dist√¢ncia de Manhattan (independentemente da escalabilidade)?** 
√â menos preciso das demais, gerando grande distancia entre os dados.

# Tarefa 2. √â prov√°vel que o cliente receba um pagamento do seguro?

Em termos de aprendizado de m√°quina, podemos olhar para isso como uma tarefa de classifica√ß√£o bin√°ria.

Com os pagamentos de seguro sendo mais do que zero como objetivo, avalie se a abordagem da classifica√ß√£o kNN pode ser melhor do que um modelo dummy.

Instru√ß√µes:
- Construa um classificador baseado em kNN e me√ßa sua qualidade com a m√©trica F1 para k=1..10 tanto para os dados originais quanto para os escalados. Seria interessante ver como k pode influenciar a m√©trica de avalia√ß√£o e se a escalabilidade dos dados faz alguma diferen√ßa. Voc√™ pode usar uma implementa√ß√£o pronta do algoritmo de classifica√ß√£o kNN do scikit-learn (verifique [o link](https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html)) ou usar a sua pr√≥pria.
- Construa o modelo dummy, que √© aleat√≥rio para este caso. Deve retornar com alguma probabilidade o valor "1". LVamos testar o modelo com quatro valores de probabilidade: 0, a probabilidade de fazer qualquer pagamento de seguro, 0,5, 1.

A probabilidade de fazer qualquer pagamento de seguro pode ser definida como

$$
P\{\text{pagamento de seguro recebido}= n√∫mero de clientes que receberam qualquer pagamento de seguro}}{\text{n√∫mero total de clientes}}.
$$

Divida os dados inteiros na propor√ß√£o 70:30 para as partes de treinamento/teste.

In [None]:
# calcule a meta
df['insurance_benefits_received'] = df['insurance_benefits'].sum()/df['insurance_benefits'].count()

In [None]:
# verifique o desequil√≠brio de classe com value_counts()
df['insurance_benefits']


In [None]:
#substituindo valores maiores de 1 em 1
df['insurance_benefits'] = df['insurance_benefits'].mask(df['insurance_benefits'] > 1, 1)
df_scaled['insurance_benefits'] = df_scaled['insurance_benefits'].mask(df_scaled['insurance_benefits'] > 1, 1)

In [None]:
df['insurance_benefits'].value_counts(normalize=True)

In [None]:
df_scaled['insurance_benefits'].value_counts(normalize=True)

In [None]:
df['insurance_benefits_received'] = df['insurance_benefits'].sum()/df['insurance_benefits'].count()

In [None]:
df_scaled['insurance_benefits_received'] = df_scaled['insurance_benefits'].sum()/df_scaled['insurance_benefits'].count()

In [None]:
df

In [None]:
df_scaled

In [None]:
def eval_classifier(y_true, y_pred):
    
    f1_score = sklearn.metrics.f1_score(y_true, y_pred)
    print(f'F1: {f1_score:.2f}')
    
# se voc√™ tiver um problema com a linha a seguir, reinicie o kernel e execute o caderno novamente
    cm = sklearn.metrics.confusion_matrix(y_true, y_pred, normalize='all')
    print('Matriz de Confus√£o')
    print(cm)

In [None]:
df['insurance_benefits']

In [None]:
# gerando sa√≠da de um modelo aleat√≥rio

def rnd_model_predict(P, size, seed=42):

    rng = np.random.default_rng(seed=seed)
    return rng.binomial(n=1, p=P, size=size)

In [None]:
for P in [0, df['insurance_benefits'].sum() / len(df), 0.5, 1]:

    print(f'A probabilidade: {P:.2f}')
    y_pred_rnd = rnd_model_predict(P,5000)
        
    eval_classifier(df['insurance_benefits'], y_pred_rnd)
    
    print()

In [None]:
for P in [0, df_scaled['insurance_benefits'].sum() / len(df), 0.5, 1]:

    print(f'A probabilidade: {P:.2f}')
    y_pred_rnd = rnd_model_predict(P,5000)
        
    eval_classifier(df_scaled['insurance_benefits'], y_pred_rnd)
    
    print()

Dos dados escalados e n√£o escalados podemos ver um resultado id√™ntico. O resultado mais plaus√≠vel seria o de 50% de probabilidade sendo seu F1 de 0.20 com a matrix de confus√£o melhor distribuida.

# Etapa 2. Modelo <a id='model'></a>

# Tarefa 3. Regress√£o (com Regress√£o Linear)

Com os pagamentos de seguro como objetivo, avalie qual seria o REQM para um modelo de Regress√£o Linear.

Construa sua pr√≥pria implementa√ß√£o de Regress√£o Linear. Para isso, lembre-se de como a solu√ß√£o da tarefa de regress√£o linear √© formulada em termos de √Ålgebra linear. Verifique o REQM para os dados originais e os escalados. Voc√™ pode ver alguma diferen√ßa no REQM entre esses dois casos?

Vamos denotar
- $X$ ‚Äî matriz de caracter√≠sticas, cada linha √© um caso, cada coluna √© uma caracter√≠stica, a primeira coluna consiste em unidades
- $y$ ‚Äî objetivo (um vetor)
- $\hat{y}$ ‚Äî objetivo estimado (um vetor)- $w$ ‚Äî vetor de peso

A tarefa de regress√£o linear na linguagem de matrizes pode ser formulada como
$$
y = Xw
$$

O objetivo do treinamento, ent√£o, √© encontrar os $w$ que minimizaria a dist√¢ncia L2 (EQM) entre $Xw$ e $y$:

$$
\min_w d_2(Xw, y) \quad \text{or} \quad \min_w \text{MSE}(Xw, y)
$$

Parece que h√° uma solu√ß√£o anal√≠tica para a quest√£o acima:

$$
w = (X^T X)^{-1} X^T y
$$

A f√≥rmula acima pode ser usada para encontrar os pesos $w$ e o √∫ltimo pode ser usado para calcular valores preditos

$$
\hat{y} = X_{val}w
$$

Dividi todos os dados na propor√ß√£o 70:30 para as partes de treinamento/valida√ß√£o. Usei a m√©trica REQM para a avalia√ß√£o do modelo.

In [None]:
class MyLinearRegression:
    
    def __init__(self):
        
        self.weights = None
    
    def fit(self, X, y):
        
        # somando as unidades
        X2 = np.append(np.ones([len(X), 1]), X, axis=1)
        self.weights = np.linalg.inv(X2.T.dot(X2)).dot(X2.T).dot(y)

    def predict(self, X):
        
        # somando as unidades
        X2 = np.append(np.ones([len(X), 1]), X, axis=1).dot(self.weights)
        return X2

In [None]:
def eval_regressor(y_true, y_pred):
    
    rmse = math.sqrt(sklearn.metrics.mean_squared_error(y_true, y_pred))
    print(f'REQM: {rmse:.2f}')
    
    r2_score = math.sqrt(sklearn.metrics.r2_score(y_true, y_pred))
    print(f'R2: {r2_score:.2f}')    

In [None]:
X = df[['age', 'gender', 'income', 'family_members']].to_numpy()
y = df['insurance_benefits'].to_numpy()

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=12345)

lr = MyLinearRegression()

lr.fit(X_train, y_train)
print(lr.weights)



In [None]:
lr.fit(X_test, y_test)
print(lr.weights)

In [None]:
import math

In [None]:
y_test_pred = lr.predict(X_test)
eval_regressor(y_test, y_test_pred)

Criamos um modelo de regress√£o Linear com REQM de 0.23 e um R2 de 0.66.

# Tarefa 4. Ofuscando dados<a id='obfuscate'></a>

In [None]:
personal_info_column_list = ['gender', 'age', 'income', 'family_members']
df_pn = df[personal_info_column_list]

In [None]:
df_pn

In [None]:
X = df_pn.to_numpy()

In [None]:
X

Gerando uma matriz $P$ aleat√≥ria.

In [None]:
rng = np.random.default_rng(seed=42)
P = rng.random(size=(X.shape[1], X.shape[1]))

In [None]:
P

Verificando se a matriz $P$ √© invert√≠vel

In [None]:
Pi = np.linalg.inv(P)
Pi

In [None]:
Pi @ P

Voc√™ consegue adivinhar a idade ou a renda dos clientes ap√≥s a transforma√ß√£o?

N√£o, pois os dados est√£o ofuscados.

In [None]:
X3 = X.dot(P)

print(X3) 

### Recupendando os dados ofuscados

In [None]:
Xof = (X3.dot(Pi))
Xof


Imprimindo todos os tr√™s casos para alguns clientes- Os dados originais
- O transformado
- O invertido (recuperado)

In [None]:
#Os dados originais
X

In [None]:
#O transformado
X3

In [None]:
#O invertido (recuperado)
Xof

Os valores de 0 foram os mais afetados, dado o ofuscamento esses valores quando s√£o multiplicados pela matrix invert√≠vel ùëÉ. 

## Teste de regress√£o linear com ofusca√ß√£o de dados

Agora, vamos provar que a Regress√£o Linear pode funcionar computacionalmente com a transforma√ß√£o de ofusca√ß√£o escolhida.
Crie um procedimento ou uma classe que execute a Regress√£o Linear opcionalmente com a ofusca√ß√£o. Voc√™ pode usar uma implementa√ß√£o pronta de Regress√£o Linear do scikit-learn ou sua pr√≥pria.

Execute a Regress√£o Linear para os dados originais e os ofuscados, compare os valores previstos e os valores da m√©trica $R^2$ do REQM. H√° alguma diferen√ßa?

**Procedimento**

- Crie uma matriz quadrada $P$ de n√∫meros aleat√≥rios.
- Verifique se √© invert√≠vel. Caso contr√°rio, repita o primeiro ponto at√© obtermos uma matriz invert√≠vel.
- Use $XP$ como a nova matriz de caracter√≠sticas

In [None]:
rngtest = np.random.default_rng(seed=36)
P = rngtest.random(size=(X.shape[1], X.shape[1]))

In [None]:
P

In [None]:
Pi = np.linalg.inv(P)
Pi

In [None]:
Pi @ P

In [None]:
class MyLinearRegressionOvershadowed:
    
    def __init__(self):
        
        self.weights = None
    
    def fitovershadowed(self, X, y):
        
        # somando as unidades
        X2 = np.append(np.ones([len(X), 1]), X, axis=1)
        self.weights = np.linalg.inv((X2@P).T.dot(X2@P)).dot((X2@P).T).dot(y)

    def predictovershadowed(self, X):
        
        # somando as unidades
        X2 = np.append(np.ones([len(X), 1]), X, axis=1).dot(self.weights)
        return X2

In [None]:
lrOvershadowed = MyLinearRegression()

lrOvershadowed.fit(X_train, y_train)
print(lrOvershadowed.weights)


In [None]:
lrOvershadowed.fit(X_test, y_test)
print(lr.weights)

In [None]:
y_test_predlrOvershadowed = lrOvershadowed.predict(X_test)
eval_regressor(y_test, y_test_predlrOvershadowed)

Obtivemos os mesmo resultados do que os dados n√£o ofuscados, quer dizer que nosso trabalho foi conclu√≠do corretamente.

## Conclus√£o geral <a id='end'></a>

Neste projeto, importamos bibliotecas como "pandas" e "numpy" que habitualmente j√° utilizamos, sklearn para cria√ß√£o do nosso modelo, "Seaborn" para representa√ß√£o em gr√°ficos.

Realizamos o pre-processamento, para que n√£o tivesse acontecido algum problema na cria√ß√£o do nosso modelo.

Usamos o algoritimo KNN para procurar clientes similares, com auxilio das m√©tricas Dist√¢ncia Euclidiana e Dist√¢ncia Manhattan, trabalhamos com os dados escalados e n√£o escalados para ter melhor visualiza√ß√£o e precis√£o em nossa predi√ß√£o. Desenvolvemos um prot√≥tipo de um modelo de aprendizado de m√°quina para saber se √© prov√°vel que o cliente receba um pagamento do seguro, com a probalidade de 50% e um F1: 0.20 como a melhor alternativa, aplicamos uma regress√£o Linear com REQM: 0.23 R2: 0.66 com os dados ofuscados e n√£o ofuscados.