# Projeto 1 - T320 (2S2025)

### Instruções

1. Quando você terminar os exercícios do projeto, vá até o menu do Jupyter ou Colab e selecione a opção para fazer download do notebook.
    * Os notebooks tem extensão .ipynb.
    * Este deve ser o arquivo que você irá entregar.
    * No Colab vá até a opção **File** -> **Download .ipynb**.
    * No Jupyter vá até a opção **File** -> **Download as** -> **Notebook (.ipynb)**.
2. Após o download do notebook, vá até a aba de tarefas do MS Teams, localize a tarefa referente a este projeto e faça o upload do seu notebook. Veja que há uma opção para anexar arquivos à tarefa.
3. Atente-se ao prazo de entrega definido na tarefa do MS Teams. Entregas fora do prazo não serão consideradas.
4. **O projeto pode ser resolvido em grupos de no MÁXIMO 3 alunos**.
5. Todas as questões têm o mesmo peso.
6. Não se esqueça de colocar seu(s) nome(s) e número(s) de matrícula no campo abaixo. Coloque os nomes dos integrantes do grupo no campo de texto abaixo.
7. Você pode consultar todo o material de aula.
8. A interpretação faz parte do projeto. Leia o enunciado de cada questão atentamente!
9. Boa sorte!

**Nomes e matrículas**:

1. Nome do primeiro aluno - Matrícula do primeiro aluno
2. Nome do segundo aluno - Matrícula do segundo aluno
3. Nome do terceiro aluno - Matrícula do terceiro aluno

## Exercícios

### 1) **Uso de classificador para detecção de símbolos de uma modulação digital**

Neste exercício, você irá usar um classificador para detectar símbolos de uma modulação digital, a modulação 16QAM.


1.1) Execute a célula abaixo e analise o resultado. A figura mostra símbolos ruidosos da modulação 16QAM, onde cada um dos quatro possíveis símbolos é considerado como uma classe diferente.

**DICAS:**

+ Notem que na célula de código abaixo, o conjunto de dados já está dividido em conjuntos de treinamento e validação.

In [None]:
# Import all necessary modules.
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_circles
from sklearn.model_selection import train_test_split
from sklearn.model_selection import KFold
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import PolynomialFeatures
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import cross_val_score
from sklearn.pipeline import Pipeline
from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score, roc_curve, auc
from sklearn.metrics import classification_report
from sklearn.metrics import roc_auc_score
from scipy.special import erfc
import seaborn as sns

# Reset PN sequence generator.
seed = 42
np.random.seed(seed)

# Definition of function used to modulate.
def modulate16QAM(bits):
    # Conjunto de símbolos 16QAM (Gray coded) com energia média normalizada
    symbols_16qam = [
        -3-3j, -3-1j, -3+3j, -3+1j,
        -1-3j, -1-1j, -1+3j, -1+1j,
         3-3j,  3-1j,  3+3j,  3+1j,
         1-3j,  1-1j,  1+3j,  1+1j
    ]
    ip = symbols_16qam[bits]
    # Normalização: energia média de 16QAM é 10 → divide por sqrt(10)
    symbol = (1.0/np.sqrt(10.0)) * ip
    return symbol

# Number of symbols to be transmitted.
N = 1000000

# Number of classes.
numOfClasses = 16

# Create Es/N0 vector.
EsN0dB = 19 # in dB
EsN0Lin = 10.0**(-(EsN0dB/10.0))

# Modulate symbols and add noise.
y = np.zeros((N, 1), dtype=complex)
bit_16qam = np.zeros((N,), dtype=int)
for i in range(0, N):

    # Generate 16QAM symbols.
    bit_16qam[i] = np.random.randint(0, 16)
    # Modulate the binary stream into 16QAM symbols.
    symbol = modulate16QAM(bit_16qam[i])

    # Pass 16QAM symbols through AWGN channel.
    noise = np.sqrt(EsN0Lin/2.0) * (np.random.randn() + 1j*np.random.randn())
    y[i] = symbol + noise

# Create the attribute matrix.
# As the scikit-learn classes do not accept complex numbers, we split one complex number in its real and imaginary parts, then doubling the number of samples.
X = np.c_[np.real(y), np.imag(y)]

# Split array into random train and test subsets.
X_train, X_test, y_train, y_test = train_test_split(X, bit_16qam, test_size=0.3, stratify=bit_16qam, random_state=seed)

# Plot the classes.
plt.figure()
for k in range(16):
    idx = np.argwhere(bit_16qam == k)
    plt.plot(np.real(y[idx.ravel()]), np.imag(y[idx.ravel()]), '.', markersize=4, label=f'Symbol {k}')

plt.grid()
plt.xlabel('InPhase')
plt.ylabel('Quadrature')
plt.title('16QAM Constellation')

# Legenda fora do quadro (à direita)
plt.legend(bbox_to_anchor=(1.05, 1), loc='upper left', ncol=1, fontsize=7)

plt.tight_layout()
plt.show()



1.2 ) Neste item do exercício, treine um regressor Softmax com o conjunto de treinamento gerado no item anterior, calcule e imprima sua acurácia com o conjunto de validação.

**DICAS**:

+ Para que os próximos itens deste exercício funcionem corretamente, chame seu modelo de `model`.

In [None]:
# Digite aqui o código do exercício.

1.3 ) Usando o modelo treinado no item anterior, plote as regiões de decisão deste classificador.

In [None]:
# Digite aqui o código do exercício.

1.4 ) Observe a figura com as regiões de decisão e responda: As regiões de decisão do classificador se assemelham às regiões do detector 16QAM ótimo? (**Justifique sua resposta**)

**DICAS**

- Veja o conteúdo do blog a seguir: https://dsplog.com/2007/12/09/symbol-error-rate-for-16-qam/

**Resposta**

<span style="color:blue">Escreva sua resposta abaixo.</span>

1.5 ) Plote a matriz de confusão deste classificador para os exemplos do conjunto de validação.

In [None]:
# Digite aqui o código do exercício.

1.6 ) Analise a figura com as regiões de decisão, a matriz de confusão e responda: Por que o classificador não atinge 100% de acurácia, ou seja, não detecta corretamente todos os símbolos? (**Justifique sua resposta**)

**Resposta**

<span style="color:blue">Escreva sua resposta abaixo.</span>

1.7 ) Analise a matriz de confusão e responda:

+ Qual a acurácia deste classificador?
+ Qual é o F1-score do classificador?
+ Podemos afirmar que este é um classificador com boa capacidade de generalização?
+ Se a taxa de erro de símbolo (symbol error rate - SER) é dada por: 1 - acurácia, qual a SER deste classificador?

**Justifique suas respostas.**

**DICAS**
- Os calculos devem ser feitos com os valores da matriz de confusão.

**Resposta**

<span style="color:blue">Escreva sua resposta abaixo.</span>

1.8 ) Neste ítem, você irá comparar a taxa de erro de símbolo obtida pelo classificador treinado com a taxa de erro de símbolo teórica da modulação 16QAM. Portanto, execute a célula de código abaixo e analise o resultado obtido.

**DICAS**:

+ Para que o código abaixo funcione corretamente, o nome do seu classificador treinado em um dos itens anteriores deve ser `model`.
+ Esta simulação irá demorar um pouco, aguarde 30 minutos, em média.

In [None]:
# Number of symbols to be transmitted.
N = 1000000

# Sweep in Eb/N0 (dB) and convert to Es/N0 (dB) for M=16 (k = log2(M) = 4)
EbN0dB = np.arange(-2, 16, 2)
k = 4  # bits por símbolo na 16QAM
EsN0dB = EbN0dB + 10*np.log10(k)  # Es/N0 = Eb/N0 + 10*log10(k)

# Arrays for SER
ser_simu = np.zeros((len(EbN0dB),))
ser_theo = np.zeros((len(EbN0dB),))

# Função de modulação 16QAM (Gray coded, energia normalizada: Es=1)
def modulate16QAM(bits):
    symbols_16qam = [
        -3-3j, -3-1j, -3+3j, -3+1j,
        -1-3j, -1-1j, -1+3j, -1+1j,
         3-3j,  3-1j,  3+3j,  3+1j,
         1-3j,  1-1j,  1+3j,  1+1j
    ]
    ip = symbols_16qam[bits]
    return ip / np.sqrt(10.0)  # normalização para Es=1

# Q-function
from scipy.special import erfc
def Q(x):
    return 0.5*erfc(x/np.sqrt(2))

# Loop de simulação
for idx in range(len(EbN0dB)):
    # Converta Es/N0 (dB) -> linear
    EsN0Lin = 10.0**(EsN0dB[idx]/10.0)  # relação linear Es/N0
    N0 = 1.0 / EsN0Lin                  # pois Es = 1 após normalização
    errors = 0

    for i in range(N):
        # Símbolo aleatório 16QAM
        bit_16qam = np.random.randint(0, 16)
        symbol = modulate16QAM(bit_16qam)

        # Canal AWGN
        noise = np.sqrt(N0/2.0) * (np.random.randn() + 1j*np.random.randn())
        y = symbol + noise

        # Detector ML: escolhe o ponto da constelação mais próximo
        # (distância euclidiana ao conjunto de 16 pontos)
        min_dist = np.inf
        detected_symbol = 0
        for s in range(16):
            ref = modulate16QAM(s)
            d = np.abs(y - ref)
            if d < min_dist:
                min_dist = d
                detected_symbol = s

        # Contagem de erros de símbolo
        if detected_symbol != bit_16qam:
            errors += 1

    # SER simulada
    ser_simu[idx] = errors / N

    # SER teórica para 16QAM (em Es/N0)
    # Ps ≈ 3*Q( sqrt(Es/(5N0)) ) - (9/4)*Q^2( sqrt(Es/(5N0)) )
    # Como Es/N0 = EsN0Lin, então:
    arg = np.sqrt(EsN0Lin / 5.0)
    ser_theo[idx] = 3.0*Q(arg) - (9.0/4.0)*(Q(arg)**2)

    print(f'Eb/N0: {EbN0dB[idx]:>2} dB  |  SER simu: {ser_simu[idx]:.3e}  |  SER theo: {ser_theo[idx]:.3e}')

# Plot (eixo em Eb/N0)
import matplotlib.pyplot as plt
plt.figure()
plt.plot(EbN0dB, ser_theo, label='16QAM teórica')
plt.plot(EbN0dB, ser_simu, 'ro', label='16QAM simulada')
plt.xlabel('Eb/N0 [dB]')
plt.ylabel('SER')
plt.yscale('log')
plt.grid(True, which='both')
plt.title('16QAM detection over AWGN (SER vs Eb/N0)')
plt.legend()
plt.xlim([EbN0dB.min(), EbN0dB.max()])
plt.ylim([1e-6, 1])
plt.show()

1.9 ) Após a análise dos resultados acima, podemos dizer que o classificador apresenta boa performance quando comparado com a curva da taxa de erro de símbolo teórica da modulação 16QAM? (**Justifique sua resposta**)

**Resposta**

<span style="color:blue">Escreva sua resposta abaixo.</span>


### 2) **Exercício sobre classificação aplicada ao ***Churn*** de clientes em servições de telecomunicações.**

Você sabia que atrair um novo cliente custa de cinco a sete vezes mais do que manter um já existente?

Muitas vezes, os clientes ficam insatisfeitos com os serviços prestados e encerram o contrato ou assinatura. Essa rotatividade de clientes, ou `Churn`, (taxa de clientes ou assinantes que deixam de fazer negócios com uma empresa) afeta drasticamente as finanças das empresas de telecomunicações. Portanto, para reduzir a rotatividade de clientes, as empresas precisam prever quais clientes correm alto risco de encerrarem o contrato ou assinatura.

Baseado nessas informações, vamos encontrar um modelo que ajude as empresas a prever a satisfação dos clientes, identificando se eles pretendem encerrar o contrato.

O conjunto de dados que utilizaremos contém 20 atributos (i.e., colunas) que indicam as características dos clientes de uma empresa fictícia de telecomunicações que fornece serviços de telefone residencial e Internet na Califórnia.

A coluna `Churn` (i.e., o rótulo) indica se o cliente encerrou o contrato ou assinatura no último mês ou não. A classe `No` inclui os clientes que não encerram o relaciomento com a empresa no último mês, enquanto a classe `Yes` contém os clientes que decidiram encerrar o relacionamento com a empresa. O objetivo da nossa análise é obter a relação entre os atributos do cliente e o *churn* (i.e., término do relaciomento). Notem, portanto, que este é um problema de classificação binária.

Além da coluna/atributo `customerID`, o conjunto de dados contém outros 19 atributos, os quais podem ser agrupados em 3 grupos:

**1 - Demographic Information**

+ gender: Whether the client is a female or a male (Female, Male).
+ SeniorCitizen: Whether the client is a senior citizen or not ( 0, 1).
+ Partner: Whether the client has a partner or not (Yes, No).
+ Dependents: Whether the client has dependents or not (Yes, No).

**2 - Customer Account Information**

+ tenure: Number of months the customer has stayed with the company (Multiple different numeric values).
+ Contract: Indicates the customer’s current contract type (Month-to-Month, One year, Two year).
+ PaperlessBilling: Whether the client has paperless billing or not (Yes, No).
+ PaymentMethod: The customer’s payment method (Electronic check, Mailed check, Bank transfer (automatic), Credit Card (automatic)).
+ MontlyCharges: The amount charged to the customer monthly (Multiple different numeric values).
+ TotalCharges: The total amount charged to the customer (Multiple different numeric values).

**3 - Services Information**

+ PhoneService: Whether the client has a phone service or not (Yes, No).
+ MultipleLines: Whether the client has multiple lines or not (No phone service, No, Yes).
+ InternetServices: Whether the client is subscribed to Internet service with the company (DSL, Fiber optic, No)
+ OnlineSecurity: Whether the client has online security or not (No internet service, No, Yes).
+ OnlineBackup: Whether the client has online backup or not (No internet service, No, Yes).
+ DeviceProtection: Whether the client has device protection or not (No internet service, No, Yes).
+ TechSupport: Whether the client has tech support or not (No internet service, No, Yes).
+ StreamingTV: Whether the client has streaming TV or not (No internet service, No, Yes).
+ StreamingMovies: Whether the client has streaming movies or not (No internet service, No, Yes).

#### Referências

[1] 'End-to-end machine learning project: Telco customer churn', https://towardsdatascience.com/end-to-end-machine-learning-project-telco-customer-churn-90744a8df97d

[2] 'Telco Customer Churn: Focused customer retention programs', https://www.kaggle.com/datasets/blastchar/telco-customer-churn?resource=download

[3] 'Customer Churn (Marketing)', https://catalog.workshops.aws/canvas-immersion-day/en-US/1-use-cases/1-marketing

[4] 'Telecom customer churn prediction', https://www.kaggle.com/code/bhartiprasad17/customer-churn-prediction

[5] 'Telco customer churn (11.1.3+)', https://community.ibm.com/community/user/businessanalytics/blogs/steven-macko/2019/07/11/telco-customer-churn-1113

[6] 'telco-customer-churn', https://www.openml.org/search?type=data&sort=runs&id=42178&status=active



2.1) Execute a célula abaixo para os módulos necessários e baixar o conjunto de dados. Na sequência, analise as linhas que serão impressas.

**DICAS**

+ Após a execução bem sucedida da célula abaixo, você visualizará as 20 primeiras linhas da base de dados.
+ A coluna `Churn` será o valor alvo (i.e., o rótulo). Os rótulos são os valores que o modelo é treinado para predizer.

In [None]:
# Importe todas os módulos necessários.
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.datasets import make_moons
from sklearn.model_selection import train_test_split
from sklearn.model_selection import KFold, GridSearchCV
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import PolynomialFeatures
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import Perceptron
from sklearn.inspection import permutation_importance
from sklearn.pipeline import Pipeline
from sklearn.metrics import confusion_matrix, accuracy_score, classification_report, roc_curve, auc
import seaborn as sns
import urllib

# Reseta o gerador de sequências pseudo aleatórias.
seed = 42
np.random.seed(seed)

# Baixa as bases de dados do dropbox.
urllib.request.urlretrieve('https://www.dropbox.com/s/xg2hzt0p8p3zsjd/telco_customer_churn.csv?dl=1', 'telco_customer_churn.csv')

# Importa os arquivos CSV.
df = pd.read_csv('./telco_customer_churn.csv')

# Mostra as 20 primeiras linhas.
df.head(20)

2.2) Execute a célula abaixo para realizar a limpeza dos dados.

**DICAS**

+ Os comentários abaixo explicam cada uma das instruções para limpar a base de dados.

In [None]:
# Força a coluna 'TotalCharges' a ser do tipo numérico.
df['TotalCharges'] = pd.to_numeric(df['TotalCharges'], errors='coerce')

# Remove exemplos (i.e., linhas) com valores nulos.
df.dropna(inplace=True)

# Remove a coluna 'customerID' pois ela é inútil para explicar se o cliente não irá encerrar o relacionamento com a companhia.
df.drop(columns='customerID', inplace=True)

# Remove a string '(automático)' dos nomes dos métodos de pagamento, pois ela é inútil.
df['PaymentMethod'] = df['PaymentMethod'].str.replace(' (automatic)', '', regex=False)

2.3) Execute a célula abaixo para realizar a engenharia de atributos da base de dados.

A engenharia de atributos é o processo de transformar os atributos em um formato adequado para o modelo de aprendizado de máquina. Neste exercício, precisamos transformar variáveis numéricas e categóricas.

A maioria dos algoritmos de aprendizado de máquina requer valores numéricos. Portanto, todos os atributos categóricos disponíveis no conjunto de dados devem ser codificados em rótulos numéricos antes de treinarmos um modelo.

**DICAS**

+ Os comentários abaixo explicam cada uma das instruções para realizar a engenharia de atributos.
+ Perceba que a engenharia de atributos fez com que a matriz de atributos passe a ter 40 atributos.
+ Note que os valores categóricos da coluna `Churn`, `No` e `Yes` serão mapeados nos valores 0 e 1, respectivamente. Portanto, como queremos predizer se ocorrerá o término do relaciomento com a empresa, i.e., `Churn`, a classe positiva é dada pelo valor `Yes` , que é mapeado no valor 1. Consequentemente, a classe negativa é dada pelo valor `No`, mapeado no valor 0.

In [None]:
# Cria uma cópia do DataFrame.
df_transformed = df.copy()

# Primeiro, realizamos a codificação de rótulo, a qual é usada para substituir valores categóricos por valores numéricos.
# Essa codificação substitui cada valor categórico por um valor numérico binário (0 ou 1).

# Lista de colunas com valores categóricos com apenas dois valores.
label_encoding_columns = ['gender', 'Partner', 'Dependents', 'PaperlessBilling', 'PhoneService', 'Churn']

# Executa a codificação de rótulo de colunas com apenas dois valores.
# O que é feito é mapear os valores categóricos em valores numéricos, 0 ou 1.
for column in label_encoding_columns:
    if column == 'gender':
        df_transformed[column] = df_transformed[column].map({'Female': 1, 'Male': 0})
    else:
        df_transformed[column] = df_transformed[column].map({'Yes': 1, 'No': 0})

# Na sequência, codificamos as colunas categóricas que possuem mais de dois possíveis valores usando a codificação one-hot.
# A codificação one-hot cria uma nova coluna binária para cada valor da variável categórica.
# A nova coluna contém zeros e uns indicando a ausência ou presença do valor sendo codificado.

# Lista de colunas categóricas com mais de dois possíveis valores.
one_hot_encoding_columns = ['MultipleLines', 'InternetService', 'OnlineSecurity', 'OnlineBackup', 'DeviceProtection',
                            'TechSupport', 'StreamingTV', 'StreamingMovies', 'Contract', 'PaymentMethod']

# Executa a codificação one-hot de colunas com mais de dois valores.
df_transformed = pd.get_dummies(df_transformed, columns=one_hot_encoding_columns)

print('Dimensão da base de dados após a engenharia de atributos:', df_transformed.shape)

2.4) Execute a célula abaixo para realizar o pré-processamento dos dados.

Precisamos escalonar as colunas numéricas. Isso evitará que as colunas com valores grandes dominem o processo de aprendizado.

Atributos com valores muito grandes tedem a dominar o processo de aprendizado. Entretanto, isso não significa que esses atributos sejam mais importantes na tarefa de predizer o valor desejado.

A normalização de atributos deixa atributos com diferentes escalas com a mesma escala. Após a normalização, todas as variáveis têm influência semelhante no modelo, melhorando a estabilidade e o desempenho do algoritmo de aprendizado.

Na célula de código abaixo, aplicamos a normalização min-max apenas aos atributos numéricos não binários, ou seja, atributos que possuem valores reais.

**DICAS**

+ Os comentários abaixo explicam cada uma das instruções para realizar o pré-processamento dos dados.

In [None]:
# Lista de colunas com valores numéricos não binários, ou seja, colunas que possuem valores reais.
min_max_columns = ['tenure', 'MonthlyCharges', 'TotalCharges']

# Escalona atributos numéricos usando a normalização min-max.
for column in min_max_columns:
    # Obtém o valor mínimo da coluna (i.e., atributo).
    min_column = df_transformed[column].min()
    # Obtém o valor máximo da coluna (i.e., atributo).
    max_column = df_transformed[column].max()
    # Aplica a normalização min-max.
    df_transformed[column] = (df_transformed[column] - min_column) / (max_column - min_column)

2.5) Execute a célula de código abaixo para criar a matriz de atributos, $\textbf{X}$, e o vetor de rótulos, $\textbf{y}$.

**DICAS**

+ A primeira linha de comando remove da matriz de atributos a coluna `Churn`, pois ela será nosso rótulo.
+ A segunda linha cria o vetor de rótulos contendo apenas a coluna `Churn`.
+ A célula imprimirá as dimensões da matriz de atributos e do vetor de rótulos.

In [None]:
# Criando o conjunto de pares de treinamento, X e y.
X = df_transformed.drop(columns='Churn')
y = df_transformed['Churn']

# Atributos.
print('Dimensão da matriz de atributos:', X.shape)
# Rótulos.
print('Dimensão do vetor de rótulos:', y.shape)

2.6 ) Analise a proporção das classes.

Execute a célula abaixo para visualizar a distribuição da variável target `Churn` usando um gráfico de barras.

**DICAS**
+ O valor de `Churn` igual a 1 (Sim), significa que o cliente cancelou o serviço.
+ O valor de `Churn` igual a 0 (Não), significa que o cliente permaneceu com o serviço.

In [None]:
# Plotar distribuição
sns.countplot(x='Churn', data=df_transformed)
plt.title('Distribuição de Churn (0=Não, 1=Sim)')
plt.show()

print("Contagem de Churn:\n", y.value_counts())
print("\nProporção de Churn:\n", y.value_counts(normalize=True))

2.7 ) Após analisar o gráfico acima, interprete a distribuição das classes e responda:

+ Este é um problema com classes balanceadas ou desbalanceadas?

+ Baseado na sua resposta anterior, a acurácia é uma boa metrica a ser usada para mensurar a qualidade de um classificador?

+ Caso a acurácia não seja uma boa métrica, qual ou quais outras métricas poderiam ser utilizadas?

+ Quais possíveis impactos o desbalanceamento de classes pode ter na performance de modelos de classificação?

+ Quantos clientes permaneceram na empresa e quantos cancelaram o serviço? Qual a porcentagem de clientes que cancelaram em relação ao total?

**Justifique suas respostas.**

**DICAS**

+ O desbalanceamento de classes ocorre quando uma classe possui significativamente mais exemplos que outra em um conjunto de dados.
+ Esse desequilíbrio representa um sério desafio para algoritmos de aprendizado de máquina, pois os modelos tendem a se tornar enviesados em favor da classe majoritária. Como resultado, mesmo alcançando alta acurácia geral, o modelo frequentemente falha em identificar corretamente os casos da classe minoritária, que são justamente os mais críticos em muitos cenários práticos, como na detecção de fraudes ou na previsão de cancelamento de serviços.
+ Para responder as questões 2 e 3, reveja a parte V do material sobre classificação.

**Resposta**

<span style="color:blue">Escreva abaixo a resposta do exercício.</span>

2.8) Divida o conjunto total de amostras em conjuntos de treinamento e teste. O conjunto de treinamento deve conter 75% do total de amostras e o conjunto de teste os 25% restantes.

**DICAS**

+ Use a função `train_test_split` e a configure com os seguintes parâmetros `test_size=0.25` e `random_state=seed`.
+ Como o dataset é desbalanceado, use o parâmetro `stratify` configurado como `stratify=y` para criar conjuntos de treinamento de teste seguindo as porcentagens originais das duas classes do dataset.
+ Sempre que possível, use a semente, `seed`, definida no item 1, para configurar o parâmetro `random_state` das funções e classes da biblioteca SciKit-Learn.

In [None]:
# Digite aqui o código do exercício.

2.9 ) Treine um regressor logístico com o conjunto de treinamento e imprima sua acurácia nos conjuntos de treinamento e teste. A variável que irá armazenar o objeto da classe `LogisticRegression` deve se chamar `model1`.

**DICAS**

+ Configure o parâmetro `penalty` da classe `LogisticRegression` com o valor `None`, ou seja, não vamos usar regularização.
```python
penalty=None
```
+ Configure o parâmetro `random_state` da classe `LogisticRegression` com a semente definida no item 1, ou seja,
```python
random_state=seed
```

In [None]:
# Digite aqui o código do exercício.

2.10 ) Usando o modelo treinado no item anterior, plote a matriz de confusão para o **conjunto de teste**.

In [None]:
# Digite aqui o código do exercício.

2.11 ) Use a função `classification_report` da biblioteca SciKit-Learn para plotar as métricas deste classificador para o **conjunto de teste**.

**DICA**

+ Para resolver este item, se baseie no código do seguinte exemplo: [classification_metrics.ipynb](https://colab.research.google.com/github/zz4fap/t320_aprendizado_de_maquina/blob/main/notebooks/classifica%C3%A7%C3%A3o/classification_metrics.ipynb).

In [None]:
# Digite aqui o código do exercício.

2.12 ) Treine um perceptron com o conjunto de treinamento e imprima sua acurácia nos conjuntos de treinamento e teste. A variável que irá armazenar o objeto da classe `Perceptron` deve se chamar `model2`.

**DICAS**

+ Configure o parâmetro `penalty` da classe `Perceptron` com o valor `None`, ou seja, não vamos usar regularização.
```python
penalty=None
```
+ Configure o parâmetro `random_state` da classe `Perceptron` com a semente definida no item 1, ou seja,
```python
random_state=seed
```

In [None]:
# Digite aqui o código do exercício.

2.13 ) Usando o modelo treinado no item anterior, plote a matriz de confusão para o **conjunto de teste**.

In [None]:
# Digite aqui o código do exercício.

2.14 ) Use a função `classification_report` da biblioteca SciKit-Learn para plotar as métricas deste classificador para o **conjunto de teste**.

**DICA**

+ Para resolver este item, se baseie no código do seguinte exemplo: [classification_metrics.ipynb](https://colab.research.google.com/github/zz4fap/t320_aprendizado_de_maquina/blob/main/notebooks/classifica%C3%A7%C3%A3o/classification_metrics.ipynb).

In [None]:
# Digite aqui o código do exercício.

2.15 ) Após analisar as métricas e matrizes de confusão dos modelos, responda:

+ Baseando-se nas métricas mais indicadas ao problema deste exercício, qual é o melhor modelo?
+ Após analisar as taxas de falsos positivos e falsos negativos do melhor modelo, poderíamos confiar neste modelo para fazer predições do `Churn`?

**Justifique todas as respostas**

**DICAS**

+ Para responder a segunda questão, calcule as taxas de falsos positivos e falsos negativos a partir da matriz de confusão do melhor modelo. Lembre-se que a classe positiva é a `Churn` e a negativa a `No Churn`. Um bom classificador para a tarefa de predição do `Churn` deve ter ambos os valores o mais próximos de zero o possível.

**Resposta**

<span style="color:blue">Escreva abaixo a resposta do exercício.</span>

2.16 ) Execute a célula de código abaixo para executar um código que avalia a importância dos atributos da base de dados usando a técnica conhecida como `Permutation feature importance`.

`Permutation feature importance` é uma técnica de inspeção de modelos que mede a contribuição de cada atributo para o desempenho de um modelo. Essa técnica envolve embaralhar aleatoriamente os valores de um único atributo e observar a degradação resultante no desempenho do modelo. Ao quebrar a relação entre o atributo e o rótulo, determinamos o quanto o modelo depende desse atributo específico.

Por meio da `Permutation feature importance`, nós conseguimos verificar quais atributos mais influenciam a predição de ***Churn***.

In [None]:
# Digite abaixo o nome do melhor modelo: model1 ou model2.
best_model =

In [None]:
# Calcular a importância por permutação no conjunto de TESTE
result = permutation_importance(
    best_model, X_test, y_test, n_repeats=20, random_state=42, n_jobs=-1
)

# Organizar as importâncias em ordem DECRESCENTE (da maior para a menor)
sorted_idx = result.importances_mean.argsort()[::-1]

# Mostrar apenas as 10 features mais importantes
top_n = 10
sorted_idx_top = sorted_idx[:top_n]
feature_names_top = [X_test.columns.tolist()[i] for i in sorted_idx_top]

plt.figure()  # Aumentei um pouco a altura para 10 features
bars = plt.barh(feature_names_top, result.importances_mean[sorted_idx_top])

# Inverter o eixo Y para mostrar a feature mais importante no topo
plt.gca().invert_yaxis()

plt.xlabel("Diminuição Média na Acurácia")
plt.title(f"Top {top_n} - Importância dos Atributos por Permutação (Conjunto de Teste)")

# Adicionar os valores nas barras
for i, v in enumerate(result.importances_mean[sorted_idx_top]):
    plt.text(v, i, f" {v:.4f}", va='center')

# Ajustar automaticamente o limite do eixo X se necessário
max_importance = result.importances_mean[sorted_idx_top].max()
plt.xlim(right=max_importance * 1.15)  # 15% de margem

plt.tight_layout()
plt.show()

2.17 ) Após analisar o resultado do item anterior, responda:

* Quais os três atributos aparecem como os mais importantes no gráfico de Permutation Importance para o conjunto de teste?
* Você consegue imaginar o motivo do primeiro atributo que aparece no gráfico anterior ter uma importância bem maior do que a dos outros atributos?
  - Para responder estar pergunta, volte ao item 1 e compare os valores da coluna referente a este atributo com os valores da coluna `Churn` (a coluna de rótulos). A chance de churn aumenta ou diminui com o aumento do valor dos elementos deste atributo?

**Resposta**

<span style="color:blue">Escreva abaixo a resposta do exercício.</span>

2.18 ) Execute a célula de código abaixo. O código analisa a relação entre o tempo de relacionamento (tenure) e a taxa de churn, calculando para cada mês de tenure a proporção de clientes que cancelaram o serviço e plotando esses dados em um gráfico de linha com uma curva de tendência, permitindo visualizar como a probabilidade de churn evolui ao longo do tempo de contrato do cliente.

In [None]:
# Criar uma cópia do DataFrame original para preservar os dados não transformados
df_plot = df.copy()

# Agrupar os dados por tenure e calcular a taxa média de churn
churn_by_tenure = df_plot.groupby('tenure')['Churn'].apply(
    lambda x: (x == 'Yes').mean()  # Calcular proporção de churn
).reset_index()

# Plotar a curva de taxa de churn vs. tenure
plt.figure()
plt.plot(churn_by_tenure['tenure'], churn_by_tenure['Churn'], marker='o', linestyle='-', linewidth=2)
plt.xlabel('Tempo de Relacionamento (Tenure em Meses)')
plt.ylabel('Taxa de Churn')
plt.title('Relação entre Tenure e Taxa de Churn')
plt.grid(True, linestyle='--', alpha=0.7)

# Adicionar uma linha de tendência para facilitar a interpretação
z = np.polyfit(churn_by_tenure['tenure'], churn_by_tenure['Churn'], 3)
p = np.poly1d(z)
plt.plot(churn_by_tenure['tenure'], p(churn_by_tenure['tenure']), "r--", alpha=0.8, label='Tendência')

plt.legend()
plt.show()

2.19 ) Analisando a relação entre tempo de relacionamento (tenure) e taxa de churn mostrada no gráfico anterior, descreva qual é o padrão observado e que implicações práticas essa tendência teria para a estratégia de retenção de clientes da empresa?

**Resposta**

<span style="color:blue">Escreva abaixo a resposta do exercício.</span>

### 3) **Exercício sobre o balanceamento de bases de dados**

Neste exercício usaremos novamente a base de dados para predição de `Churn` usada no exercício anterior. Porém, desta vez, aplicaremos uma técnica de reamostragem de dados que deixará o dataset mais balanceado e menos enviesado em direção à classe majoritária.

Para balancear a base de dados, usaremos a biblioteca **imbalanced-learn (imblearn)**. Ela é uma biblioteca Python especializada no tratamento de conjuntos de dados desbalanceados. Ela oferece diversas técnicas de reamostragem para equilibrar a distribuição entre classes, como:

- **Oversampling**: Aumenta a classe minoritária (por exemplo, SMOTE, que cria amostras sintéticas).
- **Undersampling**: Reduz a classe majoritária.
- **Métodos combinados**: Abordagens híbridas.

Essa biblioteca é crucial porque conjuntos desbalanceados prejudicam a performance de algoritmos de aprendizado de máquina, que tendem a ignorar a classe minoritária.

Nós usaremos a classe SMOTE (Synthetic Minority Over-sampling Technique) da biblioteca imblearn. Ela é uma técnica avançada de oversampling que cria exemplos sintéticos da classe minoritária em vez de simplesmente duplicar instâncias existentes.

**Funcionamento**:

1. Seleciona exemplos da classe minoritária

2. Encontra seus k-vizinhos mais próximos

3. Gera novas amostras através de interpolação entre esses pontos

**Vantagens**:

- Evita overfitting causado por duplicação simples

- Expande o espaço de atributos da classe minoritária

- Melhora a capacidade do modelo de generalizar

É uma das técnicas mais populares no imblearn para lidar com desbalanceamento de classes.

**Referência**

[1] https://imbalanced-learn.org/stable/


3.1 ) Execute a célula de código abaixo. Ela realiza o pré-processamento, engenharia de atributos (ou features) e análise exploratória da base de dados de churn. As principais etapas são:

1. **Pré-processamento dos dados:**
   - Converte colunas para tipos adequados
   - Remove valores nulos e colunas irrelevantes
   - Limpa strings em métodos de pagamento

2. **Engenharia de features:**
   - Aplica **label encoding** em variáveis categóricas binárias
   - Usa **one-hot encoding** em variáveis com múltiplas categorias
   - Normaliza features numéricas com **min-max scaling**

3. **Análise exploratória:**
   - Separa os dados em features (X) e target (y)
   - Visualiza a distribuição da variável target "Churn"
   - Mostra estatísticas do desbalanceamento entre classes

A gráfico plotado ao final revela que as classes estão desbalanceadas (aproximadamente 73% Não-Churn vs 27% Churn).

In [None]:
# Importe todas os módulos necessários.
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.datasets import make_moons
from sklearn.model_selection import train_test_split
from sklearn.model_selection import KFold, GridSearchCV
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import PolynomialFeatures
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import Perceptron
from sklearn.inspection import permutation_importance
from sklearn.pipeline import Pipeline
from imblearn.over_sampling import SMOTE, SMOTEN, ADASYN, KMeansSMOTE, BorderlineSMOTE
from sklearn.metrics import confusion_matrix, accuracy_score, classification_report, roc_curve, auc
import seaborn as sns
import urllib

# Reseta o gerador de sequências pseudo aleatórias.
seed = 42
np.random.seed(seed)

# Baixa as bases de dados do dropbox.
urllib.request.urlretrieve('https://www.dropbox.com/s/xg2hzt0p8p3zsjd/telco_customer_churn.csv?dl=1', 'telco_customer_churn.csv')

# Importa os arquivos CSV.
df = pd.read_csv('./telco_customer_churn.csv')

# Força a coluna 'TotalCharges' a ser do tipo numérico.
df['TotalCharges'] = pd.to_numeric(df['TotalCharges'], errors='coerce')

# Remove exemplos (i.e., linhas) com valores nulos.
df.dropna(inplace=True)

# Remove a coluna 'customerID' pois ela é inútil para explicar se o cliente não irá encerrar o relacionamento com a companhia.
df.drop(columns='customerID', inplace=True)

# Remove a string '(automático)' dos nomes dos métodos de pagamento, pois ela é inútil.
df['PaymentMethod'] = df['PaymentMethod'].str.replace(' (automatic)', '', regex=False)

# Cria uma cópia do DataFrame.
df_transformed = df.copy()

# Primeiro, realizamos a codificação de rótulo, a qual é usada para substituir valores categóricos por valores numéricos.
# Essa codificação substitui cada valor categórico por um valor numérico binário (0 ou 1).

# Lista de colunas com valores categóricos com apenas dois valores.
label_encoding_columns = ['gender', 'Partner', 'Dependents', 'PaperlessBilling', 'PhoneService', 'Churn']

# Executa a codificação de rótulo de colunas com apenas dois valores.
# O que é feito é mapear os valores categóricos em valores numéricos, 0 ou 1.
for column in label_encoding_columns:
    if column == 'gender':
        df_transformed[column] = df_transformed[column].map({'Female': 1, 'Male': 0})
    else:
        df_transformed[column] = df_transformed[column].map({'Yes': 1, 'No': 0})

# Na sequência, codificamos as colunas categóricas que possuem mais de dois possíveis valores usando a codificação one-hot.
# A codificação one-hot cria uma nova coluna binária para cada valor da variável categórica.
# A nova coluna contém zeros e uns indicando a ausência ou presença do valor sendo codificado.

# Lista de colunas categóricas com mais de dois possíveis valores.
one_hot_encoding_columns = ['MultipleLines', 'InternetService', 'OnlineSecurity', 'OnlineBackup', 'DeviceProtection',
                            'TechSupport', 'StreamingTV', 'StreamingMovies', 'Contract', 'PaymentMethod']

# Executa a codificação one-hot de colunas com mais de dois valores.
df_transformed = pd.get_dummies(df_transformed, columns=one_hot_encoding_columns)

print('Dimensão da base de dados após a engenharia de atributos:', df_transformed.shape)

# Lista de colunas com valores numéricos não binários, ou seja, colunas que possuem valores reais.
min_max_columns = ['tenure', 'MonthlyCharges', 'TotalCharges']

# Escalona atributos numéricos usando a normalização min-max.
for column in min_max_columns:
    # Obtém o valor mínimo da coluna (i.e., atributo).
    min_column = df_transformed[column].min()
    # Obtém o valor máximo da coluna (i.e., atributo).
    max_column = df_transformed[column].max()
    # Aplica a normalização min-max.
    df_transformed[column] = (df_transformed[column] - min_column) / (max_column - min_column)

# Criando o conjunto de pares de treinamento, X e y.
X = df_transformed.drop(columns='Churn')
y = df_transformed['Churn']

# Plotar distribuição
sns.countplot(x='Churn', data=df_transformed)
plt.title('Distribuição de Churn (0=Não, 1=Sim)')
plt.show()

print("Contagem de Churn:\n", y.value_counts())
print("\nProporção de Churn:\n", y.value_counts(normalize=True))

# Divide a base de dados de forma estratificada em conjuntos de treinamento e teste.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, stratify=y, random_state=seed)

# Atributos.
print('\n\nDimensão da matriz de atributos de treinamento:', X_train.shape)
print('Dimensão da matriz de atributos de teste:', X_test.shape)
# Rótulos.
print('Dimensão do vetor de rótulos de treinamento:', y_train.shape)
print('Dimensão do vetor de rótulos de teste:', y_test.shape)

3.2 ) Treine um regressor logístico com o conjunto de treinamento. A variável que irá armazenar o objeto da classe `LogisticRegression` deve se chamar `model1`.

**DICAS**

+ Configure o parâmetro `penalty` da classe `LogisticRegression` com o valor `None`, ou seja, não vamos usar regularização.
```python
penalty=None
```
+ Configure o parâmetro `random_state` da classe `LogisticRegression` com a semente definida no item 1, ou seja,
```python
random_state=seed
```

In [None]:
# Digite o código do item aqui.

3.3 ) Use a função `classification_report` da biblioteca SciKit-Learn para plotar as métricas deste classificador para o **conjunto de teste**.

**DICA**

+ Não se esqueça que você deve usar o `model1`.
+ Para resolver este item, se baseie no código do seguinte exemplo: [classification_with_cross_validation.ipynb](https://colab.research.google.com/github/zz4fap/t320_aprendizado_de_maquina/blob/main/notebooks/classificação/classification_with_cross_validation.ipynb).

In [None]:
# Digite o código do item aqui.

3.4 ) Compare as métricas da classe majoritária (0) com as da minoritária (1). Qual a diferença mais significativa e o que isso revela sobre o viés do modelo? (**Justifique sua resposta**).

**Resposta**

<span style="color:blue">Escreva abaixo a resposta do exercício.</span>



3.5 ) Execute a célula de código abaixo. O código abaixo aplica a técnica SMOTE para balancear o conjunto de treinamento, criando amostras sintéticas da classe minoritária, e em seguida gera um gráfico de barras comparativo que mostra a distribuição das classes antes e depois do balanceamento.



In [None]:
# Aplicar SMOTE apenas no conjunto de treinamento.
smote = SMOTE(random_state=seed)
X_train_resampled, y_train_resampled = smote.fit_resample(X_train, y_train)

# Comparação lado a lado das distribuições das classes antes e após a aplicação do SMOTE.
plt.figure()

original_counts = y_train.value_counts()
resampled_counts = pd.Series(y_train_resampled).value_counts()

categorias = ['Classe 0\n(Não Churn)', 'Classe 1\n(Churn)']
antes = [original_counts[0], original_counts[1]]
depois = [resampled_counts[0], resampled_counts[1]]

x_pos = np.arange(len(categorias))
largura = 0.35

plt.bar(x_pos - largura/2, antes, largura, label='ANTES do SMOTE',
        color='lightblue', edgecolor='navy', alpha=0.8)
plt.bar(x_pos + largura/2, depois, largura, label='APÓS o SMOTE',
        color='lightcoral', edgecolor='darkred', alpha=0.8)

plt.title('Distribuição de Classes\nAntes e Depois do SMOTE',
          fontsize=14, fontweight='bold')
plt.ylabel('Número de Amostras', fontsize=12)
plt.xticks(x_pos, categorias)
plt.legend()
plt.grid(axis='y', alpha=0.3)

# Adicionar valores nas barras
for i, v in enumerate(antes):
    plt.text(i - largura/2, v + max(antes + depois)*0.01, str(v),
             ha='center', va='bottom', fontweight='bold')
for i, v in enumerate(depois):
    plt.text(i + largura/2, v + max(antes + depois)*0.01, str(v),
             ha='center', va='bottom', fontweight='bold')

plt.tight_layout()
plt.show()

3.6 ) Treine um novo regressor logístico com o conjunto de treinamento. A variável que irá armazenar o objeto da classe `LogisticRegression` deve se chamar `model2`.

**DICAS**

+ Configure o parâmetro `penalty` da classe `LogisticRegression` com o valor `None`, ou seja, não vamos usar regularização.
```python
penalty=None
```
+ Configure o parâmetro `random_state` da classe `LogisticRegression` com a semente definida no item 1, ou seja,
```python
random_state=seed
```

In [None]:
# Digite aqui o código do exercício.

3.7 ) Use a função `classification_report` da biblioteca SciKit-Learn para plotar as métricas deste novo classificador para o **conjunto de teste**.

**DICA**

+ Não se esqueça que você deve usar o `model2`.
+ Para resolver este item, se baseie no código do seguinte exemplo: [classification_with_cross_validation.ipynb](https://colab.research.google.com/github/zz4fap/t320_aprendizado_de_maquina/blob/main/notebooks/classificação/classification_with_cross_validation.ipynb).

In [None]:
# Digite aqui o código do exercício.

3.8 ) Dado que o custo de não predizer a perda um cliente (i.e., `Churn`) é bastante alto, pois envolve a perda do cliente mais o custo de aquisição de um novo cliente, responda:

* Qual métrica é a mais adequada para se medir o desempenho do classificador?
* Se o objetivo é maximizar a detecção (i.e., predição) de clientes em risco de churn (classe 1), os resultados pós-SMOTE são melhores?
* Verifique que acurácia geral diminuiu após o uso do SMOTE. Por que isso aconteceu e por que a acurácia pode ser enganosa para avaliar modelos em bases desbalanceadas?


(**Justifique todas as respostas**)

**DICAS**
+ Para te ajudar a responder as perguntas, revise a parte V de classificação.
+ Lembre-se que o `Churn` é a classe positiva e que predições incorretas de exemplos desta classe são considerados falsos negativos. Assim, classificar um exemplo que realmente indica a perda um cliente (i.e., `Churn`) como `no-Churn` (i.e., classe negativa) é um falso positivo.
+ Em geral, o custo de aquisição de um novo cliente é de 5 a 7 vezes maior que a retenção. Isso significa que mesmo que o classificador prediga incorretamente que um cliente irá encerrar seu contrato ou assinatura, oferecer um desconto ou benefício para este cliente tem um valor muito baixo em relação ao `Churn` e à aquisição de um novo cliente. Além disso, descontos ou benefícios ajudam a fidelizar o cliente.

**Resposta**

<span style="color:blue">Escreva abaixo a resposta do exercício.</span>

