# Projeto 1 - T320 (2S2023)

### Instruções

1. Antes de começar, você deve clicar na opção "Copiar para o Drive" na barra superior do Colab. Depois de clicar nela, verifique se você está trabalhando nessa versão do notebook para que seu trabalho seja salvo.
2. Quando você terminar os exercícios do projeto, vá até o menu do Jupyter ou Colab e selecione a opção para fazer download do notebook.
    * Os notebooks tem extensão .ipynb. 
    * Este deve ser o arquivo que você irá entregar.
    * No Colab vá até a opção **File** -> **Download .ipynb**.
    * No Jupyter vá até a opção **File** -> **Download as** -> **Notebook (.ipynb)**.
3. Após o download do notebook, vá até a aba de tarefas do MS Teams, localize a tarefa referente a este projeto e faça o upload do seu notebook. Veja que há uma opção para anexar arquivos à tarefa.
4. Atente-se ao prazo de entrega definido na tarefa do MS Teams. Entregas fora do prazo não serão consideradas.
5. **O projeto pode ser resolvido em grupos de no MÁXIMO 3 alunos**.
6. Todas as questões têm o mesmo peso.
7. Não se esqueça de colocar seu(s) nome(s) e número(s) de matrícula no campo abaixo. Coloque os nomes dos integrantes do grupo no campo de texto abaixo.
8. Você pode consultar todo o material de aula.
9. A interpretação faz parte do projeto. Leia o enunciado de cada questão atentamente!
10. Boa sorte!

**Nomes e matrículas**:

1. Nome do primeiro aluno - Matrícula do primeiro aluno
2. Nome do segundo aluno - Matrícula do segundo aluno
3. Nome do terceiro aluno - Matrícula do terceiro aluno

## Exercícios

### 1) Neste exercício, você irá utilizar validação cruzada para encontrar as melhores funções discriminantes que separem quatro classes.

1. Execute a célula abaixo e analise a figura gerada. A figura mostra os exemplos de quatro classes.

**DICA**

+ Perceba que ao final da célula de código abaixo, o conjunto total de exemplos é dividido em conjuntos de treinamento e validação. Portanto, você não precisa realizar a divisão.

In [None]:
# Importe todas os módulos necessários.
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.datasets import make_moons
from sklearn.model_selection import train_test_split
from sklearn.model_selection import KFold
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import PolynomialFeatures
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import cross_val_score
from sklearn.pipeline import Pipeline
from sklearn.metrics import confusion_matrix, accuracy_score, classification_report
import seaborn as sns
import urllib

# Reseta o gerador de sequências pseudo aleatórias.
seed = 42
np.random.seed(seed)

# Baixa as bases de dados do dropbox.
urllib.request.urlretrieve('https://www.dropbox.com/s/t3pdze8a0qgzyxy/fourMoons.csv?dl=1', 'fourMoons.csv')
    
# Importa os arquivos CSV.
df = pd.read_csv('./fourMoons.csv', header=None)

# Obtendo a matriz de atributos e o vetor de rótulos.
X = df[[0, 1]].to_numpy()
y = df[2].to_numpy()

# Plot the classes.
idx0 = np.argwhere(y==0)
idx1 = np.argwhere(y==1)
idx2 = np.argwhere(y==2)
idx3 = np.argwhere(y==3)
plt.plot(X[idx0,0], X[idx0,1], '.', label='Class 0')
plt.plot(X[idx1,0], X[idx1,1], 'rx', label='Class 1')
plt.plot(X[idx2,0], X[idx2,1], 'ko', label='Class 2')
plt.plot(X[idx3,0], X[idx3,1], 'c*', label='Class 3')
plt.xlabel('$x_1$', fontsize=14)
plt.ylabel('$x_2$', fontsize=14)
plt.legend()
plt.grid()
plt.show()

# Imprime as dimensões do conjunto total de amostras.
print('Dimensão da matriz de atributos, X:', X.shape)
print('Dimensão do vetor de rótulos, y:', y.shape)

# Split array into random train and test subsets.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=seed)

2. Observe a figura acima e responda quais tipos de funções discriminantes, **lineares** ou **não-lineares**, são necessárias para se separar as quatro classes? (**Justifique sua resposta**).

**Resposta**

<span style="color:blue">Escreva aqui a resposta do exercício.</span>

3. Neste item, você irá utilizar validação cruzada do tipo k-Fold para encontrar a ordem correta para que funções polinomiais separem as quatro classes perfeitamente. Ao final, plote os resultados obtidos (i.e., média e desvio padrão das acurácias) para que você possa decidir qual é a melhor ordem.

**DICAS**:

+  Instancie um objeto da classe `KFold` com os seguintes parâmetros `n_splits=10` (ou seja, o número de folds, $k$, igual a 10) e `shuffle=True` para embaralhar as amostras.
+ Realize a validação cruzada para polinômios de ordem 1 até 10, inclusive, em passos de 1 unidade.
+ Para a validação cruzada, utilize o conjunto de treinamento.
+ Realize a padronização nos dados de treinamento com um objeto da classe `StandardScaler`.
+ Instancie um objeto da classe `LogisticRegression` com os seguintes parâmetros `multi_class='multinomial'` (para operar como um **regressor softmax**), `max_iter=1000`, `penalty=None` (i.e., não aplica regularização).
  * Lembre-se que se o parâmetro `fit_intercept` for igual a `True` (valor padrão deste parâmetro), não é necessário concatenar o vetor com valores iguais a 1 às matrizes de atributos de treinamento e validação. 
+ Configure o parâmetro `scoring` da função `cross_val_score` como `accuracy`.
+ Sempre que possível, use a semente, `seed`, definida no item 1, para configurar o parâmetro `random_state` das funções e classes da biblioteca SciKit-Learn.
+ Para resolver este item, se baseie no código do seguinte exemplo: [classification_with_cross_validation.ipynb](https://colab.research.google.com/github/zz4fap/t320_aprendizado_de_maquina/blob/main/notebooks/classificação/classification_with_cross_validation.ipynb).
+ A validação cruzada pode demorar um pouco, portanto, pegue um café e tenha paciência.

In [None]:
# Digite aqui o código do exercício.

4. Após analisar os resultados acima, qual a melhor ordem a ser utilizada para se separar as quatro classes?

**DICAS**

+ Use o princípio da navalha de Occam para decidar qua é a melhor ordem.

**Resposta**

<span style="color:blue">Escreva aqui a resposta do exercício.</span>

5. Usando a melhor ordem para os polinômios de separação, encontrado no item anterior, treine um classificador (i.e., regressor softmax) com esta ordem. Em seguida, calcule a imprima a acurácia deste modelo com os conjuntos de treinamento e validação.

**DICAS**:

+ Realize a padronização nos dados de treinamento com um objeto da classe `StandardScaler`.
+ Instancie um objeto da classe `LogisticRegression` com os seguintes parâmetros `multi_class='multinomial'` (para operar como um **regressor softmax**), `max_iter=1000`, `penalty=None` (i.e., não aplica regularização).
  * Lembre-se que se o parâmetro `fit_intercept` for igual a `True` (valor padrão deste parâmetro), não é necessário concatenar o vetor com valores iguais a 1 às matrizes de atributos de treinamento e validação.
+ Sempre que possível, use a semente, `seed`, definida no item 1, para configurar o parâmetro `random_state` das funções e classes da biblioteca SciKit-Learn.
+ Treine o modelo com o conjunto de treinamento.
+ Para resolver este item, se baseie no código do seguinte exemplo: [classification_with_cross_validation.ipynb](https://colab.research.google.com/github/zz4fap/t320_aprendizado_de_maquina/blob/main/notebooks/classificação/classification_with_cross_validation.ipynb).

In [None]:
# Digite aqui o código do exercício.

6. Usando o modelo treinado com a melhor ordem para o polinômio de separação, plote as regiões de decisão deste classificador.

**DICAS**:

+ Para resolver este item, se baseie no código do seguinte exemplo: [classification_with_cross_validation.ipynb](https://colab.research.google.com/github/zz4fap/t320_aprendizado_de_maquina/blob/main/notebooks/classificação/classification_with_cross_validation.ipynb).

In [None]:
# Digite aqui o código do exercício.

7. Plote a matriz de confusão deste classificador para o **conjunto total de amostras**.

**DICAS**:

+ Para resolver este item, se baseie no código do seguinte exemplo: [classification_with_cross_validation.ipynb](https://colab.research.google.com/github/zz4fap/t320_aprendizado_de_maquina/blob/main/notebooks/classificação/classification_with_cross_validation.ipynb).

In [None]:
# Digite aqui o código do exercício.

8. Use a função `classification_report` da biblioteca SciKit-Learn para imprimir algumas das métricas de classificação para o **conjunto total de exemplos**.

**DICA**

+ Para resolver este item, se baseie no código do seguinte exemplo: [classification_with_cross_validation.ipynb](https://colab.research.google.com/github/zz4fap/t320_aprendizado_de_maquina/blob/main/notebooks/classificação/classification_with_cross_validation.ipynb).

In [None]:
# Digite aqui o código do exercício.

9. Analise as métricas impressas no item anterior, o que podemos concluir sobre este classificador? (**Justifique sua resposta**).

**Resposta**

<span style="color:blue">Escreva aqui a resposta do exercício.</span>

### 2) Exercício sobre classificação aplicada às telecomunicações.

Você sabia que atrair um novo cliente custa cinco vezes mais do que manter um já existente? 

Muitas vezes, os clientes ficam insatisfeitos com os serviços prestados e encerram o contrato ou assinatura. Essa rotatividade de clientes, ou `Churn`, (taxa de clientes ou assinantes que deixam de fazer negócios com uma empresa) afeta drasticamente as finanças das empresas de telecomunicações. Portanto, para reduzir a rotatividade de clientes, as empresas precisam prever quais clientes correm alto risco de encerrarem o contrato ou assinatura.

Baseado nessas informações, vamos treinar um modelo que ajude as empresas a prever a satisfação dos clientes.

O conjunto de dados que utilizaremos contém 20 atributos (i.e., colunas) que indicam as características dos clientes de uma empresa fictícia de telecomunicações que fornece serviços de telefone residencial e Internet na Califórnia. 

A coluna `Churn` (i.e., o rótulo) indica se o cliente encerrou o contrato ou assinatura no último mês ou não. A classe `No` inclui os clientes que não encerram o relaciomento com a empresa no último mês, enquanto a classe `Yes` contém os clientes que decidiram encerrar o relacionamento com a empresa. O objetivo da nossa análise é obter a relação entre os atributos do cliente e o *churn* (i.e., término do relaciomento). Notem, portanto, que este é um problema de classificação binária.

Além da coluna/atributo `customerID`, o conjunto de dados contém outros 19 atributos, os quais podem ser agrupados em 3 grupos:

**1 - Demographic Information**

+ gender: Whether the client is a female or a male (Female, Male).
+ SeniorCitizen: Whether the client is a senior citizen or not ( 0, 1).
+ Partner: Whether the client has a partner or not (Yes, No).
+ Dependents: Whether the client has dependents or not (Yes, No).

**2 - Customer Account Information**

+ tenure: Number of months the customer has stayed with the company (Multiple different numeric values).
+ Contract: Indicates the customer’s current contract type (Month-to-Month, One year, Two year).
+ PaperlessBilling: Whether the client has paperless billing or not (Yes, No).
+ PaymentMethod: The customer’s payment method (Electronic check, Mailed check, Bank transfer (automatic), Credit Card (automatic)).
+ MontlyCharges: The amount charged to the customer monthly (Multiple different numeric values).
+ TotalCharges: The total amount charged to the customer (Multiple different numeric values).

**3 - Services Information**

+ PhoneService: Whether the client has a phone service or not (Yes, No).
+ MultipleLines: Whether the client has multiple lines or not (No phone service, No, Yes).
+ InternetServices: Whether the client is subscribed to Internet service with the company (DSL, Fiber optic, No)
+ OnlineSecurity: Whether the client has online security or not (No internet service, No, Yes).
+ OnlineBackup: Whether the client has online backup or not (No internet service, No, Yes).
+ DeviceProtection: Whether the client has device protection or not (No internet service, No, Yes).
+ TechSupport: Whether the client has tech support or not (No internet service, No, Yes).
+ StreamingTV: Whether the client has streaming TV or not (No internet service, No, Yes).
+ StreamingMovies: Whether the client has streaming movies or not (No internet service, No, Yes).

#### Referências

[1] 'End-to-end machine learning project: Telco customer churn', https://towardsdatascience.com/end-to-end-machine-learning-project-telco-customer-churn-90744a8df97d

[2] 'Telco Customer Churn: Focused customer retention programs', https://www.kaggle.com/datasets/blastchar/telco-customer-churn?resource=download

[3] 'Customer Churn (Marketing)', https://catalog.workshops.aws/canvas-immersion-day/en-US/1-use-cases/1-marketing

[4] 'Telecom customer churn prediction', https://www.kaggle.com/code/bhartiprasad17/customer-churn-prediction

[5] 'Telco customer churn (11.1.3+)', https://community.ibm.com/community/user/businessanalytics/blogs/steven-macko/2019/07/11/telco-customer-churn-1113

[6] 'telco-customer-churn', https://www.openml.org/search?type=data&sort=runs&id=42178&status=active

1. Execute a célula abaixo para os módulos necessários e baixar o conjunto de dados. Na sequência, analise as linhas que serão impressas.

**DICAS**

+ Após a execução bem sucedida da célula abaixo, você visualizará as 5 primeiras linhas da base de dados.
+ A coluna `Churn` será o valor alvo (i.e., o rótulo). Os rótulos são os valores que o modelo é treinado para predizer.

In [None]:
# Importe todas os módulos necessários.
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.datasets import make_moons
from sklearn.model_selection import train_test_split
from sklearn.model_selection import KFold, GridSearchCV
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import PolynomialFeatures
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import cross_val_score
from sklearn.dummy import DummyClassifier
from sklearn.pipeline import Pipeline
from sklearn.metrics import confusion_matrix, accuracy_score, classification_report, roc_curve, auc
import seaborn as sns
import urllib

# Reseta o gerador de sequências pseudo aleatórias.
seed = 42
np.random.seed(seed)

# Baixa as bases de dados do dropbox.
urllib.request.urlretrieve('https://www.dropbox.com/s/xg2hzt0p8p3zsjd/telco_customer_churn.csv?dl=1', 'telco_customer_churn.csv')
    
# Importa os arquivos CSV.
df = pd.read_csv('./telco_customer_churn.csv')

# Mostra as 5 primeiras linhas.
df.head()

2. Execute a célula abaixo para realizar a limpeza dos dados.

**DICAS**

+ Os comentários abaixo explicam cada uma das instruções para limpar a base de dados.

In [None]:
# Força a coluna 'TotalCharges' a ser do tipo numérico.
df['TotalCharges'] = pd.to_numeric(df['TotalCharges'], errors='coerce')

# Remove exemplos (i.e., linhas) com valores nulos.
df.dropna(inplace=True)

# Remove a coluna 'customerID' pois ela é inútil para explicar se o cliente não irá encerrar o relacionamento com a companhia.
df.drop(columns='customerID', inplace=True)

# Remove a string '(automático)' dos nomes dos métodos de pagamento, pois ela é inútil.
df['PaymentMethod'] = df['PaymentMethod'].str.replace(' (automatic)', '', regex=False)

3. Execute a célula abaixo para realizar a engenharia de atributos da base de dados.

A engenharia de atributos é o processo de transformar os atributos em um formato adequado para o modelo de aprendizado de máquina. Neste exercício, precisamos transformar variáveis numéricas e categóricas. 

A maioria dos algoritmos de aprendizado de máquina requer valores numéricos. Portanto, todos os atributos categóricos disponíveis no conjunto de dados devem ser codificados em rótulos numéricos antes de treinarmos um modelo.

**DICAS**

+ Os comentários abaixo explicam cada uma das instruções para realizar a engenharia de atributos.
+ Perceba que a engenharia de atributos fez com que a matriz de atributos passe a ter 40 atributos.
+ Note que os valores categóricos da coluna `Churn`, `No` e `Yes` serão mapeados nos valores 0 e 1, respectivamente. Portanto, como queremos predizer se ocorrerá o término do relaciomento com a empresa, i.e., `Churn`, a classe positiva é dada pelo valor `Yes` , que é mapeado no valor 1. Consequentemente, a classe negativa é dada pelo valor `No`, mapeado no valor 0.

In [None]:
# Cria uma cópia do DataFrame.
df_transformed = df.copy()

# Primeiro, realizamos a codificação de rótulo, a qual é usada para substituir valores categóricos por valores numéricos.
# Essa codificação substitui cada valor categórico por um valor numérico binário (0 ou 1).

# Lista de colunas com valores categóricos com apenas dois valores.
label_encoding_columns = ['gender', 'Partner', 'Dependents', 'PaperlessBilling', 'PhoneService', 'Churn']

# Executa a codificação de rótulo de colunas com apenas dois valores. 
# O que é feito é mapear os valores categóricos em valores numéricos, 0 ou 1.
for column in label_encoding_columns:
    if column == 'gender':
        df_transformed[column] = df_transformed[column].map({'Female': 1, 'Male': 0})
    else: 
        df_transformed[column] = df_transformed[column].map({'Yes': 1, 'No': 0}) 

# Na sequência, codificamos as colunas categóricas que possuem mais de dois possíveis valores usando a codificação one-hot.
# A codificação one-hot cria uma nova coluna binária para cada valor da variável categórica. 
# A nova coluna contém zeros e uns indicando a ausência ou presença do valor sendo codificado.

# Lista de colunas categóricas com mais de dois possíveis valores.
one_hot_encoding_columns = ['MultipleLines', 'InternetService', 'OnlineSecurity', 'OnlineBackup', 'DeviceProtection', 
                            'TechSupport', 'StreamingTV', 'StreamingMovies', 'Contract', 'PaymentMethod']

# Executa a codificação one-hot de colunas com mais de dois valores. 
df_transformed = pd.get_dummies(df_transformed, columns=one_hot_encoding_columns)

print('Dimensão da base de dados após a engenharia de atributos:', df_transformed.shape)

4. Execute a célula abaixo para realizar o pré-processamento dos dados.

Precisamos escalonar as colunas numéricas. Isso evitará que as colunas com valores grandes dominem o processo de aprendizado.

Atributos com valores muito grandes tedem a dominar o processo de aprendizado. Entretanto, isso não significa que esses atributos sejam mais importantes na tarefa de predizer o valor desejado. 

A normalização de atributos deixa atributos com diferentes escalas com a mesma escala. Após a normalização, todas as variáveis têm influência semelhante no modelo, melhorando a estabilidade e o desempenho do algoritmo de aprendizado.

Na célula de código abaixo, aplicamos a normalização min-max apenas aos atributos numéricos não binários, ou seja, atributos que possuem valores reais.

**DICAS**

+ Os comentários abaixo explicam cada uma das instruções para realizar o pré-processamento dos dados.

In [None]:
# Lista de colunas com valores numéricos não binários, ou seja, colunas que possuem valores reais.
min_max_columns = ['tenure', 'MonthlyCharges', 'TotalCharges']

# scale numerical variables using min max scaler

# Escalona atributos numéricos usando a normalização min-max.
for column in min_max_columns:
    # Obtém o valor mínimo da coluna (i.e., atributo).
    min_column = df_transformed[column].min()
    # Obtém o valor máximo da coluna (i.e., atributo).
    max_column = df_transformed[column].max()
    # Aplica a normalização min-max.
    df_transformed[column] = (df_transformed[column] - min_column) / (max_column - min_column) 

5. Execute a célula de código abaixo para criar a matriz de atributos, $\textbf{X}$, e o vetor de rótulos, $\textbf{y}$.

**DICAS**

+ A primeira linha de comando remove da matriz de atributos a coluna `Churn`, pois ela será nosso rótulo.
+ A segunda linha cria o vetor de rótulos contendo apenas a coluna `Churn`.
+ A célula imprimirá as dimensões da matriz de atributos e do vetor de rótulos.

In [None]:
# Criando o conjunto de pares de treinamento, X e y.
X = df_transformed.drop(columns='Churn')
y = df_transformed['Churn']

# Atributos.
print('Dimensão da matriz de atributos:', X.shape)
# Rótulos.
print('Dimensão do vetor de rótulos:', y.shape)

6. Divida o conjunto total de amostras em conjuntos de treinamento e validação. O conjunto de treinamento deve conter 75% do total de amostras e o conjunto de validação os 25% restantes.

**DICAS**

+ Use a função `train_test_split` e a configure com os seguintes parâmetros `test_size=0.25` e `random_state=seed`.
+ Sempre que possível, use a semente, `seed`, definida no item 1, para configurar o parâmetro `random_state` das funções e classes da biblioteca SciKit-Learn.

In [None]:
# Digite aqui o código do exercício.

7. Treine um regressor logístico com o conjunto de treinamento e imprima sua acurácia nos conjuntos de treinamento e validação. A variável que irá armazenar o objeto da classe `LogisticRegression` deve se chamar `model1`.

**DICAS**

+ Configure o parâmetro `penalty` da classe `LogisticRegression` com o valor `None`, ou seja, não vamos usar regularização.
```python 
penalty=None
``` 
+ Configure o parâmetro `random_state` da classe `LogisticRegression` com a semente definida no item 1, ou seja,
```python 
random_state=seed
``` 

In [None]:
# Digite aqui o código do exercício.

8. Usando o modelo treinado no item anterior, plote a matriz de confusão para o **conjunto total de exemplos**.

In [None]:
# Digite aqui o código do exercício.

9. Use a função `classification_report` da biblioteca SciKit-Learn para plotar as métricas deste classificador para o **conjunto total de exemplos**.

**DICA**

+ Para resolver este item, se baseie no código do seguinte exemplo: [classification_with_cross_validation.ipynb](https://colab.research.google.com/github/zz4fap/t320_aprendizado_de_maquina/blob/main/notebooks/classificação/classification_with_cross_validation.ipynb).

In [None]:
# Digite aqui o código do exercício.

10. Execute a célula de código abaixo para treinar um outro classificador binário que iremos comparar com o treinado no item 7.

A célula imprime as acurácias nos conjuntos de treinamento e validação. Além disso, a célula plota a matriz de confusão e imprime algumas métricas deste classificador para o **conjunto total de exemplos**.

In [None]:
# Instantiate another binary classifier.
model2 = DummyClassifier(strategy='uniform', random_state=seed)

# Train the model.
model2.fit(X_train, y_train)
    
# Prediction.
y_train_pred = model2.predict(X_train)
y_test_pred = model2.predict(X_test)

# Measure the model's accuracy.
acc_train = accuracy_score(y_train, y_train_pred)
acc_test = accuracy_score(y_test, y_test_pred)
print('Accuracy (train): %1.2f %%' % (acc_train*100))
print('Accuracy (test): %1.2f %%' % (acc_test*100))

# Making predictions with the whole dataset.
y_pred = model2.predict(X)

# Plot the confusion matrix.
mat = confusion_matrix(y, y_pred)
sns.heatmap(mat.T, square=True, annot=True, fmt='d', cbar=False, xticklabels=['0', '1'], yticklabels=['0', '1'], cmap="Blues")
plt.xlabel('true label')
plt.ylabel('predicted label')
plt.show()

# Print some classification metrics.
print(classification_report(y, y_pred, digits=4))

11. Além das métricas e matrizes de confusão, vamos plotar as curvas ROC e calcular as áreas abaixo das curvas ROC de ambos os classificadores.

Execute a célula de código abaixo e analise os resultados.

**DICAS**

+ Na legenda, `model1` é o modelo (i.e., classificador) treinado no item 8 e `model2` é o modelo treinado no item 10.

In [None]:
# Getting the probabilities for each class.
y_prob1 = model1.predict_proba(X)
y_prob2 = model2.predict_proba(X)

# Compute ROC curve and ROC area for model 1.
fpr1, tpr1, _ = roc_curve(y, y_prob1[:, 1])
roc_auc1 = auc(fpr1, tpr1)

# Compute ROC curve and ROC area for model 2.
fpr2, tpr2, _ = roc_curve(y, y_prob2[:, 1])
roc_auc2 = auc(fpr2, tpr2)

# Plotting ROC curves.
plt.figure()
plt.plot(fpr1, tpr1, color='darkorange', lw=2, label='Model #1 (area = %1.4f)' % roc_auc1)
plt.plot(fpr2, tpr2, color='red', lw=2, label='Model #2 (area = %1.4f)' % roc_auc2)
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('ROC curves')
plt.legend(loc="lower right")
plt.grid()
plt.show()

12. Após analisar as métricas, matrizes de confusão, curvas ROC e áreas abaixo da curva ROC dos dois modelos, responda:

+ Qual é o melhor modelo?
+ O que podemos dizer sobre o comportamento do modelo 2?
+ Após analisar as taxas de falsos positivos e falsos negativos do melhor modelo, poderíamos confiar neste modelo para fazer predições do `Churn`?
+ Este é um problema com classes balanceadas ou desbalanceadas?
+ Baseado na sua resposta anterior, a acurácia é uma boa metrica a ser usada para mensurar a qualidade de um classificador?
+ Caso a acurácia não seja uma boa métrica, quais outras métricas poderiam ser utilizadas?

**Justifique todas as respostas**

**DICAS**

+ Para responder a segunda questão, reveja a parte V do material sobre classificação.
+ Para responder a terceira questão, calcule as taxas de falsos positivos e falsos negativos a partir da matriz de confusão do melhor modelo. Lembre-se que a classe positiva é a `Churn` e a negativa a `No Churn`. Um bom classificador para a tarefa de predição do `Churn` deve ter ambos os valores o mais próximos de zero o possível.
+ Para responder a quarta questão, conte quantos exemplos existem em cada coluna (i.e., classe) de qualquer uma das duas matrizes de confusão.
+ Para responder as questões 5 e 6, reveja a parte V do material sobre classificação.

**Resposta**

<span style="color:blue">Escreva aqui a resposta do exercício.</span>


### 3) Exercício sobre classificação binária com base de dados sintética.

1. Execute a célula abaixo para importar os dados e as bibliotecas necessárias. Ela irá gerar a base de dados que será usada neste exercício.

A base de dados possui 10 atributos e 1 rótulo binário. Portanto, temos um problema de classificação binária, ou seja, com duas classes.

Note que a base de dados já está dividida em conjuntos de treinamento e validação.

In [None]:
# Importe todas os módulos necessários.
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.model_selection import KFold, GridSearchCV
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import PolynomialFeatures
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import cross_val_score
from sklearn.metrics import recall_score, precision_score
from sklearn.dummy import DummyClassifier
from sklearn.pipeline import Pipeline
from sklearn.metrics import confusion_matrix, accuracy_score, classification_report, roc_curve, auc
import seaborn as sns

# Reseta o gerador de sequências pseudo aleatórias.
seed = 42
np.random.seed(seed)

# Número total de exemplos.
N = 500000

# Cria a base de dados.
X, y = make_classification(n_samples=N, n_features=10, weights=(0.999, 0.001))

# Divide o conjunto total de amostras em conjuntos de treinamento e validação.
# O parâmetro 'stratify=y' garante que as proporções de classes sejam mantidas nos conjuntos divididos.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, stratify=y)

2. Execute a célula de código abaixo e analise a quantidade de exemplos de cada classe.

In [None]:
# Plota histograma com a quantidade de exemplos por classe.
fig, ax = plt.subplots()
bars = ax.bar(['Classe Negativa (0)','Classe Positiva (1)'], [len(y[y==0]), len(y[y==1])])
ax.bar_label(bars)
plt.xlabel('Classes', fontsize=12)
plt.ylabel('Quantidade de exemplos de cada classe', fontsize=12)
plt.ylim([1, 550000])
plt.grid()
plt.show()

3. Após ter analisado a quantidade de exemplos em cada uma das duas classes no item anterior, o que se pode concluir sobre elas?

**Resposta**

<span style="color:blue">Escreva aqui a resposta do exercício.</span>


4. Treine um regressor logístico com o conjunto de treinamento e imprima sua acurácia nos conjuntos de treinamento e validação.

**DICAS**

+ Configure o objeto da classe `LogisticRegression` com os seguintes parâmetros `penalty=None` e `random_state=seed`.

In [1]:
# Digite aqui o código do exercício.

5. Baseado no valor da acurácia obtida no item anterior, responda:

+ Qual foi a acurácia obtida pelo classificador?
+ Você diria que este é um bom classificador, ou seja, um classificador que praticamente acerta todas as predições (i.e., classificações)?
+ O que pode ser feito para nos certificarmos que este é realmente um bom classificador?
+ Observe a expressão para o calculo da acurácia mostrada abaixo:
$$Accuracy = \frac{TN + TP}{TN + TP + FP + FN},$$
onde $TN$, $TP$, $FP$ e $FN$ são os números de verdadeiros negativos, verdadeiros positivos, falsos positivos e falsos negativos, respectivamente.
+ Na equação da acurácia mostrada acima, o que aconteceria se o valor de $TN$ fosse muitas vezes maior do que $TP$, $FP$ e $FN$? Essa situação afetaria o cálculo da acurácia?

**Justique todas as respostas**.

**Resposta**

<span style="color:blue">Escreva aqui a resposta do exercício.</span>


6. Plote a matriz de confusão do classificador treinado no item 3 para o **conjunto total de exemplos**.

In [2]:
# Digite aqui o código do exercício.

7. Após observar a matriz de confusão, o que você pode concluir?

**DICAS**

+ Analise os valores de verdadeiros positivos e negativos e os valores de falsos positivos e negativos.

**Resposta**

<span style="color:blue">Escreva aqui a resposta do exercício.</span>


8. A acurácia atingida pelo classificador treinado no item anterior é altíssima, parecendo à primeira vista que ele é um classificador quase perfeito. Entretanto, no caso de uma base de dados desbalanceada (ou seja, com classes desbalanceadas), como a deste exercício, a acurácia não é uma métrica útil para esta tarefa. Por exemplo, o classificador treinado no item 4 atinge 99.48% de acurácia predizendo a classe `negativa` o tempo todo, ou seja, um classificador que sempre prediga a mesma classe terá uma alta acurácia devido ao desbalanceamente das classes. Portanto, precisamos de outra métrica para mensurar a qualidade deste classificador.

Sendo assim, responda:

+ Qual é a métrica mais indicada para mensurar a qualidade deste classificador quando as classes são desbalanceadas e os custos associados a falsos positivos são altos? Apresente a equação usada para calcular esta métrica.


+ Qual é a métrica mais indicada para mensurar a qualidade deste classificador quando as classes são desbalanceadas e os custos associados a falsos negativos são altos? Apresente a equação usada para calcular esta métrica.

**Justifique todas as respostas**.

**DICAS**

+ Reveja o material de aula onde falamos sobre as métricas utilizadas para mensurar o desempenho de classificadores.

**Resposta**

<span style="color:blue">Escreva aqui a resposta do exercício.</span>


9. Calcule e imprima o valor das duas métricas indicadas no item anterior para o **conjunto total de amostras**.

**DICAS**

+ Use funções da biblioteca SciKit-Learn.
+ Uma das funções irá retornar uma mensagem de **warning** (`UndefinedMetricWarning`). Não se preocupe, isso ocorre devido ao classificador predizer a mesma classe 100% das vezes.

In [3]:
# Digite aqui o código do exercício.

10. Após analisar o valor das métricas no item anterior, responda:

+ Quais são os valores obtidos após o cálculo das métricas?
+ O que você pode concluir a respeito deste classificador, ou seja, ele é bom ou ruim para esta tarefa classificação?

**Resposta**

<span style="color:blue">Escreva aqui a resposta do exercício.</span>


11. Lidar com um problema altamente desbalanceado, em que as classes têm uma grande discrepância em termos de número de amostras, pode ser um desafio. Portanto, é importante adotar estratégias adequadas para criar conjuntos de treinamento e validação que tenham uma boa proporção entre as classes.

A reamostragem é uma estratégia que envolve a manipulação do conjunto de dados original para criar um equilíbrio entre as classes. Duas abordagens comuns são o oversampling (aumentar as amostras da classe minoritária) e o undersampling (reduzir as amostras da classe majoritária).

A biblioteca `imbalanced-learn` oferece uma série de métodos para realizar essas técnicas, como RandomOverSampler e RandomUnderSampler.

Neste item, usaremos a estratégia do undersampling aleatório (seleciona aleatoriamente uma quantidade específica de amostras para equilibrar as classes), que é adequada quando se possui um grande número de amostras da classe majoritária e deseja-se reduzi-las para equilibrar as classes. O undersampling pode ajudar a reduzir o tempo de treinamento e os requisitos de memória, além de ajudar a mitigar o impacto de amostras ruidosas ou outliers presentes na classe majoritária. No entanto, ao reduzir o conjunto de dados majoritário, você pode perder informações valiosas e diminuir a capacidade do modelo de aprender padrões complexos. 

Em geral, não há uma abordagem única que funcione melhor para todos os casos. Recomenda-se experimentar diferentes técnicas e avaliar os resultados com base nas métricas relevantes para o problema específico.

Execute a célula de código abaixo. Ela aplica a estratégia do undersampling, reduzindo o número de amostras da classe majoritária, e plota o histograma com a quantidade de amostras de cada classe após o undersampling.

**OBS**.: O novo conjunto de dados já está dividido em novos conjuntos de treinamento e validação.

**DICAS**

+ O novo conjunto total de amostras é dado por `X_resampled` e `y_resampled`, que são a nova matriz de atributos e o novo vetor de rótulos, respectivamente.
+ Os novos conjuntos de treinamento e validação são dados por `X_train/y_train` e `X_test/y_test`, respectivamente.

#### Referências

[1] 'A Gentle Introduction to Imbalanced Classification', https://machinelearningmastery.com/what-is-imbalanced-classification/

[2] '8 Tactics to Combat Imbalanced Classes in Your Machine Learning Dataset', https://machinelearningmastery.com/tactics-to-combat-imbalanced-classes-in-your-machine-learning-dataset/

[3] 'Solving The Class Imbalance Problem', https://towardsdatascience.com/solving-the-class-imbalance-problem-58cb926b5a0f

[4] 'Imbalanced Data : How to handle Imbalanced Classification Problems', https://www.analyticsvidhya.com/blog/2017/03/imbalanced-data-classification/

In [None]:
# Importa a classe que realiza o undersampling dos exemplos da base de dados.
from imblearn.under_sampling import RandomUnderSampler

# Instancia um objeto da classe que realiza o undersampling dos exemplos da base de dados.
sme = RandomUnderSampler(sampling_strategy='majority', random_state=seed)

# Executa o oversampling e undersampling no conjunto total de dados.
X_resampled, y_resampled = sme.fit_resample(X, y)

# Divide o conjunto total de amostras em conjuntos de treinamento e validação.
X_train, X_test, y_train, y_test = train_test_split(X_resampled, y_resampled, test_size=0.3, stratify=y_resampled, random_state=seed)

# Plota histograma com a quantidade de exemplos por classe.
fig, ax = plt.subplots()
bars = ax.bar(['Classe Negativa (0)','Classe Positiva (1)'], [len(y_resampled[y_resampled==0]), len(y_resampled[y_resampled==1])])
ax.bar_label(bars)
plt.xlabel('Classes', fontsize=12)
plt.ylabel('Quantidade de exemplos de cada classe', fontsize=12)
plt.ylim([1, 3500])
plt.grid()
plt.show()

12. Analise a figura acima e responda:

+ O que ocorreu com a quantidade de amostras das duas classes?

(**Justifique sua resposta**).

**DICAS**

+ Verifique o número de amostras das duas classes no item 2.

**Resposta**

<span style="color:blue">Escreva aqui a resposta do exercício.</span>


13. Treine um novo regressor logístico com o novo conjunto de treinamento e imprima:
+ sua acurácia nos conjuntos de treinamento e validação.
+ o valor das duas métricas indicadas no item 8 para o **novo conjunto total de amostras**.

**DICAS**

+ Configure o objeto da classe `LogisticRegression` com os seguintes parâmetros `penalty=None` e `random_state=seed`.

In [None]:
# Digite aqui o código do exercício.

14. Plote a matriz de confusão deste novo classificador para o **novo conjunto total de amostras**.

In [None]:
# Digite aqui o código do exercício.

15. Comparando os valores das métricas calculadas no item 13 e a matriz de confusão do item anterior obtidos com este novo classificador com os valores obtidos com o primeiro classificador, responda:

+ As acurácias de treinamento e validação tiveram seus valores reduzidos ou aumentados com este novo modelo?
+ As métricas que você definiu no item 8 e calculou no item 9 tiveram seus valores reduzidos ou aumentados com este novo modelo?
+ Em resumo, levando-se em conta todas as métricas calculadas, pode-se dizer que este novo modelo é um bom classificador?

**Justifique todas as respostas**.

**Resposta**

<span style="color:blue">Escreva aqui a resposta do exercício.</span>

### 4) Neste exercício, você utilizará um classificador para detectar símbolos de uma modulação digital, a modulação 8PSK.

1. Execute a célula abaixo e analise o resultado. A figura mostra símbolos ruidosos da modulação 8PSK, onde cada um dos oito possíveis símbolos é considerado como uma classe diferente.

**DICAS**

+ Notem que na célula de código abaixo, o conjunto de dados já está dividido em conjuntos de treinamento e validação.

#### Referências

[1] '8-PSK', https://www.eng.biu.ac.il/~zehavie1/articals/8PSK.Pdf

[2] 'Phase-shift_keying', https://en.wikipedia.org/wiki/Phase-shift_keying

In [None]:
# Import all necessary libraries.
import numpy as np
import matplotlib.pyplot as plt
from matplotlib.colors import ListedColormap
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import confusion_matrix, accuracy_score, roc_curve, auc, classification_report
import seaborn as sns
from scipy.special import erfc, erf

# Reset PN sequence random generator.
seed = 42
np.random.seed(seed)

# Modulate bits into 8PSK symbols.
def mod(bits):
    '''Função para modulação dos bits em símbolos 8PSK.'''
    symbols = np.zeros((len(bits), 1), dtype=complex)
    for i, b in enumerate(bits):
        symbols[i] = np.exp(-1j*(np.pi/4)*b)
    return symbols

# Number of symbols to be transmitted.
N = 10000

# Number of classes.
numOfClasses = 8

# Create Es/N0 vector.
EsN0dB = 20
EsN0Lin = 10.0**(-(EsN0dB/10.0))
    
# Generate bits.
bits_8psk = np.random.randint(0, numOfClasses, N)
# Modulate the binary stream into 8PSK symbols.
symbols = mod(bits_8psk)
    
# Generate noise vector. 
# Divide by two since the theoretical ber uses a complex Normal pdf with variance of each part = 1/2.
noise = np.sqrt(EsN0Lin/2.0)*(np.random.randn(N, 1) + 1j*np.random.randn(N, 1))

# Pass 8PSK symbols through AWGN channel.
y = symbols + noise
    
# Create the attribute matrix.
X = np.c_[np.real(y), np.imag(y)]

# Split array into random train and test subsets.
X_train, X_test, y_train, y_test = train_test_split(X, bits_8psk, test_size=0.3, random_state=seed)
    
# Plot the classes.
for i in range(numOfClasses):
    idx = np.argwhere(bits_8psk == i)
    label = 'Symbol '+str(i)
    plt.plot(np.real(y[idx.ravel()]), np.imag(y[idx.ravel()]), '.', label=label)
plt.grid()
plt.xlabel('InPhase')
plt.ylabel('Quadrature')
plt.legend(bbox_to_anchor=(1.1, 1.05))
plt.show()

2. Normalmente, treina-se um modelo com uma relação sinal-ruído alta, como a usada para gerar os símbolos no item anterior. Portanto, neste exercício, treine um **regressor softmax** com o conjunto de treinamento gerado no item anterior e calcule as acurácias com os conjuntos de treinamento e validação.

**DICAS**

+ Para configurar o regressor softmax, durante o instanciamento da classe `LogisticRegression`, configure o parâmetro `multi_class` com a string `multinomial`, ou seja
```python 
multi_class='multinomial'
```
+ Configure o parâmetro `random_state` da classe `LogisticRegression` com a semente definida no item 1, ou seja,
```python 
random_state=seed
``` 
+ Seu classificador deve apresentar uma acurácia de 100% para ambos os conjuntos.
+ Para que os próximos itens deste exercício funcionem corretamente, chame seu modelo de `model`.

In [None]:
# Digite aqui o código do exercício.

3. Usando o modelo treinado no item anterior, plote as regiões de decisão deste classificador.

In [None]:
# Digite aqui o código do exercício.

4. Plote a matriz de confusão deste classificador para o **conjunto total de amostras**.

**DICAS**

+ Note que o vetor de rótulos referente ao conjunto total de exemplos é dado pela variável `bits_8psk` definida no item 1.

In [None]:
# Digite aqui o código do exercício.

5. Neste ítem, você irá comparar a taxa de erro de símbolo obtida pelo classificador treinado com a taxa de erro de símbolo teórica da modulação 8PSK. Portanto, execute a célula de código abaixo e analise o resultado obtido.

**DICAS**

+ Para que o código abaixo funcione corretamente, o nome do seu classificador treinado em um dos itens anteriores deve ser `model` .
+ Esta simulação irá demorar, portanto, pegue um café e tenha paciência.

In [None]:
# Definição da função Q.
def qfunc(x):
    return 0.5-0.5*erf(x/np.sqrt(2))

# Number of symbols to be transmitted.
N = 10000000

# Create Es/N0 vector.
EsN0dB = np.arange(0, 22, 2)

# Iterate over all EsN0 values and calculate SER.
ser_simu = np.zeros((len(EsN0dB),))
ser_theo = np.zeros((len(EsN0dB),))
for idx in range(len(EsN0dB)):
    EsN0Lin = 10.0**(-(EsN0dB[idx]/10.0))

    # Generate 8PSK symbols.
    bits_8psk = np.random.randint(0, numOfClasses, N)
    # Modulate the binary stream into 8PSK symbols.
    symbol = mod(bits_8psk)     

    # Pass 8PSK symbols through AWGN channel.
    noise = np.sqrt(EsN0Lin/2.0)*(np.random.randn(N, 1) + 1j*np.random.randn(N, 1))    
    y = symbol + noise
        
    # Detect received symbol.
    X = np.c_[np.real(y), np.imag(y)]
    detected_symbol = model.predict(X)
        
     # Simulated 8PSK SER.   
    ser_simu[idx] = sum(detected_symbol != bits_8psk)/N
    
    # Theoretical approximate 8PSK SER.
    M = 8
    EsN0 = 10.0**(EsN0dB[idx]/10.0)
    ser_theo[idx] = 2*qfunc(np.sqrt(2*EsN0)*np.sin(np.pi/M))
    
    # Print Es/N0 versus SER values.
    print('Es/N0:%d \t- SER simu: %e \t- SER theo: %e' % (EsN0dB[idx], ser_simu[idx], ser_theo[idx]))
    
plt.plot(EsN0dB, ser_theo, label='theoretical')
plt.plot(EsN0dB, ser_simu, 'ro', label='simulated')
plt.xlabel('Es/N0 [dB]')
plt.ylabel('SER')
plt.xscale('linear')
plt.yscale('log')
plt.grid()
plt.title('8PSK detection')
plt.legend()
plt.xlim([0, 20.5])
plt.ylim([1e-5, 1])
plt.show()

6. Após a análise dos resultados acima, podemos dizer que o classificador apresenta boa performance quando comparado com a curva da taxa de erro de símbolo teórica da modulação 8PSK? **Justifique sua resposta**.

**Resposta**

<span style="color:blue">Escreva aqui a resposta do exercício.</span>


7. A figura abaixo apresenta as regiões de decisão de um **detector ótimo** para a modulçao 8PSK. Essas regiões do detector foram obtidas utilizando-se técnicas clássicas de de processamento de sinal digital e teoria de detecção de sinais (não se utilizou modelos de aprendizado de máquina como no caso deste exercício). O objetivo do detector é maximizar a taxa de detecção correta dos símbolos transmitidos, minimizando os erros de decisão. O detector 8PSK ótimo tem implementação bastante simples, apresentando baixa complexidade computacional (ou seja, sua execução é rápida e necesita de poucos recursos computacionais como CPU e memória).

<img src="../../../figures/8psk_optimal.png" width="300px">

Dado que a figura apresenta uma solução clássica **ótima** no sentido da minimização dos erros de decisão e complexidade computacional e que obtivemos algo similar com o modelo de classificação, responda:

+ Faz sentido usarmos modelos de aprendizado de máquina para resolver problemas para os quais já se têm soluções ótimas?
+ Baseado em sua resposta anterior, em quais contextos você acha que modelos de aprendizado de máquina devem ser aplicados?

**DICAS**:

+ Pense sobre o ponto de vista de complexidade computacional.
+ Nem todas as soluções clássicas (i.e., aquelas que não usam aprendizado de máquina) apresentam soluções ótimas, muitas vezes, elas apresentam soluções subótimas para que possam ser implementadas e usadas na prática.

**Resposta**

<span style="color:blue">Escreva aqui a resposta do exercício.</span>