# Problema:  Prever se um cliente vai cancelar sua assinatura

# Estrutura das variáveis


*   **Estado:** O estado de onde o cliente é originário
*   **Tempo de conta:** Número de dias que o cliente está usando os serviços
*   **Código de área:** A área de onde o cliente é originário
*   **Número de telefone:** O número de telefone do cliente
*   **Plano internacional:** O status do plano internacional do cliente
*   **Plano de correio de voz:** O status do plano de correio de voz do cliente
*   **Número de mensagens de correio de voz:** Número de mensagens de correio de voz enviadas pelo cliente
*   **Total de minutos diurnos:** Total de minutos de chamadas feitos por um cliente durante o dia
*   **Total de chamadas diurnas:** Número total de chamadas feitas por um cliente durante o dia
*   **Total de cobranças diurnas:** Valor total cobrado a um cliente **durante** o dia
*   **Total de minutos vespertinos:** Total de minutos de chamadas feitos por um cliente durante a tarde
*   **Total de chamadas vespertinas:** Número total de chamadas feitas por um cliente durante a tarde
*   **Total de cobranças vespertinas:** Valor total cobrado a um cliente durante a tarde
*   **Total de minutos noturnos:** Total de minutos de chamadas feitos por um cliente durante a noite
*   **Total de chamadas noturnas:** Número total de chamadas feitas por um cliente durante a noite
*   **Total de cobranças noturnas:** Valor total cobrado a um cliente durante a noite
*   **Total de minutos internacionais:** Total de minutos de chamadas internacionais feitas por um cliente
*   **Total de chamadas internacionais:** Número total de chamadas internacionais feitas por um cliente
*   **Total de cobranças internacionais:** Valor total cobrado por chamadas internacionais feitas por um cliente
*   **Chamadas ao serviço de atendimento ao cliente:** Número total de chamadas feitas ao serviço de atendimento ao cliente
*   **Cancelamento:** Cancelado ou não

https://github.com/kuldeep1909/Sony-Research-Machine-Learning-Project

In [None]:
#!pip install pandas
#!pip install numpy
#!pip install matplotlib
#!pip install seaborn
#!pip install scikit-learn
#!pip install jupyter
!pip install shap
!pip install torchmetrics

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import joblib

import torch
import torch.nn as nn
import torch.nn.functional as F
import torchmetrics
from torch.utils.data import TensorDataset, DataLoader

from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import OneHotEncoder

from sklearn.preprocessing import RobustScaler
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import FunctionTransformer

from sklearn.model_selection import train_test_split

from sklearn.metrics import accuracy_score
from sklearn.metrics import precision_score
from sklearn.metrics import recall_score
from sklearn.metrics import f1_score

from imblearn.over_sampling import ADASYN

from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier

from sklearn import set_config
set_config(display='diagram')

import warnings
warnings.filterwarnings('ignore')


In [None]:
url = 'Sony_data.csv'
df = pd.read_csv(url)
df.head()

## Análise Exploratória dos Dados (EDA)

#### Atributo shape

O atributo **shape** em um DataFrame do pandas retorna uma tupla com o **número de linhas e colunas** do DataFrame, ou seja, a dimensão do DataFrame. O primeiro valor da tupla indica o número de linhas e o segundo valor indica o número de colunas.

In [None]:
# Análise dos registros e features








#### Método info()

O método **info()** no pandas exibe um **resumo conciso** sobre o DataFrame. Esse método é útil para obter uma visão geral da estrutura do DataFrame, especialmente para **verificar rapidamente quais colunas têm valores nulos e quais tipos de dados** estão presentes.

Ele fornece as seguintes informações:

*   Número total de entradas (linhas) no DataFrame.
*   Nome das colunas do DataFrame.
*   Número total de valores não nulos para cada coluna.
*   Tipo de dado (dtype) de cada coluna, como int64, float64, object, etc.
*   Uso de memória do DataFrame.

In [None]:
# Análise dos tipos de dados







#### Comando isna().sum()

O comando **isna().sum()** no pandas é utilizado para verificar a quantidade de valores nulos (ou ausentes) em cada coluna de um DataFrame.

* isna(): cria um DataFrame booleano, onde cada célula indica True se o valor for nulo (NaN), ou False se o valor não for nulo.
* sum(): Ao aplicar o sum() após isna(), ele conta o número de valores True (ou seja, valores nulos) em cada coluna.  O **resultado será uma série (Series)** que mostra o nome de cada coluna e o número de valores nulos correspondentes.
* reset_index(): Converte a série resultante em um DataFrame. O índice original (nomes das colunas) é transformado em uma coluna normal.
* rename(columns={...}): Renomeia as colunas do DataFrame resultante.

In [None]:
# Análise dos valores nulos






#A coluna index (o nome padrão criado pelo reset_index()) é renomeada
#para "Features", e a coluna com a contagem de nulos é renomeada para "Count"

#### <p style="color:blue;">Comando duplicated().sum()</p>

O comando **df.duplicated().sum()** no pandas é utilizado para **identificar e contar quantas linhas duplicadas existem** no DataFrame df.

* df.duplicated(): Retorna uma série booleana que indica, para cada linha do DataFrame, se ela é uma duplicata ou não. O valor será True se a linha for duplicada em relação a uma linha anterior e False se for única.
* sum(): Soma os valores True (que são interpretados como 1), retornando o número total de linhas duplicadas no DataFrame.

In [None]:
# Análise dos valores duplicados






####  Comando df.describe

O comando describe() no pandas é utilizado para **gerar estatísticas descritivas resumidas** das colunas numéricas de um DataFrame.

* count: Número de valores não nulos em cada coluna.
* mean: A média dos valores em cada coluna.
* std: O desvio padrão dos valores em cada coluna, que mede a dispersão dos dados.
* min: O valor mínimo de cada coluna.
* 25%: O primeiro quartil (25º percentil), que representa o ponto em que 25% dos dados estão abaixo deste valor.
* 50% (mediana): O segundo quartil ou mediana (50º percentil), que representa o valor central.
* 75%: O terceiro quartil (75º percentil), que representa o ponto em que 75% dos dados estão abaixo deste valor.
* max: O valor máximo de cada coluna.

In [None]:
# Análise das medidas estatísticas (numéricas)







O comando describe(include='object') no pandas é usado para **gerar estatísticas descritivas** para as colunas que têm dados de tipo "objetos" (normalmente, colunas que contêm strings ou outros tipos categóricos).

Quando aplicado a colunas com strings ou dados categóricos, o describe() retorna as seguintes informações:

* count: O número de valores não nulos.
* unique: O número de valores únicos.
* top: O valor mais frequente (moda).
* freq: A frequência do valor mais frequente (quantas vezes ele aparece).

In [None]:
# Análise das medidas estatísticas (categóricas)








#### Análise dos Outliers

Um outlier (ou valor aberrante) é um ponto de dado que se distancia significativamente dos outros valores de um conjunto de dados. Ele pode indicar uma variação incomum, erro de medição ou entrada incorreta. A Análise dos Outliers tem o objetivo de detectar outliers em colunas numéricas de um DataFrame.

Os Outliers são importantes porque:
* Indicadores de Problemas: Outliers podem apontar erros de entrada de dados, problemas de medição ou mudanças inesperadas no comportamento de um sistema.
* Influência nas Estatísticas: Outliers podem distorcer medidas como a média, desvio padrão e até afetar algoritmos de aprendizado de máquina, que são sensíveis a esses valores extremos.
* Análise de Casos Especiais: Em alguns casos, outliers podem ser fenômenos de interesse, como fraudes em sistemas financeiros ou eventos raros em estudos científicos.

Um dos método que pode ser utilizado é o médodo do Intervalo Interquartil (IQR).  O IQR é a diferença entre o terceiro quartil (Q3) e o primeiro quartil (Q1).

* Valores menores que Q1 - 1.5 * IQR são considerados outliers baixos.
* Valores maiores que Q3 + 1.5 * IQR são considerados outliers altos.

Outras formas de identificar os outliers:

* Método da Desvio Padrão: Qualquer valor que esteja a mais de 2 ou 3 desvios padrão da média poderia ser analisado com sendo um outlier.
* Visualizações: gerar Boxplots que mostram a distribuição dos dados e destacam valores fora do intervalo esperado como outliers. Gerar Histogramas que mostram a frequência de valores e podem evidenciar valores que estão distantes da maioria.

In [None]:
# Análise dos Outliers: Médodo do Intervalo Interquartil (IQR)
def detect_outliers_iqr(df):

    #outlier_count armazena o número de outliers para cada coluna
    outlier_count = {}
    outliers_values = pd.DataFrame()
    for column in df.select_dtypes(include='number'):
        Q1 = df[column].quantile(0.25)
        Q3 = df[column].quantile(0.75)
        IQR = Q3 - Q1
        lower_bound = Q1 - 1.5 * IQR
        upper_bound = Q3 + 1.5 * IQR
        outliers = df[(df[column] < lower_bound) | (df[column] > upper_bound)]
        outliers_values = pd.concat([outliers_values, outliers])
        outlier_count[column] = outliers.shape[0]
    return outlier_count, outliers_values.drop_duplicates()

outliers_count_df, outliers_values_df = detect_outliers_iqr(df)

In [None]:
outliers_count_df  = pd.DataFrame(list(outliers_count_df.items()), columns=['Variáveis', 'Número de Outliers'])
outliers_count_df

In [None]:
variables_with_outliers = outliers_count_df['Variáveis'].tolist()
variables_with_outliers

In [None]:
palette = sns.color_palette("Set2")
plt.figure(figsize=(12, len(variables_with_outliers) * 4))

for i, col in enumerate(variables_with_outliers):
    plt.subplot(len(variables_with_outliers), 2, i + 1)
    sns.boxplot(data=df[[col]], palette=palette)
    plt.title(f'{col}', fontsize=14)
    plt.grid(True)

plt.tight_layout()
plt.show()

In [None]:
outliers_values_df

#### Análise de classes desbalanceadas

A análise de classes desbalanceadas é o processo de examinar a distribuição das classes em um conjunto de dados, particularmente em problemas de classificação, para identificar se há uma disparidade significativa no número de exemplos entre as diferentes classes. Esse desbalanceamento pode impactar a performance de modelos de aprendizado de máquina e é um ponto crítico a ser abordado durante a fase de pré-processamento e modelagem de dados.


Em um problema de classificação, as "classes" são os diferentes rótulos que o modelo tenta prever. Uma análise simples de classes desbalanceadas, pode ser feita calculando a porcentagem de ocorrência de cada classe em uma coluna. Por exemplo, em um problema de detecção de fraudes, as classes podem ser "fraude" e "não fraude". Uma classe desbalanceada ocorre quando uma ou mais classes têm muito mais (ou muito menos) exemplos do que outras. Por exemplo, se 95% dos dados forem da classe "não fraude" e apenas 5% forem da classe "fraude", temos um cenário de desbalanceamento.


Classe desbalanceadas podem ter impacto na performance dos modelos de aprendizado de máquina que geralmente são treinados para minimizar um erro geral (como acurácia). Se os dados forem desbalanceados, o modelo pode aprender a ignorar as classes minoritárias, prevendo sempre a classe majoritária, o que pode resultar em um modelo que parece ser preciso, mas que na realidade não resolve o problema.

Métricas como acurácia podem ser enganosas em cenários desbalanceados. Um modelo pode parecer "preciso" porque acerta a maioria das previsões para a classe majoritária, enquanto falha completamente em identificar a classe minoritária.  Quando os dados são desbalanceados, métricas como F1-score, Precisão, Revocação (Recall) e AUC-ROC tornam-se mais adequadas para avaliação, em vez de acurácia. Essas métricas consideram o desempenho em relação à classe minoritária.

#### Comando value_counts()

Conta o número de ocorrências de cada valor na coluna. O argumento normalize=True faz com que o resultado seja a proporção (fração) de cada valor em relação ao total. O resultado é uma série (Series).

In [None]:
# Análise das classes desbalanceadas








In [None]:
plt.figure(figsize=(6, 4))
sns.countplot(x='Cancelamento', data=df, palette='viridis')
plt.title('Distribuição do Cancelamento')
plt.xlabel('Cancelamento')
plt.ylabel('Contagem')
plt.show()

#### Correlação

A análise de correlação é um método estatístico utilizado para medir e avaliar a relação entre duas ou mais variáveis. Ela permite identificar se, e em que grau, as variáveis estão relacionadas entre si, ou seja, se a mudança em uma variável está associada a mudanças em outra.

Tipos de Correlação:
* Correlação Positiva: Quando uma variável aumenta, a outra também tende a aumentar. Exemplo: À medida que a altura de uma pessoa aumenta, o peso também tende a aumentar.
* Correlação Negativa: Quando uma variável aumenta, a outra tende a diminuir. Exemplo: À medida que o preço de um produto aumenta, a demanda pode diminuir.
Correlação Nula (ou Ausente):
* Não há uma relação linear aparente entre as variáveis. Exemplo: A altura de uma pessoa e o número de livros que ela lê por ano provavelmente não estão relacionados.

Na fase de análise exploratória de dados (EDA), a correlação é útil para entender as relações entre diferentes variáveis no conjunto de dados.
Pode ajudar a identificar variáveis que são redundantes (altamente correlacionadas) e aquelas que podem ser mais úteis para previsão. Variáveis altamente correlacionadas podem conter informações redundantes, o que pode ser prejudicial em certos modelos, como a regressão linear. A correlação pode guiar a eliminação de variáveis correlacionadas para melhorar a performance do modelo.

Embora a correlação não implique causalidade, ela pode ser o primeiro passo para identificar relações que merecem investigação mais aprofundada. Por exemplo, se duas variáveis são altamente correlacionadas, pode ser interessante investigar se uma causa a outra, ou se há um terceiro fator envolvido.

Medidas de Correlação:

* **Correlação de Pearson** Medida mais comum para variáveis numéricas que têm uma relação linear. A correlação de Pearson, em particular, pode ser sensível a outliers, o que pode distorcer a percepção da relação entre as variáveis.Intervalo de valores: entre -1 e 1.

  * 1: Correlação positiva perfeita (quando uma variável aumenta, a outra também aumenta de maneira proporcional).
  * 0: Nenhuma correlação linear.
  * -1: Correlação negativa perfeita (quando uma variável aumenta, a outra diminui de maneira proporcional).
* **Correlação de Spearman**: Usada para variáveis que não têm uma relação linear, mas sim uma relação monotônica (onde a ordem dos dados importa). Baseada no ranking das variáveis, sendo útil quando há valores atípicos ou dados não normalmente distribuídos.
* **Correlação de Kendall**: Outra medida baseada em ranking, mas usada para avaliar a força de associação entre duas variáveis ordinais.

#### Comando select_dtypes

Esse comando seleciona as colunas de um DataFrame com base nos seus tipos de dados.

In [None]:
numerical_features = df.select_dtypes(include=['float64', 'int64']).columns
categorical_features = df.select_dtypes(include=['object']).columns
categorical_features = categorical_features.drop('Estado')

#### Comando corr(method='pearson')

Calcula a matriz de correlação entre as variáveis numéricas usando o coeficiente de correlação de Pearson. O coeficiente de Pearson mede a relação linear entre duas variáveis, retornando um valor entre -1 e 1:

In [None]:
# Correlação de Pearson
pearson_correlation_matrix = df[numerical_features].corr(method='pearson')
pearson_correlation_matrix

In [None]:
plt.figure(figsize=(11, 8))
sns.heatmap(pearson_correlation_matrix, annot=True, fmt=".2f",cmap='Dark2',linewidths=0.5)
plt.title('Correlação das variáveis numéricas')
plt.show()

In [None]:
# Features numéricas vs Cancelamento
palette = sns.color_palette("Set2")
plt.figure(figsize=(18, 25))
for i, col in enumerate(numerical_features):
    plt.subplot(6, 3, i + 1)
    sns.boxplot(x='Cancelamento', y=col, data=df, palette=palette)
    plt.title(f'{col} vs Cancelamento')
    plt.grid(True)

plt.tight_layout()
plt.show()
