In [None]:
import warnings

# Ignore all warnings
warnings.filterwarnings("ignore")

# AcademIA BB - Ciência de Dados

Bem-vindos e bem-vindas à AcademIA BB! Esse material faz parte do eixo de Ciência de Dados e contém o conteúdo que será desenvolvido nas Lives.

O conteúdo é baseado em uma premissa "mãos na massa", então os conceitos serão explicados à medida que são apresentados por meio do código.

Projetos de ciências de dados seguem alguns passos, vamos dividir os nossos em 8:

1. Investigar o quadro geral
2. Obter os dados.
3. Descobrir e visualizar os dados para obter insights.
4. Preparar os dados para algoritmos de Aprendizado de Máquina.
5. Selecionar um modelo e treina-lo.
6. Ajustar o modelo.
7. Apresentar a sua solução.
8. Lançar, monitorar e manter seu sistema.

No primeiro passo, é aferida a disponibilidade dos dados que são importantes para o problema. No nosso caso, vamos estudar um problema de rotatividade de clientes do cartão de crédito. Esses dados devem ser obtidos e importados para nosso ambiente de desenvolvimento para que possamos acessá-lo pelo Python.


## Caso de Estudo

Um gerente do banco está incomodado com o fato de cada vez mais clientes abandonarem os serviços de cartão de crédito. Eles realmente apreciariam se alguém pudesse prever quem será desligado, para que possam ir proativamente ao cliente para fornecer-lhes melhores serviços e direcionar as decisões dos clientes na direção oposta.

No nosso exemplo, os clientes estão abandonando os serviços de cartão de crédito e queremos buscar hipóteses que expliquem esse comportamento. Para entender e explorar esse comportamento, vamos analisar os dados dos clientes que abandonaram ou não o serviço. Esses dados podem ou não conter insights sobre a evasão do serviço, mas para aferir essa situação, precisamos primeiro entender quais dados estão disponíveis e como eles poderiam afetar a decisão de evadir ou não.

Os dados dos clientes serão disponibilizados e passaremos para o próximo passo, que é importar os dados para nosso ambiente de desenvolvimento.

### Importando dados

Temos um conjunto de dados que possui várias informações dos clientes. Esses dados nos foram disponibilizados através de um arquivo CSV, ou seja, os dados estão no formato de texto separado por vírgulas.

Esse tipo de arquivo possui dados estruturados em linhas e colunas, o que é muito comum e considerado padrão na ciência de dados. A primeira linha de nosso arquivo de texto possuirá o nome de cada uma de nossas colunas, separados por vírgulas. Todas as outras linhas são consideradas "observações", ou seja, valores para cada coluna de nosso conjunto. Uma linha possui, portanto, um valor por coluna e o número de valores de cada linha deve corresponder ao número de colunas.

Esse arquivo possui os dados, mas nosso ambiente de desenvolvimento Python ainda não tem acesso a eles. Vamos então importar os dados para nosso ambiente.


In [None]:
import pandas as pd

df = pd.read_csv("bases/ds_dataset_002.csv", sep=";")

### Observando os valores de nosso DataFrame

Percebemos que mesmo depois de executar a célula acima, os valores de nosso conjunto de dados não aparecem na tela. Isso por que apenas importamos o conjunto de dados para nosso ambiente de desenvolvimento mas ainda não os escrevemos na tela.

Conjuntos de dados costumam ter centenas senão centenas de milhares ou até milhões de linhas. Não se costuma, portanto, visualizar todos os valores de um conjunto de dados e sim apenas algumas linhas.

In [None]:
df.head(5)

## Descrevendo um conjunto de dados

Conjuntos de dados possuem diversas informações que podem descrevê-los. A análise realizada para descrever o conjunto de dados é chamada "Análise Descritiva". Essa análise busca descrever o conjunto a partir do que chamamos de "medidas resumo" que, como o nome diz, resumem e sintetizam informações sobre o conjunto inteiro. Por exemplo, a partir de uma lista de idades é possível obter o valor médio das idades, que corresponde à soma de todas os valores dividida pelo número total de observações. Algumas informações sobre o conjunto podem ser obtidas facilmente a partir da observação simples do conjunto, como
- Número de observações
- Tipo de dados
    - Quantitativos
    - Qualitativos
- Valores mínimos e máximos
- Ordenação dos valores

Para acessar uma coluna do nosso DataFrame, utiliza-se o colchete `[]` com o nome da coluna desejada. É possível selecionar mais de uma coluna utilizando dois colchetes `[[]]`, como no exemplo abaixo.

In [None]:
df["Indicador"]

In [None]:
df[["Indicador", "Genero"]]

In [None]:
df["Idade"][:10]  # para selecionar linhas, utilize um segundo par de colchetes

In [None]:
df[["Indicador", "Genero"]][:10]  # também funciona para mais de uma coluna

### Função `info()`


Muitas informações importantes dos nossos dados podem ser obtidas através da função `info()`. Para executar a função, após o nome da sua variável que contém os dados, escreva `.info()` e execute a célula, como no exemplo a seguir. A saída conterá informações sobre o conjunto de dados como número de linhas, colunas, valores nulos e os tipos de dados de cada coluna.

Essa é uma função muito útil para ter uma visão geral de nosso conjunto de dados e escolher quais passos seguir na sua análise.

In [None]:
df.info()

### Função `describe()`

A função `describe()` possui um objetivo semelhante, com a diferença que ele irá retornar informações de estatística descritiva das colunas numéricas de nosso conjunto de dados.

As estatísticas obtidas são:
- count : Contagem

É o número de observações daquela variável. Ou seja, é o número de linhas que possuem valores válidos para aquela coluna. Caso em certas linhas os valores para aquela coluna sejam nulos, por exemplo, esses valores não serão contados.

- mean : Média

É a média aritmética dos valores válidos da coluna. A média aritmética é obtida a partir da soma de todos os valores observados dividida pelo número de observações.

- std - Desvio-Padrão

O desvio-padrão é uma medida de distribuição que mede quanto cada observação se distancia da média. Ele nos dá informações sobre a distribuição de valores das nossas observações. Quanto maior o valor do desvio-padrão, maior a variação dos valores observados com relação a média.

- min e max - Mínimo e Máximo

Esses são os valores mínimo e máximo para a coluna observada.

- Mediana

A mediana é uma medida de posição que corresponde ao valor que esteja localizado na metade da lista ordenada dos valores observados. Essa medida é útil pois ela reduz a influência de valores extremos, chamados de __outliers__.

No caso da saída de nossa função `describe()`, a mediana é apresentada a partir de seus "quartis", que são as posições relativas na lista ordenada de valores de nossas observações.

O primeiro quartil corresponde ao valor apresentado como "25%" e ele apresenta o valor central entre o menor e metade da lista ordenada. Por definição, indica que até seu valor, 25% dos dados estarão incluídos. Isso também indica que apenas 25% dos valores é inferior ao primeiro quartil.

O segundo quartil corresponde à mediana e é o valor que se encontra na posição central da lista ordenada de valores. Indica também que 50% dos valores é inferior ao valor da mediana.

O terceiro quartil é o valor que se encontra na posição 75% da lista ordenada de valores.

In [None]:
df.describe()

### Funções de Estatística Descritiva

DataFrames são variáveis muito úteis para a análise descritiva de um conjunto de dados pois possuem funções para a obtenção de valores de forma simples.

Para obter o número total de linhas de nosso conjunto, podemos utilizar a função `len()` ou a variável `shape` de nosso DataFrame.

In [None]:
len(df)

In [None]:
df.shape

Para obter o máximo e mínimo de uma coluna ou de todas as colunas, basta utilizar as funções `max()` e `min()`.

In [None]:
df["Idade"].max()

### Distribuição de Valores

Os valores observados podem estar distribuídos de forma diferente. Temos uma função chamada `value_counts()` que mostra o número de observações para cada valor na coluna observada. Vamos aplicar essa função na nossa coluna de Indicador, assim vamos saber quantas pessoas evadiram nosso serviço de cartão de crédito.

In [None]:
df["Indicador"].value_counts()

In [None]:
df["Cartao"].value_counts(normalize=True)  # exemplo com o normalize

# Live 2

* Relembrando a base de dados da Live 1

In [None]:
df

* Percebemos que 2 colunas possuem valores nulos

In [None]:
df.info()

## Tratamento de Nulos

In [None]:
# Live 2
percent_nulos = round(df.isnull().sum() / len(df), 3) * 100
df2 = pd.DataFrame(percent_nulos).reset_index()
df2.columns = ["Atributo", "Percentual"]
df2.sort_values(by="Percentual", ascending=False)

### Formas do tratamento de nulos:
- deletar os registros cujo valor é nulo
- preencher com aquele de maior frequência/ mediana/ média
- preencher baseado em outra coluna
- Métodos de imputação: https://scikit-learn.org/stable/api/sklearn.impute.html
- preencher como "Desconhecido" (variáveis categóricas)
- ...

* Vamos retirar da nossa base os registros cuja renda não é conhecida (null)

In [None]:
# isna identifica os valores ausentes, logo, true indica valor ausente e false indica valor não ausente
# nesse exemplo vamos filtrar os valores não ausentes, ou seja, onde isna é falso para o atributo renda
df3 = df[df["Renda"].isna() == False]

In [None]:
df["Renda"].isna()

In [None]:
percent_nulos = round(df3.isnull().sum() / len(df3), 3) * 100
df2 = pd.DataFrame(percent_nulos).reset_index()
df2.columns = ["Atributo", "Percentual"]
df2.sort_values(by="Percentual", ascending=False)

In [None]:
df3.info()

In [None]:
# dropna remove os valores ausentes
df3 = df3.dropna()
df3.info()

## Visualizando os dados

### Variáveis Numéricas

In [None]:
#importar seaborn e matplotlib - Seaborn e Matplotlib são amplamente utilizadas para visualização de dados em Python
import seaborn as sns
import matplotlib.pyplot as plt

sns.histplot(df3, x="Limite_Credito")
plt.show()

* Modificando o tamanho do gráfico

In [None]:
plt.figure(figsize=(15, 5))
sns.histplot(df3, x="Limite_Credito")
plt.show()

In [None]:
sns.histplot(df3["Dependentes"])
plt.show()

In [None]:
plt.figure(figsize=(15, 5))
sns.histplot(df3["Idade"])
plt.show()

# O histplot do Seaborn é uma função utilizada para criar histogramas, que são gráficos de barras que mostram a distribuição de um conjunto de dados.
# Ele é muito útil para visualizar a frequência de valores em diferentes intervalos (bins) e entender a distribuição de uma variável contínua

In [None]:
#gerar boxplot da idade
plt.figure(figsize=(15, 5))
sns.boxplot(x=df3["Idade"])
plt.show()

# Um boxplot, também conhecido como gráfico de caixa, é uma ferramenta gráfica usada para visualizar a distribuição de um conjunto de dados.
# Ele mostra a mediana, os quartis (Q1 e Q3), e os valores mínimo e máximo, além de possíveis outliers.
# A “caixa” central representa o intervalo interquartil (IQR), que é a faixa entre o primeiro e o terceiro quartil, enquanto as “linhas” (ou whiskers) se estendem até os valores mínimo e
# máximo dentro de 1,5 vezes o IQR. Outliers são plotados como pontos individuais fora dessas linhas.
# O boxplot serve para identificar a dispersão, a simetria e a presença de outliers em um conjunto de dados, facilitando comparações entre diferentes grupos ou distribuições.

### Variáveis categóricas

In [None]:
df3.Cartao.unique()

In [None]:
df3.Estado_Civil.unique()

In [None]:
df3.Renda.unique()

In [None]:
df3.Escolaridade.unique()

In [None]:
possiveis_Education = pd.CategoricalDtype(
    ["Sem Escolaridade", "Desconhecido", "Ensino Médio Completo", "Ensino Superior Completo", "Pós-Graduação",
     "Mestrado", "Doutorado"], ordered=True)
possiveis_Marital_Status = pd.CategoricalDtype(df3.Estado_Civil.unique())
possiveis_Renda = pd.CategoricalDtype(
    ["Menos de 40 Mil", "De 40 Mil a 60 Mil", "De 60 Mil a 80 Mil", "De 80 Mil a 120 Mil", "Mais de 120 Mil"],
    ordered=True)
possiveis_cartao = pd.CategoricalDtype(["Blue", "Silver", "Gold", "Platinum"], ordered=True)
possiveis_gender = pd.CategoricalDtype(df3.Genero.unique())

possiveis_Education

In [None]:
df3.loc[:, "Escolaridade"] = df3.Escolaridade.astype(possiveis_Education)
df3.loc[:, "Estado_Civil"] = df3.Estado_Civil.astype(possiveis_Marital_Status)
df3.loc[:, "Renda"] = df3.Renda.astype(possiveis_Renda)
df3.loc[:, "Cartao"] = df3.Cartao.astype(possiveis_cartao)
df3.loc[:, "Genero"] = df3.Genero.astype(possiveis_gender)

#### Cartão

In [None]:
media_limite_cartao = df3.groupby("Cartao")["Limite_Credito"].mean()

plt.figure(figsize=(10, 5))

# Define uma paleta de cores para as categorias
palette = sns.color_palette("husl", len(media_limite_cartao))

sns.barplot(x=media_limite_cartao.index, y=media_limite_cartao.values, palette=palette)

plt.title("Limite de Crédito por cada categoria de cartão", fontsize=14)
plt.xlabel("Categoria do Cartão", fontsize=14)
plt.ylabel("Média do Limite de Crédito")
plt.show()

In [None]:
plt.figure(figsize=(8, 6))
sns.countplot(x="Cartao", data=df3, palette=palette)
plt.title("Distribuição de Cartão")
plt.xlabel("Cartão")
plt.ylabel("Contagem")
plt.show()

Nesse caso, como o tipo de cartão Blue é muito maior que os outros, pode não fazer sentido para o modelo passar uma variável com muito mais dados. Dessa forma, vamos transformar essa variável em Cartão Blue e Outros.

In [None]:
#nova variável usando numpy
import numpy as np

df3["Cartao_Num"] = np.where(df3["Cartao"].eq("Blue"), 1, 0)
df3.Cartao_Num.value_counts()

In [None]:
plt.figure(figsize=(8, 6))
sns.countplot(x="Cartao_Num", data=df3)
plt.title("Distribuição de Cartão")
plt.xlabel("Cartão")
plt.ylabel("Contagem")
plt.show()

#### Gênero

In [None]:
#gerar gráfico de gênero e indicador

plt.figure(figsize=(8, 6))
sns.countplot(x="Genero", hue="Indicador", data=df3)
plt.title("Distribuição de Gênero por Indicador de Evasão")
plt.xlabel("Gênero")
plt.ylabel("Contagem")
plt.show()

# O countplot do Seaborn é um tipo de gráfico de barras que mostra a contagem de observações em cada categoria de uma variável categórica.
# Ele serve para visualizar a distribuição de frequências de diferentes categorias em um conjunto de dados.
# Cada barra no gráfico representa uma categoria e sua altura corresponde ao número de ocorrências dessa categoria.
# O countplot é frequentemente usado para análises exploratórias de dados, permitindo identificar rapidamente quais categorias são mais ou menos frequentes.
# Além disso, ele pode ser facilmente customizado com cores, rótulos e outras propriedades para melhorar a clareza e a estética da visualização.

#### Exemplo de gráfico que não agrega

In [None]:
#gerar gráfico idade e dependentes
plt.figure(figsize=(8, 6))
sns.scatterplot(x="Idade", y="Dependentes", hue="Indicador", data=df3)
plt.title("Relação entre  Idade e Dependentes por Indicador de Evasão")
plt.xlabel("Idade")
plt.ylabel("Dependentes")
plt.show()

In [None]:
# menos dependentes: maior amplitude de idade, qt maior o num de dependentes, fica mais junto
plt.figure(figsize=(10, 7))
sns.boxplot(data=df3, y="Idade", x="Dependentes")  # hue="Indicador")

In [None]:
plt.figure(figsize=(8, 6))
sns.heatmap(df3[["Idade", "Dependentes", "Limite_Credito"]].corr(), annot=True)
plt.show()

# Um heatmap de correlação no Seaborn é uma visualização gráfica que mostra a matriz de correlação entre várias variáveis de um conjunto de dados.
# Cada célula do heatmap representa o coeficiente de correlação entre duas variáveis, com a intensidade da cor indicando a força e a direção da correlação (positiva ou negativa).
# Esse tipo de gráfico é extremamente útil para identificar rapidamente relações significativas entre variáveis, facilitando a análise exploratória e a seleção de características para modelos de machine learning. Além disso, o Seaborn permite adicionar anotações e ajustar a paleta de cores para melhorar a interpretação dos dados.

## Transformações

In [None]:
#nova variável onde genero m = 1 e genero f = 0
df3["Genero_Num"] = df3["Genero"].apply(lambda x: 1 if x == "M" else 0)
df3.Genero_Num.value_counts()

In [None]:
df3.info()

### Categóricas

A função get_dummies do Pandas é usada para converter variáveis categóricas em variáveis dummy ou indicadores, que são representações numéricas (0 e 1) das categorias. Isso é especialmente útil em análises estatísticas e modelos de machine learning, onde os algoritmos geralmente requerem entradas numéricas.

Por que usar get_dummies?

Preparação de Dados: Transforma dados categóricos em um formato que pode ser facilmente utilizado por algoritmos de machine learning.

Evita Problemas de Ordinalidade: Ao converter categorias em variáveis dummy, evita-se a interpretação errônea de que há uma ordem ou hierarquia entre as categorias.

Facilita a Análise: Permite a inclusão de variáveis categóricas em análises estatísticas e modelos preditivos sem a necessidade de codificação manual.

In [None]:
# criar dummies da escolaridade, estado civil e renda

# Criando dummies para a variável Escolaridade
df_dummies_escolaridade = pd.get_dummies(df3["Escolaridade"], prefix="Escolaridade")

# Criando dummies para a variável Estado_Civil
df_dummies_estado_civil = pd.get_dummies(df3["Estado_Civil"], prefix="Estado_Civil")

# Criando dummies para a variável Estado_Civil
df_dummies_renda = pd.get_dummies(df3["Renda"], prefix="Renda")

# Concatenando as dummies ao DataFrame original
df3 = pd.concat([df3, df_dummies_escolaridade, df_dummies_estado_civil, df_dummies_renda], axis=1)

# Exibindo as primeiras linhas do DataFrame com as dummies
df3.head()

In [None]:
df3.info()

In [None]:
df3.describe()

### Transformação de dados numéricos

Normalizar os dados é uma etapa crucial em ciência de dados por várias razões:

Consistência: Normalizar os dados ajuda a garantir que todas as variáveis estejam na mesma escala, o que é especialmente importante para algoritmos que dependem da distância entre pontos, como K-means e K-Nearest Neighbors.

Velocidade de Convergência: Em algoritmos de aprendizado de máquina, como redes neurais, a normalização pode acelerar a convergência durante o treinamento, tornando o processo mais eficiente.

Melhor Desempenho: Modelos de aprendizado de máquina geralmente têm um desempenho melhor quando os dados são normalizados, pois isso evita que variáveis com escalas maiores dominem o modelo.

Redução de Erros: A normalização pode ajudar a reduzir erros numéricos durante os cálculos, especialmente em algoritmos que envolvem operações matriciais.

* Escalas diferentes influenciam os algoritmos de forma diferente, dando mais peso para 1 que outro.

https://scikit-learn.org/dev/modules/generated/sklearn.preprocessing.MinMaxScaler.html

#### MinMax scaler

In [None]:
# exemplo do minmax scaler
idade_max = df3.Idade.max()
idade_min = df3.Idade.min()

df3["Idade_SC_"] = (df3["Idade"] - idade_min) / (idade_max - idade_min)

In [None]:
# normalizar idade, dependentes e limite_credito
from sklearn.preprocessing import MinMaxScaler

# Crie um objeto StandardScaler
scaler = MinMaxScaler()

# Selecione as colunas que você deseja escalonar
cols_to_scale = ["Idade", "Dependentes", "Limite_Credito"]
cols_scaled = ["Idade_SC", "Dependentes_SC", "Limite_Credito_SC"]

# Aplique o StandardScaler às colunas selecionadas
df3[cols_scaled] = scaler.fit_transform(df3[cols_to_scale])

# Exiba as primeiras linhas do DataFrame com as colunas escalonadas
df3.head()

In [None]:
df3[["Idade", "Idade_SC", "Idade_SC_"]]

## Live 3

**Relembrando:** Nossa base de dados é de um banco e possui informações de utilização de cartão de crédito. 
- Mas cada cliente possui características pessoais e comportamento de utilização de crédito distintos
- Para visualizar melhor essas diferenças, podemos pensar em agrupar nossos clientes em perfis distintos

#### Vamos começar salvando os dados que vamos utilizar com outros nomes 

In [None]:
# Seleciona as colunas originais
dados_numericos = df3[["Idade", "Dependentes", "Limite_Credito"]].copy()
dados_numericos.head()

In [None]:
# Verificando a distribuição desses dados
dados_numericos.describe()

In [None]:
# Seleciona as colunas normalizadas
dados_numericos_normalizados = df3[["Idade_SC", "Dependentes_SC", "Limite_Credito_SC"]].copy()

In [None]:
# Verificando a distribuição dos dados normalizados
dados_numericos_normalizados.describe()

#### Vamos utilizar o KMeans criando quatro clusters a partir dos nossos dados

In [None]:
from sklearn.cluster import KMeans

In [None]:
#Iniciando o algoritmo com os parâmetros escolhidos
kmeans = KMeans(n_clusters=4, init="k-means++", n_init=10, max_iter=300, random_state=12345)

- init="k-means++": inicializa os centróides dos clusters para acelerar a convergência do algoritmo.
- n_init=10: especifica o número de vezes que o algoritmo K-means será executado com diferentes centróides iniciais. Executar o algoritmo várias vezes ajuda a evitar resultados ruins devido a uma má inicialização dos centroides.
- max_iter=300: define o número máximo de iterações do algoritmo K-means para uma única execução. O valor 300 que é o padrão é um bom valor para garantir que o algoritmo já tenha convergido ao finalizar uma execução => Cada uma das 10 execuções do algoritmo pode realizar até 300 iterações para tentar convergir.
- random_state=12345: garante que os resultados sejam os mesmos em execuções diferentes do algoritmo. Controla a semente do gerador de números aleatórios usado para inicializar os centros dos clusters. Isso permite a reprodutibilidade dos resultados. 

In [None]:
clusters = kmeans.fit_predict(dados_numericos_normalizados)

In [None]:
np.unique(clusters)

#### **Atenção:** Se no seu banco de dados tiver muitas variáveis categóricas importantes para a sua análise, sugere-se a utilização de outros algoritmos: **K-Medoids** ou **K-Prototypes**

#### Devemos mesmo permanecer com quatro clusters?
#### Vamos utilizar o método do cotovelo e verificar outras quantidades de cluster

In [None]:
import matplotlib.pyplot as plt

# Calcular WCSS para diferentes números de clusters
wcss = []

for i in range(1, 11):
    kmeans = KMeans(n_clusters=i, init="k-means++", max_iter=300, n_init=10, random_state=12345)
    kmeans.fit(dados_numericos_normalizados)
    wcss.append(kmeans.inertia_)

# Plotar o gráfico do método do cotovelo
plt.plot(range(1, 11), wcss)
plt.title("Método do Cotovelo")
plt.xlabel("Número de clusters")
plt.ylabel("WCSS")
plt.xticks(range(1, 11))  # Definir os xticks de 1 em 1
plt.show()

#### Calculando a métrica de silhouette (de -1 até 1) para os 4 clusters iniciais

In [None]:
from sklearn import metrics

In [None]:
silhouette = metrics.silhouette_score(dados_numericos_normalizados, clusters, metric="euclidean")

# Outras métricas de avaliação de cluster: davies_bouldin_score, calinski_harabasz_score

In [None]:
print(silhouette)

#### Vamos realizar uma análise auxiliar da melhor quantidade de clusters. 
#### Vamos verificar os coeficientes de silhouette para 3, 4 e 5 clusters:

In [None]:
kmeans_3 = KMeans(n_clusters=3, init="k-means++", n_init=10, max_iter=300, random_state=12345)
clusters_3 = kmeans_3.fit_predict(dados_numericos_normalizados)
silhouette_3 = metrics.silhouette_score(dados_numericos_normalizados, clusters_3, metric="euclidean")
print(silhouette_3)

In [None]:
kmeans_4 = KMeans(n_clusters=4, init="k-means++", n_init=10, max_iter=300, random_state=12345)
clusters_4 = kmeans_4.fit_predict(dados_numericos_normalizados)
silhouette_4 = metrics.silhouette_score(dados_numericos_normalizados, clusters_4, metric="euclidean")
print(silhouette_4)

In [None]:
kmeans_5 = KMeans(n_clusters=5, init="k-means++", n_init=10, max_iter=300, random_state=12345)
clusters_5 = kmeans_5.fit_predict(dados_numericos_normalizados)
silhouette_5 = metrics.silhouette_score(dados_numericos_normalizados, clusters_5, metric="euclidean")
print(silhouette_5)

#### Agora que decidimos que vamos permanecer com 4 clusters. Vamos interpretá-los a partir das variáveis utilizadas em sua criação. 
#### Essa etapa é conhecida como "Perfilamento dos clusters"

#### Salvando os clusters como uma coluna no nosso dataframe original (sem ser o normalizado)

In [None]:
dados_numericos.loc[:, "clusters"] = clusters

In [None]:
dados_numericos.head()

#### Primeiro, vamos verificar os tamanhos dos clusters por percentual da base total

In [None]:
dados_numericos["clusters"].value_counts(normalize=True).sort_index()

- Cluster 0: Representa 1 a cada 5 clientes 
- CLuster 1: Representa a maior quantidade de clientes
- Cluster 2: Representa a menor quantidade de clientes 
- Cluster 3: Representa cerca de 27% dos clientes 

#### Vamos verificar graficamente a distribuição dos clusters entre duas variáveis explicativas

In [None]:
import matplotlib.pyplot as plt

# Criar o gráfico de pontos
plt.figure(figsize=(10, 6))
scatter = plt.scatter(dados_numericos["Idade"], dados_numericos["Limite_Credito"], c=dados_numericos["clusters"],
                      cmap="viridis", alpha=0.6)

# Adicionar legenda
legend1 = plt.legend(*scatter.legend_elements(), title="Clusters")
plt.gca().add_artist(legend1)

# Adicionar títulos e rótulos
plt.title("Limite de Crédito do Cartão x Idade dos Clientes")
plt.xlabel("Idade dos Clientes")
plt.ylabel("Limite de Crédito do Cartão")

# Mostrar o gráfico
plt.show()

- Cluster 0: Clientes mais novos com baixo limite de crédito
- Cluster 1: Clientes com baixo limite de crédito
- Cluster 2: Clientes com alto limite de crédito 
- Cluster 3: Clientes mais velhos com baixo limite de crédito 

#### Vamos analisar a última variável utilizando a média dela por cluster

In [None]:
dados_numericos.groupby("clusters")["Dependentes"].mean().sort_index()

- Cluster 0: Clientes com poucos dependentes
- Cluster 1: Clientes com a maior quantidade de dependentes 
- Cluster 2: Clientes com uma boa quantidade de dependentes 
- Cluster 3: Clientes com a menor quantidade de dependentes 

#### Conclusão da caracterização/interpretação dos clusters 

- Cluster 0: Clientes mais novos com baixo limite de crédito e poucos dependentes<br>
- Cluster 1: Representa a maior quantidade de clientes. Cliente com muitos dependentes e com baixo limite de crédito<br>
- Cluster 2: Representa a menor quantidade de clientes. Clientes com uma boa quantidade de dependentes e com alto limite de crédito<br>
- Cluster 3: Clientes mais velhos com poucos dependentes e com baixo limite de crédito.<br>

**Estratégia 1:** Aumentar as vendas no shopping BB<br>
**Público alvo:** Cluster 2, pois possuem alto limite de crédito. Esse cluster também possui uma boa quantidade de dependentes, pode se fazer uma pesquisa da média da distribuição de idade desses dependentes. Se a gente estiver falando de muitas crianças, pode-se propor que o shopping BB faça uma parceria com empresa que vende artigos infantis. 

**Estratégia 2:** Promover uma maior utilização do cartão de crédito entre os jovens<br>
**Público alvo:** Cluster 0, representa pessoas jovens com poucos dependentes. Pode-se fazer um cartão que seja mais a cara dos jovens. Pode-se pensar em um aumento de limite de crédito para aqueles que são bons pagadores. E se aumentarmos o cashback do cartão para esse público, irá encorajá-los a usar mais o cartão?

# Live 4 - Aprendizado Supervisionado

**Relembrando:** Nossa base de dados é de um banco e possui informações de utilização de cartão de crédito. 
- E queremos identificar o padrão de clientes que cancelam o cartão de crédito
- E também queremos prever quem são os clientes que tem potencial de cancelar o cartão de crédito

O que faremos nesse projeto de machine learning?  
1 - Leitura do dataframe e identificação das variáveis  
2 - Criação de 2 modelos de classificação  
3 - Validação dos modelos  

Vamos começar listando as variáveis do nosso dataframe para saber o que vai entrar no nosso modelo 

In [None]:
# Listando as colunas do nosso dataframe
df3.columns

Vamos relembrar como estão nossas variáveis

In [None]:
df3.sample(2)

Lembrando que para realizar o treinamento dos nossos modelos, temos que separar as variáveis independentes da variável alvo (também conhecida como label, rótulo, variável dependente, etc.), que no nosso dataframe é a coluna df['Indicador']

In [None]:
variaveis = [
    "Idade", "Dependentes",
    "Limite_Credito", "Genero_Num",
    "Cartao_Num", "Escolaridade_Desconhecido", "Escolaridade_Doutorado",
    "Escolaridade_Ensino Médio Completo",
    "Escolaridade_Ensino Superior Completo", "Escolaridade_Mestrado",
    "Escolaridade_Pós-Graduação", "Escolaridade_Sem Escolaridade",
    "Estado_Civil_Casado", "Estado_Civil_Divorciado",
    "Estado_Civil_Solteiro", "Renda_De 40 Mil a 60 Mil",
    "Renda_De 60 Mil a 80 Mil", "Renda_De 80 Mil a 120 Mil",
    "Renda_Mais de 120 Mil", "Renda_Menos de 40 Mil"
]

df_final = df3.copy()

df_finalX = df_final[variaveis]
df_finaly = df_final["Indicador"]

### Separando os conjuntos de treino e teste

Separar os dados em conjuntos de treino e teste é fundamental em ciência de dados. O objetivo é usar uma parte dos seus dados para treinar o modelo (conjunto de treinamento) e outra parte para avaliar o desempenho do modelo (conjunto de teste). A função train_test_split do sklearn é a forma mais comum de realizar essa separação. Os benefícios de dividir em treino e teste são:

**Avaliação Justa**: Permite avaliar o desempenho do modelo em dados que ele nunca viu antes, simulando como ele se comportará em dados reais.

**Garantir generalização**: Ao treinar um modelo, é importante que ele aprenda os padrões dos dados, em vez de apenas memorizar os exemplos de treinamento. Para verificar a capacidade do modelo de generalizar, deve-se avaliá-lo com dados nunca vistos, ou seja, com informações diferentes das usadas no treinamento.

**Validação do Modelo**: Facilita a comparação entre diferentes modelos e a escolha do melhor, baseado em seu desempenho em dados não vistos.

Para dividir nosso dataframe, o método train_test_split possui os seguintes parâmetros:
    
- df_finalX: são os dados de entrada  
- df_finaly: é o rótulo
- test_size: define a proporção dos dados que serão usados como conjunto de teste (geralmente entre 0.2 e 0.3).  
- random_state: é uma semente para o gerador de números randômicos. Fornecer um valor específico garante que a divisão seja reprodutível, ou seja, você obterá a mesma divisão sempre que usar o mesmo valor.
- shuffle: quando é igual a True garante aleatoriedade na escolha dos dados.

A divisão será armazenada nas variáveis X_train, X_test, y_train, y_test

In [None]:
#Importando o módulo do sklearn
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(df_finalX, df_finaly, test_size=0.3, random_state=42, shuffle=True)

In [None]:
df3["Indicador"].value_counts()

Vamos verificar como ficaram as 4 variáveis após o train_test_split

In [None]:
print("Shape do X_train:", X_train.shape)
print("Shape do y_train:", y_train.shape)
print("Shape do X_test:", X_test.shape)
print("Shape do y_test:", y_test.shape)

Vamos trabalhar com modelos de classificação. Nessa live escolhemos 2 modelos :
- RandomForestClassifier
- KNeighborsClassifier

### Modelo 1: Random Forest Classifier

RandomForestClassifier(): Esse é o modelo de Random Forest para tarefas de classificação.

n_estimators=100: Isso define o número de árvores na floresta. No caso, 100 árvores de decisão serão criadas.

random_state=42: Esse parâmetro garante a reprodutibilidade dos resultados. Com esse valor, você sempre terá os mesmos resultados ao executar o código, já que ele fixa a semente do gerador de números aleatórios.

In [None]:
# Importando o modelo
from sklearn.ensemble import RandomForestClassifier

# Inicializar o classificador Random Forest
Clf_rf = RandomForestClassifier(n_estimators=100, random_state=42)

# Treinar o modelo com os dados de treino
Clf_rf.fit(X_train, y_train)

### Fazendo a predição
Vamos fazer a predição do modelo treinado com os dados de teste (X_test)

In [None]:
# Fazer previsões no conjunto de dados de teste
y_pred = Clf_rf.predict(X_test)

Em resumo, y_pred conterá os valores previstos pelo modelo clf_rf para o conjunto de dados X_test. Agora, temos previsões para comparar com os valores reais de y_test e avaliar a precisão do modelo.

### Avaliação do modelo

In [None]:
#Importando a biblioteca de métricas
from sklearn.metrics import accuracy_score

# Avaliar a acurácia do modelo
accuracy = accuracy_score(y_test, y_pred)
print(f"Acurácia: {accuracy * 100:.4f}%")

Mas o que significa 81%. Isso é bom? Onde o modelo está errando? Resolve o problema negocial?

Vamos avaliar o modelo através da matriz de confusão, que assim teremos uma ideia melhor de qual classe ele está errando mais.

In [None]:
# Importando a biblioteca para ver a matriz de confusão
from sklearn.metrics import confusion_matrix

# Matriz de Confusão
# Esse comando usa a função confusion_matrix da biblioteca sklearn para comparar 
# os valores verdadeiros (y_test) com os valores previstos (y_pred)

cm = confusion_matrix(y_test, y_pred)
print("Matriz de Confusão:")
print(cm)

In [None]:
# Vamos melhorar a visualização dessa matriz de confusão
from sklearn.metrics import ConfusionMatrixDisplay

visualizacao = ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=["Não Churn", "Churn"])
visualizacao.plot();

Essa matriz de confusão mostra a performance do modelo de classificação em duas classes.

2024: amostras corretamente classificadas como Nâo-Churn.  
404: amostras de Churn incorretamente classificadas como Não-Churn.
59: amostras de Não-Churn incorretamente classificadas como Churn.
18: amostras corretamente classificadas como Churn.

Então, resumindo:

O modelo classificou corretamente 2024 amostras de Não-Churn e 18 amostras de Churn.
Ele classificou incorretamente 59 amostras de Não-Churn como Churn e 404 amostras de Churn como Não-Churn.

Vamos analisar agora as outras métricas do modelo

In [None]:
from sklearn.metrics import precision_score, recall_score, f1_score, roc_auc_score

# Precisão
precision = precision_score(y_test, y_pred)
print(f"Precisão: {precision:.4f}")

# Recall
recall = recall_score(y_test, y_pred)
print(f"Recall: {recall:.4f}")

# F1 Score
f1 = f1_score(y_test, y_pred)
print(f"F1 Score: {f1:.4f}")

# Extraindo os valores TN, FP, FN, TP
TN, FP, FN, TP = cm.ravel()
print(f"Verdadeiros Negativos (TN): {TN}")
print(f"Falsos Positivos (FP): {FP}")
print(f"Falsos Negativos (FN): {FN}")
print(f"Verdadeiros Positivos (TP): {TP}")

# Curva ROC e AUC (para problemas binários)
if len(set(y_test)) == 2:  # Verifica se é um problema binário
    y_prob = Clf_rf.predict_proba(X_test)[:, 1]
    auc = roc_auc_score(y_test, y_prob)
    print(f"AUC: {auc:.2f}")

### Modelo 2: KNeighborsClassifier

KNeighborsClassifier(): Essa é a classe do algoritmo K-Nearest Neighbors do sklearn.

n_neighbors=5: Isso define que o número de vizinhos mais próximos considerados para fazer a classificação será 5.

Então, knn será um modelo que, para classificar uma nova amostra, vai olhar para as 5 amostras mais próximas (em termos de distância) e usar as classes dessas amostras para determinar a classe da nova amostra.

In [None]:
from sklearn.neighbors import KNeighborsClassifier

knn = KNeighborsClassifier(n_neighbors=5)
knn.fit(X_train, y_train)

### Fazendo a predição
Vamos fazer a predição do modelo treinado com os dados de teste (X_test)

In [None]:
y_pred = knn.predict(X_test)

### Avaliação do modelo

In [None]:
#Importando a biblioteca de métricas
from sklearn.metrics import accuracy_score

# Avaliar a acurácia do modelo
accuracy = accuracy_score(y_test, y_pred)
print(f"Acurácia: {accuracy * 100:.4f}%")

In [None]:
# Matriz de Confusão
# Esse comando usa a função confusion_matrix da biblioteca sklearn para comparar 
# os valores verdadeiros (y_test) com os valores previstos (y_pred)

cm = confusion_matrix(y_test, y_pred)
visualizacao = ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=["Não Churn", "Churn"])
visualizacao.plot();

In [None]:
from sklearn.metrics import precision_score, recall_score, f1_score, roc_auc_score

# Precisão
precision = precision_score(y_test, y_pred)
print(f"Precisão: {precision:.4f}")

# Recall
recall = recall_score(y_test, y_pred)
print(f"Recall: {recall:.4f}")

# F1 Score
f1 = f1_score(y_test, y_pred)
print(f"F1 Score: {f1:.4f}")

# Extraindo os valores TN, FP, FN, TP
TN, FP, FN, TP = cm.ravel()
print(f"Verdadeiros Negativos (TN): {TN}")
print(f"Falsos Positivos (FP): {FP}")
print(f"Falsos Negativos (FN): {FN}")
print(f"Verdadeiros Positivos (TP): {TP}")

# Curva ROC e AUC (para problemas binários)
if len(set(y_test)) == 2:  # Verifica se é um problema binário
    y_prob = Clf_rf.predict_proba(X_test)[:, 1]
    auc = roc_auc_score(y_test, y_prob)
    print(f"AUC: {auc:.2f}")

### Conclusão da avaliação dos nossos modelos de classificação

Para melhorar a precisão na classificação da Classe Churn, você pode tentar algumas abordagens:

**Ajuste de Hiperparâmetros**: Modifique os parâmetros do RandomForestClassifier, como max_depth, min_samples_split, min_samples_leaf, e class_weight.

**Balanceamento de Dados**: Use técnicas como oversampling (e.g., SMOTE) ou undersampling para equilibrar as classes. Isso pode ajudar o modelo a aprender melhor as características da Churn.

**Feature Engineering**: Crie novas features ou selecione as mais relevantes, usando técnicas como PCA (Análise de Componentes Principais) ou análise de correlação.

**Outros Modelos**: Experimente outros modelos de classificação, como SVM, Gradient Boosting, ou Redes Neurais, para ver se obtêm melhores resultados.

**Ensemble Methods**: Combine previsões de diferentes modelos para melhorar a robustez e precisão geral.

**Análise de Erros**: Examine os erros que o modelo está cometendo para identificar padrões ou razões específicas pelas quais a classe Churn está sendo mal classificada.