<a href="https://colab.research.google.com/github/alexcpass/python_ad/blob/main/Exemplo_Churn.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Exemplo de analise de taxa de perda de cliente (Churn)

Vamos criar um modelo de Machine Learning simples para prever o churn de uma empresa fictícia com base em alguns dados fictícios.

Importando as bibliotecas necessárias

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

Gerando dados fictícios de exemplo

In [None]:
data = {
    'idade': [25, 30, 40, 28, 35, 45, 22, 50, 32, 27],
    'saldo_conta': [500, 1200, 800, 300, 1000, 1500, 200, 1800, 900, 400],
    'ultima_compra': [5, 10, 2, 8, 6, 3, 12, 1, 4, 9],
    'churn': [0, 1, 0, 1, 0, 1, 0, 1, 0, 1]  # 0 - Não Churn, 1 - Churn
}

df = pd.DataFrame(data)

In [None]:
df.head()

Dividindo os dados (tratamento)

In [None]:
# Dividindo os dados em recursos (X) e rótulos (y)
X = df.drop('churn', axis=1)
y = df['churn']

# Dividindo os dados em conjuntos de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


Padronizando os dados

In [None]:
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)


Criando e treinando o modelo de Random Forest

In [None]:
model = RandomForestClassifier(random_state=42)
model.fit(X_train_scaled, y_train)

Fazendo previsões no conjunto de teste

In [None]:
y_pred = model.predict(X_test_scaled)


Calculando a precisão do modelo

In [None]:
accuracy = accuracy_score(y_test, y_pred)
print(f'Precisão do modelo: {accuracy:.2f}')

#Vamos realizar uma análise exploratória de dados (EDA) com base nos mesmos dados fictícios gerados.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
# Visualizando a distribuição das variáveis
plt.figure(figsize=(12, 6))

plt.subplot(2, 2, 1)
sns.histplot(data=df, x='idade', bins=10, kde=True)
plt.title('Distribuição da Idade')

In [None]:
plt.subplot(2, 2, 2)
sns.histplot(data=df, x='saldo_conta', bins=10, kde=True)
plt.title('Distribuição do Saldo da Conta')


In [None]:

plt.subplot(2, 2, 3)
sns.histplot(data=df, x='ultima_compra', bins=10, kde=True)
plt.title('Distribuição da Última Compra')



In [None]:
plt.subplot(2, 2, 4)
sns.countplot(data=df, x='churn')
plt.title('Distribuição de Churn (0 - Não Churn, 1 - Churn)')

plt.tight_layout()
plt.show()



In [None]:
# Verificando correlações entre variáveis
correlation_matrix = df.corr()
plt.figure(figsize=(8, 6))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', center=0)
plt.title('Matriz de Correlação')
plt.show()

Estamos usando as bibliotecas matplotlib e seaborn para criar visualizações que nos ajudarão a entender melhor os dados fictícios gerados. Estamos visualizando a distribuição das variáveis ​​de idade, saldo da conta e última compra, além de uma contagem de churn (0 - Não Churn, 1 - Churn).

Também estamos criando uma matriz de variação para identificar possíveis correlações entre as variáveis. A matriz de dinâmica nos ajuda a entender se há alguma relação linear entre as variáveis. Quanto mais próximo o valor for de 1 ou -1, mais forte será a positiva ou negativa, respectivamente.

