# Guide for useful code

In [1]:
import xgboost
import sklearn

print("XGBoost version:", xgboost.__version__)
print("Scikit-learn version:", sklearn.__version__)

XGBoost version: 2.1.3
Scikit-learn version: 1.5.2


### Delete unwanted columns

In [None]:
# Delete unnecessary columns:
columns_to_drop = ['customerID']
data = data.drop(columns=columns_to_drop)

### Adding a column to define groups by tenure (months as client) on the company

In [None]:
    # Adding a grouping column having "tenure" as the base
def group_tenure(tenure):
    if tenure <= 2:
        return 'Recente (0-2 meses)'
    elif tenure <= 24:
        return 'Médio prazo (2-24 meses)'
    else:
        return 'Longo prazo (>24 meses)'

data['tenure_group'] = data['tenure'].apply(group_tenure)

### Checking different groups of clients

In [None]:
    # Checking distribution of clients by tenure and churn
distribution = data.groupby(['tenure_group', 'Churn']).size().unstack()
print(distribution)

### Setting a dataset with the churn and not_churn clients

In [None]:
pinkyData_churned = pinkyData[pinkyData["Churn"] == "Yes"]
pinkyData_churned.info()

pinkyData_clients = pinkyData[pinkyData["Churn"] == "No"]

### Conta os diferentes tipos de variaveis num dataframe e lista certos tipos de colunas


In [None]:
print(X.dtypes.value_counts())

# Listar colunas que ainda são do tipo object
print(X.select_dtypes(include=['object']).columns)


### Preenche as células vazias com o valor imediatamente anterior na coluna
* bfill preenche com o valor exatamente à frente.

In [None]:
df_col["Referal"] = df_col["Referal"].ffill()

### Mostrar apenas as colunas com dados de um certo tipo ("object", no caso)

In [None]:
df_memory[df_memory.select_dtypes(["object"]).columns]


### Também é possivel um "describe" a colunas "object"/"str"
* O ".T" no final inverte os valores na tabela (as colunas passam a estar nas linhas)

In [None]:
df_col.describe(include = object).T

### Calcular a correlação de certas "features" com as restantes ou com outras especificas

In [None]:
# Calculating the correlation of column A against all others
corr_matrix = df.corr()['A']

# calculate correlation between two columns (only numeric is recognised)
df_col["Age"].corr(df_col["Amount_spent"])

### Calculating the churn_rate:

In [None]:
total_clients = pinkyData.shape[0]
churned_clients = pinkyData[pinkyData["Churn"] == "Yes"].shape[0]

pinkyChurn_rate = (churned_clients / total_clients) *100

print(f"The Pinky churn_rate is {pinkyChurn_rate: .2f} %")

# 31,51%

## Multiple graphs to compare variables by churn (yes or no):

In [None]:
import seaborn as sns

fig, axs = plt.subplots(5, 2, figsize=(15, 12))

sns.countplot(x="gender", data=pinkyData , hue="Churn", ax=axs[0, 0])
axs[0, 0].set_title("Gender by churn")

sns.countplot(x="SeniorCitizen", data=pinkyData , hue="Churn", ax=axs[0, 1])
axs[0, 1].set_title("Senior citizen by churn")

sns.countplot(x="Partner", data=pinkyData , hue="Churn", ax=axs[1, 0])

sns.countplot(x="Dependents", data=pinkyData , hue="Churn", ax=axs[1, 1])

sns.boxplot(data=pinkyData, y='MonthlyCharges', hue='Churn',ax=axs[2, 0])
axs[2, 0].set_title('Monthly Charges')

sns.countplot(x="Contract", data=pinkyData , hue="Churn", ax=axs[2, 1])
axs[2, 1].set_title("Contract's type by churn")
axs[2, 1].set_ylabel('Number')

sns.boxplot(data=pinkyData, y='TotalCharges', hue='Churn',ax=axs[3, 0])
axs[3, 0].set_title('Total charges by year by churn')

sns.countplot(x="PaymentMethod", data=pinkyData , hue="Churn", ax=axs[3, 1])
axs[3, 1].set_title("Method of payment by churn")

sns.countplot(x="DeviceProtection", data=pinkyData , hue="Churn", ax=axs[4, 0])
axs[4, 0].set_title("Device Protection by churn")

sns.countplot(x="TechSupport", data=pinkyData , hue="Churn", ax=axs[4, 1])
axs[4, 1].set_title("TechSupport by churn")

# Utiliser tight_layout pour ajuster les espacements
plt.tight_layout()
plt.show()

1️⃣ Estrutura geral do pipeline para previsão de Churn

A abordagem correta envolve manter todos os clientes num único dataframe (não dividir em dois dataframes) e preparar os dados adequadamente para o modelo.

Aqui está o fluxo recomendado:
📌 Passo 1: Preparação dos Dados

✅ Manter um único dataframe e criar a variável alvo Churn como 0 (não cancelou) e 1 (cancelou).
✅ Transformar variáveis qualitativas em quantitativas → (Encoding das features categóricas).
✅ Lidar com valores ausentes e possíveis anomalias.
✅ Normalizar ou padronizar as variáveis numéricas, se necessário.
📌 Passo 2: Divisão dos Dados

✅ Dividir os dados em "features" (X) e variável alvo (y).
✅ Separar em conjunto de treino (80%) e teste (20%).
📌 Passo 3: Treino de Modelos

✅ Testar múltiplos modelos (exemplo: Regressão Logística, Random Forest, XGBoost, SVM, etc.).
✅ Utilizar GridSearchCV para otimizar hiperparâmetros.
✅ Comparar os desempenhos com métricas adequadas (exemplo: accuracy, precision, recall, F1-score).
📌 Passo 4: Avaliação e Interpretação

✅ Gerar matriz de confusão e relatório de classificação.
✅ Verificar a importância das variáveis (Feature Importance).
✅ Criar gráficos para entender a distribuição dos erros e prever clientes em risco.

In [None]:
# git status                      # Verificar o estado do repositório
# git add .                        # Adicionar todos os ficheiros novos e modificados
# git commit -m "Updating latest files before presentation of the work"  # Commit das alterações
# git push origin main             # Enviar para o GitHub