<a href="https://colab.research.google.com/github/mariantocostanzo/Challange_Telecom_X_parte2/blob/main/TelecomX_parte2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
import pandas as pd
url = 'https://raw.githubusercontent.com/mariantocostanzo/Challange_Telecom_X_parte2/main/datos_tratados.csv'
df = pd.read_csv(url)



In [None]:
#nombres de las columnas
print(df.columns.tolist())


In [None]:
# Se elimina la columna 'customerID' y las filas que contengan valores nulos
df = df.drop(columns=["customerID"])
df = df.dropna()

# Verificamos que no queden valores nulos
print("¬øHay valores nulos?:", df.isnull().values.any())

# Mostramos las dimensiones del dataset limpio
print("Tama√±o del DataFrame despu√©s de limpieza:", df.shape)


## üì¶ Se codifican las variables categ√≥ricas

| Tipo de variable                           | M√©todo aplicado|
| ------------------------------------------ | ------------------------------------- |
| Categ√≥ricas binarias (2 valores)           | Label Encoding (`Yes`‚Üí1, `No`‚Üí0)      |
| Categ√≥ricas no binarias (m√°s de 2 valores) | One-Hot Encoding (columnas separadas) |


In [None]:
from sklearn.preprocessing import LabelEncoder

# 1.'account.Charges.Total' a num√©rico
df['account.Charges.Total'] = pd.to_numeric(df['account.Charges.Total'], errors='coerce')

# 2. Se identifican las columnas categ√≥ricas
categorical_cols = df.select_dtypes(include='object').columns.tolist()

# 3. Se detectan las binarias (solo 2 valores √∫nicos, ignorando NaNs)
binary_cols = [col for col in categorical_cols if df[col].nunique() == 2]

# 4. Se aplica Label Encoding a columnas binarias
label_encoder = LabelEncoder()
for col in binary_cols:
    df[col] = label_encoder.fit_transform(df[col])

# 5. Se aplica One-Hot Encoding al resto de las columnas categ√≥ricas
multi_cat_cols = [col for col in categorical_cols if col not in binary_cols]
df = pd.get_dummies(df, columns=multi_cat_cols, drop_first=True)

# Se muestran las primeras filas del DataFrame transformado
df.head()


## ‚úÖ Proporci√≥n entre los que cancelaron y no

In [None]:
# Cantidad de clientes que cancelaron y los que no
cancel_counts = df['Churn'].value_counts()

# Total y porcentaje de cada clase
print("Cantidad por clase:")
print(cancel_counts)

print("\nProporci√≥n por clase:")
print(cancel_counts / cancel_counts.sum())


##‚úÖ C√≥digo para escalar las variables num√©ricas
##Se uso StandardScaler, que estandariza con media 0 y desviaci√≥n 1


In [None]:
from sklearn.preprocessing import StandardScaler

# Identificamos columnas num√©ricas
numeric_cols = df.select_dtypes(include=['int64', 'float64']).columns.tolist()
numeric_cols.remove('Churn')  # No queremos escalar la variable objetivo

# Creamos un escalador
scaler = StandardScaler()

# Aplicamos el escalado a las columnas num√©ricas
df_scaled = df.copy()
df_scaled[numeric_cols] = scaler.fit_transform(df_scaled[numeric_cols])

# Mostramos un ejemplo
df_scaled[numeric_cols].head()


##‚úÖ C√°lculo y vizualici√≥n de la matriz de correlaci√≥n


In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# se ordenan las correlaciones con Churn
churn_corr = df.corr(numeric_only=True)["Churn"].drop("Churn").sort_values(ascending=False)

# lista de colores basada en los valores de correlaci√≥n
colors = sns.color_palette("coolwarm", len(churn_corr))
colors = [colors[i] for i in range(len(colors))]

plt.figure(figsize=(10, 6))
sns.barplot(x=churn_corr.values, y=churn_corr.index, palette=colors, legend=False)
plt.title("Correlaci√≥n de variables con 'Churn'")
plt.xlabel("Coeficiente de correlaci√≥n")
plt.ylabel("Variables")
plt.tight_layout()
plt.show()




##üîü Top 10 variables m√°s correlacionadas con Churn:

##Las variables con correlaci√≥n positiva alta (m√°s propensas a que el cliente cancele):

| Variable                              | Correlaci√≥n alta positiva  |
|---------------------------------------|----------------------------|
| internet.InternetService_Fiber optic  | +0.3 aprox.                |
| account.PaymentMethod_Electronic check| +0.3 aprox.                |
| account.Charges.Monthly               | +0.25 aprox.               |
| account.PaperlessBilling              | +0.2 aprox.                |
| customer.SeniorCitizen                | +0.15 aprox.               |

###Estas variables aumentan la probabilidad de que un cliente cancele.

##Las variables con correlaci√≥n negativa (m√°s asociadas a permanencia):

| Variable                               | Correlaci√≥n negativa     |
|----------------------------------------|--------------------------|
| customer.tenure                        | ‚Äì0.35 aprox.             |
| account.Contract_Two year              | ‚Äì0.3 aprox.              |
| internet.TechSupport_No                | ‚Äì0.25 aprox.             |
| account.Contract_One year              | ‚Äì0.2 aprox.              |
| internet.OnlineSecurity_Yes            | ‚Äì0.2 aprox.              |   

###Estas reducen la probabilidad de cancelaci√≥n (fidelidad del cliente).



In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Se ordenana las correlaciones por valor absoluto
churn_corr_abs = churn_corr.abs().sort_values(ascending=False)

#top 10 variables
top_10_corr = churn_corr.loc[churn_corr_abs.head(10).index]

# lista de colores basada en los valores de correlaci√≥n
colors = sns.color_palette("coolwarm", len(top_10_corr))


plt.figure(figsize=(10, 6))
sns.barplot(x=top_10_corr.values, y=top_10_corr.index, palette=colors)
plt.title("Top 10 variables m√°s correlacionadas con 'Churn'")
plt.xlabel("Coeficiente de correlaci√≥n")
plt.ylabel("Variables")
plt.tight_layout()
plt.show()

In [None]:
df.to_csv("df_transformado.csv", index=False)


#analisis dirigido#
üìä 1. Tiempo de contrato (customer.tenure) √ó Cancelaci√≥n.
Se uso un boxplot para ver c√≥mo var√≠a el tiempo de permanencia seg√∫n si el cliente cancel√≥ o no.

üìä 2. Gasto total (account.Charges.Total) √ó Cancelaci√≥n.
Se uso un scatter plot para comparar cu√°nto gastaron los clientes que cancelaron frente a los que no.

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# Cargar el dataset transformado
df = pd.read_csv("df_transformado.csv")

# Estilo
sns.set(style="whitegrid")
plt.figure(figsize=(14, 6))

# Gr√°fico 1: Boxplot - Tiempo de contrato vs Cancelaci√≥n
plt.subplot(1, 2, 1)
sns.boxplot(x="Churn", y="customer.tenure", data=df, palette=["lightcoral", "lightcoral"])
plt.title("Tiempo de contrato seg√∫n cancelaci√≥n")
plt.xlabel("Cancelaci√≥n (0 = No, 1 = S√≠)")
plt.ylabel("Meses de contrato")

# Gr√°fico 2: Scatter plot - Gasto total vs Cancelaci√≥n
plt.subplot(1, 2, 2)
sns.scatterplot(x="account.Charges.Total", y="Churn", data=df, alpha=0.5)
plt.title("Gasto total vs Cancelaci√≥n")
plt.xlabel("Gasto total")
plt.ylabel("Cancelaci√≥n (0 = No, 1 = S√≠)")

plt.tight_layout()
plt.show()


#Separaci√≥n de Datos
##üëâ Separa el dataset en dos partes:

X: contiene todas las columnas menos "Churn" (las caracter√≠sticas o variables independientes).

y: contiene la columna "Churn" (la variable objetivo que queremos predecir: si el cliente cancela o no).



In [None]:
from sklearn.model_selection import train_test_split

# Separar variables predictoras y variable objetivo
X = df.drop("Churn", axis=1)
y = df["Churn"]

# Dividir 80% entrenamiento y 20% prueba, estratificando por la variable objetivo
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.20, random_state=42, stratify=y
)

# Verificaci√≥n de tama√±os
print("Tama√±o de entrenamiento:", X_train.shape[0])
print("Tama√±o de prueba:", X_test.shape[0])
print("Total:", df.shape[0])


#Creaci√≥n de Modelos

‚úÖ 1. Modelo 1: Regresi√≥n Log√≠stica (requiere normalizaci√≥n)
Usa distancias internas y c√°lculo de coeficientes ‚Üí necesita que las variables est√©n en la misma escala.

‚úÖ 2. Modelo 2: Random Forest (no requiere normalizaci√≥n)
Basado en √°rboles ‚Üí no le afecta la escala.



In [None]:
from sklearn.impute import SimpleImputer
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
from sklearn.metrics import accuracy_score, classification_report

# Separar features y target
X = df.drop("Churn", axis=1)
y = df["Churn"]

# entrenamiento y prueba
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.20, random_state=42, stratify=y
)

# ================================
# MODELO 1: Regresi√≥n Log√≠stica (con imputaci√≥n y normalizaci√≥n)
# ================================
pipeline_lr = Pipeline([
    ("imputer", SimpleImputer(strategy="mean")),
    ("scaler", StandardScaler()),
    ("model", LogisticRegression(solver='liblinear'))
])

pipeline_lr.fit(X_train, y_train)
y_pred_lr = pipeline_lr.predict(X_test)

# ================================
# MODELO 2: Random Forest (con imputaci√≥n, sin normalizaci√≥n)
# ================================
pipeline_rf = Pipeline([
    ("imputer", SimpleImputer(strategy="mean")),
    ("model", RandomForestClassifier(n_estimators=100, random_state=42))
])

pipeline_rf.fit(X_train, y_train)
y_pred_rf = pipeline_rf.predict(X_test)

# ================================
# Evaluaci√≥n
# ================================
print("üîπ Regresi√≥n Log√≠stica")
print("Acur√°cia:", accuracy_score(y_test, y_pred_lr))
print(classification_report(y_test, y_pred_lr))

print("üîπ Random Forest")
print("Acur√°cia:", accuracy_score(y_test, y_pred_rf))
print(classification_report(y_test, y_pred_rf))


In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.metrics import classification_report


report_lr = classification_report(y_test, y_pred_lr, output_dict=True)
report_rf = classification_report(y_test, y_pred_rf, output_dict=True)


metrics_lr = {
    'Acur√°cia': report_lr['accuracy'],
    'Precision': report_lr['1']['precision'],
    'Recall': report_lr['1']['recall'],
    'F1-Score': report_lr['1']['f1-score']
}

metrics_rf = {
    'Acur√°cia': report_rf['accuracy'],
    'Precision': report_rf['1']['precision'],
    'Recall': report_rf['1']['recall'],
    'F1-Score': report_rf['1']['f1-score']
}

# Creaci√≥n del  DataFrame para el plotting
metrics_df = pd.DataFrame({
    'Metrica': metrics_lr.keys(),
    'Regresi√≥n log√≠stica': metrics_lr.values(),
    'Random Forest': metrics_rf.values()
})

metrics_df_melted = metrics_df.melt(id_vars='Metrica', var_name='Modelo', value_name='Score')

# Plotting
plt.figure(figsize=(10, 6))
sns.barplot(x='Metrica', y='Score', hue='Modelo', data=metrics_df_melted, palette=["lightblue", "lightpink"])
plt.title('Comparaci√≥n del rendimiento del modelo')
plt.ylabel('Score')
plt.ylim(0, 1)
plt.show()

## Matriz de confusi√≥n

Matriz de confusi√≥n de cada modelo para ver qu√© tan bien se desempe√±an al clasificar a los clientes que abandonan y los que no.

In [None]:
from sklearn.metrics import confusion_matrix
import seaborn as sns
import matplotlib.pyplot as plt

# Matriz de Confusi√≥n para regresi√≥n log√≠stica
cm_lr = confusion_matrix(y_test, y_pred_lr)
plt.figure(figsize=(6, 4))
sns.heatmap(cm_lr, annot=True, fmt='d', cmap='Blues', cbar=False)
plt.title('Matriz de Confusi√≥n - Regresi√≥n log√≠stica')
plt.xlabel('Predicted')
plt.ylabel('Actual')
plt.xticks([0.5, 1.5], ['No Churn (0)', 'Churn (1)'])
plt.yticks([0.5, 1.5], ['No Churn (0)', 'Churn (1)'])
plt.show()

# Matriz de Confusi√≥nRandom Forest
cm_rf = confusion_matrix(y_test, y_pred_rf)
plt.figure(figsize=(6, 4))
sns.heatmap(cm_rf, annot=True, fmt='d', cmap='Blues', cbar=False)
plt.title('Matriz de Confusi√≥n- Random Forest')
plt.xlabel('Predicted')
plt.ylabel('Actual')
plt.xticks([0.5, 1.5], ['No Churn (0)', 'Churn (1)'])
plt.yticks([0.5, 1.5], ['No Churn (0)', 'Churn (1)'])
plt.show()

###Considerando la importancia de identificar los casos reales de cancelaci√≥n (Recall) y el equilibrio general entre precisi√≥n y recall (Puntuaci√≥n F1) para la clase de cancelaci√≥n, el modelo de Regresi√≥n Log√≠stica parece tener un rendimiento ligeramente mejor para este problema espec√≠fico, aunque la precisi√≥n general sea similar.

# Informe Detallado sobre la Cancelaci√≥n de Clientes

Se presenta un an√°lisis de los factores que influyen en la cancelaci√≥n de clientes (Churn) y se eval√∫a el rendimiento de dos modelos de clasificaci√≥n para predecir este comportamiento.

## 1. Factores Clave que Influyen en la Cancelaci√≥n

Bas√°ndonos en el an√°lisis de correlaci√≥n, las variables que muestran una mayor influencia (positiva o negativa) en la cancelaci√≥n son:

*   **Correlaci√≥n Positiva Alta (mayor probabilidad de cancelaci√≥n):**
    *   `internet.InternetService_Fiber optic`: Los clientes con servicio de fibra √≥ptica tienden a cancelar m√°s.
    *   `account.PaymentMethod_Electronic check`: El m√©todo de pago por cheque electr√≥nico est√° asociado a una mayor tasa de cancelaci√≥n.
    *   `account.Charges.Monthly`: Un mayor cargo mensual se correlaciona positivamente con la cancelaci√≥n.
    *   `account.PaperlessBilling`: Los clientes con facturaci√≥n electr√≥nica tienden a cancelar m√°s.
    *   `customer.SeniorCitizen`: Los clientes de la tercera edad tienen una mayor propensi√≥n a cancelar.

*   **Correlaci√≥n Negativa Alta (menor probabilidad de cancelaci√≥n - mayor fidelidad):**
    *   `customer.tenure`: Los clientes con mayor tiempo de permanencia son menos propensos a cancelar.
    *   `account.Contract_Two year`: Los contratos de dos a√±os est√°n fuertemente asociados a la permanencia.
    *   `internet.TechSupport_No internet service`: La falta de soporte t√©cnico est√° relacionada con una mayor cancelaci√≥n.
    *   `account.Contract_One year`: Los contratos de un a√±o tambi√©n reducen la probabilidad de cancelaci√≥n, aunque en menor medida que los de dos a√±os.
    *   `internet.OnlineSecurity_Yes`: Tener seguridad online se asocia a una menor cancelaci√≥n.

## 2. Rendimiento de los Modelos de Clasificaci√≥n

Se evaluaron dos modelos: Regresi√≥n Log√≠stica y Random Forest. Los resultados obtenidos en el conjunto de prueba son los siguientes:

| M√©trica   | Regresi√≥n Log√≠stica | Random Forest |
| :-------- | :------------------ | :------------ |
| Accuracy  | 0.794               | 0.785         |
| Precision (Churn) | 0.637               | 0.630         |
| Recall (Churn)    | 0.521               | 0.460         |
| F1-Score (Churn)  | 0.574               | 0.532         |

**An√°lisis del Rendimiento:**

*   Ambos modelos tienen una precisi√≥n general similar.
*   La **Regresi√≥n Log√≠stica** muestra un rendimiento ligeramente mejor en las m√©tricas clave para la clase minoritaria (Churn):
    *   Mayor **Recall**, lo que significa que identifica una mayor proporci√≥n de clientes que realmente cancelan. Esto es crucial para implementar estrategias de retenci√≥n.
    *   Mayor **Puntuaci√≥n F1**, que indica un mejor equilibrio entre precisi√≥n y recall para la clase de inter√©s.
*   El **Random Forest**, aunque con una precisi√≥n similar, tiene un recall m√°s bajo, lo que implica que deja pasar a m√°s clientes que s√≠ cancelar√°n.

**Matrices de Confusi√≥n:**

Las matrices de confusi√≥n detallan las predicciones de cada modelo:

**Regresi√≥n Log√≠stica:**
*   Verdaderos Positivos (predice Churn correctamente): 195
*   Falsos Positivos (predice Churn incorrectamente): 111
*   Verdaderos Negativos (predice No Churn correctamente): 924
*   Falsos Negativos (predice No Churn incorrectamente): 179

**Random Forest:**
*   Verdaderos Positivos: 172
*   Falsos Positivos: 101
*   Verdaderos Negativos: 934
*   Falsos Negativos: 202

La Regresi√≥n Log√≠stica identifica 195 casos de Churn correctamente, mientras que Random Forest identifica 172. La Regresi√≥n Log√≠stica tambi√©n tiene menos Falsos Negativos (179 vs 202), lo que refuerza su mejor capacidad para detectar la cancelaci√≥n.

## 3. Estrategias de Retenci√≥n Propuestas

Bas√°ndonos en los factores clave de influencia y el rendimiento del modelo de Regresi√≥n Log√≠stica (considerado ligeramente superior para este caso):

*   **Foco en Clientes con Fibra √ìptica y Pago Electr√≥nico:** Implementar programas de satisfacci√≥n espec√≠ficos o revisar los posibles puntos de negativos para clientes que usan estos servicios o m√©todos de pago.
*   **Monitoreo de Cargos Mensuales:** Identificar a los clientes con cargos mensuales elevados y evaluar la posibilidad de ofrecerles planes alternativos o descuentos antes de que consideren cancelar.
*   **Incentivar Contratos a Largo Plazo:** Promover activamente los contratos de uno y, especialmente, de dos a√±os, destacando sus beneficios y ofreciendo incentivos por la renovaci√≥n a largo plazo.
*   **Mejorar el Soporte T√©cnico:** Dado que la falta de soporte t√©cnico se asocia con la cancelaci√≥n, invertir en mejorar la calidad y accesibilidad del soporte puede ser una estrategia de retenci√≥n efectiva.
*   **Resaltar los Beneficios de la Seguridad Online:** Educar a los clientes sobre la importancia y los beneficios de la seguridad online para fomentar su adopci√≥n y, potencialmente, aumentar la permanencia.
*   **Programas para Clientes Antiguos:** Reconocer y recompensar la fidelidad de los clientes con mayor antig√ºedad (`customer.tenure`) para reforzar su compromiso.

## Conclusi√≥n

El an√°lisis de datos ha revelado que factores como el tipo de servicio de internet, el m√©todo de pago, el cargo mensual y el tipo de contrato son determinantes en la decisi√≥n de un cliente de cancelar. El modelo de Regresi√≥n Log√≠stica demostr√≥ ser levemente mejor en la identificaci√≥n de clientes propensos a cancelar. Las estrategias de retenci√≥n deben enfocarse en abordar los puntos d√©biles identificados en los factores de alta correlaci√≥n positiva e incentivar aquellos asociados a la permanencia.