In [None]:
# telecom_churn_prediction.py

# Importar bibliotecas necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix

# Cargar los datos
data = pd.read_csv('telecom_data.csv')  # Asegúrate de tener el archivo CSV

# Exploración inicial de los datos
print(data.head())
print(data.info())
print(data.describe())

# Preparación de los datos
# Eliminar columnas irrelevantes
data.drop(columns=['column_to_drop1', 'column_to_drop2'], inplace=True)

# Verificar la proporción de cancelación
print(data['churn'].value_counts(normalize=True))

# Dividir los datos en características (X) y etiqueta (y)
X = data.drop('churn', axis=1)
y = data['churn']

# Dividir el conjunto de datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Normalizar los datos
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# Construir el modelo de Machine Learning
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

# Realizar predicciones
y_pred = model.predict(X_test)

# Evaluar el modelo
print(confusion_matrix(y_test, y_pred))
print(classification_report(y_test, y_pred))

# Análisis de importancia de las variables
importances = model.feature_importances_
indices = np.argsort(importances)[::-1]

# Visualizar la importancia de las variables
plt.figure()
plt.title("Importancia de las variables")
plt.bar(range(X.shape[1]), importances[indices], align="center")
plt.xticks(range(X.shape[1]), X.columns[indices], rotation=90)
plt.xlim([-1, X.shape[1]])
plt.show()
