# Importar bibliotecas necesarias

En esta sección, importaremos las bibliotecas esenciales para el análisis y modelado de datos: pandas, numpy, matplotlib, seaborn y scikit-learn.

In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.metrics import accuracy_score, recall_score, f1_score, confusion_matrix, classification_report
from sklearn.tree import DecisionTreeClassifier
from sklearn.linear_model import LogisticRegression

# Cargar y explorar el conjunto de datos Telco

A continuación, cargamos el archivo CSV del conjunto de datos Telco y exploramos sus primeras filas, tipos de datos y estadísticas descriptivas.

In [4]:
# Cambia la ruta al archivo CSV según corresponda
try:
	df = pd.read_csv('telco-customer-churn.csv')
except FileNotFoundError:
	print("Error: The file 'telco-customer-churn.csv' was not found.")
	# Provide an alternative action, e.g., load a default dataset or exit
	# For example:
	# df = pd.DataFrame()  # Create an empty DataFrame
	raise  # Re-raise the exception if you cannot proceed

# Mostrar las primeras filas
display(df.head())

# Mostrar tipos de datos
print(df.dtypes)

# Estadísticas descriptivas
display(df.describe(include='all'))

Error: The file 'telco-customer-churn.csv' was not found.


FileNotFoundError: [Errno 2] No such file or directory: 'telco-customer-churn.csv'

# Limpieza y preprocesamiento de datos

En esta sección, limpiamos los valores nulos, convertimos variables categóricas y normalizamos los datos según sea necesario.

In [None]:
# Identificar valores nulos
print(df.isnull().sum())

# Eliminar filas o columnas con muchos nulos si es necesario
# df = df.dropna()  # Descomenta si deseas eliminar filas con nulos

# Ejemplo: Rellenar valores nulos en columnas numéricas con la mediana
num_cols = df.select_dtypes(include=[np.number]).columns
df[num_cols] = df[num_cols].fillna(df[num_cols].median())

# Convertir variables categóricas a tipo 'category'
cat_cols = df.select_dtypes(include=['object']).columns
for col in cat_cols:
    df[col] = df[col].astype('category')

# Codificar variables categóricas
le = LabelEncoder()
for col in cat_cols:
    df[col] = le.fit_transform(df[col])

# Normalizar variables numéricas
scaler = StandardScaler()
df[num_cols] = scaler.fit_transform(df[num_cols])

# Análisis exploratorio de datos (EDA)

Realizamos análisis estadísticos y examinamos correlaciones entre variables para entender mejor el conjunto de datos.

In [None]:
# Correlación entre variables
corr_matrix = df.corr()
plt.figure(figsize=(12,8))
sns.heatmap(corr_matrix, annot=True, fmt=".2f", cmap='coolwarm')
plt.title('Matriz de correlación')
plt.show()

# Estadísticas de la variable objetivo (por ejemplo, 'Churn')
if 'Churn' in df.columns:
    print(df['Churn'].value_counts())
    print(df['Churn'].value_counts(normalize=True))

# Visualización de datos

Creamos gráficos de barras, histogramas y diagramas de dispersión para visualizar patrones y relaciones en los datos.

In [None]:
# Histograma de una variable numérica
df.hist(figsize=(12,10))
plt.tight_layout()
plt.show()

# Gráfico de barras para la variable objetivo
if 'Churn' in df.columns:
    sns.countplot(x='Churn', data=df)
    plt.title('Distribución de Churn')
    plt.show()

# Diagrama de dispersión entre dos variables
if 'tenure' in df.columns and 'MonthlyCharges' in df.columns:
    sns.scatterplot(x='tenure', y='MonthlyCharges', hue='Churn', data=df)
    plt.title('Tenure vs Monthly Charges')
    plt.show()

# Preparación de datos para modelado

Dividimos los datos en conjuntos de entrenamiento y prueba, y realizamos la codificación de variables si es necesario.

In [None]:
# Definir variables predictoras y objetivo
X = df.drop('Churn', axis=1)
y = df['Churn']

# Dividir en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

print(f'Tamaño de entrenamiento: {X_train.shape}')
print(f'Tamaño de prueba: {X_test.shape}')

# Entrenamiento de un modelo de clasificación

Entrenamos un modelo de clasificación, como un árbol de decisión o regresión logística, para predecir la variable objetivo.

In [None]:
# Entrenar un árbol de decisión
dt_model = DecisionTreeClassifier(random_state=42)
dt_model.fit(X_train, y_train)

# Entrenar una regresión logística
lr_model = LogisticRegression(max_iter=1000, random_state=42)
lr_model.fit(X_train, y_train)

# Evaluación del modelo

Evaluamos el desempeño de los modelos utilizando métricas como precisión, recall, F1-score y la matriz de confusión.

In [None]:
# Predicciones
y_pred_dt = dt_model.predict(X_test)
y_pred_lr = lr_model.predict(X_test)

# Evaluación árbol de decisión
print("Árbol de Decisión:")
print(classification_report(y_test, y_pred_dt))
print("Matriz de confusión:")
print(confusion_matrix(y_test, y_pred_dt))

# Evaluación regresión logística
print("\nRegresión Logística:")
print(classification_report(y_test, y_pred_lr))
print("Matriz de confusión:")
print(confusion_matrix(y_test, y_pred_lr))