# Modelo de rotación de clientes en lenguaje R 

A continuación, te proporcionaré el proceso detallado para construir un modelo de machine learning de clasificación binaria para predecir la rotación de clientes (churn) utilizando el dataset **Telco Customer Churn** en un cuaderno Jupyter con kernel de R. El proceso incluye la carga de datos, preprocesamiento, exploración, modelado, evaluación y visualización.

---



### **Proceso en un Cuaderno Jupyter con Kernel de R**

#### **1. Configuración del Entorno**
Primero, asegúrate de tener instalado el kernel de R en Jupyter. Si no lo tienes, instálalo con los siguientes comandos en tu terminal:


In [None]:
```bash
install.packages("IRkernel")
IRkernel::installspec()
```


"install.packages" no se reconoce como un comando interno o externo,
programa o archivo por lotes ejecutable.
El nombre de archivo, el nombre de directorio o la sintaxis de la etiqueta del volumen no son correctos.



Luego, abre un nuevo cuaderno Jupyter y selecciona el kernel de R.

---

#### **2. Carga de Librerías**
Carga las librerías necesarias para el análisis de datos, visualización y modelado.
```R
# Carga de librerías
library(tidyverse)    # Manipulación y visualización de datos
library(caret)        # Machine learning
library(randomForest) # Algoritmo de Random Forest
library(ggplot2)      # Visualización avanzada
library(ROCR)         # Evaluación de modelos
library(e1071)        # Funciones adicionales para caret
```

---

#### **3. Carga del Dataset**
Descarga el dataset desde Kaggle y cárgalo en el entorno de R.
```R
# Carga del dataset
data <- read.csv("path_to_your_dataset/Telco-Customer-Churn.csv")

# Visualización de las primeras filas
head(data)
```

---

#### **4. Exploración y Preprocesamiento de Datos**
Realiza un análisis exploratorio y preprocesa los datos para el modelado.

```R
# Verificar valores faltantes
sum(is.na(data))

# Resumen estadístico
summary(data)

# Convertir variables categóricas a factores
data$Churn <- as.factor(data$Churn)
data$gender <- as.factor(data$gender)
data$Partner <- as.factor(data$Partner)
data$Dependents <- as.factor(data$Dependents)
# Repetir para otras variables categóricas

# Eliminar columnas no relevantes (e.g., customerID)
data <- data %>% select(-customerID)

# Convertir la variable objetivo a binaria (0 y 1)
data$Churn <- ifelse(data$Churn == "Yes", 1, 0)
```

---

#### **5. División del Dataset**
Divide el dataset en conjuntos de entrenamiento y prueba.
```R
# Semilla para reproducibilidad
set.seed(123)

# División del dataset
trainIndex <- createDataPartition(data$Churn, p = 0.8, list = FALSE)
train_data <- data[trainIndex, ]
test_data <- data[-trainIndex, ]
```

---

#### **6. Entrenamiento del Modelo**
Entrena un modelo de Random Forest para clasificación binaria.
```R
# Configuración del entrenamiento
ctrl <- trainControl(method = "cv", number = 5, classProbs = TRUE, summaryFunction = twoClassSummary)

# Entrenamiento del modelo
model <- train(Churn ~ ., data = train_data, method = "rf", trControl = ctrl, metric = "ROC")
```

---

#### **7. Evaluación del Modelo**
Evalúa el modelo utilizando el conjunto de prueba.
```R
# Predicciones
predictions <- predict(model, newdata = test_data, type = "prob")

# Matriz de confusión
confusionMatrix(predictions, test_data$Churn)

# Curva ROC
pred <- prediction(predictions[, 2], test_data$Churn)
perf <- performance(pred, "tpr", "fpr")
plot(perf, colorize = TRUE)
```

---

#### **8. Visualización de Resultados**
Visualiza los resultados del modelo.
```R
# Importancia de las variables
varImp(model)

# Gráfico de importancia
ggplot(varImp(model)) + 
  theme_minimal() + 
  ggtitle("Importancia de las Variables")
```

---

#### **9. Guardado del Modelo**
Guarda el modelo entrenado para su uso futuro.
```R
saveRDS(model, "telco_churn_model.rds")
```

---

### **Código Completo en un Cuaderno Jupyter**
Aquí tienes el código completo para copiar y pegar en un cuaderno Jupyter con kernel de R:

```R
# Carga de librerías
library(tidyverse)
library(caret)
library(randomForest)
library(ggplot2)
library(ROCR)
library(e1071)

# Carga del dataset
data <- read.csv("path_to_your_dataset/Telco-Customer-Churn.csv")

# Exploración y preprocesamiento
sum(is.na(data))
summary(data)
data$Churn <- as.factor(data$Churn)
data$gender <- as.factor(data$gender)
data$Partner <- as.factor(data$Partner)
data$Dependents <- as.factor(data$Dependents)
data <- data %>% select(-customerID)
data$Churn <- ifelse(data$Churn == "Yes", 1, 0)

# División del dataset
set.seed(123)
trainIndex <- createDataPartition(data$Churn, p = 0.8, list = FALSE)
train_data <- data[trainIndex, ]
test_data <- data[-trainIndex, ]

# Entrenamiento del modelo
ctrl <- trainControl(method = "cv", number = 5, classProbs = TRUE, summaryFunction = twoClassSummary)
model <- train(Churn ~ ., data = train_data, method = "rf", trControl = ctrl, metric = "ROC")

# Evaluación del modelo
predictions <- predict(model, newdata = test_data, type = "prob")
confusionMatrix(predictions, test_data$Churn)
pred <- prediction(predictions[, 2], test_data$Churn)
perf <- performance(pred, "tpr", "fpr")
plot(perf, colorize = TRUE)

# Visualización de resultados
varImp(model)
ggplot(varImp(model)) + 
  theme_minimal() + 
  ggtitle("Importancia de las Variables")

# Guardado del modelo
saveRDS(model, "telco_churn_model.rds")
```

---

### **Notas Finales**
- Asegúrate de tener el dataset en la ruta correcta.
- Puedes ajustar los hiperparámetros del modelo para mejorar su rendimiento.
- Este proceso es reproducible y puede adaptarse a otros problemas de clasificación binaria.