#**PROBLEMA DE NEGOCIO**


---




##Una empresa de telecomunicaciones desea mejorar la retención de sus clientes, identificando aquellos que tienen más chances de abandonar el servicio (Churn). Como científico de datos, tu objetivo será limpiar y preparar un conjunto de datos para el entrenamiento de un modelo de Churn. A continuación, se presentan las preguntas clave que guiarán el proceso de limpieza de datos:

### **Preguntas**

1. ¿Qué insights podemos obtener del análisis exploratorio inicial del conjunto de datos?

2. ¿Qué transformaciones básicas son necesarias para preparar los datos?

3. ¿Cómo podemos identificar y tratar los datos duplicados y los valores nulos?

4. ¿Cómo manejamos los outliers presentes en el dataset?

5. ¿Qué técnicas aplicamos para procesar las variables categóricas?

#**1. Configuración del Ambiente**


---




In [None]:
import numpy as np
import pandas as pd
pd.set_option('display.max_columns', None)
import seaborn as sns
import matplotlib.pyplot as plt
import json
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2
from sklearn.feature_selection import RFECV
from sklearn.feature_selection import RFE
from sklearn.decomposition import PCA
from sklearn.model_selection import cross_val_score
global datos_churn

#**2. Obtención y Tratamiento de Datos**


---




##**2.1 Cargando las bases de datos**

In [None]:
datos_churn = pd.read_json("base_clientes.json")
datos_churn.head()

In [None]:
datos_churn.info()

In [None]:
def lectura_datos():
  global datos_churn
  #Tu código aquí

In [None]:
lectura_datos()
datos_churn.head()

##**2.2 Tratamiento de datos**

In [None]:
with open('/content/Diccionario.txt', 'r', encoding='utf-8') as file:
    contenido = file.read()
print(contenido)

In [None]:
datos_churn.info()

In [None]:
def preprocesamiento():
  global datos_churn
  #Tu código aquí

In [None]:
preprocesamiento()
datos_churn.info()

##**2.3 Normalizacion de datos**

In [None]:
for col in datos_churn.columns:
    print(f"Columna: {col}")
    print(datos_churn[col].unique())
    print("-" * 30)

In [None]:
def normalizacion():
  global datos_churn
  #Tu código aquí

In [None]:
normalizacion()
datos_churn.head()

In [None]:
datos_churn.info()

#**3. Modelo Random Forest**


---


In [None]:
y = datos_churn['Churn']
x = datos_churn.drop(columns='Churn')
train_x, test_x, train_y, test_y = train_test_split(x, y, test_size=0.3, random_state = 50)

In [None]:
def pronosticar(train_x, train_y):
  model = RandomForestClassifier(random_state=50)
  model.fit(train_x, train_y)
  return model

In [None]:
model = pronosticar(train_x, train_y)
model.score(test_x, test_y)

#**4. Reducción de Dimensionalidad**


---


##**4.1 Métodos Gráficos**

In [None]:
def diagrama_violin(df, inicio, fin):
    #Tu código aquí

def diagrama_puntos(df, inicio, fin):
    #Tu código aquí

def mapa_calor(df):
    #Tu código aquí

In [None]:
diagrama_violin(datos_churn, 1, 30)

In [None]:
diagrama_puntos(datos_churn, 1, 30)

In [None]:
datos_churn.groupby('Churn')["telefono.varias_lineas_sin servicio de telefono"].value_counts(normalize=True)

In [None]:
train_x = train_x.drop(columns=["telefono.varias_lineas_sin servicio de telefono"])
test_x = test_x.drop(columns=["telefono.varias_lineas_sin servicio de telefono"])
model = pronosticar(train_x, train_y)
model.score(test_x, test_y)

##**4.2 Mapa de Calor**

In [None]:
matriz = mapa_calor(datos_churn)

In [None]:
matriz2 = matriz>0.99
matriz2 = matriz2.sum()
matriz2[matriz2>1]

In [None]:
def identificar_variables(base):
  #Tu código aquí

In [None]:
identificar_variables(matriz2[matriz2>1])

In [None]:
train_x = train_x.drop(columns=['internet.seguridad_online_sin servicio de internet', 'internet.peliculas_streaming_sin servicio de internet', 'internet.backup_online_sin servicio de internet', 'internet.tv_streaming_sin servicio de internet', 'internet.soporte_tecnico_sin servicio de internet', 'internet.proteccion_dispositivo_sin servicio de internet','cuenta.contrato_un año'])
test_x = test_x.drop(columns=['internet.seguridad_online_sin servicio de internet', 'internet.peliculas_streaming_sin servicio de internet', 'internet.backup_online_sin servicio de internet', 'internet.tv_streaming_sin servicio de internet', 'internet.soporte_tecnico_sin servicio de internet', 'internet.proteccion_dispositivo_sin servicio de internet','cuenta.contrato_un año'])
model = pronosticar(train_x, train_y)
model.score(test_x, test_y)

##**4.3 Feature Importances**

In [None]:
def pronosticar_kbest(train_x, test_x, train_y, test_y):
  #Tu código aquí

In [None]:
pronosticar_kbest(train_x, test_x, train_y, test_y)

In [None]:
def pronosticar_RFE(train_x, test_x, train_y, test_y):
    #Tu código aquí

In [None]:
pronosticar_RFE(train_x, test_x, train_y, test_y)

In [None]:
def pronosticar_RFECV(train_x, test_x, train_y, test_y):
    #Tu código aquí

In [None]:
pronosticar_RFECV(train_x, test_x, train_y, test_y)

In [None]:
def pronosticar_PCA(train_x, test_x, train_y, test_y):
    #Tu código aquí

In [None]:
pronosticar_PCA(train_x, test_x, train_y, test_y)