## Entendimiento de los datos

Vamos a trabajar con el conjunto de datos Churn-Modeling descargado de ***Kaggle***. Este conjunto de datos contiene detalles de los clientes de un banco y la variable objetivo es una variable binaria que refleja el hecho de si el cliente dejó el banco (cerró su cuenta) o si continúa siendo un cliente.

Las características capturan información sociodemográfica del cliente, información de productos financieros, el comportamiento y balance de su cuenta. Las características son las siguientes:

* **CustomerId**: Id único para identificar el cliente.
* **Surname**: Apellido del cliente.
* **CreditScore**: Puntaje de crédito del cliente.
* **Geography**: País al que pertenece el cliente.
* **Gender**: Genero.
* **Age**: Edad.
* **Tenure**: Número de años que el cliente ha estado en el banco.
* **Balance**: Saldo bancario del cliente.
* **NumOfProducts**: Número de productos bancarios que utiliza el cliente.
* **HasCrCard**: Si el cliente tiene tarjeta de crédito con el banco.
* **IsActiveMember**: Si el cliente es miembro activo del banco o no.
* **EstimatedSalary**: Salario estimado en dólares.
* **Exited**: 1-Si el cliente cerró la cuenta con el banco; 0-Si el cliente es retenido.

## Carga de módulos

In [1]:
import pandas as pd
from sklearn.impute import SimpleImputer
from sklearn.pipeline import make_pipeline
from sklearn.tree import DecisionTreeClassifier
from mlxtend.evaluate import bias_variance_decomp
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split

In [None]:
churn = pd.read_csv("https://raw.githubusercontent.com/stivenlopezg/DS-ONLINE-76/main/data/churn-modeling.csv", sep=',')
churn.head()

In [None]:
churn.info()

In [None]:
churn['Exited'].value_counts(normalize=True)

In [None]:
exited = churn.pop('Exited')

train_data, test_data, train_label, test_label = train_test_split(churn, exited,
                                                                  test_size=0.3,
                                                                  stratify=exited, random_state=42)

print(f'El set de entrenamiento tiene {train_data.shape[0]} observaciones, y {train_data.shape[1]} variables.')
print(f'El set de prueba tiene {test_data.shape[0]} observaciones, y {test_data.shape[1]} variables.')

In [None]:
numerical_features = ['CreditScore', 'Age', 'Tenure',
                      'Balance', 'NumOfProducts', 'EstimatedSalary']

categorical_features = ['Gender', 'Geography', 'HasCrCard', 'IsActiveMember']

drop_features = ["CustomerId", "Surname"]

In [None]:
train_data.drop(labels=drop_features, axis=1, inplace=True)
test_data.drop(labels=drop_features, axis=1, inplace=True)

## Preprocesamiento

### Numericas

### Categoricas

Vamos a ajustar una regresión lineal, y a pasarla por la función de mlxtend **bias_variance_decomp**

In [None]:


avg_expected_loss, avg_bias, avg_var = bias_variance_decomp(estimator=#ingrese aca el algoritmo
                                                            X_train=# datos de entrenamiento
                                                            y_train=# label train
                                                            X_test=# datos de prueba
                                                            y_test=# label test
                                                            loss='0-1_loss'
                                                            random_seed=42)

print(f'El promedio de la perdida esperada es: {avg_expected_loss}')
print(f'El promedio del sesgo: {avg_bias}')
print(f'E promedio de la varianza: {avg_var}')
