### Regresión Logística - Pair programming ###

## 1. EDA ##

In [33]:
# Tratamiento de datos
# -----------------------------------------------------------------------
import numpy as np
import pandas as pd


# Gráficos
# ------------------------------------------------------------------------------
import matplotlib.pyplot as plt
import seaborn as sns


# Estandarización variables numéricas y Codificación variables categóricas
# -----------------------------------------------------------------------------
from sklearn.preprocessing import RobustScaler

# Gestión datos desbalanceados
# ------------------------------------------------------------------------------
from imblearn.under_sampling import RandomUnderSampler
from imblearn.over_sampling import RandomOverSampler
from imblearn.combine import SMOTETomek

# Para separar los datos en train y test
# ------------------------------------------------------------------------------
from sklearn.model_selection import train_test_split

#  Gestión de warnings
# ------------------------------------------------------------------------------
import warnings
warnings.filterwarnings("ignore")

Para los ejercicios de pair programming de Regresión logística tendremos que buscar un dataset (al igual que hicismos en regresión lineal) que usaremos a lo largo de los siguientes ejercicios.

Se ruega a la hora de realizar la entrega que incluyais el conjunto de datos que hayais decidido emplear para estos ejercicios.

Objetivos

Buscar un conjunto de datos a analizar

Se recomienda que el conjunto de datos a analizar tenga variables numéricas y categóricas, primando que haya más de una variable de tipo numérico.

Explicar los datos y las variables disponibles en el conjunto de datos seleccionado

Realizar un EDA sencillo poniendo en práctica los conocimientos adquiridos hasta el momento.

Interpretación de los resultados.

In [2]:
df = pd.read_csv("data/card_transdata.csv")
df.head()

Unnamed: 0,distance_from_home,distance_from_last_transaction,ratio_to_median_purchase_price,repeat_retailer,used_chip,used_pin_number,online_order,fraud
0,57.877857,0.31114,1.94594,1.0,1.0,0.0,0.0,0.0
1,10.829943,0.175592,1.294219,1.0,0.0,0.0,0.0,0.0
2,5.091079,0.805153,0.427715,1.0,0.0,0.0,1.0,0.0
3,2.247564,5.600044,0.362663,1.0,1.0,0.0,1.0,0.0
4,44.190936,0.566486,2.222767,1.0,1.0,0.0,1.0,0.0


En este modelo NO cambiamos las columnas a categóricas.

In [14]:
# columnas_cat = ["used_chip", "repeat_retailer", "online_order", "used_pin_number", "fraud"]
# for columna in columnas_cat:
#     df[columna] = df[columna].astype("category")

In [35]:
numericas = df.select_dtypes(include = np.number)
numericas.drop(["repeat_retailer","used_chip", "online_order", "used_pin_number", "fraud" ], axis = 1, inplace = True)

In [36]:
numericas.head()

Unnamed: 0,distance_from_home,distance_from_last_transaction,ratio_to_median_purchase_price
0,57.877857,0.31114,1.94594
1,10.829943,0.175592,1.294219
2,5.091079,0.805153,0.427715
3,2.247564,5.600044,0.362663
4,44.190936,0.566486,2.222767


In [37]:
# construir el modelo de escalador
robust = RobustScaler()

In [38]:
# ajustamos el modelo utilizando nuestro set de datos
robust.fit(numericas)

In [39]:
# transformamos los datos
X_robust = robust.transform(numericas)

In [40]:
numericas_robust = pd.DataFrame(X_robust, columns = numericas.columns)
numericas_robust.head(2)

Unnamed: 0,distance_from_home,distance_from_last_transaction,ratio_to_median_purchase_price
0,2.19108,-0.224744,0.585071
1,0.03943,-0.269055,0.182947


In [41]:
df[numericas_robust.columns] = numericas_robust
df.head()

Unnamed: 0,distance_from_home,distance_from_last_transaction,ratio_to_median_purchase_price,repeat_retailer,used_chip,used_pin_number,online_order,fraud
0,2.19108,-0.224744,0.585071,1.0,1.0,0.0,0.0,0.0
1,0.03943,-0.269055,0.182947,1.0,0.0,0.0,0.0,0.0
2,-0.223026,-0.063254,-0.351702,1.0,0.0,0.0,1.0,0.0
3,-0.353069,1.504177,-0.39184,1.0,1.0,0.0,1.0,0.0
4,1.565134,-0.141273,0.755879,1.0,1.0,0.0,1.0,0.0


In [42]:
df.to_pickle("data/df_robust.pkl")

In [43]:
# para aplicar este método lo primero que tenemos que hacer es separar en X e y y en train y test como aprendimos en la lecciones de regresion lineal
y = df['fraud']
X = df.drop('fraud', axis=1)




In [44]:
# iniciamos el método
os_us = SMOTETomek()

# ajustamos el modelo
X_train_res, y_train_res = os_us.fit_resample(X, y)

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, train_size=0.7)

In [None]:
X_train_res.isnull().sum()