---
title: "Proyecto deteccion de fraude en tarjeta de credito"
author: "Leandro Soto Miranda"
date: "2024-10-24"
format: 
  html: 
    toc: true 
    code-fold: true
---

## 1. Definir problema

- En este proyecto, analizaremos un conjunto de datos relacionaciodnado con la productividad

## 2. Recopilación de datos

In [None]:
# Importación de librerías
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression, Ridge, Lasso
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
from sklearn.ensemble import StackingRegressor
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import OneHotEncoder
import warnings
warnings.filterwarnings('ignore', category=FutureWarning)


# Carga de datos
df = pd.read_csv('data.csv', sep=",")

# Resumen estadístico
# Mostrar las primeras filas del dataset
print("Primeras filas del dataset:")
print(df.head())

# Mostrar información general del dataset
print("\nInformación del dataset:")
print(df.info())

# Descripción estadística básica del dataset
print("\nDescripción estadística:")
print(df.describe())

info = df.shape
print("\nLa cantidad de filas y columnas en nuestro dataframe es de:",info)

tipos = df.dtypes
print("\nTipos de datos presentes en el dataset:\n",tipos)

## 3. Análisis de datos por Variable
## Análisis de datos cuantitativos

In [None]:
# Función para el análisis univariado de variables cuantitativas
def analizar_variable_cuantitativa(df, columna):
    mean = np.mean(df[columna])
    median = np.median(df[columna])
    std = np.std(df[columna])
    min_value = np.min(df[columna])
    max_value = np.max(df[columna])

    print(f"Análisis de la Variable '{columna}'")
    print(f"Media: {mean:.2f}")
    print(f"Mediana: {median:.2f}")
    print(f"Desviación Estándar: {std:.2f}")
    print(f"Valor Mínimo: {min_value:.2f}")
    print(f"Valor Máximo: {max_value:.2f}")
    print("\n")

    # Visualización de la distribución (Histograma con KDE)
    plt.figure(figsize=(10, 6))
    sns.histplot(df[columna], bins=30, kde=True, color='#4C72B0')
    plt.title(f'Distribución de {columna}')
    plt.xlabel(columna)
    plt.ylabel('Frecuencia')
    plt.show()

# Aplicar la función a todas las columnas numéricas del dataframe
columnas_cuantitativas = df.select_dtypes(include=['int64', 'float64']).columns
for columna in columnas_cuantitativas:
    analizar_variable_cuantitativa(df, columna)

## Análisis de datos cualitativos

In [None]:
# Función para el análisis univariado de variables categóricas
def analizar_variable_categorica(df, columna):
    values_counts = df[columna].value_counts()
    moda = values_counts.idxmax()

    print(f"Análisis Univariado de la Variable '{columna}'")
    print(f"Frecuencia de las categorías:\n{values_counts}")
    print(f"Moda (Categoría más frecuente): {moda}")
    print("\n")

    # Visualización de la distribución
    plt.figure(figsize=(10, 6))
    sns.countplot(
        x=columna, 
        data=df[df[columna].isin(values_counts.index)], 
        order=values_counts.index, 
        palette='Set2'
    )
    plt.title(f'Distribución de {columna}')
    plt.xlabel(columna)
    plt.ylabel('Frecuencia')
    plt.xticks(rotation=45)
    plt.show()

# Columnas categóricas a excluir
columnas_a_excluir = ['TransactionDate']

columnas_categoricas = [col for col in df.select_dtypes(include=['object']).columns if col not in columnas_a_excluir]

for columna in columnas_categoricas:
    analizar_variable_categorica(df, columna)


## Verificar si hay patrones o relaciones presentes entre variables

## Verificar si hay valores nulos en el dataset
### Corrección de valores nulos presentes en el dataset

In [None]:
print("\nValores nulos por columna:")
print(df.isnull().sum())

# Procesamiento de datos
# Verificar si hay valores atípicos

In [None]:
def generar_boxplot(df, columna):
    plt.figure(figsize=(10, 6))
    sns.boxplot(data=df, x=columna, palette='Set2')
    plt.title(f'Boxplot de {columna}')
    plt.xlabel(columna)
    plt.show()

# Aplicar la función a todas las columnas numéricas del dataframe
columnas_numericas = df.select_dtypes(include=['int64', 'float64']).columns
for columna in columnas_numericas:
    generar_boxplot(df, columna)

- Para el tratamiento de datos atípicos lo que vamos a realizar es la imputación de ellos mediante el método intercuartílico, pero también vamos a generar un dataset sin realizar ningún tratamiento de los datos outlayers presentes en el dataset para realizar pruebas posteriormente en la aplicación de modelos de machine learning para ver cuanta diferencia hay entre ambos casos.

In [None]:
df_clean = df.copy()

variable_objetivo = 'IsFraud'
df_sin_objetivo = df_clean.drop(columns=[variable_objetivo])

for col in df_sin_objetivo.select_dtypes(include=['int64', 'float64']).columns:
    # Calcula Q1 y Q3
    Q1 = df_sin_objetivo[col].quantile(0.25)
    Q3 = df_sin_objetivo[col].quantile(0.75)
    IQR = Q3 - Q1
    
    # Define los límites inferior y superior
    lower_limit = Q1 - 1.5 * IQR
    upper_limit = Q3 + 1.5 * IQR

    # Imputa los valores atípicos por los límites correspondientes
    df_sin_objetivo[col] = np.where(df_sin_objetivo[col] < lower_limit, lower_limit, df_sin_objetivo[col])
    df_sin_objetivo[col] = np.where(df_sin_objetivo[col] > upper_limit, upper_limit, df_sin_objetivo[col])

# Reinserta la variable objetivo en el DataFrame limpio
df_clean = pd.concat([df_sin_objetivo, df_clean[[variable_objetivo]]], axis=1)

# Verificamos algunos valores antes y después de la limpieza
print("Datos antes de la limpieza:")
print(df.describe())
print("\nDatos después de la limpieza:")
print(df_clean.describe())

- Lo que realizamos aqui es explir nuestra varialbe objetivo la cual es IsFraud ya que uno de los princip[ales problemas es que al tenere pocos datos para uno de los valores lo clasificaba como outlayer y a la hora de apklciarldo estos datos se eliminaban, si bien son pocos datos lo que se iban eliminando siguen siendo importantes para la posterior balanceo de datos]

## Preparación de datos
### Vamos a realizar el tratamiento de datos pasos a realizar
### Convertir datos categóricos a numéricos para esto vamos a aplicar one hot encoder y label conder dependiendo a tipo de dato
### Además de convertir los datos categóricos en general para aplicar estos datos en modelos de machine learning, además de verificar el balanceo de datos y aplicación de técnicas para corregir variables con outlayers

In [None]:
for column in df.columns:
    unique_values = df[column].unique()
    print(f"Valores únicos en la columna '{column}':")
    print(unique_values)
    print("\n------------------------------------\n")

## LabelEncoder

### Variables Ninguna

## OneHotEncoder

### Variables: Location, TransactionType

In [None]:
# Aplicar One-Hot Encoding
df = pd.get_dummies(df, columns=['Location'])
df = pd.get_dummies(df, columns=['TransactionType'])
# datos sin outlayers
df_clean = pd.get_dummies(df_clean, columns=['Location'])
df_clean = pd.get_dummies(df_clean, columns=['TransactionType'])

In [None]:
for column in df.columns:
    unique_values = df[column].unique()
    print(f"Valores únicos en la columna '{column}':")
    print(unique_values)
    print("\n------------------------------------\n")

### Verificacion sobre el balance de los datos de la variable IsFraud, para posterior tratamiento
- Con esto tenemos un problema, nuestra variable objetivo esta demasiado desbalanceada, po lo que tendremos que aplicar balanceo de datos ya bien sea con oversample (SMOTE) a la variable minoritaria o undersample a nuestra variable mayoritaria

In [None]:
variable = 'IsFraud'
balance = df[variable].value_counts(normalize=True) * 100

print(f"Distribución de '{variable}':")
print(balance)

# Visualizar distribución con un gráfico de barras
plt.figure(figsize=(8, 5))
sns.countplot(data=df, x=variable, order=balance.index, palette="viridis")
plt.title(f"Distribución de la variable '{variable}'")
plt.xlabel(variable)
plt.ylabel("Frecuencia")
plt.xticks(rotation=45)
plt.show()

### SMOTE (Synthetic Minority Over-sampling Technique)

In [None]:
from imblearn.over_sampling import SMOTE
from sklearn.model_selection import train_test_split

# Dividir en variables predictoras y objetivo
X = df.drop(columns=['IsFraud','TransactionDate','TransactionType','Location'])
y = df['IsFraud']

# Aplicar SMOTE
smote = SMOTE(random_state=42)
X_smote, y_smote = smote.fit_resample(X, y)

# Crear el nuevo dataset balanceado con SMOTE
df_smote = X_smote.copy()
df_smote['IsFraud'] = y_smote

print("Distribución después de SMOTE:\n", df_smote['IsFraud'].value_counts(normalize=True))


In [None]:
df_smote

### Ponderación de Clases

In [None]:
from sklearn.linear_model import LogisticRegression

# Modelo de Regresión Logística con ponderación de clases
model_weighted = LogisticRegression(class_weight='balanced', random_state=42)

# Dividir los datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Entrenar el modelo
model_weighted.fit(X_train, y_train)

# Evaluación
accuracy = model_weighted.score(X_test, y_test)
print(f"Accuracy con ponderación de clases: {accuracy}")

### SMOTE + Submuestreo de la Clase Mayoritaria

In [None]:
from imblearn.under_sampling import RandomUnderSampler
from imblearn.pipeline import Pipeline

# Crear el pipeline de SMOTE y submuestreo aleatorio
smote = SMOTE(random_state=42)
undersample = RandomUnderSampler(random_state=42)
pipeline = Pipeline(steps=[('smote', smote), ('undersample', undersample)])

# Aplicar el pipeline
X_smote_undersample, y_smote_undersample = pipeline.fit_resample(X, y)

# Crear el nuevo dataset balanceado con SMOTE + Submuestreo
df_smote_undersample = X_smote_undersample.copy()
df_smote_undersample['IsFraud'] = y_smote_undersample

print("Distribución después de SMOTE + Submuestreo:\n", df_smote_undersample['IsFraud'].value_counts(normalize=True))

In [None]:
df_smote_undersample

In [None]:
# Calcular la matriz de correlación
corr_matrix = df.corr()

# Generar el mapa de calor
plt.figure(figsize=(10, 8))
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm', vmin=-1, vmax=1)
plt.title('Mapa de calor de la correlación entre variables')
plt.show()

In [None]:
# Calcular la matriz de correlación
correlation_matrix = df.corr()

# Filtrar solo las correlaciones con la variable objetivo
target_corr = correlation_matrix['Productivity_Score'].sort_values(ascending=False)
print("Correlación de cada variable con 'Productivity_Score':\n", target_corr)

# Aplicación de modelos de machine learning

## Predicción con datos atípicos

In [None]:
# Separar las características (X) y la variable objetivo (y)
X = df.drop(columns=['Productivity_Score','Employee_ID' ])  # Todas las columnas excepto la variable objetivo
y = df['Productivity_Score']  # La variable objetivo

# Dividir el conjunto de datos en conjunto de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

# Lista de modelos de regresión para evaluar
models = {
    "Regresión Lineal": LinearRegression(),
    "Regresión Ridge": Ridge(alpha=1.0),
    "Regresión Lasso": Lasso(alpha=0.1),
    "Árbol de Decisión": DecisionTreeRegressor(random_state=42,),
    "Random Forest": RandomForestRegressor(n_estimators=100, random_state=42)
}
results = []

# Entrenar y evaluar cada modelo
for model_name, model in models.items():
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    
    mae = mean_absolute_error(y_test, y_pred)
    rmse = np.sqrt(mean_squared_error(y_test, y_pred))
    r2 = r2_score(y_test, y_pred)
    
    # Almacenar los resultados
    results.append({
        "Modelo": model_name,
        "MAE": mae,
        "RMSE": rmse,
        "R^2": r2
    })

# Convertir los resultados en un DataFrame
results_df = pd.DataFrame(results)

# Mostrar los resultados ordenados por R^2
print(results_df.sort_values(by="R^2", ascending=False))

In [None]:
# Variables utilizadas
print("Variables utilizadas en el modelo:")
print(X.columns)

In [None]:
# Separar las variables independientes y la variable objetivo
X = df.drop(columns=['Productivity_Score','Employee_ID'])
y = df['Productivity_Score']

# Dividir el conjunto de datos
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

# Definir los modelos base
base_models = [
    ('linear', LinearRegression()),
    ('random_forest', RandomForestRegressor(n_estimators=100, random_state=42))
]

# Definir el modelo meta
meta_model = LinearRegression()

# Crear el Stacking Regressor
stacking_model = StackingRegressor(estimators=base_models, final_estimator=meta_model)

# Entrenar el modelo
stacking_model.fit(X_train, y_train)

# Hacer predicciones
y_pred = stacking_model.predict(X_test)

# Evaluar el modelo
mae = mean_absolute_error(y_test, y_pred)
rmse = np.sqrt(mean_squared_error(y_test, y_pred))
r2 = r2_score(y_test, y_pred)

# Mostrar resultados
print("Resultados del Stacking Regressor")
print(f"MAE: {mae:.4f}")
print(f"RMSE: {rmse:.4f}")
print(f"R^2: {r2:.4f}")

## Predicción sin datos atípicos

In [None]:
# Separar las características (X) y la variable objetivo (y)
X = df_clean.drop(columns=['Productivity_Score','Employee_ID'])  # Todas las columnas excepto la variable objetivo
y = df_clean['Productivity_Score']  # La variable objetivo

# Dividir el conjunto de datos en conjunto de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

# Lista de modelos de regresión para evaluar
models = {
    "Regresión Lineal": LinearRegression(),
    "Regresión Ridge": Ridge(alpha=1.0),
    "Regresión Lasso": Lasso(alpha=0.1),
    "Árbol de Decisión": DecisionTreeRegressor(random_state=42,),
    "Random Forest": RandomForestRegressor(n_estimators=100, random_state=42)
}
results = []

# Entrenar y evaluar cada modelo
for model_name, model in models.items():
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    
    mae = mean_absolute_error(y_test, y_pred)
    rmse = np.sqrt(mean_squared_error(y_test, y_pred))
    r2 = r2_score(y_test, y_pred)
    
    # Almacenar los resultados
    results.append({
        "Modelo": model_name,
        "MAE": mae,
        "RMSE": rmse,
        "R^2": r2
    })

# Convertir los resultados en un DataFrame
results_df = pd.DataFrame(results)

# Mostrar los resultados ordenados por R^2
print(results_df.sort_values(by="R^2", ascending=False))

In [None]:
# Variables utilizadas
print("Variables utilizadas en el modelo:")
print(X.columns)

In [None]:
# Separar las variables independientes y la variable objetivo
X = df_clean.drop(columns=['Productivity_Score','Employee_ID'])
y = df_clean['Productivity_Score']

# Dividir el conjunto de datos
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

# Definir los modelos base
base_models = [
    ('linear', LinearRegression()),
    ('random_forest', RandomForestRegressor(n_estimators=100, random_state=42))
]

# Definir el modelo meta
meta_model = LinearRegression()

# Crear el Stacking Regressor
stacking_model = StackingRegressor(estimators=base_models, final_estimator=meta_model)

# Entrenar el modelo
stacking_model.fit(X_train, y_train)

# Hacer predicciones
y_pred = stacking_model.predict(X_test)

# Evaluar el modelo
mae = mean_absolute_error(y_test, y_pred)
rmse = np.sqrt(mean_squared_error(y_test, y_pred))
r2 = r2_score(y_test, y_pred)

# Mostrar resultados
print("Resultados del Stacking Regressor")
print(f"MAE: {mae:.4f}")
print(f"RMSE: {rmse:.4f}")
print(f"R^2: {r2:.4f}")

model.predict(X)