# Caso Práctico con Regresión Logística

## Detección de transacciones bancarias fraudulentas con tarjetas de crédito

### Descripción del conjunto de datos:
El conjunto de datos contiene transacciones realizadas con tarjetas de crédito en septiembre de 2013 por titulares europeos. En este conjunto, se registran transacciones que tuvieron lugar en dos días, con 492 casos de fraude de un total de 284,807 transacciones, lo que genera un desbalance significativo, ya que la clase positiva (fraudes) representa solo el 0.172% de todas las transacciones. Las variables de entrada son exclusivamente numéricas, resultado de una transformación PCA. Por razones de confidencialidad, no se pueden proporcionar las características originales ni más información de fondo sobre los datos. Las características V1 a V28 son los componentes principales; las únicas características que no han sido transformadas con PCA son 'Time' y 'Amount'. La característica 'Time' representa los segundos transcurridos entre cada transacción y la primera en el conjunto de datos, mientras que 'Amount' es el monto de la transacción. La variable 'Class' es la variable a predecir, tomando el valor 1 en caso de fraude y 0 en caso contrario.

### Fuente del fichero de datos:
Los datos fueron extraídos de https://www.kaggle.com/datasets/mlg-ulb/creditcardfraud/download?datasetVersionNumber=3

## Librerías utilizadas

In [4]:
import pandas as pd
import seaborn as sns
import numpy as np
import matplotlib.gridspec as gridspec
import matplotlib.pyplot as plt
%matplotlib inline
#from collections import Counter
#from sklearn import metrics


## 1. Lectura del conjunto de datos

In [11]:
# Se utiliza la librería pandas para importar los datos en formato "csv"
df = pd.read_csv("dataset/creditcard.csv")

## 2. Comprensión del conjunto de datos

### 2.1. Vista preliminar

In [9]:
df.head(8)

Unnamed: 0,Time,V1,V2,V3,V4,V5,V6,V7,V8,V9,...,V21,V22,V23,V24,V25,V26,V27,V28,Amount,Class
0,0.0,-1.359807,-0.072781,2.536347,1.378155,-0.338321,0.462388,0.239599,0.098698,0.363787,...,-0.018307,0.277838,-0.110474,0.066928,0.128539,-0.189115,0.133558,-0.021053,149.62,0
1,0.0,1.191857,0.266151,0.16648,0.448154,0.060018,-0.082361,-0.078803,0.085102,-0.255425,...,-0.225775,-0.638672,0.101288,-0.339846,0.16717,0.125895,-0.008983,0.014724,2.69,0
2,1.0,-1.358354,-1.340163,1.773209,0.37978,-0.503198,1.800499,0.791461,0.247676,-1.514654,...,0.247998,0.771679,0.909412,-0.689281,-0.327642,-0.139097,-0.055353,-0.059752,378.66,0
3,1.0,-0.966272,-0.185226,1.792993,-0.863291,-0.010309,1.247203,0.237609,0.377436,-1.387024,...,-0.1083,0.005274,-0.190321,-1.175575,0.647376,-0.221929,0.062723,0.061458,123.5,0
4,2.0,-1.158233,0.877737,1.548718,0.403034,-0.407193,0.095921,0.592941,-0.270533,0.817739,...,-0.009431,0.798278,-0.137458,0.141267,-0.20601,0.502292,0.219422,0.215153,69.99,0
5,2.0,-0.425966,0.960523,1.141109,-0.168252,0.420987,-0.029728,0.476201,0.260314,-0.568671,...,-0.208254,-0.559825,-0.026398,-0.371427,-0.232794,0.105915,0.253844,0.08108,3.67,0
6,4.0,1.229658,0.141004,0.045371,1.202613,0.191881,0.272708,-0.005159,0.081213,0.46496,...,-0.167716,-0.27071,-0.154104,-0.780055,0.750137,-0.257237,0.034507,0.005168,4.99,0
7,7.0,-0.644269,1.417964,1.07438,-0.492199,0.948934,0.428118,1.120631,-3.807864,0.615375,...,1.943465,-1.015455,0.057504,-0.649709,-0.415267,-0.051634,-1.206921,-1.085339,40.8,0


### 2.2. Primeras nociones

##### Características y registros

In [33]:
print("Número de variables predictoras:", len(df.columns))
print("Cantidad de registros:", len(df))

Número de variables predictoras: 31
Cantidad de registros: 284807


##### Casos positivos de fraude

In [35]:
print("Cantidad de registros de fraude positivo:", df['Class'].value_counts().get(1))
print("Tasa de fraude:", df["Class"].mean())

Cantidad de registros de fraude positivo: 492
Tasa de fraude: 0.001727485630620034
