# Exploración y Análisis de Datos (EDA)

[![Banner.png](https://i.postimg.cc/C1t2SCwf/Banner.png)](https://postimg.cc/FdypxLd9)

## Introducción

Este notebook se centra en el análisis exploratorio de datos (EDA) para comprender mejor las características de las transacciones financieras y detectar patrones relacionados con el fraude. Las tareas principales incluyen:

**Exploración descriptiva:** Examinar las características de los datos, como la distribución de variables, relaciones entre variables y valores atípicos.

**Visualización de datos:** Crear gráficos y tablas para visualizar la distribución de los datos, identificar patrones y tendencias, y destacar posibles indicadores de fraude.

**Análisis de correlación:** Evaluaremos la relación entre variables para comprender cómo se asocian los diferentes factores con el fraude.

**Identificación de características relevantes:** Seleccionar las variables más importantes para el análisis posterior, como el monto de la transacción, el método de pago y la ubicación del cliente.
Objetivos:

Obtener una comprensión profunda de las características de las transacciones financieras.
Identificar patrones y tendencias que puedan indicar actividades fraudulentas.
Seleccionar las variables más relevantes para la construcción de modelos de predicción de fraude.


In [1]:
# Reviso dependencias
%pip list

Package             Version
------------------- ------------
affine              2.4.0
annotated-types     0.6.0
anyio               3.7.1
asttokens           2.4.1
attrs               23.2.0
beautifulsoup4      4.12.3
branca              0.7.1
bs4                 0.0.2
certifi             2024.2.2
cffi                1.16.0
charset-normalizer  3.3.2
click               8.1.7
click-plugins       1.1.1
cligj               0.7.2
cmdstanpy           1.2.4
colorama            0.4.6
comm                0.2.0
contextily          1.5.0
contourpy           1.2.0
cssselect           1.2.0
cycler              0.12.1
debugpy             1.8.0
decorator           5.1.1
dogpile.cache       1.3.1
et-xmlfile          1.1.0
executing           2.0.1
fastapi             0.105.0
fiona               1.9.5
folium              0.15.1
fonttools           4.47.0
geographiclib       2.0
geojson             3.1.0
geopandas           0.14.3
geopy               2.4.1
greenlet            3.0.3
h11                


[notice] A new release of pip is available: 24.0 -> 24.1.2
[notice] To update, run: python.exe -m pip install --upgrade pip


In [2]:
# Instalo bibliotecas
%pip install prophet
%pip install --upgrade jupyter ipywidgets
%pip install plotly

Defaulting to user installation because normal site-packages is not writeable
Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 24.0 -> 24.1.2
[notice] To update, run: python.exe -m pip install --upgrade pip


Defaulting to user installation because normal site-packages is not writeable
Collecting jupyter
  Downloading jupyter-1.0.0-py2.py3-none-any.whl.metadata (995 bytes)
Collecting ipywidgets
  Downloading ipywidgets-8.1.3-py3-none-any.whl.metadata (2.4 kB)
Collecting notebook (from jupyter)
  Downloading notebook-7.2.1-py3-none-any.whl.metadata (10 kB)
Collecting qtconsole (from jupyter)
  Downloading qtconsole-5.5.2-py3-none-any.whl.metadata (5.1 kB)
Collecting jupyter-console (from jupyter)
  Downloading jupyter_console-6.6.3-py3-none-any.whl.metadata (5.8 kB)
Collecting nbconvert (from jupyter)
  Downloading nbconvert-7.16.4-py3-none-any.whl.metadata (8.5 kB)
Collecting widgetsnbextension~=4.0.11 (from ipywidgets)
  Downloading widgetsnbextension-4.0.11-py3-none-any.whl.metadata (1.6 kB)
Collecting jupyterlab-widgets~=3.0.11 (from ipywidgets)
  Downloading jupyterlab_widgets-3.0.11-py3-none-any.whl.metadata (4.1 kB)
Collecting bleach!=5.0.0 (from nbconvert->jupyter)
  Downloading blea


[notice] A new release of pip is available: 24.0 -> 24.1.2
[notice] To update, run: python.exe -m pip install --upgrade pip


Defaulting to user installation because normal site-packages is not writeable
Collecting plotly
  Downloading plotly-5.23.0-py3-none-any.whl.metadata (7.3 kB)
Collecting tenacity>=6.2.0 (from plotly)
  Downloading tenacity-8.5.0-py3-none-any.whl.metadata (1.2 kB)
Downloading plotly-5.23.0-py3-none-any.whl (17.3 MB)
   ---------------------------------------- 0.0/17.3 MB ? eta -:--:--
   ---------------------------------------- 0.0/17.3 MB ? eta -:--:--
   ---------------------------------------- 0.0/17.3 MB 435.7 kB/s eta 0:00:40
   ---------------------------------------- 0.1/17.3 MB 653.6 kB/s eta 0:00:27
    --------------------------------------- 0.3/17.3 MB 1.6 MB/s eta 0:00:11
   - -------------------------------------- 0.5/17.3 MB 2.3 MB/s eta 0:00:08
   - -------------------------------------- 0.6/17.3 MB 2.7 MB/s eta 0:00:07
   - -------------------------------------- 0.8/17.3 MB 2.8 MB/s eta 0:00:06
   -- ------------------------------------- 1.0/17.3 MB 3.1 MB/s eta 0:00:06



[notice] A new release of pip is available: 24.0 -> 24.1.2
[notice] To update, run: python.exe -m pip install --upgrade pip


In [None]:
# Importo librerías necesarias
import pandas as pd
import numpy as np
import seaborn as sns
import requests
import matplotlib.pyplot as plt

from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix
from prophet import Prophet

In [None]:
# Cargo el DataFrame guardado
file_path = r"C:\Users\Esteban García\OneDrive\Escritorio\LABs\Carpeta Fraude\DF guardado\ecommerce.csv"
ecommerce = pd.read_csv(file_path)

In [None]:
ecommerce

In [None]:
print(ecommerce.columns)

In [None]:
print(ecommerce.head())

In [None]:
# Resumen estadístico
print(ecommerce.describe())

In [None]:
# Analizo el periodo
ecommerce['Transaction Day'] = pd.to_datetime(ecommerce['Transaction Day'], format='%d-%m-%Y')

# Obtengo la fecha inicial y final
fecha_inicial = ecommerce['Transaction Day'].min()
fecha_final = ecommerce['Transaction Day'].max()

print(f"Fecha inicial: {fecha_inicial}")
print(f"Fecha final: {fecha_final}")


In [None]:
# Distribución de datos
plt.figure(figsize=(10, 6))
sns.histplot(ecommerce['Transaction Amount'], bins=50, kde=True)
plt.title('Distribución de Montos de Transacción')
plt.show()

In [None]:
# Detección de valores atípicos
plt.figure(figsize=(10, 6))
sns.boxplot(x=ecommerce['Transaction Amount'])
plt.title('Boxplot de Montos de Transacción')
plt.show()

In [None]:
"""Correlación entre variables"""

# Selecciono solo las columnas numéricas
numeric_df = ecommerce.select_dtypes(include=['number'])

# Calculo la matriz de correlación
correlation_matrix = numeric_df.corr()

# Visualizo la matriz de correlación
plt.figure(figsize=(12, 8))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm')
plt.title('Matriz de Correlación')
plt.show()


In [None]:
# Análisis de categorías
plt.figure(figsize=(10, 6))
sns.countplot(x='Payment Method', data=ecommerce)
plt.title('Métodos de Pago Utilizados')
plt.show()

In [None]:
"""
pretendemos consumir una APIs a los efectos de obtener las coordenadas
"""
def get_coordinates(address):
    url = 'https://nominatim.openstreetmap.org/search'
    params = {'q': address, 'format': 'json'}
    response = requests.get(url, params=params)
    if response.status_code == 200 and len(response.json()) > 0:
        location = response.json()[0]
        return float(location['lon']), float(location['lat'])
    return None, None

# Obtener coordenadas para cada dirección
ecommerce['Longitude'], ecommerce['Latitude'] = zip(*df['Shipping Address'].apply(get_coordinates))

# Eliminar filas sin coordenadas válidas
ecommerce = ecommerce.dropna(subset=['Longitude', 'Latitude'])

# Crear el scatter plot
plt.figure(figsize=(10, 6))
sns.scatterplot(x='Longitude', y='Latitude', hue='Is Fraudulent', data=ecommerce)
plt.title('Distribución Geográfica de Transacciones')
plt.show()


In [None]:
"""
Análisis geográfico el cual usaré folium para crear mapas interactivos,
usaremos coordenadas falsas provisoriamente para deducir los datos después de
"""

import numpy as np

# Generar coordenadas aleatorias para el ejemplo
np.random.seed(42)  # Para reproducibilidad
ecommerce['Longitude'] = np.random.uniform(-180, 180, ecommerce.shape[0])
ecommerce['Latitude'] = np.random.uniform(-90, 90, ecommerce.shape[0])

# Ahora crear el scatter plot
plt.figure(figsize=(10, 6))
sns.scatterplot(x='Longitude', y='Latitude', hue='Is Fraudulent', data=ecommerce)
plt.title('Distribución Geográfica de Transacciones')
plt.show()

In [None]:
# Temporalidad de las transacciones
ecommerce['Transaction Hour'] = pd.to_datetime(ecommerce['Transaction Hour'], format='%H:%M:%S').dt.hour
plt.figure(figsize=(10, 6))
sns.countplot(x='Transaction Hour', data=ecommerce)
plt.title('Distribución Horaria de Transacciones')
plt.show()

In [None]:
# Visualización de fraudes
plt.figure(figsize=(10, 6))
sns.countplot(x='Is Fraudulent', data=ecommerce)
plt.title('Proporción de Transacciones Fraudulentas')
plt.show()

In [None]:
# Segmentación de clientes (ejemplo simple)
plt.figure(figsize=(10, 6))
sns.histplot(ecommerce['Customer Age'], bins=30, kde=True)
plt.title('Distribución de Edad de los Clientes')
plt.show()

### Creamos el MVP

In [None]:
"""
Vamos a proceder a crear e integrar predicciones y proyecciones para que pueda ser utilizado por la StarTup para detectar posibles Fraudes
para el periodo 2025, y desarrollaremos un preprocesamiento
"""
# Filtro las transacciones fraudulentas
fraudulent_transactions = ecommerce[ecommerce['Is Fraudulent'] == 1]

# Creo nuevas características basadas en la fecha
ecommerce['Year'] = ecommerce['Transaction Day'].dt.year
ecommerce['Month'] = ecommerce['Transaction Day'].dt.month
ecommerce['Day'] = ecommerce['Transaction Day'].dt.day
ecommerce['DayOfWeek'] = ecommerce['Transaction Day'].dt.dayofweek

# Divido los datos en entrenamiento y prueba
X = ecommerce.drop(['Is Fraudulent', 'Transaction Day'], axis=1)
y = ecommerce['Is Fraudulent']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Entreno el modelo
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

# Evaluo el modelo
y_pred = model.predict(X_test)
print(classification_report(y_test, y_pred))
print(confusion_matrix(y_test, y_pred))

In [None]:
"""
ahora realizaremos una proyección de Fraudes con Prophet
"""
# Preparo los datos para Prophet
df_prophet = ecommerce[['Transaction Day', 'Is Fraudulent']]
df_prophet = df_prophet.rename(columns={'Transaction Day': 'ds', 'Is Fraudulent': 'y'})

# Entreno el modelo Prophet
m = Prophet()
m.fit(df_prophet)

# Creo un dataframe para futuras predicciones
future = m.make_future_dataframe(periods=365)
forecast = m.predict(future)

# Visualizo las predicciones
fig = m.plot(forecast)
fig.show()

# Proyección de fraudes para 2025
forecast_2025 = forecast[forecast['ds'].dt.year == 2025]
print(forecast_2025[['ds', 'yhat', 'yhat_lower', 'yhat_upper']])

