# Exploración y Análisis de Datos (EDA)

[![Banner.png](https://i.postimg.cc/C1t2SCwf/Banner.png)](https://postimg.cc/FdypxLd9)

## Introducción

Este notebook se centra en el análisis exploratorio de datos (EDA) para comprender mejor las características de las transacciones financieras y detectar patrones relacionados con el fraude. Las tareas principales incluyen:

**Exploración descriptiva:** Examinar las características de los datos, como la distribución de variables, relaciones entre variables y valores atípicos.

**Visualización de datos:** Crear gráficos y tablas para visualizar la distribución de los datos, identificar patrones y tendencias, y destacar posibles indicadores de fraude.

**Análisis de correlación:** Evaluaremos la relación entre variables para comprender cómo se asocian los diferentes factores con el fraude.

**Identificación de características relevantes:** Seleccionar las variables más importantes para el análisis posterior, como el monto de la transacción, el método de pago y la ubicación del cliente.
Objetivos:

Obtener una comprensión profunda de las características de las transacciones financieras.
Identificar patrones y tendencias que puedan indicar actividades fraudulentas.
Seleccionar las variables más relevantes para la construcción de modelos de predicción de fraude.


In [None]:
# Reviso dependencias
%pip list

In [None]:
# Instalo bibliotecas
%pip install prophet
%pip install --upgrade jupyter ipywidgets
%pip install plotly
%pip install pandas requests

In [None]:
# Importo librerías necesarias
import pandas as pd
import numpy as np
import seaborn as sns
import requests
import random
import time
import matplotlib.pyplot as plt

from tqdm import tqdm
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix
from prophet import Prophet

In [None]:
# Cargo el DataFrame guardado para leerlo
file_path = r"C:\Users\Esteban García\OneDrive\Escritorio\LABs\Carpeta Fraude\DF guardado\ecommerce.csv"
ecommerce = pd.read_csv(file_path)

In [None]:
"""visualizo el df para tener un primer acercamiento"""
ecommerce

In [None]:
"""pretendo visualizar todas las columnas"""
print(ecommerce.columns)

In [None]:
"""busco ver la dimensión del df"""
print(len(ecommerce))

In [None]:
"""en esta etapa trato de ver en detalle el contenido sin profundizar"""
print(ecommerce.head())

In [None]:
"""visualizo en este primer asercamiento un resumen estadístico"""
print(ecommerce.describe())

In [None]:
"""analizo el periodo"""
ecommerce['Transaction Day'] = pd.to_datetime(ecommerce['Transaction Day'], format='%d-%m-%Y')

# Obtengo la fecha inicial y final
fecha_inicial = ecommerce['Transaction Day'].min()
fecha_final = ecommerce['Transaction Day'].max()

print(f"Fecha inicial: {fecha_inicial}")
print(f"Fecha final: {fecha_final}")


In [None]:
# Distribución de datos
plt.figure(figsize=(10, 6))
sns.histplot(ecommerce['Transaction Amount'], bins=50, kde=True)
plt.title('Distribución de Montos de Transacción')
plt.show()

In [None]:
# Detección de valores atípicos
plt.figure(figsize=(10, 6))
sns.boxplot(x=ecommerce['Transaction Amount'])
plt.title('Boxplot de Montos de Transacción')
plt.show()

In [None]:
"""Correlación entre variables"""

# Selecciono solo las columnas numéricas
numeric_df = ecommerce.select_dtypes(include=['number'])

# Calculo la matriz de correlación
correlation_matrix = numeric_df.corr()

# Visualizo la matriz de correlación
plt.figure(figsize=(12, 8))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm')
plt.title('Matriz de Correlación')
plt.show()


In [None]:
"""identifico los métodos de pago que están más asociados con las transacciones fraudulentas"""

# Filtro las transacciones fraudulentas
fraudulent_transactions = ecommerce[ecommerce['Is Fraudulent'] == 1]

# Cuento la frecuencia de cada método de pago en transacciones fraudulentas
payment_method_counts = fraudulent_transactions['Payment Method'].value_counts()

"""vamos a graficar la información con un gráfico de líneas
ya que la visualización es más amena y puede mostrar tendencias y variaciones"""

# Creo un gráfico de línea con marcadores
plt.figure(figsize=(10, 6))
sns.lineplot(x=payment_method_counts.index, y=payment_method_counts.values, marker='o')
plt.title('Métodos de Pago Más Comunes en Transacciones Fraudulentas')
plt.xlabel('Método de Pago')
plt.ylabel('Cantidad de Transacciones Fraudulentas')
plt.xticks(rotation=45)
plt.show()

In [None]:
"""
pretendemos consumir una APIs a los efectos de obtener las coordenadas
"""
def get_coordinates_google(address, api_key):
    """Obtengo las coordenadas geográficas de una dirección utilizando la API de Google Maps."""
    url = 'https://maps.googleapis.com/maps/api/geocode/json'
    params = {
        'address': address,
        'key': api_key
    }
    try:
        response = requests.get(url, params=params)
        response.raise_for_status()  # Lanza error si la respuesta no es exitosa
        
        data = response.json()
        if data['status'] == 'OK':
            location = data['results'][0]['geometry']['location']
            return location['lng'], location['lat']
        else:
            print(f"No se encontraron coordenadas para '{address}'. Estado: {data['status']}")
            return None, None
        
    except requests.exceptions.RequestException as e:
        print(f"Error al obtener coordenadas para '{address}': {e}")
        return None, None


In [None]:
"""probaremos el funcionamiento eligiendo una fila aleatoria de 'Shipping Address'"""

# Clave de API
api_key = 'AIzaSyDMTGM-1hYFmGuavlTnX1-ISOt-DRj5LrY'

# Selecciono una dirección aleatoria del DataFrame
random_address = ecommerce['Shipping Address'].sample().values[0]

# Obtengo coordenadas para una dirección aleatoria
longitude, latitude = get_coordinates_google(random_address, api_key)

# Visualizo
print(f"Coordenadas de '{random_address}': {longitude}, {latitude}")


In [None]:
# Tu clave API de Google Maps
api_key = 'AIzaSyDMTGM-1hYFmGuavlTnX1-ISOt-DRj5LrY'

# Función para obtener coordenadas
def get_coordinates_google(address, api_key):
    """Obtengo las coordenadas geográficas de una dirección utilizando la API de Google Maps."""
    url = 'https://maps.googleapis.com/maps/api/geocode/json'
    params = {
        'address': address,
        'key': api_key
    }
    try:
        response = requests.get(url, params=params)
        response.raise_for_status()  # Lanza error si la respuesta no es exitosa

        data = response.json()
        if data['status'] == 'OK':
            location = data['results'][0]['geometry']['location']
            return location['lng'], location['lat']
        else:
            print(f"No se encontraron coordenadas para '{address}'. Estado: {data['status']}")
            return None, None

    except requests.exceptions.RequestException as e:
        print(f"Error al obtener coordenadas para '{address}': {e}")
        return None, None

# Crear nuevas columnas para latitud y longitud
ecommerce.insert(ecommerce.columns.get_loc('Shipping Address') + 1, 'Longitude', None)
ecommerce.insert(ecommerce.columns.get_loc('Shipping Address') + 2, 'Latitude', None)

# Iterar sobre las direcciones y obtener coordenadas, con manejo de errores y pausas
for index, row in ecommerce.iterrows():
    address = row['Shipping Address']
    longitude, latitude = get_coordinates_google(address, api_key)

    # Manejo de errores: si no se encuentran coordenadas, se asigna NaN (mejor para EDA)
    if longitude is None or latitude is None:
        ecommerce.at[index, 'Longitude'] = float('nan')  # Usar NaN para valores faltantes
        ecommerce.at[index, 'Latitude'] = float('nan')
    else:
        ecommerce.at[index, 'Longitude'] = longitude
        ecommerce.at[index, 'Latitude'] = latitude

    # Pausar para evitar exceder el límite de consultas de la API
    if index % 100 == 0:  # Pausa cada 100 consultas (ajusta según el límite de tu API)
        time.sleep(1)  # Pausa de 1 segundo (ajusta según sea necesario)

print(ecommerce[['Shipping Address', 'Longitude', 'Latitude']])

In [None]:
print(len(ecommerce))

In [None]:
print(ecommerce.columns)

In [None]:

# Clave de API
api_key = 'AIzaSyDMTGM-1hYFmGuavlTnX1-ISOt-DRj5LrY'

# Seleccionar una dirección aleatoria del DataFrame ecommerce
random_address = ecommerce['Shipping Address'].sample().values[0]

# Obtener coordenadas para la dirección aleatoria
longitude, latitude = get_coordinates_google(random_address, api_key)
print(f"Coordenadas de '{random_address}': {longitude}, {latitude}')
¿cuál es el error y cómo lo soluciono?     
{
	"name": "SyntaxError",
	"message": "unterminated f-string literal (detected at line 10) (3059531397.py, line 10)",
	"stack": "  Cell In[15], line 10
    print(f\"Coordenadas de '{random_address}': {longitude}, {latitude}')
          ^
SyntaxError: unterminated f-string literal (detected at line 10)
"
}

In [None]:
"""realizo una prueba para corroborar el funcionamiento de obtención de coordenadas"""

# Clave de API
api_key = 'AIzaSyDMTGM-1hYFmGuavlTnX1-ISOt-DRj5LrY'

# Dirección de prueba
address = '1600 Amphitheatre Parkway, Mountain View, CA'

# Obtener coordenadas para la dirección de prueba
longitude, latitude = get_coordinates_google(address, api_key)
print(f"Coordenadas de '{address}': {longitude}, {latitude}")


In [None]:
"""aplico la función al df"""

# Ajusto la función get_coordinates_google para que incluya una pausa de latencia
def get_coordinates_with_delay(address, api_key, error_count, max_errors=5):
    time.sleep(0.1)  # Pausa de 0.1 segundos para simular latencia
    lng, lat = get_coordinates_google(address, api_key)
    if lng is None and error_count[0] < max_errors:
        print(f"No se encontraron coordenadas para '{address}'. Estado: ZERO_RESULTS")
        error_count[0] += 1
    return lng, lat

# Cuento los errores
error_count = [0]

# Aplico la función al DataFrame con tqdm para mostrar el progreso
ecommerce['Longitude'], ecommerce['Latitude'] = zip(*tqdm(
    ecommerce['Shipping Address'].apply(lambda x: get_coordinates_with_delay(x, api_key, error_count))
))

# Visualizo los primeros 5 resultados
print(ecommerce[['Shipping Address', 'Longitude', 'Latitude']].head(5))


In [None]:
# Código de prueba
"""Imprimo las primeras filas del DataFrame para verificar las nuevas columnas"""
print(ecommerce.head())


In [None]:
"""elimino filas con coordenadas nulas"""
ecommerce = ecommerce.dropna(subset=['Longitude', 'Latitude'])

In [None]:
# Imprimir el número de filas antes y después de eliminar las filas sin coordenadas
print(f"Número de filas antes: {len(ecommerce)}")
ecommerce = ecommerce.dropna(subset=['Longitude', 'Latitude'])
print(f"Número de filas después: {len(ecommerce)}")

In [None]:
"""creo el gráfico de Scatter Plot"""

import matplotlib.pyplot as plt
import seaborn as sns

# Crear el scatter plot
plt.figure(figsize=(10, 6))
sns.scatterplot(x='Longitude', y='Latitude', hue='Is Fraudulent', data=ecommerce)
plt.title('Distribución Geográfica de Transacciones')
plt.show()


In [None]:
"""probamos"""
# Crear y mostrar el scatter plot
plt.figure(figsize=(10, 6))
sns.scatterplot(x='Longitude', y='Latitude', hue='Is Fraudulent', data=ecommerce)
plt.title('Distribución Geográfica de Transacciones')
plt.show()


### VAmos a corregir hasta aquí

In [None]:
"""
Análisis geográfico el cual usaré folium para crear mapas interactivos,
usaremos coordenadas falsas provisoriamente para deducir los datos después de
"""
# Genero coordenadas aleatorias para el ejemplo
np.random.seed(42)  # Para reproducibilidad
ecommerce['Longitude'] = np.random.uniform(-180, 180, ecommerce.shape[0])
ecommerce['Latitude'] = np.random.uniform(-90, 90, ecommerce.shape[0])

# Ahora creo el scatter plot
plt.figure(figsize=(10, 6))
sns.scatterplot(x='Longitude', y='Latitude', hue='Is Fraudulent', data=ecommerce)
plt.title('Distribución Geográfica de Transacciones')
plt.show()

In [None]:
# Temporalidad de las transacciones
ecommerce['Transaction Hour'] = pd.to_datetime(ecommerce['Transaction Hour'], format='%H:%M:%S').dt.hour
plt.figure(figsize=(10, 6))
sns.countplot(x='Transaction Hour', data=ecommerce)
plt.title('Distribución Horaria de Transacciones')
plt.show()

In [None]:
# Visualización de fraudes
plt.figure(figsize=(10, 6))
sns.countplot(x='Is Fraudulent', data=ecommerce)
plt.title('Proporción de Transacciones Fraudulentas')
plt.show()

In [None]:
# Segmentación de clientes (ejemplo simple)
plt.figure(figsize=(10, 6))
sns.histplot(ecommerce['Customer Age'], bins=30, kde=True)
plt.title('Distribución de Edad de los Clientes')
plt.show()

### Creamos el MVP

In [None]:
"""
Vamos a proceder a crear e integrar predicciones y proyecciones para que pueda ser utilizado por la StarTup para detectar posibles Fraudes
para el periodo 2025, y desarrollaremos un preprocesamiento
"""
# Filtro las transacciones fraudulentas
fraudulent_transactions = ecommerce[ecommerce['Is Fraudulent'] == 1]

# Creo nuevas características basadas en la fecha
ecommerce['Year'] = ecommerce['Transaction Day'].dt.year
ecommerce['Month'] = ecommerce['Transaction Day'].dt.month
ecommerce['Day'] = ecommerce['Transaction Day'].dt.day
ecommerce['DayOfWeek'] = ecommerce['Transaction Day'].dt.dayofweek

# Divido los datos en entrenamiento y prueba
X = ecommerce.drop(['Is Fraudulent', 'Transaction Day'], axis=1)
y = ecommerce['Is Fraudulent']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Entreno el modelo
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

# Evaluo el modelo
y_pred = model.predict(X_test)
print(classification_report(y_test, y_pred))
print(confusion_matrix(y_test, y_pred))

In [None]:
"""
ahora realizaremos una proyección de Fraudes con Prophet
"""
# Preparo los datos para Prophet
df_prophet = ecommerce[['Transaction Day', 'Is Fraudulent']]
df_prophet = df_prophet.rename(columns={'Transaction Day': 'ds', 'Is Fraudulent': 'y'})

# Entreno el modelo Prophet
m = Prophet()
m.fit(df_prophet)

# Creo un dataframe para futuras predicciones
future = m.make_future_dataframe(periods=365)
forecast = m.predict(future)

# Visualizo las predicciones
fig = m.plot(forecast)
fig.show()

# Proyección de fraudes para 2025
forecast_2025 = forecast[forecast['ds'].dt.year == 2025]
print(forecast_2025[['ds', 'yhat', 'yhat_lower', 'yhat_upper']])

