# Exploratory Data Analysis

Este notebook realiza un análisis exploratorio sobre los datos de Mercado Pago con el objetivo de preparar un dataset para entrenamiento de un modelo de Machine Learning.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path

# Configuración visual
sns.set(style="whitegrid")
plt.rcParams["figure.figsize"] = (10, 6)

# Cargar los datos
input_path = Path("../data/input")
prints = pd.read_json(input_path / "prints.json", lines=True)
taps = pd.read_json(input_path / "taps.json", lines=True)
pays = pd.read_csv(input_path / "pays.csv")

prints.head()


## Estructura y tipos de datos

In [None]:
print("PRINTS:")
print(prints.info())
print("\nTAPS:")
print(taps.info())
print("\nPAYS:")
print(pays.info())


## Estadísticas básicas

In [None]:
print(prints.describe(include='all'))
print(taps.describe(include='all'))
print(pays.describe())


## Validación de duplicados y nulos

In [None]:
print("Duplicados en PRINTS:", prints.duplicated().sum())
print("Duplicados en TAPS:", taps.duplicated().sum())
print("Duplicados en PAYS:", pays.duplicated().sum())

print("\nValores nulos:")
print("PRINTS:\n", prints.isnull().sum())
print("TAPS:\n", taps.isnull().sum())
print("PAYS:\n", pays.isnull().sum())


## Distribución de clics y pagos por value_prop

In [None]:
taps['value_prop_id'].value_counts().plot(kind='bar', title='Clicks por Value Prop')
plt.show()

pays['value_prop_id'].value_counts().plot(kind='bar', title='Pagos por Value Prop')
plt.show()


## Comportamiento temporal

In [None]:
prints['timestamp'] = pd.to_datetime(prints['timestamp'])
taps['timestamp'] = pd.to_datetime(taps['timestamp'])
pays['timestamp'] = pd.to_datetime(pays['timestamp'])

prints['timestamp'].dt.date.value_counts().sort_index().plot(title='Eventos de Prints por Día')
plt.show()
