# Laboratorio 1 ‚Äì Comparaci√≥n de Bases de Datos NoSQL (MongoDB, Redis, HBase)

**Objetivo:**
Este laboratorio tiene como objetivo montar servidores de **MongoDB**, **Redis** y **HBase** en contenedores Docker, y luego interactuar con ellos desde Python para:

1. Cargar un dataset real de compras electr√≥nicas.
2. Ejecutar consultas espec√≠ficas en cada base de datos:
   - ¬øCu√°l es la **categor√≠a** m√°s vendida?
   - ¬øCu√°l **marca** gener√≥ m√°s ingresos brutos?
   - ¬øQu√© **mes** tuvo m√°s ventas? (en UTC)
3. Medir y comparar los tiempos de ejecuci√≥n entre las tres bases de datos.

**Dataset utilizado:**
[Ecommerce Purchase History from Electronics Store](https://www.kaggle.com/datasets/mkechinov/ecommerce-purchase-history-from-electronics-store)

**Pasos principales:**
1. Preparar el entorno de Python en esta m√°quina virtual.
2. Descargar y preparar el dataset.
3. Insertar datos en **MongoDB**, **Redis** y **HBase**.
4. Ejecutar las consultas en cada base de datos.
5. Analizar los tiempos de respuesta.

---


In [None]:
# Instalaci√≥n de librer√≠as necesarias
!pip3 install --user pandas pymongo redis happybase thriftpy2 kaggle


## üì• Descarga del Dataset desde Kaggle

Para trabajar con el dataset real, utilizaremos la API de Kaggle.  
Esto requiere que tengamos un **token de acceso** que puedes obtener en tu cuenta de Kaggle:

1. Inicia sesi√≥n en [Kaggle](https://www.kaggle.com/).
2. Ve a **Account** ‚Üí **Create New API Token**.
3. Esto descargar√° un archivo llamado `kaggle.json`.
4. Lo subiremos a esta m√°quina en la carpeta `~/.kaggle/`.

Este archivo contiene:
- `username`: tu usuario en Kaggle.
- `key`: clave de acceso para autenticaci√≥n.


In [None]:
import os

# Crear carpeta .kaggle si no existe
os.makedirs(os.path.expanduser("~/.kaggle"), exist_ok=True)

print("‚úÖ Carpeta .kaggle lista. Sube tu archivo kaggle.json a esta ruta en la VM:")

# Mostrar ruta destino
print(os.path.expanduser("~/.kaggle/kaggle.json"))


## üîì Ajustar permisos y descargar dataset

Despu√©s de subir el archivo `kaggle.json` a la carpeta `.kaggle/` debemos ajustar los permisos para que sea seguro.  
Luego utilizaremos la librer√≠a `kaggle` para descargar el dataset directamente en esta m√°quina.

El dataset se guardar√° en la carpeta `datasets/ecommerce/`.


In [None]:
# Ajustar permisos del token Kaggle
!chmod 600 ~/.kaggle/kaggle.json

# Descargar el dataset desde Kaggle
!kaggle datasets download -d mkechinov/ecommerce-purchase-history-from-electronics-store -p ./datasets/ecommerce --unzip

print("‚úÖ Dataset descargado y descomprimido en ./datasets/ecommerce")


In [None]:
import os

os.listdir("./datasets/ecommerce")


## üìÇ Carga y vista previa del Dataset

El dataset descargado desde Kaggle contiene informaci√≥n sobre el historial de compras en una tienda de electr√≥nica.  
El archivo descargado se llama `kz.csv` y lo cargaremos usando **Pandas** para inspeccionarlo antes de insertarlo en las bases de datos.

Pasos:
1. Leer el archivo CSV.
2. Mostrar las primeras filas para validar el contenido.
3. Revisar la estructura de las columnas.


In [None]:
import pandas as pd

# Ruta al archivo descargado
file_path = "./datasets/ecommerce/kz.csv"

# Cargar el dataset
df = pd.read_csv(file_path)

# Vista previa de las primeras filas
df.head()


## üìä Inspecci√≥n de la estructura del Dataset

Antes de proceder a insertar los datos en las bases de datos, es importante entender su estructura y contenido.

Pasos:
1. Revisar la informaci√≥n general (`info()`) para conocer n√∫mero de filas, columnas y tipos de datos.
2. Verificar estad√≠sticas descriptivas (`describe()`) para entender rangos y distribuci√≥n de datos num√©ricos.
3. Detectar posibles valores nulos o faltantes.


In [None]:
# Informaci√≥n general del dataset
print("=== Informaci√≥n General del Dataset ===")
print(df.info())

# Estad√≠sticas descriptivas de columnas num√©ricas
print("\n=== Estad√≠sticas Descriptivas ===")
print(df.describe())

# Conteo de valores nulos por columna
print("\n=== Valores Nulos por Columna ===")
print(df.isnull().sum())


## üì• Inserci√≥n de datos en MongoDB

Conexi√≥n y carga de datos en MongoDB usando `pymongo`.

Pasos:
1. Conectarse al servidor de MongoDB.
2. Seleccionar la base de datos (`ecommerce_db`) y la colecci√≥n (`purchases`).
3. Convertir el DataFrame de Pandas a diccionarios (`to_dict('records')`).
4. Insertar los datos con `insert_many()`.

> ‚ö†Ô∏è **Nota:** El contenedor MongoDB debe estar corriendo y accesible en el puerto `27017`.


In [None]:
from pymongo import MongoClient

# Par√°metros de conexi√≥n
MONGO_USER = "admin"  # o "admin" si lo configuraste as√≠
MONGO_PASS = "pass"   # tu clave actual
MONGO_HOST = "localhost"  # Si est√° en el mismo servidor que Jupyter
MONGO_PORT = 27017

# Conexi√≥n a MongoDB
client = MongoClient(f"mongodb://{MONGO_USER}:{MONGO_PASS}@{MONGO_HOST}:{MONGO_PORT}/?authSource=admin")
db = client["ecommerce_db"]
collection = db["purchases"]

# Conversi√≥n del DataFrame a lista de diccionarios
data_dict = df.to_dict("records")

# Inserci√≥n en MongoDB
result = collection.insert_many(data_dict)
print(f"‚úÖ Insertados {len(result.inserted_ids)} documentos en MongoDB")
