# 📊 Análisis Exploratorio de Datos - Microbioma

## Objetivo
Entender la estructura de los datos de microbioma antes de crear la API.

### Archivos que vamos a explorar:
1. `biorun-metadata.csv.gz` - Metadatos de experimentos
2. `summary.phylum.csv.gz` - Composición a nivel de filo
3. `gtdb_taxonomy.tsv.gz` - Taxonomía completa


In [None]:
# Importar librerías necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings

# Configurar visualización
plt.style.use('default')
sns.set_palette("husl")
warnings.filterwarnings('ignore')

# Mostrar más columnas y filas
pd.set_option('display.max_columns', 20)
pd.set_option('display.max_rows', 100)

print("✅ Librerías cargadas correctamente")


## 🔍 Paso 1: Cargar y Explorar Metadatos

Los metadatos contienen información sobre cada experimento (biorun), incluyendo el tipo de ambiente.


In [None]:
# Cargar metadatos de bioruns
print("📂 Cargando metadatos...")
metadata_path = '../../Microbe-vis-data/sandpiper1.0.0.condensed.biorun-metadata.csv.gz'
metadata = pd.read_csv(metadata_path)

print(f"📊 Forma de los datos: {metadata.shape}")
print(f"📋 Columnas: {list(metadata.columns[:10])}...")  # Solo las primeras 10
print(f"💾 Memoria usada: {metadata.memory_usage(deep=True).sum() / 1024**2:.1f} MB")
