# üìà An√°lisis de Datos Masivos
## T√©cnicas y Algoritmos Escalables

<a href="https://colab.research.google.com/github/Jomucon21muri/Aprendizaje_automatico/blob/main/02_Big_data/03_Analisis_datos_masivos/analisis_datos_masivos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

---

## üìã Resumen

An√°lisis estad√≠stico y ML aplicados a datasets masivos distribuidos.

### üéØ Objetivos
- Estad√≠stica descriptiva a escala
- ML distribuido (MLlib de Spark)
- Procesamiento de streams en tiempo real
- Visualizaci√≥n de Big Data

### üî¨ T√©cnicas Escalables

**Algoritmos Distribuidos**:
- **K-Means**: Clustering paralelo
- **Alternating Least Squares (ALS)**: Sistemas de recomendaci√≥n
- **Gradient Boosting**: √Årboles distribuidos
- **Random Forest**: Ensambles paralelos

**Streaming Analytics**:
- **Window Operations**: An√°lisis en ventanas temporales
- **Stateful Processing**: Mantener estado entre batches
- **Watermarks**: Manejo de datos tard√≠os

### üìä Apache Spark MLlib

```python
from pyspark.ml.classification import LogisticRegression
from pyspark.ml.clustering import KMeans
from pyspark.ml.recommendation import ALS
```

### üéØ Casos de Uso
- An√°lisis de comportamiento de usuarios
- Detecci√≥n de fraude en tiempo real
- Sistemas de recomendaci√≥n
- An√°lisis de logs y m√©tricas

---

In [None]:
# Setup - An√°lisis a escala con Pandas (simulaci√≥n)
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# Simular an√°lisis de logs masivos
np.random.seed(42)
n_records = 100000

data = {
    'timestamp': pd.date_range('2024-01-01', periods=n_records, freq='1min'),
    'user_id': np.random.randint(1, 10000, n_records),
    'page_views': np.random.randint(1, 20, n_records),
    'duration_sec': np.random.exponential(120, n_records),
    'device': np.random.choice(['mobile', 'desktop', 'tablet'], n_records)
}

df = pd.DataFrame(data)

# An√°lisis agregado
print("üìä An√°lisis de Logs Web (100k registros)")
print("="*50)
print(f"\nüìà Estad√≠sticas Globales:")
print(f"  ‚Ä¢ Total pageviews: {df['page_views'].sum():,}")
print(f"  ‚Ä¢ Usuarios √∫nicos: {df['user_id'].nunique():,}")
print(f"  ‚Ä¢ Duraci√≥n promedio: {df['duration_sec'].mean():.1f}s")
print(f"\nüì± Por Dispositivo:")
print(df.groupby('device')['page_views'].agg(['count', 'sum', 'mean']))
print("\n‚úÖ T√©cnicas Big Data:")
print("  ‚Ä¢ Partitioning: Dividir datos por fecha/clave")
print("  ‚Ä¢ Sampling: Analizar subconjuntos representativos")
print("  ‚Ä¢ Approximate Algorithms: HyperLogLog, Count-Min Sketch")
print("  ‚Ä¢ Columnar Storage: Parquet, ORC para queries eficientes")