# üè¥‚Äç‚ò†Ô∏è UAB THE HACK! 2025 - WiFi Dataset Analysis
## Nivel 1: ROOKIE - An√°lisis B√°sico

**Objetivo:** Explorar y visualizar el dataset de WiFi de la UAB

**Dataset:**
- Access Points (APs): 2,333 archivos con snapshots de APs del campus
- Clientes: 3,199 archivos con dispositivos conectados
- Per√≠odo: Abril-Julio 2025

---

## üì¶ 1. Importar Librer√≠as

Primero, importamos las librer√≠as necesarias para el an√°lisis.

In [None]:
# Librer√≠as est√°ndar y cient√≠ficas
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path
import warnings

# Configuraci√≥n general
warnings.filterwarnings("ignore")
sns.set_theme(style="whitegrid", palette="pastel")
plt.rcParams.update({
    "figure.figsize": (12, 6),
    "axes.titlesize": 18,
    "axes.labelsize": 14
})

# Carga de funciones personalizadas
from utils.data_loader import (
    load_aps,
    load_clients,
    print_dataset_summary,
    get_top_aps
)

print("‚úÖ Librer√≠as y utilidades cargadas correctamente")


KeyboardInterrupt



: 

## üìÇ 2. Cargar Datos

Cargamos una muestra del dataset. Empezaremos con 10 archivos para exploraci√≥n r√°pida.

**Nota:** Para cargar TODO el dataset, cambia `max_files=None`

In [None]:
# Cargar Access Points (primeros 10 archivos)
df_aps = load_aps(
    data_dir="../anonymized_data/aps",
    max_files=10,
    verbose=True
)

print("\n" + "="*60)
print(f"üéØ APs cargados: {len(df_aps):,} registros")
print("="*60)

In [None]:
# Cargar Clientes (primeros 10 archivos)
df_clients = load_clients(
    data_dir="../anonymized_data/clients",
    max_files=10,
    verbose=True
)

print("\n" + "="*60)
print(f"üéØ Clientes cargados: {len(df_clients):,} registros")
print("="*60)

## üîç 3. Exploraci√≥n Inicial

Veamos qu√© informaci√≥n tenemos disponible.

In [None]:
# Ver primeras filas de APs
print("üì° MUESTRA DE ACCESS POINTS:")
df_aps.head()

In [None]:
# Ver primeras filas de Clientes
print("üì± MUESTRA DE CLIENTES:")
df_clients.head()

In [None]:
# Informaci√≥n del dataset de APs
print_dataset_summary(df_aps, "Access Points")

In [None]:
# Informaci√≥n del dataset de Clientes
print_dataset_summary(df_clients, "Clientes")

## üìä 4. Estad√≠sticas B√°sicas

### 4.1 Access Points

In [None]:
# N√∫mero de APs √∫nicos
unique_aps = df_aps['name'].nunique()
print(f"üì° APs √∫nicos en el campus: {unique_aps}")

# Estado de los APs
print("\nüîå Estado de los APs:")
print(df_aps['status'].value_counts())

# APs m√°s populares (por n√∫mero de clientes)
print("\nüë• Top 10 APs por n√∫mero de clientes conectados:")
top_aps = df_aps.nlargest(10, 'client_count')[['name', 'client_count', 'status']]
print(top_aps)

### 4.2 Clientes/Dispositivos

In [None]:
# Dispositivos √∫nicos
unique_devices = df_clients['macaddr'].nunique()
print(f"üì± Dispositivos √∫nicos: {unique_devices:,}")

# Tipos de red
print("\nüåê Distribuci√≥n por tipo de red:")
print(df_clients['network'].value_counts())

# Sistemas operativos
print("\nüíª Top 10 sistemas operativos:")
print(df_clients['os_type'].value_counts().head(10))

# Categor√≠as de dispositivos
print("\nüì¶ Categor√≠as de dispositivos:")
print(df_clients['client_category'].value_counts())

## üìà 5. Visualizaciones B√°sicas

### 5.1 Zonas "Hotspot" - APs m√°s utilizados

In [None]:
# Top 15 APs m√°s utilizados
top_aps_usage = df_clients['associated_device_name'].value_counts().head(15)

plt.figure(figsize=(12, 6))
top_aps_usage.plot(kind='barh', color='steelblue')
plt.title('üì° Top 15 Access Points M√°s Utilizados', fontsize=16, fontweight='bold')
plt.xlabel('N√∫mero de Conexiones', fontsize=12)
plt.ylabel('Access Point', fontsize=12)
plt.gca().invert_yaxis()
plt.grid(axis='x', alpha=0.3)
plt.tight_layout()
plt.show()

print(f"\nüî• El AP m√°s usado es: {top_aps_usage.index[0]} con {top_aps_usage.values[0]:,} conexiones")

### 5.2 Patrones Temporales - Actividad por Hora

In [None]:
# Actividad por hora del d√≠a
hourly_activity = df_clients.groupby('hour').size()

plt.figure(figsize=(14, 6))
plt.plot(hourly_activity.index, hourly_activity.values, marker='o', linewidth=2, markersize=8, color='coral')
plt.fill_between(hourly_activity.index, hourly_activity.values, alpha=0.3, color='coral')
plt.title('‚è∞ Dispositivos Conectados por Hora del D√≠a', fontsize=16, fontweight='bold')
plt.xlabel('Hora del D√≠a (0-23)', fontsize=12)
plt.ylabel('N√∫mero de Dispositivos', fontsize=12)
plt.xticks(range(0, 24))
plt.grid(alpha=0.3)
plt.tight_layout()
plt.show()

# Identificar hora pico
peak_hour = hourly_activity.idxmax()
peak_devices = hourly_activity.max()
print(f"\nüïê Hora pico: {peak_hour}:00 con {peak_devices:,} dispositivos conectados")

### 5.3 Distribuci√≥n de Calidad de Se√±al

In [None]:
# Distribuci√≥n de signal_strength (1-5)
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Gr√°fico 1: Signal Strength (1-5)
signal_counts = df_clients['signal_strength'].value_counts().sort_index()
axes[0].bar(signal_counts.index, signal_counts.values, color='seagreen', alpha=0.7)
axes[0].set_title('üì∂ Distribuci√≥n de Calidad de Se√±al (1-5)', fontsize=14, fontweight='bold')
axes[0].set_xlabel('Signal Strength (1=peor, 5=mejor)', fontsize=11)
axes[0].set_ylabel('N√∫mero de Dispositivos', fontsize=11)
axes[0].set_xticks([1, 2, 3, 4, 5])
axes[0].grid(axis='y', alpha=0.3)

# Gr√°fico 2: Signal dB (histograma)
axes[1].hist(df_clients['signal_db'].dropna(), bins=30, color='royalblue', alpha=0.7, edgecolor='black')
axes[1].set_title('üìä Distribuci√≥n de Se√±al (dBm)', fontsize=14, fontweight='bold')
axes[1].set_xlabel('Se√±al (dBm)', fontsize=11)
axes[1].set_ylabel('Frecuencia', fontsize=11)
axes[1].axvline(x=-60, color='red', linestyle='--', label='Umbral d√©bil (-60 dBm)')
axes[1].legend()
axes[1].grid(axis='y', alpha=0.3)

plt.tight_layout()
plt.show()

# Estad√≠sticas
avg_signal = df_clients['signal_db'].mean()
weak_signal = (df_clients['signal_db'] < -60).sum()
pct_weak = (weak_signal / len(df_clients)) * 100

print(f"\nüì° Se√±al promedio: {avg_signal:.1f} dBm")
print(f"‚ö†Ô∏è  Dispositivos con se√±al d√©bil (<-60 dBm): {weak_signal:,} ({pct_weak:.1f}%)")

### 5.4 Tipos de Red (UAB vs eduroam)

In [None]:
# Distribuci√≥n por tipo de red
network_counts = df_clients['network'].value_counts()

plt.figure(figsize=(8, 8))
colors = ['#3498db', '#e74c3c']
plt.pie(network_counts.values, labels=network_counts.index, autopct='%1.1f%%',
        startangle=90, colors=colors, textprops={'fontsize': 14, 'weight': 'bold'})
plt.title('üåê Distribuci√≥n por Tipo de Red', fontsize=16, fontweight='bold')
plt.axis('equal')
plt.tight_layout()
plt.show()

print("\nüìä Desglose por red:")
for network, count in network_counts.items():
    pct = (count / len(df_clients)) * 100
    print(f"   {network}: {count:,} dispositivos ({pct:.1f}%)")

### 5.5 Bandas WiFi (2.4 GHz vs 5 GHz)

In [None]:
# Distribuci√≥n por banda
band_counts = df_clients['band'].value_counts().sort_index()
band_labels = {2.4: '2.4 GHz', 5: '5 GHz', 6: '6 GHz'}

plt.figure(figsize=(10, 6))
colors_band = ['#f39c12', '#9b59b6', '#1abc9c']
bars = plt.bar([band_labels.get(x, str(x)) for x in band_counts.index],
               band_counts.values, color=colors_band[:len(band_counts)], alpha=0.8)
plt.title('üìª Distribuci√≥n por Banda WiFi', fontsize=16, fontweight='bold')
plt.xlabel('Banda', fontsize=12)
plt.ylabel('N√∫mero de Dispositivos', fontsize=12)
plt.grid(axis='y', alpha=0.3)

# A√±adir valores encima de las barras
for bar in bars:
    height = bar.get_height()
    plt.text(bar.get_x() + bar.get_width()/2., height,
             f'{int(height):,}', ha='center', va='bottom', fontsize=11, fontweight='bold')

plt.tight_layout()
plt.show()

## üéØ 6. Insights y Conclusiones

Bas√°ndote en las visualizaciones anteriores, responde:

**1. ¬øCu√°l es el AP m√°s utilizado? ¬øEn qu√© edificio est√°?**

```
Tu respuesta aqu√≠:
```

**2. ¬øA qu√© hora hay m√°s actividad? ¬øPor qu√© crees que es?**

```
Tu respuesta aqu√≠:
```

**3. ¬øQu√© porcentaje de dispositivos tiene se√±al d√©bil?**

```
Tu respuesta aqu√≠:
```

**4. ¬øCu√°l es la red m√°s utilizada (UAB o eduroam)?**

```
Tu respuesta aqu√≠:
```

**5. ¬øQu√© banda WiFi es m√°s popular (2.4 o 5 GHz)? ¬øPor qu√©?**

```
Tu respuesta aqu√≠:
```

## üöÄ 7. Pr√≥ximos Pasos

¬°Felicidades! Has completado el an√°lisis b√°sico. Ahora puedes:

### Ideas para Expandir tu An√°lisis:

1. **Cargar m√°s datos:** Cambia `max_files=100` o `max_files=None` para todo el dataset

2. **An√°lisis por edificio:**
   - Extraer el c√≥digo del edificio del nombre del AP (ej: AP-VET71 ‚Üí VET)
   - Comparar actividad entre edificios

3. **An√°lisis temporal m√°s profundo:**
   - Comparar d√≠as laborables vs fines de semana
   - Identificar patrones semanales

4. **Problemas de conectividad:**
   - Identificar APs con peor se√±al
   - Analizar zonas problem√°ticas

5. **Dashboard interactivo:**
   - Usar Plotly para gr√°ficos interactivos
   - Crear filtros por fecha/hora/edificio

### ¬øListo para el siguiente nivel?

üëâ Contin√∫a con: **`02_intermediate_mobility.ipynb`**

---

**üè¥‚Äç‚ò†Ô∏è UAB THE HACK! 2025 - ¬°Buena suerte! üöÄ**