# Preparaci√≥n de Datos - Dataset mHealt

## üéØ Objetivo
Este notebook prepara los datos del dataset mHealth para el an√°lisis posterior.

---

## 1. Configuraci√≥n del entorno

In [None]:



import pandas as pd
import numpy as np
import urllib.request
import zipfile
import os
import matplotlib.pyplot as plt

print("‚úÖ Librer√≠as importadas correctamente")

## 2. Crear estructura de directorios

In [None]:
# Crear directorios necesarios
directorios = ['data/raw', 'data/processed', 'images/final', 'images/exploratory']

for directorio in directorios:
    if not os.path.exists(directorio):
        os.makedirs(directorio)
        print(f"‚úÖ Directorio creado: {directorio}")
    else:
        print(f"üìÅ Directorio ya existe: {directorio}")

: 

## 3. Descargar dataset mHealth

### üì• Descarga autom√°tica desde UCI Repository

In [None]:
def descargar_mhealth():
    """
    Descarga el dataset mHealth desde UCI Repository
    """
    url = "https://archive.ics.uci.edu/static/public/319/mhealth+dataset.zip"
    
    # Verificar si ya existe
    if os.path.exists('data/raw/mhealth_complete.txt'):
        print("‚úÖ Dataset ya existe localmente")
        return True
    
    try:
        print("üì• Descargando dataset mHealth...")
        print("‚è≥ Esto puede tomar unos minutos...")
        
        # Descargar
        urllib.request.urlretrieve(url, 'data/raw/mhealth_dataset.zip')
        print("‚úÖ Descarga completada")
        
        # Extraer
        print("üìÇ Extrayendo archivos...")
        with zipfile.ZipFile('data/raw/mhealth_dataset.zip', 'r') as zip_ref:
            # Buscar archivo principal
            archivos = zip_ref.namelist()
            archivo_principal = None
            
            # Buscar el archivo m√°s grande (probablemente los datos)
            for archivo in archivos:
                if archivo.endswith('.log') or 'subject' in archivo.lower() or archivo.endswith('.txt'):
                    zip_ref.extract(archivo, 'data/raw/')
                    old_path = os.path.join('data/raw/', archivo)
                    new_path = 'data/raw/mhealth_complete.txt'
                    if os.path.exists(old_path):
                        os.rename(old_path, new_path)
                        archivo_principal = archivo
                        break
            
            if not archivo_principal:
                # Si no encuentra archivo espec√≠fico, extraer todo
                zip_ref.extractall('data/raw/')
                print("üìÇ Todos los archivos extra√≠dos - revisar data/raw/")
        
        print("‚úÖ Dataset extra√≠do exitosamente")
        
        # Limpiar archivo zip
        os.remove('data/raw/mhealth_dataset.zip')
        return True
        
    except Exception as e:
        print(f"‚ùå Error al descargar: {e}")
        print("üí° Soluci√≥n: Descarga manual desde:")
        print("   https://archive.ics.uci.edu/static/public/319/mhealth+dataset.zip")
        return False

# Ejecutar descarga
exito = descargar_mhealth()

### üîç **Nota importante**
Si la descarga autom√°tica no funciona, puedes descargar manualmente:
1. Ve a: https://archive.ics.uci.edu/static/public/319/mhealth+dataset.zip
2. Extrae en la carpeta `data/raw/`
3. Renombra el archivo principal a `mhealth_complete.txt`

## 4. Verificar datos descargados

In [None]:
# Verificar archivos en data/raw/
print("üìÅ Archivos en data/raw/:")
if os.path.exists('data/raw/'):
    archivos = os.listdir('data/raw/')
    for archivo in archivos:
        ruta = os.path.join('data/raw/', archivo)
        if os.path.isfile(ruta):
            size = os.path.getsize(ruta)
            print(f"  üìÑ {archivo}: {size:,} bytes ({size/(1024*1024):.1f} MB)")

In [None]:
# Verificar el archivo principal
archivo_principal = None

# Buscar el archivo de datos m√°s grande
if os.path.exists('data/raw/'):
    archivos = [f for f in os.listdir('data/raw/') if os.path.isfile(os.path.join('data/raw/', f))]
    if archivos:
        # Encontrar el archivo m√°s grande (probablemente los datos)
        archivo_mas_grande = max(archivos, key=lambda f: os.path.getsize(os.path.join('data/raw/', f)))
        ruta_completa = os.path.join('data/raw/', archivo_mas_grande)
        
        # Si no existe mhealth_complete.txt, renombrar el m√°s grande
        if not os.path.exists('data/raw/mhealth_complete.txt') and archivo_mas_grande != 'mhealth_complete.txt':
            os.rename(ruta_completa, 'data/raw/mhealth_complete.txt')
            print(f"üìù Renombrado: {archivo_mas_grande} ‚Üí mhealth_complete.txt")

# Verificar archivo final
if os.path.exists('data/raw/mhealth_complete.txt'):
    size = os.path.getsize('data/raw/mhealth_complete.txt')
    print(f"‚úÖ Archivo principal: {size:,} bytes ({size/(1024*1024):.1f} MB)")
    
    # Leer primeras l√≠neas
    with open('data/raw/mhealth_complete.txt', 'r') as f:
        primeras_lineas = [f.readline().strip() for _ in range(3)]
    
    print("\nüìã Primeras l√≠neas del dataset:")
    for i, linea in enumerate(primeras_lineas, 1):
        print(f"L√≠nea {i}: {linea[:80]}...")
else:
    print("‚ùå Error: Archivo principal no encontrado")

## 5. Crear muestra para desarrollo

Para facilitar el desarrollo y testing, crearemos una muestra m√°s peque√±a del dataset.

In [None]:
def crear_muestra(input_file, output_file, n_filas=10000):
    """
    Crea una muestra del dataset para desarrollo r√°pido
    """
    try:
        print(f"üìä Creando muestra de {n_filas:,} filas...")
        
        # Definir nombres de columnas seg√∫n documentaci√≥n mHealth
        columnas = [
            'accel_chest_x', 'accel_chest_y', 'accel_chest_z',      # Aceler√≥metro pecho
            'ecg_1', 'ecg_2',                                        # ECG
            'accel_ankle_x', 'accel_ankle_y', 'accel_ankle_z',       # Aceler√≥metro tobillo
            'gyro_ankle_x', 'gyro_ankle_y', 'gyro_ankle_z',          # Giroscopio tobillo
            'magnet_ankle_x', 'magnet_ankle_y', 'magnet_ankle_z',    # Magnet√≥metro tobillo
            'accel_arm_x', 'accel_arm_y', 'accel_arm_z',             # Aceler√≥metro brazo
            'gyro_arm_x', 'gyro_arm_y', 'gyro_arm_z',                # Giroscopio brazo
            'magnet_arm_x', 'magnet_arm_y', 'magnet_arm_z',          # Magnet√≥metro brazo
            'actividad'                                               # Actividad (0-12)
        ]
        
        # Leer muestra del dataset
        df_muestra = pd.read_csv(input_file, sep='\t', names=columnas, nrows=n_filas)
        
        # Informaci√≥n b√°sica
        print(f"üìã Dimensiones de la muestra: {df_muestra.shape}")
        print(f"üìä Actividades encontradas: {sorted(df_muestra['actividad'].unique())}")
        
        # Guardar muestra
        df_muestra.to_csv(output_file, index=False)
        
        print(f"‚úÖ Muestra guardada en: {output_file}")
        return True
        
    except Exception as e:
        print(f"‚ùå Error creando muestra: {e}")
        return False

# Crear muestra para desarrollo
if os.path.exists('data/raw/mhealth_complete.txt'):
    exito_muestra = crear_muestra('data/raw/mhealth_complete.txt', 'data/raw/sample_mhealth.csv', 15000)
else:
    print("‚ùå No se puede crear muestra: archivo principal no encontrado")

## üìù Resumen y pr√≥ximos pasos

### ‚úÖ Tareas completadas:
1. Descarga del dataset mHealth
2. Verificaci√≥n de la integridad de los datos  
3. Creaci√≥n de muestra para desarrollo
4. Preparaci√≥n de estructura de directorios

### üéØ Pr√≥ximo paso:
Ejecutar `02_analisis_exploratorio.ipynb` para realizar el an√°lisis detallado.

In [None]:
print("=" * 60)
print("üìã RESUMEN DE PREPARACI√ìN DE DATOS")
print("=" * 60)

# Verificar archivos finales
archivos_verificar = [
    ('data/raw/mhealth_complete.txt', 'Dataset completo'),
    ('data/raw/sample_mhealth.csv', 'Muestra para desarrollo'),
]

todos_listos = True

for archivo, descripcion in archivos_verificar:
    if os.path.exists(archivo):
        size = os.path.getsize(archivo)
        print(f"‚úÖ {descripcion}: {size:,} bytes ({size/(1024*1024):.1f} MB)")
    else:
        print(f"‚ùå {descripcion}: NO ENCONTRADO")
        todos_listos = False

if todos_listos:
    print(f"\nüéâ ¬°Preparaci√≥n completada exitosamente!")
    print(f"üéØ Listo para ejecutar: 02_analisis_exploratorio.ipynb")
else:
    print(f"\n  Algunos archivos faltan. Revisar pasos anteriores.")

print("=" * 60)