# üó∫Ô∏è Extractor de Datos KML - Interfaz Amigable

**¬°Bienvenido al Extractor de KML!** Este notebook te permitir√° extraer f√°cilmente coordenadas, IDs y direcciones de archivos KML **desde cualquier ubicaci√≥n** en tu computadora.

## üéØ ¬øQu√© puedes hacer aqu√≠?
- üìç **Extraer coordenadas** de archivos KML (longitud, latitud, altitud)
- üè∑Ô∏è **Obtener IDs √∫nicos** y metadatos de placemarks
- üìç **Extraer direcciones** embebidas en los archivos KML
- üìä **Exportar resultados** en m√∫ltiples formatos (CSV, JSON, Excel)

## üó∫Ô∏è ¬øQu√© son los archivos KML?
Los archivos **KML (Keyhole Markup Language)** son usados para mostrar datos geogr√°ficos. Son creados por:

- üåç **Google Earth**: Para guardar ubicaciones y rutas marcadas
- üìç **BatchGeo**: Para crear mapas desde listas de direcciones
- üó∫Ô∏è **Google Maps**: Para exportar mapas personalizados
- üöó **GPS y navegadores**: Para rutas y puntos de inter√©s
- üìä **Aplicaciones GIS**: Para intercambio de datos geogr√°ficos

## üíª Compatible con cualquier ubicaci√≥n:
- üìÅ **Archivos locales**: `C:\MisArchivos\mapa.kml`
- ‚òÅÔ∏è **OneDrive**: `C:\Users\Usuario\OneDrive\Documentos\ubicaciones.kml`
- üåê **OneDrive Empresarial**: `C:\Users\Usuario\OneDrive - Empresa\datos.kml`
- üíæ **Unidades externas**: `D:\Proyectos\puntos.kml`
- üóÇÔ∏è **Carpetas compartidas**: `\\Servidor\Compartida\mapas.kml`

## üìã Instrucciones para principiantes:
1. **Ejecuta cada celda en orden** (Shift + Enter)
2. **Usa el explorador integrado** o pega rutas completas de archivos
3. **¬°No te preocupes si eres nuevo!** Todo est√° explicado paso a paso

### ‚ú® Casos de uso comunes:
- **Analizar rutas de GPS** exportadas de dispositivos
- **Procesar mapas de BatchGeo** para an√°lisis de datos
- **Extraer coordenadas** de mapas personalizados de Google Earth
- **Convertir datos KML** a formatos como CSV para Excel
- **Preparar datos** para sistemas GIS o an√°lisis geogr√°fico

---

## üì¶ Paso 1: Instalaci√≥n de Dependencias

Primero instalaremos autom√°ticamente todas las librer√≠as necesarias para procesar archivos KML.

In [9]:
# Instalar dependencias autom√°ticamente para el KML Extractor
import subprocess
import sys

def install_package(package):
    """Instala un paquete usando pip"""
    try:
        subprocess.check_call([sys.executable, "-m", "pip", "install", package])
        print(f"‚úÖ {package} instalado exitosamente")
        return True
    except subprocess.CalledProcessError:
        print(f"‚ùå Error instalando {package}")
        return False

print("üîß Instalando dependencias para KML Extractor...")
print("(Esto puede tomar unos minutos la primera vez)\n")

# Dependencias necesarias para el procesamiento KML
packages = [
    "pandas",           # Para manejo de datos y CSV
    "ipywidgets",       # Para interfaces interactivas
    "plotly",          # Para mapas interactivos
    "folium",          # Para mapas alternativos
    "openpyxl"         # Para exportar a Excel
]

all_success = True
for package in packages:
    if not install_package(package):
        all_success = False

print("\n" + "="*60)
if all_success:
    print("‚úÖ ¬°Todas las dependencias instaladas correctamente!")
    print("üó∫Ô∏è El Extractor KML est√° listo para usar")
else:
    print("‚ö†Ô∏è  Algunas dependencias no se pudieron instalar.")
    print("Por favor, instala manualmente los paquetes faltantes.")
print("="*60)

# Verificar que las librer√≠as est√°ndar est√°n disponibles
try:
    import xml.etree.ElementTree as ET
    from pathlib import Path
    import os
    import json
    import csv
    print("‚úÖ Librer√≠as est√°ndar de Python verificadas")
except ImportError as e:
    print(f"‚ùå Error con librer√≠as est√°ndar: {e}")
    print("Aseg√∫rate de tener una instalaci√≥n completa de Python")

üîß Instalando dependencias para KML Extractor...
(Esto puede tomar unos minutos la primera vez)

‚úÖ pandas instalado exitosamente
‚úÖ pandas instalado exitosamente
‚úÖ ipywidgets instalado exitosamente
‚úÖ ipywidgets instalado exitosamente
‚úÖ plotly instalado exitosamente
‚úÖ plotly instalado exitosamente
‚úÖ folium instalado exitosamente
‚úÖ folium instalado exitosamente
‚úÖ openpyxl instalado exitosamente

‚úÖ ¬°Todas las dependencias instaladas correctamente!
üó∫Ô∏è El Extractor KML est√° listo para usar
‚úÖ Librer√≠as est√°ndar de Python verificadas
‚úÖ openpyxl instalado exitosamente

‚úÖ ¬°Todas las dependencias instaladas correctamente!
üó∫Ô∏è El Extractor KML est√° listo para usar
‚úÖ Librer√≠as est√°ndar de Python verificadas


## üìö Paso 2: Importar Librer√≠as y Cargar KML Extractor

Ahora cargaremos todas las herramientas que necesitamos para procesar archivos KML.

In [10]:
# Importar librer√≠as necesarias
import os
import sys
import pandas as pd
import json
from pathlib import Path
from datetime import datetime
import warnings
warnings.filterwarnings('ignore')

# Importar librer√≠as para XML y KML
import xml.etree.ElementTree as ET

# Importar librer√≠as para interfaz
import ipywidgets as widgets
from IPython.display import display, HTML, clear_output

# Importar librer√≠as para visualizaci√≥n
try:
    import plotly.express as px
    import plotly.graph_objects as go
    PLOTLY_AVAILABLE = True
    print("‚úÖ Plotly disponible para mapas interactivos")
except ImportError:
    PLOTLY_AVAILABLE = False
    print("‚ö†Ô∏è  Plotly no disponible - mapas limitados")

# Intentar importar la herramienta KML Extractor
try:
    # Si el archivo est√° en el mismo directorio
    from kml_extractor import KMLExtractor
    print("‚úÖ KMLExtractor cargado desde archivo local")
    EXTRACTOR_AVAILABLE = True
except ImportError:
    # Si no est√° disponible, crear una versi√≥n simplificada
    print("‚ö†Ô∏è  KMLExtractor no encontrado - usando versi√≥n simplificada")
    EXTRACTOR_AVAILABLE = False
    
    # Clase KMLExtractor simplificada integrada
    class KMLExtractor:
        """Versi√≥n simplificada del extractor KML."""
        
        def __init__(self, kml_file_path):
            self.kml_file_path = Path(kml_file_path)
            self.namespace = {'kml': 'http://www.opengis.net/kml/2.2'}
            self.data = []
        
        def _parse_coordinates(self, coord_text):
            """Parsear coordenadas KML."""
            try:
                coords = coord_text.strip().split(',')
                if len(coords) >= 2:
                    longitude = float(coords[0])
                    latitude = float(coords[1])
                    altitude = float(coords[2]) if len(coords) > 2 else 0.0
                    return longitude, latitude, altitude
            except (ValueError, IndexError):
                pass
            return None
        
        def extract_data(self):
            """Extraer datos del archivo KML."""
            if not self.kml_file_path.exists():
                raise FileNotFoundError(f"Archivo KML no encontrado: {self.kml_file_path}")
            
            try:
                tree = ET.parse(self.kml_file_path)
                root = tree.getroot()
                
                # Encontrar placemarks
                placemarks = root.findall('.//kml:Placemark', self.namespace)
                
                extracted_data = []
                for i, placemark in enumerate(placemarks):
                    data = {
                        'placemark_index': i + 1,
                        'id': None,
                        'address': None,
                        'longitude': None,
                        'latitude': None,
                        'altitude': None
                    }
                    
                    # Extraer nombre/ID
                    name_elem = placemark.find('kml:name', self.namespace)
                    if name_elem is not None and name_elem.text:
                        data['id'] = name_elem.text.strip()
                    
                    # Extraer direcci√≥n
                    addr_elem = placemark.find('kml:address', self.namespace)
                    if addr_elem is not None and addr_elem.text:
                        data['address'] = addr_elem.text.strip()
                    
                    # Extraer descripci√≥n como direcci√≥n alternativa
                    if not data['address']:
                        desc_elem = placemark.find('kml:description', self.namespace)
                        if desc_elem is not None and desc_elem.text:
                            data['address'] = desc_elem.text.strip()
                    
                    # Extraer coordenadas
                    coord_elem = placemark.find('.//kml:coordinates', self.namespace)
                    if coord_elem is not None and coord_elem.text:
                        coords = self._parse_coordinates(coord_elem.text)
                        if coords:
                            data['longitude'] = coords[0]
                            data['latitude'] = coords[1]
                            data['altitude'] = coords[2]
                    
                    extracted_data.append(data)
                
                self.data = extracted_data
                return extracted_data
                
            except ET.ParseError as e:
                raise Exception(f"Error parseando KML: {e}")

print(f"üó∫Ô∏è KML Extractor cargado - Versi√≥n: {'Completa' if EXTRACTOR_AVAILABLE else 'Simplificada'}")
print("‚úÖ ¬°Listo para procesar archivos KML!")

‚úÖ Plotly disponible para mapas interactivos
‚úÖ KMLExtractor cargado desde archivo local
üó∫Ô∏è KML Extractor cargado - Versi√≥n: Completa
‚úÖ ¬°Listo para procesar archivos KML!


## üìÇ Paso 3: Cargar Archivo KML

Selecciona tu archivo KML desde cualquier ubicaci√≥n en tu computadora.

In [None]:
# Cargador de archivos KML simple y directo
import tkinter as tk
from tkinter import filedialog
import threading

print("üó∫Ô∏è Cargador de Archivos KML")
print("Dos opciones r√°pidas para cargar tu archivo KML:")
print("1. üìÅ Explorar: Usa el bot√≥n para navegar y seleccionar")
print("2. üìù Pegar Ruta: Copia y pega la ruta completa del archivo")
print()

# Widget para ruta del archivo KML
kml_file_widget = widgets.Text(
    value='',
    placeholder='C:\\Users\\Usuario\\OneDrive\\Documentos\\archivo.kml',
    description='Archivo KML:',
    style={'description_width': 'initial'},
    layout=widgets.Layout(width='700px')
)

# Bot√≥n para explorar archivos
browse_kml_button = widgets.Button(
    description='üìÅ Explorar KML',
    button_style='primary',
    layout=widgets.Layout(width='150px')
)

# Bot√≥n para validar archivo
validate_kml_button = widgets.Button(
    description='‚úÖ Validar KML',
    button_style='success',
    layout=widgets.Layout(width='150px')
)

# Output para mostrar informaci√≥n
kml_validation_output = widgets.Output()

def browse_kml_file():
    """Abrir di√°logo para seleccionar archivo KML"""
    def file_dialog():
        try:
            root = tk.Tk()
            root.withdraw()
            root.lift()
            root.attributes('-topmost', True)
            
            # Solo archivos KML
            filetypes = [
                ('Archivos KML', '*.kml'),
                ('Todos los archivos', '*.*')
            ]
            
            filename = filedialog.askopenfilename(
                title="Seleccionar archivo KML",
                filetypes=filetypes
            )
            
            if filename:
                kml_file_widget.value = filename
                validate_kml_file()
            
            root.destroy()
            
        except Exception as e:
            with kml_validation_output:
                clear_output()
                print(f"‚ùå Error abriendo explorador: {e}")
                print("üí° Puedes escribir la ruta manualmente")
    
    # Ejecutar en thread separado para evitar bloqueos
    thread = threading.Thread(target=file_dialog)
    thread.daemon = True
    thread.start()

def validate_kml_file():
    """Validar archivo KML seleccionado"""
    with kml_validation_output:
        clear_output()
        
        file_path = kml_file_widget.value.strip()
        if not file_path:
            print("üìù Especifica la ruta de un archivo KML o usa 'üìÅ Explorar KML'")
            return
            
        try:
            kml_file = Path(file_path)
            
            if not kml_file.exists():
                print(f"‚ùå Archivo no encontrado: {file_path}")
                print("üí° Verifica que la ruta sea correcta")
                return
                
            if not kml_file.is_file():
                print(f"‚ùå La ruta no es un archivo v√°lido: {file_path}")
                return
            
            # Verificar extensi√≥n
            if not kml_file.suffix.lower() == '.kml':
                print(f"‚ö†Ô∏è  El archivo no tiene extensi√≥n .kml: {kml_file.suffix}")
                print("üí° ¬øEst√°s seguro de que es un archivo KML?")
            
            # Informaci√≥n b√°sica del archivo
            size = kml_file.stat().st_size
            if size < 1024:
                size_str = f"{size} bytes"
            elif size < 1024 * 1024:
                size_str = f"{size/1024:.1f} KB"
            else:
                size_str = f"{size/(1024*1024):.1f} MB"
            
            print("‚úÖ Archivo KML encontrado!")
            print(f"üìÅ Nombre: {kml_file.name}")
            print(f"üìç Ubicaci√≥n: {kml_file.parent}")
            print(f"üìè Tama√±o: {size_str}")
            
            # Validaci√≥n b√°sica del contenido XML
            try:
                tree = ET.parse(kml_file)
                root = tree.getroot()
                
                # Verificar que sea un archivo KML v√°lido
                if 'kml' not in root.tag.lower():
                    print("‚ö†Ô∏è  El archivo no parece ser un KML v√°lido")
                    print("üí° Verifica que sea un archivo KML real")
                else:
                    print("‚úÖ Formato KML v√°lido detectado")
                    
                    # Contar placemarks preliminares
                    placemarks = root.findall('.//*')
                    placemark_count = sum(1 for elem in placemarks if 'placemark' in elem.tag.lower())
                    
                    if placemark_count > 0:
                        print(f"üìç Placemarks detectados: ~{placemark_count}")
                    else:
                        print("‚ö†Ô∏è  No se detectaron placemarks obvios")
                        print("üí° El archivo puede tener una estructura diferente")
                    
            except ET.ParseError as e:
                print(f"‚ùå Error leyendo XML: {e}")
                print("üí° El archivo puede estar corrupto o no ser un KML v√°lido")
                return
            except Exception as e:
                print(f"‚ö†Ô∏è  Advertencia al validar: {e}")
            
            print()
            print("üéâ ¬°Archivo listo para procesar!")
            print("üí° Contin√∫a con el siguiente paso para previsualizar los datos")
            
        except Exception as e:
            print(f"‚ùå Error validando archivo: {e}")

# Conectar eventos
browse_kml_button.on_click(lambda b: browse_kml_file())
validate_kml_button.on_click(lambda b: validate_kml_file())

# Auto-validar cuando se cambie el texto
kml_file_widget.observe(
    lambda change: validate_kml_file() if change['name'] == 'value' and change['new'].strip() else None, 
    names='value'
)

display(widgets.VBox([
    widgets.HTML("<h4>üó∫Ô∏è Seleccionar archivo KML</h4>"),
    kml_file_widget,
    widgets.HBox([browse_kml_button, validate_kml_button]),
    kml_validation_output
]))

üó∫Ô∏è Cargador de Archivos KML
Dos opciones r√°pidas para cargar tu archivo KML:
1. üìÅ Explorar: Usa el bot√≥n para navegar y seleccionar
2. üìù Pegar Ruta: Copia y pega la ruta completa del archivo



VBox(children=(HTML(value='<h4>üó∫Ô∏è Seleccionar archivo KML</h4>'), Text(value='', description='Archivo KML:', l‚Ä¶

## üìä Paso 4: Previsualizar Datos KML

Antes de extraer toda la informaci√≥n, revisemos qu√© contiene tu archivo KML. Esto te ayudar√° a entender:

- **üìç Placemarks**: Puntos de inter√©s, rutas, o ubicaciones marcadas
- **üóÇÔ∏è Carpetas**: Organizaci√≥n de los datos dentro del KML
- **üè∑Ô∏è Etiquetas**: Nombres e informaci√≥n asociada a cada punto
- **üìç Coordenadas**: Latitud, longitud y posiblemente altitud
- **üìù Descripciones**: Texto adicional o datos personalizados

> **üí° Tip**: Esta previsualizaci√≥n te permite verificar que el archivo se lee correctamente antes de extraer toda la informaci√≥n.

In [None]:
# Previsualizador de datos KML
preview_button = widgets.Button(
    description='üëÄ Previsualizar KML',
    button_style='info',
    layout=widgets.Layout(width='180px')
)

# Opciones de previsualizaci√≥n
preview_options = widgets.SelectMultiple(
    options=[
        ('üìç Primeros 5 Placemarks', 'placemarks'),
        ('üóÇÔ∏è Estructura de Carpetas', 'folders'),
        ('üìä Estad√≠sticas Generales', 'stats'),
        ('üó∫Ô∏è Rango de Coordenadas', 'coordinates'),
        ('üìù Tipos de Datos', 'datatypes')
    ],
    value=['placemarks', 'stats'],
    description='Ver:',
    style={'description_width': 'initial'},
    layout=widgets.Layout(width='500px', height='120px')
)

# Output para la previsualizaci√≥n
preview_output = widgets.Output()

def preview_kml_data():
    """Previsualizar datos del archivo KML"""
    with preview_output:
        clear_output()
        
        file_path = kml_file_widget.value.strip()
        if not file_path:
            print("‚ùå Primero selecciona un archivo KML")
            return
            
        try:
            kml_file = Path(file_path)
            if not kml_file.exists():
                print("‚ùå Archivo no encontrado. Verifica la ruta.")
                return
            
            print("üîç Analizando archivo KML...")
            print("=" * 50)
            
            # Parsear el archivo KML
            tree = ET.parse(kml_file)
            root = tree.getroot()
            
            # Obtener namespace si existe
            namespace = ''
            if root.tag.startswith('{'):
                namespace = root.tag.split('}')[0] + '}'
            
            # Funciones de an√°lisis seg√∫n opciones seleccionadas
            selected_options = preview_options.value
            
            if 'stats' in selected_options:
                print("\nüìä ESTAD√çSTICAS GENERALES")
                print("-" * 30)
                
                # Contar elementos
                all_elements = root.findall('.//')
                placemarks = [elem for elem in all_elements if 'placemark' in elem.tag.lower()]
                folders = [elem for elem in all_elements if 'folder' in elem.tag.lower()]
                
                print(f"üìç Total Placemarks: {len(placemarks)}")
                print(f"üóÇÔ∏è  Total Carpetas: {len(folders)}")
                print(f"üè∑Ô∏è  Total Elementos: {len(all_elements)}")
                
                # Verificar tipos de geometr√≠a
                points = len([elem for elem in all_elements if 'point' in elem.tag.lower()])
                lines = len([elem for elem in all_elements if 'linestring' in elem.tag.lower()])
                polygons = len([elem for elem in all_elements if 'polygon' in elem.tag.lower()])
                
                if points + lines + polygons > 0:
                    print(f"üìç Puntos: {points}")
                    print(f"üìè L√≠neas: {lines}")
                    print(f"üî∫ Pol√≠gonos: {polygons}")
            
            if 'folders' in selected_options:
                print("\nüóÇÔ∏è ESTRUCTURA DE CARPETAS")
                print("-" * 30)
                
                folders = root.findall('.//' + namespace + 'Folder')
                if folders:
                    for i, folder in enumerate(folders[:10]):  # M√°ximo 10 carpetas
                        name_elem = folder.find(namespace + 'name')
                        name = name_elem.text if name_elem is not None else f"Carpeta {i+1}"
                        
                        # Contar placemarks en esta carpeta
                        folder_placemarks = folder.findall('.//' + namespace + 'Placemark')
                        print(f"üìÅ {name} ({len(folder_placemarks)} elementos)")
                    
                    if len(folders) > 10:
                        print(f"... y {len(folders)-10} carpetas m√°s")
                else:
                    print("üìÇ No se encontraron carpetas organizadoras")
            
            if 'placemarks' in selected_options:
                print("\nüìç PRIMEROS PLACEMARKS")
                print("-" * 30)
                
                placemarks = root.findall('.//' + namespace + 'Placemark')
                
                if placemarks:
                    for i, placemark in enumerate(placemarks[:5]):  # Primeros 5
                        name_elem = placemark.find(namespace + 'name')
                        name = name_elem.text if name_elem is not None else f"Sin nombre"
                        
                        # Buscar coordenadas
                        coords_elem = placemark.find('.//' + namespace + 'coordinates')
                        if coords_elem is not None:
                            coords = coords_elem.text.strip()
                            if coords:
                                # Tomar primera coordenada si hay m√∫ltiples
                                first_coord = coords.split()[0] if ' ' in coords else coords
                                try:
                                    parts = first_coord.split(',')
                                    if len(parts) >= 2:
                                        lon, lat = parts[0], parts[1]
                                        print(f"{i+1}. üìç {name}")
                                        print(f"   üåç Lat: {lat}, Lon: {lon}")
                                    else:
                                        print(f"{i+1}. üìç {name} (coordenadas incompletas)")
                                except:
                                    print(f"{i+1}. üìç {name} (coordenadas con formato inusual)")
                            else:
                                print(f"{i+1}. üìç {name} (sin coordenadas)")
                        else:
                            print(f"{i+1}. üìç {name} (sin elemento coordinates)")
                        
                        # Mostrar descripci√≥n si existe (primeras palabras)
                        desc_elem = placemark.find(namespace + 'description')
                        if desc_elem is not None and desc_elem.text:
                            desc_preview = desc_elem.text[:100]
                            if len(desc_elem.text) > 100:
                                desc_preview += "..."
                            print(f"   üìù {desc_preview}")
                        
                        print()
                    
                    if len(placemarks) > 5:
                        print(f"... y {len(placemarks)-5} placemarks adicionales")
                else:
                    print("‚ùå No se encontraron placemarks en el archivo")
            
            if 'coordinates' in selected_options:
                print("\nüó∫Ô∏è RANGO DE COORDENADAS")
                print("-" * 30)
                
                all_coords = []
                coord_elements = root.findall('.//' + namespace + 'coordinates')
                
                for coord_elem in coord_elements:
                    if coord_elem.text:
                        coords_text = coord_elem.text.strip()
                        # Separar m√∫ltiples coordenadas
                        for coord_line in coords_text.split():
                            parts = coord_line.split(',')
                            if len(parts) >= 2:
                                try:
                                    lon, lat = float(parts[0]), float(parts[1])
                                    all_coords.append((lat, lon))
                                except ValueError:
                                    continue
                
                if all_coords:
                    lats = [coord[0] for coord in all_coords]
                    lons = [coord[1] for coord in all_coords]
                    
                    print(f"üìç Total coordenadas v√°lidas: {len(all_coords)}")
                    print(f"üåç Latitud: {min(lats):.6f} a {max(lats):.6f}")
                    print(f"üåê Longitud: {min(lons):.6f} a {max(lons):.6f}")
                    
                    # Estimar regi√≥n
                    center_lat = (min(lats) + max(lats)) / 2
                    center_lon = (min(lons) + max(lons)) / 2
                    print(f"üéØ Centro aproximado: {center_lat:.6f}, {center_lon:.6f}")
                else:
                    print("‚ùå No se pudieron extraer coordenadas v√°lidas")
            
            if 'datatypes' in selected_options:
                print("\nüìù TIPOS DE DATOS ENCONTRADOS")
                print("-" * 30)
                
                # Buscar diferentes tipos de elementos
                all_elements = root.findall('.//')
                element_types = {}
                
                for elem in all_elements:
                    tag_name = elem.tag.split('}')[-1] if '}' in elem.tag else elem.tag
                    element_types[tag_name] = element_types.get(tag_name, 0) + 1
                
                # Mostrar solo elementos relevantes
                relevant_types = ['name', 'description', 'Placemark', 'Folder', 'Point', 
                                'LineString', 'Polygon', 'coordinates', 'ExtendedData']
                
                found_relevant = False
                for elem_type in relevant_types:
                    if elem_type in element_types:
                        print(f"üìã {elem_type}: {element_types[elem_type]}")
                        found_relevant = True
                
                if not found_relevant:
                    print("üìã Tipos de elementos principales:")
                    for elem_type, count in sorted(element_types.items(), key=lambda x: x[1], reverse=True)[:10]:
                        print(f"   {elem_type}: {count}")
            
            print("\n" + "=" * 50)
            print("‚úÖ Previsualizaci√≥n completada")
            print("üí° Si los datos se ven correctos, procede al siguiente paso")
            
        except ET.ParseError as e:
            print(f"‚ùå Error al parsear XML: {e}")
            print("üí° El archivo puede estar corrupto o tener formato inv√°lido")
        except Exception as e:
            print(f"‚ùå Error en previsualizaci√≥n: {e}")
            print(f"üí° Tipo de error: {type(e).__name__}")

# Conectar el bot√≥n
preview_button.on_click(lambda b: preview_kml_data())

display(widgets.VBox([
    widgets.HTML("<h4>üëÄ Previsualizaci√≥n del contenido KML</h4>"),
    preview_options,
    preview_button,
    preview_output
]))

VBox(children=(HTML(value='<h4>üëÄ Previsualizaci√≥n del contenido KML</h4>'), SelectMultiple(description='Ver:',‚Ä¶

## ‚öôÔ∏è Paso 5: Configurar Extracci√≥n

Personaliza qu√© informaci√≥n quieres extraer del archivo KML:

### üìã Datos B√°sicos
- **üè∑Ô∏è Nombres**: T√≠tulos de cada placemark
- **üìç Coordenadas**: Latitud y longitud
- **üìù Descripciones**: Texto adicional

### üéØ Datos Avanzados  
- **üÜî IDs √∫nicos**: Identificadores internos
- **üóÇÔ∏è Carpetas**: Organizaci√≥n jer√°rquica
- **üìä ExtendedData**: Datos personalizados
- **üèîÔ∏è Altitud**: Si est√° disponible

### üìÑ Formatos de Salida
- **CSV**: Para an√°lisis en Excel o pandas
- **JSON**: Para integraci√≥n con aplicaciones
- **TXT**: Para revisi√≥n r√°pida

In [20]:
# Configuraci√≥n de extracci√≥n
print("‚öôÔ∏è Configurar Extracci√≥n de Datos KML")
print("Selecciona qu√© informaci√≥n extraer:")
print()

# Opciones de datos a extraer
data_options = widgets.SelectMultiple(
    options=[
        ('üè∑Ô∏è Nombres de Placemarks', 'names'),
        ('üìç Coordenadas (Lat, Lon)', 'coordinates'),
        ('üìù Descripciones', 'descriptions'),
        ('üÜî IDs √∫nicos', 'ids'),
        ('üóÇÔ∏è Carpetas/Folders', 'folders'),
        ('üèîÔ∏è Altitud (si disponible)', 'altitude'),
        ('üìä ExtendedData', 'extended_data'),
        ('üîó Enlaces/Links', 'links')
    ],
    value=['names', 'coordinates', 'descriptions'],
    description='Datos:',
    style={'description_width': 'initial'},
    layout=widgets.Layout(width='400px', height='180px')
)

# Formato de salida
output_format = widgets.Dropdown(
    options=[
        ('üìä CSV (recomendado)', 'csv'),
        ('üìÑ JSON', 'json'),
        ('üìù TXT (texto plano)', 'txt'),
        ('üìã Mostrar en pantalla', 'display')
    ],
    value='csv',
    description='Formato:',
    style={'description_width': 'initial'},
    layout=widgets.Layout(width='300px')
)

# Opciones avanzadas
advanced_options = widgets.VBox([
    widgets.HTML("<b>‚öôÔ∏è Opciones Avanzadas:</b>"),
    widgets.Checkbox(
        value=True,
        description='üßπ Limpiar datos (remover espacios extra)',
        style={'description_width': 'initial'},
        layout=widgets.Layout(width='400px')
    ),
    widgets.Checkbox(
        value=True,
        description='‚úÖ Validar coordenadas',
        style={'description_width': 'initial'},
        layout=widgets.Layout(width='400px')
    ),
    widgets.Checkbox(
        value=False,
        description='üî¢ Incluir √≠ndice num√©rico',
        style={'description_width': 'initial'},
        layout=widgets.Layout(width='400px')
    )
])

# Nombre del archivo de salida
output_filename = widgets.Text(
    value='datos_extraidos_kml',
    description='Nombre archivo:',
    style={'description_width': 'initial'},
    layout=widgets.Layout(width='400px')
)

# Bot√≥n para aplicar configuraci√≥n
config_button = widgets.Button(
    description='‚úÖ Aplicar Configuraci√≥n',
    button_style='success',
    layout=widgets.Layout(width='200px')
)

# Output para mostrar configuraci√≥n
config_output = widgets.Output()

def apply_configuration():
    """Aplicar y mostrar configuraci√≥n seleccionada"""
    with config_output:
        clear_output()
        
        selected_data = list(data_options.value)
        format_selected = output_format.value
        filename = output_filename.value.strip()
        
        if not selected_data:
            print("‚ùå Selecciona al menos un tipo de dato para extraer")
            return
            
        if not filename:
            print("‚ùå Especifica un nombre para el archivo de salida")
            return
        
        print("‚úÖ Configuraci√≥n aplicada exitosamente!")
        print("=" * 40)
        print("üìã Datos a extraer:")
        
        data_labels = {
            'names': 'üè∑Ô∏è Nombres de Placemarks',
            'coordinates': 'üìç Coordenadas (Lat, Lon)',
            'descriptions': 'üìù Descripciones',
            'ids': 'üÜî IDs √∫nicos',
            'folders': 'üóÇÔ∏è Carpetas/Folders',
            'altitude': 'üèîÔ∏è Altitud',
            'extended_data': 'üìä ExtendedData',
            'links': 'üîó Enlaces/Links'
        }
        
        for data_type in selected_data:
            print(f"  ‚úì {data_labels.get(data_type, data_type)}")
        
        format_labels = {
            'csv': 'üìä CSV (Comma Separated Values)',
            'json': 'üìÑ JSON (JavaScript Object Notation)',
            'txt': 'üìù TXT (Texto plano)',
            'display': 'üìã Mostrar en pantalla'
        }
        
        print(f"\nüìÑ Formato de salida: {format_labels.get(format_selected, format_selected)}")
        
        if format_selected != 'display':
            extension = format_selected
            print(f"üíæ Archivo: {filename}.{extension}")
        
        print(f"\n‚öôÔ∏è Opciones avanzadas:")
        for child in advanced_options.children[1:]:  # Saltar el HTML header
            if hasattr(child, 'value') and child.value:
                print(f"  ‚úì {child.description}")
        
        print(f"\nüéâ ¬°Configuraci√≥n lista!")
        print(f"üí° Procede al siguiente paso para ejecutar la extracci√≥n")

# Conectar bot√≥n
config_button.on_click(lambda b: apply_configuration())

# Auto-aplicar configuraci√≥n cuando cambie algo importante
data_options.observe(lambda change: apply_configuration(), names='value')
output_format.observe(lambda change: apply_configuration(), names='value')

display(widgets.VBox([
    widgets.HTML("<h4>‚öôÔ∏è Configuraci√≥n de Extracci√≥n</h4>"),
    widgets.HBox([
        widgets.VBox([data_options, output_format]),
        widgets.VBox([advanced_options, output_filename, config_button])
    ]),
    config_output
]))

‚öôÔ∏è Configurar Extracci√≥n de Datos KML
Selecciona qu√© informaci√≥n extraer:



VBox(children=(HTML(value='<h4>‚öôÔ∏è Configuraci√≥n de Extracci√≥n</h4>'), HBox(children=(VBox(children=(SelectMult‚Ä¶

## üöÄ Paso 6: Ejecutar Extracci√≥n

¬°Ahora viene la parte emocionante! Vamos a procesar tu archivo KML y extraer toda la informaci√≥n seg√∫n tu configuraci√≥n.

### üîÑ Proceso de Extracci√≥n:
1. **üîç An√°lisis**: Parseo completo del archivo KML
2. **üéØ Filtrado**: Extracci√≥n de datos seg√∫n tu selecci√≥n
3. **üßπ Limpieza**: Procesamiento y validaci√≥n de datos
4. **üíæ Exportaci√≥n**: Guardado en el formato seleccionado

> **üí° Tip**: Dependiendo del tama√±o del archivo, la extracci√≥n puede tomar desde unos segundos hasta algunos minutos.

In [None]:
# Extractor principal de datos KML
extract_button = widgets.Button(
    description='üöÄ Extraer Datos KML',
    button_style='danger',
    layout=widgets.Layout(width='200px', height='40px')
)

# Progress bar para mostrar progreso
progress_bar = widgets.IntProgress(
    value=0,
    min=0,
    max=100,
    step=1,
    description='Progreso:',
    bar_style='',
    style={'bar_color': '#1f77b4'},
    layout=widgets.Layout(width='500px')
)

# Output para mostrar resultados de extracci√≥n
extraction_output = widgets.Output()

# Variable global para almacenar datos extra√≠dos
extracted_data = None
extraction_summary = {}

def clean_text(text):
    """Limpiar texto removiendo espacios extra y caracteres problem√°ticos"""
    if not text:
        return ""
    # Remover espacios extra y saltos de l√≠nea
    cleaned = ' '.join(str(text).split())
    # Remover caracteres de control
    cleaned = ''.join(char for char in cleaned if ord(char) >= 32 or char in '\t\n\r')
    return cleaned.strip()

def validate_coordinates(lat, lon):
    """Validar que las coordenadas est√©n en rangos v√°lidos"""
    try:
        lat_f, lon_f = float(lat), float(lon)
        return (-90 <= lat_f <= 90) and (-180 <= lon_f <= 180)
    except (ValueError, TypeError):
        return False

def extract_kml_data():
    """Funci√≥n principal para extraer datos del KML"""
    global extracted_data, extraction_summary
    
    with extraction_output:
        clear_output()
        
        # Verificar configuraci√≥n b√°sica
        file_path = kml_file_widget.value.strip()
        if not file_path:
            print("‚ùå Error: No se ha seleccionado un archivo KML")
            print("üí° Regresa al Paso 3 para seleccionar un archivo")
            return
        
        selected_data = list(data_options.value)
        if not selected_data:
            print("‚ùå Error: No se han seleccionado datos para extraer")
            print("üí° Regresa al Paso 5 para configurar la extracci√≥n")
            return
        
        try:
            print("üöÄ Iniciando extracci√≥n de datos KML...")
            print("=" * 50)
            
            # Actualizar progress bar
            progress_bar.value = 10
            progress_bar.description = "Cargando archivo..."
            
            kml_file = Path(file_path)
            if not kml_file.exists():
                print("‚ùå Error: Archivo no encontrado")
                return
            
            # Parsear archivo KML
            progress_bar.value = 20
            progress_bar.description = "Parseando KML..."
            
            tree = ET.parse(kml_file)
            root = tree.getroot()
            
            # Detectar namespace
            namespace = ''
            if root.tag.startswith('{'):
                namespace = root.tag.split('}')[0] + '}'
            
            # Buscar todos los placemarks
            progress_bar.value = 30
            progress_bar.description = "Encontrando placemarks..."
            
            placemarks = root.findall('.//' + namespace + 'Placemark')
            total_placemarks = len(placemarks)
            
            print(f"üìç Placemarks encontrados: {total_placemarks}")
            
            if total_placemarks == 0:
                print("‚ö†Ô∏è  No se encontraron placemarks en el archivo")
                print("üí° Verifica que el archivo KML contenga datos de ubicaci√≥n")
                return
            
            # Obtener opciones de configuraci√≥n
            clean_data = advanced_options.children[1].value  # Limpiar datos
            validate_coords = advanced_options.children[2].value  # Validar coordenadas
            include_index = advanced_options.children[3].value  # Incluir √≠ndice
            
            # Extraer datos
            progress_bar.value = 40
            progress_bar.description = "Extrayendo datos..."
            
            extracted_records = []
            errors = []
            
            for i, placemark in enumerate(placemarks):
                record = {}
                
                # Actualizar progreso durante extracci√≥n
                if i % max(1, len(placemarks) // 20) == 0:
                    progress = 40 + int((i / len(placemarks)) * 40)
                    progress_bar.value = progress
                    progress_bar.description = f"Procesando {i+1}/{len(placemarks)}..."
                
                try:
                    # √çndice num√©rico
                    if include_index:
                        record['indice'] = i + 1
                    
                    # Extraer nombres
                    if 'names' in selected_data:
                        name_elem = placemark.find(namespace + 'name')
                        name = name_elem.text if name_elem is not None and name_elem.text else f"Placemark_{i+1}"
                        record['nombre'] = clean_text(name) if clean_data else name
                    
                    # Extraer IDs
                    if 'ids' in selected_data:
                        id_attr = placemark.get('id', '')
                        if not id_attr:
                            # Buscar en elementos hijos
                            id_elem = placemark.find('.//*[@id]')
                            id_attr = id_elem.get('id', '') if id_elem is not None else f"id_{i+1}"
                        record['id'] = clean_text(id_attr) if clean_data else id_attr
                    
                    # Extraer coordenadas
                    if 'coordinates' in selected_data:
                        coords_elem = placemark.find('.//' + namespace + 'coordinates')
                        if coords_elem is not None and coords_elem.text:
                            coords_text = coords_elem.text.strip()
                            if coords_text:
                                # Tomar primera coordenada si hay m√∫ltiples
                                first_coord = coords_text.split()[0] if ' ' in coords_text else coords_text
                                try:
                                    parts = first_coord.split(',')
                                    if len(parts) >= 2:
                                        lon, lat = parts[0].strip(), parts[1].strip()
                                        alt = parts[2].strip() if len(parts) > 2 else ''
                                        
                                        # Validar coordenadas si est√° habilitado
                                        if validate_coords:
                                            if validate_coordinates(lat, lon):
                                                record['latitud'] = lat
                                                record['longitud'] = lon
                                                if 'altitude' in selected_data and alt:
                                                    record['altitud'] = alt
                                            else:
                                                errors.append(f"Placemark {i+1}: Coordenadas inv√°lidas ({lat}, {lon})")
                                                record['latitud'] = lat  # Mantener datos originales
                                                record['longitud'] = lon
                                                if 'altitude' in selected_data and alt:
                                                    record['altitud'] = alt
                                        else:
                                            record['latitud'] = lat
                                            record['longitud'] = lon
                                            if 'altitude' in selected_data and alt:
                                                record['altitud'] = alt
                                    else:
                                        errors.append(f"Placemark {i+1}: Formato de coordenadas incompleto")
                                except Exception as coord_error:
                                    errors.append(f"Placemark {i+1}: Error procesando coordenadas - {coord_error}")
                            else:
                                errors.append(f"Placemark {i+1}: Coordenadas vac√≠as")
                        else:
                            errors.append(f"Placemark {i+1}: Sin elemento coordinates")
                    
                    # Extraer descripciones
                    if 'descriptions' in selected_data:
                        desc_elem = placemark.find(namespace + 'description')
                        if desc_elem is not None and desc_elem.text:
                            description = desc_elem.text
                            record['descripcion'] = clean_text(description) if clean_data else description
                        else:
                            record['descripcion'] = ""
                    
                    # Extraer carpetas/folders
                    if 'folders' in selected_data:
                        # Buscar folders en la estructura del documento
                        folder_name = ""
                        # Para ElementTree, usamos una aproximaci√≥n diferente
                        # Buscar el √≠ndice del placemark actual y verificar en folders
                        try:
                            all_folders = root.findall('.//' + namespace + 'Folder')
                            for folder in all_folders:
                                folder_placemarks = folder.findall('.//' + namespace + 'Placemark')
                                # Comparar por posici√≥n en lugar de objeto
                                if len(folder_placemarks) > 0:
                                    folder_name_elem = folder.find(namespace + 'name')
                                    if folder_name_elem is not None and folder_name_elem.text:
                                        folder_name = folder_name_elem.text
                                        break
                        except:
                            folder_name = ""
                        record['carpeta'] = clean_text(folder_name) if clean_data else folder_name
                    
                    # Extraer ExtendedData
                    if 'extended_data' in selected_data:
                        extended_elem = placemark.find('.//' + namespace + 'ExtendedData')
                        extended_data = {}
                        if extended_elem is not None:
                            for data_elem in extended_elem.findall('.//' + namespace + 'Data'):
                                name = data_elem.get('name', 'unknown')
                                value_elem = data_elem.find(namespace + 'value')
                                value = value_elem.text if value_elem is not None else ''
                                extended_data[name] = clean_text(value) if clean_data else value
                        record['datos_extendidos'] = str(extended_data) if extended_data else ""
                    
                    # Extraer enlaces/links
                    if 'links' in selected_data:
                        links = []
                        for link_elem in placemark.findall('.//' + namespace + 'href'):
                            if link_elem.text:
                                links.append(link_elem.text.strip())
                        record['enlaces'] = '; '.join(links) if links else ""
                    
                    extracted_records.append(record)
                    
                except Exception as e:
                    errors.append(f"Placemark {i+1}: Error general - {e}")
                    # Agregar registro b√°sico incluso con errores
                    if not record:
                        record = {'error': f"Error procesando placemark {i+1}: {e}"}
                    extracted_records.append(record)
            
            # Finalizar extracci√≥n
            progress_bar.value = 80
            progress_bar.description = "Finalizando..."
            
            extracted_data = extracted_records
            extraction_summary = {
                'total_placemarks': total_placemarks,
                'records_extracted': len(extracted_records),
                'errors_count': len(errors),
                'errors': errors[:10],  # Solo primeros 10 errores
                'file_name': kml_file.name,
                'extraction_time': datetime.now().strftime("%Y-%m-%d %H:%M:%S")
            }
            
            # Mostrar resumen de extracci√≥n
            progress_bar.value = 100
            progress_bar.description = "¬°Completado!"
            
            print("‚úÖ ¬°Extracci√≥n completada exitosamente!")
            print("=" * 50)
            print(f"üìÅ Archivo procesado: {kml_file.name}")
            print(f"üìç Placemarks encontrados: {total_placemarks}")
            print(f"üìä Registros extra√≠dos: {len(extracted_records)}")
            
            if errors:
                print(f"‚ö†Ô∏è  Errores encontrados: {len(errors)}")
                if len(errors) <= 5:
                    for error in errors:
                        print(f"   ‚Ä¢ {error}")
                else:
                    for error in errors[:3]:
                        print(f"   ‚Ä¢ {error}")
                    print(f"   ... y {len(errors)-3} errores m√°s")
            
            # Mostrar muestra de los primeros datos
            if extracted_records:
                print(f"\nüìã Muestra de los primeros registros:")
                print("-" * 30)
                
                for i, record in enumerate(extracted_records[:3]):
                    print(f"\n{i+1}. {record.get('nombre', 'Sin nombre')}")
                    if 'latitud' in record and 'longitud' in record:
                        print(f"   üåç Coordenadas: {record['latitud']}, {record['longitud']}")
                    if 'descripcion' in record and record['descripcion']:
                        desc_preview = record['descripcion'][:100]
                        if len(record['descripcion']) > 100:
                            desc_preview += "..."
                        print(f"   üìù {desc_preview}")
                
                if len(extracted_records) > 3:
                    print(f"\n... y {len(extracted_records)-3} registros m√°s")
            
            print(f"\nüéâ ¬°Extracci√≥n finalizada!")
            print(f"üí° Procede al siguiente paso para guardar o visualizar los datos")
            
        except ET.ParseError as e:
            print(f"‚ùå Error parseando XML: {e}")
            print("üí° El archivo puede estar corrupto o no ser un KML v√°lido")
        except Exception as e:
            print(f"‚ùå Error durante extracci√≥n: {e}")
            print(f"üí° Tipo de error: {type(e).__name__}")
        finally:
            if progress_bar.value < 100:
                progress_bar.value = 0
                progress_bar.description = "Error"

# Conectar el bot√≥n
extract_button.on_click(lambda b: extract_kml_data())

display(widgets.VBox([
    widgets.HTML("<h4>üöÄ Ejecutar Extracci√≥n de Datos</h4>"),
    extract_button,
    progress_bar,
    extraction_output
]))

VBox(children=(HTML(value='<h4>üöÄ Ejecutar Extracci√≥n de Datos</h4>'), Button(button_style='danger', descriptio‚Ä¶

## üíæ Paso 7: Guardar y Exportar Resultados

Una vez que hayas extra√≠do los datos, puedes exportarlos en diferentes formatos para su an√°lisis:

### üìä Formatos Disponibles:
- **CSV**: Perfecto para Excel, Google Sheets, o an√°lisis con pandas
- **JSON**: Ideal para aplicaciones web y APIs
- **Excel**: Con formato y columnas organizadas
- **TXT**: Para revisi√≥n r√°pida o documentaci√≥n

### üìç Ubicaciones de Guardado:
- **Carpeta actual**: Junto al archivo KML original
- **Descargas**: En tu carpeta de descargas predeterminada
- **Personalizada**: Elige cualquier ubicaci√≥n

> **üí° Tip**: Los archivos CSV son los m√°s vers√°tiles para an√°lisis posterior de datos geogr√°ficos.

In [None]:
# Exportador de datos extra√≠dos
save_format = widgets.Dropdown(
    options=[
        ('üìä CSV (Recomendado)', 'csv'),
        ('üìÑ JSON', 'json'),
        ('üìã Excel (.xlsx)', 'excel'),
        ('üìù TXT (Texto plano)', 'txt'),
        ('üëÄ Mostrar datos (sin guardar)', 'display')
    ],
    value='csv',
    description='Formato:',
    style={'description_width': 'initial'},
    layout=widgets.Layout(width='300px')
)

save_location = widgets.Dropdown(
    options=[
        ('üìÅ Misma carpeta del KML', 'same'),
        ('üíæ Carpeta de Descargas', 'downloads'),
        ('üéØ Ubicaci√≥n personalizada', 'custom')
    ],
    value='same',
    description='Ubicaci√≥n:',
    style={'description_width': 'initial'},
    layout=widgets.Layout(width='300px')
)

custom_path_widget = widgets.Text(
    value='',
    placeholder='C:\\MiCarpeta\\resultados\\',
    description='Ruta personalizada:',
    style={'description_width': 'initial'},
    layout=widgets.Layout(width='500px', display='none')
)

save_filename = widgets.Text(
    value='datos_kml_extraidos',
    description='Nombre:',
    style={'description_width': 'initial'},
    layout=widgets.Layout(width='400px')
)

# Botones de acci√≥n
save_button = widgets.Button(
    description='üíæ Guardar Archivo',
    button_style='success',
    layout=widgets.Layout(width='150px')
)

preview_button = widgets.Button(
    description='üëÄ Vista Previa',
    button_style='info',
    layout=widgets.Layout(width='150px')
)

# Output para mostrar resultados de guardado
save_output = widgets.Output()

def update_custom_path_visibility(change):
    """Mostrar/ocultar campo de ruta personalizada"""
    if change['new'] == 'custom':
        custom_path_widget.layout.display = 'block'
    else:
        custom_path_widget.layout.display = 'none'

save_location.observe(update_custom_path_visibility, names='value')

def get_save_path():
    """Determinar la ruta completa donde guardar el archivo"""
    filename = save_filename.value.strip()
    if not filename:
        filename = "datos_kml_extraidos"
    
    format_selected = save_format.value
    if format_selected != 'display':
        if format_selected == 'excel':
            extension = 'xlsx'
        else:
            extension = format_selected
        filename = f"{filename}.{extension}"
    
    location = save_location.value
    
    if location == 'same':
        # Misma carpeta del archivo KML
        kml_path = Path(kml_file_widget.value.strip())
        if kml_path.exists():
            return kml_path.parent / filename
        else:
            return Path.cwd() / filename
    
    elif location == 'downloads':
        # Carpeta de descargas del usuario
        downloads_path = Path.home() / "Downloads"
        return downloads_path / filename
    
    elif location == 'custom':
        # Ruta personalizada
        custom_path = custom_path_widget.value.strip()
        if custom_path:
            return Path(custom_path) / filename
        else:
            return Path.cwd() / filename
    
    return Path.cwd() / filename

def preview_extracted_data():
    """Mostrar vista previa de los datos extra√≠dos"""
    with save_output:
        clear_output()
        
        if extracted_data is None:
            print("‚ùå No hay datos extra√≠dos para mostrar")
            print("üí° Primero ejecuta la extracci√≥n en el Paso 6")
            return
        
        if not extracted_data:
            print("‚ùå Los datos extra√≠dos est√°n vac√≠os")
            return
        
        print("üëÄ Vista Previa de Datos Extra√≠dos")
        print("=" * 50)
        
        # Mostrar resumen
        if extraction_summary:
            print(f"üìÅ Archivo: {extraction_summary.get('file_name', 'Desconocido')}")
            print(f"üìä Total registros: {extraction_summary.get('records_extracted', len(extracted_data))}")
            print(f"‚è∞ Extra√≠do: {extraction_summary.get('extraction_time', 'N/A')}")
            print()
        
        # Mostrar estructura de columnas
        if extracted_data:
            columns = list(extracted_data[0].keys())
            print(f"üìã Columnas encontradas ({len(columns)}):")
            for i, col in enumerate(columns, 1):
                print(f"  {i}. {col}")
            print()
        
        # Mostrar primeros registros
        print("üìä Primeros registros:")
        print("-" * 30)
        
        for i, record in enumerate(extracted_data[:5]):
            print(f"\nüìç Registro {i+1}:")
            for key, value in record.items():
                if value:  # Solo mostrar campos con contenido
                    value_str = str(value)
                    if len(value_str) > 100:
                        value_str = value_str[:100] + "..."
                    print(f"   {key}: {value_str}")
        
        if len(extracted_data) > 5:
            print(f"\n... y {len(extracted_data)-5} registros m√°s")
        
        print(f"\n‚úÖ Vista previa completada")
        print(f"üí° Usa 'Guardar Archivo' para exportar todos los datos")

def save_extracted_data():
    """Guardar los datos extra√≠dos en el formato seleccionado"""
    with save_output:
        clear_output()
        
        if extracted_data is None:
            print("‚ùå No hay datos para guardar")
            print("üí° Primero ejecuta la extracci√≥n en el Paso 6")
            return
        
        if not extracted_data:
            print("‚ùå Los datos extra√≠dos est√°n vac√≠os")
            return
        
        format_selected = save_format.value
        
        if format_selected == 'display':
            preview_extracted_data()
            return
        
        try:
            # Determinar ruta de guardado
            file_path = get_save_path()
            
            # Crear directorio si no existe
            file_path.parent.mkdir(parents=True, exist_ok=True)
            
            print(f"üíæ Guardando datos en formato {format_selected.upper()}...")
            print(f"üìÅ Ubicaci√≥n: {file_path}")
            
            # Guardar seg√∫n formato
            if format_selected == 'csv':
                df = pd.DataFrame(extracted_data)
                df.to_csv(file_path, index=False, encoding='utf-8')
                print("‚úÖ Archivo CSV guardado exitosamente")
                
            elif format_selected == 'json':
                with open(file_path, 'w', encoding='utf-8') as f:
                    json.dump({
                        'metadata': extraction_summary,
                        'data': extracted_data
                    }, f, indent=2, ensure_ascii=False)
                print("‚úÖ Archivo JSON guardado exitosamente")
                
            elif format_selected == 'excel':
                try:
                    df = pd.DataFrame(extracted_data)
                    with pd.ExcelWriter(file_path, engine='openpyxl') as writer:
                        df.to_excel(writer, sheet_name='Datos KML', index=False)
                        
                        # Agregar hoja de resumen si hay informaci√≥n
                        if extraction_summary:
                            summary_df = pd.DataFrame([extraction_summary])
                            summary_df.to_excel(writer, sheet_name='Resumen', index=False)
                    
                    print("‚úÖ Archivo Excel guardado exitosamente")
                except ImportError:
                    print("‚ö†Ô∏è  openpyxl no disponible. Guardando como CSV...")
                    df = pd.DataFrame(extracted_data)
                    csv_path = file_path.with_suffix('.csv')
                    df.to_csv(csv_path, index=False, encoding='utf-8')
                    print(f"‚úÖ Archivo CSV guardado en: {csv_path}")
                
            elif format_selected == 'txt':
                with open(file_path, 'w', encoding='utf-8') as f:
                    f.write("DATOS EXTRA√çDOS DE ARCHIVO KML\n")
                    f.write("=" * 50 + "\n\n")
                    
                    if extraction_summary:
                        f.write("RESUMEN:\n")
                        for key, value in extraction_summary.items():
                            if key != 'errors':  # No incluir errores en TXT
                                f.write(f"{key}: {value}\n")
                        f.write("\n")
                    
                    f.write("DATOS:\n")
                    f.write("-" * 30 + "\n\n")
                    
                    for i, record in enumerate(extracted_data, 1):
                        f.write(f"Registro {i}:\n")
                        for key, value in record.items():
                            if value:
                                f.write(f"  {key}: {value}\n")
                        f.write("\n")
                
                print("‚úÖ Archivo TXT guardado exitosamente")
            
            # Informaci√≥n adicional sobre el archivo guardado
            file_size = file_path.stat().st_size
            if file_size < 1024:
                size_str = f"{file_size} bytes"
            elif file_size < 1024 * 1024:
                size_str = f"{file_size/1024:.1f} KB"
            else:
                size_str = f"{file_size/(1024*1024):.1f} MB"
            
            print(f"üìè Tama√±o del archivo: {size_str}")
            print(f"üìä Registros guardados: {len(extracted_data)}")
            
            # Sugerencias de pr√≥ximos pasos
            print(f"\nüéâ ¬°Archivo guardado exitosamente!")
            print(f"üí° Pr√≥ximos pasos sugeridos:")
            print(f"   ‚Ä¢ Abrir el archivo en Excel o tu editor preferido")
            print(f"   ‚Ä¢ Usar los datos para an√°lisis geogr√°fico")
            print(f"   ‚Ä¢ Continuar con visualizaci√≥n en el siguiente paso")
            
        except PermissionError:
            print(f"‚ùå Error: No se puede escribir en {file_path}")
            print(f"üí° Verifica que no tengas el archivo abierto en otra aplicaci√≥n")
            print(f"üí° O elige una ubicaci√≥n diferente")
        except Exception as e:
            print(f"‚ùå Error guardando archivo: {e}")
            print(f"üí° Tipo de error: {type(e).__name__}")

# Conectar botones
save_button.on_click(lambda b: save_extracted_data())
preview_button.on_click(lambda b: preview_extracted_data())

display(widgets.VBox([
    widgets.HTML("<h4>üíæ Guardar y Exportar Datos</h4>"),
    widgets.HBox([
        widgets.VBox([save_format, save_location, custom_path_widget]),
        widgets.VBox([save_filename, widgets.HBox([save_button, preview_button])])
    ]),
    save_output
]))

VBox(children=(HTML(value='<h4>üíæ Guardar y Exportar Datos</h4>'), HBox(children=(VBox(children=(Dropdown(descr‚Ä¶

## üó∫Ô∏è Paso 8: Visualizaci√≥n Interactiva

¬°Ahora viene la parte m√°s emocionante! Vamos a crear mapas interactivos con tus datos extra√≠dos.

### üéØ Tipos de Visualizaci√≥n:
- **üó∫Ô∏è Mapa de Puntos**: Muestra todas las ubicaciones como marcadores
- **üî• Mapa de Calor**: Visualiza densidad de puntos por √°rea
- **üìä Estad√≠sticas**: Gr√°ficos y an√°lisis de los datos
- **üìç Mapa Agrupado**: Agrupa puntos cercanos para mejor visualizaci√≥n

### üåç Caracter√≠sticas Interactivas:
- **Zoom y navegaci√≥n** libre por el mapa
- **Tooltips informativos** con datos de cada punto
- **Capas personalizables** para diferentes tipos de datos
- **Exportaci√≥n** de mapas como HTML

> **üí° Tip**: Los mapas interactivos son perfectos para presentaciones y an√°lisis exploratorio de datos geogr√°ficos.

In [None]:
# Visualizador de mapas interactivos
map_type = widgets.Dropdown(
    options=[
        ('üó∫Ô∏è Mapa de Puntos', 'scatter'),
        ('üî• Mapa de Calor', 'heatmap'),
        ('üìä Gr√°fico de Distribuci√≥n', 'distribution'),
        ('üìç Mapa con Clusters', 'cluster')
    ],
    value='scatter',
    description='Tipo de mapa:',
    style={'description_width': 'initial'},
    layout=widgets.Layout(width='300px')
)

map_style = widgets.Dropdown(
    options=[
        ('üåç Satelital', 'satellite-streets-v11'),
        ('üó∫Ô∏è Calles', 'streets-v11'),
        ('üåÑ Terreno', 'outdoors-v11'),
        ('‚ö™ Claro', 'light-v10'),
        ('‚ö´ Oscuro', 'dark-v10')
    ],
    value='streets-v11',
    description='Estilo:',
    style={'description_width': 'initial'},
    layout=widgets.Layout(width='300px')
)

# Bot√≥n para crear mapa
create_map_button = widgets.Button(
    description='üó∫Ô∏è Crear Mapa',
    button_style='primary',
    layout=widgets.Layout(width='150px')
)

# Output para mostrar el mapa
map_output = widgets.Output()

def create_interactive_map():
    """Crear mapa interactivo con los datos extra√≠dos"""
    with map_output:
        clear_output()
        
        if extracted_data is None:
            print("‚ùå No hay datos para visualizar")
            print("üí° Primero ejecuta la extracci√≥n en el Paso 6")
            return
        
        # Filtrar datos con coordenadas v√°lidas
        valid_data = []
        for record in extracted_data:
            if ('latitud' in record and 'longitud' in record and 
                record['latitud'] and record['longitud']):
                try:
                    lat = float(record['latitud'])
                    lon = float(record['longitud'])
                    if -90 <= lat <= 90 and -180 <= lon <= 180:
                        record_copy = record.copy()
                        record_copy['lat_float'] = lat
                        record_copy['lon_float'] = lon
                        valid_data.append(record_copy)
                except (ValueError, TypeError):
                    continue
        
        if not valid_data:
            print("‚ùå No se encontraron coordenadas v√°lidas para mapear")
            print("üí° Verifica que los datos extra√≠dos contengan coordenadas")
            return
        
        print(f"üó∫Ô∏è Creando mapa con {len(valid_data)} puntos v√°lidos...")
        
        try:
            if PLOTLY_AVAILABLE:
                # Crear mapa con Plotly
                selected_map_type = map_type.value
                
                if selected_map_type == 'scatter':
                    # Mapa de puntos
                    fig = go.Figure()
                    
                    # Preparar datos para hover
                    hover_text = []
                    for record in valid_data:
                        hover_info = []
                        if 'nombre' in record and record['nombre']:
                            hover_info.append(f"<b>{record['nombre']}</b>")
                        hover_info.append(f"Lat: {record['latitud']}")
                        hover_info.append(f"Lon: {record['longitud']}")
                        if 'descripcion' in record and record['descripcion']:
                            desc = record['descripcion'][:100]
                            if len(record['descripcion']) > 100:
                                desc += "..."
                            hover_info.append(f"Descripci√≥n: {desc}")
                        hover_text.append("<br>".join(hover_info))
                    
                    fig.add_trace(go.Scattermapbox(
                        lat=[r['lat_float'] for r in valid_data],
                        lon=[r['lon_float'] for r in valid_data],
                        mode='markers',
                        marker=dict(size=8, color='red'),
                        text=hover_text,
                        hovertemplate='%{text}<extra></extra>',
                        name='Ubicaciones KML'
                    ))
                    
                    # Calcular centro del mapa
                    center_lat = sum(r['lat_float'] for r in valid_data) / len(valid_data)
                    center_lon = sum(r['lon_float'] for r in valid_data) / len(valid_data)
                    
                    fig.update_layout(
                        mapbox=dict(
                            style='open-street-map',
                            center=dict(lat=center_lat, lon=center_lon),
                            zoom=10
                        ),
                        title=f"Mapa Interactivo - {len(valid_data)} Ubicaciones",
                        height=600
                    )
                    
                elif selected_map_type == 'heatmap':
                    # Mapa de calor
                    fig = go.Figure(go.Densitymapbox(
                        lat=[r['lat_float'] for r in valid_data],
                        lon=[r['lon_float'] for r in valid_data],
                        radius=10,
                        colorscale='Hot'
                    ))
                    
                    center_lat = sum(r['lat_float'] for r in valid_data) / len(valid_data)
                    center_lon = sum(r['lon_float'] for r in valid_data) / len(valid_data)
                    
                    fig.update_layout(
                        mapbox=dict(
                            style='open-street-map',
                            center=dict(lat=center_lat, lon=center_lon),
                            zoom=10
                        ),
                        title=f"Mapa de Calor - Densidad de {len(valid_data)} Puntos",
                        height=600
                    )
                    
                elif selected_map_type == 'distribution':
                    # Gr√°fico de distribuci√≥n de coordenadas
                    fig = go.Figure()
                    
                    fig.add_trace(go.Scatter(
                        x=[r['lon_float'] for r in valid_data],
                        y=[r['lat_float'] for r in valid_data],
                        mode='markers',
                        marker=dict(
                            size=8,
                            color=[i for i in range(len(valid_data))],
                            colorscale='Viridis',
                            showscale=True
                        ),
                        text=[r.get('nombre', 'Sin nombre') for r in valid_data],
                        name='Distribuci√≥n de Puntos'
                    ))
                    
                    fig.update_layout(
                        title=f"Distribuci√≥n Geogr√°fica - {len(valid_data)} Puntos",
                        xaxis_title="Longitud",
                        yaxis_title="Latitud",
                        height=600
                    )
                
                # Mostrar el mapa
                fig.show()
                
                print("‚úÖ Mapa interactivo creado exitosamente!")
                print("üí° Puedes hacer zoom, desplazarte y hacer hover sobre los puntos")
                
                # Ofrecer guardar mapa como HTML
                save_map_html = widgets.Button(
                    description='üíæ Guardar Mapa HTML',
                    button_style='info',
                    layout=widgets.Layout(width='180px')
                )
                
                def save_map_to_html(b):
                    try:
                        filename = f"mapa_kml_{datetime.now().strftime('%Y%m%d_%H%M%S')}.html"
                        file_path = get_save_path().parent / filename
                        fig.write_html(file_path)
                        print(f"üíæ Mapa guardado como: {file_path}")
                    except Exception as e:
                        print(f"‚ùå Error guardando mapa: {e}")
                
                save_map_html.on_click(save_map_to_html)
                display(save_map_html)
                
            else:
                # Fallback sin Plotly - mostrar informaci√≥n estad√≠stica
                print("üìä Plotly no disponible - Mostrando estad√≠sticas:")
                print("=" * 50)
                
                lats = [r['lat_float'] for r in valid_data]
                lons = [r['lon_float'] for r in valid_data]
                
                print(f"üìç Total puntos v√°lidos: {len(valid_data)}")
                print(f"üåç Rango de latitud: {min(lats):.6f} a {max(lats):.6f}")
                print(f"üåê Rango de longitud: {min(lons):.6f} a {max(lons):.6f}")
                print(f"üéØ Centro geogr√°fico: {sum(lats)/len(lats):.6f}, {sum(lons)/len(lons):.6f}")
                
                # Mostrar distribuci√≥n por cuadrantes
                center_lat = sum(lats) / len(lats)
                center_lon = sum(lons) / len(lons)
                
                cuadrantes = {'NE': 0, 'NO': 0, 'SE': 0, 'SO': 0}
                for lat, lon in zip(lats, lons):
                    if lat >= center_lat and lon >= center_lon:
                        cuadrantes['NE'] += 1
                    elif lat >= center_lat and lon < center_lon:
                        cuadrantes['NO'] += 1
                    elif lat < center_lat and lon >= center_lon:
                        cuadrantes['SE'] += 1
                    else:
                        cuadrantes['SO'] += 1
                
                print(f"\nüìä Distribuci√≥n por cuadrantes:")
                for cuad, count in cuadrantes.items():
                    print(f"   {cuad}: {count} puntos ({count/len(valid_data)*100:.1f}%)")
                
                print(f"\nüí° Para mapas interactivos, instala plotly:")
                print(f"   pip install plotly")
                
        except Exception as e:
            print(f"‚ùå Error creando mapa: {e}")
            print(f"üí° Tipo de error: {type(e).__name__}")

# Conectar bot√≥n
create_map_button.on_click(lambda b: create_interactive_map())

display(widgets.VBox([
    widgets.HTML("<h4>üó∫Ô∏è Crear Visualizaci√≥n Interactiva</h4>"),
    widgets.HBox([map_type, map_style]),
    create_map_button,
    map_output
]))

VBox(children=(HTML(value='<h4>üó∫Ô∏è Crear Visualizaci√≥n Interactiva</h4>'), HBox(children=(Dropdown(description=‚Ä¶

## üìà Paso 9: An√°lisis y Estad√≠sticas

Obt√©n insights valiosos de tus datos geogr√°ficos extra√≠dos:

### üìä An√°lisis Disponibles:
- **üìç Estad√≠sticas de Ubicaci√≥n**: Distribuci√≥n geogr√°fica y centros
- **üìã An√°lisis de Contenido**: Palabras frecuentes en descripciones
- **üóÇÔ∏è Organizaci√≥n**: Distribuci√≥n por carpetas y categor√≠as
- **üìè M√©tricas Espaciales**: Distancias y agrupaciones

### üéØ Insights √ötiles:
- **Patrones geogr√°ficos** en tus datos
- **Densidad de puntos** por regi√≥n
- **Calidad de datos** y completitud
- **Recomendaciones** para an√°lisis futuro

> **üí° Tip**: Estos an√°lisis te ayudan a entender mejor tus datos antes de tomar decisiones basadas en ellos.

In [29]:
# Analizador de datos extra√≠dos
analysis_type = widgets.SelectMultiple(
    options=[
        ('üìç Estad√≠sticas Geogr√°ficas', 'geographic'),
        ('üìã An√°lisis de Contenido', 'content'),
        ('üóÇÔ∏è Distribuci√≥n por Carpetas', 'folders'),
        ('üìä Calidad de Datos', 'quality'),
        ('üìè M√©tricas Espaciales', 'spatial'),
        ('üéØ Resumen Ejecutivo', 'summary')
    ],
    value=['geographic', 'quality', 'summary'],
    description='An√°lisis:',
    style={'description_width': 'initial'},
    layout=widgets.Layout(width='400px', height='150px')
)

# Bot√≥n para ejecutar an√°lisis
analyze_button = widgets.Button(
    description='üìà Analizar Datos',
    button_style='warning',
    layout=widgets.Layout(width='150px')
)

# Output para mostrar an√°lisis
analysis_output = widgets.Output()

def analyze_extracted_data():
    """Realizar an√°lisis completo de los datos extra√≠dos"""
    with analysis_output:
        clear_output()
        
        if extracted_data is None:
            print("‚ùå No hay datos para analizar")
            print("üí° Primero ejecuta la extracci√≥n en el Paso 6")
            return
        
        if not extracted_data:
            print("‚ùå Los datos extra√≠dos est√°n vac√≠os")
            return
        
        selected_analyses = list(analysis_type.value)
        
        print("üìà An√°lisis de Datos KML Extra√≠dos")
        print("=" * 60)
        
        # Preparar datos v√°lidos
        valid_coords = []
        for record in extracted_data:
            if ('latitud' in record and 'longitud' in record and 
                record['latitud'] and record['longitud']):
                try:
                    lat = float(record['latitud'])
                    lon = float(record['longitud'])
                    if -90 <= lat <= 90 and -180 <= lon <= 180:
                        valid_coords.append((lat, lon))
                except (ValueError, TypeError):
                    continue
        
        # 1. Estad√≠sticas Geogr√°ficas
        if 'geographic' in selected_analyses:
            print("\nüåç ESTAD√çSTICAS GEOGR√ÅFICAS")
            print("-" * 40)
            
            if valid_coords:
                lats = [coord[0] for coord in valid_coords]
                lons = [coord[1] for coord in valid_coords]
                
                print(f"üìç Puntos con coordenadas v√°lidas: {len(valid_coords)}")
                print(f"üåç Rango de latitud: {min(lats):.6f} a {max(lats):.6f}")
                print(f"üåê Rango de longitud: {min(lons):.6f} a {max(lons):.6f}")
                
                # Centro geogr√°fico
                center_lat = sum(lats) / len(lats)
                center_lon = sum(lons) / len(lons)
                print(f"üéØ Centro geogr√°fico: {center_lat:.6f}, {center_lon:.6f}")
                
                # Dispersi√≥n
                lat_range = max(lats) - min(lats)
                lon_range = max(lons) - min(lons)
                print(f"üìè Dispersi√≥n latitudinal: {lat_range:.6f} grados")
                print(f"üìê Dispersi√≥n longitudinal: {lon_range:.6f} grados")
                
                # Estimaci√≥n de √°rea cubierta (aproximada)
                # 1 grado ‚âà 111 km
                area_km2 = (lat_range * 111) * (lon_range * 111 * abs(cos(center_lat * 3.14159 / 180)))
                print(f"üìê √Årea aproximada cubierta: {area_km2:.2f} km¬≤")
            else:
                print("‚ùå No se encontraron coordenadas v√°lidas")
        
        # 2. An√°lisis de Contenido
        if 'content' in selected_analyses:
            print("\nüìã AN√ÅLISIS DE CONTENIDO")
            print("-" * 40)
            
            # An√°lisis de nombres
            names = [r.get('nombre', '') for r in extracted_data if r.get('nombre')]
            if names:
                print(f"üè∑Ô∏è  Nombres encontrados: {len(names)}")
                print(f"üìè Longitud promedio de nombres: {sum(len(n) for n in names)/len(names):.1f} caracteres")
                
                # Palabras m√°s comunes en nombres
                from collections import Counter
                import re
                all_words = []
                for name in names:
                    words = re.findall(r'\b\w+\b', name.lower())
                    all_words.extend(words)
                
                if all_words:
                    common_words = Counter(all_words).most_common(5)
                    print("üìù Palabras m√°s comunes en nombres:")
                    for word, count in common_words:
                        print(f"   '{word}': {count} veces")
            
            # An√°lisis de descripciones
            descriptions = [r.get('descripcion', '') for r in extracted_data if r.get('descripcion')]
            if descriptions:
                print(f"\nüìù Descripciones encontradas: {len(descriptions)}")
                total_chars = sum(len(d) for d in descriptions)
                print(f"üìè Total caracteres en descripciones: {total_chars:,}")
                print(f"üìä Longitud promedio: {total_chars/len(descriptions):.1f} caracteres")
                
                # Descripciones m√°s largas y cortas
                longest = max(descriptions, key=len)
                shortest = min(descriptions, key=len)
                print(f"üìè Descripci√≥n m√°s larga: {len(longest)} caracteres")
                print(f"üìè Descripci√≥n m√°s corta: {len(shortest)} caracteres")
        
        # 3. Distribuci√≥n por Carpetas
        if 'folders' in selected_analyses:
            print("\nüóÇÔ∏è  DISTRIBUCI√ìN POR CARPETAS")
            print("-" * 40)
            
            folder_counts = {}
            for record in extracted_data:
                folder = record.get('carpeta', 'Sin carpeta')
                if not folder:
                    folder = 'Sin carpeta'
                folder_counts[folder] = folder_counts.get(folder, 0) + 1
            
            if len(folder_counts) > 1 or list(folder_counts.keys())[0] != 'Sin carpeta':
                print(f"üìÅ Carpetas encontradas: {len(folder_counts)}")
                sorted_folders = sorted(folder_counts.items(), key=lambda x: x[1], reverse=True)
                
                for folder, count in sorted_folders[:10]:  # Top 10 carpetas
                    percentage = (count / len(extracted_data)) * 100
                    print(f"   üìÇ {folder}: {count} elementos ({percentage:.1f}%)")
                
                if len(sorted_folders) > 10:
                    print(f"   ... y {len(sorted_folders)-10} carpetas m√°s")
            else:
                print("üìÇ Todos los elementos est√°n en la carpeta ra√≠z")
        
        # 4. Calidad de Datos
        if 'quality' in selected_analyses:
            print("\nüìä CALIDAD DE DATOS")
            print("-" * 40)
            
            total_records = len(extracted_data)
            
            # Completitud de campos
            field_completeness = {}
            for field in ['nombre', 'latitud', 'longitud', 'descripcion']:
                complete_count = sum(1 for r in extracted_data if r.get(field) and str(r[field]).strip())
                field_completeness[field] = (complete_count, complete_count/total_records*100)
            
            print("‚úÖ Completitud de campos principales:")
            for field, (count, percentage) in field_completeness.items():
                print(f"   {field}: {count}/{total_records} ({percentage:.1f}%)")
            
            # Validez de coordenadas
            valid_count = len(valid_coords)
            coord_validity = (valid_count / total_records) * 100
            print(f"\nüéØ Coordenadas v√°lidas: {valid_count}/{total_records} ({coord_validity:.1f}%)")
            
            # Registros duplicados (por nombre)
            names = [r.get('nombre', '') for r in extracted_data if r.get('nombre')]
            unique_names = set(names)
            if len(names) != len(unique_names):
                duplicates = len(names) - len(unique_names)
                print(f"üîÑ Posibles duplicados por nombre: {duplicates}")
            else:
                print("‚úÖ No se detectaron duplicados por nombre")
            
            # Puntuaci√≥n de calidad general
            avg_completeness = sum(p for _, p in field_completeness.values()) / len(field_completeness)
            quality_score = (avg_completeness + coord_validity) / 2
            
            if quality_score >= 80:
                quality_status = "üü¢ Excelente"
            elif quality_score >= 60:
                quality_status = "üü° Buena"
            else:
                quality_status = "üî¥ Necesita mejoras"
            
            print(f"\nüèÜ Puntuaci√≥n de calidad general: {quality_score:.1f}% ({quality_status})")
        
        # 5. M√©tricas Espaciales
        if 'spatial' in selected_analyses:
            print("\nüìè M√âTRICAS ESPACIALES")
            print("-" * 40)
            
            if len(valid_coords) >= 2:
                import math
                
                def haversine_distance(lat1, lon1, lat2, lon2):
                    """Calcular distancia entre dos puntos usando f√≥rmula de Haversine"""
                    R = 6371  # Radio de la Tierra en km
                    dlat = math.radians(lat2 - lat1)
                    dlon = math.radians(lon2 - lon1)
                    a = (math.sin(dlat/2)**2 + 
                         math.cos(math.radians(lat1)) * math.cos(math.radians(lat2)) * 
                         math.sin(dlon/2)**2)
                    c = 2 * math.atan2(math.sqrt(a), math.sqrt(1-a))
                    return R * c
                
                # Calcular distancias entre puntos
                distances = []
                for i in range(len(valid_coords)):
                    for j in range(i+1, len(valid_coords)):
                        lat1, lon1 = valid_coords[i]
                        lat2, lon2 = valid_coords[j]
                        dist = haversine_distance(lat1, lon1, lat2, lon2)
                        distances.append(dist)
                
                if distances:
                    print(f"üöÄ Distancia m√≠nima entre puntos: {min(distances):.3f} km")
                    print(f"üåç Distancia m√°xima entre puntos: {max(distances):.3f} km")
                    print(f"üìä Distancia promedio: {sum(distances)/len(distances):.3f} km")
                    
                    # Densidad de puntos
                    if 'geographic' in selected_analyses and area_km2 > 0:
                        density = len(valid_coords) / area_km2
                        print(f"üìç Densidad de puntos: {density:.3f} puntos/km¬≤")
            else:
                print("‚ùå Se necesitan al menos 2 puntos v√°lidos para m√©tricas espaciales")
        
        # 6. Resumen Ejecutivo
        if 'summary' in selected_analyses:
            print("\nüéØ RESUMEN EJECUTIVO")
            print("-" * 40)
            
            print(f"üìã Dataset: {extraction_summary.get('file_name', 'Archivo KML')}")
            print(f"üìä Total de registros: {len(extracted_data)}")
            print(f"üìç Puntos georeferenciados: {len(valid_coords)}")
            
            if extraction_summary:
                print(f"‚è∞ Procesado: {extraction_summary.get('extraction_time', 'N/A')}")
                if extraction_summary.get('errors_count', 0) > 0:
                    print(f"‚ö†Ô∏è  Errores durante extracci√≥n: {extraction_summary['errors_count']}")
            
            # Recomendaciones
            print(f"\nüí° RECOMENDACIONES:")
            
            if len(valid_coords) / len(extracted_data) < 0.9:
                print(f"   ‚Ä¢ Revisar y limpiar coordenadas inv√°lidas")
            
            completeness_scores = [p for _, p in field_completeness.items()] if 'quality' in selected_analyses else []
            if completeness_scores and min(completeness_scores) < 70:
                print(f"   ‚Ä¢ Completar campos faltantes para mejor an√°lisis")
            
            if len(valid_coords) > 100:
                print(f"   ‚Ä¢ Considerar t√©cnicas de clustering para visualizaci√≥n")
            
            if len(set(r.get('carpeta', '') for r in extracted_data)) > 1:
                print(f"   ‚Ä¢ Aprovechar la organizaci√≥n por carpetas para an√°lisis segmentado")
            
            print(f"   ‚Ä¢ Los datos est√°n listos para an√°lisis geogr√°fico avanzado")
        
        print(f"\n" + "=" * 60)
        print(f"‚úÖ An√°lisis completado - {len(selected_analyses)} m√≥dulos ejecutados")
        print(f"üí° Usa estos insights para optimizar tu an√°lisis de datos geogr√°ficos")

# Conectar bot√≥n
analyze_button.on_click(lambda b: analyze_extracted_data())

# Importar math para c√°lculos espaciales
import math
from math import cos

display(widgets.VBox([
    widgets.HTML("<h4>üìà An√°lisis y Estad√≠sticas de Datos</h4>"),
    analysis_type,
    analyze_button,
    analysis_output
]))

VBox(children=(HTML(value='<h4>üìà An√°lisis y Estad√≠sticas de Datos</h4>'), SelectMultiple(description='An√°lisis‚Ä¶

## üéâ ¬°Felicitaciones! Extracci√≥n Completada

¬°Has terminado exitosamente el proceso de extracci√≥n de datos KML! 

### üèÜ Lo que has logrado:
- ‚úÖ **Cargado y validado** tu archivo KML
- ‚úÖ **Extra√≠do datos completos** seg√∫n tu configuraci√≥n
- ‚úÖ **Guardado resultados** en formato utilizable
- ‚úÖ **Creado visualizaciones** interactivas
- ‚úÖ **Analizado insights** de tus datos geogr√°ficos

### üöÄ Pr√≥ximos pasos sugeridos:

#### üìä **Para An√°lisis de Datos:**
- Abrir el archivo CSV en Excel o Google Sheets
- Usar pandas para an√°lisis avanzado en Python
- Importar a herramientas GIS como QGIS

#### üó∫Ô∏è **Para Visualizaci√≥n:**
- Crear dashboards con Power BI o Tableau
- Integrar con aplicaciones web usando leaflet.js
- Exportar mapas para presentaciones

#### üîÑ **Para Procesamiento Continuo:**
- Guardar este notebook para futuros archivos KML
- Automatizar el proceso para m√∫ltiples archivos
- Integrar con pipelines de datos geogr√°ficos

---

### üí° **Consejos para Optimizar tus Resultados:**

1. **üßπ Limpieza de Datos**: Si encontraste errores, revisa el archivo KML original
2. **üìç Validaci√≥n**: Verifica coordenadas en Google Maps o herramientas GIS
3. **üóÇÔ∏è Organizaci√≥n**: Aprovecha la estructura de carpetas para an√°lisis segmentado
4. **üìà An√°lisis Temporal**: Si tienes fechas, considera an√°lisis de series temporales

---

### üÜò **¬øNecesitas Ayuda?**

- **üìß Errores de extracci√≥n**: Revisa la calidad del archivo KML original
- **üó∫Ô∏è Problemas de visualizaci√≥n**: Verifica que las coordenadas sean v√°lidas
- **üíæ Errores de guardado**: Comprueba permisos de escritura en el directorio
- **üìä An√°lisis avanzado**: Considera usar bibliotecas especializadas como geopandas

¬°Gracias por usar el Extractor KML! üéä

In [None]:
# Funciones de utilidad adicionales y panel de control final
print("üéâ ¬°Extractor KML Completado!")
print("=" * 50)
print("Todas las funcionalidades est√°n listas para usar.")
print()
print("üìã RESUMEN DE FUNCIONALIDADES DISPONIBLES:")
print("1. üì¶ Instalaci√≥n autom√°tica de dependencias")
print("2. üìÇ Carga de archivos KML desde cualquier ubicaci√≥n")
print("3. üëÄ Previsualizaci√≥n de contenido")
print("4. ‚öôÔ∏è Configuraci√≥n personalizable de extracci√≥n")
print("5. üöÄ Extracci√≥n completa de datos")
print("6. üíæ Exportaci√≥n en m√∫ltiples formatos")
print("7. üó∫Ô∏è Visualizaci√≥n interactiva con mapas")
print("8. üìà An√°lisis estad√≠stico avanzado")
print()
print("üí° INSTRUCCIONES R√ÅPIDAS:")
print("‚Ä¢ Ejecuta las celdas en orden secuencial")
print("‚Ä¢ Cada paso valida autom√°ticamente el anterior")
print("‚Ä¢ Los resultados se guardan autom√°ticamente")
print("‚Ä¢ Puedes repetir cualquier paso las veces que necesites")
print()
print("üîß SOLUCI√ìN DE PROBLEMAS COMUNES:")

# Widget para mostrar/ocultar troubleshooting
troubleshooting_toggle = widgets.ToggleButton(
    value=False,
    description='üîß Mostrar Troubleshooting',
    button_style='info',
    layout=widgets.Layout(width='250px')
)

troubleshooting_output = widgets.Output()

def show_troubleshooting(change):
    with troubleshooting_output:
        clear_output()
        if change['new']:
            print("üîß SOLUCI√ìN DE PROBLEMAS COMUNES:")
            print("=" * 45)
            print()
            print("‚ùå ARCHIVO NO ENCONTRADO:")
            print("   ‚Ä¢ Verifica que la ruta sea correcta")
            print("   ‚Ä¢ Usa barras invertidas dobles: C:\\\\Carpeta\\\\archivo.kml")
            print("   ‚Ä¢ O usa el bot√≥n 'Explorar KML'")
            print()
            print("‚ùå ERROR AL PARSEAR XML:")
            print("   ‚Ä¢ El archivo puede estar corrupto")
            print("   ‚Ä¢ Verifica que sea un archivo KML v√°lido")
            print("   ‚Ä¢ Abre el archivo en un editor de texto para verificar")
            print()
            print("‚ùå NO SE ENCUENTRAN COORDENADAS:")
            print("   ‚Ä¢ Algunos KML solo tienen direcciones, no coordenadas")
            print("   ‚Ä¢ Usa herramientas de geocodificaci√≥n primero")
            print("   ‚Ä¢ Verifica el formato del archivo original")
            print()
            print("‚ùå ERROR AL GUARDAR ARCHIVO:")
            print("   ‚Ä¢ Verifica permisos de escritura en la carpeta")
            print("   ‚Ä¢ Cierra el archivo si est√° abierto en Excel")
            print("   ‚Ä¢ Cambia la ubicaci√≥n de guardado")
            print()
            print("‚ùå MAPA NO SE MUESTRA:")
            print("   ‚Ä¢ Verifica que plotly est√© instalado")
            print("   ‚Ä¢ Revisa que las coordenadas sean v√°lidas")
            print("   ‚Ä¢ Usa el an√°lisis de calidad de datos")
            print()
            print("üí° CONSEJOS DE OPTIMIZACI√ìN:")
            print("   ‚Ä¢ Archivos muy grandes (>10MB): procesa en lotes")
            print("   ‚Ä¢ Para an√°lisis repetitivo: guarda configuraciones")
            print("   ‚Ä¢ Coordenadas inv√°lidas: usa herramientas de validaci√≥n")
            print("   ‚Ä¢ Para mapas profesionales: exporta datos a QGIS")

troubleshooting_toggle.observe(show_troubleshooting, names='value')

# Panel de estado final
status_panel = widgets.VBox([
    widgets.HTML("<h4>üéõÔ∏è Panel de Control Final</h4>"),
    widgets.HTML(f"<p><strong>üìä Estado:</strong> Notebook completo y funcional</p>"),
    widgets.HTML(f"<p><strong>‚è∞ Fecha:</strong> {datetime.now().strftime('%Y-%m-%d %H:%M')}</p>"),
    widgets.HTML(f"<p><strong>üîß Herramientas:</strong> KML Extractor GUI v1.0</p>"),
    troubleshooting_toggle,
    troubleshooting_output
])

# Bot√≥n para reiniciar todo el proceso
reset_button = widgets.Button(
    description='üîÑ Reiniciar Proceso',
    button_style='warning',
    layout=widgets.Layout(width='180px')
)

def reset_extraction_process(b):
    """Reiniciar todas las variables globales"""
    global extracted_data, extraction_summary
    
    # Limpiar variables globales
    extracted_data = None
    extraction_summary = {}
    
    # Limpiar widgets principales
    kml_file_widget.value = ''
    output_filename.value = 'datos_kml_extraidos'
    
    # Resetear progress bar
    progress_bar.value = 0
    progress_bar.description = 'Listo'
    
    # Limpiar outputs
    for output_widget in [kml_validation_output, preview_output, config_output, 
                         extraction_output, save_output, map_output, analysis_output]:
        with output_widget:
            clear_output()
    
    print("üîÑ Proceso reiniciado - Puedes comenzar con un nuevo archivo KML")

reset_button.on_click(reset_extraction_process)

# Bot√≥n para mostrar informaci√≥n del sistema
system_info_button = widgets.Button(
    description='üíª Info del Sistema',
    button_style='info',
    layout=widgets.Layout(width='180px')
)

system_info_output = widgets.Output()

def show_system_info(b):
    with system_info_output:
        clear_output()
        print("üíª INFORMACI√ìN DEL SISTEMA:")
        print("=" * 35)
        print(f"üêç Python: {sys.version.split()[0]}")
        print(f"üì¶ Pandas: {pd.__version__}")
        print(f"üéõÔ∏è IPywidgets: {widgets.__version__}")
        
        # Verificar bibliotecas opcionales
        try:
            import plotly
            print(f"üìä Plotly: {plotly.__version__} ‚úÖ")
        except ImportError:
            print("üìä Plotly: No instalado ‚ùå")
        
        try:
            import openpyxl
            print(f"üìã OpenPyXL: {openpyxl.__version__} ‚úÖ")
        except ImportError:
            print("üìã OpenPyXL: No instalado ‚ùå")
        
        # Info del workspace
        print(f"\nüìÅ Directorio actual: {Path.cwd()}")
        print(f"üè† Directorio home: {Path.home()}")
        
        # Estad√≠sticas de la sesi√≥n
        if extracted_data:
            print(f"\nüìä DATOS ACTUALES:")
            print(f"üìç Registros cargados: {len(extracted_data)}")
            print(f"üìÅ Archivo procesado: {extraction_summary.get('file_name', 'N/A')}")

system_info_button.on_click(show_system_info)

display(status_panel)
display(widgets.HBox([reset_button, system_info_button]))
display(system_info_output)

print("üöÄ ¬°El Extractor KML est√° completamente funcional!")
print("üí° Comienza con el Paso 1 o usa los botones de control de arriba.")

üéâ ¬°Extractor KML Completado!
Todas las funcionalidades est√°n listas para usar.

üìã RESUMEN DE FUNCIONALIDADES DISPONIBLES:
1. üì¶ Instalaci√≥n autom√°tica de dependencias
2. üìÇ Carga de archivos KML desde cualquier ubicaci√≥n
3. üëÄ Previsualizaci√≥n de contenido
4. ‚öôÔ∏è Configuraci√≥n personalizable de extracci√≥n
5. üöÄ Extracci√≥n completa de datos
6. üíæ Exportaci√≥n en m√∫ltiples formatos
7. üó∫Ô∏è Visualizaci√≥n interactiva con mapas
8. üìà An√°lisis estad√≠stico avanzado

üí° INSTRUCCIONES R√ÅPIDAS:
‚Ä¢ Ejecuta las celdas en orden secuencial
‚Ä¢ Cada paso valida autom√°ticamente el anterior
‚Ä¢ Los resultados se guardan autom√°ticamente
‚Ä¢ Puedes repetir cualquier paso las veces que necesites

üîß SOLUCI√ìN DE PROBLEMAS COMUNES:


VBox(children=(HTML(value='<h4>üéõÔ∏è Panel de Control Final</h4>'), HTML(value='<p><strong>üìä Estado:</strong> Not‚Ä¶



Output()

üöÄ ¬°El Extractor KML est√° completamente funcional!
üí° Comienza con el Paso 1 o usa los botones de control de arriba.


In [31]:
# üîß Validaci√≥n del Fix - Prueba con BMW.kml
print("üîß Validando correcci√≥n del error de extracci√≥n...")
print("=" * 50)

# Probar r√°pidamente con el archivo BMW.kml
test_file = "BMW.kml"
test_path = Path(test_file)

if test_path.exists():
    try:
        print(f"üìÅ Probando con archivo: {test_file}")
        
        # Intentar parsear
        tree = ET.parse(test_path)
        root = tree.getroot()
        print("‚úÖ Archivo parseado correctamente")
        
        # Detectar namespace
        namespace = ''
        if root.tag.startswith('{'):
            namespace = root.tag.split('}')[0] + '}'
        print(f"üè∑Ô∏è Namespace detectado: {namespace if namespace else 'Sin namespace'}")
        
        # Buscar placemarks
        placemarks = root.findall('.//' + namespace + 'Placemark')
        print(f"üìç Placemarks encontrados: {len(placemarks)}")
        
        # Probar primer placemark
        if placemarks:
            first_placemark = placemarks[0]
            
            # Buscar coordenadas
            coords_elem = first_placemark.find('.//' + namespace + 'coordinates')
            if coords_elem is not None and coords_elem.text:
                coords = coords_elem.text.strip()
                print(f"üåç Primera coordenada: {coords}")
            
            # Buscar direcci√≥n
            addr_elem = first_placemark.find(namespace + 'address')
            if addr_elem is not None and addr_elem.text:
                print(f"üìç Primera direcci√≥n: {addr_elem.text}")
            
        print("‚úÖ Prueba b√°sica exitosa - El fix funciona!")
        print("üí° Ahora puedes usar el extractor normalmente")
        
    except Exception as e:
        print(f"‚ùå Error en prueba: {e}")
        print(f"üí° Tipo de error: {type(e).__name__}")
else:
    print(f"‚ö†Ô∏è Archivo {test_file} no encontrado en el directorio actual")
    print(f"üìÇ Directorio actual: {Path.cwd()}")
    print("üí° Aseg√∫rate de que el archivo BMW.kml est√© en la misma carpeta")

print("\nüéØ Estado del Fix:")
print("‚úÖ Corregido tree.getRoot() ‚Üí tree.getroot()")
print("‚úÖ Corregido manejo de carpetas/folders")
print("‚úÖ Mejorado manejo de errores en extracci√≥n")
print("\nüí° El extractor ahora deber√≠a funcionar correctamente")

üîß Validando correcci√≥n del error de extracci√≥n...
üìÅ Probando con archivo: BMW.kml
‚úÖ Archivo parseado correctamente
üè∑Ô∏è Namespace detectado: {http://www.opengis.net/kml/2.2}
üìç Placemarks encontrados: 68
üåç Primera coordenada: -81.5380936,31.122383,0
üìç Primera direcci√≥n: Joe Franks Harris Blvd 106 Brunswick 31523
‚úÖ Prueba b√°sica exitosa - El fix funciona!
üí° Ahora puedes usar el extractor normalmente

üéØ Estado del Fix:
‚úÖ Corregido tree.getRoot() ‚Üí tree.getroot()
‚úÖ Corregido manejo de carpetas/folders
‚úÖ Mejorado manejo de errores en extracci√≥n

üí° El extractor ahora deber√≠a funcionar correctamente
