# üï∑Ô∏è Scraping Autom√°tico de Tablas INE

## üìã Descripci√≥n del Proyecto

Este notebook implementa una soluci√≥n **autom√°tica y estandarizada** para hacer web scraping de tablas paginadas del Instituto Nacional de Estad√≠sticas (INE) de Chile.

### ‚ú® Caracter√≠sticas principales:
- ‚úÖ **Detecci√≥n autom√°tica** del n√∫mero de p√°ginas
- ‚úÖ **Procesamiento inteligente** de tablas por ID
- ‚úÖ **Exportaci√≥n organizada** (archivos individuales + combinado)
- ‚úÖ **Configuraci√≥n flexible** para diferentes URLs
- ‚úÖ **Manejo robusto de errores**

### üìÅ Estructura de archivos generados:
- `{prefix}_page1.csv`, `{prefix}_page2.csv`, etc. (p√°ginas individuales)
- `{prefix}_combined.csv` (todas las p√°ginas combinadas)

---

## üì¶ Librer√≠as y Configuraci√≥n Inicial

Importamos todas las librer√≠as necesarias para el web scraping:

- **`pandas`**: Manipulaci√≥n y an√°lisis de datos
- **`selenium`**: Automatizaci√≥n del navegador web
- **`webdriver_manager`**: Gesti√≥n autom√°tica del ChromeDriver
- **`time`**: Control de esperas y pausas

In [1]:
# üìå Setup inicial y librer√≠as
import time
import pandas as pd
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from webdriver_manager.chrome import ChromeDriverManager

print("‚úÖ Librer√≠as importadas correctamente")

‚úÖ Librer√≠as importadas correctamente


## üöó Funci√≥n: Inicializaci√≥n del Driver

Esta funci√≥n configura y inicializa el navegador Chrome con las opciones optimizadas para scraping:

- **Modo headless**: Opci√≥n para ejecutar sin interfaz gr√°fica
- **Configuraciones de seguridad**: `--no-sandbox` y `--disable-dev-shm-usage`
- **ChromeDriver autom√°tico**: Descarga y gestiona la versi√≥n correcta

In [2]:
# üìå 1. Inicializar driver
def init_driver(headless: bool = True) -> webdriver.Chrome:
    """
    Inicializa el driver de Chrome con opciones configuradas.
    
    Args:
        headless (bool): Ejecutar en modo headless o no
        
    Returns:
        webdriver.Chrome: Instancia de ChromeDriver configurada
    """
    options = Options()
    if headless:
        options.add_argument('--headless')
    options.add_argument('--no-sandbox')
    options.add_argument('--disable-dev-shm-usage')
    
    driver = webdriver.Chrome(
        service=Service(ChromeDriverManager().install()),
        options=options
    )
    return driver

print("‚úÖ Funci√≥n init_driver() definida")

‚úÖ Funci√≥n init_driver() definida


## üìä Funci√≥n: Extracci√≥n de Tabla por ID

Esta funci√≥n localiza y extrae una tabla espec√≠fica de la p√°gina usando su ID:

- **Espera inteligente**: Usa `WebDriverWait` para esperar que la tabla cargue
- **Extracci√≥n robusta**: Convierte HTML a DataFrame con `pandas.read_html()`
- **Debug autom√°tico**: Si falla, lista todos los IDs de tablas disponibles

In [3]:
# üìå 2. Funci√≥n para scrapear tabla por ID
def scrape_table(driver, wait, table_id):
    """
    Extrae una tabla espec√≠fica por su ID.
    
    Args:
        driver: Instancia del WebDriver
        wait: Objeto WebDriverWait para esperas
        table_id (str): ID de la tabla a extraer
        
    Returns:
        pd.DataFrame: Datos de la tabla extra√≠da
    """
    try:
        table = wait.until(EC.presence_of_element_located((By.ID, table_id)))
        html = table.get_attribute('outerHTML')
        df = pd.read_html(html)[0]
        print(f"‚úÖ Tabla extra√≠da con ID '{table_id}'.")
        return df
    except Exception as e:
        print(f"‚ùå No se encontr√≥ la tabla con ID '{table_id}': {e}")
        # DEBUG: listar IDs de tablas disponibles
        tables = driver.find_elements(By.TAG_NAME, "table")
        ids = [t.get_attribute("id") for t in tables]
        print(f"üîé IDs de tablas encontrados en la p√°gina: {ids}")
        return pd.DataFrame()

print("‚úÖ Funci√≥n scrape_table() definida")

‚úÖ Funci√≥n scrape_table() definida


## üìÑ Funciones: Gesti√≥n de Paginaci√≥n

Estas funciones manejan la navegaci√≥n autom√°tica entre p√°ginas:

### `get_total_pages()`:
- Detecta autom√°ticamente cu√°ntas p√°ginas hay disponibles
- Busca elementos con clase `"PageNumber"`

### `go_to_page()`:
- Navega a una p√°gina espec√≠fica
- Incluye validaciones y manejo de errores

In [4]:
# üìå 3. Funci√≥n para detectar n√∫mero total de p√°ginas
def get_total_pages(driver, wait):
    """
    Detecta autom√°ticamente el n√∫mero total de p√°ginas disponibles.
    
    Returns:
        int: N√∫mero total de p√°ginas
    """
    try:
        # Buscar elementos de paginaci√≥n
        pages = wait.until(EC.presence_of_all_elements_located((By.CLASS_NAME, "PageNumber")))
        total_pages = len(pages)
        print(f"üîç Se detectaron {total_pages} p√°ginas en total")
        return total_pages
    except Exception as e:
        print(f"‚ö†Ô∏è No se pudo detectar paginaci√≥n: {e}")
        return 1  # Asume 1 p√°gina si no hay paginaci√≥n

# üìå 4. Funci√≥n para cambiar de p√°gina
def go_to_page(driver, wait, page_number):
    """
    Navega a una p√°gina espec√≠fica.
    
    Args:
        page_number (int): N√∫mero de p√°gina (√≠ndice 0)
        
    Returns:
        bool: True si el cambio fue exitoso
    """
    try:
        pages = wait.until(EC.presence_of_all_elements_located((By.CLASS_NAME, "PageNumber")))
        if page_number < len(pages):
            pages[page_number].click()
            print(f"‚úÖ Cambiado a la p√°gina {page_number + 1}")
            time.sleep(5)  # espera tras el cambio de p√°gina
            return True
        else:
            print(f"‚ö†Ô∏è P√°gina {page_number + 1} no existe")
            return False
    except Exception as e:
        print(f"‚ùå Error al cambiar a la p√°gina {page_number + 1}: {e}")
        return False

print("‚úÖ Funciones de paginaci√≥n definidas")

‚úÖ Funciones de paginaci√≥n definidas


## üöÄ Funci√≥n Principal: Scraping Autom√°tico

Esta es la funci√≥n principal que orquesta todo el proceso de scraping:

### Caracter√≠sticas:
- ‚úÖ **Autom√°tica**: Detecta y procesa todas las p√°ginas
- ‚úÖ **Flexible**: Configurable para diferentes URLs y tablas
- ‚úÖ **Robusta**: Maneja errores y contin√∫a el proceso
- ‚úÖ **Organizada**: Genera archivos individuales y combinados

### Par√°metros:
- `url`: URL objetivo
- `table_id`: ID de la tabla a extraer
- `output_prefix`: Prefijo para los archivos
- `headless`: Modo de ejecuci√≥n del navegador

In [5]:
# üìå 5. Funci√≥n principal de scraping autom√°tico
def scrape_all_pages_automatically(url, table_id, output_prefix="table", headless=True):
    """
    Funci√≥n principal para hacer scraping autom√°tico de todas las p√°ginas disponibles.
    
    Args:
        url (str): URL objetivo para el scraping
        table_id (str): ID de la tabla a extraer
        output_prefix (str): Prefijo para los archivos de salida
        headless (bool): Ejecutar en modo headless o no
    
    Returns:
        pd.DataFrame: DataFrame combinado con todos los datos
    """
    print(f"üöÄ Iniciando scraping autom√°tico de: {url}")
    print(f"üéØ Buscando tabla con ID: {table_id}")
    
    # Inicializar driver
    driver = init_driver(headless=headless)
    wait = WebDriverWait(driver, 40)
    
    try:
        # Navegar a la URL
        driver.get(url)
        time.sleep(5)
        
        # Detectar n√∫mero total de p√°ginas
        total_pages = get_total_pages(driver, wait)
        
        # Lista para almacenar todos los DataFrames
        all_dataframes = []
        
        # Iterar por todas las p√°ginas
        for page_num in range(total_pages):
            print(f"\nüìÑ Procesando p√°gina {page_num + 1} de {total_pages}...")
            
            # Si no es la primera p√°gina, navegar a la p√°gina espec√≠fica
            if page_num > 0:
                success = go_to_page(driver, wait, page_num)
                if not success:
                    print(f"‚ö†Ô∏è Saltando p√°gina {page_num + 1}")
                    continue
            
            # Extraer tabla de la p√°gina actual
            df = scrape_table(driver, wait, table_id)
            
            if not df.empty:
                # Guardar p√°gina individual
                output_path = f"../data/raw/{output_prefix}_page{page_num + 1}.csv"
                df.to_csv(output_path, index=False, encoding='utf-8-sig')
                print(f"‚úÖ P√°gina {page_num + 1} exportada: {len(df)} filas")
                
                # A√±adir a la lista para combinaci√≥n
                all_dataframes.append(df)
            else:
                print(f"‚ö†Ô∏è P√°gina {page_num + 1} est√° vac√≠a")
        
        # Combinar todas las p√°ginas
        if all_dataframes:
            df_combined = pd.concat(all_dataframes, ignore_index=True)
            combined_path = f"../data/raw/{output_prefix}_combined.csv"
            df_combined.to_csv(combined_path, index=False, encoding='utf-8-sig')
            
            print(f"\nüéâ SCRAPING COMPLETADO:")
            print(f"   üìä Total de p√°ginas procesadas: {len(all_dataframes)}")
            print(f"   üìä Total de filas extra√≠das: {len(df_combined)}")
            print(f"   üìÅ Archivo combinado: {combined_path}")
            
            return df_combined
        else:
            print("‚ùå No se pudieron extraer datos de ninguna p√°gina")
            return pd.DataFrame()
            
    except Exception as e:
        print(f"‚ùå Error durante el scraping: {e}")
        return pd.DataFrame()
    
    finally:
        driver.quit()
        print("üèÅ Driver cerrado")

print("‚úÖ Funci√≥n principal scrape_all_pages_automatically() definida")

‚úÖ Funci√≥n principal scrape_all_pages_automatically() definida


## ‚öôÔ∏è Configuraci√≥n y Ejecuci√≥n

Aqu√≠ configuramos los par√°metros para nuestro scraping autom√°tico:

### üîß Par√°metros configurables:

| Par√°metro | Descripci√≥n | Valor Actual |
|-----------|-------------|--------------|
| `URL_TARGET` | URL objetivo del scraping | INE Chile |
| `TABLE_ID` | ID de la tabla a extraer | `"tabletofreeze"` |
| `OUTPUT_PREFIX` | Prefijo de archivos | `"ine_table"` |
| `HEADLESS_MODE` | Modo sin interfaz gr√°fica | `False` (visible) |

> **üí° Tip**: Cambia `HEADLESS_MODE = True` para ejecutar en modo silencioso.

In [6]:
# üìå 6. Configuraci√≥n Principal - CAMBIA ESTOS VALORES SEG√öN TU NECESIDAD

# üîß URL objetivo para el scraping
URL_TARGET = "https://stat.ine.cl/Index.aspx?lang=es&SubSessionId=78e0518e-d028-4bf8-8d80-444b7277907c"

# üéØ ID de la tabla a extraer
TABLE_ID = "tabletofreeze"

# üìÅ Prefijo para los archivos (se crear√°n: {prefix}_page1.csv, {prefix}_page2.csv, etc.)
OUTPUT_PREFIX = "ine_table"

# üëÅÔ∏è Modo de ejecuci√≥n (False = ver navegador, True = modo silencioso)
HEADLESS_MODE = False

print("‚úÖ Configuraci√≥n establecida:")
print(f"   üåê URL: {URL_TARGET[:50]}...")
print(f"   üìä Tabla ID: {TABLE_ID}")
print(f"   üìÅ Prefijo: {OUTPUT_PREFIX}")
print(f"   üëÅÔ∏è  Headless: {HEADLESS_MODE}")

‚úÖ Configuraci√≥n establecida:
   üåê URL: https://stat.ine.cl/Index.aspx?lang=es&SubSessionI...
   üìä Tabla ID: tabletofreeze
   üìÅ Prefijo: ine_table
   üëÅÔ∏è  Headless: False


## üöÄ Ejecutar Scraping Autom√°tico

¬°Hora de poner en marcha nuestro scraper autom√°tico!

### Lo que va a suceder:
1. üåê Se abrir√° el navegador y navegar√° a la URL
2. üîç Detectar√° autom√°ticamente el n√∫mero de p√°ginas
3. üìÑ Procesar√° cada p√°gina secuencialmente
4. üíæ Guardar√° archivos individuales por p√°gina
5. üîó Crear√° un archivo combinado con todos los datos
6. üìä Mostrar√° un resumen final

> **‚ö†Ô∏è Importante**: Esta celda puede tomar varios minutos dependiendo del n√∫mero de p√°ginas y la velocidad de internet.

In [7]:
# üöÄ EJECUTAR SCRAPING AUTOM√ÅTICO
print("=" * 60)
print("üï∑Ô∏è  INICIANDO SCRAPING AUTOM√ÅTICO")
print("=" * 60)

# Ejecutar la funci√≥n principal
result_df = scrape_all_pages_automatically(
    url=URL_TARGET,
    table_id=TABLE_ID,
    output_prefix=OUTPUT_PREFIX,
    headless=HEADLESS_MODE
)

print("\n" + "=" * 60)
print("üèÅ PROCESO COMPLETADO")
print("=" * 60)

üï∑Ô∏è  INICIANDO SCRAPING AUTOM√ÅTICO
üöÄ Iniciando scraping autom√°tico de: https://stat.ine.cl/Index.aspx?lang=es&SubSessionId=78e0518e-d028-4bf8-8d80-444b7277907c
üéØ Buscando tabla con ID: tabletofreeze
‚ö†Ô∏è No se pudo detectar paginaci√≥n: Message: 


üìÑ Procesando p√°gina 1 de 1...
‚úÖ Tabla extra√≠da con ID 'tabletofreeze'.
‚úÖ P√°gina 1 exportada: 81 filas

üéâ SCRAPING COMPLETADO:
   üìä Total de p√°ginas procesadas: 1
   üìä Total de filas extra√≠das: 81
   üìÅ Archivo combinado: ../data/raw/ine_table_combined.csv
üèÅ Driver cerrado

üèÅ PROCESO COMPLETADO


  df = pd.read_html(html)[0]


## üìä An√°lisis de Resultados

Vamos a analizar los datos extra√≠dos para verificar que el scraping fue exitoso:

### Lo que veremos:
- üìè **Dimensiones**: N√∫mero de filas y columnas
- üè∑Ô∏è **Columnas**: Nombres de las columnas extra√≠das
- üìÑ **Muestra**: Primeras filas de los datos
- üìà **Estad√≠sticas**: Informaci√≥n b√°sica sobre el dataset

In [8]:
# üìä AN√ÅLISIS DE RESULTADOS

if not result_df.empty:
    print("üéâ ¬°SCRAPING EXITOSO!")
    print("\nüìã RESUMEN FINAL:")
    print(f"   üî¢ Columnas: {list(result_df.columns)}")
    print(f"   üìè Dimensiones: {result_df.shape}")
    print(f"   üìä Total de filas: {len(result_df)}")
    print(f"   üìä Total de columnas: {len(result_df.columns)}")
    
    print(f"\nüìÑ PRIMERAS 5 FILAS:")
    display(result_df.head())
    
    print(f"\nüìà INFORMACI√ìN DEL DATASET:")
    display(result_df.info())
    
    print(f"\nüìã ESTAD√çSTICAS DESCRIPTIVAS:")
    try:
        display(result_df.describe())
    except:
        print("   ‚ÑπÔ∏è No se pueden mostrar estad√≠sticas (datos no num√©ricos)")
        
else:
    print("‚ùå NO SE OBTUVIERON DATOS")
    print("   üîß Verifica la configuraci√≥n:")
    print(f"      ‚Ä¢ URL: {URL_TARGET}")
    print(f"      ‚Ä¢ Table ID: {TABLE_ID}")
    print("   üåê Verifica que la p√°gina est√© disponible")
    print("   üîç Revisa los mensajes de error anteriores")

üéâ ¬°SCRAPING EXITOSO!

üìã RESUMEN FINAL:
   üî¢ Columnas: [('Indicador', 'Sexo', 'Regi√≥n', 'Regi√≥n', 'Trimestre M√≥vil'), ('Indicador', 'Sexo', 'Regi√≥n', 'Regi√≥n', 'Unnamed: 1_level_4'), ('Tasa de ocupaci√≥n en el sector informal (proyecciones base 2002)Tasa de ocupaci√≥n en el sector informal (proyecciones base 2017)', 'Ambos sexosHombresMujeres', 'Total pa√≠s', 'Unnamed: 2_level_3', 'Unnamed: 2_level_4'), ('Tasa de ocupaci√≥n en el sector informal (proyecciones base 2002)Tasa de ocupaci√≥n en el sector informal (proyecciones base 2017)', 'Ambos sexosHombresMujeres', 'Regi√≥n de Arica y Parinacota', 'Unnamed: 3_level_3', 'Unnamed: 3_level_4'), ('Tasa de ocupaci√≥n en el sector informal (proyecciones base 2002)Tasa de ocupaci√≥n en el sector informal (proyecciones base 2017)', 'Ambos sexosHombresMujeres', 'Regi√≥n de Tarapac√°', 'Unnamed: 4_level_3', 'Unnamed: 4_level_4'), ('Tasa de ocupaci√≥n en el sector informal (proyecciones base 2002)Tasa de ocupaci√≥n en el sector infor

Unnamed: 0_level_0,Indicador,Indicador,Tasa de ocupaci√≥n en el sector informal (proyecciones base 2002)Tasa de ocupaci√≥n en el sector informal (proyecciones base 2017),Tasa de ocupaci√≥n en el sector informal (proyecciones base 2002)Tasa de ocupaci√≥n en el sector informal (proyecciones base 2017),Tasa de ocupaci√≥n en el sector informal (proyecciones base 2002)Tasa de ocupaci√≥n en el sector informal (proyecciones base 2017),Tasa de ocupaci√≥n en el sector informal (proyecciones base 2002)Tasa de ocupaci√≥n en el sector informal (proyecciones base 2017),Tasa de ocupaci√≥n en el sector informal (proyecciones base 2002)Tasa de ocupaci√≥n en el sector informal (proyecciones base 2017),Tasa de ocupaci√≥n en el sector informal (proyecciones base 2002)Tasa de ocupaci√≥n en el sector informal (proyecciones base 2017),Tasa de ocupaci√≥n en el sector informal (proyecciones base 2002)Tasa de ocupaci√≥n en el sector informal (proyecciones base 2017),Tasa de ocupaci√≥n en el sector informal (proyecciones base 2002)Tasa de ocupaci√≥n en el sector informal (proyecciones base 2017),Tasa de ocupaci√≥n en el sector informal (proyecciones base 2002)Tasa de ocupaci√≥n en el sector informal (proyecciones base 2017),Tasa de ocupaci√≥n en el sector informal (proyecciones base 2002)Tasa de ocupaci√≥n en el sector informal (proyecciones base 2017),Tasa de ocupaci√≥n en el sector informal (proyecciones base 2002)Tasa de ocupaci√≥n en el sector informal (proyecciones base 2017),Tasa de ocupaci√≥n en el sector informal (proyecciones base 2002)Tasa de ocupaci√≥n en el sector informal (proyecciones base 2017),Tasa de ocupaci√≥n en el sector informal (proyecciones base 2002)Tasa de ocupaci√≥n en el sector informal (proyecciones base 2017),Tasa de ocupaci√≥n en el sector informal (proyecciones base 2002)Tasa de ocupaci√≥n en el sector informal (proyecciones base 2017),Tasa de ocupaci√≥n en el sector informal (proyecciones base 2002)Tasa de ocupaci√≥n en el sector informal (proyecciones base 2017),Tasa de ocupaci√≥n en el sector informal (proyecciones base 2002)Tasa de ocupaci√≥n en el sector informal (proyecciones base 2017),Tasa de ocupaci√≥n en el sector informal (proyecciones base 2002)Tasa de ocupaci√≥n en el sector informal (proyecciones base 2017)
Unnamed: 0_level_1,Sexo,Sexo,Ambos sexosHombresMujeres,Ambos sexosHombresMujeres,Ambos sexosHombresMujeres,Ambos sexosHombresMujeres,Ambos sexosHombresMujeres,Ambos sexosHombresMujeres,Ambos sexosHombresMujeres,Ambos sexosHombresMujeres,Ambos sexosHombresMujeres,Ambos sexosHombresMujeres,Ambos sexosHombresMujeres,Ambos sexosHombresMujeres,Ambos sexosHombresMujeres,Ambos sexosHombresMujeres,Ambos sexosHombresMujeres,Ambos sexosHombresMujeres,Ambos sexosHombresMujeres
Unnamed: 0_level_2,Regi√≥n,Regi√≥n,Total pa√≠s,Regi√≥n de Arica y Parinacota,Regi√≥n de Tarapac√°,Regi√≥n de Antofagasta,Regi√≥n de Atacama,Regi√≥n de Coquimbo,Regi√≥n de Valpara√≠so,Regi√≥n Metropolitana de Santiago,Regi√≥n del Libertador Gral. Bernardo O'Higgins,Regi√≥n del Maule,Regi√≥n de √ëuble,Regi√≥n del Biob√≠o,Regi√≥n de La Araucan√≠a,Regi√≥n de Los R√≠os,Regi√≥n de Los Lagos,Regi√≥n de Ays√©n del Gral. Carlos Ib√°√±ez del Campo,Regi√≥n de Magallanes y La Ant√°rtica Chilena
Unnamed: 0_level_3,Regi√≥n,Regi√≥n,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3,Unnamed: 10_level_3,Unnamed: 11_level_3,Unnamed: 12_level_3,Unnamed: 13_level_3,Unnamed: 14_level_3,Unnamed: 15_level_3,Unnamed: 16_level_3,Unnamed: 17_level_3,Unnamed: 18_level_3
Unnamed: 0_level_4,Trimestre M√≥vil,Unnamed: 1_level_4,Unnamed: 2_level_4,Unnamed: 3_level_4,Unnamed: 4_level_4,Unnamed: 5_level_4,Unnamed: 6_level_4,Unnamed: 7_level_4,Unnamed: 8_level_4,Unnamed: 9_level_4,Unnamed: 10_level_4,Unnamed: 11_level_4,Unnamed: 12_level_4,Unnamed: 13_level_4,Unnamed: 14_level_4,Unnamed: 15_level_4,Unnamed: 16_level_4,Unnamed: 17_level_4,Unnamed: 18_level_4
0,2017 jul-sep,,16.0,21.0,21.9,13.2,17.5,21.3,14.6,14.5,13.9,14.9,19.6,14.6,26.5,20.9,19.5,13.5,6.0
1,2017 ago-oct,,16.1,20.4,22.2,12.8,19.7,21.5,14.4,14.6,13.0,16.3,18.2,14.8,25.8,22.4,19.7,14.8,7.3
2,2017 sep-nov,,16.0,19.2,20.5,11.9,19.9,21.1,14.8,14.5,13.5,16.1,19.3,14.6,25.0,22.3,20.3,14.8,7.8
3,2017 oct-dic,,15.9,19.5,19.9,12.0,18.3,21.1,14.2,14.7,14.1,16.1,18.6,14.3,24.0,21.5,19.9,15.5,8.8
4,2017 nov-ene,,15.5,19.2,19.5,12.7,15.3,20.5,13.4,14.4,13.6,15.3,17.3,14.7,22.7,20.6,20.0,15.7,8.1



üìà INFORMACI√ìN DEL DATASET:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 81 entries, 0 to 80
Data columns (total 19 columns):
 #   Column                                                                                                                                                                                                                                                      Non-Null Count  Dtype  
---  ------                                                                                                                                                                                                                                                      --------------  -----  
 0   (Indicador, Sexo, Regi√≥n, Regi√≥n, Trimestre M√≥vil)                                                                                                                                                                                                          81 non-null     object 
 1   (Indicador, Se

None


üìã ESTAD√çSTICAS DESCRIPTIVAS:


Unnamed: 0_level_0,Indicador,Tasa de ocupaci√≥n en el sector informal (proyecciones base 2002)Tasa de ocupaci√≥n en el sector informal (proyecciones base 2017),Tasa de ocupaci√≥n en el sector informal (proyecciones base 2002)Tasa de ocupaci√≥n en el sector informal (proyecciones base 2017),Tasa de ocupaci√≥n en el sector informal (proyecciones base 2002)Tasa de ocupaci√≥n en el sector informal (proyecciones base 2017),Tasa de ocupaci√≥n en el sector informal (proyecciones base 2002)Tasa de ocupaci√≥n en el sector informal (proyecciones base 2017),Tasa de ocupaci√≥n en el sector informal (proyecciones base 2002)Tasa de ocupaci√≥n en el sector informal (proyecciones base 2017),Tasa de ocupaci√≥n en el sector informal (proyecciones base 2002)Tasa de ocupaci√≥n en el sector informal (proyecciones base 2017),Tasa de ocupaci√≥n en el sector informal (proyecciones base 2002)Tasa de ocupaci√≥n en el sector informal (proyecciones base 2017),Tasa de ocupaci√≥n en el sector informal (proyecciones base 2002)Tasa de ocupaci√≥n en el sector informal (proyecciones base 2017),Tasa de ocupaci√≥n en el sector informal (proyecciones base 2002)Tasa de ocupaci√≥n en el sector informal (proyecciones base 2017),Tasa de ocupaci√≥n en el sector informal (proyecciones base 2002)Tasa de ocupaci√≥n en el sector informal (proyecciones base 2017),Tasa de ocupaci√≥n en el sector informal (proyecciones base 2002)Tasa de ocupaci√≥n en el sector informal (proyecciones base 2017),Tasa de ocupaci√≥n en el sector informal (proyecciones base 2002)Tasa de ocupaci√≥n en el sector informal (proyecciones base 2017),Tasa de ocupaci√≥n en el sector informal (proyecciones base 2002)Tasa de ocupaci√≥n en el sector informal (proyecciones base 2017),Tasa de ocupaci√≥n en el sector informal (proyecciones base 2002)Tasa de ocupaci√≥n en el sector informal (proyecciones base 2017),Tasa de ocupaci√≥n en el sector informal (proyecciones base 2002)Tasa de ocupaci√≥n en el sector informal (proyecciones base 2017),Tasa de ocupaci√≥n en el sector informal (proyecciones base 2002)Tasa de ocupaci√≥n en el sector informal (proyecciones base 2017),Tasa de ocupaci√≥n en el sector informal (proyecciones base 2002)Tasa de ocupaci√≥n en el sector informal (proyecciones base 2017)
Unnamed: 0_level_1,Sexo,Ambos sexosHombresMujeres,Ambos sexosHombresMujeres,Ambos sexosHombresMujeres,Ambos sexosHombresMujeres,Ambos sexosHombresMujeres,Ambos sexosHombresMujeres,Ambos sexosHombresMujeres,Ambos sexosHombresMujeres,Ambos sexosHombresMujeres,Ambos sexosHombresMujeres,Ambos sexosHombresMujeres,Ambos sexosHombresMujeres,Ambos sexosHombresMujeres,Ambos sexosHombresMujeres,Ambos sexosHombresMujeres,Ambos sexosHombresMujeres,Ambos sexosHombresMujeres
Unnamed: 0_level_2,Regi√≥n,Total pa√≠s,Regi√≥n de Arica y Parinacota,Regi√≥n de Tarapac√°,Regi√≥n de Antofagasta,Regi√≥n de Atacama,Regi√≥n de Coquimbo,Regi√≥n de Valpara√≠so,Regi√≥n Metropolitana de Santiago,Regi√≥n del Libertador Gral. Bernardo O'Higgins,Regi√≥n del Maule,Regi√≥n de √ëuble,Regi√≥n del Biob√≠o,Regi√≥n de La Araucan√≠a,Regi√≥n de Los R√≠os,Regi√≥n de Los Lagos,Regi√≥n de Ays√©n del Gral. Carlos Ib√°√±ez del Campo,Regi√≥n de Magallanes y La Ant√°rtica Chilena
Unnamed: 0_level_3,Regi√≥n,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3,Unnamed: 10_level_3,Unnamed: 11_level_3,Unnamed: 12_level_3,Unnamed: 13_level_3,Unnamed: 14_level_3,Unnamed: 15_level_3,Unnamed: 16_level_3,Unnamed: 17_level_3,Unnamed: 18_level_3
Unnamed: 0_level_4,Unnamed: 1_level_4,Unnamed: 2_level_4,Unnamed: 3_level_4,Unnamed: 4_level_4,Unnamed: 5_level_4,Unnamed: 6_level_4,Unnamed: 7_level_4,Unnamed: 8_level_4,Unnamed: 9_level_4,Unnamed: 10_level_4,Unnamed: 11_level_4,Unnamed: 12_level_4,Unnamed: 13_level_4,Unnamed: 14_level_4,Unnamed: 15_level_4,Unnamed: 16_level_4,Unnamed: 17_level_4,Unnamed: 18_level_4
count,0.0,81.0,81.0,81.0,81.0,81.0,81.0,81.0,81.0,81.0,81.0,81.0,81.0,81.0,81.0,81.0,81.0,81.0
mean,,16.104938,21.067901,21.560494,13.140741,16.407407,18.87037,15.904938,14.971605,14.248148,16.651852,17.890123,14.295062,23.78642,20.150617,18.861728,18.093827,8.895062
std,,1.027363,2.747491,2.372798,1.609253,1.543598,1.440264,1.775592,1.359065,1.968255,1.530123,2.447581,1.032703,1.700864,1.434932,1.47348,1.618205,1.701316
min,,12.7,12.3,14.0,9.6,12.7,14.8,11.6,11.1,10.4,14.0,12.3,11.5,19.1,16.4,15.3,13.5,5.5
25%,,15.8,19.5,20.6,11.9,15.4,18.0,14.5,14.4,12.6,15.2,16.2,13.5,22.9,19.2,17.9,17.2,7.8
50%,,16.1,20.9,22.3,13.0,16.5,18.9,16.2,15.0,14.1,16.6,18.2,14.5,24.0,20.4,19.2,18.3,8.7
75%,,16.6,22.9,23.2,14.4,17.5,19.9,17.5,15.5,16.2,17.8,19.6,15.0,24.9,21.0,19.7,19.3,10.1
max,,17.8,26.7,25.7,17.3,19.9,21.7,18.5,18.2,17.7,20.0,22.8,16.0,27.3,22.4,22.6,21.0,12.3


## üéØ Conclusiones y Pr√≥ximos Pasos

### ‚úÖ Lo que hemos logrado:
1. **Scraping autom√°tico** de tablas paginadas
2. **Detecci√≥n inteligente** del n√∫mero de p√°ginas
3. **Extracci√≥n robusta** con manejo de errores
4. **Exportaci√≥n organizada** en m√∫ltiples formatos

### üìÅ Archivos generados:
- `ine_table_page1.csv`, `ine_table_page2.csv`, etc. (p√°ginas individuales)
- `ine_table_combined.csv` (dataset completo)

### üîß Para usar con otros sitios web:
1. Cambia `URL_TARGET` por la nueva URL
2. Inspecciona la p√°gina para encontrar el `TABLE_ID` correcto
3. Ajusta `OUTPUT_PREFIX` para identificar tus archivos
4. Ejecuta el notebook

### üöÄ Posibles mejoras:
- A√±adir filtros de datos
- Implementar limpieza autom√°tica
- Agregar visualizaciones
- Programar ejecuciones autom√°ticas

---
**‚ú® ¬°Felicidades! Has completado el scraping autom√°tico de tablas INE.**