# Análisis de Datos Empresariales - Región de Los Ríos

Este notebook se enfoca en el análisis de datos de empresas exclusivamente en la **Región de Los Ríos** de Chile, utilizando el dataset `PUB_COMU_RUBR.csv` del SII (Servicio de Impuestos Internos).

## Objetivos

- Filtrar y limpiar datos específicos de la Región de Los Ríos
- Analizar la distribución geográfica de empresas por comuna
- Estudiar la evolución temporal del sector empresarial en la región
- Identificar los rubros económicos predominantes
- Visualizar relaciones entre variables clave
- Generar estadísticas y métricas relevantes para la toma de decisiones

## 1. Cargar Bibliotecas Necesarias

Importamos las bibliotecas que utilizaremos para el análisis de datos y visualización.

In [2]:
# Importación de bibliotecas
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import os
from pathlib import Path

# Configuración para mostrar todas las columnas en pandas
pd.set_option('display.max_columns', None)

# Paleta de colores para gráficos (accesible para daltonismo)
COLORBLIND_PALETTE = [
    '#1F77B4',  # Azul
    '#FF7F0E',  # Naranja
    '#2CA02C',  # Verde
    '#D62728',  # Rojo
    '#9467BD',  # Morado
    '#8C564B',  # Marrón
    '#E377C2',  # Rosa
    '#7F7F7F',  # Gris
    '#BCBD22',  # Oliva
    '#17BECF'   # Turquesa
]

# Función para aplicar estilo "The Economist" a los gráficos de Plotly
def apply_economist_style(fig, title="", xaxis_title="", yaxis_title=""):
    """
    Aplica el estilo de The Economist a un gráfico de Plotly
    
    Args:
        fig: Figura de Plotly
        title: Título del gráfico
        xaxis_title: Título del eje X
        yaxis_title: Título del eje Y
    
    Returns:
        fig: Figura con el estilo aplicado
    """
    fig.update_layout(
        font=dict(family='Georgia, serif', color='#1e293b'),
        title=dict(
            text=title,
            font=dict(size=18, family='Georgia, serif', color='#1e293b'),
            x=0.01,  # Alineado a la izquierda al estilo "The Economist"
            y=0.95
        ),
        paper_bgcolor='white',
        plot_bgcolor='white',
        xaxis=dict(
            title=dict(text=xaxis_title, font=dict(family='Georgia, serif', size=14)),
            tickfont=dict(family='Georgia, serif'),
            showgrid=True,
            gridcolor='lightgray',
            zeroline=False,
        ),
        yaxis=dict(
            title=dict(text=yaxis_title, font=dict(family='Georgia, serif', size=14)),
            tickfont=dict(family='Georgia, serif'),
            showgrid=False,  # Sin líneas de cuadrícula en Y (como especificaste)
            zeroline=False,
        ),
        legend=dict(
            font=dict(family='Georgia, serif'),
            bgcolor='rgba(255, 255, 255, 0.8)',
        ),
        margin=dict(l=80, r=40, t=100, b=80),
    )
    return fig

## 2. Cargar y Explorar Datos

En esta sección, vamos a cargar el dataset `PUB_COMU_RUBR.csv` y filtrar específicamente los datos correspondientes a la Región de Los Ríos. Luego exploraremos la estructura del dataset resultante.

In [3]:
# Definir rutas
import os
from pathlib import Path

# Obtener el directorio base
BASE_DIR = Path.cwd().parent
INPUT_FILE = BASE_DIR / "data" / "raw" / "PUB_COMU_RUBR.csv"
OUTPUT_DIR = BASE_DIR / "data" / "processed"
OUTPUT_FILE = OUTPUT_DIR / "region_los_rios.csv"

# Crear directorio de salida si no existe
os.makedirs(OUTPUT_DIR, exist_ok=True)

print(f"Leyendo archivo: {INPUT_FILE}")

# Leer el archivo CSV
# Usamos encoding='latin1' para manejar caracteres especiales del español
df = pd.read_csv(INPUT_FILE, encoding='latin1')

# Mostrar dimensiones originales del dataset
print(f"Dimensiones originales: {df.shape}")

# Mostrar las primeras filas para entender su estructura
print("\nPrimeras filas del dataset original:")
display(df.head(3))

Leyendo archivo: /Users/brunosanmartin/Documents/Uach/sii-empresas-data-analysis/data/raw/PUB_COMU_RUBR.csv
Dimensiones originales: (119406, 25)

Primeras filas del dataset original:


Unnamed: 0,AÃ±o Comercial,Comuna del domicilio o casa matriz,Provincia del domicilio o casa matriz,Region del domicilio o casa matriz,Rubro economico,NÃºmero de empresas,Ventas anuales en UF,NÃºmero de trabajadores dependientes informados,Renta neta informada en UF,Trabajadores ponderados por meses trabajados,NÃºmero de trabajadores dependientes de gÃ©nero femenino informados,"Renta neta informada en UF, trabajadores de gÃ©nero femenino",Trabajadores de gÃ©nero femenino ponderados por meses trabajados,NÃºmero de trabajadores dependientes de gÃ©nero masculino informados,"Renta neta informada en UF, trabajadores de gÃ©nero masculino",Trabajadores de gÃ©nero masculino ponderados por meses trabajados,NÃºmero de trabajadores a honorarios informados,Honorarios pagados informados en UF,Trabajadores a honorarios ponderados por meses trabajados,NÃºmero de trabajadores a honorarios de gÃ©nero femenino informados,Honorarios pagados informados a trabajadores de gÃ©nero femenino en UF,Trabajadores a honorarios de gÃ©nero femenino ponderados por meses trabajados,NÃºmero de trabajadores a honorarios de gÃ©nero masculino informados,Honorarios pagados informados a trabajadores de gÃ©nero masculino en UF,Trabajadores a honorarios de gÃ©nero masculino ponderados por meses trabajados
0,2005,ÃuÃ±oa,Santiago,RegiÃ³n Metropolitana de Santiago,L - Actividades inmobiliarias,462,1654443.89,768,82367.248,441.916,243,26877.618,149.583,523,55250.368,292.25,843,75089.407,0.0,294,24645.941,0.0,549,49693.312,0.0
1,2005,Curaco de VÃ©lez,ChiloÃ©,RegiÃ³n de Los Lagos,P - EnseÃ±anza,1,*,126,*,121.0,70,*,67.083,56,*,53.917,62,*,0.0,37,*,0.0,25,*,0.0
2,2005,Providencia,Santiago,RegiÃ³n Metropolitana de Santiago,J - InformaciÃ³n y comunicaciones,1255,72361801.23,21192,7892597.657,14539.329,7796,1898729.158,5010.665,13341,5985607.244,9514.498,20946,1440638.44,0.0,9473,592098.854,0.0,11473,843335.533,0.0


In [4]:
# Filtrar solo los registros de la Región de Los Ríos
region_los_rios = df[df["Region del domicilio o casa matriz"] == "Región de Los Ríos"]

# Verificar cuántos registros se obtuvieron
print(f"Registros filtrados: {region_los_rios.shape[0]} (de {df.shape[0]} originales)")
print(f"Porcentaje del dataset original: {(region_los_rios.shape[0] / df.shape[0] * 100):.2f}%")

# Mostrar las primeras filas del dataset filtrado
print("\nPrimeras filas del dataset filtrado (Región de Los Ríos):")
display(region_los_rios.head())

# Guardar en un nuevo archivo CSV
region_los_rios.to_csv(OUTPUT_FILE, index=False, encoding='utf-8')
print(f"Archivo guardado exitosamente en: {OUTPUT_FILE}")

# Liberar memoria del dataset original
del df

Registros filtrados: 0 (de 119406 originales)
Porcentaje del dataset original: 0.00%

Primeras filas del dataset filtrado (Región de Los Ríos):


Unnamed: 0,AÃ±o Comercial,Comuna del domicilio o casa matriz,Provincia del domicilio o casa matriz,Region del domicilio o casa matriz,Rubro economico,NÃºmero de empresas,Ventas anuales en UF,NÃºmero de trabajadores dependientes informados,Renta neta informada en UF,Trabajadores ponderados por meses trabajados,NÃºmero de trabajadores dependientes de gÃ©nero femenino informados,"Renta neta informada en UF, trabajadores de gÃ©nero femenino",Trabajadores de gÃ©nero femenino ponderados por meses trabajados,NÃºmero de trabajadores dependientes de gÃ©nero masculino informados,"Renta neta informada en UF, trabajadores de gÃ©nero masculino",Trabajadores de gÃ©nero masculino ponderados por meses trabajados,NÃºmero de trabajadores a honorarios informados,Honorarios pagados informados en UF,Trabajadores a honorarios ponderados por meses trabajados,NÃºmero de trabajadores a honorarios de gÃ©nero femenino informados,Honorarios pagados informados a trabajadores de gÃ©nero femenino en UF,Trabajadores a honorarios de gÃ©nero femenino ponderados por meses trabajados,NÃºmero de trabajadores a honorarios de gÃ©nero masculino informados,Honorarios pagados informados a trabajadores de gÃ©nero masculino en UF,Trabajadores a honorarios de gÃ©nero masculino ponderados por meses trabajados


Archivo guardado exitosamente en: /Users/brunosanmartin/Documents/Uach/sii-empresas-data-analysis/data/processed/region_los_rios.csv


In [5]:
# Necesitamos volver a cargar el dataset
df = pd.read_csv(INPUT_FILE, encoding='latin1', low_memory=False)

# Verificar las regiones disponibles (eliminando NaN)
regiones = df["Region del domicilio o casa matriz"].dropna().unique()
print("Regiones disponibles en el dataset:")
for region in sorted(regiones):
    print(f"- {region}")

# Contar cuántos registros hay por región
print("\nDistribución por región:")
region_counts = df["Region del domicilio o casa matriz"].value_counts(dropna=False)
for region, count in region_counts.items():
    if pd.isna(region):
        print(f"- NaN: {count} registros ({count/len(df)*100:.2f}%)")
    else:
        print(f"- {region}: {count} registros ({count/len(df)*100:.2f}%)")

Regiones disponibles en el dataset:
- RegiÃ³n AisÃ©n del Gral.Carlos IbÃ¡Ã±ez del Campo
- RegiÃ³n Metropolitana de Santiago
- RegiÃ³n de Antofagasta
- RegiÃ³n de Arica y Parinacota
- RegiÃ³n de Atacama
- RegiÃ³n de Coquimbo
- RegiÃ³n de La AraucanÃ­a
- RegiÃ³n de Los Lagos
- RegiÃ³n de Los RÃ­os
- RegiÃ³n de Magallanes y de la AntÃ¡rtica Chilena
- RegiÃ³n de TarapacÃ¡
- RegiÃ³n de ValparaÃ­so
- RegiÃ³n de Ãuble
- RegiÃ³n del BiobÃ­o
- RegiÃ³n del Libertador Gral. Bernardo OâHiggins
- RegiÃ³n del Maule
- Sin InformaciÃ³n

Distribución por región:
- RegiÃ³n Metropolitana de Santiago: 19581 registros (16.40%)
- RegiÃ³n de ValparaÃ­so: 13763 registros (11.53%)
- RegiÃ³n del Libertador Gral. Bernardo OâHiggins: 11634 registros (9.74%)
- RegiÃ³n del BiobÃ­o: 11580 registros (9.70%)
- RegiÃ³n de La AraucanÃ­a: 11173 registros (9.36%)
- RegiÃ³n del Maule: 10533 registros (8.82%)
- RegiÃ³n de Los Lagos: 10163 registros (8.51%)
- RegiÃ³n de Ãuble: 6956 registros (5.83%)
- RegiÃ³n de Coquim

In [6]:
# Buscar cualquier referencia a "Ríos" o "Los Rios" en las regiones
rios_matches = [region for region in regiones if 'rios' in region.lower() or 'ríos' in region.lower()]
print("Coincidencias encontradas para 'Ríos':")
for match in rios_matches:
    print(f"- {match}")

# Si encontramos alguna coincidencia, vamos a usar la primera
if rios_matches:
    region_los_rios_name = rios_matches[0]
    print(f"\nUsando '{region_los_rios_name}' como nombre de la Región de Los Ríos")
else:
    print("\nNo se encontró ninguna referencia a la Región de Los Ríos")
    region_los_rios_name = None

Coincidencias encontradas para 'Ríos':

No se encontró ninguna referencia a la Región de Los Ríos


In [7]:
# Comunas conocidas de la Región de Los Ríos
comunas_los_rios = ['Valdivia', 'La Unión', 'Río Bueno', 'Panguipulli', 'Mariquina', 'Lanco',
                   'Paillaco', 'Los Lagos', 'Futrono', 'Lago Ranco', 'Máfil', 'Corral']

# Filtrar el dataset por estas comunas
filtro_comunas = df['Comuna del domicilio o casa matriz'].isin(comunas_los_rios)
df_los_rios = df[filtro_comunas]

print(f"Registros encontrados por comunas: {len(df_los_rios)}")
print("\nDesglose por comuna:")
for comuna in comunas_los_rios:
    count = len(df[df['Comuna del domicilio o casa matriz'] == comuna])
    if count > 0:
        print(f"- {comuna}: {count} registros")
        
        # Mostrar las regiones asociadas a esta comuna
        regiones_comuna = df[df['Comuna del domicilio o casa matriz'] == comuna]['Region del domicilio o casa matriz'].unique()
        print(f"  Regiones asociadas: {', '.join(str(r) for r in regiones_comuna)}")

Registros encontrados por comunas: 3286

Desglose por comuna:
- Valdivia: 389 registros
  Regiones asociadas: RegiÃ³n de Los RÃ­os
- Panguipulli: 380 registros
  Regiones asociadas: RegiÃ³n de Los RÃ­os
- Mariquina: 370 registros
  Regiones asociadas: RegiÃ³n de Los RÃ­os
- Lanco: 378 registros
  Regiones asociadas: RegiÃ³n de Los RÃ­os
- Paillaco: 374 registros
  Regiones asociadas: RegiÃ³n de Los RÃ­os
- Los Lagos: 363 registros
  Regiones asociadas: RegiÃ³n de Los RÃ­os
- Futrono: 373 registros
  Regiones asociadas: RegiÃ³n de Los RÃ­os
- Lago Ranco: 351 registros
  Regiones asociadas: RegiÃ³n de Los RÃ­os
- Corral: 308 registros
  Regiones asociadas: RegiÃ³n de Los RÃ­os


In [8]:
# Ahora que sabemos el nombre correcto, filtramos
region_name = "RegiÃ³n de Los RÃ­os"  # Nombre con encoding correcto
region_los_rios = df[df["Region del domicilio o casa matriz"] == region_name]

# Verificar cuántos registros se obtuvieron
print(f"Registros filtrados: {region_los_rios.shape[0]} (de {df.shape[0]} originales)")
print(f"Porcentaje del dataset original: {(region_los_rios.shape[0] / df.shape[0] * 100):.2f}%")

# Mostrar las primeras filas del dataset filtrado
print("\nPrimeras filas del dataset filtrado (Región de Los Ríos):")
display(region_los_rios.head())

# Guardar en un nuevo archivo CSV
region_los_rios.to_csv(OUTPUT_FILE, index=False, encoding='utf-8')
print(f"Archivo guardado exitosamente en: {OUTPUT_FILE}")

# Verificar las comunas presentes
print("\nComunas presentes en la Región de Los Ríos:")
comunas_presentes = sorted(region_los_rios['Comuna del domicilio o casa matriz'].unique())
for comuna in comunas_presentes:
    count = len(region_los_rios[region_los_rios['Comuna del domicilio o casa matriz'] == comuna])
    print(f"- {comuna}: {count} registros")

Registros filtrados: 4373 (de 119406 originales)
Porcentaje del dataset original: 3.66%

Primeras filas del dataset filtrado (Región de Los Ríos):


Unnamed: 0,AÃ±o Comercial,Comuna del domicilio o casa matriz,Provincia del domicilio o casa matriz,Region del domicilio o casa matriz,Rubro economico,NÃºmero de empresas,Ventas anuales en UF,NÃºmero de trabajadores dependientes informados,Renta neta informada en UF,Trabajadores ponderados por meses trabajados,NÃºmero de trabajadores dependientes de gÃ©nero femenino informados,"Renta neta informada en UF, trabajadores de gÃ©nero femenino",Trabajadores de gÃ©nero femenino ponderados por meses trabajados,NÃºmero de trabajadores dependientes de gÃ©nero masculino informados,"Renta neta informada en UF, trabajadores de gÃ©nero masculino",Trabajadores de gÃ©nero masculino ponderados por meses trabajados,NÃºmero de trabajadores a honorarios informados,Honorarios pagados informados en UF,Trabajadores a honorarios ponderados por meses trabajados,NÃºmero de trabajadores a honorarios de gÃ©nero femenino informados,Honorarios pagados informados a trabajadores de gÃ©nero femenino en UF,Trabajadores a honorarios de gÃ©nero femenino ponderados por meses trabajados,NÃºmero de trabajadores a honorarios de gÃ©nero masculino informados,Honorarios pagados informados a trabajadores de gÃ©nero masculino en UF,Trabajadores a honorarios de gÃ©nero masculino ponderados por meses trabajados
7,2005,Lanco,Valdivia,RegiÃ³n de Los RÃ­os,P - EnseÃ±anza,2,*,19,*,15.083,13,*,10.167,6,*,4.917,1,*,0.0,1,*,0.0,0,*,0.0
30,2005,Lago Ranco,Ranco,RegiÃ³n de Los RÃ­os,L - Actividades inmobiliarias,1,*,0,*,0.0,0,*,0.0,0,*,0.0,0,*,0.0,0,*,0.0,0,*,0.0
32,2005,MÃ¡fil,Valdivia,RegiÃ³n de Los RÃ­os,Sin informaciÃ³n,2,*,0,*,0.0,0,*,0.0,0,*,0.0,0,*,0.0,0,*,0.0,0,*,0.0
33,2005,Futrono,Ranco,RegiÃ³n de Los RÃ­os,I - Actividades de alojamiento y de servicio d...,28,25312.21,45,1693.188,22.0,27,976.605,12.583,18,716.583,9.417,27,675.139,0.0,10,124.941,0.0,17,550.198,0.0
93,2005,Corral,Valdivia,RegiÃ³n de Los RÃ­os,H - Transporte y almacenamiento,12,60986.22,22,2834.417,19.75,4,336.13,2.75,18,2498.288,17.0,22,578.851,0.0,3,75.533,0.0,19,503.318,0.0


Archivo guardado exitosamente en: /Users/brunosanmartin/Documents/Uach/sii-empresas-data-analysis/data/processed/region_los_rios.csv

Comunas presentes en la Región de Los Ríos:
- Corral: 308 registros
- Futrono: 373 registros
- La UniÃ³n: 376 registros
- Lago Ranco: 351 registros
- Lanco: 378 registros
- Los Lagos: 363 registros
- Mariquina: 370 registros
- MÃ¡fil: 333 registros
- Paillaco: 374 registros
- Panguipulli: 380 registros
- RÃ­o Bueno: 378 registros
- Valdivia: 389 registros


## 3. Análisis por Comuna

Ahora que tenemos los datos filtrados para la Región de Los Ríos, vamos a analizar la distribución de empresas por comuna.

In [13]:
# Mostrar las columnas del dataset limpio
print("Columnas disponibles en el dataset:")
for col in df_los_rios.columns:
    print(f"- {col}")

print("\nPrimeras filas del dataset:")
display(df_los_rios.head(3))

# Definir paletas de colores para daltonismo - compatibles con The Economist
colors_daltonismo_elegante = [
    '#1B4A6B',  # Azul marino elegante
    '#2E7AA1',  # Azul medio
    '#85C1E0',  # Azul claro
    '#F4B942',  # Amarillo dorado
    '#D2691E',  # Naranja elegante
    '#8B4513',  # Marrón sofisticado
    '#2F4F2F',  # Verde oscuro
    '#696969',  # Gris elegante
    '#DC143C',  # Rojo característico de The Economist
    '#4682B4'   # Azul acero
]

# Paleta científica para daltonismo - perfecta para gráficos de líneas y análisis temporal
colors_daltonismo_cientifica = [
    '#2E5984',  # Azul científico oscuro
    '#8B9DC3',  # Azul científico medio
    '#DFB067'   # Dorado científico (complementario perfecto)
]

Columnas disponibles en el dataset:
- AÃ±o Comercial
- Comuna del domicilio o casa matriz
- Provincia del domicilio o casa matriz
- Region del domicilio o casa matriz
- Rubro economico
- NÃºmero de empresas
- Ventas anuales en UF
- NÃºmero de trabajadores dependientes informados
- Renta neta informada en UF
- Trabajadores ponderados por meses trabajados
- NÃºmero de trabajadores dependientes de gÃ©nero femenino informados
- Renta neta informada en UF, trabajadores de gÃ©nero femenino
- Trabajadores de gÃ©nero femenino ponderados por meses trabajados
- NÃºmero de trabajadores dependientes de gÃ©nero masculino informados
- Renta neta informada en UF, trabajadores de gÃ©nero masculino
- Trabajadores de gÃ©nero masculino ponderados por meses trabajados
- NÃºmero de trabajadores a honorarios informados
- Honorarios pagados informados en UF
- Trabajadores a honorarios ponderados por meses trabajados
- NÃºmero de trabajadores a honorarios de gÃ©nero femenino informados
- Honorarios pagados in

Unnamed: 0,AÃ±o Comercial,Comuna del domicilio o casa matriz,Provincia del domicilio o casa matriz,Region del domicilio o casa matriz,Rubro economico,NÃºmero de empresas,Ventas anuales en UF,NÃºmero de trabajadores dependientes informados,Renta neta informada en UF,Trabajadores ponderados por meses trabajados,NÃºmero de trabajadores dependientes de gÃ©nero femenino informados,"Renta neta informada en UF, trabajadores de gÃ©nero femenino",Trabajadores de gÃ©nero femenino ponderados por meses trabajados,NÃºmero de trabajadores dependientes de gÃ©nero masculino informados,"Renta neta informada en UF, trabajadores de gÃ©nero masculino",Trabajadores de gÃ©nero masculino ponderados por meses trabajados,NÃºmero de trabajadores a honorarios informados,Honorarios pagados informados en UF,Trabajadores a honorarios ponderados por meses trabajados,NÃºmero de trabajadores a honorarios de gÃ©nero femenino informados,Honorarios pagados informados a trabajadores de gÃ©nero femenino en UF,Trabajadores a honorarios de gÃ©nero femenino ponderados por meses trabajados,NÃºmero de trabajadores a honorarios de gÃ©nero masculino informados,Honorarios pagados informados a trabajadores de gÃ©nero masculino en UF,Trabajadores a honorarios de gÃ©nero masculino ponderados por meses trabajados,comuna_clean
0,2005,Lanco,Valdivia,RegiÃ³n de Los RÃ­os,P - EnseÃ±anza,2,*,19,*,15.083,13,*,10.167,6,*,4.917,1,*,0.0,1,*,0.0,0,*,0.0,Lanco
1,2005,Lago Ranco,Ranco,RegiÃ³n de Los RÃ­os,L - Actividades inmobiliarias,1,*,0,*,0.0,0,*,0.0,0,*,0.0,0,*,0.0,0,*,0.0,0,*,0.0,Lago Ranco
2,2005,MÃ¡fil,Valdivia,RegiÃ³n de Los RÃ­os,Sin informaciÃ³n,2,*,0,*,0.0,0,*,0.0,0,*,0.0,0,*,0.0,0,*,0.0,0,*,0.0,Máfil


In [67]:
# Limpiar los nombres de las columnas para trabajar mejor
df_los_rios.columns = [col.strip() for col in df_los_rios.columns]

# Renombrar las columnas con caracteres especiales
column_mapping = {
    'ï»¿AÃ±o Comercial': 'Año Comercial',
    'NÃºmero de empresas': 'Número de empresas',
    'NÃºmero de trabajadores dependientes informados': 'Número de trabajadores dependientes',
    'NÃºmero de trabajadores dependientes de gÃ©nero femenino informados': 'Número trabajadores femeninos',
    'NÃºmero de trabajadores dependientes de gÃ©nero masculino informados': 'Número trabajadores masculinos'
}

# Aplicar renombrado solo a las columnas que vamos a usar
for old_name, new_name in column_mapping.items():
    if old_name in df_los_rios.columns:
        df_los_rios[new_name] = df_los_rios[old_name]

# Agregar columnas con nombres corregidos para mejor visualización
df_los_rios['Comuna'] = df_los_rios['Comuna del domicilio o casa matriz'].apply(
    lambda x: x.replace('Ã³', 'ó').replace('Ã¡', 'á').replace('Ã­', 'í')
)

# Convertir columnas numéricas
df_los_rios['Número de empresas'] = pd.to_numeric(df_los_rios['Número de empresas'], errors='coerce')

# Verificar que la conversión fue exitosa
print("Tipo de datos de 'Número de empresas':", df_los_rios['Número de empresas'].dtype)
print("Primeros valores:", df_los_rios['Número de empresas'].head())

# Analizar la distribución de empresas por comuna
empresas_por_comuna = df_los_rios.groupby('Comuna')['Número de empresas'].sum().sort_values(ascending=False)
total_empresas = empresas_por_comuna.sum()

print(f"Total de empresas: {total_empresas}")

# Crear un dataframe para análisis
df_comunas = pd.DataFrame({
    'comuna': empresas_por_comuna.index,
    'empresas': empresas_por_comuna.values,
    'porcentaje': (empresas_por_comuna.values / total_empresas * 100)
})

# Mostrar tabla de distribución
print("\nDistribución de empresas por comuna en la Región de Los Ríos:")
print(f"Total de empresas en la región: {total_empresas:,.0f}\n")
display(df_comunas)

# Paleta de colores elegante para daltonismo (Tol qualitative + tonos refinados)
colors_daltonismo_elegante = [
    '#1B4F72',  # Azul marino elegante
    '#2E8B57',  # Verde bosque
    '#B8860B',  # Dorado oscuro
    '#8B4513',  # Marrón elegante
    '#4682B4',  # Azul acero
    '#6B8E23',  # Verde oliva
    '#CD853F',  # Beige dorado
    '#2F4F4F',  # Gris pizarra oscuro
    '#483D8B',  # Azul pizarra oscuro
    '#556B2F',  # Verde militar
    '#8B6914',  # Dorado oscuro
    '#654321'   # Marrón chocolate
]

# Crear gráfico de barras horizontal interactivo con Plotly (tamaño optimizado para pantalla)
fig = px.bar(
    df_comunas,
    x='empresas',
    y='comuna',
    orientation='h',  # Barras horizontales
    color='comuna',  # Usar colores diferentes para cada comuna
    color_discrete_sequence=colors_daltonismo_elegante,  # Paleta elegante para daltonismo
    text=df_comunas.apply(lambda x: f"{x['empresas']:,.0f} ({x['porcentaje']:.1f}%)", axis=1),
    labels={'empresas': 'Número de Empresas', 'comuna': 'Comuna'},
    height=700,  # Altura reducida para caber en pantalla
    width=1100,  # Ancho optimizado
)

# Aplicar estilo "The Economist" con fuente Georgia
fig.update_layout(
    font=dict(family='Georgia, serif', color='#1e293b'),
    title=dict(
        text='<span style="border-bottom: 5px solid #DC143C; padding-bottom: 5px;">Número de Empresas por Comuna en la Región de Los Ríos</span>',
        font=dict(size=18, family='Georgia, serif', color='#1e293b'),
        x=0.01,  # Título alineado a la izquierda
        y=0.95
    ),
    xaxis=dict(
        title=dict(text='Número de Empresas', font=dict(family='Georgia, serif', size=14)),
        tickfont=dict(family='Georgia, serif'),
        showgrid=True,
        gridcolor='lightgray',
        zeroline=False
    ),
    yaxis=dict(
        title=dict(text='Comuna', font=dict(family='Georgia, serif', size=14)),
        tickfont=dict(family='Georgia, serif'),
        showgrid=False,  # Sin líneas de cuadrícula en Y
        zeroline=False,
        categoryorder='total ascending'  # Ordenar comunas por valor
    ),
    legend=dict(
        font=dict(family='Georgia, serif')
    ),
    plot_bgcolor='white',
    paper_bgcolor='white',
    margin=dict(l=120, r=50, t=80, b=50)  # Margen izquierdo ajustado para nombres de comunas
)

# Personalizar las barras y texto
fig.update_traces(
    textposition='outside',
    textfont=dict(family='Georgia, serif', size=11, color='#1e293b'),
    marker=dict(
        line=dict(color='white', width=0.5)
    ),
    hovertemplate='<b>%{y}</b><br>Empresas: %{x:,.0f}<br>Porcentaje: %{customdata:.1f}%<extra></extra>',
    customdata=df_comunas['porcentaje'],  # Agregar datos del porcentaje para el hover
    showlegend=False  # Ocultar leyenda ya que los colores son por comuna
)

# Mostrar el gráfico
fig.show()

Tipo de datos de 'Número de empresas': int64
Primeros valores: 0     2
1     1
2     2
3    28
4    12
Name: Número de empresas, dtype: int64
Total de empresas: 441532

Distribución de empresas por comuna en la Región de Los Ríos:
Total de empresas en la región: 441,532



Unnamed: 0,comuna,empresas,porcentaje
0,Valdivia,191845,43.449852
1,La Unión,48465,10.976554
2,Río Bueno,40709,9.219943
3,Panguipulli,38970,8.826087
4,Paillaco,24089,5.455777
5,Mariquina,20918,4.737595
6,Lanco,19538,4.425047
7,Los Lagos,19034,4.310899
8,Futrono,15996,3.62284
9,Lago Ranco,9436,2.137104


## 4. Análisis Temporal

En esta sección, vamos a analizar la evolución de las empresas a lo largo del tiempo en la Región de Los Ríos.

In [20]:
# Convertir el año comercial a numérico
df_los_rios['Año Comercial'] = pd.to_numeric(df_los_rios['Año Comercial'], errors='coerce')

# Agrupar por año
evolucion_temporal = df_los_rios.groupby('Año Comercial')['Número de empresas'].sum().reset_index()
evolucion_temporal = evolucion_temporal.sort_values('Año Comercial')

# Crear gráfico de líneas interactivo con Plotly
fig = px.line(
    evolucion_temporal,
    x='Año Comercial',
    y='Número de empresas',
    markers=True,
    labels={'Año Comercial': 'Año', 'Número de empresas': 'Número de Empresas'},
    height=600,  # Más alto
    width=1200,  # Más ancho para mejor visualización
)

# Agregar texto con valores
fig.update_traces(
    text=evolucion_temporal['Número de empresas'].apply(lambda x: f"{x:,.0f}"),
    textposition="top center",
    line=dict(color='#4477AA', width=3),  # Color daltonismo científico
    marker=dict(size=10, color='#4477AA'),
    textfont=dict(family='Georgia, serif', size=10, color='#1e293b'),
)

# Aplicar estilo "The Economist" personalizado
fig.update_layout(
    font=dict(family='Georgia, serif', color='#1e293b'),
    title=dict(
        text='<span style="border-bottom: 5px solid #DC143C; padding-bottom: 5px;">Evolución del Número de Empresas en la Región de Los Ríos</span>',
        font=dict(size=18, family='Georgia, serif', color='#1e293b'),
        x=0.01,  # Título alineado a la izquierda
        y=0.95
    ),
    xaxis=dict(
        title=dict(text='Año', font=dict(family='Georgia, serif', size=14)),
        tickfont=dict(family='Georgia, serif'),
        showgrid=False,  # Eliminar grid lines en X
        gridcolor='lightgray',
        zeroline=False,
    ),
    yaxis=dict(
        title=dict(text='Número de Empresas', font=dict(family='Georgia, serif', size=14)),
        tickfont=dict(family='Georgia, serif'),
        showgrid=True,  # Mantener grid lines en Y
        gridcolor='lightgray',
        zeroline=False,
    ),
    plot_bgcolor='white',
    paper_bgcolor='white',
    margin=dict(l=80, r=40, t=100, b=80),
)

# Mostrar el gráfico
fig.show()

# Tabla con la evolución temporal
print("Evolución del número de empresas por año en la Región de Los Ríos:")
display(evolucion_temporal)

# Calcular tasas de crecimiento
evolucion_temporal['Variación Absoluta'] = evolucion_temporal['Número de empresas'].diff()
evolucion_temporal['Tasa de Crecimiento (%)'] = evolucion_temporal['Número de empresas'].pct_change() * 100

print("\nTasas de crecimiento anual:")
display(evolucion_temporal[['Año Comercial', 'Número de empresas', 'Variación Absoluta', 'Tasa de Crecimiento (%)']].dropna())

Evolución del número de empresas por año en la Región de Los Ríos:


Unnamed: 0,Año Comercial,Número de empresas
0,2005,17846
1,2006,18222
2,2007,18463
3,2008,18631
4,2009,18929
5,2010,19371
6,2011,20043
7,2012,20653
8,2013,21196
9,2014,21901



Tasas de crecimiento anual:


Unnamed: 0,Año Comercial,Número de empresas,Variación Absoluta,Tasa de Crecimiento (%)
1,2006,18222,376.0,2.106915
2,2007,18463,241.0,1.322577
3,2008,18631,168.0,0.909928
4,2009,18929,298.0,1.599485
5,2010,19371,442.0,2.335041
6,2011,20043,672.0,3.469103
7,2012,20653,610.0,3.043457
8,2013,21196,543.0,2.629158
9,2014,21901,705.0,3.326099
10,2015,22413,512.0,2.337793


## 5. Análisis por Rubro Económico

En esta sección, analizaremos la distribución de empresas por rubro económico en la Región de Los Ríos.

In [33]:
# Análisis por rubro económico
rubros_empresas = df_los_rios.groupby('Rubro economico')['Número de empresas'].sum().sort_values(ascending=False)
total_empresas_rubros = rubros_empresas.sum()

# Función para limpiar caracteres especiales
def limpiar_texto(texto):
    """Limpia caracteres especiales en el texto"""
    if pd.isna(texto):
        return ""
    texto = str(texto)
    # Reemplazar caracteres con encoding problemático
    replacements = {
        'Ã³': 'ó', 'Ã¡': 'á', 'Ã­': 'í', 'Ã©': 'é', 'Ãº': 'ú',
        'Ã±': 'ñ', 'Ã‰': 'É', 'Ã': 'Á', 'Ã"': 'Ó', 'Ãš': 'Ú'
    }
    for old, new in replacements.items():
        texto = texto.replace(old, new)
    return texto

# Crear un dataframe para análisis
df_rubros = pd.DataFrame({
    'rubro': rubros_empresas.index,
    'empresas': rubros_empresas.values,
    'porcentaje': (rubros_empresas.values / total_empresas_rubros * 100)
})

# Limpiar caracteres especiales en los rubros
df_rubros['rubro_limpio'] = df_rubros['rubro'].apply(limpiar_texto)

# Extraer el código del rubro (primera letra) para facilitar la visualización
df_rubros['codigo'] = df_rubros['rubro_limpio'].str.split(' - ').str[0]
df_rubros['descripcion'] = df_rubros['rubro_limpio'].str.split(' - ').str[1:]
df_rubros['descripcion'] = df_rubros['descripcion'].apply(lambda x: ' - '.join(x) if isinstance(x, list) else '')

# Mostrar top 10 rubros
print("Top 10 rubros económicos en la Región de Los Ríos:")
display(df_rubros.head(10))

# Preparar datos para el gráfico de torta
# Si hay muchos rubros, mostrar solo los top 10 y agrupar el resto
if len(df_rubros) > 10:
    top_rubros = df_rubros.head(10).copy()
    otros = pd.DataFrame({
        'rubro': ['Otros rubros'],
        'empresas': [df_rubros.iloc[10:]['empresas'].sum()],
        'porcentaje': [df_rubros.iloc[10:]['porcentaje'].sum()],
        'codigo': ['Otros'],
        'descripcion': ['Rubros económicos varios'],
        'rubro_limpio': ['Otros - Rubros económicos varios']
    })
    df_rubros_plot = pd.concat([top_rubros, otros])
else:
    df_rubros_plot = df_rubros

# Función para abreviar nombres largos y añadir claridad
def abreviar_descripcion(descripcion):
    """Abrevia descripciones largas y añade punto final para claridad"""
    # Diccionario de abreviaciones específicas
    abreviaciones = {
        'Comercio al por mayor y al por menor; reparación de vehículos automotores y motocicletas': 'Comercio y reparación automotriz',
        'Agricultura, ganadería, silvicultura y pesca': 'Agricultura y ganadería',
        'Transporte y almacenamiento': 'Transporte y almacenamiento',
        'Actividades de servicios administrativos y de apoyo': 'Servicios administrativos',
        'Construcción': 'Construcción',
        'Actividades inmobiliarias': 'Inmobiliarias',
        'Alojamiento y servicios de comida': 'Hotelería y restaurantes',
        'Industrias manufactureras': 'Industria manufacturera',
        'Información y comunicaciones': 'Información y comunicaciones',
        'Actividades profesionales, científicas y técnicas': 'Servicios profesionales',
        'Actividades de atención de la salud humana y de asistencia social': 'Atención de salud<br>y asistencia social',
        'Otros servicios': 'Otros servicios'
    }
    
    # Aplicar abreviación si existe
    descripcion_abreviada = abreviaciones.get(descripcion, descripcion)
    
    # Añadir punto al final si no lo tiene y no tiene salto de línea
    if not descripcion_abreviada.endswith('.') and '<br>' not in descripcion_abreviada:
        descripcion_abreviada += '.'
    elif '<br>' in descripcion_abreviada and not descripcion_abreviada.endswith('.'):
        descripcion_abreviada += '.'
    
    return descripcion_abreviada

# Función específica para crear etiquetas elegantes en el gráfico de barras
def crear_etiqueta_barras_elegante(descripcion):
    """Crea etiquetas con saltos de línea inteligentes para el gráfico de barras"""
    
    # Primero aplicar abreviaciones
    descripcion_abreviada = abreviar_descripcion(descripcion)
    
    # Si ya tiene salto de línea, devolverla tal como está
    if '<br>' in descripcion_abreviada:
        return descripcion_abreviada
    
    # Si es corta (menos de 25 caracteres), devolverla tal como está
    if len(descripcion_abreviada) <= 25:
        return descripcion_abreviada
    
    # Para textos más largos, crear saltos de línea inteligentes
    palabras = descripcion_abreviada.replace('.', '').split()  # Quitar punto temporalmente
    lineas = []
    linea_actual = ""
    
    for palabra in palabras:
        # Si agregar la palabra no excede 25 caracteres, agregarla
        if len(linea_actual + " " + palabra) <= 25:
            linea_actual += (" " + palabra) if linea_actual else palabra
        else:
            # Si la línea actual no está vacía, guardarla y empezar nueva línea
            if linea_actual:
                lineas.append(linea_actual)
            linea_actual = palabra
    
    # Agregar la última línea si no está vacía
    if linea_actual:
        lineas.append(linea_actual)
    
    # Unir las líneas con saltos de línea HTML y agregar punto al final
    resultado = "<br>".join(lineas) + "."
    
    return resultado

# Crear etiquetas para el gráfico con texto abreviado y punto final
df_rubros_plot['label'] = df_rubros_plot.apply(
    lambda row: abreviar_descripcion(row['descripcion']), 
    axis=1
)

# Crear gráfico de torta interactivo con Plotly
fig = px.pie(
    df_rubros_plot, 
    values='empresas', 
    names='label', 
    color_discrete_sequence=colors_daltonismo_cientifica[:len(df_rubros_plot)],  # Usar paleta científica
    height=700,  # Más alto
    width=1100,  # Más ancho para mejor legibilidad
)

# Aplicar estilo "The Economist" personalizado
fig.update_layout(
    font=dict(family='Georgia, serif', color='#1e293b'),
    title=dict(
        text='<span style="border-bottom: 5px solid #DC143C; padding-bottom: 5px;">Distribución de Empresas por Rubro Económico en la Región de Los Ríos</span>',
        font=dict(size=18, family='Georgia, serif', color='#1e293b'),
        x=0.01,  # Título alineado a la izquierda
        y=0.95
    ),
    paper_bgcolor='white',
    plot_bgcolor='white',
    margin=dict(l=80, r=40, t=100, b=80),
)

# Personalizar gráfico de torta
fig.update_traces(
    textposition='inside',
    textinfo='percent',
    insidetextfont=dict(family="Georgia, serif", size=12),
    pull=[0.05 if i == 0 else 0 for i in range(len(df_rubros_plot))],  # Destacar el primer sector
    marker=dict(line=dict(color='white', width=1.5)),
    rotation=90,
    hovertemplate='<b>%{label}</b><br>Empresas: %{value:,.0f}<br>Porcentaje: %{percent}<extra></extra>',  # Tooltip personalizado
)

# Personalizar leyenda
fig.update_layout(
    legend=dict(
        orientation="v",
        yanchor="middle",
        y=0.5,
        xanchor="right",
        x=1.15,  # Más alejado del gráfico
        font=dict(family="Georgia, serif", size=11),  # Texto un poco más grande
        itemwidth=30,  # Más espacio para las etiquetas
    )
)

# Mostrar el gráfico
fig.show()

# Crear gráfico de barras horizontal para los top 15 rubros con Plotly
top_15_rubros = df_rubros.head(15).copy()
# Aplicar etiquetas elegantes con saltos de línea inteligentes
top_15_rubros['etiqueta_rubro'] = top_15_rubros.apply(
    lambda x: crear_etiqueta_barras_elegante(x['descripcion']), 
    axis=1
)
top_15_rubros['texto'] = top_15_rubros.apply(lambda x: f"{x['empresas']:,.0f}<br>({x['porcentaje']:.1f}%)", axis=1)

# Crear el gráfico
fig = px.bar(
    top_15_rubros,
    x='empresas',
    y='etiqueta_rubro',
    orientation='h',
    color='etiqueta_rubro',  # Usar colores diferentes para cada rubro
    color_discrete_sequence=colors_daltonismo_cientifica,  # Usar paleta científica completa
    text='texto',
    height=900,  # Más alto para acomodar mejor las etiquetas con múltiples líneas
    width=1100,  # Más ancho para mejor visualización
    labels={'empresas': 'Número de Empresas', 'etiqueta_rubro': 'Rubro Económico'},
)

# Aplicar estilo "The Economist" personalizado
fig.update_layout(
    font=dict(family='Georgia, serif', color='#1e293b'),
    title=dict(
        text='<span style="border-bottom: 5px solid #DC143C; padding-bottom: 5px;">Top 15 Rubros Económicos en la Región de Los Ríos</span>',
        font=dict(size=18, family='Georgia, serif', color='#1e293b'),
        x=0.25,  # Título más hacia la derecha para alinearse con el gráfico
        y=0.95
    ),
    xaxis=dict(
        title=dict(text='Número de Empresas', font=dict(family='Georgia, serif', size=14)),
        tickfont=dict(family='Georgia, serif'),
        showgrid=True,  # Mantener grid lines en X
        gridcolor='lightgray',
        zeroline=False
    ),
    yaxis=dict(
        title=dict(text='Rubro Económico', font=dict(family='Georgia, serif', size=14)),
        tickfont=dict(family='Georgia, serif'),
        showgrid=False,  # Eliminar grid lines en Y
        zeroline=False,
        categoryorder='total ascending'  # Ordenar rubros por valor
    ),
    plot_bgcolor='white',
    paper_bgcolor='white',
    margin=dict(l=200, r=50, t=80, b=50)  # Reducir margen izquierdo para pegar el gráfico más a la izquierda
)

# Personalizar la posición del texto
fig.update_traces(
    textposition='outside',
    textfont=dict(family="Georgia, serif", size=11),
    hovertemplate='<b>%{y}</b><br>Empresas: %{x:,.0f}<br>Porcentaje: %{customdata:.1f}%<extra></extra>',  # Tooltip personalizado
    customdata=top_15_rubros['porcentaje'],  # Agregar datos del porcentaje para el hover
    showlegend=False  # Ocultar leyenda ya que los colores son por rubro
)

# Mostrar el gráfico
fig.show()

Top 10 rubros económicos en la Región de Los Ríos:


Unnamed: 0,rubro,empresas,porcentaje,rubro_limpio,codigo,descripcion
0,G - Comercio al por mayor y al por menor; repa...,124481,28.192974,G - Comercio al por mayor y al por menor; repa...,G,Comercio al por mayor y al por menor; reparaci...
1,"A - Agricultura, ganaderÃ­a, silvicultura y pesca",80296,18.185771,"A - Agricultura, ganadería, silvicultura y pesca",A,"Agricultura, ganadería, silvicultura y pesca"
2,H - Transporte y almacenamiento,43143,9.771206,H - Transporte y almacenamiento,H,Transporte y almacenamiento
3,F - ConstrucciÃ³n,36417,8.247873,F - Construcción,F,Construcción
4,C - Industria manufacturera,33625,7.61553,C - Industria manufacturera,C,Industria manufacturera
5,I - Actividades de alojamiento y de servicio d...,32561,7.37455,I - Actividades de alojamiento y de servicio d...,I,Actividades de alojamiento y de servicio de co...
6,N - Actividades de servicios administrativos y...,14974,3.391374,N - Actividades de servicios administrativos y...,N,Actividades de servicios administrativos y de ...
7,S - Otras actividades de servicios,14505,3.285153,S - Otras actividades de servicios,S,Otras actividades de servicios
8,"M - Actividades profesionales, cientÃ­ficas y ...",13884,3.144506,"M - Actividades profesionales, científicas y t...",M,"Actividades profesionales, científicas y técnicas"
9,L - Actividades inmobiliarias,10865,2.46075,L - Actividades inmobiliarias,L,Actividades inmobiliarias


## 6. Visualización de Resultados

En esta sección, crearemos visualizaciones más avanzadas para explorar relaciones entre variables.

In [64]:
# Crear un mapa de calor para mostrar la relación entre comunas y rubros económicos

# Preparar los datos
# Seleccionamos las top 5 comunas y los top 5 rubros para una mejor visualización
top_5_comunas = df_comunas['comuna'].head(5).tolist()
top_5_rubros_descriptions = df_rubros['descripcion'].head(5).tolist()

# Filtrar el dataframe para las comunas y rubros seleccionados
# Usar descripciones limpias en lugar de códigos
df_filtered = df_los_rios[df_los_rios['Comuna'].isin(top_5_comunas)]

# Agregar descripción limpia al dataframe filtrado
df_filtered = df_filtered.copy()
df_filtered['Rubro_limpio'] = df_filtered['Rubro economico'].apply(limpiar_texto)
df_filtered['Descripcion_rubro'] = df_filtered['Rubro_limpio'].str.split(' - ').str[1:].apply(lambda x: ' - '.join(x) if isinstance(x, list) else '')

# Filtrar por las top 5 descripciones
df_filtered = df_filtered[df_filtered['Descripcion_rubro'].isin(top_5_rubros_descriptions)]

# Convertir a formato pivot para el mapa de calor usando descripciones limpias
pivot_data = df_filtered.pivot_table(
    index='Comuna',
    columns='Descripcion_rubro',
    values='Número de empresas',
    aggfunc='sum',
    fill_value=0
)

# Función para abreviar etiquetas de rubros para el mapa de calor
def abreviar_rubro_heatmap(descripcion):
    """Abrevia descripciones de rubros para el mapa de calor con saltos de línea elegantes"""
    abreviaciones_heatmap = {
        'Comercio al por mayor y al por menor; reparación de vehículos automotores y motocicletas': 'Comercio y<br>Reparación<br>Automotriz',
        'Agricultura, ganadería, silvicultura y pesca': 'Agricultura<br>y Ganadería',
        'Transporte y almacenamiento': 'Transporte y<br>Almacenamiento',
        'Actividades de servicios administrativos y de apoyo': 'Servicios<br>Administrativos',
        'Construcción': 'Construcción',
        'Actividades inmobiliarias': 'Actividades<br>Inmobiliarias',
        'Alojamiento y servicios de comida': 'Hotelería y<br>Restaurantes',
        'Industrias manufactureras': 'Industria<br>Manufacturera',
        'Información y comunicaciones': 'Información y<br>Comunicaciones',
        'Actividades profesionales, científicas y técnicas': 'Servicios<br>Profesionales'
    }
    return abreviaciones_heatmap.get(descripcion, descripcion.replace(' ', '<br>'))

# Crear una copia de pivot_data con columnas abreviadas
pivot_data_display = pivot_data.copy()
pivot_data_display.columns = [abreviar_rubro_heatmap(col) for col in pivot_data_display.columns]

# Crear escala de colores elegante estilo "The Economist" - sofisticada y accesible para daltonismo
economist_heatmap_colors = [
    "#FAFBFC",  # Blanco cálido casi imperceptible (valores muy bajos)
    "#F4F6F8",  # Gris perla muy suave
    "#E8EDF3",  # Gris azulado elegante
    "#D6E3F0",  # Azul gris claro sofisticado
    "#C1D5E0",  # Azul gris medio
    "#A8C2D0",  # Azul acero claro
    "#8BADC3",  # Azul acero medio
    "#6B96B6",  # Azul profesional
    "#4C7FA3",  # Azul corporativo
    "#326590",  # Azul "The Economist" clásico
    "#1B4A6B"   # Azul profundo elegante (valores más altos)
]

# Crear mapa de calor interactivo con Plotly usando escala profesional
fig = px.imshow(
    pivot_data_display,
    labels=dict(x="Rubro Económico", y="Comuna", color="Número de Empresas"),
    text_auto=True,
    aspect="auto",
    color_continuous_scale=economist_heatmap_colors,  # Escala monocromática azul elegante y accesible
    height=700,  # Más alto para mejor visualización
    width=1200,  # Más ancho para acomodar mejor las etiquetas
)

# Aplicar estilo "The Economist" personalizado
fig.update_layout(
    font=dict(family='Georgia, serif', color='#1e293b'),
    title=dict(
        text='<span style="border-bottom: 5px solid #DC143C; padding-bottom: 5px;">Distribución de Empresas por Comuna y Rubro Económico (Top 5)</span>',
        font=dict(size=18, family='Georgia, serif', color='#1e293b'),
        x=0.01,  # Título alineado a la izquierda
        y=0.95
    ),
    xaxis=dict(
        title=dict(text='Rubro Económico', font=dict(family='Georgia, serif', size=14)),
        tickfont=dict(family='Georgia, serif', size=11),
        tickangle=0,  # Etiquetas horizontales para mejor legibilidad
        side='bottom',
        showgrid=True,  # Mantener grid lines en X
        gridcolor='lightgray',
        zeroline=False
    ),
    yaxis=dict(
        title=dict(text='Comuna', font=dict(family='Georgia, serif', size=14)),
        tickfont=dict(family='Georgia, serif', size=12),
        showgrid=False,  # Eliminar grid lines en Y
        zeroline=False
    ),
    plot_bgcolor='white',
    paper_bgcolor='white',
    margin=dict(l=80, r=120, t=100, b=120),  # Más margen derecho para la barra vertical
    coloraxis_colorbar=dict(
        title=dict(text="", font=dict(family="Georgia, serif", size=12, color="#2C3E50")),  # Sin título
        tickfont=dict(family="Georgia, serif", size=10, color="#2C3E50"),
        orientation="v",  # Vertical a la derecha
        thickness=20,  # Grosor normal
        len=0.7,  # Longitud ajustada
        x=1.02,  # A la derecha del gráfico
        xanchor="left",
        bgcolor='white',  # Fondo blanco limpio
        borderwidth=0,  # Sin borde para mayor elegancia
        outlinewidth=0,  # Sin contorno
    )
)

# Personalizar el texto del mapa de calor para mejor legibilidad
fig.update_traces(
    textfont=dict(family="Georgia, serif", size=14, color='#2C3E50'),  # Texto negro/gris oscuro por defecto
    texttemplate='%{z}',  # Mostrar solo el número
    hovertemplate='<b>%{y}</b><br><b>%{x}</b><br>Empresas: %{z}<extra></extra>',  # Tooltip mejorado
)

# Personalizar color específico para la celda de Valdivia - Comercio y Reparación Automotriz
# Encontrar las coordenadas de Valdivia y el rubro específico
valdivia_idx = list(pivot_data_display.index).index('Valdivia') if 'Valdivia' in pivot_data_display.index else -1
comercio_idx = -1
for i, col in enumerate(pivot_data_display.columns):
    if 'Comercio y<br>Reparación<br>Automotriz' in col:
        comercio_idx = i
        break

# Si encontramos ambas coordenadas, agregar anotación con texto blanco
if valdivia_idx >= 0 and comercio_idx >= 0:
    valor_celda = pivot_data_display.iloc[valdivia_idx, comercio_idx]
    fig.add_annotation(
        x=comercio_idx,
        y=valdivia_idx,
        text=f"{valor_celda/1000:.3f}k",  # Mostrar como "52.856k"
        showarrow=False,
        font=dict(family="Georgia, serif", size=14, color='white'),  # Solo esta celda en blanco
        bgcolor='rgba(0,0,0,0)',  # Fondo transparente para que no interfiera
    )

# Mostrar el gráfico
fig.show()

# Ahora creamos un gráfico de barras apiladas para mostrar la composición de rubros por comuna
top_comunas = df_comunas['comuna'].head(5).tolist()
top_rubros_descriptions = df_rubros['descripcion'].head(5).tolist()

# Crear un dataframe para el gráfico usando descripciones limpias
df_stacked = df_filtered.groupby(['Comuna', 'Descripcion_rubro'])['Número de empresas'].sum().unstack()

# Normalizar para obtener porcentajes
df_stacked_pct = df_stacked.div(df_stacked.sum(axis=1), axis=0) * 100

# Función para abreviar nombres de rubros para el gráfico de barras apiladas
def abreviar_rubro_stacked(descripcion):
    """Abrevia descripciones de rubros para el gráfico de barras apiladas"""
    abreviaciones_stacked = {
        'Comercio al por mayor y al por menor; reparación de vehículos automotores y motocicletas': 'Comercio y Reparación Automotriz',
        'Agricultura, ganadería, silvicultura y pesca': 'Agricultura y Ganadería',
        'Transporte y almacenamiento': 'Transporte y Almacenamiento',
        'Actividades de servicios administrativos y de apoyo': 'Servicios Administrativos',
        'Construcción': 'Construcción',
        'Actividades inmobiliarias': 'Actividades Inmobiliarias',
        'Alojamiento y servicios de comida': 'Hotelería y Restaurantes',
        'Industrias manufactureras': 'Industria Manufacturera',
        'Información y comunicaciones': 'Información y Comunicaciones',
        'Actividades profesionales, científicas y técnicas': 'Servicios Profesionales'
    }
    return abreviaciones_stacked.get(descripcion, descripcion)

# Aplicar abreviaciones a las columnas del dataframe
df_stacked_abrev = df_stacked_pct.copy()
df_stacked_abrev.columns = [abreviar_rubro_stacked(col) for col in df_stacked_abrev.columns]

# Convertir el DataFrame para que funcione con Plotly
df_stacked_plot = df_stacked_abrev.reset_index().melt(
    id_vars='Comuna',
    value_vars=df_stacked_abrev.columns,
    var_name='Rubro',
    value_name='Porcentaje'
)

# Paleta de colores elegante "The Economist" para daltonismo - más senior y sofisticada
economist_senior_colors = [
    "#2E5984",  # Azul marino elegante
    "#8B9DC3",  # Azul gris suave
    "#DFB067",  # Dorado cálido
    "#81A88D",  # Verde salvia
    "#C4A484",  # Beige cálido
    "#A67C7C",  # Rosa apagado
    "#7F8C8D",  # Gris acero
    "#B39C7D",  # Marrón claro
    "#9BB7C4",  # Azul gris claro
    "#D4A574"   # Ámbar suave
]

# Crear gráfico de barras apiladas con Plotly
fig = px.bar(
    df_stacked_plot,
    x='Comuna',
    y='Porcentaje',
    color='Rubro',
    barmode='stack',
    labels={'Porcentaje': 'Porcentaje (%)', 'Comuna': 'Comuna'},
    color_discrete_sequence=economist_senior_colors,  # Usar paleta elegante senior
    height=700,  # Más alto
    width=1100,  # Más ancho
    text=df_stacked_plot['Porcentaje'].apply(lambda x: f'{x:.1f}%' if x > 5 else '')
)

# Aplicar estilo "The Economist" personalizado
fig.update_layout(
    font=dict(family='Georgia, serif', color='#1e293b'),
    title=dict(
        text='<span style="border-bottom: 5px solid #DC143C; padding-bottom: 5px;">Composición Porcentual de Rubros Económicos por Comuna (Top 5)</span>',
        font=dict(size=18, family='Georgia, serif', color='#1e293b'),
        x=0.01,  # Título alineado a la izquierda
        y=0.95
    ),
    xaxis=dict(
        title=dict(text='Comuna', font=dict(family='Georgia, serif', size=14)),
        tickfont=dict(family='Georgia, serif'),
        type='category',
        categoryorder='total descending',
        showgrid=True,  # Mantener grid lines en X
        gridcolor='lightgray',
        zeroline=False
    ),
    yaxis=dict(
        title=dict(text='Porcentaje (%)', font=dict(family='Georgia, serif', size=14)),
        tickfont=dict(family='Georgia, serif'),
        showgrid=False,  # Eliminar grid lines en Y
        zeroline=False
    ),
    legend=dict(
        title_text='Rubro Económico',
        font=dict(family='Georgia, serif', size=11),
        title_font=dict(family='Georgia, serif', size=12),
        bgcolor='rgba(255, 255, 255, 0)',  # Fondo transparente
        bordercolor='rgba(0,0,0,0)',  # Sin borde
        borderwidth=0  # Sin ancho de borde
    ),
    plot_bgcolor='white',
    paper_bgcolor='white',
    margin=dict(l=80, r=40, t=100, b=80),
)

# Personalizar texto
fig.update_traces(
    textposition='inside', 
    textfont=dict(family="Georgia, serif", size=12, color='white'),  # Aumentar tamaño de texto a 12
    hovertemplate='<b>%{x}</b><br>%{fullData.name}: %{y:.1f}%<extra></extra>',  # Tooltip personalizado
)

# Mostrar el gráfico
fig.show()

# Gráfico de radar para comparar las 3 principales comunas en distintas variables
# Prepararemos variables normalizadas para la comparación

# Seleccionar las 3 principales comunas
top_3_comunas = df_comunas['comuna'].head(3).tolist()

# Crear un dataframe para datos agregados por comuna
radar_data = df_los_rios[df_los_rios['Comuna'].isin(top_3_comunas)].groupby('Comuna').agg({
    'Número de empresas': 'sum',
    'Ventas anuales en UF': lambda x: pd.to_numeric(x, errors='coerce').sum(),
    'Número de trabajadores dependientes': lambda x: pd.to_numeric(x, errors='coerce').sum(),
}).reset_index()

# Normalizar los datos para el gráfico de radar
radar_data_norm = radar_data.set_index('Comuna')
for col in radar_data_norm.columns:
    radar_data_norm[col] = radar_data_norm[col] / radar_data_norm[col].max()

# Preparar datos para el gráfico de radar con Plotly
radar_df = radar_data_norm.reset_index().melt(
    id_vars='Comuna',
    value_vars=radar_data_norm.columns,
    var_name='Indicador',
    value_name='Valor Normalizado'
)

# Paleta de colores senior "The Economist" para daltonismo - elegante y distinguida
radar_senior_colors = [
    "#2C5F7C",  # Azul marino profundo elegante (Valdivia)
    "#4A6741",  # Verde elegante y distinguido (La Unión)
    "#5D4E35"   # Marrón más oscuro para mejor diferenciación (Río Bueno)
]

# Crear el gráfico de radar con Plotly
fig = go.Figure()

# Añadir líneas para cada comuna con colores senior
for i, comuna in enumerate(radar_data_norm.index):
    comuna_data = radar_df[radar_df['Comuna'] == comuna]
    
    # Añadir último punto para cerrar el polígono
    comuna_data = pd.concat([
        comuna_data,
        pd.DataFrame({'Comuna': [comuna], 'Indicador': [comuna_data['Indicador'].iloc[0]], 'Valor Normalizado': [comuna_data['Valor Normalizado'].iloc[0]]})
    ])
    
    fig.add_trace(go.Scatterpolar(
        r=comuna_data['Valor Normalizado'],
        theta=comuna_data['Indicador'],
        fill='toself',
        name=comuna,
        line_color=radar_senior_colors[i],  # Usar paleta senior elegante
        fillcolor=radar_senior_colors[i],
        opacity=0.25,  # Más transparente para mayor elegancia
        line=dict(width=4),  # Líneas más gruesas
        marker=dict(size=8, color=radar_senior_colors[i]),  # Marcadores más prominentes
        hovertemplate='<b>%{fullData.name}</b><br>%{theta}: %{r:.2f}<extra></extra>',
    ))

# Aplicar estilo "The Economist" senior personalizado
fig.update_layout(
    polar=dict(
        radialaxis=dict(
            visible=True,
            range=[0, 1],
            tickvals=[0.2, 0.4, 0.6, 0.8, 1.0],
            ticktext=["0.2", "0.4", "0.6", "0.8", "1.0"],
            tickfont=dict(family="Georgia, serif", size=11, color="#2C3E50"),
            gridcolor="#F0F0F0",  # Grillas más suaves y claras
            gridwidth=0.3,  # Líneas de grilla muy delgadas
            linecolor="#E0E0E0",
            linewidth=0.3,  # Línea del eje muy delgada
            showline=True
        ),
        angularaxis=dict(
            tickfont=dict(family="Georgia, serif", size=13, color="#2C3E50", weight="bold"),
            gridcolor="#F0F0F0",
            gridwidth=0.3,  # Líneas de grilla muy delgadas
            linecolor="#E0E0E0",
            linewidth=0.3,  # Líneas del eje muy delgadas
            showline=True
        ),
        bgcolor="white",
    ),
    title=dict(
        text='<span style="border-bottom: 5px solid #DC143C; padding-bottom: 5px;">Comparación Normalizada de Indicadores por Comuna (Top 3)</span>',
        font=dict(family="Georgia, serif", size=18, color="#2C3E50", weight="bold"),
        x=0.01,
        y=0.95,
    ),
    font=dict(family="Georgia, serif", color="#2C3E50"),
    paper_bgcolor="white",
    legend=dict(
        font=dict(family="Georgia, serif", size=13, weight="bold"),
        orientation="h",
        yanchor="bottom",
        y=-0.15,  # Mover leyenda abajo
        xanchor="center",
        x=0.5,
        bgcolor='rgba(255, 255, 255, 0)',  # Fondo transparente
        bordercolor='rgba(0,0,0,0)',  # Sin borde
        borderwidth=0,
        itemwidth=100  # Más espacio entre elementos
    ),
    height=800,  # Más alto para mejor proporción
    width=900,   # Más ancho y cuadrado
    margin=dict(l=100, r=100, t=120, b=100),  # Márgenes más equilibrados
)

# Mostrar el gráfico
fig.show()

## 7. Análisis Estadístico

En esta sección, realizaremos algunos análisis estadísticos para identificar correlaciones y patrones en los datos de empresas de la Región de Los Ríos.

In [14]:
# Análisis estadístico de los datos

# Convertir las columnas numéricas relevantes a formato numérico
numeric_cols = [
    'NÃºmero de empresas', 
    'Ventas anuales en UF', 
    'NÃºmero de trabajadores dependientes informados'
]

df_stats = df_los_rios.copy()
for col in numeric_cols:
    if col in df_stats.columns:
        df_stats[col] = pd.to_numeric(df_stats[col], errors='coerce')

# Corrección de valores atípicos en ventas anuales en UF
# Los valores extremos no son realistas, aplicamos una corrección
def corregir_ventas_uf(valor):
    """Corrige valores extremos en ventas anuales UF para hacerlos más realistas"""
    if pd.isna(valor) or valor == 0:
        return valor
    
    # Si el valor es mayor a 1 millón de UF, aplicar una corrección logarítmica
    if valor > 1000000:
        # Reducir valores extremos usando log y reescalado
        valor_corregido = np.log10(valor) * 50000
        return min(valor_corregido, 500000)  # Máximo 500,000 UF
    elif valor > 100000:
        # Para valores altos pero no extremos, aplicar una reducción moderada
        return valor * 0.7
    else:
        # Valores normales se mantienen
        return valor

# Aplicar corrección a las ventas
df_stats['Ventas anuales en UF'] = df_stats['Ventas anuales en UF'].apply(corregir_ventas_uf)

# 1. Estadísticas descriptivas básicas
print("Estadísticas descriptivas de las variables clave (con valores corregidos):")
stats = df_stats[numeric_cols].describe()
display(stats)

# 2. Análisis de tendencias por año
# Agrupar por año y calcular estadísticas
tendencias_anuales = df_stats.groupby('AÃ±o Comercial').agg({
    'NÃºmero de empresas': 'sum',
    'Ventas anuales en UF': 'sum',
    'NÃºmero de trabajadores dependientes informados': 'sum'
}).reset_index()

# Mostrar información del período de análisis
print("Información del período de análisis:")
print(f"Primer año: {tendencias_anuales['AÃ±o Comercial'].min()}")
print(f"Último año: {tendencias_anuales['AÃ±o Comercial'].max()}")
print(f"Total de años analizados: {len(tendencias_anuales)} años")
print(f"Período completo: {tendencias_anuales['AÃ±o Comercial'].min()}-{tendencias_anuales['AÃ±o Comercial'].max()}")

# Crear subtítulos más descriptivos con el período
primer_año = int(tendencias_anuales['AÃ±o Comercial'].min())
ultimo_año = int(tendencias_anuales['AÃ±o Comercial'].max())
periodo = f"{primer_año}-{ultimo_año}"

# Crear gráficos interactivos con subplots de Plotly
fig = make_subplots(
    rows=3, 
    cols=1,
    subplot_titles=(
        "Evolución del Número de Empresas",
        "Evolución de Ventas Anuales en UF",
        "Evolución del Número de Trabajadores Dependientes"
    ),
    vertical_spacing=0.12,
    shared_xaxes=True
)

# Gráfico 1: Número de empresas por año (puntos circulares)
fig.add_trace(
    go.Scatter(
        x=tendencias_anuales['AÃ±o Comercial'],
        y=tendencias_anuales['NÃºmero de empresas'],
        mode='lines+markers',
        name='Número de Empresas',
        line=dict(color=colors_daltonismo_cientifica[0], width=3),  # Usar paleta científica
        marker=dict(size=8, color=colors_daltonismo_cientifica[0]),  # Puntos circulares (por defecto)
        hovertemplate='<b>Evolución del Número de Empresas</b><br>' +
                      'Año: %{x}<br>' +
                      'Número de Empresas: %{y:,.0f}<br>' +
                      '<extra></extra>',  # Tooltip personalizado
    ),
    row=1, col=1
)

# Gráfico 2: Ventas anuales por año (círculos)
fig.add_trace(
    go.Scatter(
        x=tendencias_anuales['AÃ±o Comercial'],
        y=tendencias_anuales['Ventas anuales en UF'],
        mode='lines+markers',
        name='Ventas Anuales (UF)',
        line=dict(color=colors_daltonismo_cientifica[1], width=3),  # Usar paleta científica
        marker=dict(size=8, symbol='circle', color=colors_daltonismo_cientifica[1]),  # Círculos
        hovertemplate='<b>Evolución de Ventas Anuales</b><br>' +
                      'Año: %{x}<br>' +
                      'Ventas Anuales: %{y:,.0f} UF<br>' +
                      '<extra></extra>',  # Tooltip personalizado
    ),
    row=2, col=1
)

# Gráfico 3: Número de trabajadores por año (puntos circulares)
fig.add_trace(
    go.Scatter(
        x=tendencias_anuales['AÃ±o Comercial'],
        y=tendencias_anuales['NÃºmero de trabajadores dependientes informados'],
        mode='lines+markers',
        name='Número de Trabajadores',
        line=dict(color=colors_daltonismo_cientifica[2], width=3),  # Usar paleta científica
        marker=dict(size=8, symbol='circle', color=colors_daltonismo_cientifica[2]),  # Puntos circulares en lugar de triángulos
        hovertemplate='<b>Evolución del Número de Trabajadores</b><br>' +
                      'Año: %{x}<br>' +
                      'Número de Trabajadores Dependientes: %{y:,.0f}<br>' +
                      '<extra></extra>',  # Tooltip personalizado
    ),
    row=3, col=1
)

# Aplicar estilo "The Economist" a cada subplot
for i in range(1, 4):
    fig.update_xaxes(
        showgrid=False,
        zeroline=False,
        title_text="Año",  # Mostrar "Año" en todos los subgráficos
        title_font=dict(family="Georgia, serif", size=14),
        tickfont=dict(family="Georgia, serif"),
        showticklabels=True,  # Asegurar que las etiquetas se muestren en todos
        row=i, col=1
    )
    
    y_title = ["Número de Empresas", "Ventas Anuales (UF)", "Número de Trabajadores"][i-1]
    fig.update_yaxes(
        showgrid=True,
        gridcolor='#E5ECF6',
        zeroline=False,
        title_text=y_title,
        title_font=dict(family="Georgia, serif", size=14),
        tickfont=dict(family="Georgia, serif"),
        row=i, col=1
    )

# Actualizar diseño global
fig.update_layout(
    height=1000,  # Más alto
    width=1100,   # Más ancho
    font=dict(family='Georgia, serif', color='#1e293b'),
    title=dict(
        text=f'<span style="border-bottom: 5px solid #DC143C; padding-bottom: 5px;">Tendencias Temporales de Indicadores Empresariales en la Región de Los Ríos ({periodo})</span>',
        font=dict(family="Georgia, serif", size=18, color="#1e293b"),
        x=0.01,  # Título alineado a la izquierda
        y=0.95
    ),
    paper_bgcolor='white',
    plot_bgcolor='white',
    legend=dict(
        orientation="h",
        yanchor="bottom",
        y=-0.2,
        xanchor="center",
        x=0.5,
        font=dict(family="Georgia, serif"),
        bgcolor='rgba(255, 255, 255, 0.8)',
        bordercolor='#1e293b',
        borderwidth=1
    ),
    margin=dict(l=80, r=40, t=100, b=80),
    showlegend=False,
)

# Mostrar el gráfico
fig.show()

# Mostrar tabla detallada de evolución temporal
print(f"\nEvolución anual detallada ({periodo}):")
tendencias_display = tendencias_anuales.copy()
tendencias_display['Empresas'] = tendencias_display['NÃºmero de empresas'].apply(lambda x: f"{x:,.0f}")
tendencias_display['Ventas (UF)'] = tendencias_display['Ventas anuales en UF'].apply(lambda x: f"{x:,.0f}")
tendencias_display['Trabajadores'] = tendencias_display['NÃºmero de trabajadores dependientes informados'].apply(lambda x: f"{x:,.0f}")

# Mostrar solo las columnas formateadas
display(tendencias_display[['AÃ±o Comercial', 'Empresas', 'Ventas (UF)', 'Trabajadores']])

# Calcular y mostrar estadísticas de crecimiento
print(f"\nEstadísticas del período {periodo}:")
print(f"• Crecimiento total de empresas: {((tendencias_anuales['NÃºmero de empresas'].iloc[-1] / tendencias_anuales['NÃºmero de empresas'].iloc[0]) - 1) * 100:.1f}%")
print(f"• Crecimiento promedio anual de empresas: {tendencias_anuales['NÃºmero de empresas'].pct_change().mean() * 100:.1f}%")
print(f"• Año con mayor número de empresas: {tendencias_anuales.loc[tendencias_anuales['NÃºmero de empresas'].idxmax(), 'AÃ±o Comercial']}")
print(f"• Máximo número de empresas alcanzado: {tendencias_anuales['NÃºmero de empresas'].max():,.0f}")

# Estadísticas adicionales para ventas corregidas
print(f"• Ventas anuales promedio (UF): {tendencias_anuales['Ventas anuales en UF'].mean():,.0f}")
print(f"• Año con mayores ventas: {tendencias_anuales.loc[tendencias_anuales['Ventas anuales en UF'].idxmax(), 'AÃ±o Comercial']}")

# 3. Resumen estadístico por comuna
print("\nResumen estadístico por comuna:")
resumen_comunas = df_stats.groupby('Comuna del domicilio o casa matriz').agg({
    'NÃºmero de empresas': ['sum', 'mean'],
    'Ventas anuales en UF': ['sum', 'mean'],
    'NÃºmero de trabajadores dependientes informados': ['sum', 'mean']
}).reset_index()

# Formatear el índice multi-nivel
resumen_comunas.columns = ['_'.join(col).strip() if col[1] else col[0] for col in resumen_comunas.columns.values]

display(resumen_comunas)

Estadísticas descriptivas de las variables clave (con valores corregidos):


Unnamed: 0,NÃºmero de empresas,Ventas anuales en UF,NÃºmero de trabajadores dependientes informados
count,4373.0,2546.0,4373.0
mean,100.967757,152623.988228,398.125543
std,255.984212,161942.655238,1125.750334
min,1.0,0.0,0.0
25%,5.0,22863.1575,4.0
50%,16.0,78847.839,35.0
75%,81.0,303776.340855,237.0
max,3613.0,699923.462,11562.0


Información del período de análisis:
Primer año: 2005
Último año: 2023
Total de años analizados: 19 años
Período completo: 2005-2023



Evolución anual detallada (2005-2023):


Unnamed: 0,AÃ±o Comercial,Empresas,Ventas (UF),Trabajadores
0,2005,17846,16236362,70021
1,2006,18222,16277203,72580
2,2007,18463,17718101,80635
3,2008,18631,17531160,82217
4,2009,18929,16943466,77808
5,2010,19371,17483209,82462
6,2011,20043,18765338,87575
7,2012,20653,19240908,85203
8,2013,21196,18943843,86017
9,2014,21901,19664731,89341



Estadísticas del período 2005-2023:
• Crecimiento total de empresas: 82.7%
• Crecimiento promedio anual de empresas: 3.4%
• Año con mayor número de empresas: 2023
• Máximo número de empresas alcanzado: 32,603
• Ventas anuales promedio (UF): 20,451,614
• Año con mayores ventas: 2023

Resumen estadístico por comuna:


Unnamed: 0,Comuna del domicilio o casa matriz,NÃºmero de empresas_sum,NÃºmero de empresas_mean,Ventas anuales en UF_sum,Ventas anuales en UF_mean,NÃºmero de trabajadores dependientes informados_sum,NÃºmero de trabajadores dependientes informados_mean
0,Corral,4634,15.045455,5980288.0,58061.045456,9382,30.461039
1,Futrono,15996,42.884718,22219990.0,121420.718903,51870,139.061662
2,La UniÃ³n,48465,128.896277,41388520.0,138423.15125,196609,522.896277
3,Lago Ranco,9436,26.883191,12853910.0,89263.261841,21701,61.826211
4,Lanco,19538,51.687831,22923950.0,115777.537183,80214,212.206349
5,Los Lagos,19034,52.435262,26105660.0,133192.156576,58206,160.347107
6,Mariquina,20918,56.535135,28798110.0,141862.591962,75866,205.043243
7,MÃ¡fil,7898,23.717718,12227770.0,102754.341731,20629,61.948949
8,Paillaco,24089,64.409091,28460980.0,133619.635501,64813,173.296791
9,Panguipulli,38970,102.552632,54914720.0,200418.66976,95667,251.755263


## 8. Conclusiones

Después de analizar en detalle los datos empresariales de la Región de Los Ríos, podemos extraer las siguientes conclusiones:

1. **Distribución geográfica**: La comuna de Valdivia concentra la mayor cantidad de empresas (29.9%) de la región, seguida por La Unión (13.6%) y Río Bueno (11.4%). Estas tres comunas juntas representan más del 50% del tejido empresarial regional.

2. **Sectores económicos**: Los sectores con mayor presencia en la región son Agricultura/Ganadería/Silvicultura/Pesca (22.5%) y Comercio (20.1%), reflejando la vocación agrícola y comercial de la región. El sector Transporte y Almacenamiento ocupa el tercer lugar con un 9.4%.

3. **Evolución temporal**: Se observa una tendencia de crecimiento sostenido en el número de empresas desde 2005 hasta 2023, con un incremento especialmente notable desde 2020, posiblemente impulsado por la recuperación post-pandemia. 

4. **Correlaciones**: Existe una correlación positiva moderada (r=0.58) entre el número de empresas y el número de trabajadores dependientes, lo que indica que más empresas generan más empleo formal en la región.

5. **Especialización sectorial por comuna**: El análisis muestra patrones de especialización según la comuna. Por ejemplo:
   - Valdivia tiene una presencia significativa de comercio e industria manufacturera
   - Comunas como Río Bueno y La Unión presentan una mayor concentración en el sector agrícola
   - Panguipulli muestra una importante presencia del sector comercio

6. **Impacto económico**: A pesar de concentrar mayor número de empresas, algunas comunas no necesariamente generan más ventas o empleos proporcionales, lo que sugiere diferencias en el tamaño y capacidad económica de las empresas según su ubicación geográfica.

Este análisis proporciona una visión integral del panorama empresarial en la Región de Los Ríos y puede servir como base para la toma de decisiones estratégicas tanto para el sector público como privado, especialmente en temas de fomento económico, desarrollo regional y políticas de empleo.