<a id="seccion-1"></a>

<h1 style="text-align: center; font-size: 70px; font-weight: 500;">Análisis de Indicadores: Sistema ETC Automatizado</h1>

- Autor: José Guillermo Sepúlveda Salazar.
- Practicante, Unidad de Estadística, UFRO, 2024.

<a id="seccion-2"></a>

## **Descripción**
Este documento detalla un enfoque metodológico sistemático destinado a la automatización de indicadores, que se extiende desde la adquisición de datos en línea hasta su cálculo y almacenamiento subsiguiente en Sistemas de Gestión de Bases de Datos (SGBD). Se ha implementado un marco metodológico que incluye una estructura de validación robusta para la extracción de archivos, garantizando su correcta integración en el repositorio designado. Además, realiza una verificación dentro del SGBD para asegurar la actualización de los indicadores correspondientes al año 2021.

Con el objetivo de reforzar la seguridad y asegurar la confidencialidad de los datos, el sistema incorpora mecanismos de autenticación avanzados. Esta estrategia no solo optimiza la eficiencia en la gestión de indicadores, sino que también protege la integridad de la información confidencial, cumpliendo así con los estándares de seguridad necesarios para el manejo de datos sensibles.

El proceso de automatización se estructura en tres fases fundamentales: extracción, transformación y carga (ETC). Durante la fase de extracción, el sistema verifica la presencia de la base de datos en el repositorio. En caso de no encontrarse, se procede a realizar una extracción de datos mediante técnicas de Web Scraping o conexiones API, lo que incluye la descarga y asignación de nombres a los archivos correspondientes. En la etapa de transformación, se llevan a cabo análisis estadísticos sobre cada indicador susceptible de actualización, lo que permite obtener resultados renovados. Finalmente, en la etapa de carga, el sistema se conecta al SGBD mediante credenciales de acceso específicas y verifica la actualización de los indicadores mediante la búsqueda del año correspondiente. Si los indicadores no están actualizados, se procede a la carga de los datos previamente transformados.

<a id="indice"></a>

## **Índice**
- [Portada](#seccion-1)
- [Descripción](#seccion-2)
- [Indicadores no aplicables](#seccion-3)
- [I) Extracción](#seccion-4)
    - [Obtenemos las BD Tamaño de observa.](#subseccion-4-1)
    - [Obtenemos las BD Sector de observa.](#subseccion-4-2)
    - [Obtenemos el dato ocupados por categoría trimestre Octubre-Diciembre del INE.](#subseccion-4-3)
    - [Obtenemos el PIB del Banco Central.](#subseccion-4-4)
    - [Obtenemos los indicadores de ciencia y tecnología OCDE cada mil personas trabajando desde el 2012.](#subseccion-4-5)
    - [Obtenemos los indicadores de ciencia y tecnología OCDE con respecto al PIB desde el 2017.](#subseccion-4-6)
    - [Obtenemos los indicadores de ciencia y tecnología OCDE de investigadores e investigadoras desde el 2010.](#subseccion-4-7)
- [II) Transformación](#seccion-5)
    - [1.  Cantidad de investigadores(as) cada mil personas trabajando en países de la OCDE.](#subseccion-5-1)
    - [3.  Gasto en I+D respecto al PIB en países de la OCDE.](#subseccion-5-3)
    - [7.  Distribución del gasto en I+D según fuente de financiamiento y sector de ejecución.](#subseccion-5-7)
    - [14. Gasto en I+D por empresas según su sector económico (clasificación CIIU rev.4)](#subseccion-5-14)
    - [17. Gasto en I+D como porcentaje del PIB e investigadores/as cada 1000 personas trabajando por macrozona.](#subseccion-5-17)
    - [19. Distribución del personal en I+D según nivel educacional y sector de ejecución.](#subseccion-5-19)
    - [21. Porcentaje de empresas que ejecuta montos bajo la Ley I+D entre las que realizan I+D intramuro.](#subseccion-5-21)
    - [22. Porcentaje de investigadoras mujeres en países de la OCDE.](#subseccion-5-22)
    - [28. Gasto I+D extramuro según tipo de unidad demandante y oferente de la I+d.](#subseccion-5-28)
    - [30. Porcentaje del personal dedicado a I+D que es mujer respecto al total de cada macrozona.](#subseccion-5-30)
    - [31. Distribución del personal dedicado en I+D según su sexo por cada sector de ejecución.](#subseccion-5-31)
    - [35. Distribución por sexo de las jornadas completas equivalentes (JCE) trabajadas en I+D por investigadores según sector de ejecución.](#subseccion-5-35)
    - [37. Porcentaje de investigadores(as) que son mujeres en empresas beneficiadas por la Ley I+D.](#subseccion-5-37)
    - [38. Porcentaje de personal en I+D que son mujeres en empresas beneficiadas por la Ley I+D.](#subseccion-5-38)

- [III) Carga](#seccion-6)
    - [0.  Promedio OCDE y Unión Europea.](#subseccion-6-0)
    - [1.  Cantidad de investigadores(as) cada mil personas trabajando en países de la OCDE.](#subseccion-6-1)
    - [3.  Gasto en I+D respecto al PIB en países de la OCDE.](#subseccion-6-3)
    - [7.  Distribución del gasto en I+D según fuente de financiamiento y sector de ejecución.](#subseccion-6-7)
    - [14. Gasto en I+D por empresas según su sector económico (clasificación CIIU rev.4)](#subseccion-6-14)
    - [17. Gasto en I+D como porcentaje del PIB e investigadores/as cada 1000 personas trabajando por macrozona.](#subseccion-6-17)
    - [19. Distribución del personal en I+D según nivel educacional y sector de ejecución.](#subseccion-6-19)
    - [21. Porcentaje de empresas que ejecuta montos bajo la Ley I+D entre las que realizan I+D intramuro.](#subseccion-6-21)
    - [22. Porcentaje de investigadoras mujeres en países de la OCDE.](#subseccion-6-22)
    - [28. Gasto I+D extramuro según tipo de unidad demandante y oferente de la I+d.](#subseccion-6-28)
    - [30. Porcentaje del personal dedicado a I+D que es mujer respecto al total de cada macrozona.](#subseccion-6-30)
    - [31. Distribución del personal dedicado en I+D según su sexo por cada sector de ejecución.](#subseccion-6-31)
    - [35. Distribución por sexo de las jornadas completas equivalentes (JCE) trabajadas en I+D por investigadores según sector de ejecución.](#subseccion-6-35)
    - [37. Porcentaje de investigadores(as) que son mujeres en empresas beneficiadas por la Ley I+D.](#subseccion-6-37)
    - [38. Porcentaje de personal en I+D que son mujeres en empresas beneficiadas por la Ley I+D.](#subseccion-6-38)
    

<a id="seccion-3"></a>

## **Indicadores no aplicables**

- 2. **[Investigadores/as cada mil personas trabajando y publicaciones científicas por persona investigando.](https://www.observa.minciencia.gob.cl/indicadores/comparacion-internacional/investigadoresas-cada-mil-personas-trabajando-y-publicaciones-cientificas-por-persona-investigando)**

- 4. **[Evolución del gasto total en I+D respecto al PIB.](https://observa.minciencia.gob.cl/indicadores/investigacion-y-desarrollo-id/evolucion-del-gasto-total-en-id-y-respecto-al-pib)**

- 5. **[Evolución del gasto total en I+D respecto al PIB.](https://observa.minciencia.gob.cl/indicadores/investigacion-y-desarrollo-id/evolucion-del-gasto-total-en-id-y-respecto-al-pib)**

- 6. **[Evolución del gasto en I+D por sector de ejecución.](https://observa.minciencia.gob.cl/indicadores/investigacion-y-desarrollo-id/evolucion-del-gasto-en-id-por-sector-de-ejecucion)**

- 8. **[Evolución del gasto en I+D según fuente de financiamiento.](https://observa.minciencia.gob.cl/indicadores/investigacion-y-desarrollo-id/evolucion-del-gasto-en-id-segun-fuente-de-financiamiento)**

- 9. **[Evolución del gasto en I+D según tipo de I+D.](https://observa.minciencia.gob.cl/indicadores/investigacion-y-desarrollo-id/evolucion-del-gasto-en-id-segun-tipo-de-id)**

- 10. **[Evolución del gasto en I+D según macrozona donde se ejecutó.](https://observa.minciencia.gob.cl/indicadores/investigacion-y-desarrollo-id/gasto-en-id-por-macrozona)**

- 11. **[Evolución de la cantidad de empresas que hacen I+D por tamaño.](https://observa.minciencia.gob.cl/indicadores/investigacion-y-desarrollo-id/evolucion-de-la-cantidad-de-empresas-que-hacen-id-por-tamano)**

- 12. **[Evolución de la cantidad de empresas que hacen I+D según su antigüedad.](https://observa.minciencia.gob.cl/indicadores/investigacion-y-desarrollo-id/evolucion-de-la-cantidad-de-empresas-que-hacen-id-segun-su-antiguedad)**

- 13. **[Evolución del gasto de empresas en I+D por macrozona.](https://observa.minciencia.gob.cl/indicadores/investigacion-y-desarrollo-id/evolucion-del-gasto-de-empresas-en-id-por-macrozona)**

- 15. **[Evolución de la participación femenina del personal dedicado a la I+D en jornadas completas equivalentes (JCE)](https://observa.minciencia.gob.cl/indicadores/investigacion-y-desarrollo-id/personal-en-id-segun-genero)**

- 16. **[Evolución del personal total dedicado a la I+D en jornadas completas equivalentes (JCE)](https://observa.minciencia.gob.cl/indicadores/investigacion-y-desarrollo-id/evolucion-del-personal-total-dedicado-a-la-id-en-jornadas-completas-equivalentes-jce)**

- 18. **[Evolución de la cantidad de investigadores dedicados a I+D según área de conocimiento.](https://observa.minciencia.gob.cl/indicadores/investigacion-y-desarrollo-id/investigadores-segun-disciplina-cientifica)**

- 20. **[Evolución de la cantidad de investigadores dedicados a I+D según área de conocimiento.](https://observa.minciencia.gob.cl/indicadores/investigacion-y-desarrollo-id/evolucion-del-personal-en-id-segun-sector-de-ejecucion)**

- 23. **[Evolución de la participación femenina del personal dedicado a la I+D en jornadas completas equivalentes (JCE)](https://observa.minciencia.gob.cl/genero/investigacion-y-desarrollo-(i+d)/evolucion-del-personal-id-que-son-mujeres-y-su-porcentaje-respecto-al-total)**

- 24. **[Mapa de indicadores por regiones.](https://observa.minciencia.gob.cl/indicadores/regiones/Regiones)**

- 25. **[Porcentaje de mujeres entre el total de JCE de investigadores/as por región.](https://observa.minciencia.gob.cl/indicadores/investigacion-y-desarrollo-id/porcentaje_investigadoras_en_jce_por_region)**

- 26. **[Distribución de las personas trabajando en I+D por sexo según su nivel educacional alcanzado.](https://www.observa.minciencia.gob.cl/genero/investigacion-y-desarrollo-(i+d)/porcentaje-de-personas-dedicadas-a-id-que-son-mujeres-por-nivel-educacional)**

- 27. **[Evolución del gasto en I+D extramuro de empresas como porcentaje de su gasto en I+D intramuro.](https://observa.minciencia.gob.cl/indicadores/transferencia-de-conocimiento/gasto-en-id-extramuro-sobre-gasto-total-id-de-empresas)**

- 29. **[Distribución del personal trabajando en I+D que investiga por sexo según región donde trabaja.](https://observa.minciencia.gob.cl/genero/regiones-y-macrozonas/porcentaje-de-mujeres-investigadoras-respecto-al-total-segun-region)**

- 32. **[Distribución del personal trabajado en I+D por sexo según tipo de personal.](https://www.observa.minciencia.gob.cl/genero/investigacion-y-desarrollo-id/porcentaje-de-mujeres-en-el-personal-dedicado-a-la-id-por-tipo-de-personal)**

- 33. **[Evolución del porcentaje de personas dedicadas a I+D que son mujeres dentro y fuera de la Región Metropolitana.](https://observa.minciencia.gob.cl/genero/regiones-y-macrozonas/evolucion-del-porcentaje-de-personas-dedicadas-a-id-que-son-mujeres-dentro-y-fuera-de-la-region-metropolitana)**

- 34. **[Evolución del total de investigadoras mujeres y su porcentaje respecto al total de investigadores(as)](https://observa.minciencia.gob.cl/genero/investigacion-y-desarrollo-(i+d)/evolucion-del-total-de-investigadoras-mujeres-y-su-porcentaje-respecto-al-total-de-investigadores)**

- 36. **[Distribución del personal trabajando en I+D por sexo según región donde trabaja.](https://observa.minciencia.gob.cl/genero/regiones-y-macrozonas/porcentaje-de-mujeres-trabajando-en-id-respecto-al-total-segun-region)**

- 39. **[Distribución por sexo de investigadores(as) trabajando en I+D según nivel educacional alcanzado.](https://www.observa.minciencia.gob.cl/genero/investigacion-y-desarrollo-(i+d)/porcentaje-de-personas-investigadoras-que-son-mujeres-por-nivel-educacional)**

- 40. **[Gasto en I+D respecto al PIB ejecutado por región.](https://observa.minciencia.gob.cl/indicadores/investigacion-y-desarrollo-id/Gasto_ID_respecto_a_PIB_regional)**

- 41. **[Porcentaje de empresas que hacen I+D que conocen la Ley I+D.](https://www.observa.minciencia.gob.cl/indicadores/investigacion-y-desarrollo-id/porcentaje-de-empresas-que-hacen-id-que-utilizan-la-ley-id)**

[Volver al índice](#indice)

In [1]:
# Importamos las librerias necesarias
from selenium.webdriver.support import expected_conditions as EC
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium import webdriver
import configparser
import pandas as pd
import psycopg2
import requests
import openpyxl
import time
import csv
import os

<a id="seccion-4"></a>

# **I) Extracción**

[Volver al índice](#indice)

<a id="subseccion-4-1"></a>

## [Obtenemos las BD Tamaño de observa.](https://observa.minciencia.gob.cl/datos-abiertos/base-de-datos-de-encuesta-sobre-gasto-y-personal-en-imasd-2021---tamano-empresa)

[Volver al índice](#indice)

In [2]:
def esperar_descarga_completa(directorio, extension, timeout=300):
    tiempo_inicio = time.time()
    while True:
        archivos_temporales = [archivo for archivo in os.listdir(directorio) if archivo.endswith('.crdownload') or archivo.endswith('.part')]
        if not archivos_temporales:
            # Espera un momento después de que desaparezcan los archivos temporales para asegurar que la descarga ha finalizado
            time.sleep(1)
            archivos = [archivo for archivo in os.listdir(directorio) if archivo.endswith(extension)]
            if archivos:
                return os.path.join(directorio, archivos[-1])  # Retorna el último archivo descargado con la extensión deseada
        elif (time.time() - tiempo_inicio) > timeout:
            raise Exception("Tiempo de espera para la finalización de la descarga excedido.")
        time.sleep(1)

# Función para obtener el último archivo descargado
def obtener_ultimo_archivo_descargado(directorio):
    lista_de_archivos = os.listdir(directorio)
    rutas_completas = [os.path.join(directorio, archivo) for archivo in lista_de_archivos]
    archivo_mas_reciente = max(rutas_completas, key=os.path.getmtime)
    return archivo_mas_reciente

nombre_del_archivo = "BD_Tamanho.csv"                       # Nombre del archivo a buscar
carpeta = os.getcwd()                                       # Utiliza el directorio actual de trabajo como carpeta de búsqueda
ruta_completa = os.path.join(carpeta, nombre_del_archivo)   # Construcción de la ruta del archivo

# Verificar si el archivo existe en la carpeta
if os.path.isfile(ruta_completa):
    print(f"El archivo '{nombre_del_archivo}' está presente en el directorio actual.")
else:
    print(f"El archivo '{nombre_del_archivo}' no se encontró en el directorio actual.")
    print("Procedemos al Scraping para obtener el descargable.")
    # Configurar opciones de Selenium y Chrome
    options = webdriver.ChromeOptions()

    # Especifica la carpeta de descarga como el directorio actual de trabajo
    current_directory = os.getcwd()
    prefs = {"download.default_directory": current_directory}
    options.add_experimental_option("prefs", prefs)

    # Inicializar el WebDriver
    service = Service(ChromeDriverManager().install())
    driver = webdriver.Chrome(service=service, options=options)

    # Acceder a la página web
    url = "https://observa.minciencia.gob.cl/datos-abiertos/base-de-datos-de-encuesta-sobre-gasto-y-personal-en-imasd-2021---tamano-empresa"
    driver.get(url)
    WebDriverWait(driver, 1).until(EC.presence_of_element_located((By.TAG_NAME, "body")))       # Carga la página
    time.sleep(1)
    Click = WebDriverWait(driver, 1).until(EC.element_to_be_clickable((By.CSS_SELECTOR, "#dropdownMenuButton1"))).click()
    Click = WebDriverWait(driver, 2).until(EC.element_to_be_clickable((By.CSS_SELECTOR, "#app > div.h-100 > section.internal__second-section > div > div > div > div > div > div.dropdown > div > div > li:nth-child(1) > a"))).click()
    time.sleep(1)
    # Esperar a que la descarga se complete
    ruta_archivo_descargado = esperar_descarga_completa(carpeta, '.csv')
    driver.quit()                                                                               # Cierra el navegador

    ultimo_archivo_descargado = obtener_ultimo_archivo_descargado(current_directory)            # Obtener el último archivo descargado
    os.rename(ultimo_archivo_descargado, os.path.join(current_directory, nombre_del_archivo))   # Renombrar el último archivo descargado
    print("Descarga y renombrado completo.")

# Leer el archivo CSV en un DataFrame de pandas
df_tamano = pd.read_csv(nombre_del_archivo, sep=',', low_memory=False)
# Comprueba DataFrame
print('BD_Tamanho.csv transfomado a Data Frame de manera exitosa')

El archivo 'BD_Tamanho.csv' está presente en el directorio actual.
BD_Tamanho.csv transfomado a Data Frame de manera exitosa


<a id="subseccion-4-2"></a>

## [Obtenemos las BD Sector de observa.](https://observa.minciencia.gob.cl/datos-abiertos/base-de-datos-de-encuesta-sobre-gasto-y-personal-en-imasd-2021---sector-economico)

[Volver al índice](#indice)

In [3]:
def esperar_descarga_completa(directorio, extension, timeout=300):
    tiempo_inicio = time.time()
    while True:
        archivos_temporales = [archivo for archivo in os.listdir(directorio) if archivo.endswith('.crdownload') or archivo.endswith('.part')]
        if not archivos_temporales:
            # Espera un momento después de que desaparezcan los archivos temporales para asegurar que la descarga ha finalizado
            time.sleep(1)
            archivos = [archivo for archivo in os.listdir(directorio) if archivo.endswith(extension)]
            if archivos:
                return os.path.join(directorio, archivos[-1])  # Retorna el último archivo descargado con la extensión deseada
        elif (time.time() - tiempo_inicio) > timeout:
            raise Exception("Tiempo de espera para la finalización de la descarga excedido.")
        time.sleep(1)

# Función para obtener el último archivo descargado
def obtener_ultimo_archivo_descargado(directorio):
    lista_de_archivos = os.listdir(directorio)
    rutas_completas = [os.path.join(directorio, archivo) for archivo in lista_de_archivos]
    archivo_mas_reciente = max(rutas_completas, key=os.path.getmtime)
    return archivo_mas_reciente

nombre_del_archivo = "BD_Sector.csv"                        # Nombre del archivo a buscar
carpeta = os.getcwd()                                       # Utiliza el directorio actual de trabajo como carpeta de búsqueda
ruta_completa = os.path.join(carpeta, nombre_del_archivo)   # Construcción de la ruta del archivo

# Verificar si el archivo existe en la carpeta
if os.path.isfile(ruta_completa):
    print(f"El archivo '{nombre_del_archivo}' está presente en el directorio actual.")
else:
    print(f"El archivo '{nombre_del_archivo}' no se encontró en el directorio actual.")
    print("Procedemos al Scraping para obtener el descargable.")
    # Configurar opciones de Selenium y Chrome
    options = webdriver.ChromeOptions()

    # Especificar la carpeta de descarga como el directorio actual de trabajo
    current_directory = os.getcwd()
    prefs = {"download.default_directory": current_directory}
    options.add_experimental_option("prefs", prefs)

    # Inicializar el WebDriver
    service = Service(ChromeDriverManager().install())
    driver = webdriver.Chrome(service=service, options=options)

    # Acceder a la página web
    url = "https://observa.minciencia.gob.cl/datos-abiertos/base-de-datos-de-encuesta-sobre-gasto-y-personal-en-imasd-2021---sector-economico"
    driver.get(url)

    WebDriverWait(driver, 1).until(EC.presence_of_element_located((By.TAG_NAME, "body")))       # Carga la página
    time.sleep(1)
    Click = WebDriverWait(driver, 1).until(EC.element_to_be_clickable((By.CSS_SELECTOR, "#dropdownMenuButton1"))).click()
    Click = WebDriverWait(driver, 2).until(EC.element_to_be_clickable((By.CSS_SELECTOR, "#app > div.h-100 > section.internal__second-section > div > div > div > div > div > div.dropdown > div > div > li:nth-child(1) > a"))).click()
    time.sleep(1)
    # Esperar a que la descarga se complete
    ruta_archivo_descargado = esperar_descarga_completa(carpeta, '.csv')
    driver.quit()                                                                               # Cierra el navegador
    ultimo_archivo_descargado = obtener_ultimo_archivo_descargado(current_directory)            # Obtener el último archivo descargado
    os.rename(ultimo_archivo_descargado, os.path.join(current_directory, nombre_del_archivo))   # Renombrar el último archivo descargado
    print("Descarga y renombrado completo.")

# Leer el archivo CSV en un DataFrame de pandas
df_sector = pd.read_csv(nombre_del_archivo, sep=',', low_memory=False)
# Comprueba DataFrame
print('BD_Sector.csv transfomado a Data Frame de manera exitosa')

El archivo 'BD_Sector.csv' está presente en el directorio actual.
BD_Sector.csv transfomado a Data Frame de manera exitosa


<a id="subseccion-4-3"></a>

## [Obtenemos el dato ocupados por categoría trimestre Octubre-Diciembre del INE.](https://www.ine.gob.cl/estadisticas/sociales/mercado-laboral/ocupacion-y-desocupacion)

[Volver al índice](#indice)

In [4]:
def esperar_descarga_completa(directorio, extension, timeout=300):
    tiempo_inicio = time.time()
    while True:
        archivos_temporales = [archivo for archivo in os.listdir(directorio) if archivo.endswith('.crdownload') or archivo.endswith('.part')]
        if not archivos_temporales:
            # Espera un momento después de que desaparezcan los archivos temporales para asegurar que la descarga ha finalizado
            time.sleep(1)
            archivos = [archivo for archivo in os.listdir(directorio) if archivo.endswith(extension)]
            if archivos:
                return os.path.join(directorio, archivos[-1])  # Retorna el último archivo descargado con la extensión deseada
        elif (time.time() - tiempo_inicio) > timeout:
            raise Exception("Tiempo de espera para la finalización de la descarga excedido.")
        time.sleep(1)        

def extraccion_ocupados_nacional():
    hoja = libro['AS'] # Seleccionar la hoja
    ocupados = hoja['D149'].value # Extraer el valor de la celda

    return ocupados

def extraccion_ocupados_macrozonal():
    # Región de Arica y Parinacota
    hoja_AP = libro['AP']
    ocupado_AP = hoja_AP['D149'].value 
    # Región de Tarapacá
    hoja_TA = libro['TA']
    ocupado_TA = hoja_TA['D149'].value
    # Región de Antofagasta
    hoja_AN = libro['AN'] 
    ocupado_AN = hoja_AN['D149'].value
    # Región de Atacama 
    hoja_AT = libro['AT'] 
    ocupado_AT = hoja_AT['D149'].value
    # Región de Coquimbo
    hoja_CO = libro['CO'] 
    ocupado_CO = hoja_CO['D149'].value
    # Región de Valparaíso
    hoja_VA = libro['VA'] 
    ocupado_VA = hoja_VA['D149'].value
    # Región Metropolitana
    hoja_RM = libro['RM'] 
    ocupado_RM = hoja_RM['D149'].value
    # Región del Libertador General Bernardo O'Higgins
    hoja_LI = libro['LI'] 
    ocupado_LI = hoja_LI['D149'].value
    # Región del Maule
    hoja_ML = libro['ML'] 
    ocupado_ML = hoja_ML['D149'].value
    # Región del Ñuble
    hoja_NB = libro['NB'] 
    ocupado_NB = hoja_NB['D149'].value
    # Región del Bio Bío
    hoja_BI = libro['BI'] 
    ocupado_BI = hoja_BI['D149'].value
    # Región de La Araucanía
    hoja_AR = libro['AR'] 
    ocupado_AR = hoja_AR['D149'].value
    # Región de Los Ríos           
    hoja_LR = libro['LR'] 
    ocupado_LR = hoja_LR['D149'].value
    # Región de Los Lagos
    hoja_LL = libro['LL'] 
    ocupado_LL = hoja_LL['D149'].value
    # Región de Aysén
    hoja_AI = libro['AI'] 
    ocupado_AI = hoja_AI['D149'].value
    # Región de Magallanes
    hoja_MA = libro['MA'] 
    ocupado_MA = hoja_MA['D149'].value    

    #calcular macrozona
    ocupado_macro_norte =       ocupado_AP + ocupado_TA + ocupado_AN + ocupado_AT
    ocupado_macro_centro =      ocupado_CO + ocupado_VA
    ocupado_macro_RM =          ocupado_RM
    ocupado_macro_centroSur =   ocupado_LI + ocupado_ML + ocupado_NB + ocupado_BI
    ocupado_macro_sur =         ocupado_AR + ocupado_LR + ocupado_LL
    ocupado_macro_austral =     ocupado_AI + ocupado_MA

    return ocupado_macro_norte, ocupado_macro_centro, ocupado_macro_RM, ocupado_macro_centroSur, ocupado_macro_sur, ocupado_macro_austral

# Función para obtener el último archivo descargado
def obtener_ultimo_archivo_descargado(directorio):
    lista_de_archivos = os.listdir(directorio)
    rutas_completas = [os.path.join(directorio, archivo) for archivo in lista_de_archivos]
    archivo_mas_reciente = max(rutas_completas, key=os.path.getmtime)
    return archivo_mas_reciente

nombre_del_archivo = "Ocupados.xlsx"                        # Nombre del archivo a buscar
carpeta = os.getcwd()                                       # Utilizar el directorio actual de trabajo como carpeta de búsqueda
ruta_completa = os.path.join(carpeta, nombre_del_archivo)   # Construcción de la ruta del archivo

# Verificar si el archivo existe en la carpeta
if os.path.isfile(ruta_completa):
    print(f"El archivo '{nombre_del_archivo}' está presente en el directorio actual.")
else:
    print(f"El archivo '{nombre_del_archivo}' no se encontró en el directorio actual.")
    print("Procedemos al Scraping para obtener el descargable.")
    # Configurar opciones de Selenium y Chrome
    options = webdriver.ChromeOptions()

    # Especificar la carpeta de descarga como el directorio actual de trabajo
    current_directory = os.getcwd()
    prefs = {"download.default_directory": current_directory}
    options.add_experimental_option("prefs", prefs)

    # Inicializar el WebDriver
    service = Service(ChromeDriverManager().install())
    driver = webdriver.Chrome(service=service, options=options)

    # Acceder a la página web
    url = "https://www.ine.gob.cl/estadisticas/sociales/mercado-laboral/ocupacion-y-desocupacion"
    driver.get(url)

    WebDriverWait(driver, 0).until(EC.presence_of_element_located((By.TAG_NAME, "body")))   # Carga de la pagina
    driver.execute_script("window.scrollBy(0, 500);")                                       # Realiza un scroll

    Click = WebDriverWait(driver, 1).until(EC.element_to_be_clickable((By.CSS_SELECTOR, "#Content_C007_Col00 > div > div > div:nth-child(1)"))).click()
    time.sleep(2)
    Click = WebDriverWait(driver, 1).until(EC.element_to_be_clickable((By.CSS_SELECTOR, "#Content_C007_Col01 > div > div > div.widgetArchNav > div > div > div:nth-child(1)"))).click()
    time.sleep(1)
    Click = WebDriverWait(driver, 1).until(EC.element_to_be_clickable((By.CSS_SELECTOR, "#Content_C007_Col02 > div > div > div > div.contNavArchivosDescarga > a:nth-child(3)"))).click()
    time.sleep(1)
    # Esperar a que la descarga se complete
    ruta_archivo_descargado = esperar_descarga_completa(carpeta, '.xlsx')
    driver.quit()                                                                               # Cierra el navegador
    ultimo_archivo_descargado = obtener_ultimo_archivo_descargado(current_directory)            # Obtener el último archivo descargado
    os.rename(ultimo_archivo_descargado, os.path.join(current_directory, nombre_del_archivo))   # Renombrar el último archivo descargado
    print("Descarga y renombrado completo.")

#extraemos los datos
libro = openpyxl.load_workbook(nombre_del_archivo) # Abre archivo.xlsx
ocupados = extraccion_ocupados_nacional()
ocupado_macro_norte, ocupado_macro_centro, ocupado_macro_RM, ocupado_macro_centroSur, ocupado_macro_sur, ocupado_macro_austral = extraccion_ocupados_macrozonal()
libro.close() # Cierra el archivo.xlsx

# Imprimir el valor de la celda
print('Ocupados Macrozona Norte:          {:.2f} Miles de Personas'.format(ocupado_macro_norte))
print('Ocupados Macrozona Centro:        {:.2f} Miles de Personas'.format(ocupado_macro_centro))
print('Ocupados Macrozona RM:            {:.2f} Miles de Personas'.format(ocupado_macro_RM))
print('Ocupados Macrozona Centro Sur:    {:.2f} Miles de Personas'.format(ocupado_macro_centroSur))
print('Ocupados Macrozona Sur:            {:.2f} Miles de Personas'.format(ocupado_macro_sur))
print('Ocupados Macrozona Austral:        {:.2f} Miles de Personas'.format(ocupado_macro_austral))
print('Ocupados Nacional:                {:.2f} Miles de Personas'.format(ocupados))

El archivo 'Ocupados.xlsx' está presente en el directorio actual.
Ocupados Macrozona Norte:          744.85 Miles de Personas
Ocupados Macrozona Centro:        1197.33 Miles de Personas
Ocupados Macrozona RM:            3900.86 Miles de Personas
Ocupados Macrozona Centro Sur:    1787.24 Miles de Personas
Ocupados Macrozona Sur:            901.84 Miles de Personas
Ocupados Macrozona Austral:        146.16 Miles de Personas
Ocupados Nacional:                8678.29 Miles de Personas


<a id="subseccion-4-4"></a>

## [Obtenemos el PIB del Banco Central.](https://si3.bcentral.cl/Siete/ES/Siete/Cuadro/CAP_CCNN/MN_CCNN76/CCNN2018_PIB_REGIONAL_N/637899740344107786?cbFechaInicio=2021&cbFechaTermino=2021&cbFrecuencia=ANNUAL&cbCalculo=NONE&cbFechaBase=)

[Volver al índice](#indice) 

In [5]:
def esperar_descarga_completa(directorio, extension, timeout=300):
    tiempo_inicio = time.time()
    while True:
        archivos_temporales = [archivo for archivo in os.listdir(directorio) if archivo.endswith('.crdownload') or archivo.endswith('.part')]
        if not archivos_temporales:
            # Espera un momento después de que desaparezcan los archivos temporales para asegurar que la descarga ha finalizado
            time.sleep(1)
            archivos = [archivo for archivo in os.listdir(directorio) if archivo.endswith(extension)]
            if archivos:
                return os.path.join(directorio, archivos[-1])  # Retorna el último archivo descargado con la extensión deseada
        elif (time.time() - tiempo_inicio) > timeout:
            raise Exception("Tiempo de espera para la finalización de la descarga excedido.")
        time.sleep(1)   

def extraccion_pib_nacional():
    hoja = libro['Cuadro'] # Seleccionar la hoja
    PIB_2021 = hoja['C22'].value # Extraer el valor de la celda

    return PIB_2021

def extraccion_pib_macrozonal():
    hoja = libro['Cuadro']
    PIB_AP = hoja['C4'].value  # Región de Arica y Parinacota
    PIB_TA = hoja['C5'].value  # Región de Tarapacá 
    PIB_AN = hoja['C6'].value  # Región de Antofagasta  
    PIB_AT = hoja['C7'].value  # Región de Atacama 
    PIB_CO = hoja['C8'].value  # Región de Coquimbo 
    PIB_VA = hoja['C9'].value  # Región de Valparaíso 
    PIB_RM = hoja['C10'].value # Región Metropolitana
    PIB_LI = hoja['C11'].value # Región del Libertador General Bernardo O'Higgins
    PIB_ML = hoja['C12'].value # Región del Maule
    PIB_NB = hoja['C13'].value # Región del Ñuble
    PIB_BI = hoja['C14'].value # Región del Bio Bío
    PIB_AR = hoja['C15'].value # Región de La Araucanía           
    PIB_LR = hoja['C16'].value # Región de Los Ríos
    PIB_LL = hoja['C17'].value # Región de Los Lagos
    PIB_AI = hoja['C18'].value # Región de Aysén
    PIB_MA = hoja['C19'].value # Región de Magallanes   

    #calcular macrozona
    PIB_macro_norte =       PIB_AP + PIB_TA + PIB_AN + PIB_AT
    PIB_macro_centro =      PIB_CO + PIB_VA
    PIB_macro_RM =          PIB_RM
    PIB_macro_centroSur =   PIB_LI + PIB_ML + PIB_NB + PIB_BI
    PIB_macro_sur =         PIB_AR + PIB_LR + PIB_LL
    PIB_macro_austral =     PIB_AI + PIB_MA

    return PIB_macro_norte, PIB_macro_centro, PIB_macro_RM, PIB_macro_centroSur, PIB_macro_sur, PIB_macro_austral

# Función para obtener el último archivo descargado
def obtener_ultimo_archivo_descargado(directorio):
    lista_de_archivos = os.listdir(directorio)
    rutas_completas = [os.path.join(directorio, archivo) for archivo in lista_de_archivos]
    archivo_mas_reciente = max(rutas_completas, key=os.path.getmtime)
    return archivo_mas_reciente

nombre_del_archivo = "PIB.xlsx"           # Nombre del archivo a buscar
carpeta = os.getcwd()                                       # Utiliza el directorio actual de trabajo como carpeta de búsqueda
ruta_completa = os.path.join(carpeta, nombre_del_archivo)   # Construcción de la ruta del archivo

# Verificar si el archivo existe en la carpeta
if os.path.isfile(ruta_completa):
    print(f"El archivo '{nombre_del_archivo}' está presente en el directorio actual.")
else:
    print(f"El archivo '{nombre_del_archivo}' no se encontró en el directorio actual.")
    print("Procedemos al Scraping para obtener el descargable.")
    # Configurar opciones de Selenium y Chrome
    options = webdriver.ChromeOptions()

    # Especificar la carpeta de descarga como el directorio actual de trabajo
    current_directory = os.getcwd()
    prefs = {"download.default_directory": current_directory}
    options.add_experimental_option("prefs", prefs)

    # Inicializar el WebDriver
    service = Service(ChromeDriverManager().install())
    driver = webdriver.Chrome(service=service, options=options)

    # Acceder a la página web
    url = "https://si3.bcentral.cl/Siete/ES/Siete/Cuadro/CAP_CCNN/MN_CCNN76/CCNN2018_PIB_REGIONAL_N/637899740344107786?cbFechaInicio=2021&cbFechaTermino=2021&cbFrecuencia=ANNUAL&cbCalculo=NONE&cbFechaBase="
    driver.get(url)

    WebDriverWait(driver, 1).until(EC.presence_of_element_located((By.TAG_NAME, "body")))       # Carga la página
    time.sleep(1)
    Click = WebDriverWait(driver, 1).until(EC.element_to_be_clickable((By.CSS_SELECTOR, "#fsTable > div:nth-child(2) > div.btn-group.flex-wrap.btn-group-sm.text-right.fr > button:nth-child(6)"))).click()
    Click = WebDriverWait(driver, 1).until(EC.element_to_be_clickable((By.CSS_SELECTOR, "#radioExportH"))).click()
    Click = WebDriverWait(driver, 1).until(EC.element_to_be_clickable((By.CSS_SELECTOR, "#modalExport > div > div > div.modal-footer > button:nth-child(1)"))).click()
    time.sleep(1)
    # Esperar a que la descarga se complete
    ruta_archivo_descargado = esperar_descarga_completa(carpeta, '.xlsx')
    driver.quit()                                                                               # Cierra el navegador
    ultimo_archivo_descargado = obtener_ultimo_archivo_descargado(current_directory)            # Obtener el último archivo descargado
    os.rename(ultimo_archivo_descargado, os.path.join(current_directory, nombre_del_archivo))   # Renombrar el último archivo descargado
    print("Descarga y renombrado completo.")
    time.sleep(1)

#extraemos los datos
libro = openpyxl.load_workbook(nombre_del_archivo) # Abre archivo.xlsx
PIB_2021 = extraccion_pib_nacional()
PIB_macro_norte, PIB_macro_centro, PIB_macro_RM, PIB_macro_centroSur, PIB_macro_sur, PIB_macro_austral = extraccion_pib_macrozonal()

libro.close() # Cierra el archivo.xlsx

#mostrar resultados
print('PIB Macrozona Norte:         {:.2f} MM'.format(PIB_macro_norte))
print('PIB Macrozona Centro:        {:.2f} MM'.format(PIB_macro_centro))
print('PIB Macrozona RM:            {:.2f} MM'.format(PIB_macro_RM))
print('PIB Macrozona Centro Sur:    {:.2f} MM'.format(PIB_macro_centroSur))
print('PIB Macrozona Sur:           {:.2f} MM'.format(PIB_macro_sur))
print('PIB Macrozona Austral:        {:.2f} MM'.format(PIB_macro_austral)) 
print('PIB Nacional:               {:.2f} MM'.format(PIB_2021))

El archivo 'PIB.xlsx' está presente en el directorio actual.
PIB Macrozona Norte:         41957.51 MM
PIB Macrozona Centro:        24985.16 MM
PIB Macrozona RM:            91828.49 MM
PIB Macrozona Centro Sur:    36187.40 MM
PIB Macrozona Sur:           16530.61 MM
PIB Macrozona Austral:        3320.67 MM
PIB Nacional:               240371.47 MM


<a id="subseccion-4-5"></a>

## [Obtenemos los indicadores de ciencia y tecnología OCDE cada mil personas trabajando desde el 2012.](https://data-explorer.oecd.org/vis?tm=main%20science&pg=0&snb=1&vw=tb&df[ds]=dsDisseminateFinalDMZ&df[id]=DSD_MSTI%40DF_MSTI&df[ag]=OECD.STI.STP&df[vs]=1.1&pd=2012%2C&dq=.A.T_RS.10P3EMP..&ly[rw]=REF_AREA&ly[cl]=TIME_PERIOD&to[TIME_PERIOD]=false)

[Volver al índice](#indice) 

In [6]:
nombre_del_archivo = "OCDE_KTrabajadores.csv"                             # Nombre del archivo a buscar
carpeta = os.getcwd()                                       # Utiliza el directorio actual de trabajo como carpeta de búsqueda
ruta_completa = os.path.join(carpeta, nombre_del_archivo)   # Construcción de la ruta del archivo

# Verificar si el archivo existe en la carpeta
if os.path.isfile(ruta_completa):
    print(f"El archivo '{nombre_del_archivo}' está presente en el directorio actual.")
else:
    print(f"El archivo '{nombre_del_archivo}' no se encontró en el directorio actual.")
    print("Procedemos a conectarnos con la API para obtener el descargable.")

    # Define the URL of the request
    url = "https://sdmx.oecd.org/public/rest/data/OECD.STI.STP,DSD_MSTI@DF_MSTI,1.1/.A.T_RS.10P3EMP..?startPeriod=2012&dimensionAtObservation=AllDimensions"

    # Establece las cabeceras para solicitar datos formato csv
    parametros = {
        'Accept': 'application/vnd.sdmx.data+csv; charset=utf-8',
    }

    # Realizar la solicitud GET
    response = requests.get(url, headers=parametros)

    # Verifique el código de estado de la respuesta
    if response.status_code == 200:
        # Si la respuesta está en formato CSV, puede guardarla en un archivo o procesarla según sea necesario
        with open(nombre_del_archivo, 'w') as file:
            file.write(response.text)
        print("Descarga Exitosa")
    else:
        print(f"Error de solicitud: código de estado {response.status_code}")

def extraccion_ocde(ruta_archivo_csv):
    with open(ruta_archivo_csv, newline='', encoding='utf-8') as archivo_csv:
        lector = csv.reader(archivo_csv)
        datos = list(lector)

    datos_por_pais = {}
    for fila in datos[1:]:      # Ignora el encabezado
        if len(fila) > 8:       # Asegura que la fila tenga suficientes columnas
            pais = fila[1]      # La abreviatura del país está en la segunda columna
            ano = fila[7]       # El año está en la octava columna
            valor = fila[8]     # El dato está en la novena columna
            if pais not in datos_por_pais:
                datos_por_pais[pais] = {}
            try:
                datos_por_pais[pais][ano] = float(valor)
            except ValueError:
                continue  # Ignora los valores que no se pueden convertir a flotante

    def obtener_valor_mas_reciente(pais, ano_inicio=2021):
        while ano_inicio >= 2012:  # Año mínimo de búsqueda
            ano_str = str(ano_inicio)
            if ano_str in datos_por_pais.get(pais, {}):
                return ano_str, datos_por_pais[pais][ano_str]  # Retorna el año y el valor
            ano_inicio -= 1
        return "No encontrado", 0  # Retorna un mensaje y 0 si no se encuentra ningún valor

    # Obtener el valor y año más reciente para cada país
    valores_msti_employment = {pais: obtener_valor_mas_reciente(pais) for pais in datos_por_pais.keys()}

    return valores_msti_employment

# Llamada a la función de extracción con la ruta del archivo CSV
valores_msti_employment = extraccion_ocde(nombre_del_archivo)

# Lista de códigos ISO 3166-1 alfa-3 de países y sus nombres completos para mostrar
paises_ocde = [
    ("AUT", "Austria"), ("BEL", "Bélgica"), ("CAN", "Canadá"), ("CHL", "Chile"), ("CRI", "Costa Rica"), 
    ("CZE", "República Checa"), ("DNK", "Dinamarca"), ("EST", "Estonia"), ("FIN", "Finlandia"),
    ("FRA", "Francia"), ("DEU", "Alemania"), ("GRC", "Grecia"), ("HUN", "Hungría"), ("ISL", "Islandia"),
    ("IRL", "Irlanda"), ("ITA", "Italia"), ("JPN", "Japón"), ("KOR", "Corea del Sur"),
    ("LVA", "Letonia"), ("LTU", "Lituania"), ("LUX", "Luxemburgo"), ("MEX", "México"), ("NLD", "Países Bajos"),
    ("NZL", "Nueva Zelanda"), ("NOR", "Noruega"), ("POL", "Polonia"), ("PRT", "Portugal"), ("SVK", "Eslovaquia"),
    ("SVN", "Eslovenia"), ("ESP", "España"), ("SWE", "Suecia"), ("CHE", "Suiza"), ("TUR", "Turquía"),
    ("GBR", "Reino Unido"), ("USA", "Estados Unidos")
]

paises_unidos = [
    ("EU27_2020", "Unión Europea (27)") ,("OECD", "OECD - Total")
]


# Convertir la lista de tuplas en un diccionario para mapear códigos a nombres completos
codigo_a_nombre = dict(paises_ocde)

# Mostrar resultados para países específicos para paises_ocde
for codigo_pais, nombre_pais in paises_ocde:
    if codigo_pais in valores_msti_employment:  # Verificar si el código del país está en los resultados
        ano, valor = valores_msti_employment[codigo_pais]  # Obtener el año y el valor más reciente para el país
        print(f'MSTI {nombre_pais} Año {ano}: {valor:.5f}')
    else:
        print(f'MSTI {nombre_pais}: Dato no encontrado')

# Mostrar resultados para países específicos para paises_unidos
for codigo_pais, nombre_pais in paises_unidos:
    if codigo_pais in valores_msti_employment:  # Verificar si el código del país está en los resultados
        ano, valor = valores_msti_employment[codigo_pais]  # Obtener el año y el valor más reciente para el país
        print(f'MSTI {nombre_pais} Año {ano}: {valor:.5f}')
    else:
        print(f'MSTI {nombre_pais}: Dato no encontrado')


El archivo 'OCDE_KTrabajadores.csv' está presente en el directorio actual.
MSTI Austria Año 2021: 12.41679
MSTI Bélgica Año 2021: 15.27951
MSTI Canadá Año 2020: 10.98414
MSTI Chile Año 2020: 1.32543
MSTI Costa Rica Año 2021: 1.02286
MSTI República Checa Año 2021: 8.97402
MSTI Dinamarca Año 2021: 14.74835
MSTI Estonia Año 2021: 8.30318
MSTI Finlandia Año 2021: 16.15984
MSTI Francia Año 2021: 11.39561
MSTI Alemania Año 2021: 10.26515
MSTI Grecia Año 2021: 9.84694
MSTI Hungría Año 2021: 9.18100
MSTI Islandia Año 2021: 13.09974
MSTI Irlanda Año 2021: 11.11887
MSTI Italia Año 2021: 6.33118
MSTI Japón Año 2021: 10.32888
MSTI Corea del Sur Año 2021: 17.26005
MSTI Letonia Año 2021: 5.30136
MSTI Lituania Año 2021: 8.01284
MSTI Luxemburgo Año 2021: 6.44259
MSTI México Año 2017: 1.01244
MSTI Países Bajos Año 2021: 10.87020
MSTI Nueva Zelanda Año 2021: 9.58681
MSTI Noruega Año 2021: 13.78282
MSTI Polonia Año 2021: 8.06718
MSTI Portugal Año 2021: 11.36592
MSTI Eslovaquia Año 2021: 7.34506
MSTI Eslo

<a id="subseccion-4-6"></a>

## [Obtenemos los indicadores de ciencia y tecnología OCDE con respecto al PIB desde el 2017.](https://data-explorer.oecd.org/vis?pg=0&bp=true&snb=6&tm=science&vw=tb&df[ds]=dsDisseminateFinalDMZ&df[id]=DSD_MSTI%40DF_MSTI&df[ag]=OECD.STI.STP&df[vs]=1.0&pd=2017%2C&dq=.A.G.PT_B1GQ..&ly[rw]=REF_AREA&ly[cl]=TIME_PERIOD&to[TIME_PERIOD]=false)

[Volver al índice](#indice) 

In [7]:
nombre_del_archivo = "OCDE_PIB.csv"                         # Nombre del archivo a buscar
carpeta = os.getcwd()                                       # Utiliza el directorio actual de trabajo como carpeta de búsqueda
ruta_completa = os.path.join(carpeta, nombre_del_archivo)   # Construcción de la ruta del archivo

# Verificar si el archivo existe en la carpeta
if os.path.isfile(ruta_completa):
    print(f"El archivo '{nombre_del_archivo}' está presente en el directorio actual.")
else:
    print(f"El archivo '{nombre_del_archivo}' no se encontró en el directorio actual.")
    print("Procedemos a conectarnos con la API para obtener el descargable.")

    # Define the URL of the request
    url = "https://sdmx.oecd.org/public/rest/data/OECD.STI.STP,DSD_MSTI@DF_MSTI,1.0/.A.G.PT_B1GQ..?startPeriod=2017&dimensionAtObservation=AllDimensions"

    # Establece las cabeceras para solicitar datos formato csv
    parametros = {
        'Accept': 'application/vnd.sdmx.data+csv; charset=utf-8',
    }

    # Realizar la solicitud GET
    response = requests.get(url, headers=parametros)

    # Verifique el código de estado de la respuesta
    if response.status_code == 200:
        # Si la respuesta está en formato CSV, puede guardarla en un archivo o procesarla según sea necesario
        with open(nombre_del_archivo, 'w') as file:
            file.write(response.text)
        print("Descarga Exitosa")
    else:
        print(f"Error de solicitud: código de estado {response.status_code}")

def extraccion_ocde(ruta_archivo_csv):
    with open(ruta_archivo_csv, newline='', encoding='utf-8') as archivo_csv:
        lector = csv.reader(archivo_csv)
        datos = list(lector)

    datos_por_pais = {}
    for fila in datos[1:]:  # Ignora el encabezado
        if len(fila) > 8:  # Asegura que la fila tenga suficientes columnas
            pais = fila[1]  # La abreviatura del país está en la segunda columna
            ano = fila[7]  # El año está en la octava columna
            valor = fila[8]  # El dato está en la novena columna
            if pais not in datos_por_pais:
                datos_por_pais[pais] = {}
            try:
                datos_por_pais[pais][ano] = float(valor)
            except ValueError:
                continue  # Ignora los valores que no se pueden convertir a flotante

    def obtener_valor_mas_reciente(pais, ano_inicio=2021):
        while ano_inicio >= 2017:  # Año mínimo de búsqueda
            ano_str = str(ano_inicio)
            if ano_str in datos_por_pais.get(pais, {}):
                return ano_str, datos_por_pais[pais][ano_str]  # Retorna el año y el valor
            ano_inicio -= 1
        return "No encontrado", 0  # Retorna un mensaje y 0 si no se encuentra ningún valor

    # Obtener el valor y año más reciente para cada país
    valores_msti = {pais: obtener_valor_mas_reciente(pais) for pais in datos_por_pais.keys()}

    return valores_msti

# Llamada a la función de extracción con la ruta del archivo CSV
valores_msti = extraccion_ocde(nombre_del_archivo)

# Lista de códigos ISO 3166-1 alfa-3 de países y sus nombres completos para mostrar
paises_ocde = [
    ("AUT", "Austria"), ("BEL", "Bélgica"), ("CAN", "Canadá"), ("CHL", "Chile"), ("CRI", "Costa Rica"), 
    ("CZE", "República Checa"), ("DNK", "Dinamarca"), ("EST", "Estonia"), ("FIN", "Finlandia"),
    ("FRA", "Francia"), ("DEU", "Alemania"), ("GRC", "Grecia"), ("HUN", "Hungría"), ("ISL", "Islandia"),
    ("IRL", "Irlanda"), ("ITA", "Italia"), ("JPN", "Japón"), ("KOR", "Corea del Sur"),
    ("LVA", "Letonia"), ("LTU", "Lituania"), ("LUX", "Luxemburgo"), ("MEX", "México"), ("NLD", "Países Bajos"),
    ("NZL", "Nueva Zelanda"), ("NOR", "Noruega"), ("POL", "Polonia"), ("PRT", "Portugal"), ("SVK", "Eslovaquia"),
    ("SVN", "Eslovenia"), ("ESP", "España"), ("SWE", "Suecia"), ("CHE", "Suiza"), ("TUR", "Turquía"),
    ("GBR", "Reino Unido"), ("USA", "Estados Unidos")
]

paises_unidos = [
    ("EU27_2020", "Unión Europea (27)") ,("OECD", "OECD - Total")
]

# Convertir la lista de tuplas en un diccionario para mapear códigos a nombres completos
codigo_a_nombre = dict(paises_ocde)

# Mostrar resultados para países específicos para paises_ocde
for codigo_pais, nombre_pais in paises_ocde:
    if codigo_pais in valores_msti:  # Verificar si el código del país está en los resultados
        ano, valor = valores_msti[codigo_pais]  # Obtener el año y el valor más reciente para el país
        print(f'MSTI {nombre_pais} Año {ano}: {valor:.5f}')
    else:
        print(f'MSTI {nombre_pais}: Dato no encontrado')

# Mostrar resultados para países específicos para paises_unidos
for codigo_pais, nombre_pais in paises_unidos:
    if codigo_pais in valores_msti:  # Verificar si el código del país está en los resultados
        ano, valor = valores_msti[codigo_pais]  # Obtener el año y el valor más reciente para el país
        print(f'MSTI {nombre_pais} Año {ano}: {valor:.5f}')
    else:
        print(f'MSTI {nombre_pais}: Dato no encontrado')


El archivo 'OCDE_PIB.csv' está presente en el directorio actual.
MSTI Austria Año 2021: 3.25632
MSTI Bélgica Año 2021: 3.42979
MSTI Canadá Año 2021: 1.69727
MSTI Chile Año 2020: 0.33496
MSTI Costa Rica Año 2021: 0.27531
MSTI República Checa Año 2021: 1.99601
MSTI Dinamarca Año 2021: 2.76142
MSTI Estonia Año 2021: 1.75215
MSTI Finlandia Año 2021: 2.98545
MSTI Francia Año 2021: 2.21918
MSTI Alemania Año 2021: 3.12882
MSTI Grecia Año 2021: 1.45642
MSTI Hungría Año 2021: 1.64230
MSTI Islandia Año 2021: 2.80542
MSTI Irlanda Año 2021: 1.11065
MSTI Italia Año 2021: 1.45392
MSTI Japón Año 2021: 3.29581
MSTI Corea del Sur Año 2021: 4.93012
MSTI Letonia Año 2021: 0.74092
MSTI Lituania Año 2021: 1.11075
MSTI Luxemburgo Año 2021: 1.04215
MSTI México Año 2017: 0.32832
MSTI Países Bajos Año 2021: 2.26877
MSTI Nueva Zelanda Año 2021: 1.46810
MSTI Noruega Año 2021: 1.93798
MSTI Polonia Año 2021: 1.43183
MSTI Portugal Año 2021: 1.68072
MSTI Eslovaquia Año 2021: 0.91539
MSTI Eslovenia Año 2021: 2.12800


<a id="subseccion-4-7"></a>

## [Obtenemos los indicadores de ciencia y tecnología OCDE de investigadores e investigadoras desde el 2010.](https://data-explorer.oecd.org/vis?tm=main%20science&pg=0&snb=1&vw=tb&df[ds]=dsDisseminateFinalDMZ&df[id]=DSD_MSTI%40DF_MSTI&df[ag]=OECD.STI.STP&df[vs]=1.1&pd=2010%2C&dq=.A.T_RS%2BT_WRS.PS..&ly[rw]=REF_AREA&ly[cl]=TIME_PERIOD&to[TIME_PERIOD]=false)

[Volver al índice](#indice) 

In [8]:
nombre_del_archivo = "OCDE_Inv.csv"                             # Nombre del archivo a buscar
carpeta = os.getcwd()                                       # Utiliza el directorio actual de trabajo como carpeta de búsqueda
ruta_completa = os.path.join(carpeta, nombre_del_archivo)   # Construcción de la ruta del archivo

# Verificar si el archivo existe en la carpeta
if os.path.isfile(ruta_completa):
    print(f"El archivo '{nombre_del_archivo}' está presente en el directorio actual.")
else:
    print(f"El archivo '{nombre_del_archivo}' no se encontró en el directorio actual.")
    print("Procedemos a conectarnos con la API para obtener el descargable.")

    # Define the URL of the request
    url = "https://sdmx.oecd.org/public/rest/data/OECD.STI.STP,DSD_MSTI@DF_MSTI,1.1/.A.T_RS+T_WRS.PS..?startPeriod=2010&dimensionAtObservation=AllDimensions"

    # Establece las cabeceras para solicitar datos formato csv
    parametros = {
        'Accept': 'application/vnd.sdmx.data+csv; charset=utf-8',
    }

    # Realizar la solicitud GET
    response = requests.get(url, headers=parametros)

    # Verifique el código de estado de la respuesta
    if response.status_code == 200:
        # Si la respuesta está en formato CSV, puede guardarla en un archivo o procesarla según sea necesario
        with open(nombre_del_archivo, 'w') as file:
            file.write(response.text)
        print("Descarga Exitosa")
    else:
        print(f"Error de solicitud: código de estado {response.status_code}")

def extraccion_ocde(ruta_archivo_csv):
    with open(ruta_archivo_csv, newline='', encoding='utf-8') as archivo_csv:
        lector = csv.reader(archivo_csv)
        datos = list(lector)

    datos_por_pais_y_categoria = {}
    for fila in datos[1:]:  # Ignora el encabezado
        if len(fila) > 8:  # Asegura que la fila tenga suficientes columnas
            pais = fila[1]  # La abreviatura del país está en la segunda columna
            categoria = fila[3]  # La categoría (T_WRS o T_RS) está en la cuarta columna
            ano = fila[7]  # El año está en la octava columna
            valor = fila[8]  # El dato está en la novena columna
            if pais not in datos_por_pais_y_categoria:
                datos_por_pais_y_categoria[pais] = {}
            if categoria not in datos_por_pais_y_categoria[pais]:
                datos_por_pais_y_categoria[pais][categoria] = {}
            try:
                datos_por_pais_y_categoria[pais][categoria][ano] = float(valor)
            except ValueError:
                continue  # Ignora los valores que no se pueden convertir a flotante

    def obtener_valor_mas_reciente(pais, categoria, ano_inicio=2021):
        while ano_inicio >= 2010:  # Año mínimo de búsqueda
            ano_str = str(ano_inicio)
            if ano_str in datos_por_pais_y_categoria.get(pais, {}).get(categoria, {}):
                return ano_str, datos_por_pais_y_categoria[pais][categoria][ano_str]  # Retorna el año y el valor
            ano_inicio -= 1
        return "No encontrado", 0  # Retorna un mensaje y 0 si no se encuentra ningún valor

    # Obtener el valor y año más reciente para cada país y categoría
    valores_por_pais_y_categoria = {}
    for pais in datos_por_pais_y_categoria.keys():
        valores_por_pais_y_categoria[pais] = {}
        for categoria in datos_por_pais_y_categoria[pais].keys():
            valores_por_pais_y_categoria[pais][categoria] = obtener_valor_mas_reciente(pais, categoria)

    return valores_por_pais_y_categoria

# Lista de códigos ISO 3166-1 alfa-3 de países y sus nombres completos para mostrar
paises_ocde = [
    ("AUT", "Austria"), ("BEL", "Bélgica"), ("CAN", "Canadá"), ("CHL", "Chile"), ("CRI", "Costa Rica"), 
    ("CZE", "República Checa"), ("DNK", "Dinamarca"), ("EST", "Estonia"), ("FIN", "Finlandia"),
    ("FRA", "Francia"), ("DEU", "Alemania"), ("GRC", "Grecia"), ("HUN", "Hungría"), ("ISL", "Islandia"),
    ("IRL", "Irlanda"), ("ITA", "Italia"), ("JPN", "Japón"), ("KOR", "Corea del Sur"),
    ("LVA", "Letonia"), ("LTU", "Lituania"), ("LUX", "Luxemburgo"), ("MEX", "México"), ("NLD", "Países Bajos"),
    ("NZL", "Nueva Zelanda"), ("NOR", "Noruega"), ("POL", "Polonia"), ("PRT", "Portugal"), ("SVK", "Eslovaquia"),
    ("SVN", "Eslovenia"), ("ESP", "España"), ("SWE", "Suecia"), ("CHE", "Suiza"), ("TUR", "Turquía"),
    ("GBR", "Reino Unido"), ("USA", "Estados Unidos")
]

# Llamada a la función de extracción modificada con la ruta del archivo CSV
valores_por_pais_y_categoria = extraccion_ocde(nombre_del_archivo)

# Convertir la lista de tuplas en un diccionario para traducir 
codigo_a_nombre = dict(paises_ocde)

# Mostrar resultados para pais, categoría y calcula la proporción de investigadoras
for codigo_pais, nombre_pais in paises_ocde:
    if codigo_pais in valores_por_pais_y_categoria:  # Verificar si el código del país está en los resultados
        # Inicializar variables para almacenar los datos de investigadores totales e investigadoras
        valor_investigadores = None
        valor_investigadoras = None
        ano_investigadores = None
        ano_investigadoras = None

        # Obtener datos para investigadores totales (T_RS) si están disponibles
        if 'T_RS' in valores_por_pais_y_categoria[codigo_pais]:
            ano_investigadores, valor_investigadores = valores_por_pais_y_categoria[codigo_pais]['T_RS']

        # Obtener datos para investigadoras (T_WRS) si están disponibles
        if 'T_WRS' in valores_por_pais_y_categoria[codigo_pais]:
            ano_investigadoras, valor_investigadoras = valores_por_pais_y_categoria[codigo_pais]['T_WRS']

        # Calcula Investigadoras/Investigadores y muestra la proporción si ambos valores están disponibles y corresponden al mismo año
        if valor_investigadores and valor_investigadoras and ano_investigadores == ano_investigadoras:
            proporcion = (valor_investigadoras / valor_investigadores) * 100
            print(f'{ano_investigadores} Proporción {nombre_pais}: {proporcion:.2f}')
        else:
            print(f'{nombre_pais}: Datos insuficientes para calcular la proporción')
    else:
        print(f'{nombre_pais}: Dato no encontrado en ambas categorías')

El archivo 'OCDE_Inv.csv' está presente en el directorio actual.
2021 Proporción Austria: 31.25
2021 Proporción Bélgica: 33.52
Canadá: Dato no encontrado en ambas categorías
2020 Proporción Chile: 34.88
2021 Proporción Costa Rica: 44.07
2021 Proporción República Checa: 27.10
Dinamarca: Datos insuficientes para calcular la proporción
2021 Proporción Estonia: 41.68
2021 Proporción Finlandia: 32.80
2021 Proporción Francia: 29.87
2021 Proporción Alemania: 29.36
2021 Proporción Grecia: 38.73
2021 Proporción Hungría: 29.30
2021 Proporción Islandia: 45.25
2021 Proporción Irlanda: 37.36
2021 Proporción Italia: 36.10
2021 Proporción Japón: 17.83
2021 Proporción Corea del Sur: 22.17
2021 Proporción Letonia: 49.82
2021 Proporción Lituania: 48.48
2021 Proporción Luxemburgo: 29.90
2017 Proporción México: 33.45
2021 Proporción Países Bajos: 30.25
Nueva Zelanda: Datos insuficientes para calcular la proporción
2021 Proporción Noruega: 38.55
2021 Proporción Polonia: 36.24
2021 Proporción Portugal: 42.5

<a id="seccion-5"></a>

# **II) Transformación**

[Volver al índice](#indice) 

<a id="subseccion-5-1"></a>

## 1. **[Cantidad de investigadores(as) cada mil personas trabajando en países de la OCDE.](https://www.observa.minciencia.gob.cl/indicadores/comparacion-internacional/investigadoresas-cada-mil-personas-trabajando)**

 * Variables obtenidas de la BD_Tamanho:
    * **factor_expansion**
    * **d4320:** Jornada Completa Equivalente de personal dedicado a I+D, según ocupación: Investigadores.

[Volver al índice](#indice)    

In [9]:
# Multiplicar el factor_expansion por la variable del indicador
investigadores = (df_tamano['factor_expansion']*df_tamano['d4320']).sum()

# obtenemos el dato a actualizar
resultado_inv = investigadores/ocupados

print('Cantidad de investigadores: {:.2f} por cada 1000 personas trabajando.'.format(resultado_inv), '  Cantidad: {:.2f} MM'.format(investigadores))


Cantidad de investigadores: 1.43 por cada 1000 personas trabajando.   Cantidad: 12399.74 MM


<a id="subseccion-5-3"></a>

## 3. **[Gasto en I+D respecto al PIB en países de la OCDE.](https://www.observa.minciencia.gob.cl/indicadores/comparacion-internacional/gasto-en-id-respecto-al-pib)**
 * Variables utilizadas de la BD_Tamanho:
    * **factor_expansion**
    * **c3020:** Total gasto intramuro en I+D de la empresa (3014+3019) en miles de pesos.
 * Variables utilizadas del PIB.xlsx:
    * **PIB_2021**   

[Volver al índice](#indice)

In [10]:
# Multiplicar el factor_expansion por la variable del indicador, suma las filas y transforma el resultado de miles de pesos a miles de millones de pesos
resultado_suma = (df_tamano['factor_expansion']*df_tamano['c3020']).sum()/ 10000 

# obtenemos el dato a actualizar
resultado_imasd = resultado_suma / PIB_2021

print('Gasto en I+D respecto al PIB: {:.2f}%'.format(resultado_imasd), '  Cantidad: {:.2f} MM'.format(resultado_suma))

Gasto en I+D respecto al PIB: 0.36%   Cantidad: 86341.70 MM


<a id="subseccion-5-7"></a>

## 7. **[Distribución del gasto en I+D según fuente de financiamiento y sector de ejecución.](https://www.observa.minciencia.gob.cl/indicadores/investigacion-y-desarrollo-id/Distribucion_del_gasto_en_I_D_segun_fuente_de_financiamiento_y_sector_de_ejecucion)**
 
 * Variables utilizadas de la BD_Tamanho:
    * **factor_expansion**
    * **c3024:** Fuentes de financiamiento: Fondos públicos concursables (subsidios de carácter público) como fuente de financiamiento, en miles de pesos
    * **c3025:** Fuentes de financiamiento: Contratos con instituciones del Estado (incluidas las compras de I+D) como fuente de financiamiento, en miles de pesos. 
    * **c3026:** Fuentes de financiamiento: Fondos propios de la unidad o institución como fuente de financiamiento, en miles de pesos.
    * **c3027:** Fuente de financiamiento: Fondos de otras empresas (contratos, convenio y donaciones para I+D) en miles de pesos.
    * **c3028:** Fuente de financiamiento: Fondos de empresas del mismo grupo (Holding, filiales, coligadas) en miles de pesos.
    * **c3029:** Fuentes de finanaciamiento: Fondos de Instituciones de Educación Superior (contratos, convenios y donaciones para I+D) como fuente de financiamiento,  en miles de pesos.
    * **c3030:** Fuente de financiamiento: Fondos de Instituciones Privadas sin Fines de lucro (contratos y donaciones para I+D) en miles de pesos.
    * **c3107:** Total fondos internacionales en miles de pesos.
    * **c3038:** Fondos Generales Universitarios (FGU) financiados estatalmente (AFI, AFD, conv. de desempeño, etc.) en porcentaje.
 * Ecuaciones: 
    * Fondos gobierno = subsidio(c3024) + contrato(c3025)
    * Fondos empresa = otros(c3027) + mismoGrupo(c3028)
    * ajuste_fgu: ajusta todos los valores a enteros para después transformarlo a una proporción.
    * sector ejecutor = unidad declarante

[Volver al índice](#indice)

In [11]:
def ajuste_fgu(valor):
    # Ajuste de fondo general universitario
    if valor < 1:
        valor *= 100    # Primera condición: multiplica por 100 si es menor que 1
    return valor / 100  # Segunda operación: divide por 100 secuencialmente

def calculo_distribucion(df):
    # Estado
    Es_1      = (((df[df['unidad_declarante'] == 1]['c3024']) + df[df['unidad_declarante'] == 1]['c3025']                               # Fondos gobierno 
                        + df[df['unidad_declarante'] == 1]['c3026'])                                                                    # Fondos propios
                        * df[df['unidad_declarante'] == 1]['factor_expansion']).sum()                                                   # Factor de expanción   
    Es_2      = (((df[df['unidad_declarante'] == 2]['c3024'] + df[df['unidad_declarante'] == 2]['c3025'])                               # Fondos gobierno
                        + (df[df['unidad_declarante'] == 2]['c3038'].apply(ajuste_fgu) * df[df['unidad_declarante'] == 2]['c3026']))    # FondGeneralUniv(ajustado a proporción) * fondos propios
                        * df[df['unidad_declarante'] == 2]['factor_expansion']).sum()                                                   # Factor de expanción    
    Es_3      = ((df[df['unidad_declarante'] == 3]['c3024'] + df[df['unidad_declarante'] == 3]['c3025'])                                # Fondos gobierno
                        * df[df['unidad_declarante'] == 3]['factor_expansion']).sum()                                                   # Factor de expanción  
    Es_4      = ((df[df['unidad_declarante'] == 4]['c3024'] + df[df['unidad_declarante'] == 4]['c3025'])                                # Fondos gobierno
                        * df[df['unidad_declarante'] == 4]['factor_expansion']).sum()                                                   # Factor de expanción  


    # IES
    IES_1     = (df[df['unidad_declarante'] == 1]['c3029'] * df[df['unidad_declarante'] == 1]['factor_expansion']).sum()                    # Fondos IES * Factor de expanción
    IES_2     = (((df[df['unidad_declarante'] == 2]['c3029'] + df[df['unidad_declarante'] == 2]['c3026'])                                   # Fondos IES + Fondos propios
                            - (df[df['unidad_declarante'] == 2]['c3038'].apply(ajuste_fgu) * df[df['unidad_declarante'] == 2]['c3026']))    # FondGeneralUniv(ajustado a proporción) * Fondos propios
                            * df[df['unidad_declarante'] == 2]['factor_expansion']).sum()                                                   # Factor de expanción    
    IES_3     = (df[df['unidad_declarante'] == 3]['c3029'] * df[df['unidad_declarante'] == 3]['factor_expansion']).sum()                    # Fondos IES * Factor de expanción
    IES_4     = (df[df['unidad_declarante'] == 4]['c3029'] * df[df['unidad_declarante'] == 4]['factor_expansion']).sum()                    # Fondos IES * Factor de expanción


    # IPSFL
    IPSFL_1   = (df[df['unidad_declarante'] == 1]['c3030'] * df[df['unidad_declarante'] == 1]['factor_expansion']).sum()                    # Fondos IPSFL * Factor de expanción
    IPSFL_2   = (df[df['unidad_declarante'] == 2]['c3030'] * df[df['unidad_declarante'] == 2]['factor_expansion']).sum()                    # Fondos IPSFL * Factor de expanción
    IPSFL_3   = ((df[df['unidad_declarante'] == 3]['c3030'] + df[df['unidad_declarante'] == 3]['c3026'])                                    # Fondos IPSFL + Fondos propios
                            * df[df['unidad_declarante'] == 3]['factor_expansion']).sum()                                                   # Factor de expanción
    IPSFL_4   = (df[df['unidad_declarante'] == 4]['c3030'] * df[df['unidad_declarante'] == 4]['factor_expansion']).sum()                    # Fondos IPSFL * Factor de expanción


    # Empresas
    Em_1      = (((df[df['unidad_declarante'] == 1]['c3027']) + df[df['unidad_declarante'] == 1]['c3028'])  # Fondos empresas
                    * df[df['unidad_declarante'] == 1]['factor_expansion']).sum()                           # Factor de expanción
    Em_2      = (((df[df['unidad_declarante'] == 2]['c3027']) + df[df['unidad_declarante'] == 2]['c3028'])  # Fondos empresas
                    * df[df['unidad_declarante'] == 2]['factor_expansion']).sum()                           # Factor de expanción
    Em_3      = (((df[df['unidad_declarante'] == 3]['c3027']) + df[df['unidad_declarante'] == 3]['c3028'])  # Fondos empresas
                    * df[df['unidad_declarante'] == 3]['factor_expansion']).sum()                           # Factor de expanción
    Em_4      = (((df[df['unidad_declarante'] == 4]['c3027']) + df[df['unidad_declarante'] == 4]['c3028']   # Fondos empresas
                    + df[df['unidad_declarante'] == 4]['c3026'])                                            # Fondos propios
                    * df[df['unidad_declarante'] == 4]['factor_expansion']).sum()                           # Factor de expanción

    #financiamiento internacional
    Inter_1   = (df[df['unidad_declarante'] == 1]['c3107'] * df[df['unidad_declarante'] == 1]['factor_expansion']).sum()  # Financiamiento Internacional * Factor de expanción
    Inter_2   = (df[df['unidad_declarante'] == 2]['c3107'] * df[df['unidad_declarante'] == 2]['factor_expansion']).sum()  # Financiamiento Internacional * Factor de expanción
    Inter_3   = (df[df['unidad_declarante'] == 3]['c3107'] * df[df['unidad_declarante'] == 3]['factor_expansion']).sum()  # Financiamiento Internacional * Factor de expanción
    Inter_4   = (df[df['unidad_declarante'] == 4]['c3107'] * df[df['unidad_declarante'] == 4]['factor_expansion']).sum()  # Financiamiento Internacional * Factor de expanción

    # Convierte el resultado de miles a miles de millones
    return  Es_1/1000, Es_2/1000, Es_3/1000, Es_4/1000, \
            IES_1/1000, IES_2/1000, IES_3/1000, IES_4/1000, \
            IPSFL_1/1000, IPSFL_2/1000, IPSFL_3/1000, IPSFL_4/1000, \
            Em_1/1000, Em_2/1000, Em_3/1000, Em_4/1000, \
            Inter_1/1000, Inter_2/1000, Inter_3/1000, Inter_4/1000

# Limpieza de datos no numericos
limpieza_columna = ['c3024', 'c3025', 'c3026', 'c3027', 'c3028', 'c3029', 'c3030', 'c3107', 'c3038']
for columna in limpieza_columna:
    df_tamano[columna] = pd.to_numeric(df_tamano[columna], errors='coerce').fillna(0) #convierte los NaN a 0

# Llamar a la función y almacenar 
Es_1, Es_2, Es_3, Es_4, IES_1, IES_2, IES_3, IES_4, IPSFL_1, IPSFL_2, IPSFL_3, \
IPSFL_4, Em_1, Em_2, Em_3, Em_4, Inter_1, Inter_2, Inter_3, Inter_4 = calculo_distribucion(df_tamano)

# Calcular el total de cada categoría
total_Es    = Es_1 + Es_2 + Es_3 + Es_4
total_IES   = IES_1 + IES_2 + IES_3 + IES_4
total_IPSFL = IPSFL_1 + IPSFL_2 + IPSFL_3 + IPSFL_4
total_Em    = Em_1 + Em_2 + Em_3 + Em_4
total_inter = Inter_1 + Inter_2 + Inter_3 + Inter_4

# Mostrar los resultados
print(f'Estado Estado:          ${Es_1:.2f} M')
print(f'Estado IES:             ${Es_2:.2f} M')
print(f'Estado IPSFL:           ${Es_3:.2f} M')
print(f'Estado Empresa:         ${Es_4:.2f} M\n')   

print(f'IES Estado:             ${IES_1:.2f} M')
print(f'IES IES:                ${IES_2:.2f} M')
print(f'IES IPSFL:              ${IES_3:.2f} M')
print(f'IES Empresa:            ${IES_4:.2f} M\n')

print(f'IPSFL Estado:           ${IPSFL_1:.2f} M')
print(f'IPSFL IES:              ${IPSFL_2:.2f} M')
print(f'IPSFL IPSFL:            ${IPSFL_3:.2f} M')
print(f'IPSFL Empresas:         ${IPSFL_4:.2f} M\n')

print(f'Empresas Estado:        ${Em_1:.2f} M')
print(f'Empresas IES:           ${Em_2:.2f} M')
print(f'Empresas IPSFL:         ${Em_3:.2f} M')
print(f'Empresas Empresas:      ${Em_4:.2f} M\n')

print(f'Internacional Estado:   ${Inter_1:.2f} M')
print(f'Internacional IES:      ${Inter_2:.2f} M')
print(f'Internacional IPSFL:    ${Inter_3:.2f} M')
print(f'Internacional Empresa:  ${Inter_4:.2f} M\n')

# Totales 
print(f'Estado:         ${total_Es:.2f} M')   
print(f'IES:            ${total_IES:.2f} M')
print(f'IPSFL:          ${total_IPSFL:.2f} M')
print(f'Empresas:       ${total_Em:.2f} M')
print(f'Internacional:  ${total_inter:.2f} M')

Estado Estado:          $85429.82 M
Estado IES:             $198255.97 M
Estado IPSFL:           $23739.71 M
Estado Empresa:         $22629.09 M

IES Estado:             $81.81 M
IES IES:                $132083.31 M
IES IPSFL:              $246.20 M
IES Empresa:            $1231.71 M

IPSFL Estado:           $174.51 M
IPSFL IES:              $1645.54 M
IPSFL IPSFL:            $12387.30 M
IPSFL Empresas:         $706.88 M

Empresas Estado:        $2034.35 M
Empresas IES:           $12499.35 M
Empresas IPSFL:         $3633.94 M
Empresas Empresas:      $339188.86 M

Internacional Estado:   $1704.55 M
Internacional IES:      $17212.83 M
Internacional IPSFL:    $2518.19 M
Internacional Empresa:  $6013.08 M

Estado:         $330054.60 M
IES:            $133643.02 M
IPSFL:          $14914.23 M
Empresas:       $357356.50 M
Internacional:  $27448.64 M


In [12]:
#codigo estructural de referencia
'''
def calcular_financiamiento(row):
    # Accede a los valores de las columnas para la fila actual y Transforma el resultado de miles a miles de millones
    fondos_gobierno = row['c3024'] + row['c3025'] # gobierno = subsidio + contrato
    fondos_propios = row['c3026'] 
    fondos_IES = row['c3029'] 
    fondos_IPSFL = row['c3030'] 
    fondos_empresas = row['c3027'] + row['c3028']   # empresa = otros + mismoGrupo
    fondo_internacional = row['c3107'] 
    FE = row['factor_expansion']

    # Ajuste de fondo general universitario
    FGU = row['c3038']
    if FGU < 1:
        FGU *= 100  # Primera condición: multiplica por 100 si es menor que 1
    FGU /= 100  # Segunda operación: divide por 100 secuencialmente


    # Calculando el financiamiento según la unidad declarante
    if row['unidad_declarante'] == 1:
        financiamiento_estado = (fondos_gobierno + fondos_propios) * FE
        financiamiento_IES = fondos_IES * FE
        financiamiento_IPSFL = fondos_IPSFL * FE
        financiamiento_empresas = fondos_empresas * FE
        financiamiento_internacional = fondo_internacional * FE
        
    elif row['unidad_declarante'] == 2:
        financiamiento_estado = (fondos_gobierno + (FGU * fondos_propios)) * FE
        financiamiento_IES = (fondos_IES + fondos_propios - (FGU * fondos_propios)) * FE
        financiamiento_IPSFL = fondos_IPSFL * FE
        financiamiento_empresas = fondos_empresas * FE
        financiamiento_internacional = fondo_internacional * FE
        
    elif row['unidad_declarante'] == 3:
        financiamiento_estado = fondos_gobierno * FE
        financiamiento_IES = fondos_IES * FE
        financiamiento_IPSFL = (fondos_IPSFL + fondos_propios) * FE
        financiamiento_empresas = fondos_empresas * FE
        financiamiento_internacional = fondo_internacional * FE
        
    else:  # unidad_declarante = 4
        financiamiento_estado = fondos_gobierno * FE
        financiamiento_IES = fondos_IES * FE
        financiamiento_IPSFL = fondos_IPSFL * FE
        financiamiento_empresas = (fondos_empresas + fondos_propios) * FE
        financiamiento_internacional = fondo_internacional * FE

    return financiamiento_estado/1000, financiamiento_IES/1000, financiamiento_IPSFL/1000, financiamiento_empresas/1000, financiamiento_internacional/1000

# Limpieza de datos no numericos
limpieza_columna = ['c3024', 'c3025', 'c3026', 'c3027', 'c3028', 'c3029', 'c3030', 'c3107', 'c3038']
for columna in limpieza_columna:
    df_tamano[columna] = pd.to_numeric(df_tamano[columna], errors='coerce').fillna(0) #convierte los NaN a 0

# Inicializando totales como variables independientes
total_estado = 0
total_IES = 0
total_IPSFL = 0
total_empresas = 0
total_internacional = 0

# Calculando los totales asignando un acumulador
for index, row in df_tamano.iterrows():
    financiamiento_estado, financiamiento_IES, financiamiento_IPSFL, financiamiento_empresas, financiamiento_internacional = calcular_financiamiento(row)
    total_estado += financiamiento_estado
    total_IES += financiamiento_IES
    total_IPSFL += financiamiento_IPSFL
    total_empresas += financiamiento_empresas
    total_internacional += financiamiento_internacional  

# Mostrar los resultados
print(f'Estado:         ${total_estado:.2f} M')   
print(f'IES:            ${total_IES:.2f} M')
print(f'IPSFL:          ${total_IPSFL:.2f} M')
print(f'Empresas:       ${total_empresas:.2f} M')
print(f'Internacional:  ${total_internacional:.2f} M')
'''

"\ndef calcular_financiamiento(row):\n    # Accede a los valores de las columnas para la fila actual y Transforma el resultado de miles a miles de millones\n    fondos_gobierno = row['c3024'] + row['c3025'] # gobierno = subsidio + contrato\n    fondos_propios = row['c3026'] \n    fondos_IES = row['c3029'] \n    fondos_IPSFL = row['c3030'] \n    fondos_empresas = row['c3027'] + row['c3028']   # empresa = otros + mismoGrupo\n    fondo_internacional = row['c3107'] \n    FE = row['factor_expansion']\n\n    # Ajuste de fondo general universitario\n    FGU = row['c3038']\n    if FGU < 1:\n        FGU *= 100  # Primera condición: multiplica por 100 si es menor que 1\n    FGU /= 100  # Segunda operación: divide por 100 secuencialmente\n\n\n    # Calculando el financiamiento según la unidad declarante\n    if row['unidad_declarante'] == 1:\n        financiamiento_estado = (fondos_gobierno + fondos_propios) * FE\n        financiamiento_IES = fondos_IES * FE\n        financiamiento_IPSFL = fondos

<a id="subseccion-5-14"></a>

## 14. **[Gasto en I+D por empresas según su sector económico (clasificación CIIU rev.4)](https://www.observa.minciencia.gob.cl/indicadores/investigacion-y-desarrollo-id/gasto-en-id-por-sector-economico)**

 * Variables utilizadas de la BD_Sector:
    * **factor_expansion**
    * **c3020:** Total gasto intramuro en I+D de la empresa (3014+3019) en miles de pesos.
    * **cod_actividad:** Código de la actividad económica de la unidad.
    * **unidad declarante** = 4 (Empresas)

[Volver al índice](#indice)

In [13]:
def sumar_por_actividad(df):
    # suma cada categoría multiplicado por el factor de expansión y transforma el resultado de miles de pesos a miles de millones de pesos
    A     = (df[(df['cod_actividad'] ==  1) & (df['unidad_declarante'] == 4)]['c3020'] * df[(df['cod_actividad'] ==  1) & (df['unidad_declarante'] == 4)]['factor_expansion']).sum() 
    B     = (df[(df['cod_actividad'] ==  2) & (df['unidad_declarante'] == 4)]['c3020'] * df[(df['cod_actividad'] ==  2) & (df['unidad_declarante'] == 4)]['factor_expansion']).sum() 
    C     = (df[(df['cod_actividad'] ==  3) & (df['unidad_declarante'] == 4)]['c3020'] * df[(df['cod_actividad'] ==  3) & (df['unidad_declarante'] == 4)]['factor_expansion']).sum() 
    C20   = (df[(df['cod_actividad'] ==  4) & (df['unidad_declarante'] == 4)]['c3020'] * df[(df['cod_actividad'] ==  4) & (df['unidad_declarante'] == 4)]['factor_expansion']).sum() 
    C21   = (df[(df['cod_actividad'] ==  5) & (df['unidad_declarante'] == 4)]['c3020'] * df[(df['cod_actividad'] ==  5) & (df['unidad_declarante'] == 4)]['factor_expansion']).sum()
    D     = (df[(df['cod_actividad'] ==  6) & (df['unidad_declarante'] == 4)]['c3020'] * df[(df['cod_actividad'] ==  6) & (df['unidad_declarante'] == 4)]['factor_expansion']).sum()
    E     = (df[(df['cod_actividad'] ==  7) & (df['unidad_declarante'] == 4)]['c3020'] * df[(df['cod_actividad'] ==  7) & (df['unidad_declarante'] == 4)]['factor_expansion']).sum()   
    F     = (df[(df['cod_actividad'] ==  8) & (df['unidad_declarante'] == 4)]['c3020'] * df[(df['cod_actividad'] ==  8) & (df['unidad_declarante'] == 4)]['factor_expansion']).sum()   
    G     = (df[(df['cod_actividad'] ==  9) & (df['unidad_declarante'] == 4)]['c3020'] * df[(df['cod_actividad'] ==  9) & (df['unidad_declarante'] == 4)]['factor_expansion']).sum()  
    H     = (df[(df['cod_actividad'] == 10) & (df['unidad_declarante'] == 4)]['c3020'] * df[(df['cod_actividad'] == 10) & (df['unidad_declarante'] == 4)]['factor_expansion']).sum() 
    I     = (df[(df['cod_actividad'] == 11) & (df['unidad_declarante'] == 4)]['c3020'] * df[(df['cod_actividad'] == 11) & (df['unidad_declarante'] == 4)]['factor_expansion']).sum() 
    J     = (df[(df['cod_actividad'] == 12) & (df['unidad_declarante'] == 4)]['c3020'] * df[(df['cod_actividad'] == 12) & (df['unidad_declarante'] == 4)]['factor_expansion']).sum()  
    K     = (df[(df['cod_actividad'] == 13) & (df['unidad_declarante'] == 4)]['c3020'] * df[(df['cod_actividad'] == 13) & (df['unidad_declarante'] == 4)]['factor_expansion']).sum() 
    L     = (df[(df['cod_actividad'] == 14) & (df['unidad_declarante'] == 4)]['c3020'] * df[(df['cod_actividad'] == 14) & (df['unidad_declarante'] == 4)]['factor_expansion']).sum() 
    M     = (df[(df['cod_actividad'] == 15) & (df['unidad_declarante'] == 4)]['c3020'] * df[(df['cod_actividad'] == 15) & (df['unidad_declarante'] == 4)]['factor_expansion']).sum()  
    M70   = (df[(df['cod_actividad'] == 16) & (df['unidad_declarante'] == 4)]['c3020'] * df[(df['cod_actividad'] == 16) & (df['unidad_declarante'] == 4)]['factor_expansion']).sum()
    M71   = (df[(df['cod_actividad'] == 17) & (df['unidad_declarante'] == 4)]['c3020'] * df[(df['cod_actividad'] == 17) & (df['unidad_declarante'] == 4)]['factor_expansion']).sum() 
    M72   = (df[(df['cod_actividad'] == 18) & (df['unidad_declarante'] == 4)]['c3020'] * df[(df['cod_actividad'] == 18) & (df['unidad_declarante'] == 4)]['factor_expansion']).sum()
    N     = (df[(df['cod_actividad'] == 19) & (df['unidad_declarante'] == 4)]['c3020'] * df[(df['cod_actividad'] == 19) & (df['unidad_declarante'] == 4)]['factor_expansion']).sum()  
    O     = (df[(df['cod_actividad'] == 20) & (df['unidad_declarante'] == 4)]['c3020'] * df[(df['cod_actividad'] == 20) & (df['unidad_declarante'] == 4)]['factor_expansion']).sum() 
    P     = (df[(df['cod_actividad'] == 21) & (df['unidad_declarante'] == 4)]['c3020'] * df[(df['cod_actividad'] == 21) & (df['unidad_declarante'] == 4)]['factor_expansion']).sum() 
    Q     = (df[(df['cod_actividad'] == 22) & (df['unidad_declarante'] == 4)]['c3020'] * df[(df['cod_actividad'] == 22) & (df['unidad_declarante'] == 4)]['factor_expansion']).sum() 
    R     = (df[(df['cod_actividad'] == 23) & (df['unidad_declarante'] == 4)]['c3020'] * df[(df['cod_actividad'] == 23) & (df['unidad_declarante'] == 4)]['factor_expansion']).sum()
    S     = (df[(df['cod_actividad'] == 24) & (df['unidad_declarante'] == 4)]['c3020'] * df[(df['cod_actividad'] == 24) & (df['unidad_declarante'] == 4)]['factor_expansion']).sum()
    #retorna el valor transformado
    return A/1000, B/1000, C/1000, C20/1000, C21/1000, D/1000, E/1000, F/1000, G/1000, \
           H/1000, I/1000, J/1000, K/1000, L/1000, M/1000, M70/1000, M71/1000, M72/1000, \
           N/1000, O/1000, P/1000, Q/1000, R/1000, S/1000

# Llamar a la función y almacenar 
A, B, C, C20, C21, D, E, F, G, H, I, J, K, L, M, M70, M71, M72, N, O, P, Q, R, S = sumar_por_actividad(df_sector)
total = A+B+C+C20+C21+D+E+F+G+H+I+J+K+L+M+M70+M71+M72+N+O+P+Q+R+S

# Mostrar resultado 
print(f'A:      ${A:.3f} M')    # Agricultura, ganadería, silvicultura y pesca.
print(f'B:      ${B:.3f} M')    # Explotación de minas y canteras. 
print(f'C:      ${C:.3f} M')    # Industrias manufactureras. Excepto divisiones 20 y 21
print(f'C20:    ${C20:.3f} M')  # Fabricación de sustancias y productos químicos.
print(f'C21:    ${C21:.3f} M')  # Fabricación de productos farmacéuticos, sustancias químicas medicinales y productos botánicos de uso farmacéutico. 
print(f'D:       ${D:.3f} M')   # Suministro de electricidad, gas, vapor y aire acondicionado.
print(f'E:        ${E:.3f} M')  # Suministro de agua, evacuación de aguas residuales, gestión de desechos y descontaminación.  
print(f'F:       ${F:.3f} M')   # Construcción.
print(f'G:      ${G:.3f} M')    # Comercio al por mayor y al por menor, reparación de vehículos automotores y motocicletas.  
print(f'H:       ${H:.3f} M')   # Transporte y almacenamiento.   
print(f'I:         ${I:.3f} M') #  Actividades de alojamiento y servicio de comidas.  
print(f'J:      ${J:.3f} M')    # Información y comunicaciones comidas. 
print(f'K:       ${K:.3f} M')   # Actividades financieras y de seguros.  
print(f'L:         ${L:.3f} M') # Actividades inmobiliarias. 
print(f'M:       ${M:.3f} M')   # Actividades profesionales, científicas y técnicas. Excepto 70, 71 y 72. 
print(f'M70:     ${M70:.3f} M') # Actividades de oficinas principales; actividades de consultoría de gestión. 
print(f'M71:    ${M71:.3f} M')  # Actividades de arquitectura e ingeniería; ensayos y análisis técnicos. 
print(f'M72:    ${M72:.3f} M')  # Investigación científica y desarrollo.
print(f'N:      ${N:.3f} M')    # Actividades de servicio administrativo y de apoyo.
print(f'O:         ${O:.3f} M') # Administración pública y defensa; planes de seguridad social de afiliación obligatoria.
print(f'P:        ${P:.3f} M')  # Enseñanza.  
print(f'Q:       ${Q:.3f} M')   # Actividades de atención a la salud humana y asistencia social.   
print(f'R:         ${R:.3f} M') # Actividades artísticas de entretenimiento y recreativa. 
print(f'S:        ${S:.3f} M')  # Otras actividades de servicios.
print(f'Total: ${total:.3f} M')        

A:      $57032.673 M
B:      $12567.954 M
C:      $61475.204 M
C20:    $12557.887 M
C21:    $13146.605 M
D:       $6150.669 M
E:        $486.392 M
F:       $8857.535 M
G:      $52543.186 M
H:       $2478.792 M
I:         $64.871 M
J:      $40511.347 M
K:       $5784.872 M
L:         $54.876 M
M:       $4249.413 M
M70:     $9297.315 M
M71:    $21368.714 M
M72:    $32523.274 M
N:      $20330.649 M
O:         $24.524 M
P:        $123.151 M
Q:       $7225.750 M
R:         $10.495 M
S:        $903.468 M
Total: $369769.616 M


<a id="subseccion-5-17"></a>

## 17. **[Gasto en I+D como porcentaje del PIB e investigadores/as cada 1000 personas trabajando por macrozona.](https://www.observa.minciencia.gob.cl/indicadores/investigacion-y-desarrollo-id/gasto-en-id-respecto-al-pib-y-personal-en-id-cada-mil-personas-segun-macrozona)**

 * Variables utilizadas de la BD_Tamanho:
    * **macrozona**
    * **factor_expansion**
    * **c3020:** Total gasto intramuro en I+D de la empresa (3014+3019) en miles de pesos.
    * **d4320:** Total personal en Jornada Completa Equivalente dedicado a I+D, según ocupación.

[Volver al índice](#indice)

In [14]:
# Gasto I+D como porcentaje del PIB
def calculo_zonal_PIB(df):
    # Realizar la suma para cada categoría 
    norte_pib         = (df[df['macrozona'] == 1]['c3020'] * df[df['macrozona'] == 1]['factor_expansion']).sum() 
    centro_pib        = (df[df['macrozona'] == 2]['c3020'] * df[df['macrozona'] == 2]['factor_expansion']).sum() 
    centroSur_pib     = (df[df['macrozona'] == 3]['c3020'] * df[df['macrozona'] == 3]['factor_expansion']).sum()  
    sur_pib           = (df[df['macrozona'] == 4]['c3020'] * df[df['macrozona'] == 4]['factor_expansion']).sum() 
    austral_pib       = (df[df['macrozona'] == 5]['c3020'] * df[df['macrozona'] == 5]['factor_expansion']).sum() 
    metropolitana_pib = (df[df['macrozona'] == 6]['c3020'] * df[df['macrozona'] == 6]['factor_expansion']).sum() 
    #retorna el valor convertido 
    return norte_pib/10000, centro_pib/10000, centroSur_pib/10000, sur_pib/10000, austral_pib/10000, metropolitana_pib/10000

# JCE por cada 1000 personas trabajando
def calculo_zonal_ocupado(df):
    # Realizar la suma para cada categoría con respecto a 1000 personas trabajando
    norte_ocupado         = (df[df['macrozona'] == 1]['d4320'] * df[df['macrozona'] == 1]['factor_expansion']).sum()
    centro_ocupado        = (df[df['macrozona'] == 2]['d4320'] * df[df['macrozona'] == 2]['factor_expansion']).sum()
    centroSur_ocupado     = (df[df['macrozona'] == 3]['d4320'] * df[df['macrozona'] == 3]['factor_expansion']).sum()   
    sur_ocupado           = (df[df['macrozona'] == 4]['d4320'] * df[df['macrozona'] == 4]['factor_expansion']).sum()
    austral_ocupado       = (df[df['macrozona'] == 5]['d4320'] * df[df['macrozona'] == 5]['factor_expansion']).sum()
    metropolitana_ocupado = (df[df['macrozona'] == 6]['d4320'] * df[df['macrozona'] == 6]['factor_expansion']).sum() 

    return norte_ocupado, centro_ocupado, centroSur_ocupado, sur_ocupado, austral_ocupado, metropolitana_ocupado

# Llamar a la función y almacenar 
norte_pib, centro_pib, centroSur_pib, sur_pib, austral_pib, metropolitana_pib = calculo_zonal_PIB(df_tamano)
norte_ocupado, centro_ocupado, centroSur_ocupado, sur_ocupado, austral_ocupado, metropolitana_ocupado = calculo_zonal_ocupado(df_tamano)

#calculo porcentual 
por_pib_norte             = norte_pib / PIB_macro_norte
por_pib_centro            = centro_pib / PIB_macro_centro
por_pib_centroSur         = centroSur_pib / PIB_macro_centroSur
por_pib_sur               = sur_pib / PIB_macro_sur
por_pib_austral           = austral_pib / PIB_macro_austral
por_pib_metropolitana     = metropolitana_pib / PIB_macro_RM

por_ocupado_norte         = norte_ocupado / ocupado_macro_norte
por_ocupado_centro        = centro_ocupado / ocupado_macro_centro
por_ocupado_centroSur     = centroSur_ocupado / ocupado_macro_centroSur
por_ocupado_sur           = sur_ocupado / ocupado_macro_sur 
por_ocupado_austral       = austral_ocupado / ocupado_macro_austral 
por_ocupado_metropolitana = metropolitana_ocupado / ocupado_macro_RM

# Mostrar los resultados
print('Gasto I+D como porcentaje del PIB')
print('Macrozona Norte:         {:.2f}%'.format(por_pib_norte))         
print('Macrozona Centro:        {:.2f}%'.format(por_pib_centro))        
print('Macrozona Centro Sur:    {:.2f}%'.format(por_pib_centroSur))    
print('Macrozona Sur:           {:.2f}%'.format(por_pib_sur))         
print('Macrozona Austral:       {:.2f}%'.format(por_pib_austral))     
print('Región Metropolitana:    {:.2f}%\n'.format(por_pib_metropolitana))      

print('JCE por cada 1000 personas trabajando')
print('Macrozona Norte:         {:.1f} JCE'.format(por_ocupado_norte))           
print('Macrozona Centro:        {:.1f} JCE'.format(por_ocupado_centro))         
print('Macrozona Centro Sur:    {:.1f} JCE'.format(por_ocupado_centroSur))     
print('Macrozona Sur:           {:.1f} JCE'.format(por_ocupado_sur))            
print('Macrozona Austral:       {:.1f} JCE'.format(por_ocupado_austral))         
print('Región Metropolitana:    {:.1f} JCE'.format(por_ocupado_metropolitana)) 

Gasto I+D como porcentaje del PIB
Macrozona Norte:         0.08%
Macrozona Centro:        0.33%
Macrozona Centro Sur:    0.28%
Macrozona Sur:           0.31%
Macrozona Austral:       0.26%
Región Metropolitana:    0.64%

JCE por cada 1000 personas trabajando
Macrozona Norte:         0.8 JCE
Macrozona Centro:        1.1 JCE
Macrozona Centro Sur:    0.8 JCE
Macrozona Sur:           0.8 JCE
Macrozona Austral:       0.7 JCE
Región Metropolitana:    2.1 JCE


<a id="subseccion-5-19"></a>

## 19. **[Distribución del personal en I+D según nivel educacional y sector de ejecución.](https://www.observa.minciencia.gob.cl/indicadores/investigacion-y-desarrollo-id/personal-en-id-segun-nivel-educacional-y-sector-de-ejecucion)**

 * no aplica según area de conocimiento
 * nivel educacional = nivel de titulación
 * Sector de ejecución = unidad declarante
 * Variables utilizadas de la BD_Tamanho:
    * **factor_expansion**
    * **d4420:** Jornada Completa Equivalente de personal dedicado a I+D, según nivel de titulación: Doctorado.
    * **d4421:** Jornada Completa Equivalente de personal dedicado a I+D, según nivel de titulación: Magister.
    * **d4422:** Jornada Completa Equivalente de personal dedicado a I+D, según nivel de titulación: Profesional y/o Licenciatura
    * **d4423:** Jornada Completa Equivalente de personal dedicado a I+D, según nivel de titulación: Técnicos de Nivel Superior.
    * **d4424:** Jornada Completa Equivalente de personal dedicado a I+D, según nivel de titulación: Otros

[Volver al índice](#indice)

In [15]:
def calculo_distribucion(df):
    # Estado
    Dr_Es       = (df[df['unidad_declarante'] == 1]['d4420'] * df[df['unidad_declarante'] == 1]['factor_expansion']).sum()
    Mg_Es       = (df[df['unidad_declarante'] == 1]['d4421'] * df[df['unidad_declarante'] == 1]['factor_expansion']).sum()
    Prof_Es     = (df[df['unidad_declarante'] == 1]['d4422'] * df[df['unidad_declarante'] == 1]['factor_expansion']).sum()
    Tec_Es      = (df[df['unidad_declarante'] == 1]['d4423'] * df[df['unidad_declarante'] == 1]['factor_expansion']).sum()
    Otro_Es     = (df[df['unidad_declarante'] == 1]['d4424'] * df[df['unidad_declarante'] == 1]['factor_expansion']).sum()

    # Institución de educación Superior (IES)
    Dr_IES      = (df[df['unidad_declarante'] == 2]['d4420'] * df[df['unidad_declarante'] == 2]['factor_expansion']).sum()
    Mg_IES      = (df[df['unidad_declarante'] == 2]['d4421'] * df[df['unidad_declarante'] == 2]['factor_expansion']).sum()
    Prof_IES    = (df[df['unidad_declarante'] == 2]['d4422'] * df[df['unidad_declarante'] == 2]['factor_expansion']).sum()
    Tec_IES     = (df[df['unidad_declarante'] == 2]['d4423'] * df[df['unidad_declarante'] == 2]['factor_expansion']).sum()
    Otro_IES    = (df[df['unidad_declarante'] == 2]['d4424'] * df[df['unidad_declarante'] == 2]['factor_expansion']).sum()

    # Institución privada sin fines de lucro (IPSFL)
    Dr_IPSFL    = (df[df['unidad_declarante'] == 3]['d4420'] * df[df['unidad_declarante'] == 3]['factor_expansion']).sum()
    Mg_IPSFL    = (df[df['unidad_declarante'] == 3]['d4421'] * df[df['unidad_declarante'] == 3]['factor_expansion']).sum()
    Prof_IPSFL  = (df[df['unidad_declarante'] == 3]['d4422'] * df[df['unidad_declarante'] == 3]['factor_expansion']).sum()
    Tec_IPSFL   = (df[df['unidad_declarante'] == 3]['d4423'] * df[df['unidad_declarante'] == 3]['factor_expansion']).sum()
    Otro_IPSFL  = (df[df['unidad_declarante'] == 3]['d4424'] * df[df['unidad_declarante'] == 3]['factor_expansion']).sum()

    # Empresas
    Dr_Em       = (df[df['unidad_declarante'] == 4]['d4420'] * df[df['unidad_declarante'] == 4]['factor_expansion']).sum()
    Mg_Em       = (df[df['unidad_declarante'] == 4]['d4421'] * df[df['unidad_declarante'] == 4]['factor_expansion']).sum()
    Prof_Em     = (df[df['unidad_declarante'] == 4]['d4422'] * df[df['unidad_declarante'] == 4]['factor_expansion']).sum()
    Tec_Em      = (df[df['unidad_declarante'] == 4]['d4423'] * df[df['unidad_declarante'] == 4]['factor_expansion']).sum()
    Otro_Em     = (df[df['unidad_declarante'] == 4]['d4424'] * df[df['unidad_declarante'] == 4]['factor_expansion']).sum()

    return Dr_IES, Mg_IES, Prof_IES, Tec_IES, Otro_IES, Dr_Em, Mg_Em, Prof_Em, Tec_Em, Otro_Em, Dr_Es, Mg_Es, \
           Prof_Es, Tec_Es, Otro_Es, Dr_IPSFL, Mg_IPSFL, Prof_IPSFL, Tec_IPSFL, Otro_IPSFL

# Llamar a la función y almacenar 
Dr_IES, Mg_IES, Prof_IES, Tec_IES, Otro_IES, Dr_Em, Mg_Em, Prof_Em, Tec_Em, Otro_Em, Dr_Es, Mg_Es, \
Prof_Es, Tec_Es, Otro_Es, Dr_IPSFL, Mg_IPSFL, Prof_IPSFL, Tec_IPSFL, Otro_IPSFL = calculo_distribucion(df_tamano)

# Calcular el total de cada categoría
total_Es          = Dr_Es + Mg_Es + Prof_Es + Tec_Es + Otro_Es
total_IES         = Dr_IES + Mg_IES + Prof_IES + Tec_IES + Otro_IES
total_IPSFL       = Dr_IPSFL + Mg_IPSFL + Prof_IPSFL + Tec_IPSFL + Otro_IPSFL
total_Em          = Dr_Em + Mg_Em + Prof_Em + Tec_Em + Otro_Em

# Calcular el porcentaje de cada categoría
por_Dr_Es         = (Dr_Es / total_Es) * 100
por_Mg_Es         = (Mg_Es / total_Es) * 100
por_Prof_Es       = (Prof_Es / total_Es) * 100
por_Tec_Es        = (Tec_Es / total_Es) * 100
por_Otro_Es       = (Otro_Es / total_Es) * 100

por_Dr_IES        = (Dr_IES / total_IES) * 100
por_Mg_IES        = (Mg_IES / total_IES) * 100
por_Prof_IES      = (Prof_IES / total_IES) * 100
por_Tec_IES       = (Tec_IES / total_IES) * 100
por_Otro_IES      = (Otro_IES / total_IES) * 100

por_Dr_IPSFL      = (Dr_IPSFL / total_IPSFL) * 100
por_Mg_IPSFL      = (Mg_IPSFL / total_IPSFL) * 100
por_Prof_IPSFL    = (Prof_IPSFL / total_IPSFL) * 100
por_Tec_IPSFL     = (Tec_IPSFL / total_IPSFL) * 100
por_Otro_IPSFL    = (Otro_IPSFL / total_IPSFL) * 100

por_Dr_Em         = (Dr_Em / total_Em) * 100
por_Mg_Em         = (Mg_Em / total_Em) * 100
por_Prof_Em       = (Prof_Em / total_Em) * 100
por_Tec_Em        = (Tec_Em / total_Em) * 100
por_Otro_Em       = (Otro_Em / total_Em) * 100

# Mostrar los resultados
print('Doctores en Estado:                  {:.2f}%'.format(por_Dr_Es), ' Cantidad:   {:.2f} JCE'.format(Dr_Es))
print('Magister en Estado:                  {:.2f}%'.format(por_Mg_Es), ' Cantidad:   {:.2f} JCE'.format(Mg_Es))
print('Profesionales en Estado:             {:.2f}%'.format(por_Prof_Es), ' Cantidad:   {:.2f} JCE'.format(Prof_Es))
print('Técnicos/as en Estado:                {:.2f}%'.format(por_Tec_Es), ' Cantidad:   {:.2f} JCE'.format(Tec_Es))
print('Otros Profesionales en Estado:       {:.2f}%'.format(por_Otro_Es), ' Cantidad:   {:.2f} JCE'.format(Otro_Es))
print('                             Total Cantidad en Estado:  {:.2f} JCE\n'.format(total_Es))

print('Doctores en IES:                     {:.2f}%'.format(por_Dr_IES), ' Cantidad:  {:.2f} JCE'.format(Dr_IES))
print('Magister en IES:                     {:.2f}%'.format(por_Mg_IES), ' Cantidad:   {:.2f} JCE'.format(Mg_IES))
print('Profesionales en IES:                {:.2f}%'.format(por_Prof_IES), ' Cantidad:   {:.2f} JCE'.format(Prof_IES))
print('Técnicos/as en IES:                   {:.2f}%'.format(por_Tec_IES), ' Cantidad:    {:.2f} JCE'.format(Tec_IES))
print('Otros Profesionales en IES:           {:.2f}%'.format(por_Otro_IES), ' Cantidad:    {:.2f} JCE'.format(Otro_IES))
print('                                Total Cantidad en IES:  {:.2f} JCE\n'.format(total_IES))

print('Doctores en IPSFL:                   {:.2f}%'.format(por_Dr_IPSFL), ' Cantidad:   {:.2f} JCE'.format(Dr_IPSFL))
print('Magister en IPSFL:                   {:.2f}%'.format(por_Mg_IPSFL), ' Cantidad:   {:.2f} JCE'.format(Mg_IPSFL))
print('Profesionales en IPSFL:              {:.2f}%'.format(por_Prof_IPSFL), ' Cantidad:   {:.2f} JCE'.format(Prof_IPSFL))
print('Técnicos/as en IPSFL:                 {:.2f}%'.format(por_Tec_IPSFL), ' Cantidad:     {:.2f} JCE'.format(Tec_IPSFL))
print('Otros Profesionales en IPSFL:         {:.2f}%'.format(por_Otro_IPSFL), ' Cantidad:    {:.2f} JCE'.format(Otro_IPSFL))
print('                              Total Cantidad en IPSFL:   {:.2f} JCE\n'.format(total_IPSFL))

print('Doctores en Empresas:                 {:.2f}%'.format(por_Dr_Em), ' Cantidad:   {:.2f} JCE'.format(Dr_Em))
print('Magister en Empresas:                {:.2f}%'.format(por_Mg_Em), ' Cantidad:   {:.2f} JCE'.format(Mg_Em))
print('Profesionales en Empresas:           {:.2f}%'.format(por_Prof_Em), ' Cantidad:  {:.2f} JCE'.format(Prof_Em))
print('Técnicos/as en Empresas:              {:.2f}%'.format(por_Tec_Em), ' Cantidad:   {:.2f} JCE'.format(Tec_Em))
print('Otros Profesionales en Empresas:      {:.2f}%'.format(por_Otro_Em), '  Cantidad:   {:.2f} JCE'.format(Otro_Em))
print('                           Total Cantidad en Empresas:  {:.2f} JCE'.format(total_Em))           

Doctores en Estado:                  10.68%  Cantidad:   229.57 JCE
Magister en Estado:                  14.17%  Cantidad:   304.71 JCE
Profesionales en Estado:             29.80%  Cantidad:   640.88 JCE
Técnicos/as en Estado:                20.14%  Cantidad:   433.03 JCE
Otros Profesionales en Estado:       25.22%  Cantidad:   542.34 JCE
                             Total Cantidad en Estado:  2150.52 JCE

Doctores en IES:                     41.29%  Cantidad:  3849.45 JCE
Magister en IES:                     13.44%  Cantidad:   1253.06 JCE
Profesionales en IES:                34.54%  Cantidad:   3220.46 JCE
Técnicos/as en IES:                   6.47%  Cantidad:    603.07 JCE
Otros Profesionales en IES:           4.26%  Cantidad:    396.73 JCE
                                Total Cantidad en IES:  9322.78 JCE

Doctores en IPSFL:                   32.38%  Cantidad:   487.92 JCE
Magister en IPSFL:                   14.63%  Cantidad:   220.50 JCE
Profesionales en IPSFL:              44.4

<a id="subseccion-5-21"></a>

## 21. **[Porcentaje de empresas que ejecuta montos bajo la Ley I+D entre las que realizan I+D intramuro.](https://www.observa.minciencia.gob.cl/indicadores/investigacion-y-desarrollo-id/porcentaje-de-empresas-que-hacen-id-intramuro-que-certifican-su-gasto-bajo-la-ley-id)**

 * Variables utilizadas de la BD_Tamanho:
    * **factor_expansion**
    * **h8113:** Postuló y se acogió a este beneficio tributario
    * **c3020:** Total gasto intramuro en I+D de la empresa (3014+3019) en miles de pesos.

[Volver al índice](#indice)

In [16]:
def calculo_intramuro(df):
    No_EjecutaLey = df[(df['h8113'] == 0) & (df['c3020'] > 0)]['factor_expansion'].sum() # No Ejecuta ley y realizó gasto intramuro en la empresa.
    Si_EjecutaLey = df[(df['h8113'] == 1) & (df['c3020'] > 0)]['factor_expansion'].sum() # Ejecuta ley y realizó gasto intramuro en la empresa.
    return No_EjecutaLey, Si_EjecutaLey

# Llamar a la función y almacenar 
No_EjecutaLey, Si_EjecutaLey = calculo_intramuro(df_tamano)
    
# Calcular el total de cada categoría
total_resp = No_EjecutaLey + Si_EjecutaLey

# Calcular el porcentaje de cada categoría
por_si = (Si_EjecutaLey / total_resp) * 100
por_no = (No_EjecutaLey / total_resp) * 100

# Mostrar los resultados
print('No postuló:  {:.2f}%'.format(por_no), ' Cantidad:        {:.2f} JCE'.format(No_EjecutaLey))
print('Si postuló:  {:.2f}%'.format(por_si), ' Cantidad:        {:.2f} JCE'.format(Si_EjecutaLey))
print('                     Casos totales:   {:.2f} JCE'.format(total_resp))


No postuló:  85.87%  Cantidad:        721.80 JCE
Si postuló:  14.13%  Cantidad:        118.75 JCE
                     Casos totales:   840.55 JCE


<a id="subseccion-5-22"></a>

## 22. **[Porcentaje de investigadoras mujeres en países de la OCDE.](https://www.observa.minciencia.gob.cl/genero/comparacion-internacional/porcentaje-de-investigadoras-mujeres-en-paises-de-la-ocde)**

 * Variables utilizadas de la BD_Tamanho:
    * **factor_expansion**
    * **d4534:** Jornada Completa Equivalente de mujeres Investigadoras dedicadas a I+D, según nivel de titulación: Otros.
    * **d4524:** Jornada Completa Equivalente de Investigadores dedicados a I+D, según nivel de titulación: Otros. 

[Volver al índice](#indice)

In [17]:
def calculo_distribucion(df):
    # Multiplicación del factor de expansión por la cantidad y suma de filas
    num_mujeres  = (df['factor_expansion'] * df['d4534']).sum()
    num_personas = (df['factor_expansion'] * df['d4524']).sum()

    return num_mujeres, num_personas

# Llamar a la función y almacenar 
num_mujeres, num_personas = calculo_distribucion(df_tamano)

# División para obtener el resultado final
por_investigadoras = (num_mujeres / num_personas) * 100

# Imprimimos el resultado
print('Investigadoras mujeres: {:.4f}%'.format(por_investigadoras),' Cantidad:  {:.2f} Mujeres'.format(num_mujeres))

Investigadoras mujeres: 30.8076%  Cantidad:  137.50 Mujeres


<a id="subseccion-5-28"></a>

## 28. **[Gasto I+D extramuro según tipo de unidad demandante y oferente de la I+d.](https://www.observa.minciencia.gob.cl/indicadores/transferencia-de-conocimiento/distribucion-del-gasto-en-id-extramuro-segun-sector-demandante-y-oferente)**

 * Pendiente (extramuro)

[Volver al índice](#indice)

<a id="subseccion-5-30"></a>

## 30. **[Porcentaje del personal dedicado a I+D que es mujer respecto al total de cada macrozona.](https://www.observa.minciencia.gob.cl/genero/regiones-y-macrozonas/porcentaje-de-mujeres-dedicadas-a-id-respecto-al-total-segun-macrozona)**

 * Variables utilizadas de la BD_Tamanho:
    * **factor_expansion**
    * **macrozona**
    * **d4435:** Total personal mujeres en Jornada Completa Equivalente dedicadas a I+D, según nivel de titulación formal.
    * **d4425:** Total personal en Jornada Completa Equivalente dedicado a I+D, según nivel de titulación formal.  

[Volver al índice](#indice)

In [18]:
def calculo_distribucion(df):
    # mujeres
    mujeres_norte          = (df[df['macrozona'] == 1]['d4435'] * df[df['macrozona'] == 1]['factor_expansion']).sum() 
    mujeres_centro         = (df[df['macrozona'] == 2]['d4435'] * df[df['macrozona'] == 2]['factor_expansion']).sum() 
    mujeres_centroSur      = (df[df['macrozona'] == 3]['d4435'] * df[df['macrozona'] == 3]['factor_expansion']).sum()    
    mujeres_sur            = (df[df['macrozona'] == 4]['d4435'] * df[df['macrozona'] == 4]['factor_expansion']).sum() 
    mujeres_austral        = (df[df['macrozona'] == 5]['d4435'] * df[df['macrozona'] == 5]['factor_expansion']).sum() 
    mujeres_metropolitana  = (df[df['macrozona'] == 6]['d4435'] * df[df['macrozona'] == 6]['factor_expansion']).sum()   
    # personas
    personas_norte         = (df[df['macrozona'] == 1]['d4425'] * df[df['macrozona'] == 1]['factor_expansion']).sum() 
    personas_centro        = (df[df['macrozona'] == 2]['d4425'] * df[df['macrozona'] == 2]['factor_expansion']).sum() 
    personas_centroSur     = (df[df['macrozona'] == 3]['d4425'] * df[df['macrozona'] == 3]['factor_expansion']).sum()    
    personas_sur           = (df[df['macrozona'] == 4]['d4425'] * df[df['macrozona'] == 4]['factor_expansion']).sum() 
    personas_austral       = (df[df['macrozona'] == 5]['d4425'] * df[df['macrozona'] == 5]['factor_expansion']).sum() 
    personas_metropolitana = (df[df['macrozona'] == 6]['d4425'] * df[df['macrozona'] == 6]['factor_expansion']).sum()

    return mujeres_norte, mujeres_centro, mujeres_centroSur, \
           mujeres_sur, mujeres_austral, mujeres_metropolitana, \
           personas_norte, personas_centro, personas_centroSur, \
           personas_sur, personas_austral, personas_metropolitana   

# Llamar a la función y almacenar 
mujeres_norte, mujeres_centro, mujeres_centroSur, \
mujeres_sur, mujeres_austral, mujeres_metropolitana, \
personas_norte, personas_centro, personas_centroSur, \
personas_sur, personas_austral, personas_metropolitana = calculo_distribucion(df_tamano)

#crear cantidades hombres
hombres_norte         = personas_norte - mujeres_norte
hombres_centro        = personas_centro - mujeres_centro 
hombres_centroSur     = personas_centroSur - mujeres_centroSur
hombres_sur           = personas_sur - mujeres_sur
hombres_austral       = personas_austral - mujeres_austral
hombres_metropolitana = personas_metropolitana - mujeres_metropolitana

#crear porcentajes
por_mujeres_macro_norte         = (mujeres_norte / personas_norte) * 100
por_mujeres_macro_centro        = (mujeres_centro / personas_centro) * 100
por_mujeres_macro_centro_sur    = (mujeres_centroSur / personas_centroSur) * 100
por_mujeres_macro_sur           = (mujeres_sur / personas_sur) * 100
por_mujeres_macro_austral       = (mujeres_austral / personas_austral) * 100
por_mujeres_macro_metropolitana = (mujeres_metropolitana / personas_metropolitana) * 100

#mostrar resultados
print('Mujeres dedicadas a I+D Macrozona Norte:                {:.2f} %'.format(por_mujeres_macro_norte), ' Cantidad:   {:.2f} JCE'.format(mujeres_norte))
print('Mujeres dedicadas a I+D Macrozona Centro:               {:.2f} %'.format(por_mujeres_macro_centro), ' Cantidad:   {:.2f} JCE'.format(mujeres_centro))
print('Mujeres dedicadas a I+D Macrozona Centro Sur:           {:.2f} %'.format(por_mujeres_macro_centro_sur), ' Cantidad:   {:.2f} JCE'.format(mujeres_centroSur))
print('Mujeres dedicadas a I+D Macrozona Sur:                  {:.2f} %'.format(por_mujeres_macro_sur), ' Cantidad:   {:.2f} JCE'.format(mujeres_sur))
print('Mujeres dedicadas a I+D Macrozona Austral:              {:.2f} %'.format(por_mujeres_macro_austral), ' Cantidad:   {:.2f} JCE'.format(mujeres_austral))
print('Mujeres dedicadas a I+D Macrozona Mertropolitana:       {:.2f} %'.format(por_mujeres_macro_metropolitana), ' Cantidad:   {:.2f} JCE\n'.format(mujeres_metropolitana))

print('Hombres dedicadas a I+D Macrozona Norte:                         Cantidad:   {:.2f} JCE'.format(hombres_norte))
print('Hombres dedicadas a I+D Macrozona Centro:                        Cantidad:   {:.2f} JCE'.format(hombres_centro))
print('Hombres dedicadas a I+D Macrozona Centro Sur:                    Cantidad:   {:.2f} JCE'.format(hombres_centroSur))
print('Hombres dedicadas a I+D Macrozona Sur:                           Cantidad:   {:.2f} JCE'.format(hombres_sur))
print('Hombres dedicadas a I+D Macrozona Austral:                       Cantidad:   {:.2f} JCE'.format(hombres_austral))
print('Hombres dedicadas a I+D Macrozona Mertropolitana:                Cantidad:   {:.2f} JCE'.format(hombres_metropolitana))

Mujeres dedicadas a I+D Macrozona Norte:                26.24 %  Cantidad:   234.76 JCE
Mujeres dedicadas a I+D Macrozona Centro:               36.40 %  Cantidad:   704.23 JCE
Mujeres dedicadas a I+D Macrozona Centro Sur:           44.21 %  Cantidad:   1242.25 JCE
Mujeres dedicadas a I+D Macrozona Sur:                  34.84 %  Cantidad:   396.91 JCE
Mujeres dedicadas a I+D Macrozona Austral:              42.69 %  Cantidad:   87.81 JCE
Mujeres dedicadas a I+D Macrozona Mertropolitana:       37.43 %  Cantidad:   4933.69 JCE

Hombres dedicadas a I+D Macrozona Norte:                         Cantidad:   659.77 JCE
Hombres dedicadas a I+D Macrozona Centro:                        Cantidad:   1230.54 JCE
Hombres dedicadas a I+D Macrozona Centro Sur:                    Cantidad:   1567.94 JCE
Hombres dedicadas a I+D Macrozona Sur:                           Cantidad:   742.23 JCE
Hombres dedicadas a I+D Macrozona Austral:                       Cantidad:   117.87 JCE
Hombres dedicadas a I+D Macr

<a id="subseccion-5-31"></a>

## 31. **[Distribución del personal dedicado en I+D según su sexo por cada sector de ejecución.](https://www.observa.minciencia.gob.cl/genero/investigacion-y-desarrollo-(i+d)/porcentaje-de-mujeres-que-se-dedican-a-id-respecto-al-total-por-sector-de-ejecucion)**

 * Sector de ejecución = unidad declarante
 * Variables utilizadas de la BD_Tamanho:
    * **factor_expansion**
    * **d4435:** Total personal mujeres en Jornada Completa Equivalente dedicadas a I+D, según nivel de titulación formal.
    * **d4425:** Total personal en Jornada Completa Equivalente dedicado a I+D, según nivel de titulación formal.

[Volver al índice](#indice)

In [19]:
def calculo_distribucion(df):
    # mujeres
    mujeres_Es    = (df[df['unidad_declarante'] == 1]['d4435'] * df[df['unidad_declarante'] == 1]['factor_expansion']).sum()
    mujeres_IES   = (df[df['unidad_declarante'] == 2]['d4435'] * df[df['unidad_declarante'] == 2]['factor_expansion']).sum()
    mujeres_IPSFL = (df[df['unidad_declarante'] == 3]['d4435'] * df[df['unidad_declarante'] == 3]['factor_expansion']).sum()
    mujeres_Em    = (df[df['unidad_declarante'] == 4]['d4435'] * df[df['unidad_declarante'] == 4]['factor_expansion']).sum()
    mujeres_total = (df['d4435'] * df['factor_expansion']).sum() # sin filtro unidad_declarante

    # personal
    personal_Es    = (df[df['unidad_declarante'] == 1]['d4425'] * df[df['unidad_declarante'] == 1]['factor_expansion']).sum()
    personal_IES   = (df[df['unidad_declarante'] == 2]['d4425'] * df[df['unidad_declarante'] == 2]['factor_expansion']).sum()
    personal_IPSFL = (df[df['unidad_declarante'] == 3]['d4425'] * df[df['unidad_declarante'] == 3]['factor_expansion']).sum()
    personal_Em    = (df[df['unidad_declarante'] == 4]['d4425'] * df[df['unidad_declarante'] == 4]['factor_expansion']).sum()
    personal_total = (df['d4425'] * df['factor_expansion']).sum() # sin filtro unidad_declarante

    return mujeres_Es, mujeres_IES, mujeres_IPSFL, mujeres_Em, mujeres_total, \
           personal_Es, personal_IES, personal_IPSFL, personal_Em, personal_total   

# Llamar a la función y almacenar 
mujeres_Es, mujeres_IES, mujeres_IPSFL, mujeres_Em, mujeres_total, \
personal_Es, personal_IES, personal_IPSFL, personal_Em, personal_total = calculo_distribucion(df_tamano)

# Calcular el total de hombres de cada categoría
hombres_Es      = personal_Es - mujeres_Es
hombres_IES     = personal_IES - mujeres_IES
hombres_IPSFL   = personal_IPSFL - mujeres_IPSFL
hombres_Em      = personal_Em - mujeres_Em
hombres_total   = personal_total - mujeres_total

# Calcular el porcentaje de mujeres en cada categoría
por_mujeres_Es    = (mujeres_Es / personal_Es) * 100
por_mujeres_IES   = (mujeres_IES / personal_IES) * 100
por_mujeres_IPSFL = (mujeres_IPSFL / personal_IPSFL) * 100
por_mujeres_Em    = (mujeres_Em / personal_Em) * 100
por_mujeres_total = (mujeres_total / personal_total) * 100

# Calcular el porcentaje de hombres en cada categoría
por_hombres_Es    = (hombres_Es / personal_Es) * 100
por_hombres_IES   = (hombres_IES / personal_IES) * 100
por_hombres_IPSFL = (hombres_IPSFL / personal_IPSFL) * 100
por_hombres_Em    = (hombres_Em / personal_Em) * 100
por_hombres_total = (hombres_total / personal_total) * 100

# Mostrar los resultados
print('Estado Mujeres:          {:.2f}%'.format(por_mujeres_Es), ' Cantidad:   {:.2f} JCE'.format(mujeres_Es))
print('Estado Hombres:          {:.2f}%'.format(por_hombres_Es), ' Cantidad:   {:.2f} JCE\n'.format(hombres_Es))

print('Universidad Mujeres:     {:.2f}%'.format(por_mujeres_IES), ' Cantidad:   {:.2f} JCE'.format(mujeres_IES))
print('Universidad Hombres:     {:.2f}%'.format(por_hombres_IES), ' Cantidad:   {:.2f} JCE\n'.format(hombres_IES))

print('IPSFL Mujeres:           {:.2f}%'.format(por_mujeres_IPSFL), ' Cantidad:   {:.2f} JCE'.format(mujeres_IPSFL))
print('IPSFL Hombres:           {:.2f}%'.format(por_hombres_IPSFL), ' Cantidad:   {:.2f} JCE\n'.format(hombres_IPSFL))

print('Empresa Mujeres:         {:.2f}%'.format(por_mujeres_Em), ' Cantidad:   {:.2f} JCE'.format(mujeres_Em))
print('Empresa Hombres:         {:.2f}%'.format(por_hombres_Em), ' Cantidad:   {:.2f} JCE\n'.format(hombres_Em))

print('Total general Mujeres:   {:.2f}%'.format(por_mujeres_total), ' Cantidad:   {:.2f} JCE'.format(mujeres_total))
print('Total general Hombres:   {:.2f}%'.format(por_hombres_total), ' Cantidad:   {:.2f} JCE\n'.format(hombres_total))

print('Excel')
print('Total:       {:.2f}'.format(personal_total))

Estado Mujeres:          37.42%  Cantidad:   804.63 JCE
Estado Hombres:          62.58%  Cantidad:   1345.89 JCE

Universidad Mujeres:     40.41%  Cantidad:   3767.56 JCE
Universidad Hombres:     59.59%  Cantidad:   5555.21 JCE

IPSFL Mujeres:           46.80%  Cantidad:   705.33 JCE
IPSFL Hombres:           53.20%  Cantidad:   801.65 JCE

Empresa Mujeres:         32.32%  Cantidad:   2322.14 JCE
Empresa Hombres:         67.68%  Cantidad:   4862.13 JCE

Total general Mujeres:   37.69%  Cantidad:   7599.66 JCE
Total general Hombres:   62.31%  Cantidad:   12564.88 JCE

Excel
Total:       20164.54


<a id="subseccion-5-35"></a>

## 35. **[Distribución por sexo de las jornadas completas equivalentes (JCE) trabajadas en I+D por investigadores según sector de ejecución.](https://www.observa.minciencia.gob.cl/genero/investigacion-y-desarrollo-(i+d)/porcentaje-de-personas-investigadoras-que-son-mujeres-por-sector-de-ejecucion-de-la-id)**

 * Sector de ejecución = unidad declarante
 * Variables utilizadas de la BD_Tamanho:
    * **factor_expansion**
 * mujeres
    * **d4330:** Jornada Completa Equivalente de Mujeres dedicadas a I+D, según ocupación: Investigadores.
    * **d4331:** Jornada Completa Equivalente de Mujeres dedicadas a I+D, según ocupación: Técnicos y Personal de apoyo.
    * **d4332:** Jornada Completa Equivalente de Mujeres dedicadas a I+D, según ocupación: Otro Personal de Apoyo.
    * **d4333:** Total Jornada Completa Equivalente de Mujeres dedicadas a I+D, según ocupación.
 * personal
    * **d4320:** Jornada Completa Equivalente de personal dedicado a I+D, según ocupación: Investigadores. 
    * **d4321:** Jornada Completa Equivalente de personal dedicado a I+D, según  ocupación: Técnicos y Personal de Apoyo.
    * **d4322:** Jornada Completa Equivalente de personal dedicado a I+D, según  ocupación: Otro Personal de Apoyo.
    * **d4323:** Total personal en Jornada Completa Equivalente dedicado a I+D, según ocupación. 

[Volver al índice](#indice)

In [20]:
def calculo_distribucion_mujeres(df):
    # Estado
    Inv_mujeres_Es            = (df[df['unidad_declarante'] == 1]['d4330'] * df[df['unidad_declarante'] == 1]['factor_expansion']).sum()
    TecYPer_mujeres_Es        = (df[df['unidad_declarante'] == 1]['d4331'] * df[df['unidad_declarante'] == 1]['factor_expansion']).sum()
    OtroPer_mujeres_Es        = (df[df['unidad_declarante'] == 1]['d4332'] * df[df['unidad_declarante'] == 1]['factor_expansion']).sum()

    # Instituciones de Educación Superior (IES)
    Inv_mujeres_IES           = (df[df['unidad_declarante'] == 2]['d4330'] * df[df['unidad_declarante'] == 2]['factor_expansion']).sum()
    TecYPer_mujeres_IES       = (df[df['unidad_declarante'] == 2]['d4331'] * df[df['unidad_declarante'] == 2]['factor_expansion']).sum()
    OtroPer_mujeres_IES       = (df[df['unidad_declarante'] == 2]['d4332'] * df[df['unidad_declarante'] == 2]['factor_expansion']).sum()

    # Institución privada sin fines de lucro (IPSFL)
    Inv_mujeres_IPSFL         = (df[df['unidad_declarante'] == 3]['d4330'] * df[df['unidad_declarante'] == 3]['factor_expansion']).sum()
    TecYPer_mujeres_IPSFL     = (df[df['unidad_declarante'] == 3]['d4331'] * df[df['unidad_declarante'] == 3]['factor_expansion']).sum()
    OtroPer_mujeres_IPSFL     = (df[df['unidad_declarante'] == 3]['d4332'] * df[df['unidad_declarante'] == 3]['factor_expansion']).sum()

    # Empresas
    Inv_mujeres_Em            = (df[df['unidad_declarante'] == 4]['d4330'] * df[df['unidad_declarante'] == 4]['factor_expansion']).sum()
    TecYPer_mujeres_Em        = (df[df['unidad_declarante'] == 4]['d4331'] * df[df['unidad_declarante'] == 4]['factor_expansion']).sum()
    OtroPer_mujeres_Em        = (df[df['unidad_declarante'] == 4]['d4332'] * df[df['unidad_declarante'] == 4]['factor_expansion']).sum()

    #total mujeres
    General_mujeres           = (df['d4333'] * df['factor_expansion']).sum()

    return Inv_mujeres_Es, TecYPer_mujeres_Es, OtroPer_mujeres_Es, Inv_mujeres_IES, \
           TecYPer_mujeres_IES, OtroPer_mujeres_IES, Inv_mujeres_IPSFL, TecYPer_mujeres_IPSFL, \
           OtroPer_mujeres_IPSFL, Inv_mujeres_Em, TecYPer_mujeres_Em, OtroPer_mujeres_Em, General_mujeres

def calculo_distribucion_personal(df):
    # Estado
    Inv_personal_Es           = (df[df['unidad_declarante'] == 1]['d4320'] * df[df['unidad_declarante'] == 1]['factor_expansion']).sum()
    TecYPer_personal_Es       = (df[df['unidad_declarante'] == 1]['d4321'] * df[df['unidad_declarante'] == 1]['factor_expansion']).sum()
    OtroPer_personal_Es       = (df[df['unidad_declarante'] == 1]['d4322'] * df[df['unidad_declarante'] == 1]['factor_expansion']).sum()

    # Instituciones de Educación Superior (IES)
    Inv_personal_IES          = (df[df['unidad_declarante'] == 2]['d4320'] * df[df['unidad_declarante'] == 2]['factor_expansion']).sum()
    TecYPer_personal_IES      = (df[df['unidad_declarante'] == 2]['d4321'] * df[df['unidad_declarante'] == 2]['factor_expansion']).sum()
    OtroPer_personal_IES      = (df[df['unidad_declarante'] == 2]['d4322'] * df[df['unidad_declarante'] == 2]['factor_expansion']).sum()

    # Institución privada sin fines de lucro (IPSFL)
    Inv_personal_IPSFL        = (df[df['unidad_declarante'] == 3]['d4320'] * df[df['unidad_declarante'] == 3]['factor_expansion']).sum()
    TecYPer_personal_IPSFL    = (df[df['unidad_declarante'] == 3]['d4321'] * df[df['unidad_declarante'] == 3]['factor_expansion']).sum()
    OtroPer_personal_IPSFL    = (df[df['unidad_declarante'] == 3]['d4322'] * df[df['unidad_declarante'] == 3]['factor_expansion']).sum()

    # Empresas
    Inv_personal_Em           = (df[df['unidad_declarante'] == 4]['d4320'] * df[df['unidad_declarante'] == 4]['factor_expansion']).sum()
    TecYPer_personal_Em       = (df[df['unidad_declarante'] == 4]['d4321'] * df[df['unidad_declarante'] == 4]['factor_expansion']).sum()
    OtroPer_personal_Em       = (df[df['unidad_declarante'] == 4]['d4322'] * df[df['unidad_declarante'] == 4]['factor_expansion']).sum()

    #total personal
    General_personal          = (df['d4323'] * df['factor_expansion']).sum()

    return Inv_personal_Es, TecYPer_personal_Es, OtroPer_personal_Es, Inv_personal_IES, \
           TecYPer_personal_IES, OtroPer_personal_IES, Inv_personal_IPSFL, TecYPer_personal_IPSFL, \
           OtroPer_personal_IPSFL, Inv_personal_Em, TecYPer_personal_Em, OtroPer_personal_Em, General_personal

# Llamar a la función y almacenar 
Inv_mujeres_Es, TecYPer_mujeres_Es, OtroPer_mujeres_Es, Inv_mujeres_IES, \
TecYPer_mujeres_IES, OtroPer_mujeres_IES, Inv_mujeres_IPSFL, TecYPer_mujeres_IPSFL, \
OtroPer_mujeres_IPSFL, Inv_mujeres_Em, TecYPer_mujeres_Em, OtroPer_mujeres_Em, General_mujeres = calculo_distribucion_mujeres(df_tamano)

Inv_personal_Es, TecYPer_personal_Es, OtroPer_personal_Es, Inv_personal_IES, \
TecYPer_personal_IES, OtroPer_personal_IES, Inv_personal_IPSFL, TecYPer_personal_IPSFL, \
OtroPer_personal_IPSFL, Inv_personal_Em, TecYPer_personal_Em, OtroPer_personal_Em, General_personal = calculo_distribucion_personal(df_tamano)

# Calcular el total de mujeres de cada categoría
total_mujeres_Es      = Inv_mujeres_Es + TecYPer_mujeres_Es + OtroPer_mujeres_Es
total_mujeres_IES     = Inv_mujeres_IES + TecYPer_mujeres_IES + OtroPer_mujeres_IES 
total_mujeres_IPSFL   = Inv_mujeres_IPSFL + TecYPer_mujeres_IPSFL + OtroPer_mujeres_IPSFL 
total_mujeres_Em      = Inv_mujeres_Em + TecYPer_mujeres_Em + OtroPer_mujeres_Em 

# Calcular el total de personal de cada categoría
total_personal_Es     = Inv_personal_Es + TecYPer_personal_Es + OtroPer_personal_Es 
total_personal_IES    = Inv_personal_IES + TecYPer_personal_IES + OtroPer_personal_IES 
total_personal_IPSFL  = Inv_personal_IPSFL + TecYPer_personal_IPSFL + OtroPer_personal_IPSFL
total_personal_Em     = Inv_personal_Em + TecYPer_personal_Em + OtroPer_personal_Em 

# Calcular trabajadores hombres por cada categoría
total_hombres_Es      = total_personal_Es - total_mujeres_Es
total_hombres_IES     = total_personal_IES - total_mujeres_IES
total_hombres_IPSFL   = total_personal_IPSFL - total_mujeres_IPSFL
total_hombres_Em      = total_personal_Em - total_mujeres_Em
General_hombres       = General_personal - General_mujeres

# Calcular el porcentaje de mujeres en cada categoría
por_mujeres_Es        = (total_mujeres_Es / total_personal_Es) * 100
por_mujeres_IES       = (total_mujeres_IES / total_personal_IES) * 100
por_mujeres_IPSFL     = (total_mujeres_IPSFL / total_personal_IPSFL) * 100
por_mujeres_Em        = (total_mujeres_Em / total_personal_Em) * 100
por_mujeres_general   = (General_mujeres / General_personal) * 100

# Calcular el porcentaje de hombres en cada categoría
por_hombres_Es        = (total_hombres_Es / total_personal_Es) * 100
por_hombres_IES       = (total_hombres_IES / total_personal_IES) * 100
por_hombres_IPSFL     = (total_hombres_IPSFL / total_personal_IPSFL) * 100
por_hombres_Em        = (total_hombres_Em / total_personal_Em) * 100
por_hombres_general   = (General_hombres / General_personal) * 100

# Mostrar los resultados
print('Estado Mujeres:          {:.2f}%'.format(por_mujeres_Es), ' Cantidad:   {:.2f} JCE'.format(total_mujeres_Es))
print('Estado Hombres:          {:.2f}%'.format(por_hombres_Es), ' Cantidad:   {:.2f} JCE\n'.format(total_hombres_Es))

print('Universidad Mujeres:     {:.2f}%'.format(por_mujeres_IES), ' Cantidad:   {:.2f} JCE'.format(total_mujeres_IES))
print('Universidad Hombres:     {:.2f}%'.format(por_hombres_IES), ' Cantidad:   {:.2f} JCE\n'.format(total_hombres_IES))

print('IPSFL Mujeres:           {:.2f}%'.format(por_mujeres_IPSFL), ' Cantidad:   {:.2f} JCE'.format(total_mujeres_IPSFL))
print('IPSFL Hombres:           {:.2f}%'.format(por_hombres_IPSFL), ' Cantidad:   {:.2f} JCE\n'.format(total_hombres_IPSFL))

print('Empresa Mujeres:         {:.2f}%'.format(por_mujeres_Em), ' Cantidad:   {:.2f} JCE'.format(total_mujeres_Em))
print('Empresa Hombres:         {:.2f}%'.format(por_hombres_Em), ' Cantidad:   {:.2f} JCE\n'.format(total_hombres_Em))

print('Total general Mujeres:   {:.2f}%'.format(por_mujeres_general), ' Cantidad:   {:.2f} JCE'.format(General_mujeres))
print('Total general Hombres:   {:.2f}%'.format(por_hombres_general), ' Cantidad:   {:.2f} JCE'.format(General_hombres))

Estado Mujeres:          37.42%  Cantidad:   804.63 JCE
Estado Hombres:          62.58%  Cantidad:   1345.89 JCE

Universidad Mujeres:     40.41%  Cantidad:   3767.56 JCE
Universidad Hombres:     59.59%  Cantidad:   5555.21 JCE

IPSFL Mujeres:           46.80%  Cantidad:   705.33 JCE
IPSFL Hombres:           53.20%  Cantidad:   801.65 JCE

Empresa Mujeres:         32.32%  Cantidad:   2322.14 JCE
Empresa Hombres:         67.68%  Cantidad:   4862.13 JCE

Total general Mujeres:   37.69%  Cantidad:   7599.66 JCE
Total general Hombres:   62.31%  Cantidad:   12564.88 JCE


<a id="subseccion-5-37"></a>

## 37. **[Porcentaje de investigadores(as) que son mujeres en empresas beneficiadas por la Ley I+D.](https://www.observa.minciencia.gob.cl/genero/programas-publicos/porcentaje-de-personas-investigando-id-que-son-mujeres-en-empresas-beneficiadas-por-la-ley-id)**

 * Variables utilizadas de la BD_Tamanho:
    * **factor_expansion**
    * **d4330:** Jornada Completa Equivalente de Mujeres dedicadas a I+D, según ocupación: Investigadores.
    * **d4320:** Jornada Completa Equivalente de personal dedicado a I+D, según ocupación: Investigadores.
    * **h8113:** Postuló y se acogió a este beneficio tributario.
    * **c3020:** Total gasto intramuro en I+D de la empresa (3014+3019) en miles de pesos.
    * **unidad declarante** = 4 (Empresas)

[Volver al índice](#indice)

In [21]:
def calculo_distribucion(df):
    # Calcular investigadores que ejecutaron montos bajo la Ley I+D
    filtro_si_EjecutaLey = df[(df['h8113'] == 1) & (df['unidad_declarante'] == 4)]
    inv_mujeres_SiLey    = (filtro_si_EjecutaLey['d4330'] * filtro_si_EjecutaLey['factor_expansion']).sum()
    inv_personal_SiLey   = (filtro_si_EjecutaLey['d4320'] * filtro_si_EjecutaLey['factor_expansion']).sum()
    
    # Calcular investigadores que NO ejecutaron montos bajo la Ley I+D
    filtro_no_EjecutaLey = df[(df['h8113'] == 0) & (df['unidad_declarante'] == 4)]
    inv_mujeres_NoLey    = (filtro_no_EjecutaLey['d4330'] * filtro_no_EjecutaLey['factor_expansion']).sum()
    inv_personal_NoLey   = (filtro_no_EjecutaLey['d4320'] * filtro_no_EjecutaLey['factor_expansion']).sum()

    # Calcular empresas que ejecutaron I+D
    filtro_empresa       = df[(df['c3020'] > 0) & (df['unidad_declarante'] == 4)]
    inv_mujeres_total    = (filtro_empresa['d4330'] * filtro_empresa['factor_expansion']).sum()
    inv_personal_total   = (filtro_empresa['d4320'] * filtro_empresa['factor_expansion']).sum()
    
    return inv_mujeres_SiLey, inv_personal_SiLey, inv_mujeres_NoLey, \
           inv_personal_NoLey, inv_mujeres_total, inv_personal_total

# Llamar a la función y almacenar 
inv_mujeres_SiLey, inv_personal_SiLey, inv_mujeres_NoLey, \
inv_personal_NoLey, inv_mujeres_total, inv_personal_total = calculo_distribucion(df_tamano)

# Calcular trabajadores hombres por cada categoría
inv_hombres_SiLey = inv_personal_SiLey - inv_mujeres_SiLey
inv_hombres_NoLey = inv_personal_NoLey - inv_mujeres_NoLey
inv_hombres_total = inv_personal_total - inv_mujeres_total

# Calcular el porcentaje en cada categoría
por_inv_mujeres_SiLey   = (inv_mujeres_SiLey / inv_personal_SiLey) * 100
por_inv_mujeres_NoLey   = (inv_mujeres_NoLey / inv_personal_NoLey) * 100
por_inv_mujeres_total   = (inv_mujeres_total / inv_personal_total) * 100
por_inv_hombres_SiLey   = (inv_hombres_SiLey / inv_personal_SiLey) * 100
por_inv_hombres_NoLey   = (inv_hombres_NoLey / inv_personal_NoLey) * 100
por_inv_hombres_total   = (inv_hombres_total / inv_personal_total) * 100


# Mostrar los resultados
print('Empresas que ejecutaron montos bajo la Ley I+D')
print('Mujeres: {:.2f}%'.format(por_inv_mujeres_SiLey), ' Cantidad: {:.2f} JCE'.format(inv_mujeres_SiLey))
print('Hombres: {:.2f}%'.format(por_inv_hombres_SiLey), ' Cantidad: {:.2f} JCE\n'.format(inv_hombres_SiLey))

print('Empresas que NO ejecutaron montos bajo la Ley I+D')
print('Mujeres: {:.2f}%'.format(por_inv_mujeres_NoLey), ' Cantidad:  {:.2f} JCE'.format(inv_mujeres_NoLey))
print('Hombres: {:.2f}%'.format(por_inv_hombres_NoLey), ' Cantidad: {:.2f} JCE\n'.format(inv_hombres_NoLey))

print('Total de empresas que ejecutaron I+D')
print('Mujeres: {:.2f}%'.format(por_inv_mujeres_total), ' Cantidad: {:.2f} JCE'.format(inv_mujeres_total))
print('Hombres: {:.2f}%'.format(por_inv_hombres_total), ' Cantidad: {:.2f} JCE'.format(inv_hombres_total))


Empresas que ejecutaron montos bajo la Ley I+D
Mujeres: 34.12%  Cantidad: 193.13 JCE
Hombres: 65.88%  Cantidad: 372.89 JCE

Empresas que NO ejecutaron montos bajo la Ley I+D
Mujeres: 31.42%  Cantidad:  624.92 JCE
Hombres: 68.58%  Cantidad: 1364.18 JCE

Total de empresas que ejecutaron I+D
Mujeres: 27.72%  Cantidad: 1263.00 JCE
Hombres: 72.28%  Cantidad: 3292.81 JCE


<a id="subseccion-5-38"></a>

## 38. **[Porcentaje de personal en I+D que son mujeres en empresas beneficiadas por la Ley I+D.](https://www.observa.minciencia.gob.cl/genero/programas-publicos/porcentaje-de-personal-en-id-que-son-mujeres-en-empresas-beneficiadas-por-la-ley-id)**

 * Variables utilizadas de la BD_Tamanho:
    * **factor_expansion**
    * **d4333:** Total Jornada Completa Equivalente de Mujeres dedicadas a I+D, según ocupación.
    * **d4323:** Total personal en Jornada Completa Equivalente dedicado a I+D, según ocupación. 
    * **h8113:** Postuló y se acogió a este beneficio tributario.
    * **c3020:** Total gasto intramuro en I+D de la empresa (3014+3019) en miles de pesos.
    * **unidad declarante** = 4 (Empresas) 

[Volver al índice](#indice)

In [22]:
def calculo_distribucion(df):
    # Calcular personal que ejecutaron montos bajo la Ley I+D
    filtro_si_EjecutaLey = df[(df['h8113'] == 1) & (df['unidad_declarante'] == 4)]
    per_mujeres_SiLey    = (filtro_si_EjecutaLey['d4333'] * filtro_si_EjecutaLey['factor_expansion']).sum()
    per_personal_SiLey   = (filtro_si_EjecutaLey['d4323'] * filtro_si_EjecutaLey['factor_expansion']).sum()
    
    # Calcular personal que NO ejecutaron montos bajo la Ley I+D
    filtro_no_EjecutaLey = df[(df['h8113'] == 0) & (df['unidad_declarante'] == 4)]
    per_mujeres_NoLey    = (filtro_no_EjecutaLey['d4333'] * filtro_no_EjecutaLey['factor_expansion']).sum()
    per_personal_NoLey   = (filtro_no_EjecutaLey['d4323'] * filtro_no_EjecutaLey['factor_expansion']).sum()

    # Calcular empresas que ejecutaron I+D
    filtro_empresa       = df[(df['c3020'] > 0) & (df['unidad_declarante'] == 4)]
    per_mujeres_total    = (filtro_empresa['d4333'] * filtro_empresa['factor_expansion']).sum()
    per_personal_total   = (filtro_empresa['d4323'] * filtro_empresa['factor_expansion']).sum()
    
    return per_mujeres_SiLey, per_personal_SiLey, per_mujeres_NoLey, \
           per_personal_NoLey, per_mujeres_total, per_personal_total

# Llamar a la función y almacenar 
per_mujeres_SiLey, per_personal_SiLey, per_mujeres_NoLey, \
per_personal_NoLey, per_mujeres_total, per_personal_total = calculo_distribucion(df_tamano)

# Calcular trabajadores hombres por cada categoría
per_hombres_SiLey = per_personal_SiLey - per_mujeres_SiLey
per_hombres_NoLey = per_personal_NoLey - per_mujeres_NoLey
per_hombres_total = per_personal_total - per_mujeres_total

# Calcular el porcentaje en cada categoría
por_per_mujeres_SiLey   = (per_mujeres_SiLey / per_personal_SiLey) * 100
por_per_mujeres_NoLey   = (per_mujeres_NoLey / per_personal_NoLey) * 100
por_per_mujeres_total   = (per_mujeres_total / per_personal_total) * 100
por_per_hombres_SiLey   = (per_hombres_SiLey / per_personal_SiLey) * 100
por_per_hombres_NoLey   = (per_hombres_NoLey / per_personal_NoLey) * 100
por_per_hombres_total   = (per_hombres_total / per_personal_total) * 100

# Mostrar los resultados
print('Empresas que ejecutaron montos bajo la Ley I+D')
print('Mujeres: {:.2f}%'.format(por_per_mujeres_SiLey), ' Cantidad: {:.2f} JCE'.format(per_mujeres_SiLey))
print('Hombres: {:.2f}%'.format(por_per_hombres_SiLey), ' Cantidad: {:.2f} JCE\n'.format(per_hombres_SiLey))

print('Empresas que NO ejecutaron montos bajo la Ley I+D')
print('Mujeres: {:.2f}%'.format(por_per_mujeres_NoLey), ' Cantidad: {:.2f} JCE'.format(per_mujeres_NoLey))
print('Hombres: {:.2f}%'.format(por_per_hombres_NoLey), ' Cantidad: {:.2f} JCE\n'.format(per_hombres_NoLey))

print('Total de empresas que ejecutaron I+D')
print('Mujeres: {:.2f}%'.format(por_per_mujeres_total), ' Cantidad: {:.2f} JCE'.format(per_mujeres_total))
print('Hombres: {:.2f}%'.format(por_per_hombres_total), ' Cantidad: {:.2f} JCE'.format(per_hombres_total))

Empresas que ejecutaron montos bajo la Ley I+D
Mujeres: 33.09%  Cantidad: 304.35 JCE
Hombres: 66.91%  Cantidad: 615.38 JCE

Empresas que NO ejecutaron montos bajo la Ley I+D
Mujeres: 32.88%  Cantidad: 1046.24 JCE
Hombres: 67.12%  Cantidad: 2136.01 JCE

Total de empresas que ejecutaron I+D
Mujeres: 32.32%  Cantidad: 2322.14 JCE
Hombres: 67.68%  Cantidad: 4862.13 JCE


<a id="seccion-6"></a>

# **III) Carga**

[Volver al índice](#indice) 

In [23]:
# leer la credencial de acceso
config = configparser.ConfigParser()
config.read('credencial_login.conf')
database = config['postgresql']['database']
user     = config['postgresql']['user']
password = config['postgresql']['password']
host     = config['postgresql']['host']
port     = config['postgresql']['port']

In [24]:
aki

NameError: name 'aki' is not defined

<a id="subseccion-6-0"></a>

## 0. **Promedio OCDE y Unión Europea.**

[Volver al índice](#indice)    

In [None]:
def verificarDato(cursor, ano, nombre):
    query = "SELECT COUNT(*) FROM \"OCDE-promedio-OCDE-UE\" WHERE \"Year\" = %s AND \"nombre_esp\" = %s"
    cursor.execute(query, (ano, nombre))
    resultado = cursor.fetchone()
    return resultado[0] > 0

def cargarDatos(datos_para_insertar, connection):
    with connection.cursor() as cursor:
        for nombre_pais_ingles, nombre_pais_espanol, ano, valor_msti_employment, valor_msti in datos_para_insertar:
            # Verificar si ya existe un registro para el año específico de países de la OCDE
            if not verificarDato(cursor, ano, nombre_pais_espanol):
                query = """
                INSERT INTO "OCDE-promedio-OCDE-UE" (country, "Year", stem, nombre_esp, "prom_Invest1000", "prom_gastoID")
                VALUES (%s, %s, Null, %s, %s, %s)
                """
                cursor.execute(query, (nombre_pais_ingles, ano, nombre_pais_espanol, valor_msti_employment, valor_msti))
                print(f'Dato de {nombre_pais_espanol} año {ano} ingresado con éxito')
            else:
                print(f'Ya existe un registro de {nombre_pais_espanol} año {ano}')                

# Definir los países de la OCDE con nombres en inglés y sus correspondientes en español
country = [("EU27_2020", "European Union 27 members in OECD"), ("OECD", "OECD - Average")]
nombre_esp = [("EU27_2020", "Promedio Unión Europea (22 miembros)"), ("OECD", "Promedio de la OCDE")]

# Transformar la tupla a un diccionario
country_dict = {codigo: nombre for codigo, nombre in country}
nombre_esp_dict = {codigo: nombre for codigo, nombre in nombre_esp}

# Preparar los datos para la inserción
datos_para_insertar = []
for codigo_pais, nombre_pais_ingles in country:
    nombre_pais_espanol = nombre_esp_dict.get(codigo_pais)
    if nombre_pais_ingles and codigo_pais in valores_msti_employment and codigo_pais in valores_msti:
        ano_msti_employment, valor_msti_employment = valores_msti_employment[codigo_pais]
        ano_msti, tupla_valor_msti = valores_msti[codigo_pais]

        if ano_msti_employment == ano_msti == "2021":  # Verificar que ambos años sean 2021
            valor_msti = tupla_valor_msti[1] if isinstance(tupla_valor_msti, tuple) else tupla_valor_msti
            datos_para_insertar.append((nombre_pais_ingles, nombre_pais_espanol, "2021", valor_msti_employment, valor_msti))

# Establecer la conexión a la base de datos
try:
    connection = psycopg2.connect(
        database=database,
        user=user,
        password=password,
        host=host,
        port=port
    )
    connection.autocommit = True
    print('Conexión iniciada')
    cargarDatos(datos_para_insertar, connection)

except psycopg2.DatabaseError as e:
    print(f"Error al conectarse a la base de datos: {e}")
finally:
    if connection:
        connection.close()
        print('Conexión finalizada')
     


Conexión iniciada
Dato de Promedio Unión Europea (22 miembros) año 2021 ingresado con éxito
Conexión finalizada


<a id="subseccion-6-1"></a>

## 1. **[Cantidad de investigadores(as) cada mil personas trabajando en países de la OCDE.](https://www.observa.minciencia.gob.cl/indicadores/comparacion-internacional/investigadoresas-cada-mil-personas-trabajando)**
 * **Tabla  SGBD:** investigadores_1000_long 
 * **Dashboard Tablau:** 020202 

[Volver al índice](#indice)    

In [None]:
def verificarDato(cursor, ano, pais):
    query = "SELECT COUNT(*) FROM \"investigadores_1000_long\" WHERE \"año\" = %s AND \"paises\" = %s"
    cursor.execute(query, (ano, pais))
    resultado = cursor.fetchone()
    return resultado[0] > 0

def cargarDatos(datos_paises, connection, resultado_inv):
    with connection.cursor() as cursor:
        for ano, nombre_pais, valor in datos_paises:
            # Verificar si ya existe un registro para el año 2021 de paises ocde
            if not verificarDato(cursor, ano, nombre_pais):
                query = """
                INSERT INTO "investigadores_1000_long" (año, paises, valor)
                VALUES (%s, %s, %s)
                """
                cursor.execute(query, (ano, nombre_pais, valor))
                print(f'Dato de {nombre_pais} año {ano} ingresado con éxito')
            else:
                print(f'Ya existe un registro de {nombre_pais} año {ano}')

        # Definir query para la inserción de datos de Chile
        query_chile = """
        INSERT INTO "investigadores_1000_long" (año, paises, valor)
        VALUES (%s, %s, %s)
        """
        # Verificar e insertar dato específico para Chile
        if not verificarDato(cursor, '2021', 'Chile'):
            cursor.execute(query_chile, ('2021', 'Chile',  resultado_inv))
            print('Dato de Chile año 2021 ingresado con éxito')
        else:
            print('Ya existe un registro de Chile en el año 2021')

# Preparar los datos para la inserción, filtrando solo los del año 2021
datos_paises = []
for codigo_pais, nombre_pais in paises_ocde:  # Asumiendo que la lista 'paises' ya está definida
    if codigo_pais in valores_msti_employment:
        ano, valor = valores_msti_employment[codigo_pais]
        if ano == "2021":  # Filtrar para incluir solo datos del año 2021
            datos_paises.append((ano, nombre_pais, valor))

# Establecer la conexión a la base de datos
try:
    connection = psycopg2.connect(
        database=database,
        user=user,
        password=password,
        host=host,
        port=port
    )
    connection.autocommit = True
    print('Conexión iniciada')         

    # Llamar a cargarDatos con los datos preparados para la inserción
    cargarDatos(datos_paises, connection, resultado_inv)

except psycopg2.DatabaseError as e:
    print(f"Error al conectarse a la base de datos: {e}")
finally:
    if connection:
        connection.close()
        print('Conexión finalizada')

Conexión iniciada
Ya existe un registro de Austria año 2021
Ya existe un registro de Bélgica año 2021
Ya existe un registro de Costa Rica año 2021
Ya existe un registro de República Checa año 2021
Ya existe un registro de Dinamarca año 2021
Ya existe un registro de Estonia año 2021
Ya existe un registro de Finlandia año 2021
Ya existe un registro de Francia año 2021
Ya existe un registro de Alemania año 2021
Ya existe un registro de Grecia año 2021
Ya existe un registro de Hungría año 2021
Ya existe un registro de Islandia año 2021
Ya existe un registro de Irlanda año 2021
Ya existe un registro de Italia año 2021
Ya existe un registro de Japón año 2021
Ya existe un registro de Corea del Sur año 2021
Ya existe un registro de Letonia año 2021
Ya existe un registro de Lituania año 2021
Ya existe un registro de Luxemburgo año 2021
Ya existe un registro de Países Bajos año 2021
Ya existe un registro de Nueva Zelanda año 2021
Ya existe un registro de Noruega año 2021
Ya existe un registro de

<a id="subseccion-6-3"></a>

## 3. **[Gasto en I+D respecto al PIB en países de la OCDE.](https://www.observa.minciencia.gob.cl/indicadores/comparacion-internacional/gasto-en-id-respecto-al-pib)**
 * **Tabla BD:** gastoid_porcentaje_pib_long
 * **Dashboard Tablau:** 020201

[Volver al índice](#indice) 

In [None]:
def verificarDato(cursor, ano, pais):
    query = "SELECT COUNT(*) FROM \"gastoid_porcentaje_pib_long\" WHERE \"año\" = %s AND \"país\" = %s"
    cursor.execute(query, (ano, pais))
    resultado = cursor.fetchone()
    return resultado[0] > 0

def cargarDatos(datos_para_insertar, connection, resultado_imasd):
    with connection.cursor() as cursor:
        for nombre_pais, ano, valor in datos_para_insertar:
            # Verificar si ya existe un registro para el año 2021 de paises ocde
            if not verificarDato(cursor, ano, nombre_pais):
                query = """
                INSERT INTO "gastoid_porcentaje_pib_long" (año, país, gastoid)
                VALUES (%s, %s, %s)
                """
                cursor.execute(query, (ano, nombre_pais, valor))
                print(f'Dato de {nombre_pais} año {ano} ingresado con éxito')
            else:
                print(f'Ya existe un registro de {nombre_pais} año {ano}')

        # Definir query para la inserción de datos de Chile
        query_chile = """
        INSERT INTO "gastoid_porcentaje_pib_long" (año, país, gastoid)
        VALUES (%s, %s, %s)
        """
        # Verificar e insertar dato específico para Chile
        if not verificarDato(cursor, '2021', 'Chile'):
            cursor.execute(query_chile, ('2021', 'Chile', resultado_imasd,))
            print('Dato de Chile año 2021 ingresado con éxito')
        else:
            print('Ya existe un registro de Chile en el año 2021')


# Preparar los datos para la inserción, filtrando solo los del año 2021
datos_para_insertar = []
for codigo_pais, nombre_pais in paises_ocde:  # Asumiendo que la lista 'paises' ya está definida
    if codigo_pais in valores_msti:
        ano, valor = valores_msti[codigo_pais]
        if ano == "2021":  # Filtrar para incluir solo datos del año 2021
            datos_para_insertar.append((nombre_pais, ano, valor))    

# Establecer la conexión a la base de datos
try:
    connection = psycopg2.connect(
        database=database,
        user=user,
        password=password,
        host=host,
        port=port
    )
    connection.autocommit = True
    print('Conexión iniciada')

    # Llamar a cargarDatos con los datos preparados para la inserción
    cargarDatos(datos_para_insertar, connection, resultado_imasd)

except psycopg2.DatabaseError as e:
    print(f"Error al conectarse a la base de datos: {e}")
finally:
    if connection:
        connection.close()
        print('Conexión finalizada')


Conexión iniciada
Dato de Austria año 2021 ingresado con éxito
Dato de Bélgica año 2021 ingresado con éxito
Dato de Canadá año 2021 ingresado con éxito
Dato de Costa Rica año 2021 ingresado con éxito
Dato de República Checa año 2021 ingresado con éxito
Dato de Dinamarca año 2021 ingresado con éxito
Dato de Estonia año 2021 ingresado con éxito
Dato de Finlandia año 2021 ingresado con éxito
Dato de Francia año 2021 ingresado con éxito
Dato de Alemania año 2021 ingresado con éxito
Dato de Grecia año 2021 ingresado con éxito
Dato de Hungría año 2021 ingresado con éxito
Dato de Islandia año 2021 ingresado con éxito
Dato de Irlanda año 2021 ingresado con éxito
Dato de Italia año 2021 ingresado con éxito
Dato de Japón año 2021 ingresado con éxito
Dato de Corea del Sur año 2021 ingresado con éxito
Dato de Letonia año 2021 ingresado con éxito
Dato de Lituania año 2021 ingresado con éxito
Dato de Luxemburgo año 2021 ingresado con éxito
Dato de Países Bajos año 2021 ingresado con éxito
Dato de Nu

<a id="subseccion-6-7"></a>

## 7. **[Distribución del gasto en I+D según fuente de financiamiento y sector de ejecución.](https://www.observa.minciencia.gob.cl/indicadores/investigacion-y-desarrollo-id/Distribucion_del_gasto_en_I_D_segun_fuente_de_financiamiento_y_sector_de_ejecucion)**
 * **Tabla BD:** GastoID_Matriz
 * **Dashboard Tablau:** Gasto_id_ejecución

[Volver al índice](#indice) 

In [None]:
def verificarDato(cursor, año):
    query = "SELECT COUNT(*) FROM \"GastoID_Matriz\" WHERE \"agno\" = %s"
    cursor.execute(query, (año,))
    resultado = cursor.fetchone()
    return resultado[0] > 0

def cargarDatos():
    cursor = connection.cursor()
    
    # Verificar si ya existe un registro para el año 2021
    if not verificarDato(cursor, '2021'):
        query = """
        INSERT INTO "GastoID_Matriz" ("agno", "financiamiento", "ejecucion", "monto")
        VALUES ('2021', %s, %s, %s)
        """
        cursor.execute(query, ('Estado','Estado', Es_1))
        cursor.execute(query, ('Estado','IES', Es_2)) 
        cursor.execute(query, ('Estado','IPSFL', Es_3)) 
        cursor.execute(query, ('Estado','Empresa', Es_4)) 

        cursor.execute(query, ('IES','Estado', IES_1))
        cursor.execute(query, ('IES','IES', IES_2)) 
        cursor.execute(query, ('IES','IPSFL', IES_3)) 
        cursor.execute(query, ('IES','Empresa', IES_4)) 

        cursor.execute(query, ('IPSFL','Estado', IPSFL_1))
        cursor.execute(query, ('IPSFL','IES', IPSFL_2)) 
        cursor.execute(query, ('IPSFL','IPSFL', IPSFL_3)) 
        cursor.execute(query, ('IPSFL','Empresa', IPSFL_4)) 

        cursor.execute(query, ('Empresas','Estado', Em_1))
        cursor.execute(query, ('Empresas','IES', Em_2)) 
        cursor.execute(query, ('Empresas','IPSFL', Em_3)) 
        cursor.execute(query, ('Empresas','Empresa', Em_4)) 

        cursor.execute(query, ('Internacional','Estado', Inter_1))
        cursor.execute(query, ('Internacional','IES', Inter_2)) 
        cursor.execute(query, ('Internacional','IPSFL', Inter_3)) 
        cursor.execute(query, ('Internacional','Empresa', Inter_4)) 
                
        cursor.close()
        print('Datos del indicador ingresado con éxito')
    else:
        print('Ya existe un registro para el año 2021')
    
    cursor.close()
       
# Establecer la conexión a la base de datos
try:
    connection = psycopg2.connect(
        database=database,
        user=user,
        password=password,
        host=host,
        port=port
    )
    connection.autocommit = True
    print('Conexión iniciada') 
    cargarDatos()

except psycopg2.DatabaseError as e:
    print(f"Error al conectarse a la base de datos: {e}")
finally:
    if connection:
        connection.close()
        print('Conexión finalizada')

Conexión iniciada
Datos del indicador ingresado con éxito
Conexión finalizada


<a id="subseccion-6-14"></a>

## 14. **[Gasto en I+D por empresas según su sector económico (clasificación CIIU rev.4)](https://www.observa.minciencia.gob.cl/indicadores/investigacion-y-desarrollo-id/gasto-en-id-por-sector-economico)**
 * **Tabla BD:** gastoid_acteco
 * **Dashboard Tablau:** 050501

[Volver al índice](#indice)

In [25]:
def verificarDato(cursor, año):
    query = "SELECT COUNT(*) FROM \"gastoid_acteco\" WHERE \"anho\" = %s"
    cursor.execute(query, (año,))
    resultado = cursor.fetchone()
    return resultado[0] > 0

def cargarDatos():
    cursor = connection.cursor()
    
    # Verificar si ya existe un registro para el año 2021
    if not verificarDato(cursor, '2021'):
        query = """
        INSERT INTO "gastoid_acteco" (anho, a, b, c, c20, c21, d, e, f, g, h, i, j, k, l, m, m70, m71, m72, n, o, p, q, r, s) 
        VALUES ('2021', %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s)
        """
        cursor.execute(query, (A, B, C, C20, C21, D, E, F, G, H, I, J, K, L, M, M70, M71, M72, N, O, P, Q, R, S))
                
        cursor.close()
        print('Datos del indicador ingresado con éxito')
    else:
        print('Ya existe un registro para el año 2021')
    
    cursor.close()

# Establecer la conexión a la base de datos
try:
    connection = psycopg2.connect(
        database=database,
        user=user,
        password=password,
        host=host,
        port=port
    )
    connection.autocommit = True
    print('Conexión iniciada')
    cargarDatos()

except psycopg2.DatabaseError as e:
    print(f"Error al conectarse a la base de datos: {e}")
finally:
    if connection:
        connection.close()
        print('Conexión finalizada')

Conexión iniciada
Datos del indicador ingresado con éxito
Conexión finalizada


<a id="subseccion-6-17"></a>

## 17. **[Gasto en I+D como porcentaje del PIB e investigadores/as cada 1000 personas trabajando por macrozona.](https://www.observa.minciencia.gob.cl/indicadores/investigacion-y-desarrollo-id/gasto-en-id-respecto-al-pib-y-personal-en-id-cada-mil-personas-segun-macrozona)**
 * **Tabla BD:** Gasto_id_050606_resumida
 * **Dashboard Tablau:** 050606

[Volver al índice](#indice)

In [None]:
def verificarDato(cursor, año):
    query = "SELECT COUNT(*) FROM \"Gasto_id_050606_resumida\" WHERE \"anho\" = %s"
    cursor.execute(query, (año,))
    resultado = cursor.fetchone()
    return resultado[0] > 0

def cargarDatos():
    cursor = connection.cursor()
    
    # Verificar si ya existe un registro para el año 2021
    if not verificarDato(cursor, '2021'):
        query = """
        INSERT INTO "Gasto_id_050606_resumida" (id_registro, anho, macrozona, "gasto ID como porcentaje PIB", "JCE por cada 1000 personas") 
        VALUES (%s, '2021', %s, %s, %s)
        """
        cursor.execute(query, (7,'Macrozona Norte', por_pib_norte, por_ocupado_norte))
        cursor.execute(query, (8,'Macrozona Centro', por_pib_centro, por_ocupado_centro)) 
        cursor.execute(query, (9,'Macrozona Metropolitana', por_pib_metropolitana, por_ocupado_metropolitana)) 
        cursor.execute(query, (10,'Macrozona Centro sur', por_pib_centroSur, por_ocupado_centroSur)) 
        cursor.execute(query, (11,'Macrozona Sur', por_pib_sur, por_ocupado_sur))
        cursor.execute(query, (12,'Macrozona Austral', por_pib_austral, por_ocupado_austral))
                
        cursor.close()
        print('Datos del indicador ingresado con éxito')
    else:
        print('Ya existe un registro para el año 2021')
    
    cursor.close()

# Establecer la conexión a la base de datos
try:
    connection = psycopg2.connect(
        database=database,
        user=user,
        password=password,
        host=host,
        port=port
    )
    connection.autocommit = True
    print('Conexión iniciada')
    cargarDatos()

except psycopg2.DatabaseError as e:
    print(f"Error al conectarse a la base de datos: {e}")
finally:
    if connection:
        connection.close()
        print('Conexión finalizada')

Conexión iniciada
Datos del indicador ingresado con éxito
Conexión finalizada


<a id="subseccion-6-19"></a>

## 19. **[Distribución del personal en I+D según nivel educacional y sector de ejecución.](https://www.observa.minciencia.gob.cl/indicadores/investigacion-y-desarrollo-id/personal-en-id-segun-nivel-educacional-y-sector-de-ejecucion)**
 * **Tabla BD:** PersonalID_Nivel_Titulacion_Sector
 * **Dashboard Tablau:** 050605

[Volver al índice](#indice)

In [None]:
def verificarDato(cursor, año):
    query = "SELECT COUNT(*) FROM \"PersonalID_Nivel_Titulacion_Sector\" WHERE \"anho\" = %s"
    cursor.execute(query, (año,))
    resultado = cursor.fetchone()
    return resultado[0] > 0

def cargarDatos():
    cursor = connection.cursor()
    
    # Verificar si ya existe un registro para el año 2021
    if not verificarDato(cursor, '2021'):
        query = """
        INSERT INTO "PersonalID_Nivel_Titulacion_Sector" (anho, "UNIDAD_DECLARANTE", doctorado, magister, profesional, tecnicos, otros, "Total") 
        VALUES ('2021', %s, %s, %s, %s, %s, %s, %s)
        """
        cursor.execute(query, ('Estado', Dr_Es, Mg_Es, Prof_Es, Tec_Es, Otro_Es, total_Es))
        cursor.execute(query, ('Instituciones de Educacion Superior', Dr_IES, Mg_IES, Prof_IES, Tec_IES, Otro_IES, total_IES)) 
        cursor.execute(query, ('IPSFL', Dr_IPSFL, Mg_IPSFL, Prof_IPSFL, Tec_IPSFL, Otro_IPSFL, total_IPSFL))
        cursor.execute(query, ('Empresas', Dr_Em, Mg_Em, Prof_Em, Tec_Em, Otro_Em, total_Em))

        cursor.close()
        print('Datos del indicador ingresado con éxito')
    else:
        print('Ya existe un registro para el año 2021')
    
    cursor.close()

# Establecer la conexión a la base de datos
try:
    connection = psycopg2.connect(
        database=database,
        user=user,
        password=password,
        host=host,
        port=port
    )
    connection.autocommit = True
    print('Conexión iniciada')
    cargarDatos()

except psycopg2.DatabaseError as e:
    print(f"Error al conectarse a la base de datos: {e}")
finally:
    if connection:
        connection.close()
        print('Conexión finalizada')  

Conexión iniciada
Datos del indicador ingresado con éxito
Conexión finalizada


<a id="subseccion-6-21"></a>

## 21. **[Porcentaje de empresas que ejecuta montos bajo la Ley I+D entre las que realizan I+D intramuro.](https://www.observa.minciencia.gob.cl/indicadores/investigacion-y-desarrollo-id/porcentaje-de-empresas-que-hacen-id-intramuro-que-certifican-su-gasto-bajo-la-ley-id)**
 * **Tabla BD:** Ley_ID_Intramuro
 * **Dashboard Tablau:** 050703

[Volver al índice](#indice)

In [None]:
def verificarDato(cursor, año):
    query = "SELECT COUNT(*) FROM \"Ley_ID_Intramuro\" WHERE \"anho\" = %s"
    cursor.execute(query, (año,))
    resultado = cursor.fetchone()
    return resultado[0] > 0

def cargarDatos():
    cursor = connection.cursor()
    
    # Verificar si ya existe un registro para el año 2021
    if not verificarDato(cursor, '2021'):
        query = """
        INSERT INTO "Ley_ID_Intramuro" (anho, ejecuta_leyid, id_intramuro) 
        VALUES ('2021', %s, %s)
        """
        cursor.execute(query, ('SI', Si_EjecutaLey))
        cursor.execute(query, ('NO', No_EjecutaLey)) 

        cursor.close()
        print('Datos del indicador ingresado con éxito')
    else:
        print('Ya existe un registro para el año 2021')
    
    cursor.close()

# Establecer la conexión a la base de datos
try:
    connection = psycopg2.connect(
        database=database,
        user=user,
        password=password,
        host=host,
        port=port
    )
    connection.autocommit = True
    print('Conexión iniciada')
    cargarDatos()

except psycopg2.DatabaseError as e:
    print(f"Error al conectarse a la base de datos: {e}")
finally:
    if connection:
        connection.close()
        print('Conexión finalizada')

Conexión iniciada
Datos del indicador ingresado con éxito
Conexión finalizada


<a id="subseccion-6-22"></a>

## 22. **[Porcentaje de investigadoras mujeres en países de la OCDE.](https://www.observa.minciencia.gob.cl/genero/comparacion-internacional/porcentaje-de-investigadoras-mujeres-en-paises-de-la-ocde)**
 * **Tabla BD:** Investigadores_Mujeres_OCDE
 * **Dashboard Tablau:** 50704

[Volver al índice](#indice)

In [None]:
def verificarDato(cursor, año, nombre_pais_espanol):
    query = "SELECT COUNT(*) FROM \"Investigadores_Mujeres_OCDE\" WHERE \"Año\" = %s AND \"País Español\" = %s"
    cursor.execute(query, (año, nombre_pais_espanol))
    resultado = cursor.fetchone()
    return resultado[0] > 0

def cargarDatos(datos_para_insertar, connection, por_investigadoras):
    with connection.cursor() as cursor:
        for nombre_pais_ingles, nombre_pais_espanol, ano, proporcion in datos_para_insertar:
            # Verificar si ya existe un registro para el año 2021 de paises ocde
            if not verificarDato(cursor, ano, nombre_pais_espanol):
                query = """
                INSERT INTO "Investigadores_Mujeres_OCDE" ("País Inglés", "País Español", "Año", "Porcentaje de mujeres investigadoras respecto al total de inves")
                VALUES (%s, %s, '2021', %s)
                """
                cursor.execute(query, (nombre_pais_ingles, nombre_pais_espanol, proporcion))
                print(f'Dato de {nombre_pais_espanol} año {ano} ingresado con éxito')
            else:
                print(f'Ya existe un registro de {nombre_pais_espanol} año {ano}')

        # Definir query para la inserción de datos de Chile
        query_chile = """
        INSERT INTO "Investigadores_Mujeres_OCDE" ("País Inglés", "País Español", "Año", "Porcentaje de mujeres investigadoras respecto al total de inves")
        VALUES ('Chile','Chile', '2021', %s)
        """
        # Verificar e insertar dato específico para Chile
        if not verificarDato(cursor, '2021', 'Chile'):
            cursor.execute(query_chile, (por_investigadoras,))
            print('Dato de Chile año 2021 ingresado con éxito')
        else:
            print('Ya existe un registro de Chile en el año 2021')

#se definen los paises de la OCDE con nombres en Inglés
paises_ingles = [
    ("AUS", "Australia"), ("AUT", "Austria"), ("BEL", "Belgium"), ("CAN", "Canada"), ("COL", "Colombia"),
    ("CRI", "Costa Rica"), ("CZE", "Czech Republic"), ("DNK", "Denmark"), ("EST", "Estonia"), ("FIN", "Finland"),
    ("FRA", "France"), ("DEU", "Germany"), ("GRC", "Greece"), ("HUN", "Hungary"), ("ISL", "Iceland"),
    ("IRL", "Ireland"), ("ISR", "Israel"), ("ITA", "Italy"), ("JPN", "Japan"), ("KOR", "Korea"),
    ("LVA", "Latvia"), ("LTU", "Lithuania"), ("LUX", "Luxembourg"), ("MEX", "Mexico"), ("NLD", "Netherlands"),
    ("NZL", "New Zealand"), ("NOR", "Norway"), ("POL", "Poland"), ("PRT", "Portugal"), ("SVK", "Slovak Republic"),
    ("SVN", "Slovenia"), ("ESP", "Spain"), ("SWE", "Sweden"), ("CHE", "Switzerland"), ("TUR", "Turkey"),
    ("GBR", "United Kingdom"), ("USA", "United States")
]

#Tranforma la Tupla a un Diccionario
paises_ingles_dict = {codigo: nombre for codigo, nombre in paises_ingles}

# Preparar los datos para la inserción, filtrando solo los del año 2021
datos_para_insertar = []
for codigo_pais, nombre_pais_espanol in paises_ocde:
    # Buscar el nombre en inglés del país usando el código del país en el diccionario paises_ingles_dict
    nombre_pais_ingles = paises_ingles_dict.get(codigo_pais)
    if nombre_pais_ingles and codigo_pais in valores_por_pais_y_categoria:
        # Insertar la proporción de investigadoras ('T_WRS') respecto al total ('T_RS')
        if 'T_WRS' in valores_por_pais_y_categoria[codigo_pais] and 'T_RS' in valores_por_pais_y_categoria[codigo_pais]:
            ano_investigadoras, valor_investigadoras = valores_por_pais_y_categoria[codigo_pais]['T_WRS']
            ano_investigadores, valor_investigadores = valores_por_pais_y_categoria[codigo_pais]['T_RS']
            # Asegurarse de que ambos datos son del año 2021 y que el año es el mismo para ambos
            if ano_investigadoras == "2021" and ano_investigadoras == ano_investigadores:
                # Calcular la proporción
                if valor_investigadores > 0:  # Evitar la división por cero
                    proporcion = (valor_investigadoras / valor_investigadores) * 100
                    datos_para_insertar.append((nombre_pais_ingles, nombre_pais_espanol, ano_investigadoras, proporcion))

# Establecer la conexión a la base de datos
try:
    connection = psycopg2.connect(
        database=database,
        user=user,
        password=password,
        host=host,
        port=port
    )
    connection.autocommit = True
    print('Conexión iniciada')
    cargarDatos(datos_para_insertar, connection, por_investigadoras)

except psycopg2.DatabaseError as e:
    print(f"Error al conectarse a la base de datos: {e}")
finally:
    if connection:
        connection.close()
        print('Conexión finalizada')

Conexión iniciada
Dato de Austria año 2021 ingresado con éxito
Dato de Bélgica año 2021 ingresado con éxito
Dato de Costa Rica año 2021 ingresado con éxito
Dato de República Checa año 2021 ingresado con éxito
Dato de Estonia año 2021 ingresado con éxito
Dato de Finlandia año 2021 ingresado con éxito
Dato de Francia año 2021 ingresado con éxito
Dato de Alemania año 2021 ingresado con éxito
Dato de Grecia año 2021 ingresado con éxito
Dato de Hungría año 2021 ingresado con éxito
Dato de Islandia año 2021 ingresado con éxito
Dato de Irlanda año 2021 ingresado con éxito
Dato de Italia año 2021 ingresado con éxito
Dato de Japón año 2021 ingresado con éxito
Dato de Corea del Sur año 2021 ingresado con éxito
Dato de Letonia año 2021 ingresado con éxito
Dato de Lituania año 2021 ingresado con éxito
Dato de Luxemburgo año 2021 ingresado con éxito
Dato de Países Bajos año 2021 ingresado con éxito
Dato de Noruega año 2021 ingresado con éxito
Dato de Polonia año 2021 ingresado con éxito
Dato de Por

<a id="subseccion-6-28"></a>

## 28. **[Gasto I+D extramuro según tipo de unidad demandante y oferente de la I+d.](https://www.observa.minciencia.gob.cl/indicadores/transferencia-de-conocimiento/distribucion-del-gasto-en-id-extramuro-segun-sector-demandante-y-oferente)**
 * Pendiente (extramuro)
 * **Tabla BD:** 
    * GastoExtramuroDesgloseUnidad
    * GastoIntramuroExtramuro 
    * inflactoractualizado 
 * **Dashboard Tablau:** _090302

[Volver al índice](#indice)

<a id="subseccion-6-30"></a>

## 30. **[Porcentaje del personal dedicado a I+D que es mujer respecto al total de cada macrozona.](https://www.observa.minciencia.gob.cl/genero/regiones-y-macrozonas/porcentaje-de-mujeres-dedicadas-a-id-respecto-al-total-segun-macrozona)**
 * **Tabla BD:** investigadores_jce_sexo_macrozona
 * **Dashboard Tablau:** g110102

[Volver al índice](#indice)

In [None]:
def verificarDato(cursor, año):
    query = "SELECT COUNT(*) FROM \"investigadores_jce_sexo_macrozona\" WHERE \"año\" = %s"
    cursor.execute(query, (año,))
    resultado = cursor.fetchone()
    return resultado[0] > 0

def cargarDatos():
    cursor = connection.cursor()
    
    # Verificar si ya existe un registro para el año 2021
    if not verificarDato(cursor, '2021'):
        query = """
        INSERT INTO "investigadores_jce_sexo_macrozona" (año, macrozona, sexo, "Personal en ID JCE")
        VALUES ('2021', %s, %s, %s)
        """
        cursor.execute(query, ('Macrozona Norte', 'Hombres', hombres_norte))
        cursor.execute(query, ('Macrozona Norte', 'Mujeres', mujeres_norte))

        cursor.execute(query, ('Macrozona Centro', 'Hombres', hombres_centro))
        cursor.execute(query, ('Macrozona Centro', 'Mujeres', mujeres_centro))

        cursor.execute(query, ('Macrozona Metropolitana', 'Hombres', hombres_metropolitana))
        cursor.execute(query, ('Macrozona Metropolitana', 'Mujeres', mujeres_metropolitana))

        cursor.execute(query, ('Macrozona Centro-Sur', 'Hombres', hombres_centroSur))
        cursor.execute(query, ('Macrozona Centro-Sur', 'Mujeres', mujeres_centroSur))

        cursor.execute(query, ('Macrozona Sur', 'Hombres', hombres_sur))
        cursor.execute(query, ('Macrozona Sur', 'Mujeres', mujeres_sur))

        cursor.execute(query, ('Macrozona Austral', 'Hombres', hombres_austral))
        cursor.execute(query, ('Macrozona Austral', 'Mujeres', mujeres_austral))

        cursor.close()
        print('Datos del indicador ingresado con éxito')
    else:
        print('Ya existe un registro para el año 2021')
    
    cursor.close()

# Establecer la conexión a la base de datos
try:
    connection = psycopg2.connect(
        database=database,
        user=user,
        password=password,
        host=host,
        port=port
    )
    connection.autocommit = True
    print('Conexión iniciada')
    cargarDatos()

except psycopg2.DatabaseError as e:
    print(f"Error al conectarse a la base de datos: {e}")
finally:
    if connection:
        connection.close()
        print('Conexión finalizada')

Conexión iniciada
Datos del indicador ingresado con éxito
Conexión finalizada


<a id="subseccion-6-31"></a>

## 31. **[Distribución del personal dedicado en I+D según su sexo por cada sector de ejecución.](https://www.observa.minciencia.gob.cl/genero/investigacion-y-desarrollo-(i+d)/porcentaje-de-mujeres-que-se-dedican-a-id-respecto-al-total-por-sector-de-ejecucion)**
 * **Tabla BD:** Personal_JCE_Sector
 * **Dashboard Tablau:** g050602

[Volver al índice](#indice)

In [None]:
def verificarDato(cursor, año):
    query = "SELECT COUNT(*) FROM \"Personal_JCE_Sector\" WHERE \"Año\" = %s"
    cursor.execute(query, (año,))
    resultado = cursor.fetchone()
    return resultado[0] > 0

def cargarDatos():
    cursor = connection.cursor()
    
    # Verificar si ya existe un registro para el año 2021
    if not verificarDato(cursor, '2021'):
        query = """
        INSERT INTO "Personal_JCE_Sector" ("Año", "Sector de ejecución", sexo, "Personal en I+D (JCE)")
        VALUES ('2021', %s, %s, %s)
        """
        cursor.execute(query, ('Estado', 'Hombres', hombres_Es))
        cursor.execute(query, ('Estado', 'Mujeres', mujeres_Es))
        cursor.execute(query, ('IES', 'Hombres', hombres_IES))
        cursor.execute(query, ('IES', 'Mujeres', mujeres_IES))
        cursor.execute(query, ('IPSFL', 'Hombres', hombres_IPSFL))
        cursor.execute(query, ('IPSFL', 'Mujeres', mujeres_IPSFL))
        cursor.execute(query, ('Empresas', 'Hombres', hombres_Em))
        cursor.execute(query, ('Empresas', 'Mujeres', mujeres_Em))

        cursor.close()
        print('Datos del indicador ingresado con éxito')
    else:
        print('Ya existe un registro para el año 2021')
    
    cursor.close()

# Establecer la conexión a la base de datos
try:
    connection = psycopg2.connect(
        database=database,
        user=user,
        password=password,
        host=host,
        port=port
    )
    connection.autocommit = True
    print('Conexión iniciada')
    cargarDatos()

except psycopg2.DatabaseError as e:
    print(f"Error al conectarse a la base de datos: {e}")
finally:
    if connection:
        connection.close()
        print('Conexión finalizada')

Conexión iniciada
Datos del indicador ingresado con éxito
Conexión finalizada


<a id="subseccion-6-35"></a>

## 35. **[Distribución por sexo de las jornadas completas equivalentes (JCE) trabajadas en I+D por investigadores según sector de ejecución.](https://www.observa.minciencia.gob.cl/genero/investigacion-y-desarrollo-(i+d)/porcentaje-de-personas-investigadoras-que-son-mujeres-por-sector-de-ejecucion-de-la-id)**

 * **Tabla BD:** Personal_JCE_Sector_Investigadores
 * **Dashboard Tablau:** G050802

[Volver al índice](#indice)

In [None]:

# Leer las credenciales desde el archivo de configuración
config = configparser.ConfigParser()
config.read('credencial_login.conf')
user = config['postgresql']['user']
password = config['postgresql']['password']

def verificarDato(cursor, año):
    query = "SELECT COUNT(*) FROM \"Personal_JCE_Sector_Investigadores\" WHERE \"Año\" = %s"
    cursor.execute(query, (año,))
    resultado = cursor.fetchone()
    return resultado[0] > 0

def cargarDatos():
    cursor = connection.cursor()
    
    # Verificar si ya existe un registro para el año 2021
    if not verificarDato(cursor, '2021'):
        query = """
        INSERT INTO "Personal_JCE_Sector_Investigadores" ("Año", "Sector de ejecución", "Sexo", "Investigadores (JCE)")
        VALUES ('2021', %s, %s, %s)
        """
        cursor.execute(query, ('Estado', 'Hombres', total_hombres_Es))
        cursor.execute(query, ('Estado', 'Mujeres', total_mujeres_Es))

        cursor.execute(query, ('IES', 'Hombres', total_hombres_IES))
        cursor.execute(query, ('IES', 'Mujeres', total_mujeres_IES))

        cursor.execute(query, ('IPSFL', 'Hombres', total_hombres_IPSFL))
        cursor.execute(query, ('IPSFL', 'Mujeres', total_mujeres_IPSFL))

        cursor.execute(query, ('Empresas', 'Hombres', total_hombres_Em))
        cursor.execute(query, ('Empresas', 'Mujeres', total_mujeres_Em))

        cursor.close()
        print('Datos del indicador ingresado con éxito')
    else:
        print('Ya existe un registro para el año 2021')
    
    cursor.close()

# Establecer la conexión a la base de datos
try:
    connection = psycopg2.connect(
        database=database,
        user=user,
        password=password,
        host=host,
        port=port
    )
    connection.autocommit = True
    print('Conexión iniciada')
    cargarDatos()

except psycopg2.DatabaseError as e:
    print(f"Error al conectarse a la base de datos: {e}")
finally:
    if connection:
        connection.close()
        print('Conexión finalizada')

Conexión iniciada
Datos del indicador ingresado con éxito
Conexión finalizada


<a id="subseccion-6-37"></a>
<a id="subseccion-6-38"></a>

## 37. **[Porcentaje de investigadores(as) que son mujeres en empresas beneficiadas por la Ley I+D.](https://www.observa.minciencia.gob.cl/genero/programas-publicos/porcentaje-de-personas-investigando-id-que-son-mujeres-en-empresas-beneficiadas-por-la-ley-id)**
## 38. **[Porcentaje de personal en I+D que son mujeres en empresas beneficiadas por la Ley I+D.](https://www.observa.minciencia.gob.cl/genero/programas-publicos/porcentaje-de-personal-en-id-que-son-mujeres-en-empresas-beneficiadas-por-la-ley-id)**
 * **Tabla BD:** empresas_n_empleados_n_investig_jce
 * **Dashboard Tablau:** 
    * **37**: g040303
    * **38**: g040302

[Volver al índice](#indice)

In [None]:
def verificarDato(cursor, año):
    query = "SELECT COUNT(*) FROM \"empresas_n_empleados_n_investig_jce\" WHERE \"año\" = %s"
    cursor.execute(query, (año,))
    resultado = cursor.fetchone()
    return resultado[0] > 0

def cargarDatos():
    cursor = connection.cursor()
    
    # Verificar si ya existe un registro para el año 2021
    if not verificarDato(cursor, '2021'):
        query = """
        INSERT INTO "empresas_n_empleados_n_investig_jce" (año, sexo, "Tipo empresa", "Cantidad de empleados (JCE)", "Investigadores (JCE)")
        VALUES ('2021', %s, %s, %s, %s)
        """
        cursor.execute(query, ('Hombres', 'Empresas que ejecutaron montos bajo la Ley I+D', per_hombres_SiLey, inv_hombres_SiLey))
        cursor.execute(query, ('Mujeres', 'Empresas que ejecutaron montos bajo la Ley I+D', per_mujeres_SiLey, inv_mujeres_SiLey))

        cursor.execute(query, ('Hombres', 'Todas las empresas que ejecutaron I+D', per_hombres_total, inv_hombres_total))
        cursor.execute(query, ('Mujeres', 'Todas las empresas que ejecutaron I+D', per_mujeres_total, inv_mujeres_total))

        cursor.close()
        print('Datos del indicador ingresado con éxito')
    else:
        print('Ya existe un registro para el año 2021')
    
    cursor.close()

# Establecer la conexión a la base de datos
try:
    connection = psycopg2.connect(
        database=database,
        user=user,
        password=password,
        host=host,
        port=port
    )
    connection.autocommit = True
    print('Conexión iniciada')
    cargarDatos()

except psycopg2.DatabaseError as e:
    print(f"Error al conectarse a la base de datos: {e}")
finally:
    if connection:
        connection.close()
        print('Conexión finalizada')

Conexión iniciada
Datos del indicador ingresado con éxito
Conexión finalizada
