### Índice

1. Introducción
2. [Importación de Librerías y Configuración del Entorno](#importación-de-librerías-y-configuración-del-entorno)
3. [Descarga y Verificación del Archivo Excel](#descarga-y-verificación-del-archivo-excel)
4. [Carga y Lectura del Archivo Excel](#carga-y-lectura-del-archivo-excel)
5. [Guardado del DataFrame Original](#guardado-del-dataframe-original)
6. [Visualización de las Primeras Filas](#visualización-de-las-primeras-filas)
7. [Limpieza de Datos](#limpieza-de-datos)
8. [Definición de Columnas de Interés](#definición-de-columnas-de-interés)
9. [Filtrado y Suma de Columnas](#filtrado-y-suma-de-columnas)
10. [Creación de la Clase FilaDatos](#creación-de-la-clase-filadatos)
11. [Pruebas de Métodos de la Clase FilaDatos](#pruebas-de-métodos-de-la-clase-filadatos)
12. Conclusiones
13. Bibliografía

---

### Introducción

En este Jupyter Notebook, se realiza un análisis detallado de los datos proporcionados en un archivo Excel. Se utilizan diversas técnicas de procesamiento y análisis de datos para extraer información valiosa y presentar los resultados de manera clara y concisa.

---

### Limpieza de Datos



In [None]:
# Limpieza de datos
print("Iniciando la limpieza de datos...") 

from scripts.limpieza_datos import limpiar_dataframe, reemplazar_nan_por_cero, limpiar_datos_incorrectos

# Limpiar el DataFrame
df_limpio = limpiar_dataframe(df)
archivo_limpio = os.path.join(directorio_salida, 'datos_ine_limpio.xlsx')
df_limpio.to_excel(archivo_limpio, index=False)
print(f"Datos limpiados y guardados en: {archivo_limpio}")

# Reemplazar NaN por 0
df_sin_nan = reemplazar_nan_por_cero(df_limpio)
archivo_sin_nan = os.path.join(directorio_salida, 'datos_ine_sin_nan.xlsx')
df_sin_nan.to_excel(archivo_sin_nan, index=False)
print(f"Datos con NaN reemplazados por 0 y guardados en: {archivo_sin_nan}")

# Limpiar datos incorrectos
df_corregido = limpiar_datos_incorrectos(df_sin_nan)
archivo_corregido = os.path.join(directorio_salida, 'datos_ine_corregido.xlsx')
df_corregido.to_excel(archivo_corregido, index=False)
print(f"Datos incorrectos limpiados y guardados en: {archivo_corregido}")



**Descripción:**

En esta celda, se realiza la limpieza de datos en varias etapas:

1. **Limpieza del DataFrame**: Se utiliza la función [`limpiar_dataframe`](command:_github.copilot.openSymbolFromReferences?%5B%22%22%2C%5B%7B%22uri%22%3A%7B%22scheme%22%3A%22vscode-notebook-cell%22%2C%22authority%22%3A%22codespaces%2Blegendary-umbrella-pjrvpgx6v4xqc6rgg%22%2C%22path%22%3A%22%2Fworkspaces%2F2-DAM%2F2%C2%BADAM%2Fsistemasdegestion%2Fhito_organizado%2FHito1_1T_SGE_AlejandroPawlukiewicz%2Fmain.ipynb%22%2C%22query%22%3A%22%22%2C%22fragment%22%3A%22X22sdnNjb2RlLXJlbW90ZQ%3D%3D%22%7D%2C%22pos%22%3A%7B%22line%22%3A3%2C%22character%22%3A35%7D%7D%5D%2C%2211664746-c8fc-4e14-9b46-987e4e3140f6%22%5D "Go to definition") para eliminar filas y columnas que están completamente vacías. El DataFrame resultante se guarda en un archivo Excel.
2. **Reemplazo de NaN por 0**: Se utiliza la función [`reemplazar_nan_por_cero`](command:_github.copilot.openSymbolFromReferences?%5B%22%22%2C%5B%7B%22uri%22%3A%7B%22scheme%22%3A%22vscode-notebook-cell%22%2C%22authority%22%3A%22codespaces%2Blegendary-umbrella-pjrvpgx6v4xqc6rgg%22%2C%22path%22%3A%22%2Fworkspaces%2F2-DAM%2F2%C2%BADAM%2Fsistemasdegestion%2Fhito_organizado%2FHito1_1T_SGE_AlejandroPawlukiewicz%2Fmain.ipynb%22%2C%22query%22%3A%22%22%2C%22fragment%22%3A%22X22sdnNjb2RlLXJlbW90ZQ%3D%3D%22%7D%2C%22pos%22%3A%7B%22line%22%3A3%2C%22character%22%3A54%7D%7D%5D%2C%2211664746-c8fc-4e14-9b46-987e4e3140f6%22%5D "Go to definition") para reemplazar los valores NaN por 0 en el DataFrame limpio. El DataFrame resultante se guarda en un archivo Excel.
3. **Limpieza de Datos Incorrectos**: Se utiliza la función [`limpiar_datos_incorrectos`](command:_github.copilot.openSymbolFromReferences?%5B%22%22%2C%5B%7B%22uri%22%3A%7B%22scheme%22%3A%22vscode-notebook-cell%22%2C%22authority%22%3A%22codespaces%2Blegendary-umbrella-pjrvpgx6v4xqc6rgg%22%2C%22path%22%3A%22%2Fworkspaces%2F2-DAM%2F2%C2%BADAM%2Fsistemasdegestion%2Fhito_organizado%2FHito1_1T_SGE_AlejandroPawlukiewicz%2Fmain.ipynb%22%2C%22query%22%3A%22%22%2C%22fragment%22%3A%22X22sdnNjb2RlLXJlbW90ZQ%3D%3D%22%7D%2C%22pos%22%3A%7B%22line%22%3A3%2C%22character%22%3A79%7D%7D%5D%2C%2211664746-c8fc-4e14-9b46-987e4e3140f6%22%5D "Go to definition") para corregir datos incorrectos en el DataFrame sin NaN. Los valores negativos se reemplazan por 0 y las columnas no numéricas se convierten a cadenas de texto. El DataFrame resultante se guarda en un archivo Excel.

---

### Definición de Columnas de Interés



In [None]:
# Definir las columnas de interés
columnas_interes = [
    'Total industria', 'Bienes de consumo', 'Bienes de consumo duradero',
    'Bienes de consumo no duradero', 'Bienes de equipo', 'Bienes intermedios', 'Energía'
]



**Descripción:**

En esta celda, se definen las columnas de interés que se utilizarán en el análisis. Estas columnas representan diferentes categorías de datos que se extraerán y analizarán del DataFrame.

---

### Filtrado y Suma de Columnas



In [None]:
# Filtrar las columnas especificadas y eliminar columnas con valores no numéricos
df_filtrado = df_corregido[df_corregido.iloc[:, 0].isin(columnas_interes)]
df_filtrado = df_filtrado.apply(pd.to_numeric, errors='coerce').dropna()

# Calcular la suma de cada columna de interés
suma_columnas = df_filtrado.sum()

# Crear un nuevo DataFrame con las sumas
df_sumas = pd.DataFrame(suma_columnas).transpose()

# Guardar el DataFrame con las sumas en un nuevo archivo Excel
ruta_archivo_sumas = os.path.join(directorio_salida, 'datos_ine_sumas.xlsx')
df_sumas.to_excel(ruta_archivo_sumas, index=False)
print(f"DataFrame con las sumas guardado en: {ruta_archivo_sumas}")

# Imprimir el DataFrame con las sumas
print("Contenido del DataFrame con las sumas:")
print(df_sumas)



**Descripción:**

En esta celda, se realiza el filtrado y la suma de las columnas de interés:

1. **Filtrado de Columnas**: Se filtran las filas del DataFrame corregido para incluir solo aquellas que pertenecen a las categorías de interés. Además, se eliminan las columnas con valores no numéricos.
2. **Cálculo de Sumas**: Se calcula la suma total para cada categoría de interés.
3. **Creación de un Nuevo DataFrame**: Se crea un nuevo DataFrame con las sumas totales.
4. **Guardado del DataFrame**: Se guarda el DataFrame resultante en un nuevo archivo Excel.
5. **Impresión del DataFrame**: Se imprime el contenido del DataFrame con las sumas.

---

### Creación de la Clase FilaDatos



In [None]:
import pandas as pd

class FilaDatos:
    def __init__(self, **kwargs):
        for key, value in kwargs.items():
            setattr(self, key, value)

    def __str__(self):
        return ', '.join(f"{key}: {value}" for key, value in self.__dict__.items())

    def modificar_atributo(self, atributo, valor):
        setattr(self, atributo, valor)

    def __eq__(self, otro):
        return self.__dict__.get('Bienes de consumo') == otro.__dict__.get('Bienes de consumo')

    def __add__(self, otro):
        resultado = {key: getattr(self, key, 0) + getattr(otro, key, 0) for key in self.__dict__.keys()}
        return FilaDatos(**resultado)

    def __sub__(self, otro):
        resultado = {key: getattr(self, key, 0) - getattr(otro, key, 0) for key in self.__dict__.keys()}
        return FilaDatos(**resultado)



**Descripción:**

En esta celda, se define la clase `FilaDatos` que representa una fila del DataFrame con los siguientes métodos:

1. **Constructor (`__init__`)**: Inicializa los atributos de la clase con los valores proporcionados.
2. **Método `__str__`**: Devuelve una representación en cadena de los atributos de la clase.
3. **Método `modificar_atributo`**: Permite modificar el valor de un atributo específico.
4. **Método `__eq__`**: Redefine el método de comparación para comparar objetos de la clase por el valor de la columna 'Bienes de consumo'.
5. **Método `__add__`**: Redefine el método de suma para devolver la suma de los atributos de dos objetos de la clase.
6. **Método `__sub__`**: Redefine el método de resta para devolver la resta de los atributos de dos objetos de la clase.

---

### Pruebas de Métodos de la Clase FilaDatos



In [None]:
def cargar_datos(ruta_archivo):
    return pd.read_excel(ruta_archivo)

def crear_objetos_filas(df, num_filas=5):
    return [FilaDatos(**row) for index, row in df.head(num_filas).iterrows()]

def main():
    # Asegurarse de que el directorio de salida existe
    directorio_salida = 'data'
    if not os.path.exists(directorio_salida):
        os.makedirs(directorio_salida)

    # Cargar el DataFrame con los datos por categoría
    ruta_archivo_datos = os.path.join(directorio_salida, 'datos_ine_por_categoria.xlsx')
    df_datos_interes = cargar_datos(ruta_archivo_datos)

    # Crear objetos de la clase para al menos cinco filas
    filas = crear_objetos_filas(df_datos_interes)

    # Probar métodos
    for fila in filas:
        print(fila)

    # Modificar valores
    filas[0].modificar_atributo('Total industria', 999)
    print(f"Fila modificada: {filas[0]}")

    # Comparar objetos
    print(f"Comparación: {filas[0] == filas[1]}")

    # Sumar objetos
    print(f"Suma: {filas[0] + filas[1]}")

    # Restar objetos
    print(f"Resta: {filas[0] - filas[1]}")

if __name__ == "__main__":
    main()



**Descripción:**

En esta celda, se definen varias funciones y el flujo principal del programa:

1. **Función `cargar_datos`**: Carga los datos desde un archivo Excel.
2. **Función `crear_objetos_filas`**: Crea objetos de la clase `FilaDatos` para las primeras `num_filas` filas del DataFrame.
3. **Función `main`**: 
   - Asegura que el directorio de salida exista.
   - Carga el DataFrame con los datos por categoría.
   - Crea objetos de la clase `FilaDatos` para al menos cinco filas.
   - Prueba los métodos de la clase `FilaDatos`:
     - Imprime los objetos.
     - Modifica valores de atributos.
     - Compara objetos.
     - Suma y resta objetos.

---

### Conclusiones

En este Jupyter Notebook, se ha realizado un análisis detallado de los datos proporcionados en un archivo Excel. Se han utilizado diversas técnicas de procesamiento y análisis de datos para extraer información valiosa y presentar los resultados de manera clara y concisa. Además, se ha implementado una limpieza exhaustiva de los datos para asegurar su calidad y precisión. También se ha definido una clase `FilaDatos` para representar las filas del DataFrame y se han probado sus métodos.

---

### Bibliografía

1. *Pandas Documentation*. Recuperado de: https://pandas.pydata.org/pandas-docs/stable/
2. *Python Official Documentation*. Recuperado de: https://docs.python.org/3/
3. *INE - Instituto Nacional de Estadística*. Recuperado de: https://www.ine.es/

---

Este es un ejemplo de cómo se puede documentar cada celda del Jupyter Notebook siguiendo los requisitos especificados. Puedes ajustar y expandir cada sección según sea necesario para tu proyecto específico.


### Introducción

En este Jupyter Notebook, se realiza un análisis detallado de los datos proporcionados en un archivo Excel. Se utilizan diversas técnicas de procesamiento y análisis de datos para extraer información valiosa y presentar los resultados de manera clara y concisa.

---

### Importación de Librerías y Configuración del Entorno



In [None]:
import os
import sys
sys.path.append('..')
import pandas as pd

from scripts.extraccion_datos import *

# Crear la carpeta 'data' si no existe
directorio_salida = 'data'
os.makedirs(directorio_salida, exist_ok=True)



**Descripción:**

En esta celda, se importan las librerías necesarias para el procesamiento de datos. Se incluyen las librerías [`os`](command:_github.copilot.openSymbolFromReferences?%5B%22%22%2C%5B%7B%22uri%22%3A%7B%22scheme%22%3A%22vscode-notebook-cell%22%2C%22authority%22%3A%22codespaces%2Blegendary-umbrella-pjrvpgx6v4xqc6rgg%22%2C%22path%22%3A%22%2Fworkspaces%2F2-DAM%2F2%C2%BADAM%2Fsistemasdegestion%2Fhito_organizado%2FHito1_1T_SGE_AlejandroPawlukiewicz%2Fmain.ipynb%22%2C%22query%22%3A%22%22%2C%22fragment%22%3A%22X22sdnNjb2RlLXJlbW90ZQ%3D%3D%22%7D%2C%22pos%22%3A%7B%22line%22%3A7%2C%22character%22%3A17%7D%7D%2C%7B%22uri%22%3A%7B%22scheme%22%3A%22file%22%2C%22authority%22%3A%22%22%2C%22path%22%3A%22%2Fworkspaces%2F2-DAM%2F2%C2%BADAM%2Fsistemasdegestion%2Fhito_organizado%2FHito1_1T_SGE_AlejandroPawlukiewicz%2Fscripts%2Fextraccion_datos.py%22%2C%22query%22%3A%22%22%2C%22fragment%22%3A%22%22%7D%2C%22pos%22%3A%7B%22line%22%3A3%2C%22character%22%3A7%7D%7D%2C%7B%22uri%22%3A%7B%22scheme%22%3A%22file%22%2C%22authority%22%3A%22%22%2C%22path%22%3A%22%2Fworkspaces%2F2-DAM%2F2%C2%BADAM%2Fsistemasdegestion%2Fhito_organizado%2FHito1_1T_SGE_AlejandroPawlukiewicz%2Fmain.ipynb%22%2C%22query%22%3A%22%22%2C%22fragment%22%3A%22%22%7D%2C%22pos%22%3A%7B%22line%22%3A203%2C%22character%22%3A14%7D%7D%2C%7B%22uri%22%3A%7B%22scheme%22%3A%22file%22%2C%22authority%22%3A%22%22%2C%22path%22%3A%22%2Fworkspaces%2F2-DAM%2F2%C2%BADAM%2Fsistemasdegestion%2Fhito_organizado%2FHito1_1T_SGE_AlejandroPawlukiewicz%2Fscripts%2Flimpieza_datos.py%22%2C%22query%22%3A%22%22%2C%22fragment%22%3A%22%22%7D%2C%22pos%22%3A%7B%22line%22%3A13%2C%22character%22%3A15%7D%7D%2C%7B%22uri%22%3A%7B%22scheme%22%3A%22file%22%2C%22authority%22%3A%22%22%2C%22path%22%3A%22%2Fworkspaces%2F2-DAM%2F2%C2%BADAM%2Fsistemasdegestion%2Fhito_organizado%2FHito1_1T_SGE_AlejandroPawlukiewicz%2Fscripts%2Foperaciones.py%22%2C%22query%22%3A%22%22%2C%22fragment%22%3A%22%22%7D%2C%22pos%22%3A%7B%22line%22%3A1%2C%22character%22%3A15%7D%7D%2C%7B%22uri%22%3A%7B%22scheme%22%3A%22file%22%2C%22authority%22%3A%22%22%2C%22path%22%3A%22%2Fworkspaces%2F2-DAM%2F2%C2%BADAM%2Fsistemasdegestion%2Fhito_organizado%2FHito1_1T_SGE_AlejandroPawlukiewicz%2Fscripts%2Ftransformacion_datos.py%22%2C%22query%22%3A%22%22%2C%22fragment%22%3A%22%22%7D%2C%22pos%22%3A%7B%22line%22%3A4%2C%22character%22%3A20%7D%7D%5D%2C%22cca373e8-26ad-43c0-b143-9bef91f1ad3d%22%5D "Go to definition") y `sys` para la manipulación del sistema de archivos y la configuración del entorno, respectivamente. Además, se importa [`pandas`](command:_github.copilot.openSymbolFromReferences?%5B%22%22%2C%5B%7B%22uri%22%3A%7B%22scheme%22%3A%22file%22%2C%22authority%22%3A%22%22%2C%22path%22%3A%22%2Fworkspaces%2F2-DAM%2F2%C2%BADAM%2Fsistemasdegestion%2Fhito_organizado%2FHito1_1T_SGE_AlejandroPawlukiewicz%2Fscripts%2Festadisticas.py%22%2C%22query%22%3A%22%22%2C%22fragment%22%3A%22%22%7D%2C%22pos%22%3A%7B%22line%22%3A2%2C%22character%22%3A7%7D%7D%2C%7B%22uri%22%3A%7B%22scheme%22%3A%22file%22%2C%22authority%22%3A%22%22%2C%22path%22%3A%22%2Fworkspaces%2F2-DAM%2F2%C2%BADAM%2Fsistemasdegestion%2Fhito_organizado%2FHito1_1T_SGE_AlejandroPawlukiewicz%2Fscripts%2Fextraccion_datos.py%22%2C%22query%22%3A%22%22%2C%22fragment%22%3A%22%22%7D%2C%22pos%22%3A%7B%22line%22%3A2%2C%22character%22%3A7%7D%7D%2C%7B%22uri%22%3A%7B%22scheme%22%3A%22file%22%2C%22authority%22%3A%22%22%2C%22path%22%3A%22%2Fworkspaces%2F2-DAM%2F2%C2%BADAM%2Fsistemasdegestion%2Fhito_organizado%2FHito1_1T_SGE_AlejandroPawlukiewicz%2Fscripts%2Flimpieza_datos.py%22%2C%22query%22%3A%22%22%2C%22fragment%22%3A%22%22%7D%2C%22pos%22%3A%7B%22line%22%3A2%2C%22character%22%3A7%7D%7D%2C%7B%22uri%22%3A%7B%22scheme%22%3A%22file%22%2C%22authority%22%3A%22%22%2C%22path%22%3A%22%2Fworkspaces%2F2-DAM%2F2%C2%BADAM%2Fsistemasdegestion%2Fhito_organizado%2FHito1_1T_SGE_AlejandroPawlukiewicz%2Fscripts%2Ftransformacion_datos.py%22%2C%22query%22%3A%22%22%2C%22fragment%22%3A%22%22%7D%2C%22pos%22%3A%7B%22line%22%3A0%2C%22character%22%3A7%7D%7D%2C%7B%22uri%22%3A%7B%22scheme%22%3A%22file%22%2C%22authority%22%3A%22%22%2C%22path%22%3A%22%2Fworkspaces%2F2-DAM%2F2%C2%BADAM%2Fsistemasdegestion%2Fhito_organizado%2FHito1_1T_SGE_AlejandroPawlukiewicz%2Fmain.ipynb%22%2C%22query%22%3A%22%22%2C%22fragment%22%3A%22%22%7D%2C%22pos%22%3A%7B%22line%22%3A240%2C%22character%22%3A12%7D%7D%5D%2C%22cca373e8-26ad-43c0-b143-9bef91f1ad3d%22%5D "Go to definition") para la manipulación de datos y se añade el directorio superior al `sys.path` para poder importar módulos desde la carpeta [`scripts`](command:_github.copilot.openSymbolFromReferences?%5B%22%22%2C%5B%7B%22uri%22%3A%7B%22scheme%22%3A%22vscode-notebook-cell%22%2C%22authority%22%3A%22codespaces%2Blegendary-umbrella-pjrvpgx6v4xqc6rgg%22%2C%22path%22%3A%22%2Fworkspaces%2F2-DAM%2F2%C2%BADAM%2Fsistemasdegestion%2Fhito_organizado%2FHito1_1T_SGE_AlejandroPawlukiewicz%2Fmain.ipynb%22%2C%22query%22%3A%22%22%2C%22fragment%22%3A%22X22sdnNjb2RlLXJlbW90ZQ%3D%3D%22%7D%2C%22pos%22%3A%7B%22line%22%3A3%2C%22character%22%3A5%7D%7D%2C%7B%22uri%22%3A%7B%22scheme%22%3A%22file%22%2C%22authority%22%3A%22%22%2C%22path%22%3A%22%2Fworkspaces%2F2-DAM%2F2%C2%BADAM%2Fsistemasdegestion%2Fhito_organizado%2FHito1_1T_SGE_AlejandroPawlukiewicz%2Fscripts%2Fextraccion_datos.py%22%2C%22query%22%3A%22%22%2C%22fragment%22%3A%22%22%7D%2C%22pos%22%3A%7B%22line%22%3A0%2C%22character%22%3A14%7D%7D%5D%2C%22cca373e8-26ad-43c0-b143-9bef91f1ad3d%22%5D "Go to definition").

- **[`os`](command:_github.copilot.openSymbolFromReferences?%5B%22%22%2C%5B%7B%22uri%22%3A%7B%22scheme%22%3A%22vscode-notebook-cell%22%2C%22authority%22%3A%22codespaces%2Blegendary-umbrella-pjrvpgx6v4xqc6rgg%22%2C%22path%22%3A%22%2Fworkspaces%2F2-DAM%2F2%C2%BADAM%2Fsistemasdegestion%2Fhito_organizado%2FHito1_1T_SGE_AlejandroPawlukiewicz%2Fmain.ipynb%22%2C%22query%22%3A%22%22%2C%22fragment%22%3A%22X22sdnNjb2RlLXJlbW90ZQ%3D%3D%22%7D%2C%22pos%22%3A%7B%22line%22%3A7%2C%22character%22%3A17%7D%7D%2C%7B%22uri%22%3A%7B%22scheme%22%3A%22file%22%2C%22authority%22%3A%22%22%2C%22path%22%3A%22%2Fworkspaces%2F2-DAM%2F2%C2%BADAM%2Fsistemasdegestion%2Fhito_organizado%2FHito1_1T_SGE_AlejandroPawlukiewicz%2Fscripts%2Fextraccion_datos.py%22%2C%22query%22%3A%22%22%2C%22fragment%22%3A%22%22%7D%2C%22pos%22%3A%7B%22line%22%3A3%2C%22character%22%3A7%7D%7D%2C%7B%22uri%22%3A%7B%22scheme%22%3A%22file%22%2C%22authority%22%3A%22%22%2C%22path%22%3A%22%2Fworkspaces%2F2-DAM%2F2%C2%BADAM%2Fsistemasdegestion%2Fhito_organizado%2FHito1_1T_SGE_AlejandroPawlukiewicz%2Fmain.ipynb%22%2C%22query%22%3A%22%22%2C%22fragment%22%3A%22%22%7D%2C%22pos%22%3A%7B%22line%22%3A203%2C%22character%22%3A14%7D%7D%2C%7B%22uri%22%3A%7B%22scheme%22%3A%22file%22%2C%22authority%22%3A%22%22%2C%22path%22%3A%22%2Fworkspaces%2F2-DAM%2F2%C2%BADAM%2Fsistemasdegestion%2Fhito_organizado%2FHito1_1T_SGE_AlejandroPawlukiewicz%2Fscripts%2Flimpieza_datos.py%22%2C%22query%22%3A%22%22%2C%22fragment%22%3A%22%22%7D%2C%22pos%22%3A%7B%22line%22%3A13%2C%22character%22%3A15%7D%7D%2C%7B%22uri%22%3A%7B%22scheme%22%3A%22file%22%2C%22authority%22%3A%22%22%2C%22path%22%3A%22%2Fworkspaces%2F2-DAM%2F2%C2%BADAM%2Fsistemasdegestion%2Fhito_organizado%2FHito1_1T_SGE_AlejandroPawlukiewicz%2Fscripts%2Foperaciones.py%22%2C%22query%22%3A%22%22%2C%22fragment%22%3A%22%22%7D%2C%22pos%22%3A%7B%22line%22%3A1%2C%22character%22%3A15%7D%7D%2C%7B%22uri%22%3A%7B%22scheme%22%3A%22file%22%2C%22authority%22%3A%22%22%2C%22path%22%3A%22%2Fworkspaces%2F2-DAM%2F2%C2%BADAM%2Fsistemasdegestion%2Fhito_organizado%2FHito1_1T_SGE_AlejandroPawlukiewicz%2Fscripts%2Ftransformacion_datos.py%22%2C%22query%22%3A%22%22%2C%22fragment%22%3A%22%22%7D%2C%22pos%22%3A%7B%22line%22%3A4%2C%22character%22%3A20%7D%7D%5D%2C%22cca373e8-26ad-43c0-b143-9bef91f1ad3d%22%5D "Go to definition")**: Permite interactuar con el sistema operativo, en este caso, para crear directorios.
- **`sys`**: Se utiliza para modificar la ruta de búsqueda de módulos.
- **[`pandas`](command:_github.copilot.openSymbolFromReferences?%5B%22%22%2C%5B%7B%22uri%22%3A%7B%22scheme%22%3A%22file%22%2C%22authority%22%3A%22%22%2C%22path%22%3A%22%2Fworkspaces%2F2-DAM%2F2%C2%BADAM%2Fsistemasdegestion%2Fhito_organizado%2FHito1_1T_SGE_AlejandroPawlukiewicz%2Fscripts%2Festadisticas.py%22%2C%22query%22%3A%22%22%2C%22fragment%22%3A%22%22%7D%2C%22pos%22%3A%7B%22line%22%3A2%2C%22character%22%3A7%7D%7D%2C%7B%22uri%22%3A%7B%22scheme%22%3A%22file%22%2C%22authority%22%3A%22%22%2C%22path%22%3A%22%2Fworkspaces%2F2-DAM%2F2%C2%BADAM%2Fsistemasdegestion%2Fhito_organizado%2FHito1_1T_SGE_AlejandroPawlukiewicz%2Fscripts%2Fextraccion_datos.py%22%2C%22query%22%3A%22%22%2C%22fragment%22%3A%22%22%7D%2C%22pos%22%3A%7B%22line%22%3A2%2C%22character%22%3A7%7D%7D%2C%7B%22uri%22%3A%7B%22scheme%22%3A%22file%22%2C%22authority%22%3A%22%22%2C%22path%22%3A%22%2Fworkspaces%2F2-DAM%2F2%C2%BADAM%2Fsistemasdegestion%2Fhito_organizado%2FHito1_1T_SGE_AlejandroPawlukiewicz%2Fscripts%2Flimpieza_datos.py%22%2C%22query%22%3A%22%22%2C%22fragment%22%3A%22%22%7D%2C%22pos%22%3A%7B%22line%22%3A2%2C%22character%22%3A7%7D%7D%2C%7B%22uri%22%3A%7B%22scheme%22%3A%22file%22%2C%22authority%22%3A%22%22%2C%22path%22%3A%22%2Fworkspaces%2F2-DAM%2F2%C2%BADAM%2Fsistemasdegestion%2Fhito_organizado%2FHito1_1T_SGE_AlejandroPawlukiewicz%2Fscripts%2Ftransformacion_datos.py%22%2C%22query%22%3A%22%22%2C%22fragment%22%3A%22%22%7D%2C%22pos%22%3A%7B%22line%22%3A0%2C%22character%22%3A7%7D%7D%2C%7B%22uri%22%3A%7B%22scheme%22%3A%22file%22%2C%22authority%22%3A%22%22%2C%22path%22%3A%22%2Fworkspaces%2F2-DAM%2F2%C2%BADAM%2Fsistemasdegestion%2Fhito_organizado%2FHito1_1T_SGE_AlejandroPawlukiewicz%2Fmain.ipynb%22%2C%22query%22%3A%22%22%2C%22fragment%22%3A%22%22%7D%2C%22pos%22%3A%7B%22line%22%3A240%2C%22character%22%3A12%7D%7D%5D%2C%22cca373e8-26ad-43c0-b143-9bef91f1ad3d%22%5D "Go to definition")**: Librería fundamental para la manipulación y análisis de datos.
- **[`scripts.extraccion_datos`](command:_github.copilot.openSymbolFromReferences?%5B%22%22%2C%5B%7B%22uri%22%3A%7B%22scheme%22%3A%22vscode-notebook-cell%22%2C%22authority%22%3A%22codespaces%2Blegendary-umbrella-pjrvpgx6v4xqc6rgg%22%2C%22path%22%3A%22%2Fworkspaces%2F2-DAM%2F2%C2%BADAM%2Fsistemasdegestion%2Fhito_organizado%2FHito1_1T_SGE_AlejandroPawlukiewicz%2Fmain.ipynb%22%2C%22query%22%3A%22%22%2C%22fragment%22%3A%22X22sdnNjb2RlLXJlbW90ZQ%3D%3D%22%7D%2C%22pos%22%3A%7B%22line%22%3A3%2C%22character%22%3A5%7D%7D%5D%2C%22cca373e8-26ad-43c0-b143-9bef91f1ad3d%22%5D "Go to definition")**: Módulo personalizado que contiene funciones para la extracción de datos.

Se asegura que el directorio [`data`](command:_github.copilot.openSymbolFromReferences?%5B%22%22%2C%5B%7B%22uri%22%3A%7B%22scheme%22%3A%22file%22%2C%22authority%22%3A%22%22%2C%22path%22%3A%22%2Fworkspaces%2F2-DAM%2F2%C2%BADAM%2Fsistemasdegestion%2Fhito_organizado%2FHito1_1T_SGE_AlejandroPawlukiewicz%2Fmain.ipynb%22%2C%22query%22%3A%22%22%2C%22fragment%22%3A%22%22%7D%2C%22pos%22%3A%7B%22line%22%3A244%2C%22character%22%3A26%7D%7D%2C%7B%22uri%22%3A%7B%22scheme%22%3A%22file%22%2C%22authority%22%3A%22%22%2C%22path%22%3A%22%2Fworkspaces%2F2-DAM%2F2%C2%BADAM%2Fsistemasdegestion%2Fhito_organizado%2FHito1_1T_SGE_AlejandroPawlukiewicz%2Fscripts%2Flimpieza_datos.py%22%2C%22query%22%3A%22%22%2C%22fragment%22%3A%22%22%7D%2C%22pos%22%3A%7B%22line%22%3A5%2C%22character%22%3A12%7D%7D%2C%7B%22uri%22%3A%7B%22scheme%22%3A%22file%22%2C%22authority%22%3A%22%22%2C%22path%22%3A%22%2Fworkspaces%2F2-DAM%2F2%C2%BADAM%2Fsistemasdegestion%2Fhito_organizado%2FHito1_1T_SGE_AlejandroPawlukiewicz%2Fscripts%2Ftransformacion_datos.py%22%2C%22query%22%3A%22%22%2C%22fragment%22%3A%22%22%7D%2C%22pos%22%3A%7B%22line%22%3A3%2C%22character%22%3A15%7D%7D%5D%2C%22cca373e8-26ad-43c0-b143-9bef91f1ad3d%22%5D "Go to definition") exista. Si no existe, se crea utilizando la función [`os.makedirs`](command:_github.copilot.openSymbolFromReferences?%5B%22%22%2C%5B%7B%22uri%22%3A%7B%22scheme%22%3A%22file%22%2C%22authority%22%3A%22%22%2C%22path%22%3A%22%2Fworkspaces%2F2-DAM%2F2%C2%BADAM%2Fsistemasdegestion%2Fhito_organizado%2FHito1_1T_SGE_AlejandroPawlukiewicz%2Fmain.ipynb%22%2C%22query%22%3A%22%22%2C%22fragment%22%3A%22%22%7D%2C%22pos%22%3A%7B%22line%22%3A246%2C%22character%22%3A9%7D%7D%5D%2C%22cca373e8-26ad-43c0-b143-9bef91f1ad3d%22%5D "Go to definition"). Esto es importante para garantizar que los archivos descargados y generados se almacenen en el lugar correcto.

---

### Descarga y Verificación del Archivo Excel



In [None]:
# Descargar el archivo Excel
url = 'https://www.ine.es/jaxiT3/files/t/es/xlsx/60272.xlsx?nocab=1'
ruta_salida = os.path.join(directorio_salida, 'datos_ine.xlsx')
descargar_archivo_excel(url, ruta_salida)

# Verificar que la descarga fue exitosa
if os.path.exists(ruta_salida):
    print("Descarga exitosa del archivo Excel.")
else:
    print("Error en la descarga del archivo Excel.")



**Descripción:**

En esta celda, se descarga el archivo Excel desde una URL proporcionada y se guarda en el directorio [`data`](command:_github.copilot.openSymbolFromReferences?%5B%22%22%2C%5B%7B%22uri%22%3A%7B%22scheme%22%3A%22file%22%2C%22authority%22%3A%22%22%2C%22path%22%3A%22%2Fworkspaces%2F2-DAM%2F2%C2%BADAM%2Fsistemasdegestion%2Fhito_organizado%2FHito1_1T_SGE_AlejandroPawlukiewicz%2Fmain.ipynb%22%2C%22query%22%3A%22%22%2C%22fragment%22%3A%22%22%7D%2C%22pos%22%3A%7B%22line%22%3A244%2C%22character%22%3A26%7D%7D%2C%7B%22uri%22%3A%7B%22scheme%22%3A%22file%22%2C%22authority%22%3A%22%22%2C%22path%22%3A%22%2Fworkspaces%2F2-DAM%2F2%C2%BADAM%2Fsistemasdegestion%2Fhito_organizado%2FHito1_1T_SGE_AlejandroPawlukiewicz%2Fscripts%2Flimpieza_datos.py%22%2C%22query%22%3A%22%22%2C%22fragment%22%3A%22%22%7D%2C%22pos%22%3A%7B%22line%22%3A5%2C%22character%22%3A12%7D%7D%2C%7B%22uri%22%3A%7B%22scheme%22%3A%22file%22%2C%22authority%22%3A%22%22%2C%22path%22%3A%22%2Fworkspaces%2F2-DAM%2F2%C2%BADAM%2Fsistemasdegestion%2Fhito_organizado%2FHito1_1T_SGE_AlejandroPawlukiewicz%2Fscripts%2Ftransformacion_datos.py%22%2C%22query%22%3A%22%22%2C%22fragment%22%3A%22%22%7D%2C%22pos%22%3A%7B%22line%22%3A3%2C%22character%22%3A15%7D%7D%5D%2C%22cca373e8-26ad-43c0-b143-9bef91f1ad3d%22%5D "Go to definition"). La función [`descargar_archivo_excel`](command:_github.copilot.openSymbolFromReferences?%5B%22%22%2C%5B%7B%22uri%22%3A%7B%22scheme%22%3A%22file%22%2C%22authority%22%3A%22%22%2C%22path%22%3A%22%2Fworkspaces%2F2-DAM%2F2%C2%BADAM%2Fsistemasdegestion%2Fhito_organizado%2FHito1_1T_SGE_AlejandroPawlukiewicz%2Fscripts%2Fextraccion_datos.py%22%2C%22query%22%3A%22%22%2C%22fragment%22%3A%22%22%7D%2C%22pos%22%3A%7B%22line%22%3A6%2C%22character%22%3A4%7D%7D%5D%2C%22cca373e8-26ad-43c0-b143-9bef91f1ad3d%22%5D "Go to definition") se encarga de la descarga. La ruta del archivo se construye utilizando [`os.path.join`](command:_github.copilot.openSymbolFromReferences?%5B%22%22%2C%5B%7B%22uri%22%3A%7B%22scheme%22%3A%22vscode-notebook-cell%22%2C%22authority%22%3A%22codespaces%2Blegendary-umbrella-pjrvpgx6v4xqc6rgg%22%2C%22path%22%3A%22%2Fworkspaces%2F2-DAM%2F2%C2%BADAM%2Fsistemasdegestion%2Fhito_organizado%2FHito1_1T_SGE_AlejandroPawlukiewicz%2Fmain.ipynb%22%2C%22query%22%3A%22%22%2C%22fragment%22%3A%22X22sdnNjb2RlLXJlbW90ZQ%3D%3D%22%7D%2C%22pos%22%3A%7B%22line%22%3A7%2C%22character%22%3A17%7D%7D%2C%7B%22uri%22%3A%7B%22scheme%22%3A%22file%22%2C%22authority%22%3A%22%22%2C%22path%22%3A%22%2Fworkspaces%2F2-DAM%2F2%C2%BADAM%2Fsistemasdegestion%2Fhito_organizado%2FHito1_1T_SGE_AlejandroPawlukiewicz%2Fscripts%2Fextraccion_datos.py%22%2C%22query%22%3A%22%22%2C%22fragment%22%3A%22%22%7D%2C%22pos%22%3A%7B%22line%22%3A3%2C%22character%22%3A7%7D%7D%5D%2C%22cca373e8-26ad-43c0-b143-9bef91f1ad3d%22%5D "Go to definition") para asegurar la compatibilidad con diferentes sistemas operativos.

Después de la descarga, se verifica si la descarga fue exitosa comprobando la existencia del archivo en la ruta especificada. Si el archivo existe, se imprime un mensaje de éxito; de lo contrario, se imprime un mensaje de error.

---

### Carga y Lectura del Archivo Excel



In [None]:
# Cargar el archivo Excel
datos_excel = cargar_archivo_excel(ruta_salida)

# Leer la hoja de datos
nombre_hoja = datos_excel.sheet_names[0]
df = leer_hoja_excel(datos_excel, nombre_hoja)



**Descripción:**

En esta celda, se carga el archivo Excel descargado en un objeto [`datos_excel`](command:_github.copilot.openSymbolFromReferences?%5B%22%22%2C%5B%7B%22uri%22%3A%7B%22scheme%22%3A%22file%22%2C%22authority%22%3A%22%22%2C%22path%22%3A%22%2Fworkspaces%2F2-DAM%2F2%C2%BADAM%2Fsistemasdegestion%2Fhito_organizado%2FHito1_1T_SGE_AlejandroPawlukiewicz%2Fscripts%2Fextraccion_datos.py%22%2C%22query%22%3A%22%22%2C%22fragment%22%3A%22%22%7D%2C%22pos%22%3A%7B%22line%22%3A16%2C%22character%22%3A20%7D%7D%5D%2C%22cca373e8-26ad-43c0-b143-9bef91f1ad3d%22%5D "Go to definition") utilizando la función [`cargar_archivo_excel`](command:_github.copilot.openSymbolFromReferences?%5B%22%22%2C%5B%7B%22uri%22%3A%7B%22scheme%22%3A%22file%22%2C%22authority%22%3A%22%22%2C%22path%22%3A%22%2Fworkspaces%2F2-DAM%2F2%C2%BADAM%2Fsistemasdegestion%2Fhito_organizado%2FHito1_1T_SGE_AlejandroPawlukiewicz%2Fscripts%2Fextraccion_datos.py%22%2C%22query%22%3A%22%22%2C%22fragment%22%3A%22%22%7D%2C%22pos%22%3A%7B%22line%22%3A12%2C%22character%22%3A4%7D%7D%5D%2C%22cca373e8-26ad-43c0-b143-9bef91f1ad3d%22%5D "Go to definition"). Esta función se encarga de abrir el archivo Excel para su posterior procesamiento.

Luego, se lee la primera hoja de datos del archivo Excel cargado. Se obtiene el nombre de la primera hoja utilizando [`datos_excel.sheet_names[0]`](command:_github.copilot.openSymbolFromReferences?%5B%22%22%2C%5B%7B%22uri%22%3A%7B%22scheme%22%3A%22file%22%2C%22authority%22%3A%22%22%2C%22path%22%3A%22%2Fworkspaces%2F2-DAM%2F2%C2%BADAM%2Fsistemasdegestion%2Fhito_organizado%2FHito1_1T_SGE_AlejandroPawlukiewicz%2Fscripts%2Fextraccion_datos.py%22%2C%22query%22%3A%22%22%2C%22fragment%22%3A%22%22%7D%2C%22pos%22%3A%7B%22line%22%3A16%2C%22character%22%3A20%7D%7D%5D%2C%22cca373e8-26ad-43c0-b143-9bef91f1ad3d%22%5D "Go to definition") y se lee la hoja en un DataFrame [`df`](command:_github.copilot.openSymbolFromReferences?%5B%22%22%2C%5B%7B%22uri%22%3A%7B%22scheme%22%3A%22vscode-notebook-cell%22%2C%22authority%22%3A%22codespaces%2Blegendary-umbrella-pjrvpgx6v4xqc6rgg%22%2C%22path%22%3A%22%2Fworkspaces%2F2-DAM%2F2%C2%BADAM%2Fsistemasdegestion%2Fhito_organizado%2FHito1_1T_SGE_AlejandroPawlukiewicz%2Fmain.ipynb%22%2C%22query%22%3A%22%22%2C%22fragment%22%3A%22X22sdnNjb2RlLXJlbW90ZQ%3D%3D%22%7D%2C%22pos%22%3A%7B%22line%22%3A6%2C%22character%22%3A30%7D%7D%2C%7B%22uri%22%3A%7B%22scheme%22%3A%22file%22%2C%22authority%22%3A%22%22%2C%22path%22%3A%22%2Fworkspaces%2F2-DAM%2F2%C2%BADAM%2Fsistemasdegestion%2Fhito_organizado%2FHito1_1T_SGE_AlejandroPawlukiewicz%2Fscripts%2Festadisticas.py%22%2C%22query%22%3A%22%22%2C%22fragment%22%3A%22%22%7D%2C%22pos%22%3A%7B%22line%22%3A6%2C%22character%22%3A26%7D%7D%2C%7B%22uri%22%3A%7B%22scheme%22%3A%22file%22%2C%22authority%22%3A%22%22%2C%22path%22%3A%22%2Fworkspaces%2F2-DAM%2F2%C2%BADAM%2Fsistemasdegestion%2Fhito_organizado%2FHito1_1T_SGE_AlejandroPawlukiewicz%2Fscripts%2Fextraccion_datos.py%22%2C%22query%22%3A%22%22%2C%22fragment%22%3A%22%22%7D%2C%22pos%22%3A%7B%22line%22%3A17%2C%22character%22%3A4%7D%7D%2C%7B%22uri%22%3A%7B%22scheme%22%3A%22file%22%2C%22authority%22%3A%22%22%2C%22path%22%3A%22%2Fworkspaces%2F2-DAM%2F2%C2%BADAM%2Fsistemasdegestion%2Fhito_organizado%2FHito1_1T_SGE_AlejandroPawlukiewicz%2Fscripts%2Flimpieza_datos.py%22%2C%22query%22%3A%22%22%2C%22fragment%22%3A%22%22%7D%2C%22pos%22%3A%7B%22line%22%3A5%2C%22character%22%3A22%7D%7D%2C%7B%22uri%22%3A%7B%22scheme%22%3A%22file%22%2C%22authority%22%3A%22%22%2C%22path%22%3A%22%2Fworkspaces%2F2-DAM%2F2%C2%BADAM%2Fsistemasdegestion%2Fhito_organizado%2FHito1_1T_SGE_AlejandroPawlukiewicz%2Fscripts%2Ftransformacion_datos.py%22%2C%22query%22%3A%22%22%2C%22fragment%22%3A%22%22%7D%2C%22pos%22%3A%7B%22line%22%3A3%2C%22character%22%3A25%7D%7D%5D%2C%22cca373e8-26ad-43c0-b143-9bef91f1ad3d%22%5D "Go to definition") utilizando la función [`leer_hoja_excel`](command:_github.copilot.openSymbolFromReferences?%5B%22%22%2C%5B%7B%22uri%22%3A%7B%22scheme%22%3A%22file%22%2C%22authority%22%3A%22%22%2C%22path%22%3A%22%2Fworkspaces%2F2-DAM%2F2%C2%BADAM%2Fsistemasdegestion%2Fhito_organizado%2FHito1_1T_SGE_AlejandroPawlukiewicz%2Fscripts%2Fextraccion_datos.py%22%2C%22query%22%3A%22%22%2C%22fragment%22%3A%22%22%7D%2C%22pos%22%3A%7B%22line%22%3A16%2C%22character%22%3A4%7D%7D%5D%2C%22cca373e8-26ad-43c0-b143-9bef91f1ad3d%22%5D "Go to definition").

---

### Guardado del DataFrame Original



In [None]:
# Guardar el DataFrame original con codificación UTF-8
ruta_salida_original = os.path.join(directorio_salida, 'datos_ine_original.xlsx')
df.to_excel(ruta_salida_original, index=False)



**Descripción:**

En esta celda, se guarda el DataFrame original en un archivo Excel con codificación UTF-8. La ruta del archivo se construye utilizando [`os.path.join`](command:_github.copilot.openSymbolFromReferences?%5B%22%22%2C%5B%7B%22uri%22%3A%7B%22scheme%22%3A%22vscode-notebook-cell%22%2C%22authority%22%3A%22codespaces%2Blegendary-umbrella-pjrvpgx6v4xqc6rgg%22%2C%22path%22%3A%22%2Fworkspaces%2F2-DAM%2F2%C2%BADAM%2Fsistemasdegestion%2Fhito_organizado%2FHito1_1T_SGE_AlejandroPawlukiewicz%2Fmain.ipynb%22%2C%22query%22%3A%22%22%2C%22fragment%22%3A%22X22sdnNjb2RlLXJlbW90ZQ%3D%3D%22%7D%2C%22pos%22%3A%7B%22line%22%3A7%2C%22character%22%3A17%7D%7D%2C%7B%22uri%22%3A%7B%22scheme%22%3A%22file%22%2C%22authority%22%3A%22%22%2C%22path%22%3A%22%2Fworkspaces%2F2-DAM%2F2%C2%BADAM%2Fsistemasdegestion%2Fhito_organizado%2FHito1_1T_SGE_AlejandroPawlukiewicz%2Fscripts%2Fextraccion_datos.py%22%2C%22query%22%3A%22%22%2C%22fragment%22%3A%22%22%7D%2C%22pos%22%3A%7B%22line%22%3A3%2C%22character%22%3A7%7D%7D%5D%2C%22cca373e8-26ad-43c0-b143-9bef91f1ad3d%22%5D "Go to definition") y se guarda el DataFrame [`df`](command:_github.copilot.openSymbolFromReferences?%5B%22%22%2C%5B%7B%22uri%22%3A%7B%22scheme%22%3A%22vscode-notebook-cell%22%2C%22authority%22%3A%22codespaces%2Blegendary-umbrella-pjrvpgx6v4xqc6rgg%22%2C%22path%22%3A%22%2Fworkspaces%2F2-DAM%2F2%C2%BADAM%2Fsistemasdegestion%2Fhito_organizado%2FHito1_1T_SGE_AlejandroPawlukiewicz%2Fmain.ipynb%22%2C%22query%22%3A%22%22%2C%22fragment%22%3A%22X22sdnNjb2RlLXJlbW90ZQ%3D%3D%22%7D%2C%22pos%22%3A%7B%22line%22%3A6%2C%22character%22%3A30%7D%7D%2C%7B%22uri%22%3A%7B%22scheme%22%3A%22file%22%2C%22authority%22%3A%22%22%2C%22path%22%3A%22%2Fworkspaces%2F2-DAM%2F2%C2%BADAM%2Fsistemasdegestion%2Fhito_organizado%2FHito1_1T_SGE_AlejandroPawlukiewicz%2Fscripts%2Festadisticas.py%22%2C%22query%22%3A%22%22%2C%22fragment%22%3A%22%22%7D%2C%22pos%22%3A%7B%22line%22%3A6%2C%22character%22%3A26%7D%7D%2C%7B%22uri%22%3A%7B%22scheme%22%3A%22file%22%2C%22authority%22%3A%22%22%2C%22path%22%3A%22%2Fworkspaces%2F2-DAM%2F2%C2%BADAM%2Fsistemasdegestion%2Fhito_organizado%2FHito1_1T_SGE_AlejandroPawlukiewicz%2Fscripts%2Fextraccion_datos.py%22%2C%22query%22%3A%22%22%2C%22fragment%22%3A%22%22%7D%2C%22pos%22%3A%7B%22line%22%3A17%2C%22character%22%3A4%7D%7D%2C%7B%22uri%22%3A%7B%22scheme%22%3A%22file%22%2C%22authority%22%3A%22%22%2C%22path%22%3A%22%2Fworkspaces%2F2-DAM%2F2%C2%BADAM%2Fsistemasdegestion%2Fhito_organizado%2FHito1_1T_SGE_AlejandroPawlukiewicz%2Fscripts%2Flimpieza_datos.py%22%2C%22query%22%3A%22%22%2C%22fragment%22%3A%22%22%7D%2C%22pos%22%3A%7B%22line%22%3A5%2C%22character%22%3A22%7D%7D%2C%7B%22uri%22%3A%7B%22scheme%22%3A%22file%22%2C%22authority%22%3A%22%22%2C%22path%22%3A%22%2Fworkspaces%2F2-DAM%2F2%C2%BADAM%2Fsistemasdegestion%2Fhito_organizado%2FHito1_1T_SGE_AlejandroPawlukiewicz%2Fscripts%2Ftransformacion_datos.py%22%2C%22query%22%3A%22%22%2C%22fragment%22%3A%22%22%7D%2C%22pos%22%3A%7B%22line%22%3A3%2C%22character%22%3A25%7D%7D%5D%2C%22cca373e8-26ad-43c0-b143-9bef91f1ad3d%22%5D "Go to definition") utilizando el método [`to_excel`](command:_github.copilot.openSymbolFromReferences?%5B%22%22%2C%5B%7B%22uri%22%3A%7B%22scheme%22%3A%22vscode-notebook-cell%22%2C%22authority%22%3A%22codespaces%2Blegendary-umbrella-pjrvpgx6v4xqc6rgg%22%2C%22path%22%3A%22%2Fworkspaces%2F2-DAM%2F2%C2%BADAM%2Fsistemasdegestion%2Fhito_organizado%2FHito1_1T_SGE_AlejandroPawlukiewicz%2Fmain.ipynb%22%2C%22query%22%3A%22%22%2C%22fragment%22%3A%22X22sdnNjb2RlLXJlbW90ZQ%3D%3D%22%7D%2C%22pos%22%3A%7B%22line%22%3A8%2C%22character%22%3A10%7D%7D%5D%2C%22cca373e8-26ad-43c0-b143-9bef91f1ad3d%22%5D "Go to definition") de [`pandas`](command:_github.copilot.openSymbolFromReferences?%5B%22%22%2C%5B%7B%22uri%22%3A%7B%22scheme%22%3A%22file%22%2C%22authority%22%3A%22%22%2C%22path%22%3A%22%2Fworkspaces%2F2-DAM%2F2%C2%BADAM%2Fsistemasdegestion%2Fhito_organizado%2FHito1_1T_SGE_AlejandroPawlukiewicz%2Fscripts%2Festadisticas.py%22%2C%22query%22%3A%22%22%2C%22fragment%22%3A%22%22%7D%2C%22pos%22%3A%7B%22line%22%3A2%2C%22character%22%3A7%7D%7D%2C%7B%22uri%22%3A%7B%22scheme%22%3A%22file%22%2C%22authority%22%3A%22%22%2C%22path%22%3A%22%2Fworkspaces%2F2-DAM%2F2%C2%BADAM%2Fsistemasdegestion%2Fhito_organizado%2FHito1_1T_SGE_AlejandroPawlukiewicz%2Fscripts%2Fextraccion_datos.py%22%2C%22query%22%3A%22%22%2C%22fragment%22%3A%22%22%7D%2C%22pos%22%3A%7B%22line%22%3A2%2C%22character%22%3A7%7D%7D%2C%7B%22uri%22%3A%7B%22scheme%22%3A%22file%22%2C%22authority%22%3A%22%22%2C%22path%22%3A%22%2Fworkspaces%2F2-DAM%2F2%C2%BADAM%2Fsistemasdegestion%2Fhito_organizado%2FHito1_1T_SGE_AlejandroPawlukiewicz%2Fscripts%2Flimpieza_datos.py%22%2C%22query%22%3A%22%22%2C%22fragment%22%3A%22%22%7D%2C%22pos%22%3A%7B%22line%22%3A2%2C%22character%22%3A7%7D%7D%2C%7B%22uri%22%3A%7B%22scheme%22%3A%22file%22%2C%22authority%22%3A%22%22%2C%22path%22%3A%22%2Fworkspaces%2F2-DAM%2F2%C2%BADAM%2Fsistemasdegestion%2Fhito_organizado%2FHito1_1T_SGE_AlejandroPawlukiewicz%2Fscripts%2Ftransformacion_datos.py%22%2C%22query%22%3A%22%22%2C%22fragment%22%3A%22%22%7D%2C%22pos%22%3A%7B%22line%22%3A0%2C%22character%22%3A7%7D%7D%2C%7B%22uri%22%3A%7B%22scheme%22%3A%22file%22%2C%22authority%22%3A%22%22%2C%22path%22%3A%22%2Fworkspaces%2F2-DAM%2F2%C2%BADAM%2Fsistemasdegestion%2Fhito_organizado%2FHito1_1T_SGE_AlejandroPawlukiewicz%2Fmain.ipynb%22%2C%22query%22%3A%22%22%2C%22fragment%22%3A%22%22%7D%2C%22pos%22%3A%7B%22line%22%3A240%2C%22character%22%3A12%7D%7D%5D%2C%22cca373e8-26ad-43c0-b143-9bef91f1ad3d%22%5D "Go to definition").

---

### Visualización de las Primeras Filas



In [None]:
# Mostrar las primeras filas y columnas relevantes del DataFrame
print("Primeras filas del DataFrame original:")
print(df.iloc[:5, :10])  # Mostrar las primeras 5 filas y 10 columnas



**Descripción:**

Esta celda muestra las primeras 5 filas y 10 columnas del DataFrame original. Se utiliza el método [`iloc`](command:_github.copilot.openSymbolFromReferences?%5B%22%22%2C%5B%7B%22uri%22%3A%7B%22scheme%22%3A%22file%22%2C%22authority%22%3A%22%22%2C%22path%22%3A%22%2Fworkspaces%2F2-DAM%2F2%C2%BADAM%2Fsistemasdegestion%2Fhito_organizado%2FHito1_1T_SGE_AlejandroPawlukiewicz%2Fscripts%2Fextraccion_datos.py%22%2C%22query%22%3A%22%22%2C%22fragment%22%3A%22%22%7D%2C%22pos%22%3A%7B%22line%22%3A19%2C%22character%22%3A20%7D%7D%5D%2C%22cca373e8-26ad-43c0-b143-9bef91f1ad3d%22%5D "Go to definition") de [`pandas`](command:_github.copilot.openSymbolFromReferences?%5B%22%22%2C%5B%7B%22uri%22%3A%7B%22scheme%22%3A%22file%22%2C%22authority%22%3A%22%22%2C%22path%22%3A%22%2Fworkspaces%2F2-DAM%2F2%C2%BADAM%2Fsistemasdegestion%2Fhito_organizado%2FHito1_1T_SGE_AlejandroPawlukiewicz%2Fscripts%2Festadisticas.py%22%2C%22query%22%3A%22%22%2C%22fragment%22%3A%22%22%7D%2C%22pos%22%3A%7B%22line%22%3A2%2C%22character%22%3A7%7D%7D%2C%7B%22uri%22%3A%7B%22scheme%22%3A%22file%22%2C%22authority%22%3A%22%22%2C%22path%22%3A%22%2Fworkspaces%2F2-DAM%2F2%C2%BADAM%2Fsistemasdegestion%2Fhito_organizado%2FHito1_1T_SGE_AlejandroPawlukiewicz%2Fscripts%2Fextraccion_datos.py%22%2C%22query%22%3A%22%22%2C%22fragment%22%3A%22%22%7D%2C%22pos%22%3A%7B%22line%22%3A2%2C%22character%22%3A7%7D%7D%2C%7B%22uri%22%3A%7B%22scheme%22%3A%22file%22%2C%22authority%22%3A%22%22%2C%22path%22%3A%22%2Fworkspaces%2F2-DAM%2F2%C2%BADAM%2Fsistemasdegestion%2Fhito_organizado%2FHito1_1T_SGE_AlejandroPawlukiewicz%2Fscripts%2Flimpieza_datos.py%22%2C%22query%22%3A%22%22%2C%22fragment%22%3A%22%22%7D%2C%22pos%22%3A%7B%22line%22%3A2%2C%22character%22%3A7%7D%7D%2C%7B%22uri%22%3A%7B%22scheme%22%3A%22file%22%2C%22authority%22%3A%22%22%2C%22path%22%3A%22%2Fworkspaces%2F2-DAM%2F2%C2%BADAM%2Fsistemasdegestion%2Fhito_organizado%2FHito1_1T_SGE_AlejandroPawlukiewicz%2Fscripts%2Ftransformacion_datos.py%22%2C%22query%22%3A%22%22%2C%22fragment%22%3A%22%22%7D%2C%22pos%22%3A%7B%22line%22%3A0%2C%22character%22%3A7%7D%7D%2C%7B%22uri%22%3A%7B%22scheme%22%3A%22file%22%2C%22authority%22%3A%22%22%2C%22path%22%3A%22%2Fworkspaces%2F2-DAM%2F2%C2%BADAM%2Fsistemasdegestion%2Fhito_organizado%2FHito1_1T_SGE_AlejandroPawlukiewicz%2Fmain.ipynb%22%2C%22query%22%3A%22%22%2C%22fragment%22%3A%22%22%7D%2C%22pos%22%3A%7B%22line%22%3A240%2C%22character%22%3A12%7D%7D%5D%2C%22cca373e8-26ad-43c0-b143-9bef91f1ad3d%22%5D "Go to definition") para seleccionar las filas y columnas deseadas y se imprimen los resultados.

---

### Limpieza de Datos



In [None]:
# Limpieza de datos
print("Iniciando la limpieza de datos...") 

from scripts.limpieza_datos import limpiar_dataframe, reemplazar_nan_por_cero, limpiar_datos_incorrectos

# Limpiar el DataFrame
df_limpio = limpiar_dataframe(df)
archivo_limpio = os.path.join(directorio_salida, 'datos_ine_limpio.xlsx')
df_limpio.to_excel(archivo_limpio, index=False)
print(f"Datos limpiados y guardados en: {archivo_limpio}")

# Reemplazar NaN por 0
df_sin_nan = reemplazar_nan_por_cero(df_limpio)
archivo_sin_nan = os.path.join(directorio_salida, 'datos_ine_sin_nan.xlsx')
df_sin_nan.to_excel(archivo_sin_nan, index=False)
print(f"Datos con NaN reemplazados por 0 y guardados en: {archivo_sin_nan}")

# Limpiar datos incorrectos
df_corregido = limpiar_datos_incorrectos(df_sin_nan)
archivo_corregido = os.path.join(directorio_salida, 'datos_ine_corregido.xlsx')
df_corregido.to_excel(archivo_corregido, index=False)
print(f"Datos incorrectos limpiados y guardados en: {archivo_corregido}")



**Descripción:**

En esta celda, se realiza la limpieza de datos en varias etapas:

1. **Limpieza del DataFrame**: Se utiliza la función [`limpiar_dataframe`](command:_github.copilot.openSymbolFromReferences?%5B%22%22%2C%5B%7B%22uri%22%3A%7B%22scheme%22%3A%22vscode-notebook-cell%22%2C%22authority%22%3A%22codespaces%2Blegendary-umbrella-pjrvpgx6v4xqc6rgg%22%2C%22path%22%3A%22%2Fworkspaces%2F2-DAM%2F2%C2%BADAM%2Fsistemasdegestion%2Fhito_organizado%2FHito1_1T_SGE_AlejandroPawlukiewicz%2Fmain.ipynb%22%2C%22query%22%3A%22%22%2C%22fragment%22%3A%22X22sdnNjb2RlLXJlbW90ZQ%3D%3D%22%7D%2C%22pos%22%3A%7B%22line%22%3A3%2C%22character%22%3A35%7D%7D%2C%7B%22uri%22%3A%7B%22scheme%22%3A%22file%22%2C%22authority%22%3A%22%22%2C%22path%22%3A%22%2Fworkspaces%2F2-DAM%2F2%C2%BADAM%2Fsistemasdegestion%2Fhito_organizado%2FHito1_1T_SGE_AlejandroPawlukiewicz%2Fscripts%2Flimpieza_datos.py%22%2C%22query%22%3A%22%22%2C%22fragment%22%3A%22%22%7D%2C%22pos%22%3A%7B%22line%22%3A5%2C%22character%22%3A4%7D%7D%5D%2C%22cca373e8-26ad-43c0-b143-9bef91f1ad3d%22%5D "Go to definition") para eliminar filas y columnas que están completamente vacías. El DataFrame resultante se guarda en un archivo Excel.
2. **Reemplazo de NaN por 0**: Se utiliza la función [`reemplazar_nan_por_cero`](command:_github.copilot.openSymbolFromReferences?%5B%22%22%2C%5B%7B%22uri%22%3A%7B%22scheme%22%3A%22vscode-notebook-cell%22%2C%22authority%22%3A%22codespaces%2Blegendary-umbrella-pjrvpgx6v4xqc6rgg%22%2C%22path%22%3A%22%2Fworkspaces%2F2-DAM%2F2%C2%BADAM%2Fsistemasdegestion%2Fhito_organizado%2FHito1_1T_SGE_AlejandroPawlukiewicz%2Fmain.ipynb%22%2C%22query%22%3A%22%22%2C%22fragment%22%3A%22X22sdnNjb2RlLXJlbW90ZQ%3D%3D%22%7D%2C%22pos%22%3A%7B%22line%22%3A3%2C%22character%22%3A54%7D%7D%2C%7B%22uri%22%3A%7B%22scheme%22%3A%22file%22%2C%22authority%22%3A%22%22%2C%22path%22%3A%22%2Fworkspaces%2F2-DAM%2F2%C2%BADAM%2Fsistemasdegestion%2Fhito_organizado%2FHito1_1T_SGE_AlejandroPawlukiewicz%2Fscripts%2Flimpieza_datos.py%22%2C%22query%22%3A%22%22%2C%22fragment%22%3A%22%22%7D%2C%22pos%22%3A%7B%22line%22%3A10%2C%22character%22%3A4%7D%7D%5D%2C%22cca373e8-26ad-43c0-b143-9bef91f1ad3d%22%5D "Go to definition") para reemplazar los valores NaN por 0 en el DataFrame limpio. El DataFrame resultante se guarda en un archivo Excel.
3. **Limpieza de Datos Incorrectos**: Se utiliza la función [`limpiar_datos_incorrectos`](command:_github.copilot.openSymbolFromReferences?%5B%22%22%2C%5B%7B%22uri%22%3A%7B%22scheme%22%3A%22vscode-notebook-cell%22%2C%22authority%22%3A%22codespaces%2Blegendary-umbrella-pjrvpgx6v4xqc6rgg%22%2C%22path%22%3A%22%2Fworkspaces%2F2-DAM%2F2%C2%BADAM%2Fsistemasdegestion%2Fhito_organizado%2FHito1_1T_SGE_AlejandroPawlukiewicz%2Fmain.ipynb%22%2C%22query%22%3A%22%22%2C%22fragment%22%3A%22X22sdnNjb2RlLXJlbW90ZQ%3D%3D%22%7D%2C%22pos%22%3A%7B%22line%22%3A3%2C%22character%22%3A79%7D%7D%2C%7B%22uri%22%3A%7B%22scheme%22%3A%22file%22%2C%22authority%22%3A%22%22%2C%22path%22%3A%22%2Fworkspaces%2F2-DAM%2F2%C2%BADAM%2Fsistemasdegestion%2Fhito_organizado%2FHito1_1T_SGE_AlejandroPawlukiewicz%2Fscripts%2Flimpieza_datos.py%22%2C%22query%22%3A%22%22%2C%22fragment%22%3A%22%22%7D%2C%22pos%22%3A%7B%22line%22%3A13%2C%22character%22%3A4%7D%7D%5D%2C%22cca373e8-26ad-43c0-b143-9bef91f1ad3d%22%5D "Go to definition") para corregir datos incorrectos en el DataFrame sin NaN. Los valores negativos se reemplazan por 0 y las columnas no numéricas se convierten a cadenas de texto. El DataFrame resultante se guarda en un archivo Excel.

---


In [1]:
import os
import sys
sys.path.append('..')
import pandas as pd

from scripts.extraccion_datos import *

# Crear la carpeta 'data' si no existe
directorio_salida = 'data'
os.makedirs(directorio_salida, exist_ok=True)

# Descargar el archivo Excel
url = 'https://www.ine.es/jaxiT3/files/t/es/xlsx/60272.xlsx?nocab=1'
ruta_salida = os.path.join(directorio_salida, 'datos_ine.xlsx')
descargar_archivo_excel(url, ruta_salida)

# Verificar que la descarga fue exitosa
if os.path.exists(ruta_salida):
    print("Descarga exitosa del archivo Excel.")
else:
    print("Error en la descarga del archivo Excel.")

# Cargar el archivo Excel
datos_excel = cargar_archivo_excel(ruta_salida)

# Leer la hoja de datos
nombre_hoja = datos_excel.sheet_names[0]
df = leer_hoja_excel(datos_excel, nombre_hoja)

# Guardar el DataFrame original con codificación UTF-8
ruta_salida_original = os.path.join(directorio_salida, 'datos_ine_original.xlsx')
df.to_excel(ruta_salida_original, index=False)

# Mostrar las primeras filas y columnas relevantes del DataFrame
print("Primeras filas del DataFrame original:")
print(df.iloc[:5, :10])  # Mostrar las primeras 5 filas y 10 columnas

Descarga exitosa del archivo Excel.


  warn("Workbook contains no default style, apply openpyxl's default")


Primeras filas del DataFrame original:
0       Índice de Producción Industrial. (Base 2021)     NaN  NaN  NaN  NaN  \
0                                                NaN     NaN  NaN  NaN  NaN   
1  General y por destino económico de los bienes....     NaN  NaN  NaN  NaN   
2                        Unidades:   Índice,   Tasas     NaN  NaN  NaN  NaN   
3                                                NaN     NaN  NaN  NaN  NaN   
4                                                     Índice  NaN  NaN  NaN   

0  NaN  NaN  NaN  NaN  NaN  
0  NaN  NaN  NaN  NaN  NaN  
1  NaN  NaN  NaN  NaN  NaN  
2  NaN  NaN  NaN  NaN  NaN  
3  NaN  NaN  NaN  NaN  NaN  
4  NaN  NaN  NaN  NaN  NaN  


In [2]:
# Limpieza de datos
print("Iniciando la limpieza de datos...") 

from scripts.limpieza_datos import limpiar_dataframe, reemplazar_nan_por_cero, limpiar_datos_incorrectos

# Limpiar el DataFrame
df_limpio = limpiar_dataframe(df)
archivo_limpio = os.path.join(directorio_salida, 'datos_ine_limpio.xlsx')
df_limpio.to_excel(archivo_limpio, index=False)
print(f"Datos limpiados y guardados en: {archivo_limpio}")

# Reemplazar NaN por 0
df_sin_nan = reemplazar_nan_por_cero(df_limpio)
archivo_sin_nan = os.path.join(directorio_salida, 'datos_ine_sin_nan.xlsx')
df_sin_nan.to_excel(archivo_sin_nan, index=False)
print(f"Datos con NaN reemplazados por 0 y guardados en: {archivo_sin_nan}")

# Limpiar datos incorrectos
df_corregido = limpiar_datos_incorrectos(df_sin_nan)
archivo_corregido = os.path.join(directorio_salida, 'datos_ine_corregido.xlsx')
df_corregido.to_excel(archivo_corregido, index=False)
print(f"Datos incorrectos limpiados y guardados en: {archivo_corregido}")

Iniciando la limpieza de datos...
Datos limpiados y guardados en: data/datos_ine_limpio.xlsx
Datos con NaN reemplazados por 0 y guardados en: data/datos_ine_sin_nan.xlsx
Datos incorrectos limpiados y guardados en: data/datos_ine_corregido.xlsx


In [3]:
# Función para transponer el DataFrame
def transponer_dataframe(df):
    return df.transpose()

# Transponer el DataFrame
df_transpuesto = transponer_dataframe(df_corregido)
archivo_transpuesto = os.path.join(directorio_salida, 'datos_ine_transpuesto.xlsx')
df_transpuesto.to_excel(archivo_transpuesto, index=False)
print(f"Datos transpuestos y guardados en: {archivo_transpuesto}")

# Extraer colecciones de datos
colecciones_datos = [df_transpuesto.iloc[i].tolist() for i in range(len(df_transpuesto))]
print("Colecciones de datos extraídas correctamente.")

Datos transpuestos y guardados en: data/datos_ine_transpuesto.xlsx
Colecciones de datos extraídas correctamente.


In [4]:
import os

# Importar la función guardar_datos_concatenados desde el archivo correspondiente
from scripts.operaciones import guardar_datos_concatenados

# Asegurarse de que el directorio de salida existe
directorio_salida = 'data'
if not os.path.exists(directorio_salida):
    os.makedirs(directorio_salida)

# Guardar las colecciones de datos en un archivo de texto con codificación UTF-8
archivo_lista = os.path.join(directorio_salida, 'lista.txt')
guardar_datos_concatenados(colecciones_datos, archivo_lista)
print(f"Colecciones de datos guardadas en: {archivo_lista}")

Colecciones de datos guardadas en: data/lista.txt


In [5]:
import os
import pandas as pd
import numpy as np

# Asegurarse de que el directorio de salida existe
directorio_salida = 'data'
if not os.path.exists(directorio_salida):
    os.makedirs(directorio_salida)

# Cargar el DataFrame transpuesto desde el archivo Excel
ruta_archivo_transpuesto = os.path.join(directorio_salida, 'datos_ine_transpuesto.xlsx')
df_transpuesto = pd.read_excel(ruta_archivo_transpuesto)

# Definir las columnas de interés
columnas_interes = [
    'Total industria', 'Bienes de consumo', 'Bienes de consumo duradero',
    'Bienes de consumo no duradero', 'Bienes de equipo', 'Bienes intermedios', 'Energía'
]

# Función para encontrar la fila que contiene las categorías de interés
def encontrar_fila_categorias(df, categorias):
    for idx, row in df.iterrows():
        if all(categoria in ' '.join(row.astype(str)) for categoria in categorias):
            return idx
    return None

# Encontrar la fila que contiene las categorías
fila_categorias = encontrar_fila_categorias(df_transpuesto, columnas_interes)

if fila_categorias is not None:
    # Usar la fila de categorías como encabezados
    df_transpuesto.columns = df_transpuesto.iloc[fila_categorias]
    df_transpuesto = df_transpuesto.iloc[fila_categorias + 1:].reset_index(drop=True)

    # Convertir a numérico
    df_transpuesto = df_transpuesto.apply(pd.to_numeric, errors='coerce')

    # Crear un nuevo DataFrame para almacenar los datos de interés
    df_datos_interes = pd.DataFrame()

    # Recopilar todos los datos para cada categoría de interés
    for categoria in columnas_interes:
        columnas_categoria = [col for col in df_transpuesto.columns if categoria in col]
        datos_categoria = df_transpuesto[columnas_categoria].values.flatten()
        df_datos_interes[categoria] = pd.Series(datos_categoria)

    # Eliminar filas que son completamente NaN
    df_datos_interes = df_datos_interes.dropna(how='all')

    # Guardar el DataFrame con todos los datos en un nuevo archivo Excel
    ruta_archivo_datos = os.path.join(directorio_salida, 'datos_ine_por_categoria.xlsx')
    df_datos_interes.to_excel(ruta_archivo_datos, index=False)
    print(f"DataFrame con todos los datos guardado en: {ruta_archivo_datos}")

    # Imprimir información sobre los datos
    print("\nInformación de los datos por categoría:")
    for columna in columnas_interes:
        datos = df_datos_interes[columna].dropna()
        print(f"{columna}:")
        print(f"  Número de valores: {len(datos)}")
        print(f"  Primeros 5 valores: {datos.head().tolist()}")
        print(f"  Últimos 5 valores: {datos.tail().tolist()}")
        print()

else:
    print("No se encontró una fila que contenga todas las categorías de interés.")

DataFrame con todos los datos guardado en: data/datos_ine_por_categoria.xlsx

Información de los datos por categoría:
Total industria:
  Número de valores: 367740
  Primeros 5 valores: [78.837, 88.496, 81.07, 75.054, 111.844]
  Últimos 5 valores: [0.4, 0.4, 0.4, 0.4, 0.4]

Bienes de consumo:
  Número de valores: 474984
  Primeros 5 valores: [83.304, 74.254, 90.701, 88.873, 119.36]
  Últimos 5 valores: [6.5, 8.5, -11.1, 8.5, 5.0]

Bienes de consumo duradero:
  Número de valores: 367740
  Primeros 5 valores: [68.17, 56.858, 93.734, 68.918, 111.597]
  Últimos 5 valores: [238.6, 238.6, 238.6, 238.6, 238.6]

Bienes de consumo no duradero:
  Número de valores: 367740
  Primeros 5 valores: [84.709, 76.284, 89.638, 89.504, 120.917]
  Últimos 5 valores: [-50.9, -50.9, -50.9, -50.9, -50.9]

Bienes de equipo:
  Número de valores: 367740
  Primeros 5 valores: [65.451, 67.538, 59.153, 79.242, 58.386]
  Últimos 5 valores: [56.7, 56.7, 56.7, 56.7, 56.7]

Bienes intermedios:
  Número de valores: 36774

In [6]:
import os
import pandas as pd
import numpy as np

# Asegurarse de que el directorio de salida existe
directorio_salida = 'data'
if not os.path.exists(directorio_salida):
    os.makedirs(directorio_salida)

# Cargar el DataFrame con los datos por categoría
ruta_archivo_datos = os.path.join(directorio_salida, 'datos_ine_por_categoria.xlsx')
df_datos_interes = pd.read_excel(ruta_archivo_datos)

# Definir las columnas de interés
columnas_interes = [
    'Total industria', 'Bienes de consumo', 'Bienes de consumo duradero',
    'Bienes de consumo no duradero', 'Bienes de equipo', 'Bienes intermedios', 'Energía'
]

# Crear un DataFrame para almacenar las estadísticas
df_estadisticas = pd.DataFrame(columns=['Categoría', 'Media', 'Varianza', 'Moda'])

# Calcular estadísticas para cada categoría de interés
estadisticas = []
for categoria in columnas_interes:
    datos = df_datos_interes[categoria].dropna()
    
    media = datos.mean()
    varianza = datos.var()
    moda = datos.mode().iloc[0] if not datos.empty else None

    estadisticas.append({
        'Categoría': categoria,
        'Media': media,
        'Varianza': varianza,
        'Moda': moda
    })

df_estadisticas = pd.DataFrame(estadisticas)

# Calcular estadísticas globales
media_global = df_estadisticas['Media'].mean()
varianza_global = df_estadisticas['Varianza'].mean()
moda_global = df_estadisticas['Moda'].mode().iloc[0] if not df_estadisticas['Moda'].empty else None

# Guardar las estadísticas en un archivo de texto
ruta_archivo_estadisticas_txt = os.path.join(directorio_salida, 'lista_estadisticas.txt')
with open(ruta_archivo_estadisticas_txt, 'w', encoding='utf-8') as f:
    f.write("Estadísticas por categoría:\n")
    for index, row in df_estadisticas.iterrows():
        f.write(f"{row['Categoría']}: Media={row['Media']}, Varianza={row['Varianza']}, Moda={row['Moda']}\n")
    
    f.write("\nEstadísticas globales:\n")
    f.write(f"MEDIA GLOBAL: {media_global}\n")
    f.write(f"VARIANZA GLOBAL: {varianza_global}\n")
    f.write(f"MODA GLOBAL: {moda_global}\n")

print(f"Estadísticas guardadas en: {ruta_archivo_estadisticas_txt}")

# Imprimir resultados en consola
print("Estadísticas por categoría:")
print(df_estadisticas.to_string(index=False))

print("\nEstadísticas globales:")
print(f"MEDIA GLOBAL: {media_global}")
print(f"VARIANZA GLOBAL: {varianza_global}")
print(f"MODA GLOBAL: {moda_global}")

Estadísticas guardadas en: data/lista_estadisticas.txt
Estadísticas por categoría:
                    Categoría     Media     Varianza  Moda
              Total industria 27.830045  2436.152616   1.3
            Bienes de consumo 89.748157 26681.844156   3.4
   Bienes de consumo duradero 60.074250 35248.948583   0.0
Bienes de consumo no duradero 27.905035  2599.979123   0.7
             Bienes de equipo 32.495436  4150.023898   1.9
           Bienes intermedios 29.430186  3734.279922   1.2
                      Energía 29.631316  3070.528135   3.3

Estadísticas globales:
MEDIA GLOBAL: 42.44491769869906
VARIANZA GLOBAL: 11131.67949042543
MODA GLOBAL: 0.0


In [7]:
import os
import pandas as pd

class FilaDatos:
    def __init__(self, **kwargs):
        for key, value in kwargs.items():
            setattr(self, key, value)

    def __str__(self):
        return ', '.join(f"{key}: {value}" for key, value in self.__dict__.items())

    def modificar_atributo(self, atributo, valor):
        setattr(self, atributo, valor)

    def __eq__(self, otro):
        return self.__dict__.get('Bienes de consumo') == otro.__dict__.get('Bienes de consumo')

    def __add__(self, otro):
        resultado = {key: getattr(self, key, 0) + getattr(otro, key, 0) for key in self.__dict__.keys()}
        return FilaDatos(**resultado)

    def __sub__(self, otro):
        resultado = {key: getattr(self, key, 0) - getattr(otro, key, 0) for key in self.__dict__.keys()}
        return FilaDatos(**resultado)

def cargar_datos(ruta_archivo):
    return pd.read_excel(ruta_archivo)

def crear_objetos_filas(df, num_filas=5):
    return [FilaDatos(**row) for index, row in df.head(num_filas).iterrows()]

def main():
    # Asegurarse de que el directorio de salida existe
    directorio_salida = 'data'
    if not os.path.exists(directorio_salida):
        os.makedirs(directorio_salida)

    # Cargar el DataFrame con los datos por categoría
    ruta_archivo_datos = os.path.join(directorio_salida, 'datos_ine_por_categoria.xlsx')
    df_datos_interes = cargar_datos(ruta_archivo_datos)

    # Crear objetos de la clase para al menos cinco filas
    filas = crear_objetos_filas(df_datos_interes)

    # Probar métodos
    for fila in filas:
        print(fila)

    # Modificar valores
    filas[0].modificar_atributo('Total industria', 999)
    print(f"Fila modificada: {filas[0]}")

    # Comparar objetos
    print(f"Comparación: {filas[0] == filas[1]}")

    # Sumar objetos
    print(f"Suma: {filas[0] + filas[1]}")

    # Restar objetos
    print(f"Resta: {filas[0] - filas[1]}")

if __name__ == "__main__":
    main()

Total industria: 78.837, Bienes de consumo: 83.304, Bienes de consumo duradero: 68.17, Bienes de consumo no duradero: 84.709, Bienes de equipo: 65.451, Bienes intermedios: 69.822, Energía: 104.356
Total industria: 88.496, Bienes de consumo: 74.254, Bienes de consumo duradero: 56.858, Bienes de consumo no duradero: 76.284, Bienes de equipo: 67.538, Bienes intermedios: 82.633, Energía: 119.328
Total industria: 81.07, Bienes de consumo: 90.701, Bienes de consumo duradero: 93.734, Bienes de consumo no duradero: 89.638, Bienes de equipo: 59.153, Bienes intermedios: 75.571, Energía: 110.959
Total industria: 75.054, Bienes de consumo: 88.873, Bienes de consumo duradero: 68.918, Bienes de consumo no duradero: 89.504, Bienes de equipo: 79.242, Bienes intermedios: 75.017, Energía: 66.575
Total industria: 111.844, Bienes de consumo: 119.36, Bienes de consumo duradero: 111.597, Bienes de consumo no duradero: 120.917, Bienes de equipo: 58.386, Bienes intermedios: 61.797, Energía: 147.713
Fila modif