In [1]:
import os
import sys
sys.path.append('..')
import pandas as pd

from scripts.extraccion_datos import *

# Crear la carpeta 'data' si no existe
directorio_salida = 'data'
os.makedirs(directorio_salida, exist_ok=True)

# Descargar el archivo Excel
url = 'https://www.ine.es/jaxiT3/files/t/es/xlsx/60272.xlsx?nocab=1'
ruta_salida = os.path.join(directorio_salida, 'datos_ine.xlsx')
descargar_archivo_excel(url, ruta_salida)

# Verificar que la descarga fue exitosa
if os.path.exists(ruta_salida):
    print("Descarga exitosa del archivo Excel.")
else:
    print("Error en la descarga del archivo Excel.")

# Cargar el archivo Excel
datos_excel = cargar_archivo_excel(ruta_salida)

# Leer la hoja de datos
nombre_hoja = datos_excel.sheet_names[0]
df = leer_hoja_excel(datos_excel, nombre_hoja)

# Guardar el DataFrame original con codificación UTF-8
ruta_salida_original = os.path.join(directorio_salida, 'datos_ine_original.xlsx')
df.to_excel(ruta_salida_original, index=False)

# Mostrar las primeras filas y columnas relevantes del DataFrame
print("Primeras filas del DataFrame original:")
print(df.iloc[:5, :10])  # Mostrar las primeras 5 filas y 10 columnas

Descarga exitosa del archivo Excel.


  warn("Workbook contains no default style, apply openpyxl's default")


Primeras filas del DataFrame original:
0       Índice de Producción Industrial. (Base 2021)     NaN  NaN  NaN  NaN  \
0                                                NaN     NaN  NaN  NaN  NaN   
1  General y por destino económico de los bienes....     NaN  NaN  NaN  NaN   
2                        Unidades:   Índice,   Tasas     NaN  NaN  NaN  NaN   
3                                                NaN     NaN  NaN  NaN  NaN   
4                                                     Índice  NaN  NaN  NaN   

0  NaN  NaN  NaN  NaN  NaN  
0  NaN  NaN  NaN  NaN  NaN  
1  NaN  NaN  NaN  NaN  NaN  
2  NaN  NaN  NaN  NaN  NaN  
3  NaN  NaN  NaN  NaN  NaN  
4  NaN  NaN  NaN  NaN  NaN  


In [None]:
# Limpieza de datos
print("Iniciando la limpieza de datos...") 

from scripts.limpieza_datos import limpiar_dataframe, reemplazar_nan_por_cero, limpiar_datos_incorrectos

# Limpiar el DataFrame
df_limpio = limpiar_dataframe(df)
archivo_limpio = os.path.join(directorio_salida, 'datos_ine_limpio.xlsx')
df_limpio.to_excel(archivo_limpio, index=False)
print(f"Datos limpiados y guardados en: {archivo_limpio}")

# Reemplazar NaN por 0
df_sin_nan = reemplazar_nan_por_cero(df_limpio)
archivo_sin_nan = os.path.join(directorio_salida, 'datos_ine_sin_nan.xlsx')
df_sin_nan.to_excel(archivo_sin_nan, index=False)
print(f"Datos con NaN reemplazados por 0 y guardados en: {archivo_sin_nan}")

# Limpiar datos incorrectos
df_corregido = limpiar_datos_incorrectos(df_sin_nan)
archivo_corregido = os.path.join(directorio_salida, 'datos_ine_corregido.xlsx')
df_corregido.to_excel(archivo_corregido, index=False)
print(f"Datos incorrectos limpiados y guardados en: {archivo_corregido}")

Iniciando la limpieza de datos...
Datos limpiados y guardados en: data\datos_ine_limpio.xlsx
Datos con NaN reemplazados por 0 y guardados en: data\datos_ine_sin_nan.xlsx


In [None]:
# Transformación de los datos
from scripts.transformacion_datos import transponer_dataframe, extraer_colecciones_datos

# Transformar los datos
df_transpuesto = transponer_dataframe(df_corregido)
archivo_transpuesto = os.path.join(directorio_salida, 'datos_ine_transpuesto.xlsx')
df_transpuesto.to_excel(archivo_transpuesto, index=False)
print(f"Datos transformados y guardados en: {archivo_transpuesto}")

# Extraer colecciones de datos
colecciones_datos = extraer_colecciones_datos(df_transpuesto)
print("Colecciones de datos extraídas correctamente.")

In [None]:
import os

# Importar la función guardar_datos_concatenados desde el archivo correspondiente
from scripts.operaciones import guardar_datos_concatenados

# Asegurarse de que el directorio de salida existe
directorio_salida = 'data'
if not os.path.exists(directorio_salida):
    os.makedirs(directorio_salida)

# Guardar las colecciones de datos en un archivo de texto con codificación UTF-8
archivo_lista = os.path.join(directorio_salida, 'lista.txt')
guardar_datos_concatenados(colecciones_datos, archivo_lista, encoding='utf-8')
print(f"Colecciones de datos guardadas en: {archivo_lista}")

In [None]:
import os
import pandas as pd
from scripts.estadisticas_datos import calcular_estadisticas

# Asegurarse de que el directorio de salida existe
directorio_salida = 'data'
if not os.path.exists(directorio_salida):
    os.makedirs(directorio_salida)

# Calcular estadísticas
estadisticas = calcular_estadisticas(df_corregido)

# Guardar estadísticas en lista.txt
archivo_estadisticas = os.path.join(directorio_salida, 'lista.txt')
guardar_datos_concatenados(colecciones_datos, archivo_estadisticas, encoding='utf-8')
print(f"Colecciones de datos guardadas en: {archivo_estadisticas}")

try:
    with open(archivo_estadisticas, 'a') as file:
        file.write("\nEstadísticas:\n")
        for columna, stats in estadisticas.items():
            file.write(f"{columna} - Media: {stats['media']}, Varianza: {stats['varianza']}, Moda: {stats['moda']}\n")
    print(f"Estadísticas calculadas y guardadas en: {archivo_estadisticas}")
except Exception as e:
    print(f"Error al guardar las estadísticas en {archivo_estadisticas}: {e}")

# Verificar el contenido del archivo lista.txt
try:
    with open(archivo_estadisticas, 'r') as file:
        contenido = file.read()
    print("Contenido del archivo lista.txt:")
    print(contenido)
except Exception as e:
    print(f"Error al leer el archivo {archivo_estadisticas}: {e}")

In [None]:
# Introducción a la Programación Orientada a Objetos (POO)
from scripts.clase_datos import FilaDatos

# Crear objetos de la clase FilaDatos para al menos cinco filas
objetos_datos = [FilaDatos(**fila) for _, fila in df_corregido.head(5).iterrows()]

# Probar todos los métodos
for obj in objetos_datos:
    print(obj)

# Modificar un atributo
objetos_datos[0].modificar_atributo('some_column', 100)

# Comparar objetos
print(objetos_datos[0] == objetos_datos[1])

# Sumar y restar objetos
print(objetos_datos[0] + objetos_datos[1])
print(objetos_datos[0] - objetos_datos[1])

# Mostrar la tabla transformada en la consola de manera visual e intuitiva
print("\nTabla transformada:")
print(df_transpuesto.to_string(index=False))