### Importación de Archivos SQL

En esta sección, se importa y organiza la información contenida en archivos SQL, separándolos por carpetas o claves para su uso posterior. El objetivo es asegurar que la estructura de los datos sea consistente y adecuada para su procesamiento posterior.

El proceso incluye las siguientes verificaciones:

- **Validación de archivos**: Se revisa si todos los archivos necesarios están presentes, asegurando que no falten archivos importantes.
- **Detección de duplicados**: Se comprueba si existen registros duplicados en los datos importados.
- **Verificación de la consistencia de las dimensiones**: Se asegura que todos los archivos tengan el mismo número de filas y columnas, para evitar errores de incompatibilidad.
- **Estructura de los datos**: Se valida que cada DataFrame importado tenga la siguiente estructura:
  - **Data time**
  - **Close**
  - **Open**
  - **High**
  - **Low**
  - **Volume**

El objetivo es garantizar que todos los datos estén bien organizados, sin errores de duplicidad ni inconsistencias, para su posterior análisis y procesamiento en el sistema.


In [1]:
from modules.import_modules.import_m import cargar_dataframes, agregar_extension_csv #Dataframe de importacion, identificador de dataframes.
from modules.import_modules.security_import import verificar_diccionario,DuplicateChecker #Verificacion de los datos importados
from modules.import_modules.print_situation_import import validar_diccionario # Reporte de los check o verificaciones de los datos importados



#importando en un diccionario:
carpeta_base = 'C:\\Users\\spinz\\Documents\\Portafolio Oficial\\HERMESDB\\data\\raw' # Directorio de los datos sin procesar
diccionario_datos = cargar_dataframes(carpeta_base) #Diccionario con los dataframes de importacion
diccionario_datos = agregar_extension_csv(diccionario_datos) #Agregando la extension csv a los dataframes importados

#Verificacion de los datos importados
verificacion_1 = verificar_diccionario(diccionario_datos) # Verifica la estructura y validez de los archivos CSV en un diccionario de datos.
verificacion_1 = verificacion_1['Resumen'] # Resumen de la verificación 1
resultado = validar_diccionario(verificacion_1)
print(resultado)
import nest_asyncio #Libreria necesaria para que funcione el asyncio en jupyter debido a que esto usando la cpu
nest_asyncio.apply() # Aplicando la libreria nest_asyncio
if __name__ == '__main__':
    # Crear un diccionario con DataFrames de ejemplo
    # Instanciar la clase y ejecutar la detección de duplicados
    verificacion_2 = DuplicateChecker(diccionario_datos)
    verificacion_2.run()



Verificación superada: Todos los criterios cumplen los requisitos establecidos.


Comparing DataFrames: 100%|██████████| 12/12 [00:12<00:00,  1.07s/it]


# Limpieza y Adecuación de DataFrames

## Descripción

En el proceso de análisis de datos, es crucial trabajar con información limpia, estructurada y consistente. Esta etapa tiene como objetivo garantizar que los DataFrames almacenados en un diccionario cumplan con los requisitos técnicos para un análisis avanzado y confiable. Se eliminan valores no válidos y se estandarizan formatos para evitar errores en etapas posteriores.

### Eliminación de Valores No Válidos

Se identifican y eliminan valores que pueden comprometer la calidad de los datos, tales como:

- **Valores nulos (`NaN`)**: Indicadores de datos faltantes que podrían distorsionar cálculos.
- **Valores infinitos (`Inf`)**: Resultados de operaciones inválidas que deben ser tratados como errores.
- **Filas inconsistentes**: Aquellas que contienen información no procesable o incompleta.

Esto asegura que cada fila de datos sea válida y útil para el análisis.

### Adecuación de Formatos de Columna

Para garantizar la coherencia en los cálculos, se verifica y ajusta el formato de todas las columnas:

- La columna `datetime` debe estar presente y ser convertida al formato **datetime64**, lo que permite un manejo eficiente de datos temporales.
- Las columnas restantes deben estar en formato **float64**, asegurando precisión en los valores numéricos.

Cualquier fila que no cumpla con estos criterios será eliminada.

### Ordenamiento y Reindexación

Una vez procesados los datos, la columna `datetime` se utiliza para ordenar cronológicamente las filas de cada DataFrame, lo que facilita la interpretación y el análisis temporal. Finalmente, los DataFrames se reindexan para garantizar un índice limpio y continuo.

### Resultado Esperado

El resultado de este proceso es un conjunto de DataFrames que:

1. **Carecen de valores no válidos**: Sin `NaN`, `Inf` ni inconsistencias.
2. **Tienen columnas con formatos correctos**: `datetime` en **datetime64** y demás columnas en **float64**.
3. **Están estructurados y listos para análisis**: Ordenados cronológicamente y con un índice consistente.

Este paso es fundamental para garantizar que las operaciones posteriores, como visualización, modelado o análisis estadístico, se realicen de manera eficiente y precisa.


In [2]:
from modules.Limpieza_y_normalizacion.Localtime_normalize import process_hierarchical_dict #Normalizacion de la columna de tiempo.
from modules.Limpieza_y_normalizacion.DataRefiner import DataCleaner #Limpieza de los datos.
from modules.Export.Export import DataFrameExporter #Exportacion de los datos limpios.

#Para sebastian del mañana recuera que falta el verificador de columnas 

# tambien recuerda como solucioanr el problema de la normalizacion de la columna de tiempo.
# Buevo problema al exportar los archivos csv limpios, no se exportan correctamente, se exportan con el nombre de la columna y no con el nombre del archivo.

#Normalizacion de la columna de tiempo y limpieza de los datos
diccionario_datos = process_hierarchical_dict(diccionario_datos) #Normalizando la columna de tiempo

# Llamando a la clase DataCleaner
cleaner = DataCleaner(max_missing_allowed=2)
# Llamando al método run para limpiar los datos
cleaned_data = cleaner.clean_data(diccionario_datos)

#Exportando los datos limpios
exporter = DataFrameExporter(cleaned_data,'C:\\Users\\spinz\\Documents\\Portafolio Oficial\\HERMESDB\\data\\preprocessed')
exporter.export()


{'crypto': {'BTCUSD': {'1D': {'BTCUSD_1D_ASK.csv':                            Price
Date                            
2020-01-02 00:00:00+00:00   7100
2020-01-01 00:00:00+00:00   7000}}}}
Export Report:
Created Folders:
 - /path/to/export\crypto\BTCUSD\1D
 - /path/to/export\crypto
 - /path/to/export\crypto\BTCUSD
Exported Files:
 - /path/to/export\crypto\BTCUSD\1D\BTCUSD_1D_ASK.csv
 - /path/to/export\crypto\BTCUSD\1D\BTCUSD_1D_BID.csv
Carpeta vacía o archivo no compatible, revise documentación: .


100%|██████████| 50/50 [00:01<00:00, 28.57it/s]


Total files processed: 50
Total rows removed: 0
Export Report:
Created Folders:
 - C:\Users\spinz\Documents\Portafolio Oficial\HERMESDB\data\preprocessed\forex\EURUSD\1W
 - C:\Users\spinz\Documents\Portafolio Oficial\HERMESDB\data\preprocessed\forex\USDJPY\1D
 - C:\Users\spinz\Documents\Portafolio Oficial\HERMESDB\data\preprocessed\forex\USDJPY\1M
 - C:\Users\spinz\Documents\Portafolio Oficial\HERMESDB\data\preprocessed\metals\XAUUSD\4H
 - C:\Users\spinz\Documents\Portafolio Oficial\HERMESDB\data\preprocessed\forex\GBPUSD\1M
 - C:\Users\spinz\Documents\Portafolio Oficial\HERMESDB\data\preprocessed\crypto\BTCUSD
 - C:\Users\spinz\Documents\Portafolio Oficial\HERMESDB\data\preprocessed\crypto
 - C:\Users\spinz\Documents\Portafolio Oficial\HERMESDB\data\preprocessed\forex\EURUSD\4H
 - C:\Users\spinz\Documents\Portafolio Oficial\HERMESDB\data\preprocessed\forex\EURUSD
 - C:\Users\spinz\Documents\Portafolio Oficial\HERMESDB\data\preprocessed\forex\USDJPY\4H
 - C:\Users\spinz\Documents\Porta

# Transformación de Datos Limpios a Base de Datos Portátil

## Objetivo
El propósito de este código es tomar los datos limpios de un diccionario estructurado que contiene DataFrames organizados por categorías como `forex`, `metals`, y `crypto`, y transformarlos para almacenarlos en una base de datos portátil. Esto permitirá flexibilidad para trabajar tanto con bases de datos locales como con servidores de bases de datos empresariales.

## Características Principales
1. **Base de Datos Portátil:**
   - Los datos transformados se almacenarán en un archivo SQLite para garantizar portabilidad y facilidad de acceso local.
   
2. **Compatibilidad con Bases de Datos:**
   - El diseño permitirá que los datos almacenados en SQLite puedan ser migrados fácilmente a bases de datos como Oracle, PostgreSQL y MySQL.

3. **Automatización del Proceso:**
   - El código procesará automáticamente los DataFrames limpios, identificará las claves y categorías, y los insertará en tablas organizadas dentro de la base de datos.

4. **Integridad y Escalabilidad:**
   - Se asegurará que los esquemas de las tablas sean consistentes con las columnas del DataFrame (`Open`, `High`, `Low`, `Close`, `Volume`) y que puedan escalar para manejar grandes volúmenes de datos financieros.

5. **Registro del Proceso:**
   - Durante la transformación y almacenamiento, se generará un registro detallado en la consola para verificar que el proceso se ejecute correctamente.

## Beneficios
- **Portabilidad:** Uso de SQLite para transportar los datos.
- **Interoperabilidad:** Migración sencilla a bases de datos más robustas como Oracle, PostgreSQL o MySQL para entornos de producción.
- **Eficiencia:** Automatización completa para reducir el tiempo de preparación y transformación de datos.
- **Flexibilidad:** Escalabilidad para adaptarse a diferentes bases de datos y volúmenes de datos.

## Flujo de Trabajo
1. Validar y limpiar los DataFrames existentes en el diccionario.
2. Crear un esquema de base de datos en SQLite.
3. Insertar los datos limpios en las tablas de SQLite, una por cada clave/categoría.
4. Proporcionar herramientas para exportar/migrar los datos de SQLite a otras bases de datos compatibles.
5. Registrar cualquier error o advertencia durante el proceso de transformación.

## Requisitos
- Python (versión 3.8 o superior)
- Librerías necesarias:
  - `pandas` para manejar DataFrames.
  - `sqlite3` para interactuar con SQLite.
  - Conectores adicionales opcionales:
    - `cx_Oracle` para Oracle.
    - `psycopg2` para PostgreSQL.
    - `mysql-connector-python` o `PyMySQL` para MySQL.

In [None]:
# Ya se creo la base de datos, ahora se procedere a la insrcion de los datos limpios en la base de datos.
import cx_Oracle
