### Importación de Archivos SQL

En esta sección, se importa y organiza la información contenida en archivos SQL, separándolos por carpetas o claves para su uso posterior. El objetivo es asegurar que la estructura de los datos sea consistente y adecuada para su procesamiento posterior.

El proceso incluye las siguientes verificaciones:

- **Validación de archivos**: Se revisa si todos los archivos necesarios están presentes, asegurando que no falten archivos importantes.
- **Detección de duplicados**: Se comprueba si existen registros duplicados en los datos importados.
- **Verificación de la consistencia de las dimensiones**: Se asegura que todos los archivos tengan el mismo número de filas y columnas, para evitar errores de incompatibilidad.
- **Estructura de los datos**: Se valida que cada DataFrame importado tenga la siguiente estructura:
  - **Data time**
  - **Close**
  - **Open**
  - **High**
  - **Low**
  - **Volume**

El objetivo es garantizar que todos los datos estén bien organizados, sin errores de duplicidad ni inconsistencias, para su posterior análisis y procesamiento en el sistema.


In [None]:
from modules.import_modules.import_m import cargar_dataframes, agregar_extension_csv #Dataframe de importacion, identificador de dataframes.
from modules.import_modules.security_import import verificar_diccionario,DuplicateChecker #Verificacion de los datos importados
from modules.import_modules.print_situation_import import validar_diccionario # Reporte de los check o verificaciones de los datos importados



#importando en un diccionario:
carpeta_base = 'C:\\Users\\spinz\\Documents\\Portafolio Oficial\\HERMESDB\\data\\raw' # Directorio de los datos sin procesar
diccionario_datos = cargar_dataframes(carpeta_base) #Diccionario con los dataframes de importacion
diccionario_datos = agregar_extension_csv(diccionario_datos) #Agregando la extension csv a los dataframes importados

#Verificacion de los datos importados
verificacion_1 = verificar_diccionario(diccionario_datos) # Verifica la estructura y validez de los archivos CSV en un diccionario de datos.
verificacion_1 = verificacion_1['Resumen'] # Resumen de la verificación 1
resultado = validar_diccionario(verificacion_1)
print(resultado)
import nest_asyncio #Libreria necesaria para que funcione el asyncio en jupyter
nest_asyncio.apply() # Aplicando la libreria nest_asyncio
if __name__ == '__main__':
    # Crear un diccionario con DataFrames de ejemplo
    # Instanciar la clase y ejecutar la detección de duplicados
    verificacion_2 = DuplicateChecker(diccionario_datos)
    verificacion_2.run()



Verificación superada: Todos los criterios cumplen los requisitos establecidos.


Comparing DataFrames: 100%|██████████| 12/12 [00:14<00:00,  1.19s/it]


<modules.import_modules.security_import.DuplicateChecker object at 0x0000024E8402DC40>


# Limpieza y Adecuación de DataFrames

## Descripción

En el proceso de análisis de datos, es crucial trabajar con información limpia, estructurada y consistente. Esta etapa tiene como objetivo garantizar que los DataFrames almacenados en un diccionario cumplan con los requisitos técnicos para un análisis avanzado y confiable. Se eliminan valores no válidos y se estandarizan formatos para evitar errores en etapas posteriores.

### Eliminación de Valores No Válidos

Se identifican y eliminan valores que pueden comprometer la calidad de los datos, tales como:

- **Valores nulos (`NaN`)**: Indicadores de datos faltantes que podrían distorsionar cálculos.
- **Valores infinitos (`Inf`)**: Resultados de operaciones inválidas que deben ser tratados como errores.
- **Filas inconsistentes**: Aquellas que contienen información no procesable o incompleta.

Esto asegura que cada fila de datos sea válida y útil para el análisis.

### Adecuación de Formatos de Columna

Para garantizar la coherencia en los cálculos, se verifica y ajusta el formato de todas las columnas:

- La columna `datetime` debe estar presente y ser convertida al formato **datetime64**, lo que permite un manejo eficiente de datos temporales.
- Las columnas restantes deben estar en formato **float64**, asegurando precisión en los valores numéricos.

Cualquier fila que no cumpla con estos criterios será eliminada.

### Ordenamiento y Reindexación

Una vez procesados los datos, la columna `datetime` se utiliza para ordenar cronológicamente las filas de cada DataFrame, lo que facilita la interpretación y el análisis temporal. Finalmente, los DataFrames se reindexan para garantizar un índice limpio y continuo.

### Resultado Esperado

El resultado de este proceso es un conjunto de DataFrames que:

1. **Carecen de valores no válidos**: Sin `NaN`, `Inf` ni inconsistencias.
2. **Tienen columnas con formatos correctos**: `datetime` en **datetime64** y demás columnas en **float64**.
3. **Están estructurados y listos para análisis**: Ordenados cronológicamente y con un índice consistente.

Este paso es fundamental para garantizar que las operaciones posteriores, como visualización, modelado o análisis estadístico, se realicen de manera eficiente y precisa.


<modules.import_modules.security_import.DuplicateChecker object at 0x0000024EAEDCD070>
