# Procesamiento de datos

En este archivo se verifica que los datos tomados en campo sean consistentes con las imagenes tomadas en campo.

## Importaciones necesarias

In [1]:
import shutil
import os
import glob

import pandas as pd
import numpy as np
from IPython.display import display, HTML
from config import CONFIG
from pathlib import Path

## Paths necesarios

In [2]:
excel_path=Path(CONFIG["EXEL_PATH"])
processed_data_pickle_path=Path(CONFIG["PROCESSED_DATA_PICKLE_PATH"])
images_renamed_by_date_dir=Path(CONFIG["IMAGES_RENAMED_BY_DATE_DIR"])
images_processed_dir=Path(CONFIG["IMAGES_PROCESSED_DIR"])

## Importación de los datos

In [3]:
df=pd.read_excel(excel_path,dtype=str,keep_default_na=False)

In [4]:
df["id"] = pd.to_numeric(df["id"], errors="coerce").astype("Int64")
df["km"] = pd.to_numeric(df["km"], errors="coerce").astype("Int64")
df["m"]  = pd.to_numeric(df["m"], errors="coerce").astype("Int64")

In [5]:
df.head()

Unnamed: 0,id,descripcion,informacion-adicional,km,m,sentido,foto-number
0,1,Final,,11,750,,1
1,2,Hito kilometrico,15.0,8,10,o,2
2,3,Puente,,7,740,,3
3,4,Baden,,7,490,,4
4,5,Baden,,8,470,,5


## Edición manual de datos

Para este caso particular no se requiere edición manual de los datos.
Es posible que se requieran hacer cambio en las imagenes, como eliminar o agregar alguna, como no ocurre nada de esto, se crea una copia.

In [6]:
def copiar_imagenes(origen, destino):
    # Verifica si el directorio de destino existe, de lo contrario, lo crea.
    if not os.path.exists(destino):
        os.makedirs(destino)
        print(f"Directorio destino creado: {destino}")

    # Definir las extensiones de imagen a copiar
    extensiones = ('*.jpg', '*.jpeg', '*.png', '*.gif', '*.bmp', '*.tiff')
    
    contador = 0  # Contador de imágenes copiadas

    # Itera por cada extensión y copia los archivos que coincidan
    for ext in extensiones:
        # Busca los archivos en el directorio de origen
        for archivo in glob.glob(os.path.join(origen, ext)):
            try:
                shutil.copy(archivo, destino)
                print(f"Copiado: {archivo}")
                contador += 1
            except Exception as e:
                print(f"Error al copiar {archivo}: {e}")
    
    print(f"Total de imágenes copiadas: {contador}")

ruta_origen = images_renamed_by_date_dir
ruta_destino = images_processed_dir

copiar_imagenes(ruta_origen, ruta_destino)

Copiado: tmp\images\100_images_renamed_by_date\1.jpg
Copiado: tmp\images\100_images_renamed_by_date\10.jpg
Copiado: tmp\images\100_images_renamed_by_date\11.jpg
Copiado: tmp\images\100_images_renamed_by_date\12.jpg
Copiado: tmp\images\100_images_renamed_by_date\13.jpg
Copiado: tmp\images\100_images_renamed_by_date\14.jpg
Copiado: tmp\images\100_images_renamed_by_date\15.jpg
Copiado: tmp\images\100_images_renamed_by_date\16.jpg
Copiado: tmp\images\100_images_renamed_by_date\17.jpg
Copiado: tmp\images\100_images_renamed_by_date\18.jpg
Copiado: tmp\images\100_images_renamed_by_date\19.jpg
Copiado: tmp\images\100_images_renamed_by_date\2.jpg
Copiado: tmp\images\100_images_renamed_by_date\20.jpg
Copiado: tmp\images\100_images_renamed_by_date\21.jpg
Copiado: tmp\images\100_images_renamed_by_date\22.jpg
Copiado: tmp\images\100_images_renamed_by_date\23.jpg
Copiado: tmp\images\100_images_renamed_by_date\24.jpg
Copiado: tmp\images\100_images_renamed_by_date\25.jpg
Copiado: tmp\images\100_images

## Se guarda la data procesada en un archivo pickle

In [7]:
df.to_pickle(processed_data_pickle_path)