# Dataset Generation

Este Jupyter Notebook realiza el preprocesamiento de datos y la combinación de información de dos conjuntos de datos en formato CSV.

En la primera parte, se realiza el preprocesamiento de los archivos CSV ubicados en la carpeta `m01`. Se extraen los datos relevantes, como el path final y la fecha final, y se guarda el resultado en un nuevo archivo CSV llamado `rev17_25_m01.csv`.

En la segunda parte, se combina el archivo `rev17_25_m01.csv` con el archivo `clasificaciones_ZooRed_17_20.csv` ubicado en la carpeta `clasificaciones`. Se crea un diccionario utilizando las columnas de clasificación y confianza de `clasificaciones_ZooRed_17_20.csv`. Luego, se agrega la información correspondiente al diccionario al archivo `rev17_25_m01.csv` cuando hay coincidencia entre los campos `Path_Final` y `PATH_OF_THE_SHOT`. El resultado final se guarda en un nuevo archivo CSV llamado `images_data.csv` en la carpeta `CSVs`.

El objetivo es combinar y enriquecer los datos de los dos conjuntos de datos en un único archivo CSV para su posterior análisis o uso en aplicaciones de redes neuronales u otros modelos de aprendizaje automático.



In [1]:
# Librerias

import pandas as pd
import os

In [2]:
# Constantes

# Ruta de los archivos CSV
csv_path_m01 = "../../CSVs/m01/rev17_24_m01.csv"
csv_path_clasificaciones = "../../CSVs/clasificaciones/clasificaciones_ZooRed_17_20.csv"

### Leer los CSVs

In [11]:
# Leer los CSVs en DataFrames
df_m01 = pd.read_csv(csv_path_m01)
df_clasificaciones = pd.read_csv(csv_path_clasificaciones)

### Crear un diccionario combinando los datos

In [12]:
# Crear un diccionario a partir del DataFrame de clasificaciones
diccionario = {}

for index, row in df_clasificaciones.iterrows():
    path = row['PATH_OF_THE_SHOT']
    class_zoo = row['class.zoo']
    conf_zoo = row['conf.zoo']

    diccionario[path] = {'class_zoo': class_zoo, 'conf_zoo': conf_zoo}


### Combinar los datos y crear un nuevo DataFrame

In [13]:
# Combinar los datos de los DataFrames y filtrar solo las imágenes coincidentes
df_combined = pd.merge(df_m01, df_clasificaciones, left_on='Path_Final', right_on='PATH_OF_THE_SHOT', how='inner')

# Seleccionar las columnas deseadas
df_combined = df_combined[['Path_Final', 'Fecha_Final', 'class.zoo', 'conf.zoo']]

# Eliminar la columna PATH_OF_THE_SHOT
# df_combined.drop('PATH_OF_THE_SHOT', axis=1, inplace=True)


### Guardar el DataFrame en un nuevo archivo CSV

In [14]:
# Definir la ruta y el nombre del archivo de salida
output_file = "../../CSVs/images_data.csv"

# Guardar el DataFrame en un nuevo archivo CSV
df_combined.to_csv(output_file, index=False)
