Generación del Dataset Variado
Este Jupyter Notebook tiene como objetivo crear un dataset que contenga imágenes variadas de diferentes clases, teniendo en cuenta las columnas 'rev', 'station', 'season' y 'day_part' para garantizar la diversidad de las muestras.

El archivo de entrada es un CSV que contiene información sobre las imágenes, incluyendo la ruta ('path'), la clase ('class'), la revisión ('rev'), la estación ('station'), la cámara ('cam'), la estación del año ('season'), el periodo del día ('day_part') y la fecha y hora ('date_time').

Se excluyen algunas clases específicas, como 'unknown', 'cervid', 'other', 'leporid', 'invertebrate', 'multispecies' y 'small mammal', del dataset final.

El flujo de trabajo es el siguiente:

1. Se lee el archivo CSV utilizando pd.read_csv().
2. Se filtran las filas excluyendo las clases especificadas utilizando ~df['class'].isin(excluded_classes).
3. Se cuenta el número de imágenes por clase.
4. Se define el número máximo de imágenes a tomar por clase.
5. Se crea un DataFrame vacío para almacenar el dataset final.
6. Se itera por cada clase y se realiza lo siguiente:
7. Se obtienen las imágenes de la clase actual.
8. Se determina la cantidad de imágenes a tomar de esta clase.
9. Se agrupa el DataFrame por 'rev', 'station', 'season' y 'day_part'.
10. Se toma una muestra aleatoria de cada grupo utilizando grouped.apply(lambda x: x.sample(n=min(num_images, len(x)), random_state=42)).
11. Se restablece el índice del DataFrame de muestras aleatorias.
12. Se agregan las imágenes al dataset final utilizando pd.concat().
13. Se guarda el dataset final en un nuevo archivo CSV utilizando df_dataset.to_csv().
14. El resultado es un dataset diverso y equilibrado, donde se tomarán hasta 1000 imágenes de cada clase, garantizando la variabilidad en las columnas 'rev', 'station', 'season' y 'day_part'.

Recuerda especificar la ruta de salida adecuada para guardar el archivo CSV generado.

In [5]:
# Librerias
import pandas as pd
import numpy as np

In [6]:
# Constantes

# Ruta de los archivos CSV
csv_path = "../../CSVs/dataset_ampliado.csv"

### Leer el CSVs

In [7]:
# Leer el archivo CSV de entrada
df  = pd.read_csv(csv_path)

In [8]:
num_elementos_min = 700

In [9]:
filtered_df = df.groupby('class').filter(lambda x: len(x) >= num_elementos_min)

### Guardar el DataFrame en un nuevo archivo CSV

In [10]:
filtered_csv_path = "../../CSVs/dataset_ampliado.csv"
filtered_df.to_csv(filtered_csv_path, index=False)

### Guardar el DataFrame en un nuevo archivo CSV (reducido)

In [11]:
df_dataset_output = filtered_df[['path', 'class']]

In [12]:
# Definir la ruta y el nombre del archivo de salida
output_file = "../../CSVs/dataset.csv"

# Guardar el DataFrame filtrado en un nuevo archivo CSV
df_dataset_output.to_csv(output_file, index=False)
