Generación del Dataset Variado
Este Jupyter Notebook tiene como objetivo crear un dataset que contenga imágenes variadas de diferentes clases, teniendo en cuenta las columnas 'rev', 'station', 'season' y 'day_part' para garantizar la diversidad de las muestras.

El archivo de entrada es un CSV que contiene información sobre las imágenes, incluyendo la ruta ('path'), la clase ('class'), la revisión ('rev'), la estación ('station'), la cámara ('cam'), la estación del año ('season'), el periodo del día ('day_part') y la fecha y hora ('date_time').

Se excluyen algunas clases específicas, como 'unknown', 'cervid', 'other', 'leporid', 'invertebrate', 'multispecies' y 'small mammal', del dataset final.

El flujo de trabajo es el siguiente:

1. Se lee el archivo CSV utilizando pd.read_csv().
2. Se filtran las filas excluyendo las clases especificadas utilizando ~df['class'].isin(excluded_classes).
3. Se cuenta el número de imágenes por clase.
4. Se define el número máximo de imágenes a tomar por clase.
5. Se crea un DataFrame vacío para almacenar el dataset final.
6. Se itera por cada clase y se realiza lo siguiente:
7. Se obtienen las imágenes de la clase actual.
8. Se determina la cantidad de imágenes a tomar de esta clase.
9. Se agrupa el DataFrame por 'rev', 'station', 'season' y 'day_part'.
10. Se toma una muestra aleatoria de cada grupo utilizando grouped.apply(lambda x: x.sample(n=min(num_images, len(x)), random_state=42)).
11. Se restablece el índice del DataFrame de muestras aleatorias.
12. Se agregan las imágenes al dataset final utilizando pd.concat().
13. Se guarda el dataset final en un nuevo archivo CSV utilizando df_dataset.to_csv().
14. El resultado es un dataset diverso y equilibrado, donde se tomarán hasta 1000 imágenes de cada clase, garantizando la variabilidad en las columnas 'rev', 'station', 'season' y 'day_part'.

Hay que especificar la ruta de salida adecuada para guardar el archivo CSV generado.

In [4]:
# Librerias
import pandas as pd

In [5]:
# Constantes

# Ruta de los archivos CSV
csv_path = "../../CSVs/d01_images_data_amplified.csv"

# Definir el número máximo de imágenes a tomar por clase
max_images_per_class = 3000

### Leer el CSVs

In [6]:
# Leer el archivo CSV de entrada
df  = pd.read_csv(csv_path)

In [7]:
# Obtener la lista de clases únicas
clases_unicas = df['class'].unique()

# Crear un DataFrame vacío para almacenar las imágenes seleccionadas
df_dataset = pd.DataFrame(columns=['path', 'class'])

In [8]:
clases_unicas

array(['empty', 'unknown', 'cervid', 'wild boar', 'red fox',
       'european badger', 'egyptian mongoose', 'human', 'cow', 'red deer',
       'horse', 'other', 'leporid', 'fallow deer', 'european rabbit',
       'iberian lynx', 'iberian hare', 'genet', 'domestic dog', 'bird',
       'invertebrate', 'multispecies', 'small mammal'], dtype=object)

In [9]:
# Clases a excluir
excluded_classes = ['unknown', 'cervid', 'other', 'leporid', 'invertebrate', 'multispecies', 'small mammal']

In [10]:
# Filtrar las filas por clases excluidas
df_filtered = df[~df['class'].isin(excluded_classes)]

# Contar el número de imágenes por clase
class_counts = df_filtered['class'].value_counts()

In [11]:
class_counts

empty                605472
red deer              35436
wild boar             30289
cow                   29162
horse                 17446
human                 10914
red fox                5152
fallow deer            3097
european badger         395
european rabbit         315
iberian hare            263
egyptian mongoose       177
bird                    113
genet                    76
iberian lynx             50
domestic dog             28
Name: class, dtype: int64

In [12]:
# Crear un DataFrame vacío para almacenar el dataset final
df_dataset = pd.DataFrame(columns=df_filtered.columns)

In [13]:
# Iterar por cada clase
for class_name, count in class_counts.items():
    # Obtener las imágenes de la clase actual
    df_class = df_filtered[df_filtered['class'] == class_name]

    # Determinar la cantidad de imágenes a tomar de esta clase
    num_images = min(count, max_images_per_class)

    # Tomar imágenes aleatorias de la clase actual
    sampled_images = df_class.sample(n=num_images, random_state=42)

    # Agregar las imágenes al dataset final
    df_dataset = pd.concat([df_dataset, sampled_images], ignore_index=True)

In [14]:
# Mostrar el resumen de las imágenes seleccionadas por clase
selected_images_summary = df_dataset["class"].value_counts().sort_index()
print("Resumen de imágenes seleccionadas por clase:")
print(selected_images_summary)

Resumen de imágenes seleccionadas por clase:
bird                  113
cow                  3000
domestic dog           28
egyptian mongoose     177
empty                3000
european badger       395
european rabbit       315
fallow deer          3000
genet                  76
horse                3000
human                3000
iberian hare          263
iberian lynx           50
red deer             3000
red fox              3000
wild boar            3000
Name: class, dtype: int64


In [15]:
# Definir la ruta y el nombre del archivo de salida
output_file = "../../CSVs/dataset_ampliado_caltech.csv"

# Guardar el DataFrame filtrado en un nuevo archivo CSV
df_dataset.to_csv(output_file, index=False)


### Guardar el DataFrame en un nuevo archivo CSV

In [16]:
df_dataset_output = df_dataset[['path', 'class']]

In [17]:
# Definir la ruta y el nombre del archivo de salida
output_file = "../../CSVs/dataset_caltech.csv"

# Guardar el DataFrame filtrado en un nuevo archivo CSV
df_dataset_output.to_csv(output_file, index=False)
