Prueba Técnica de Desarrollo de (IA) Machine Learning

Instrucciones Generales:

.Tienes un máximo de 72 horas para completar esta prueba.
.Utiliza Python como lenguaje de programación.
.Puedes utilizar cualquier biblioteca de aprendizaje automático que consideres adecuada.
.Documenta tu código de manera clara y concisa.
.Al finalizar, envía tu solución en un archivo comprimido (.zip) que contenga todo el código y los archivos necesarios para ejecutarlo.
Problema: Clasificación de Imágenes de Animales

El objetivo de esta prueba es desarrollar un modelo de aprendizaje automático que sea capaz de clasificar imágenes de animales en tres categorías: gatos, perros y pájaros. Tu tarea es entrenar un modelo y evaluar su rendimiento utilizando el conjunto de datos de prueba.

Conjunto de Datos:

Utilizar libremente un conjunto de datos de entrenamiento y un conjunto de datos de prueba.

Recomendación:
El conjunto de datos de entrenamiento se deberá llamar "train_data.zip" y deberá contener imágenes etiquetadas de animales.
El conjunto de datos de prueba se llamará "test_data.zip" y también deberá contener imágenes etiquetadas de animales.

Tareas:

 Cargar los datos en un formato adecuado para entrenar y probar el modelo.

Pre-procesa los datos de entrenamiento y prueba, incluyendo la normalización y el re dimensionamiento de las imágenes según sea necesario.

Diseña y entrena un modelo de clasificación de imágenes utilizando el conjunto de datos de entrenamiento. Puedes elegir el tipo de modelo que consideres adecuado (por ejemplo, una red neuronal convolucional).

Evalúa el rendimiento del modelo utilizando el conjunto de datos de prueba. Calcula métricas como precisión, recall, F1-score y matriz de confusión.

Visualiza algunos ejemplos de imágenes mal clasificadas junto con las etiquetas reales y predichas.

Optimiza el modelo si es necesario para mejorar su rendimiento.

Entregables:

Un archivo de Python (.py) que contiene todo el código necesario para completar las tareas.
Un informe (en formato PDF o Markdown) que incluye una explicación de tu enfoque, métricas de rendimiento y cualquier optimización realizada.

In [36]:
import os
import shutil
from sklearn.model_selection import train_test_split

In [23]:
principal_dir = '../img'
destination_dir = os.path.join(principal_dir, 'birds')

# Voy a verificar si la carpeta destino no existe
if not os.path.exists(principal_dir):
    # Creo la carpeta en caso que no exista
    os.makedirs(principal_dir)
    # Valido que la carpeta este creada
    if os.path.exists(principal_dir):
        print (f'The destination {principal_dir} has been create')
else:
    print (f'The destination {principal_dir} already exist')

The destination ../img already exist


In [24]:
# Lista de carpetas que voy a ignorar
ignore_dirs = ['dogs', 'cats']
count = 1

# Primero voy a iterar sobre cada carpeta en la carpeta .img e ignorar las que se encuentran en la lista
for species_dir in os.listdir(principal_dir):
    if species_dir in ignore_dirs:
        continue 
    
    path_dir = os.path.join(principal_dir, species_dir)
    
    if os.path.isdir(path_dir):
        for image in os.listdir(path_dir):
            roth_image = os.path.join(path_dir, image)
            rename = f'bird_{count}{os.path.splitext(image)[1]}'
            roth_destination = os.path.join(destination_dir, rename)
            
            shutil.move(roth_image, roth_destination)
            print (f'Image {rename} has been sucefully added')
            count += 1

Image bird_1.jpg has been sucefully added
Image bird_2.jpg has been sucefully added
Image bird_3.jpg has been sucefully added
Image bird_4.jpg has been sucefully added
Image bird_5.jpg has been sucefully added
Image bird_6.jpg has been sucefully added
Image bird_7.jpg has been sucefully added
Image bird_8.jpg has been sucefully added
Image bird_9.jpg has been sucefully added
Image bird_10.jpg has been sucefully added
Image bird_11.jpg has been sucefully added
Image bird_12.jpg has been sucefully added
Image bird_13.jpg has been sucefully added
Image bird_14.jpg has been sucefully added
Image bird_15.jpg has been sucefully added
Image bird_16.jpg has been sucefully added
Image bird_17.jpg has been sucefully added
Image bird_18.jpg has been sucefully added
Image bird_19.jpg has been sucefully added
Image bird_20.jpg has been sucefully added
Image bird_21.jpg has been sucefully added
Image bird_22.jpg has been sucefully added
Image bird_23.jpg has been sucefully added
Image bird_24.jpg ha

In [28]:
birds_dir = '../img/birds'
dogs_dir = '../img/dogs'
cats_dir = '../img/cats'

birds_images = os.listdir(birds_dir)
dogs_images = os.listdir(dogs_dir)
cats_images = os.listdir(cats_dir)

print (len(birds_images))
print (len(dogs_images))
print (len(cats_images))

3208
4005
4000


# Voy a dividir los datos y train y test

In [40]:
categories = ['birds', 'cats', 'dogs']
train_dir = '../train'
validation_dir = '../validation'
test_dir = '../test'

In [34]:
os.path.exists(train_dir)

True

In [38]:
def copy_images(imgs, dest_dir):
    os.makedirs(dest_dir, exist_ok=True)
    for img in imgs:
        shutil.copy(img,dest_dir)
    return True

In [41]:
train_size = 0.8

for category in categories:
    category_dir = os.path.join(principal_dir, category)
    images = [os.path.join(category_dir, img) for img in os.listdir(category_dir) if img.lower().endswith(('png', 'jpg', 'jpeg'))]
    
    train_imgs, test_val_imgs = train_test_split(images,
                                                 train_size=train_size,
                                                 random_state=24)
    
    val_imgs, test_imgs = train_test_split(test_val_imgs,
                                           test_size=0.5,
                                           random_state=24)  
    
    copy_images(train_imgs, os.path.join(train_dir, category))
    copy_images(val_imgs, os.path.join(validation_dir, category))
    copy_images(test_imgs, os.path.join(test_dir, category))    

In [49]:
# Rutas a las carpetas de train, validation y test
folders = {
    'train': '../train',
    'validation': '../validation',
    'test': '../test'
}

# Contar los archivos por clase dentro de cada carpeta
for folder_name, folder_path in folders.items():
    print(f"Conteo para {folder_name}:")
    for class_name in os.listdir(folder_path):
        class_path = os.path.join(folder_path, class_name)
        if os.path.isdir(class_path):  # Asegurarse de que es un directorio
            total_files = len([name for name in os.listdir(class_path) if os.path.isfile(os.path.join(class_path, name))])
            print(f"  {class_name}: {total_files} archivos")


Conteo para train:
  birds: 2566 archivos
  cats: 3200 archivos
  dogs: 3204 archivos
Conteo para validation:
  birds: 321 archivos
  cats: 400 archivos
  dogs: 400 archivos
Conteo para test:
  birds: 321 archivos
  cats: 400 archivos
  dogs: 401 archivos
