# DATOS

In [5]:
import os
import cv2
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

Entrenamos varios modelos con los datos de entrenamiento proporcionados, y evaluamos cuál es el mejor de ellos

In [11]:
# Ruta a la carpeta de entrenamiento que contiene subcarpetas con imágenes de frutas
data_dir = r"C:\Users\PC\OneDrive\Documentos\UNIVERSIDAD\CME\GMV\datos\train\train"

# Lista de clases (nombres de las subcarpetas)
classes = os.listdir(data_dir)

# Listas para almacenar las imágenes y las etiquetas
images = []
labels = []

# Leer las imágenes y etiquetas desde las subcarpetas
for class_name in classes:
    class_dir = os.path.join(data_dir, class_name)
    for img_file in os.listdir(class_dir):
        img_path = os.path.join(class_dir, img_file)
        img = cv2.imread(img_path)
        img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)  # Convertir a formato RGB si es necesario
        images.append(img)
        labels.append(class_name)

# Codificar las etiquetas en valores numéricos
label_encoder = LabelEncoder()
labels = label_encoder.fit_transform(labels)

# Dividir el conjunto de datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(images, labels, test_size=0.2, random_state=42)

# Aplanar y redimensionar las imágenes (ajusta el tamaño según tus necesidades)
X_train = [img.flatten() for img in X_train]
X_test = [img.flatten() for img in X_test]

# Definir una lista de modelos a evaluar
models = {
    'Random Forest': RandomForestClassifier(),
    'SVM': SVC(),
    'K-Nearest Neighbors': KNeighborsClassifier()
}

# Realizar la clasificación de imágenes y encontrar el mejor modelopip uninstall opencv-python
best_model = None
best_accuracy = 0.0

for model_name, model in models.items():
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    accuracy = accuracy_score(y_test, y_pred)
    print(f'{model_name} - Accuracy: {accuracy}')

    if accuracy > best_accuracy:
        best_accuracy = accuracy
        best_model = model

print(f'Mejor modelo: {best_model}')

Random Forest - Accuracy: 1.0
SVM - Accuracy: 0.9997033521210323
K-Nearest Neighbors - Accuracy: 0.9997033521210323
Mejor modelo: RandomForestClassifier()


Observaciones:

1. Problemas en las rutas de directorios con los espacios
2. El SVM es muy lento, random forest razonable y el knn rápido

Guardamos el modelo entrenado que ha dado mejor resultado, para poder utilizarlo luego con los datos de test

In [12]:
import joblib

# Supongamos que 'best_model' es el mejor modelo que deseas guardar

# Ruta donde se guardará el modelo
model_save_path = 'mejor_modelo.pkl'

# Guardar el mejor modelo en un archivo .pkl
joblib.dump(best_model, model_save_path)

print(f'Mejor modelo guardado en {model_save_path}')

Mejor modelo guardado en mejor_modelo.pkl


Aplicamos el modelo de clasificación entrenado a las imágenes de test

In [14]:
import os
import cv2
import numpy as np
from sklearn.preprocessing import LabelEncoder

# Ruta a la carpeta de pruebas que contiene imágenes sin clasificar
test_dir = r"C:\Users\PC\OneDrive\Documentos\UNIVERSIDAD\CME\GMV\datos\test\test"

# Listas para almacenar las imágenes y las rutas de archivo
test_images = []
file_paths = []

# Leer las imágenes desde la carpeta de pruebas y mantener un registro de las rutas de archivo
for img_file in os.listdir(test_dir):
    img_path = os.path.join(test_dir, img_file)
    img = cv2.imread(img_path)
    img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)  # Convertir a formato RGB si es necesario
    test_images.append(img)
    file_paths.append(img_path)

# Aplanar y redimensionar las imágenes (ajusta el tamaño según tus necesidades)
test_images = [img.flatten() for img in test_images]

# Cargar el modelo previamente entrenado (asegúrate de que el modelo está disponible)
# Reemplaza 'nombre_del_modelo_entrenado.pkl' con el nombre de tu modelo entrenado
#from sklearn.externals import joblib
import joblib
loaded_model = joblib.load('mejor_modelo.pkl')

# Ruta y nombre del archivo del modelo previamente guardado
#model_load_path = 'mejor_modelo.pkl'
#loaded_model = joblib.load(model_load_path)

# Realizar predicciones en las imágenes de prueba
predicted_labels = loaded_model.predict(test_images)

# Decodificar las etiquetas numéricas en nombres de clases
decoded_labels = label_encoder.inverse_transform(predicted_labels)

# Imprimir resultados
for i in range(len(test_images)):
    print(f'Archivo: {file_paths[i]} - Clase predicha: {decoded_labels[i]}')


Archivo: C:\Users\PC\OneDrive\Documentos\UNIVERSIDAD\CME\GMV\datos\test\test\0000.jpg - Clase predicha: Apricot
Archivo: C:\Users\PC\OneDrive\Documentos\UNIVERSIDAD\CME\GMV\datos\test\test\0001.jpg - Clase predicha: Grape Blue
Archivo: C:\Users\PC\OneDrive\Documentos\UNIVERSIDAD\CME\GMV\datos\test\test\0002.jpg - Clase predicha: Mango
Archivo: C:\Users\PC\OneDrive\Documentos\UNIVERSIDAD\CME\GMV\datos\test\test\0003.jpg - Clase predicha: Grape Blue
Archivo: C:\Users\PC\OneDrive\Documentos\UNIVERSIDAD\CME\GMV\datos\test\test\0004.jpg - Clase predicha: Mango
Archivo: C:\Users\PC\OneDrive\Documentos\UNIVERSIDAD\CME\GMV\datos\test\test\0005.jpg - Clase predicha: Watermelon
Archivo: C:\Users\PC\OneDrive\Documentos\UNIVERSIDAD\CME\GMV\datos\test\test\0006.jpg - Clase predicha: Apricot
Archivo: C:\Users\PC\OneDrive\Documentos\UNIVERSIDAD\CME\GMV\datos\test\test\0007.jpg - Clase predicha: Mango
Archivo: C:\Users\PC\OneDrive\Documentos\UNIVERSIDAD\CME\GMV\datos\test\test\0008.jpg - Clase predich

# DATOS SINTÉTICOS

Algunas técnicas basadas en datos sintéticos son las siguientes:
1. Data Augmentation
2. Image Blending
3. GANs (Generative Adversarial Networks)

## Data Augmentation

https://www.geeksforgeeks.org/python-data-augmentation/

Operations in data augmentation The most commonly used operations are-

1. Rotation
2. Shearing
3. Zooming
4. Cropping
5. Flipping
6. Changing the brightness level

https://medium.com/nanonets/how-to-use-deep-learning-when-you-have-limited-data-part-2-data-augmentation-c26971dc8ced
https://www.kaggle.com/code/aleksandradeis/data-augmentation-packages-overview

### Data augmentation in Keras

In [1]:
import os
from keras.preprocessing.image import ImageDataGenerator
from tensorflow.keras.utils import array_to_img, img_to_array, load_img

# Ruta de la carpeta principal que contiene subcarpetas
main_folder = r"C:\Users\PC\OneDrive\Documentos\UNIVERSIDAD\CME\GMV\datos\train\train"
save_folder = r"C:\Users\PC\OneDrive\Documentos\UNIVERSIDAD\CME\GMV\datos"

# Inicializar el ImageDataGenerator
datagen = ImageDataGenerator(
    rotation_range=40,
    shear_range=0.2,
    zoom_range=0.2,
    horizontal_flip=True,
    vertical_flip=True,
    brightness_range=(0.5, 1.5))

# Función para cargar y aplicar data augmentation a las imágenes de una subcarpeta
def apply_augmentation_to_subfolder(subfolder_path):
    subfolder_name = os.path.basename(subfolder_path)
    save_dir = os.path.join(save_folder, 'augmented', subfolder_name)
    os.makedirs(save_dir, exist_ok=True)

    i = 0
    for img_file in os.listdir(subfolder_path)[:2]:  # Tomar las dos primeras imágenes
        img_path = os.path.join(subfolder_path, img_file)
        img = load_img(img_path)
        x = img_to_array(img)
        x = x.reshape((1, ) + x.shape)

        for batch in datagen.flow(x, batch_size=1,
                                   save_to_dir=save_dir,
                                   save_prefix=f'{subfolder_name}_image',
                                   save_format='jpeg'):
            i += 1
            if i > 4:  # Generar y guardar 5 imágenes por imagen de entrada
                break

# Iterar a través de las subcarpetas y aplicar data augmentation
for subfolder in os.listdir(main_folder):
    subfolder_path = os.path.join(main_folder, subfolder)
    if os.path.isdir(subfolder_path):
        apply_augmentation_to_subfolder(subfolder_path)


In [10]:
# Cóidgo de prueba para abrir por pantalla las imágenes generadas por data augmentation

from PIL import Image

for subfolder in os.listdir(main_folder):
    subfolder_path = os.path.join(main_folder, subfolder)
    for image in os.listdir(subfolder_path):
        image_path = os.path.join(subfolder_path, image)
        # Cargar la imagen
        img = Image.open(image_path)
        # Mostrar la imagen
        img.show()

KeyboardInterrupt: 

Entrenamos los mismos modelos anteriores con los datos generados mediante data augmentation con Keras, y evaluamos cuál es el mejor y cómo ha variado respecto al entrenamiento con el set completo de datos inicial.

In [13]:
# Ruta a la carpeta de entrenamiento que contiene subcarpetas con imágenes de frutas
data_dir = r"C:\Users\PC\OneDrive\Documentos\UNIVERSIDAD\CME\GMV\datos\augmented"

# Lista de clases (nombres de las subcarpetas)
classes = os.listdir(data_dir)

# Listas para almacenar las imágenes y las etiquetas
images = []
labels = []
# Leer las imágenes y etiquetas desde las subcarpetas
for class_name in classes:
    class_dir = os.path.join(data_dir, class_name)
    for img_file in os.listdir(class_dir):
        img_path = os.path.join(class_dir, img_file)
        img = cv2.imread(img_path)
        img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)  # Convertir a formato RGB si es necesario
        images.append(img)
        labels.append(class_name)

# Codificar las etiquetas en valores numéricos
label_encoder = LabelEncoder()
labels = label_encoder.fit_transform(labels)

# Dividir el conjunto de datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(images, labels, test_size=0.2, random_state=42)

# Aplanar y redimensionar las imágenes (ajusta el tamaño según tus necesidades)
X_train = [img.flatten() for img in X_train]
X_test = [img.flatten() for img in X_test]

# Definir una lista de modelos a evaluar
models = {
    'Random Forest': RandomForestClassifier(),
    'SVM': SVC(),
    'K-Nearest Neighbors': KNeighborsClassifier()
}

# Realizar la clasificación de imágenes y encontrar el mejor modelopip uninstall opencv-python
best_model = None
best_accuracy = 0.0

for model_name, model in models.items():
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    accuracy = accuracy_score(y_test, y_pred)
    print(f'{model_name} - Accuracy: {accuracy}')

    if accuracy > best_accuracy:
        best_accuracy = accuracy
        best_model = model

print(f'Mejor modelo: {best_model}')


Random Forest - Accuracy: 0.625
SVM - Accuracy: 0.125
K-Nearest Neighbors - Accuracy: 0.25
Mejor modelo: RandomForestClassifier()


### Data augmentation using Augmentor 

In [None]:
# Importing necessary library
import Augmentor
# Passing the path of the image directory
p = Augmentor.Pipeline('image_folder')

# Defining augmentation parameters and generating 5 samples
p.flip_left_right(0.5)
p.black_and_white(0.1)
p.rotate(0.3, 10, 10)
p.skew(0.4, 0.5)
p.zoom(probability = 0.2, min_factor = 1.1, max_factor = 1.5)
p.sample(5)


In [2]:
# Creamos una nueva carpeta para los datos generados con Augmentor

import os

# Ruta en la que deseas crear la carpeta
ruta_nueva_carpeta = r"C:\Users\PC\OneDrive\Documentos\UNIVERSIDAD\CME\GMV\datos\Augmentor"

# Utiliza os.makedirs para crear la carpeta (incluyendo subdirectorios si es necesario)
os.makedirs(ruta_nueva_carpeta, exist_ok=True)

# Verificar si la carpeta se ha creado
if os.path.exists(ruta_nueva_carpeta):
    print(f'Se ha creado la carpeta en {ruta_nueva_carpeta}')
else:
    print(f'No se pudo crear la carpeta en {ruta_nueva_carpeta}')


Se ha creado la carpeta en C:\Users\PC\OneDrive\Documentos\UNIVERSIDAD\CME\GMV\datos\Augmentor


In [3]:
import Augmentor
import os

# Ruta a la carpeta principal que contiene subcarpetas
main_folder = r"C:\Users\PC\OneDrive\Documentos\UNIVERSIDAD\CME\GMV\datos\train\train"

# Ruta de la carpeta donde se guardarán las imágenes aumentadas
output_folder = r"C:\Users\PC\OneDrive\Documentos\UNIVERSIDAD\CME\GMV\datos\Augmentor"

# Crear un objeto Pipeline
p = Augmentor.Pipeline(output_folder)

# Función para aplicar la secuencia de aumento a las imágenes en una subcarpeta
def apply_augmentation_to_subfolder(subfolder_path, output_path):
    # Crear una nueva tubería para la subcarpeta
    subfolder_pipeline = Augmentor.Pipeline(subfolder_path, output_directory=output_path)

    # Definir la secuencia de aumentos en la subcarpeta
    subfolder_pipeline.flip_left_right(0.5)
    subfolder_pipeline.black_and_white(0.1)
    subfolder_pipeline.rotate(0.3, 10, 10)
    subfolder_pipeline.skew(0.4, 0.5)
    subfolder_pipeline.zoom(probability=0.2, min_factor=1.1, max_factor=1.5)

    # Generar y guardar 5 muestras aumentadas en la subcarpeta
    subfolder_pipeline.sample(5)

# Iterar a través de las subcarpetas y aplicar el aumento a las imágenes
for subfolder in os.listdir(main_folder):
    subfolder_path = os.path.join(main_folder, subfolder)
    if os.path.isdir(subfolder_path):
        output_path = os.path.join(output_folder, subfolder)
        os.makedirs(output_path, exist_ok=True)
        apply_augmentation_to_subfolder(subfolder_path, output_path)

Initialised with 0 image(s) found.
Output directory set to C:\Users\PC\OneDrive\Documentos\UNIVERSIDAD\CME\GMV\datos\Augmentor\output.Initialised with 492 image(s) found.
Output directory set to C:\Users\PC\OneDrive\Documentos\UNIVERSIDAD\CME\GMV\datos\Augmentor\Apple Braeburn.

Processing <PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=100x100 at 0x17DDB6D3C40>: 100%|██████████| 5/5 [00:00<00:00, 104.26 Samples/s]


Initialised with 492 image(s) found.
Output directory set to C:\Users\PC\OneDrive\Documentos\UNIVERSIDAD\CME\GMV\datos\Augmentor\Apple Granny Smith.

Processing <PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=100x100 at 0x17DDB703A60>: 100%|██████████| 5/5 [00:00<00:00, 111.25 Samples/s]


Initialised with 492 image(s) found.
Output directory set to C:\Users\PC\OneDrive\Documentos\UNIVERSIDAD\CME\GMV\datos\Augmentor\Apricot.

Processing <PIL.Image.Image image mode=RGB size=100x100 at 0x17DDB686460>: 100%|██████████| 5/5 [00:00<00:00, 31.54 Samples/s]


Initialised with 427 image(s) found.
Output directory set to C:\Users\PC\OneDrive\Documentos\UNIVERSIDAD\CME\GMV\datos\Augmentor\Avocado.

Processing <PIL.Image.Image image mode=RGB size=100x100 at 0x17DDB680850>: 100%|██████████| 5/5 [00:00<00:00, 28.57 Samples/s]


Initialised with 490 image(s) found.
Output directory set to C:\Users\PC\OneDrive\Documentos\UNIVERSIDAD\CME\GMV\datos\Augmentor\Banana.

Processing <PIL.Image.Image image mode=RGB size=100x100 at 0x17DE4C977C0>: 100%|██████████| 5/5 [00:00<00:00, 104.45 Samples/s]                  


Initialised with 462 image(s) found.
Output directory set to C:\Users\PC\OneDrive\Documentos\UNIVERSIDAD\CME\GMV\datos\Augmentor\Blueberry.

Processing <PIL.Image.Image image mode=RGB size=100x100 at 0x17DDB6917C0>: 100%|██████████| 5/5 [00:00<00:00, 161.77 Samples/s]


Initialised with 490 image(s) found.
Output directory set to C:\Users\PC\OneDrive\Documentos\UNIVERSIDAD\CME\GMV\datos\Augmentor\Cactus fruit.

Processing <PIL.Image.Image image mode=RGB size=100x100 at 0x17DDB709CD0>: 100%|██████████| 5/5 [00:00<00:00, 85.46 Samples/s]                  


Initialised with 492 image(s) found.
Output directory set to C:\Users\PC\OneDrive\Documentos\UNIVERSIDAD\CME\GMV\datos\Augmentor\Cantaloupe.

Processing <PIL.Image.Image image mode=RGB size=100x100 at 0x17DDB68C9D0>: 100%|██████████| 5/5 [00:00<00:00, 101.88 Samples/s]


Initialised with 492 image(s) found.
Output directory set to C:\Users\PC\OneDrive\Documentos\UNIVERSIDAD\CME\GMV\datos\Augmentor\Cherry.

Processing <PIL.Image.Image image mode=RGB size=100x100 at 0x17DDB703A60>: 100%|██████████| 5/5 [00:00<00:00, 82.19 Samples/s]          


Initialised with 490 image(s) found.
Output directory set to C:\Users\PC\OneDrive\Documentos\UNIVERSIDAD\CME\GMV\datos\Augmentor\Clementine.

Processing <PIL.Image.Image image mode=RGB size=100x100 at 0x17DE4C98A00>: 100%|██████████| 5/5 [00:00<00:00, 119.37 Samples/s]         


Initialised with 450 image(s) found.
Output directory set to C:\Users\PC\OneDrive\Documentos\UNIVERSIDAD\CME\GMV\datos\Augmentor\Corn.

Processing <PIL.Image.Image image mode=RGB size=100x100 at 0x17DDB692250>: 100%|██████████| 5/5 [00:00<00:00, 135.50 Samples/s]


Initialised with 392 image(s) found.
Output directory set to C:\Users\PC\OneDrive\Documentos\UNIVERSIDAD\CME\GMV\datos\Augmentor\Cucumber Ripe.

Processing <PIL.Image.Image image mode=RGB size=100x100 at 0x17DE4C97A30>: 100%|██████████| 5/5 [00:00<00:00, 177.99 Samples/s]


Initialised with 984 image(s) found.
Output directory set to C:\Users\PC\OneDrive\Documentos\UNIVERSIDAD\CME\GMV\datos\Augmentor\Grape Blue.

Processing <PIL.Image.Image image mode=RGB size=100x100 at 0x17DE4CA1760>: 100%|██████████| 5/5 [00:00<00:00, 109.08 Samples/s]


Initialised with 466 image(s) found.
Output directory set to C:\Users\PC\OneDrive\Documentos\UNIVERSIDAD\CME\GMV\datos\Augmentor\Kiwi.

Processing <PIL.Image.Image image mode=RGB size=100x100 at 0x17DDB6921F0>: 100%|██████████| 5/5 [00:00<00:00, 168.41 Samples/s]


Initialised with 492 image(s) found.
Output directory set to C:\Users\PC\OneDrive\Documentos\UNIVERSIDAD\CME\GMV\datos\Augmentor\Lemon.

Processing <PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=100x100 at 0x17DDB70CC40>: 100%|██████████| 5/5 [00:00<00:00, 128.17 Samples/s]


Initialised with 490 image(s) found.
Output directory set to C:\Users\PC\OneDrive\Documentos\UNIVERSIDAD\CME\GMV\datos\Augmentor\Limes.

Processing <PIL.Image.Image image mode=RGB size=100x100 at 0x17DE4CA8520>: 100%|██████████| 5/5 [00:00<00:00, 40.49 Samples/s]


Initialised with 490 image(s) found.
Output directory set to C:\Users\PC\OneDrive\Documentos\UNIVERSIDAD\CME\GMV\datos\Augmentor\Mango.

Processing <PIL.Image.Image image mode=RGB size=100x100 at 0x17DDB6FF520>: 100%|██████████| 5/5 [00:00<00:00, 91.67 Samples/s] 


Initialised with 438 image(s) found.
Output directory set to C:\Users\PC\OneDrive\Documentos\UNIVERSIDAD\CME\GMV\datos\Augmentor\Onion White.

Processing <PIL.Image.Image image mode=1 size=100x100 at 0x17DE4C97760>: 100%|██████████| 5/5 [00:00<00:00, 192.63 Samples/s]                    


Initialised with 479 image(s) found.
Output directory set to C:\Users\PC\OneDrive\Documentos\UNIVERSIDAD\CME\GMV\datos\Augmentor\Orange.

Processing <PIL.Image.Image image mode=RGB size=100x100 at 0x17DE4C8EDF0>: 100%|██████████| 5/5 [00:00<00:00, 24.28 Samples/s]


Initialised with 492 image(s) found.
Output directory set to C:\Users\PC\OneDrive\Documentos\UNIVERSIDAD\CME\GMV\datos\Augmentor\Papaya.

Processing <PIL.Image.Image image mode=RGB size=100x100 at 0x17DDB680490>: 100%|██████████| 5/5 [00:00<00:00, 123.54 Samples/s]         


Initialised with 490 image(s) found.
Output directory set to C:\Users\PC\OneDrive\Documentos\UNIVERSIDAD\CME\GMV\datos\Augmentor\Passion Fruit.

Processing <PIL.Image.Image image mode=RGB size=100x100 at 0x17DE4CA79A0>: 100%|██████████| 5/5 [00:00<00:00, 113.97 Samples/s]


Initialised with 492 image(s) found.
Output directory set to C:\Users\PC\OneDrive\Documentos\UNIVERSIDAD\CME\GMV\datos\Augmentor\Peach.

Processing <PIL.Image.Image image mode=RGB size=100x100 at 0x17DE4C95610>: 100%|██████████| 5/5 [00:00<00:00, 53.48 Samples/s]


Initialised with 696 image(s) found.
Output directory set to C:\Users\PC\OneDrive\Documentos\UNIVERSIDAD\CME\GMV\datos\Augmentor\Pear.

Processing <PIL.Image.Image image mode=1 size=100x100 at 0x17DE4CAF790>: 100%|██████████| 5/5 [00:00<00:00, 124.16 Samples/s]                   


Initialised with 444 image(s) found.
Output directory set to C:\Users\PC\OneDrive\Documentos\UNIVERSIDAD\CME\GMV\datos\Augmentor\Pepper Green.

Processing <PIL.Image.Image image mode=RGB size=100x100 at 0x17DDB68E820>: 100%|██████████| 5/5 [00:00<00:00, 99.04 Samples/s] 


Initialised with 666 image(s) found.
Output directory set to C:\Users\PC\OneDrive\Documentos\UNIVERSIDAD\CME\GMV\datos\Augmentor\Pepper Red.

Processing <PIL.Image.Image image mode=RGB size=100x100 at 0x17DE4CAB730>: 100%|██████████| 5/5 [00:00<00:00, 23.65 Samples/s]                  


Initialised with 490 image(s) found.
Output directory set to C:\Users\PC\OneDrive\Documentos\UNIVERSIDAD\CME\GMV\datos\Augmentor\Pineapple.

Processing <PIL.Image.Image image mode=RGB size=100x100 at 0x17DDB7605E0>: 100%|██████████| 5/5 [00:00<00:00, 91.03 Samples/s]


Initialised with 447 image(s) found.
Output directory set to C:\Users\PC\OneDrive\Documentos\UNIVERSIDAD\CME\GMV\datos\Augmentor\Plum.

Processing <PIL.Image.Image image mode=RGB size=100x100 at 0x17DDB760A00>: 100%|██████████| 5/5 [00:00<00:00, 97.94 Samples/s]


Initialised with 492 image(s) found.
Output directory set to C:\Users\PC\OneDrive\Documentos\UNIVERSIDAD\CME\GMV\datos\Augmentor\Pomegranate.

Processing <PIL.Image.Image image mode=RGB size=100x100 at 0x17DDB760B50>: 100%|██████████| 5/5 [00:00<00:00, 122.28 Samples/s]


Initialised with 450 image(s) found.
Output directory set to C:\Users\PC\OneDrive\Documentos\UNIVERSIDAD\CME\GMV\datos\Augmentor\Potato Red.

Processing <PIL.Image.Image image mode=RGB size=100x100 at 0x17DDB68E790>: 100%|██████████| 5/5 [00:00<00:00, 27.40 Samples/s]


Initialised with 490 image(s) found.
Output directory set to C:\Users\PC\OneDrive\Documentos\UNIVERSIDAD\CME\GMV\datos\Augmentor\Raspberry.

Processing <PIL.Image.Image image mode=RGB size=100x100 at 0x17DDB68ED90>: 100%|██████████| 5/5 [00:00<00:00, 43.22 Samples/s]                  


Initialised with 492 image(s) found.
Output directory set to C:\Users\PC\OneDrive\Documentos\UNIVERSIDAD\CME\GMV\datos\Augmentor\Strawberry.

Processing <PIL.Image.Image image mode=RGB size=100x100 at 0x17DDB760520>: 100%|██████████| 5/5 [00:00<00:00, 29.84 Samples/s]


Initialised with 738 image(s) found.
Output directory set to C:\Users\PC\OneDrive\Documentos\UNIVERSIDAD\CME\GMV\datos\Augmentor\Tomato.

Processing <PIL.Image.Image image mode=RGB size=100x100 at 0x17DE4CA4670>: 100%|██████████| 5/5 [00:00<00:00, 48.20 Samples/s]


Initialised with 475 image(s) found.
Output directory set to C:\Users\PC\OneDrive\Documentos\UNIVERSIDAD\CME\GMV\datos\Augmentor\Watermelon.

Processing <PIL.Image.Image image mode=RGB size=100x100 at 0x17DDB68EE50>: 100%|██████████| 5/5 [00:00<00:00, 88.45 Samples/s]                  


In [6]:
# Ruta a la carpeta de entrenamiento que contiene subcarpetas con imágenes de frutas
data_dir = r"C:\Users\PC\OneDrive\Documentos\UNIVERSIDAD\CME\GMV\datos\Augmentor"

# Lista de clases (nombres de las subcarpetas)
classes = os.listdir(data_dir)

# Listas para almacenar las imágenes y las etiquetas
images = []
labels = []
# Leer las imágenes y etiquetas desde las subcarpetas
for class_name in classes:
    class_dir = os.path.join(data_dir, class_name)
    for img_file in os.listdir(class_dir):
        img_path = os.path.join(class_dir, img_file)
        img = cv2.imread(img_path)
        img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)  # Convertir a formato RGB si es necesario
        images.append(img)
        labels.append(class_name)

# Codificar las etiquetas en valores numéricos
label_encoder = LabelEncoder()
labels = label_encoder.fit_transform(labels)

# Dividir el conjunto de datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(images, labels, test_size=0.2, random_state=42)

# Aplanar y redimensionar las imágenes (ajusta el tamaño según tus necesidades)
X_train = [img.flatten() for img in X_train]
X_test = [img.flatten() for img in X_test]

# Definir una lista de modelos a evaluar
models = {
    'Random Forest': RandomForestClassifier(),
    'SVM': SVC(),
    'K-Nearest Neighbors': KNeighborsClassifier()
}

# Realizar la clasificación de imágenes y encontrar el mejor modelopip uninstall opencv-python
best_model = None
best_accuracy = 0.0

for model_name, model in models.items():
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    accuracy = accuracy_score(y_test, y_pred)
    print(f'{model_name} - Accuracy: {accuracy}')

    if accuracy > best_accuracy:
        best_accuracy = accuracy
        best_model = model

print(f'Mejor modelo: {best_model}')


Random Forest - Accuracy: 0.30303030303030304
SVM - Accuracy: 0.12121212121212122
K-Nearest Neighbors - Accuracy: 0.18181818181818182
Mejor modelo: RandomForestClassifier()


### Data augmentation with Albumentations

https://albumentations.ai/

## Image blending

## GANs: Generative Adversarial Networks

Cómo usar GANs:

1. Paso 1: Definir el generador y el discriminador

    En el marco de las GANs, hay dos redes neuronales clave: el generador y el discriminador.
    El generador crea imágenes sintéticas y el discriminador evalúa si una imagen dada es real o generada.
    Ambos compiten en un juego adversarial, donde el generador busca mejorar su capacidad para engañar al discriminador, y el discriminador busca mejorar su capacidad para distinguir entre imágenes reales y generadas.

2. Paso 2: Diseñar y entrenar la GAN

    Entrenar una GAN implica iterar entre entrenar el generador y el discriminador.
    El generador toma una entrada aleatoria (a menudo denominada vector latente) y genera una imagen.
    El discriminador evalúa la imagen generada y las imágenes reales para distinguir entre ellas.
    El generador ajusta sus pesos para generar imágenes más realistas y el discriminador ajusta sus pesos para mejorar su capacidad de discriminación.

3. Paso 3: Generar datos sintéticos de frutas

    Una vez que la GAN está entrenada, puedes utilizar el generador para crear imágenes sintéticas de frutas.
    Ajusta el vector latente de entrada para controlar las características de las imágenes generadas (por ejemplo, tipo de fruta, color, forma, etc.).

Sin embargo, ten en cuenta que el entrenamiento de GANs puede ser un desafío y requiere una cuidadosa afinación de hiperparámetros y arquitectura para lograr resultados satisfactorios.

In [8]:
# PASO 0: CARGAR Y PREPROCESAR DATOS DE FRUTAS

import os
import cv2
import numpy as np

data_dir = r"C:\Users\PC\OneDrive\Documentos\UNIVERSIDAD\CME\GMV\datos\train\train"  # Ruta a la subcarpeta de frutas
classes = os.listdir(data_dir)
images = []
labels = []

for class_name in classes:
    class_dir = os.path.join(data_dir, class_name)
    for img_file in os.listdir(class_dir):
        img_path = os.path.join(class_dir, img_file)
        img = cv2.imread(img_path)
        img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)  # Convertir a formato RGB si es necesario
        images.append(img)
        labels.append(class_name)

# Realiza cualquier otro preprocesamiento necesario, como redimensionar imágenes y normalizar píxeles.

In [4]:
import os
import numpy as np
import cv2
from tensorflow.keras.layers import Dense, Reshape, Flatten
from tensorflow.keras.layers import LeakyReLU
from tensorflow.keras.layers import Conv2D
from tensorflow.keras.layers import BatchNormalization
from tensorflow.keras.optimizers import Adam
from tensorflow.keras.models import Sequential

# Ruta a la carpeta que contiene imágenes de una sola fruta
data_dir = r"C:\Users\PC\OneDrive\Documentos\UNIVERSIDAD\CME\GMV\datos\train\train\Apple Braeburn"
output_dir = r"C:\Users\PC\OneDrive\Documentos\UNIVERSIDAD\CME\GMV\datos\GAN_generated_images"

# Hiperparámetros
random_dim = 100
image_size = (100, 100, 3)
batch_size = 64
epochs = 50

# Cargar y preprocesar imágenes
def load_images(data_dir, image_size):
    images = []
    for filename in os.listdir(data_dir):
        if filename.endswith(".jpg"):
            img = cv2.imread(os.path.join(data_dir, filename))
            img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
            img = cv2.resize(img, image_size[:2])
            img = (img - 127.5) / 127.5  # Escalar píxeles al rango [-1, 1]
            images.append(img)
    return np.array(images)

# Crear el generador
def build_generator(random_dim, image_size):
    generator = Sequential()

    generator.add(Dense(256, input_dim=random_dim))
    generator.add(LeakyReLU(0.2))
    generator.add(BatchNormalization(momentum=0.8))

    generator.add(Dense(512))
    generator.add(LeakyReLU(0.2))
    generator.add(BatchNormalization(momentum=0.8))

    generator.add(Dense(1024))
    generator.add(LeakyReLU(0.2))
    generator.add(BatchNormalization(momentum=0.8))

    generator.add(Dense(np.prod(image_size), activation="tanh"))
    generator.add(Reshape(image_size))

    return generator

# Crear el discriminador
def build_discriminator(image_size):
    discriminator = Sequential()

    discriminator.add(Flatten(input_shape=image_size))
    discriminator.add(Dense(1024))
    discriminator.add(LeakyReLU(0.2))

    discriminator.add(Dense(512))
    discriminator.add(LeakyReLU(0.2))

    discriminator.add(Dense(256))
    discriminator.add(LeakyReLU(0.2))

    discriminator.add(Dense(1, activation="sigmoid"))

    return discriminator

# Compilar el modelo GAN
def build_gan(generator, discriminator):
    discriminator.trainable = False
    gan = Sequential()
    gan.add(generator)
    gan.add(discriminator)
    gan.compile(loss="categorical_crossentropy", optimizer=Adam(lr=0.0002, beta_1=0.5))
    return gan

# Función para entrenar la GAN
def train_gan(generator, discriminator, gan, images, random_dim, epochs, batch_size):
    batch_count = images.shape[0] // batch_size

    for e in range(1, epochs + 1):
        for _ in range(batch_count):
            noise = np.random.normal(0, 1, size=[batch_size, random_dim])
            generated_images = generator.predict(noise)
            image_batch = images[np.random.randint(0, images.shape[0], size=batch_size)]

            discriminator.trainable = True
            d_loss_real = discriminator.train_on_batch(image_batch, np.ones(batch_size))
            d_loss_fake = discriminator.train_on_batch(generated_images, np.zeros(batch_size))
            d_loss = 0.5 * np.add(d_loss_real, d_loss_fake)

            noise = np.random.normal(0, 1, size=[batch_size, random_dim])
            discriminator.trainable = False
            g_loss = gan.train_on_batch(noise, np.ones(batch_size))

        print(f"Época {e}/{epochs}, D Loss: {d_loss}, G Loss: {g_loss}")

        if e == 1 or e % 1000 == 0:
            save_generated_images(generator, e, random_dim, output_dir)

# Función para guardar imágenes generadas
def save_generated_images(generator, epoch, random_dim, output_dir, num_samples=20):
    noise = np.random.normal(0, 1, size=[num_samples, random_dim])
    generated_images = generator.predict(noise)
    generated_images = 0.5 * generated_images + 0.5  # Escalar píxeles al rango [0, 1]

    for i in range(num_samples):
        image = generated_images[i]
        image = (image * 255).astype(np.uint8)
        file_name = f"generated_image_epoch{epoch}_{i}.jpg"
        file_path = os.path.join(output_dir, file_name)
        cv2.imwrite(file_path, cv2.cvtColor(image, cv2.COLOR_RGB2BGR))

def build_generator(random_dim, image_size):
    model = Sequential()

    # Capa completamente conectada
    model.add(Dense(128, input_dim=random_dim))
    model.add(LeakyReLU(alpha=0.2))
    model.add(BatchNormalization(momentum=0.8))
    model.add(Dense(256))
    model.add(LeakyReLU(alpha=0.2))
    model.add(BatchNormalization(momentum=0.8))
    model.add(Dense(512))
    model.add(LeakyReLU(alpha=0.2))
    model.add(BatchNormalization(momentum=0.8))

    # Capa de salida, cambiamos la forma a 100x100x3
    model.add(Dense(np.prod(image_size), activation='tanh'))
    model.add(Reshape(image_size))

    return model

def build_discriminator(image_size):
    model = Sequential()

    # Capa de entrada, cambiamos la forma de entrada
    model.add(Reshape((np.prod(image_size),), input_shape=image_size))

    # Capas completamente conectadas
    model.add(Dense(512))
    model.add(LeakyReLU(alpha=0.2))
    model.add(Dense(256))
    model.add(LeakyReLU(alpha=0.2))
    model.add(Dense(128))
    model.add(LeakyReLU(alpha=0.2))

    # Capa de salida
    model.add(Dense(1, activation='sigmoid'))

    return model

# Cargar y preprocesar imágenes
images = load_images(data_dir, image_size)

# Construir y compilar los modelos
generator = build_generator(random_dim, image_size)
discriminator = build_discriminator(image_size)
gan = build_gan(generator, discriminator)

# Compila los modelos
generator.compile(loss='reverse_binary_crossentropy', optimizer=Adam(0.0002, 0.5))
discriminator.compile(loss='categorical_crossentropy', optimizer=Adam(0.0002, 0.5))

# Entrenar la GAN
train_gan(generator, discriminator, gan, images, random_dim, epochs, batch_size)



Época 1/50, D Loss: 0.0, G Loss: 0.0
Época 2/50, D Loss: 0.0, G Loss: 0.0
Época 3/50, D Loss: 0.0, G Loss: 0.0
Época 4/50, D Loss: 0.0, G Loss: 0.0
Época 5/50, D Loss: 0.0, G Loss: 0.0
Época 6/50, D Loss: 0.0, G Loss: 0.0
Época 7/50, D Loss: 0.0, G Loss: 0.0
Época 8/50, D Loss: 0.0, G Loss: 0.0
Época 9/50, D Loss: 0.0, G Loss: 0.0
Época 10/50, D Loss: 0.0, G Loss: 0.0
Época 11/50, D Loss: 0.0, G Loss: 0.0
Época 12/50, D Loss: 0.0, G Loss: 0.0
Época 13/50, D Loss: 0.0, G Loss: 0.0
Época 14/50, D Loss: 0.0, G Loss: 0.0
Época 15/50, D Loss: 0.0, G Loss: 0.0
Época 16/50, D Loss: 0.0, G Loss: 0.0
Época 17/50, D Loss: 0.0, G Loss: 0.0
Época 18/50, D Loss: 0.0, G Loss: 0.0
Época 19/50, D Loss: 0.0, G Loss: 0.0
Época 20/50, D Loss: 0.0, G Loss: 0.0
Época 21/50, D Loss: 0.0, G Loss: 0.0
Época 22/50, D Loss: 0.0, G Loss: 0.0
Época 23/50, D Loss: 0.0, G Loss: 0.0
Época 24/50, D Loss: 0.0, G Loss: 0.0
Época 25/50, D Loss: 0.0, G Loss: 0.0
Época 26/50, D Loss: 0.0, G Loss: 0.0
Época 27/50, D Loss: 