# Data Augmentation - Generación de datos de forma artificial

El aumento de datos es una técnica para aumentar la diversidad de su conjunto de datos de entrenamiento aplicando varias transformaciones a las imágenes existentes. Esto ayuda a que el modelo se generalice mejor. Ejemplo que utiliza TensorFlow y Keras para el aumento de datos en la clasificación de imágenes:

```python
import tensorflow as tf
from tensorflow.keras.preprocessing.image import ImageDataGenerator

# Definir los parametros
datagen = ImageDataGenerator(
    rotation_range=20,
    width_shift_range=0.1,
    height_shift_range=0.1,
    shear_range=0.2,
    zoom_range=0.2,
    horizontal_flip=True,
    fill_mode='nearest'
)

# Cargar y procesar sus datos (Asumiendo que los tiene en un directorio)
train_generator = datagen.flow_from_directory(
    'path_to_train_directory',
    target_size=(224, 224),  # Ajustar
    batch_size=32,           # Ajustar
    class_mode='categorical' # Depende de la tarea (binary , categorical classification)
)

# Crear y compilar su modelo
model = tf.keras.models.Sequential([
    # ... agregar las capas necesarias
])

model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])

# entrenar su modelo
model.fit(train_generator, epochs=5)
```
Explicación:

1. Importamos las bibliotecas necesarias, incluidas `tf` para TensorFlow e `ImageDataGenerator` para aumento de datos.

2. Definimos `ImageDataGenerator` con varios parámetros de aumento como rotación, desplazamientos, corte, zoom, giro horizontal y modo de relleno.

3. Suponiendo que tiene un conjunto de datos organizado en una estructura de directorios (un subdirectorio por clase), puede usar `flow_from_directory` para cargar y preprocesar los datos. Ajuste `target_size` y `batch_size` según sus necesidades.

4. Crea un modelo de red neuronal. Reemplace el comentario con las capas de su modelo real.

5. Compile el modelo con un optimizador, una función de pérdida (entropía cruzada categórica en este ejemplo) y las métricas deseadas.

6. Entrene el modelo utilizando los datos aumentados del generador.

Recuerde reemplazar `'path_to_train_directory'` con la ruta real a su directorio de datos de entrenamiento. Además, personalice los parámetros de aumento para que se adapten mejor a su conjunto de datos específico y a su tarea de clasificación.

# Ejemplo

Usar la base de datos `hymenoptera` :

1. Construir un modelo de red convolucional 

2. Usar la base de datos para realizar el proceso de entrenamiento 



In [2]:
import tensorflow as tf
from tensorflow.keras import layers, models

# Define el modelo CNN
model = models.Sequential()

# Primera capa convolucional
model.add(layers.Conv2D(32, (3, 3), activation='relu', input_shape=(224, 224, 3)))
model.add(layers.MaxPooling2D((2, 2)))

# Segunda capa convolucional
model.add(layers.Conv2D(64, (3, 3), activation='relu'))
model.add(layers.MaxPooling2D((2, 2)))

# Flatten Layer : permite concatenar las caracteristicas en un vector unidimensional (aplanar)
#sirve para preparar los datos de entrada a una red completamente conectada (FC - fully connected)
model.add(layers.Flatten())

# Fully Connected Layer
model.add(layers.Dense(64, activation='relu'))

# Capa de salida
model.add(layers.Dense(1, activation='softmax'))  # En este caso se tienen 10 clases 

# Compile el modelo
model.compile(optimizer='adam',
              loss='binary_crossentropy',
              metrics=['accuracy'])

# mostar el resumen
model.summary()

Model: "sequential_1"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 conv2d_2 (Conv2D)           (None, 222, 222, 32)      896       
                                                                 
 max_pooling2d_2 (MaxPooling  (None, 111, 111, 32)     0         
 2D)                                                             
                                                                 
 conv2d_3 (Conv2D)           (None, 109, 109, 64)      18496     
                                                                 
 max_pooling2d_3 (MaxPooling  (None, 54, 54, 64)       0         
 2D)                                                             
                                                                 
 flatten_1 (Flatten)         (None, 186624)            0         
                                                                 
 dense_2 (Dense)             (None, 64)               

In [3]:
import tensorflow as tf
from tensorflow.keras.preprocessing.image import ImageDataGenerator

# Definir los parametros
datagen = ImageDataGenerator(
    rescale=1 / 255.0,
    rotation_range=20,
    width_shift_range=0.1,
    height_shift_range=0.1,
    shear_range=0.2,
    zoom_range=0.2,
    horizontal_flip=True,
    fill_mode='nearest'
)

# Cargar y procesar sus datos (Asumiendo que los tiene en un directorio)
train_generator = datagen.flow_from_directory(
    'C:/Users/sarria/OneDrive/Documents/2023B/DL/Lab2/hymenoptera/train',
    target_size=(224, 224),  # Ajustar
    batch_size=32,           # Ajustar
    class_mode='binary' # Depende de la tarea (binary , categorical classification)
)


datagen_test = ImageDataGenerator(rescale=1 / 255.0,)
test_generator = datagen_test.flow_from_directory(
    'C:/Users/sarria/OneDrive/Documents/2023B/DL/Lab2/hymenoptera/val',
    target_size=(224, 224),  # Ajustar
    batch_size=32,           # Ajustar
    class_mode='binary' # Depende de la tarea (binary , categorical classification)
)


Found 244 images belonging to 2 classes.
Found 153 images belonging to 2 classes.


dict_keys(['ants', 'bees'])

In [21]:
# entrenar su modelo
model.fit(train_generator, epochs=5)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


<keras.callbacks.History at 0x231f07d0430>

In [22]:
_, accuracy = model.evaluate(x=test_generator)
print('Accuracy: %.2f' % (accuracy*100))

Accuracy: 54.25


In [23]:
import numpy as np
from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix
print("[INFO] evaluating network...")
test_generator.reset()
predIdxs = model.predict(x=test_generator)
predIdxs = np.argmax(predIdxs, axis=1)

print(classification_report(test_generator.classes, predIdxs,
target_names=test_generator.class_indices.keys()))


[INFO] evaluating network...
              precision    recall  f1-score   support

        ants       0.46      1.00      0.63        70
        bees       0.00      0.00      0.00        83

    accuracy                           0.46       153
   macro avg       0.23      0.50      0.31       153
weighted avg       0.21      0.46      0.29       153



  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
