In [2]:
# librerias base
import os
import sys

import pandas as pd
from IPython.display import display_html

os.chdir("../")

sys.path.append("./")
from animaloc_improved.tools.massage_results import (  # noqa: E402
    conf_matrix_to_pct,
    massage_metrics,
)

# Entrenamientos Herdnet
Todos los entrenamientos se ejecutaron con el script `oficial_herdnet\tools\train.py`. Este script es el original de Alexandre Delplanque, propuesto en https://github.com/Alexandre-Delplanque/HerdNet, con unos ligeros ajustes para adaptarlo a las versiones de paquetes de este repositorio.

El archivo `oficial_herdnet\configs\train\herdnet.yaml` contiene las configuraciones base para el entrenamiento y se ajustan según el caso, por línea de comandos.

Todos los comandos de entrenamiento están configurados en pipelines (stages), dentro del archivo `dvc.yaml`. 

**Características de hardware para entrenamiento**  
*CPU count*: 10  
*Logical CPU count*: 16  
*GPU count*: 1  
*GPU type*: NVIDIA GeForce RTX 5050 Laptop GPU  
  
  
Para el test de los modelos entrenados, se utiliza el script `oficial_herdnet\tools\test.py`, que tiene sus configuraciones base en el 
yaml `oficial_herdnet\configs\test\herdnet.yaml` y que son sobreescritas en línea de comando. Los test también están configurados como stages en el archivo 
`dvc.yaml`.

## Herdnet V0
### Entrenamiento
Versión preliminar para medir el comportamiento de convergencia del modelo, sin ajustar los pesos del desbalance de clases.  
  
**Características e hiperparámetros del entrenamiento**  
- Parches de 512x512, overlap 160, visibilidad mínima 0.1
- Número imágenes train: 8581
- Número imágenes val: 1166
- seed: 1
- model.num_layers: 34
- model.head_conv: 64
- model.down_ratio: 2
- losses.CrossEntropyLoss.kwargs.weight: [0.1, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0]
- training_settings.batch_size: 8
- training_settings.optimizer: 'adam'
- training_settings.lr: 1e-4
- training_settings.weight_decay: 0.0005
- training_settings.epochs: 25
  
**Comando de ejecución en consola**  
```
dvc repro train-herdnet-v0
```

**Resumen métricas de entrenamiento**  
- Tiempo: 4h 27m
- Mejor f1_score:0.7845644983461963
- ce_loss:0.17751829326152802
- epoch:25
- f1_score:0.7845644983461963
- focal_loss:0.9087181091308594
- lr:0.0001
- train_loss:0.5218654870986938

### Test
**Comando de ejecución en consola**  
```
dvc repro test-herdnet-v0
```

In [2]:
# test-herdnet-v0
matrix_v0 = conf_matrix_to_pct(
    pd.read_csv("data/test_results/herdnet_v0/confusion_matrix.csv")
).to_html()
metrics_test_v0 = massage_metrics(
    pd.read_csv("data/test_results/herdnet_v0/metrics_results.csv")
).to_html()

display_html(
    f"""
<div style="display: flex; gap: 50px;">
    <div>{matrix_v0}</div>
    <div>{metrics_test_v0}</div>
</div>
""",
    raw=True,
)

Unnamed: 0_level_0,Alcelaphinae,Buffalo,Kob,Warthog,Waterbuck,Elephant
Especie,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Alcelaphinae,93.3,1.4,3.9,1.5,0.0,0.0
Buffalo,0.9,89.1,0.0,10.0,0.0,0.0
Kob,23.9,0.3,73.9,1.9,0.1,0.0
Warthog,1.3,1.3,0.0,96.1,1.3,0.0
Waterbuck,33.3,30.3,7.6,1.5,27.3,0.0
Elephant,0.0,0.3,0.0,0.1,0.0,99.6

Unnamed: 0,Especie,N,Rec.[%],Prec.[%],F1[%],Conf.[%],MAE,AP [%]
0,Alcelaphinae,1521,79.5,66.4,72.4,6.7,0.8,70.3
1,Buffalo,808,64.0,65.9,64.9,10.9,1.0,54.3
2,Kob,1085,68.8,80.8,74.3,26.1,0.5,64.4
3,Warthog,154,48.1,31.0,37.7,3.9,1.2,28.4
4,Waterbuck,78,23.1,60.0,33.3,72.7,1.1,19.1
5,Elephant,1570,67.3,61.9,64.4,0.4,1.1,54.7
6,binary,5216,78.4,74.3,76.3,0.0,0.6,58.1


<table style="width: 100%; table-layout: fixed;">
  <tr>
    <th style="width: 50%; text-align: center;">F1 Score entrenamiento herdnet v0</th>
    <th style="width: 50%; text-align: center;">Precisión-Recall test herdnet v0</th>
  </tr>
  <tr>
    <td style="text-align: center;">
      <img src="f1_herdnet_v0.jpg" alt="F1 Score HerdNet V0" style="width: 90%;">
    </td>
    <td style="text-align: center;">
      <img src="../data/test_results/herdnet_v0/plots/precision_recall_curve.png" alt="Precision-Recall HerdNet V0" style="width: 90%;">
    </td>
  </tr>
</table>

***
## Herdnet V1
### Entrenamiento
Parte de la misma configuración de la V0, pero a 100 épocas, ya que el comportamiento del resultado de f1_score a 25 épocas no es muy estable aún.  
  
**Características e hiperparámetros del entrenamiento**  
- Parches de 512x512, overlap 160, visibilidad mínima 0.1
- Número imágenes train: 8581
- Número imágenes val: 1166
- seed: 1
- model.num_layers: 34
- model.head_conv: 64
- model.down_ratio: 2
- losses.CrossEntropyLoss.kwargs.weight: [0.1, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0]
- training_settings.batch_size: 8
- training_settings.optimizer: 'adam'
- training_settings.lr: 1e-4
- training_settings.weight_decay: 0.0005
- <span style="color: green">training_settings.epochs: 100</span>
  
**Comando de ejecución en consola**  
```
dvc repro train-herdnet-v1
```

**Resumen métricas de entrenamiento**  
- Tiempo: 17h 15m
- Mejor f1_score:0.8408539543910722
- ce_loss:0.00017970211047213525
- epoch:100
- f1_score:0.8293281020107897
- focal_loss:0.20154155790805817
- lr:0.000001
- train_loss:0.2579202950000763  

### Test
**Comando de ejecución en consola**  
```
dvc repro test-herdnet-v1
```

In [3]:
# test-herdnet-v1
matrix_v1 = conf_matrix_to_pct(
    pd.read_csv("data/test_results/herdnet_v1/confusion_matrix.csv")
).to_html()
metrics_test_v1 = massage_metrics(
    pd.read_csv("data/test_results/herdnet_v1/metrics_results.csv")
).to_html()

display_html(
    f"""
<div style="display: flex; gap: 50px;">
    <div>{matrix_v1}</div>
    <div>{metrics_test_v1}</div>
</div>
""",
    raw=True,
)

Unnamed: 0_level_0,Alcelaphinae,Buffalo,Kob,Warthog,Waterbuck,Elephant
Especie,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Alcelaphinae,92.9,0.7,4.3,1.7,0.4,0.0
Buffalo,3.2,85.5,0.0,10.8,0.0,0.5
Kob,16.4,0.0,81.6,1.6,0.5,0.0
Warthog,3.1,3.1,4.6,89.2,0.0,0.0
Waterbuck,23.8,7.9,6.3,1.6,60.3,0.0
Elephant,0.0,0.0,0.0,0.0,0.0,100.0

Unnamed: 0,Especie,N,Rec.[%],Prec.[%],F1[%],Conf.[%],MAE,AP [%]
0,Alcelaphinae,1521,77.3,78.7,78.0,7.1,0.6,69.5
1,Buffalo,808,62.0,82.7,70.9,14.5,0.9,55.3
2,Kob,1085,76.8,88.9,82.4,18.4,0.4,74.3
3,Warthog,154,37.7,30.5,33.7,10.8,1.3,24.5
4,Waterbuck,78,48.7,60.3,53.9,39.7,0.8,42.0
5,Elephant,1570,65.2,81.2,72.3,0.0,0.9,58.9
6,binary,5216,77.1,88.4,82.4,0.0,0.4,62.6


<table style="width: 100%; table-layout: fixed;">
  <tr>
    <th style="width: 50%; text-align: center;">F1 Score entrenamiento herdnet v1</th>
    <th style="width: 50%; text-align: center;">Precisión-Recall test herdnet v1</th>
  </tr>
  <tr>
    <td style="text-align: center;">
      <img src="f1_herdnet_v1.jpg" alt="F1 Score HerdNet V1" style="width: 90%;">
    </td>
    <td style="text-align: center;">
      <img src="../data/test_results/herdnet_v1/plots/precision_recall_curve.png" alt="Precision-Recall HerdNet V1" style="width: 90%;">
    </td>
  </tr>
</table>

***
## Herdnet V2
### Entrenamiento
Parte de la configuración de la V1, pero ajustando los pesos para el cálculo del CrossEntropyLoss. Los pesos se calcularon de acuerdo a lo sugerido por Delplanque(https://www.sciencedirect.com/science/article/pii/S092427162300031X?via%3Dihub#s0100), aplicando una ponderación de clases para compensar el desequilibrio de la cantidad de instancias por especie.  

La fórmula aplicada es:  
$$
Peso = \text{Redondear} \left( \frac{\text{Instancias de clase mayoritaria}}{\text{Instancias del animal}} \right)
$$  

En el conjunto de entrenamiento original, se encuentra esta distribución de instancias, siendo la clase mayoritaria Elephant con 2012 instancias:  

| name          | train | weight |
|---------------|-------|--------|
| Elephant      | 2012  | 1.0    |
| Alcelaphinae  | 1678  | 1.2    |
| Kob           | 1732  | 1.16   |
| Buffalo       | 1058  | 1.9    |
| Warthog       | 316   | 6.37   |
| Waterbuck     | 166   | 12.12  |


Configuración del arreglo de pesos  ['background','Alcelaphinae','Buffalo','Kob','Warthog','Waterbuck','Elephant'].  

**Características e hiperparámetros del entrenamiento**  
- Parches de 512x512, overlap 160, visibilidad mínima 0.1
- Número imágenes train: 8581
- Número imágenes val: 1166
- seed: 1
- model.num_layers: 34
- model.head_conv: 64
- model.down_ratio: 2
- <span style="color: green">losses.CrossEntropyLoss.kwargs.weight: [0.1,1.2,1.9,1.16,6.37,12.12,1.0]</span>
- training_settings.batch_size: 8
- training_settings.optimizer: 'adam'
- training_settings.lr: 1e-4
- training_settings.weight_decay: 0.0005
- training_settings.epochs: 100
  
**Comando de ejecución en consola**  
```
dvc repro train-herdnet-v2
```

**Resumen métricas de entrenamiento**  
- Tiempo: 17h 39m
- Mejor f1_score:0.8335335094883497
- ce_loss:0.00017979199765250087
- epoch:100
- f1_score:0.8293515358361775
- focal_loss:0.19866031408309937
- lr:0.000001
- train_loss:0.257256418466568  

### Test
**Comando de ejecución en consola**  
```
dvc repro test-herdnet-v2
```

In [4]:
# test-herdnet-v2
matrix_v2 = conf_matrix_to_pct(
    pd.read_csv("data/test_results/herdnet_v2/confusion_matrix.csv")
).to_html()
metrics_test_v2 = massage_metrics(
    pd.read_csv("data/test_results/herdnet_v2/metrics_results.csv")
).to_html()

display_html(
    f"""
<div style="display: flex; gap: 50px;">
    <div>{matrix_v2}</div>
    <div>{metrics_test_v2}</div>
</div>
""",
    raw=True,
)

Unnamed: 0_level_0,Alcelaphinae,Buffalo,Kob,Warthog,Waterbuck,Elephant
Especie,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Alcelaphinae,90.7,0.9,6.1,2.1,0.2,0.0
Buffalo,2.2,84.9,0.2,11.9,0.7,0.2
Kob,12.8,0.1,85.3,1.6,0.2,0.0
Warthog,2.9,1.5,1.5,94.1,0.0,0.0
Waterbuck,19.0,4.8,9.5,6.3,60.3,0.0
Elephant,0.0,0.0,0.0,0.0,0.0,100.0

Unnamed: 0,Especie,N,Rec.[%],Prec.[%],F1[%],Conf.[%],MAE,AP [%]
0,Alcelaphinae,1521,76.4,80.8,78.5,9.3,0.6,68.9
1,Buffalo,808,61.8,80.1,69.7,15.1,0.9,53.6
2,Kob,1085,81.0,84.2,82.6,14.7,0.4,76.6
3,Warthog,154,41.6,30.5,35.2,5.9,1.2,25.3
4,Waterbuck,78,48.7,70.4,57.6,39.7,0.8,41.4
5,Elephant,1570,62.8,78.3,69.7,0.0,0.9,55.0
6,binary,5216,77.0,86.8,81.6,0.0,0.4,61.4


<table style="width: 100%; table-layout: fixed;">
  <tr>
    <th style="width: 50%; text-align: center;">F1 Score entrenamiento herdnet v2</th>
    <th style="width: 50%; text-align: center;">Precisión-Recall test herdnet v2</th>
  </tr>
  <tr>
    <td style="text-align: center;">
      <img src="f1_herdnet_v2.jpg" alt="F1 Score HerdNet V2" style="width: 90%;">
    </td>
    <td style="text-align: center;">
      <img src="../data/test_results/herdnet_v2/plots/precision_recall_curve.png" alt="Precision-Recall HerdNet V2" style="width: 90%;">
    </td>
  </tr>
</table>

***
## Herdnet V3
### Entrenamiento
Parte de la configuración de la V2, pero ahora se ejecutará sobre parches de 1024x1024, con la misma proporción de overlap que tenían los parches de 512 (31.25%), con el fin de validar el comportamiento de la arquitectura del modelo sobre parches de una dimensión mayor.  

**Características e hiperparámetros del entrenamiento**  
- <span style="color: green">Parches de 1024x1024, overlap 320, visibilidad mínima 0.1</span>
- <span style="color: green">Número imágenes train: 5448</span>
- <span style="color: green">Número imágenes val: 754</span>
- seed: 1
- model.num_layers: 34
- model.head_conv: 64
- model.down_ratio: 2
- losses.CrossEntropyLoss.kwargs.weight: [0.1,1.2,1.9,1.16,6.37,12.12,1.0]
- <span style="color: green">training_settings.batch_size: 2</span>
- training_settings.optimizer: 'adam'
- training_settings.lr: 1e-4
- training_settings.weight_decay: 0.0005
- training_settings.epochs: 100
  
**Comando de ejecución en consola**  
```
dvc repro train-herdnet-v3
```

**Resumen métricas de entrenamiento**  
- Tiempo: 1d 15h 58m
- Mejor f1_score:0.8228388473852721
- ce_loss:0.00012882277951575816
- epoch:100
- f1_score:0.8176406926406927
- focal_loss:0.11925535649061204
- lr:0.000001
- train_loss:0.3599950075149536  

### Test
**Comando de ejecución en consola**  
```
dvc repro test-herdnet-v3
```

In [5]:
# test-herdnet-v3
matrix_v3 = conf_matrix_to_pct(
    pd.read_csv("data/test_results/herdnet_v3/confusion_matrix.csv")
).to_html()
metrics_test_v3 = massage_metrics(
    pd.read_csv("data/test_results/herdnet_v3/metrics_results.csv")
).to_html()

display_html(
    f"""
<div style="display: flex; gap: 50px;">
    <div>{matrix_v3}</div>
    <div>{metrics_test_v3}</div>
</div>
""",
    raw=True,
)

Unnamed: 0_level_0,Alcelaphinae,Buffalo,Kob,Warthog,Waterbuck,Elephant
Especie,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Alcelaphinae,90.8,0.6,4.7,2.4,1.5,0.0
Buffalo,3.1,87.3,0.0,8.8,0.8,0.0
Kob,23.0,0.0,74.4,2.6,0.0,0.0
Warthog,7.0,3.5,1.8,87.7,0.0,0.0
Waterbuck,22.4,3.4,6.9,6.9,60.3,0.0
Elephant,0.6,0.0,0.0,0.0,0.0,99.4

Unnamed: 0,Especie,N,Rec.[%],Prec.[%],F1[%],Conf.[%],MAE,AP [%]
0,Alcelaphinae,1424,75.8,72.3,74.0,9.2,0.9,64.6
1,Buffalo,775,57.5,85.4,68.8,12.7,1.8,53.6
2,Kob,1021,70.6,88.0,78.4,25.6,0.6,68.0
3,Warthog,142,35.2,25.6,29.7,12.3,1.5,17.1
4,Waterbuck,83,42.2,58.3,49.0,39.7,1.2,30.1
5,Elephant,1406,57.1,78.8,66.2,0.6,1.3,51.3
6,binary,4851,74.1,87.4,80.2,0.0,0.7,55.7


<table style="width: 100%; table-layout: fixed;">
  <tr>
    <th style="width: 50%; text-align: center;">F1 Score entrenamiento herdnet v3</th>
    <th style="width: 50%; text-align: center;">Precisión-Recall test herdnet v3</th>
  </tr>
  <tr>
    <td style="text-align: center;">
      <img src="f1_herdnet_v3.jpg" alt="F1 Score HerdNet V3" style="width: 90%;">
    </td>
    <td style="text-align: center;">
      <img src="../data/test_results/herdnet_v3/plots/precision_recall_curve.png" alt="Precision-Recall HerdNet V3" style="width: 90%;">
    </td>
  </tr>
</table>

***
## Herdnet V4
### Entrenamiento
Parte de la configuración de la V2, pero ajustando la cantidad de capas convolucionales para las cabezas de localización y clasificación a 128.  

**Características e hiperparámetros del entrenamiento**  
- Parches de 512x512, overlap 160, visibilidad mínima 0.1
- Número imágenes train: 8581
- Número imágenes val: 1166
- seed: 1
- model.num_layers: 34
- <span style="color: green">model.head_conv: 128</span>
- model.down_ratio: 2
- losses.CrossEntropyLoss.kwargs.weight: [0.1,1.2,1.9,1.16,6.37,12.12,1.0]
- training_settings.batch_size: 8
- training_settings.optimizer: 'adam'
- training_settings.lr: 1e-4
- training_settings.weight_decay: 0.0005
- training_settings.epochs: 100
  
**Comando de ejecución en consola**  
```
dvc repro train-herdnet-v4
```

**Resumen métricas de entrenamiento**  
- Tiempo: 16h 54m
- Mejor f1_score:0.8242159008023341
- ce_loss:0.0006681239465251565
- epoch:100
- f1_score:0.8177339901477833
- focal_loss:0.17589259147644043
- lr:0.000001
- train_loss:0.25603604316711426 

### Test
**Comando de ejecución en consola**  
```
dvc repro test-herdnet-v4
```

In [3]:
# test-herdnet-v4
matrix_v4 = conf_matrix_to_pct(
    pd.read_csv("data/test_results/herdnet_v4/confusion_matrix.csv")
).to_html()
metrics_test_v4 = massage_metrics(
    pd.read_csv("data/test_results/herdnet_v4/metrics_results.csv")
).to_html()

display_html(
    f"""
<div style="display: flex; gap: 50px;">
    <div>{matrix_v4}</div>
    <div>{metrics_test_v4}</div>
</div>
""",
    raw=True,
)

Unnamed: 0_level_0,Alcelaphinae,Buffalo,Kob,Warthog,Waterbuck,Elephant
Especie,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Alcelaphinae,91.9,1.0,4.9,1.7,0.5,0.0
Buffalo,3.9,88.0,0.0,7.2,0.4,0.5
Kob,22.9,0.0,75.7,1.0,0.4,0.0
Warthog,1.8,3.6,1.8,92.7,0.0,0.0
Waterbuck,21.0,0.0,3.2,4.8,71.0,0.0
Elephant,0.0,0.0,0.0,0.0,0.0,100.0

Unnamed: 0,Especie,N,Rec.[%],Prec.[%],F1[%],Conf.[%],MAE,AP [%]
0,Alcelaphinae,1521,76.9,75.5,76.2,8.1,0.7,67.1
1,Buffalo,808,60.6,77.7,68.1,12.0,0.9,50.7
2,Kob,1085,70.8,87.0,78.0,24.3,0.4,67.7
3,Warthog,154,33.1,36.4,34.7,7.3,1.3,22.7
4,Waterbuck,78,56.4,71.0,62.9,29.0,0.7,46.9
5,Elephant,1570,64.4,74.7,69.2,0.0,0.9,53.6
6,binary,5216,76.1,86.0,80.8,0.0,0.5,58.2


***
## Notas
- **V0**: 
  - El modelo arranca bien, pero el f1_score no se estabiliza mucho. Mejor f1_score: **0.78** (epoch 25).
  - La clasificación y detección de animales es básica: reconoce bien las clases mayoritarias (Elephant precisión 0.62, recall 0.67; Alcelaphinae precisión 0.66, recall 0.79), pero falla bastante con las menos representadas (Waterbuck precisión 0.60, recall 0.23; Warthog precisión 0.31, recall 0.48). Los falsos positivos y negativos son frecuentes en estas últimas.

- **V1**: 
  - Con 100 épocas, la curva del f1_score ya logra estabilizarse, alcanzando un mejor f1_score de **0.84**.
  - El modelo mejora en la detección y clasificación general, especialmente en las clases más frecuentes (Elephant precisión 0.81, recall 0.65; Kob precisión 0.89, recall 0.77). Sin embargo, sigue costando identificar correctamente animales menos comunes: Waterbuck precisión 0.60, recall 0.49; Warthog precisión 0.31, recall 0.38.

- **V2**: 
  - Aquí ya se usan pesos para ponderar el desbalance de clases y el modelo logra una ligera mejora para reconocer mejor las especies menos frecuentes, manteniendo un f1_score alto (**0.83**).
  - Se nota una mejora clara en la clasificación de animales minoritarios: Waterbuck precisión 0.70, recall 0.49; Warthog precisión 0.30, recall 0.42.

- **V3**: 
  - Al cambiar a parches de 1024x1024, el f1_score se mantiene ligeramente por debajo de las métricas alcanzadas por los modelos anteriores (**0.82**). 
  - La convergencia es más lenta y se comprueba que una imagen más grande no beneficia el entrenamiento del modelo, ya que uno de los objetivos de este modelo es aprender a crear un mapa de calor en donde debe generarse un pico en los píxeles que correspondan a un animal. Por lo tanto, una imagen más grande solo causa que se tenga que hacer más trabajo de procesamiento y que, por el contrario, la relación del tamaño del animal vs el tamaño de la imagen disminuya y se diluya la importancia de los objetos pequeños.
  - La clasificación y detección se resiente un poco: el modelo sigue funcionando bien para clases mayoritarias (Elephant precisión 0.79, recall 0.57), pero pierde algo de precisión en las minoritarias (Waterbuck precisión 0.58, recall 0.42; Warthog precisión 0.26, recall 0.35).
