![Portada Pitbull](/img/Default_a_pitbull_in_a_kennel_0(1).jpg)

# Predicción de la **duración de la estancia** de un perro abandonado dentro del centro de rescate

***Proyecto Machine Learning - Anna Valsells***

---

### **Introducción**

#### **Contexto y Motivación del Proyecto**

Los centros de rescate de animales desempeñan un papel crucial en la protección y cuidado de los animales abandonados o maltratados. Sin embargo, estos centros suelen enfrentar limitaciones significativas en términos de capacidad y recursos. La capacidad limitada de los centros de rescate significa que la duración prolongada de la estancia de un perro puede reducir la cantidad de animales que el centro puede atender simultáneamente. Un alto tiempo de estancia implica mayores costos en alimentación, atención médica y otros cuidados necesarios, lo que puede tensar los recursos del centro. Además, la estancia prolongada puede afectar negativamente el bienestar emocional y físico del animal, disminuyendo sus posibilidades de ser adoptado.

En este contexto, predecir la duración de la estancia de un perro en un centro de rescate es una tarea crítica que puede ayudar a optimizar el uso de los recursos, mejorar las tasas de adopción y, en última instancia, aumentar el bienestar de los animales. Utilizando técnicas de machine learning, es posible desarrollar modelos predictivos que aprovechen datos históricos y características específicas de cada animal para realizar predicciones precisas.
Objetivos del Proyecto

El objetivo principal de este proyecto es desarrollar un modelo de machine learning que pueda predecir la duración de la estancia de un perro en el centro de rescate con base en una variedad de características del animal y del entorno. Estas características incluyen:

- Motivo del rescate
- Motivo del abandono
- Raza del perro o mezcla de razas
- La edad del animal

#### **Estructura** 

El pryecto está organizado con los siguientes notebooks:

- **Entendimiento del problema** \
    0- [`Problema de negocio`]() \
    1- [`Obtención de datos`]()

- **Preparación de datos**\
    2- [`Limpieza del dataset`]() \
    3- [`Partición en Train y Test`]() \
    4- [`Análisis exploratorio de Train`]() \
    5- [`Selección y transformación de Features`]()

- **Modelado**     
    6- [`Entrenamiento de modelos`]() \
    7- [`Evaluación y Fine-tuning`]()

- **Resultados** \
    8- [`Presentación de resultados`]()


Este proyecto no solo busca mejorar la eficiencia operativa y la gestión de recursos en los centros de rescate, sino que también tiene un impacto significativo en el bienestar y la calidad de vida de los animales. La intersección entre la tecnología y la compasión demuestra cómo el machine learning puede ser una herramienta poderosa para resolver problemas prácticos en el ámbito de la protección animal.

---

### **Metodología**

##### **Descripción del conjunto de datos**

    Fuente de los datos

Para abordar el problema de predecir la duración de la estancia de los perros en un centro de rescate, se ha utilizado un conjunto de datos proveniente del estudio "What’s in a Name? Effect of Breed Perceptions & Labeling on Attractiveness, Adoptions & Length of Stay for Pit-Bull-Type Dogs" realizado por Lisa M. Gunter, Rebecca T. Barber y Clive D. L. Wynn en 2018. Este estudio se encuentra disponible en el Harvard Dataverse bajo el DOI: https://doi.org/10.7910/DVN/CSVGZO.

El conjunto de datos incluye información detallada sobre perros tipo Pit-Bull y otros perros en centros de rescate, enfocándose en cómo las percepciones de la raza y el etiquetado afectan la atractividad, las adopciones y la duración de la estancia de estos animales. La relevancia de estos datos para nuestro proyecto es evidente, ya que proporcionan una rica fuente de características que pueden influir en la duración de la estancia de un perro en el refugio.

    Variables incluidas en el estudio

El dataset contiene varias columnas que representan diferentes aspectos de cada perro, como:

- intake_date: Fecha de llegada al centro de rescate.
- animal_id: Identificador único para cada animal.
- intake_type: Motivo por el cual se ha recogido al perro.
- intake_subtype: Motivo del abandono.
- outcome_date: Fecha de adopción y/o salida del centro.
- outcome_type: Motivo de salida del centro.
- primary_breed: Raza del perro.
- secondary_breed: Segunda raza para los perros mestizos.
- years_old: Años de vida del animal.
- months_old: Meses de vida del animal.
- OutcomeGroup: Grupo de salida (Adopt/Live Exit - Lost/Found/Missing - Euthanized/Dead).
- Breed: Igual que primary_breed pero con los nombres oficiales del Kennel Club Americano.
- PitBullType: Si es de raza potencialmente peligrosa, llamados tipo Pitbull(Si - No).
- PitBullExpanded: Si la secondary_breed es tipo Pitbull (Si-No).
- AKC: Grupo al que pertenece la raza según el Kennel Club Americano (7 Categorías).
- AKC_Extended: Mismas categorías anteriores separando el grupo tipo terrier según si es PitBull o no.
- KennelCardBreed: El animal tiene o no la etiqueta de la raza en la perrera.
- LOS: Duración de la estancia (Length of Stay).
- AgeGroup: Rango de edad al que pertenece el animal (5 Grupos).


##### **Preprocesamiento de datos**

En este apartado se describen los pasos realizados para el procesamiento de los datos, con el fin de preparar el conjunto de datos para el entrenamiento del modelo de machine learning. La preparación y limpieza de los datos son etapas cruciales para asegurar la calidad y eficacia del modelo predictivo.

    Pasos de Preprocesamiento

1. Rellenar valores vacíos:
    Se rellenaron los valores vacíos en las columnas categóricas con 'unknown' para asegurar que no haya valores nulos en el conjunto de datos.

2. Corrección de edades:
    Se corrigieron las edades inusuales (por ejemplo, valores de 110 años) para garantizar la coherencia en los datos de edad.

3. Combinación de years_old y months_old:
    Se creó una nueva columna llamada age, que combina years_old y months_old en una sola variable

4. Identificación de columnas categóricas y numéricas:

Se identificaron las columnas categóricas y numéricas en el conjunto de datos. Todas las columnas son categóricas, excepto age y las columnas de fecha (intake_date y outcome_date).

5. Exclusión de animal_id:

La columna animal_id se descartó ya que contiene valores únicos para cada registro, similar al índice del DataFrame.

6. Exclusión de columnas no necesarias:

Se descartaron las columnas years_old y months_old, ya que se combinan en la columna age.
Se excluyeron las columnas outcome_date y outcome_type porque contienen información que no está disponible en el momento de la llegada del animal al centro.

7. Transformación de age:

La columna age se transformó utilizando la raíz cúbica para normalizar su distribución

8. Descartar columnas redundantes:

La columna AKC se descartó porque aporta la misma información que AKC_Extended.
La columna primary_breed se descartó porque aporta la misma información que Breed.

9. Exclusión de fechas:

Se excluyeron las columnas de fecha (intake_date y outcome_date) para centrarse en las características relevantes para la predicción.

10. Prueba de Mann-Whitney U:

Se aplicó la prueba de Mann-Whitney U para evaluar la relevancia de las variables PitBullExpanded y PitBullType. Dado que el p-valor fue muy bajo, estas columnas se descartaron debido a su baja relevancia.

11. Selección de características finales:

Se seleccionaron las siguientes características para el entrenamiento del modelo:

['age', 'intake_type', 'intake_subtype', 'AKC_Extended', 'AgeGroup', 'secondary_breed', 'Breed', 'KennelCardBreed']
\

    Transformaciones y Normalización

12. Codificación One-Hot de características categóricas:

    Se aplicó la codificación One-Hot a las características categóricas para convertirlas en variables binarias.

13. Transformación de columnas binarias:

    La columna KennelCardBreed se transformó en valores binarios (0 y 1).

14. Normalización de la columna age:

    Se aplicó el MinMaxScaler para normalizar la columna age entre 0 y 1




##### **Descripción del modelo de machine learning**

    Algoritmos Utilizados

Para abordar la tarea de predecir la duración de la estancia de perros en un centro de rescate, se exploraron varios algoritmos de regresión para determinar cuál proporcionaba el mejor rendimiento predictivo. Los algoritmos considerados fueron:

- Linear Regression
- Decision Tree Regressor
- Random Forest Regressor
- XGBoost Regressor (XGBRegressor)
- LightGBM Regressor (LGBMRegressor)

\

    Justificación de la Elección del Modelo

Para seleccionar el modelo final, se utilizó la métrica neg_mean_squared_error a través de validación cruzada (cross_val_score). Esta métrica es adecuada para problemas de regresión, ya que penaliza los errores cuadráticos grandes, favoreciendo modelos que minimizan estos errores.

Después de evaluar todos los modelos mencionados, se observó que tanto LightGBM como Random Forest mostraron un rendimiento superior en términos de precisión predictiva. Específicamente, Random Forest destacó por su capacidad para manejar conjuntos de datos con múltiples características y su habilidad para capturar relaciones no lineales entre las características y la variable objetivo.

Se optó por el Random Forest Regressor como modelo final debido a las siguientes razones:

- Capacidad de Generalización: El Random Forest Regressor tiende a tener un buen rendimiento en una variedad de conjuntos de datos y no requiere una afinación de hiperparámetros tan intensiva como otros modelos complejos.

- Manejo de Características: Puede manejar características numéricas y categóricas sin necesidad de transformaciones complejas previas, lo cual es ventajoso dado el conjunto de datos que contiene tanto tipos de datos.

- Interpretabilidad y Robustez: Aunque LightGBM también mostró un rendimiento prometedor, Random Forest es conocido por su robustez frente a overfitting y su relativa facilidad para interpretar la importancia de las características.

    Evaluación de Métricas

Todos los modelos evaluados mostraron métricas de desempeño similares. Sin embargo, el análisis de las métricas MAE (Mean Absolute Error) y RMSE (Root Mean Squared Error) revela aspectos críticos sobre el rendimiento del modelo:

- MAE: El MAE sugiere que el modelo tiene un desempeño deficiente en términos absolutos. Dado que el promedio del target es de 7 días, un MAE que indica errores de aproximadamente 5 días implica que las predicciones pueden ser considerablemente imprecisas en términos de la duración real de la estancia.

- RMSE: Con valores entre 16 y 18, el RMSE indica la presencia de errores significativos que están inflando el promedio cuadrático de los errores. Esto sugiere que existen algunas predicciones que difieren considerablemente de los valores reales.

Además, se observa que todas las predicciones del modelo tienen un error cuadrático medio de aproximadamente 17 días. Sin embargo, es importante notar que el 75% de los valores de entrenamiento están por debajo de los 14 días, lo cual indica que el modelo puede no ser completamente fiable en su capacidad para predecir estancias más largas en el centro de rescate.

En conclusión, aunque el Random Forest Regressor fue seleccionado debido a su rendimiento general superior, la mejora de las métricas MAE y RMSE es crucial para aumentar la precisión del modelo y hacerlo más confiable para la planificación y gestión de recursos en el centro de rescate.


---

### **Resultados**

---

### **Implementación de la Solución**

---

### **Conclusiones**

---

### **Referencias**

Gunter, Lisa M.; Barber, Rebecca T.; Wynn, Clive D. L., 2018, "Replication Data for: What’s in a Name? Effect of Breed Perceptions & Labeling on Attractiveness, Adoptions & Length of Stay for Pit-Bull-Type Dogs", https://doi.org/10.7910/DVN/CSVGZO, Harvard Dataverse, V1, UNF:6:tkJPXhAM6DAX8ihOOW8YSg== [fileUNF] 

---

### **Anexos**