README 

Este archivo contiene un modelo de machine learning destinado a predecir cancelaciones de ventas. A continuación se presenta una descripción detallada del proyecto, incluyendo el preprocesamiento de datos, el entrenamiento del modelo, la evaluación y selección. Se presenta además un análisis de la relevancia que cada feature tiene en dichas cancelaciones.

Archivos en el Repositorio

Modelo1.ipynb: Notebook que contiene el primer modelo contemplado, en el que no se tuvo en cuenta el cruce con la tabla sales_cancellations.

Modelo2.ipynb: Notebook escogido para el análisis. Es un añadido del modelo 1, contiene información sobre los motivos de cancelación de una venta al observar que mejoran nuestro modelo. 

README.md: Descripción general del proyecto.

1. Descripción del Proyecto

El objetivo de este proyecto es predecir si las oportunidades de ventas serán canceladas o adjudicadas utilizando varios modelos de machine learning. El mejor modelo se selecciona en función de su rendimiento en el conjunto de test. Se pretende comprender qué factores contribuyen a la cancelación de ventas para poder diseñar estrategias más efectivas, minimizar estas cancelaciones y mejorar la satisfacción del cliente

2. Preprocesamiento de Datos

Los datos utilizados para este proyecto consisten en varios archivos CSV que contienen oportunidades de ventas y sus respectivos atributos. Los pasos clave en el preprocesamiento de datos incluyen:

-Limpiar los datos eliminando columnas innecesarias.

-Fusionar conjuntos de datos para crear un conjunto de datos completo para modelado.

-Filtrar los datos para incluir solo los estados de ventas relevantes ("Cancelled" y "Awarded").

3. Feature Engineering

Transformación y selección de características relevantes para el entrenamiento del modelo. Se han codificado variables categóricas (get_dummies), manejado los valores faltantes y normalizado. Se han creado nuevas columnas en base a cálculos de columnas ya existentes. 

4. Análisis de Correlación

Se dibuja una matriz de correlación para analizar las relaciones entre las características, una vez tenemos los datos limpios.

Observamos que las correlaciones no son fuertes pero y relación entre las siguientes variables:

-**cancelled_after_completion** y **cancelled_before_completion** tienen bastante correlación con nuestro target.

-Los clientes **Tata-JLR** y **Ford** tienen correlación con **cancelled_before_completion** y **cancelled_vehicle_replacement** respectivamente. 

-**time_delta_months** tiene cierta correlación con **cancelled_after_completion** y **cancelled_before_completion**.

-El motivo de cancelación por error (**mistake**) tiene cierta relación con nuestro target.

-**time_delta_months** correla con nuestro target (y con **cancelled_before_completion**)

-**AnnualAveragegTotalPlanning** y **probabilityofAward** correlan negativamente con nuestro target.


5. Entrenamiento del Modelo

Se entrenan varios modelos utilizando GridSearchCV y se optimiza el que mejor resultado proporcine. Los modelos incluyen:

-Logistic Regression

-RandomForestClassifier

-ExtraTreesClassifier

-AdaBoostClassifier

-GradientBoostingClassifier

-XGBClassifier

-KNeighborsClassifier


6. Evaluación del Modelo

Los modelos se evalúan utilizando métricas como el F1-score y la precisión. El modelo ExtraTreesClassifier se selecciona como el mejor modelo basado en su rendimiento, con un accuracy bastante alto.

7. Matriz de Confusión

Se genera una matriz de confusión para visualizar el rendimiento del modelo seleccionado en la clasificación. De ella deducimos que:

-Hay 472 casos en los que el modelo predijo que una oportunidad se cancelaría (1) y efectivamente se canceló.

-Hay 430 casos en los que el modelo predijo que una oportunidad no se cancelaría (0) y efectivamente no se canceló.

-Hay 1 caso en el que el modelo predijo que una oportunidad se cancelaría (1), pero en realidad no se canceló (0). También se conoce como un "falso positivo".

-Hay 31 casos en los que el modelo predijo que una oportunidad no se cancelaría (0), pero en realidad se canceló (1). También se conoce como un "falso negativo".

8. Conclusión

El modelo ExtraTreesClassifier se selecciona como el mejor modelo para predecir cancelaciones basado en sus métricas de rendimiento superiores. El análisis y evaluación exhaustivos aseguran la fiabilidad y efectividad del modelo en un escenario real.

Análisis del feature importance:

Las features más relevantes a la hora de predecir una cancelación no son las que se esperaban en un principio (descuentos aplicados, tipo de negocio o precio del vehículo), son:

-Cancelaciones Antes de la Finalización (**cancelled_before_completion**): Esta característica resultó ser la más influyente, con una importancia de 0.194041. Indica que si un cliente ha cancelado antes de la finalización en el pasado, es un fuerte predictor de futuras cancelaciones.

-Planificación Total Anual Promedio (**annualAverageTotalPlanning**): Con una importancia de 0.132002, sugiere que una planificación deficiente o inconsistente puede llevar a cancelaciones.

-Delta de Tiempo en Meses (**time_delta_months**): Con una importancia de 0.121466, el tiempo transcurrido entre eventos clave también afecta significativamente la probabilidad de cancelación.

-Cancelaciones Después de la Finalización (**cancelled_after_completion**): Esta característica tiene una importancia de 0.110815, destacando que las cancelaciones post-finalización también son un factor crítico.

-Errores (**mistake**): La presencia de errores en el proceso de ventas o documentación tiene una importancia de 0.094067, indicando su relevancia en la decisión de cancelar.

