# Introducción
Este documento es un resumen de la metodología llevada a cabo y los objetivos propuestos y conseguidos durante la fase de desarrollo del proyecto **Estudio de las características de las empresas zombi colombianas
mediante aprendizaje automático**.

El siguiente documento ha sido realizado a través de un cuaderno, o notebook de Jupyter, que utiliza el lenguaje programación Python. El cuaderno permite mezclar el código con parágrafos en formato markdown. Esto resulta especialmente útil, ya que permite desarrollar toda la ejecución del proyecto juntamente con las explicaciones de la ejecución y el análisis de los resultados.

El proyecto se realiza en un total de 5 cuadernos, que se incluyen como distintos ficheros en esta entrega. El resumen de los cuadernos es el siguiente:

1. Preprocesamiento de datos básicos: analiza, limpia y transforma el dataset de datos básicos de empresa.
2. Extracciones: realiza extracciones de distintas fuentes externas para complementar los datos básicos.
3. Preprocesamiento de datos financieros: analiza, limpia y transforma el dataset de datos financieros de empresa.
4. Etiquetado de empresas: analiza y etiqueta las empresas como zombis según el mejor criterio escogido.
5. Modelos: construye y avalúa los modelos de aprendizaje automático para conseguir los resultados.

Los cuadernos se adjuntan en formato pdf exportado a partir del fichero .ipynb original. 

# Código
Todo el código del proyecto se puede encontrar en su formato original en el repositorio de github: [https://github.com/Jolicost/ZombisColombia](https://github.com/Jolicost/ZombisColombia)

El repositorio contiene todos los cuadernos que se adjuntan en esta entrega, así como los ficheros de datos utilizados por el proyecto, que se describen a continuación.

Para ejecutar los cuadernos, será necesario instalar los requerimientos que se describen en el fichero requierements.txt, del mismo repositorio.

# Datos
Los datos del proyecto se encuentran en el directorio /data del repositorio de código, y se pueden clasificar en dos tipos.

* Datos sin procesar.
* Datos procesados.

Los datos sin procesar están constituidos principalmente por ficheros Excel. Se tratan de datos sin procesar y que sirven como base para edificar el proyecto. Su descripción es la siguiente:

* Balance2017.xls: contiene los datos financieros o partidas de las empresas para el ejercicio del 2017. Proporcionado por el director del proyecto, Santiago Rojo.
* Balance2018.xls: ídem pero para 2018.
* Balance2019.xls: ídem pero para 2019.
* CNPV-2018-Poblacion-Ajustada-por-Cobetura.xls: censo del DANE de la población en los diferentes municipios de Colombia.
* DatosEmpresa.xls: datos básicos de las empresas de Colombia. Proporcionado por el director del proyecto.
* DensidadPoblacional.xls: datos de la superficie de cada municipio en Colombia.
* EstructuraDetalladaCIIU.xls: estructura e información acerca de los códigos CIIU de Colombia (actividades de empresa).
* Partidas.xlsx: información sobre las partidas financieras de los balances. Su único propósito es informativo.

Los datos procesados son aquellos que han sido transformados a partir de los datos sin procesar:

* DatosEmpresaClean.csv: datos tratados a partir de los datos básicos de empresa.
* EjerciciosAgregados.csv: datos tratados y agregados de los ejercicios de las empresas. Se forma a través del cuaderno de preprocesado de ejercicios.
* EjerciciosClean.csv: datos tratados de los ejercicios de las empresas, sin agregaciones.
* EmpresasZombisClean.csv: dataset final generado a partir de los datos básicos de empresa y de los ejercicios tratados.
* ExtraccionCIIU.csv: extracción de toda la información de los códigos CIIU en Colombia.
* ExtraccionRuralidad.csv: extracción de la ruralidad de los municipios colombianos.

# Resumen de objetivos

Los principales objetivos del proyecto son dos. En primer lugar, etiquetar las empresas zombi de los datos disponibles. En segundo lugar, caracterizar las empresas zombi mediante técnicas de aprendizaje automático.

El primer objetivo se puede descomponer en los siguientes subobjetivos, que son tratados como se explica:

En primer lugar, estudiar las definiciones existentes de empresa zombi. Esto se consigue mediante un análisis del estado del arte. A través del primer estudio realizado sobre el tema en Japón, se sigue la línea investigativa de distintos autores, estudiando por el camino las características que presentan las empresas zombis y las distintas definiciones que se han acuñado.

En segundo lugar, encontrar la definición adecuada para el proyecto. Esto se debe realizar teniendo en cuenta la naturaleza de los datos, ya que no todas las definiciones encontradas se podrán aplicar. Una vez se han seleccionado las definiciones candidatas, se debe seleccionar aquella que mejor permita conseguir el segundo objetivo principal. Este objetivo se alcanza cuando se analizan las distintas propiedades de las definiciones zombi, y se evalúa cuál resulta más apropiada.

En tercer lugar, se etiquetan los datos según la definición escogida, y de esta manera se alcanza el primer objetivo principal del proyecto.

El segundo objetivo consta de describir las características de las empresas zombis mediante técnicas y algoritmos de aprendizaje automático. Para llevarlo a cabo se crean un conjunto de modelos, tanto de caja blanca como de caja negra, y se extraen las decisiones que los modelos toman para discriminar las empresas.

# Resultados
En primer lugar, la etiquetación de empresas zombi evalúa dos definiciones distintas:

* La definición de la OECD: empresas con ratio de cobertura de interés inferior a 1 durante 3 años consecutivos.
* La definición de zombi extrema: empresas con equidad negativa.

Se concluye que la definición de la OECD tiene mucha más representatividad en los datos disponibles del proyecto que la definición extrema. Existe un mayor número de instancias y las variables elegidas son más relevantes, por lo que se descarta la definición zombi extrema.

En segundo lugar, los modelos de aprendizaje automático explican que, por una banda, las empresas zombis se caracterizan de forma financiera como procede:

* Sus fondos propios (parte del patrimonio) tienden a ser más bajos en el ejercicio de interés. Si los fondos propios son negativos (lo que denota deuda no asumible), su prevalencia es aún mayor.
* Su nivel de endeudamiento (relación entre pasivos y activos totales) es mayor. Así como su nivel de endeudamiento financiero (relación entre pasivos e ingresos operacionales), y de apalancamiento a corto plazo (Pasivo a corto entre patrimonio).
* Tienden a presentar un mayor número de activos no corrientes y capital social que las otras empresas.
* Si tienen pocas reservas en su patrimonio, aumenta el riesgo de ser zombi.
* Si las empresas presentan poca variación, o su variación es negativa, en los últimos 3 años respecto a sus activos o patrimonio, el riesgo de ser zombi aumenta.

Y, por la otra banda, sus características básicas son:

* Tienen poca prevalencia de aparecer en el sector de la construcción, el inmobiliario y el de transportes.
* Tienen más prevalencia de aparecer en los sectores del comercio al por mayor y en el sector manufacturero.
* Tienden a aparecer con más frecuencia en los departamentos colombianos de Antioquia, Bolívar y Atlántico. Y no tienen tanta presencia en los departamentos de Valle y Risaralda.
* Cuanto más crece el tamaño de la empresa, ya sea por denominación financiera o por número de empleados, mayor presencia de empresas zombis.

Los modelos creados presentan la característica de tener un buen nivel de recall, pero una baja precisión. Esto significa que clasifican correctamente las empresas zombis, pero una gran parte de las sanas también son clasificadas como zombis en el proceso.

Se han planteado varias hipótesis para la anterior problemática y se ha resuelto que los datos utilizados para el proyecto no son lo suficientemente representativos de la realidad. La teoría principal es que existen variables ocultas (que no se han encontrado durante el procesado de datos, o bien que no existían en origen), que aportan la información suficiente como para discriminar mejor las empresas zombis.

En todo caso, los modelos creados sirven para detectar gran parte de aquellas características que presentan las empresas zombis, y por lo tanto es posible alcanzar el segundo objetivo. Pero hay que tener en cuenta que muchas empresas sanas presentan estas características, pero no son denominadas zombis.