# Python para el análisis de datos -  UNAV 2020-2021
---

# Notebook 7: Desarrollo de proyectos en Python

En esta sesión vamos a tratar varios temas importantes para el desarrollo de proyectos en Python en particular, pero es aplicable a otros lenguajes de programación. Como ya hemos comentado durante el curso, el desarrollo de librerías en Python requiere algo más que Jupyter Notebooks, de hecho, es necesario familiarze con varias tecnologías y conceptos del ciclo de vida del desarrollo de proyecto.

A diferencia de otras sesiones, en ésta no se incluye un material extenso, pero sí referencias a varios temas que podéis utilizar como guía para consultas. El objetivo es presentar, comentar cada uno de los temas y resolver dudas.

## Índice  <a name="indice"></a>

- [Editores de desarrollo (IDE)](#ide)
- [Estructura librería](#estructura_libreria)
- [Control de versiones](#versiones)
    - [Git/GitHub](#git_github)
- [Documentación](#documentacion)
    - [Docstrings](#docstrings)
    - [Sphinx](#sphinx)
    - [Otros](#doc_otros)
- [Pruebas unitarias](#unittest)
    - [Librerías disponibles](#unittest_librerias)
    - [Coverage](#unittest_coverage)
    - [Pruebas de calidad](#pruebas_calidad)
- [Integración continua (CI)](#ci)
- [Despliegue de librería](#depliegue_libreria)
- [Entrega continua](#cd_1)
- [Despliegue continuo (CD)](#cd_2)
- [Metodologías de trabajo](#metodologias)
    - [Agile](#agile)
        - [Scrum](#scrum)
        - [Kanban](#kanban)
    - [DevOps](#devops)

## Editores de desarrollo (IDE)<a name="ide"></a> 
[Volver al índice](#indice)

El uso de un buen editor de texto y/o Integrated Development Environment (IDE) es importante. Trabajar con las herramientas adecuadas acelera el trabajo y facilita el uso de buenas prácticas. Hay varios editores recomendables en Python:

#### Sublime Text: https://www.sublimetext.com/

No es gratuito ($80), pero no limita su uso. Muy potente, capaz de gestionar archivos grandes y con muchas funcionalidades por defecto. La comunidad de sublime (package control), ha desarrollado multidud de plugins para varios lenguajes, que os pueden resultar útiles: https://packagecontrol.io/

#### Visual Studio Code: https://code.visualstudio.com/

Gratuito, con funcionalidades similares a Sublime Text. Una buena alternativa con una comunidad creciente.

#### PyCharm: https://www.jetbrains.com/es-es/pycharm/

PyCharm Professional Edition es gratuito e incorpora las herramientas esenciales.

La empresa detrás de PyCharm es JetBrains, un referente en el desarrollo de herramientas para desarrolladores de software. Este IDE es posiblemente el más completo del mercado, incluyendo herramientas avanzadas de debugging, integración con GitHub y herramientas para comprobar la calidad del código, entre muchas otras. Es una buena opción, especialmente si no estáis familiarizados con el uso del intérprete Python.

**Mi recomendación**: es muy útil familiarizarse con el intérprete y el uso de líneas de comandos, en particular, si váis a trabajar en Linux u otro sistema UNIX. Si domináis la línea de comandos podéis ahorrar mucho tiempo.

## Estructura librería<a name="estructura_libreria"></a> 
[Volver al índice](#indice)

No "existe" un estándar para estructurar un proyecto en Python, pero sí hay ciertas prácticas habituales que podéis encontrar en muchos proyectos en GitHub. La estructura de un proyecto/librería podría ser así:

<pre>
project_name
├── LICENSE
├── doc
│   ├── make.bat
│   ├── Makefile
│   ├── source
│   │   ├── _static
│   │   ├── _templates
│   │   ├── *files*.rst
│   │   └── conf.py
├── project_name
│   ├── __init__.py
│   ├── module_1
│   │   ├── __init__.py
│   │   ├── *files*.py
│   ├── module_2
│   │   ├── __init__.py
│   │   ├── *files*.py
│   ├── module_3
│   │   ├── __init__.py
│   │   ├── *files*.py
├── tests
│   ├── *test_files*.py
├── setup.py
└── README.rst
</pre>

*files* indica múltiples archivos *.py. Los elementos principales son:

* LICENSE: https://choosealicense.com
* README
* project_name/
* tests/
* setup.py

Otras referencias sobre estructuras: https://docs.python-guide.org/writing/structure/

## Control de versiones<a name="versiones"></a> 
[Volver al índice](#indice)

Cuando trabajamos en proyectos realizamos muchos cambios a los archivos. La forma de tener control sobre los cambios producidos en un proyecto en mediante un control de versiones. No es razonable tener archivos del estilo archivo_v1, archivo_v2, ..., archivo_final_v10.

Un control de versiones nos permite volver a una revisión anterior. Esto es importante por varios motivos, algunos de ellos son:

* Poder realizar varios desarrollos en paralelo desde una revisión estable.
* Control de colisiones cuando trabajamos en múltiples revisiones.
* Backup en caso de pérdida/eliminación de archivos.
* Restaurar revisión estable cuando encontramos un bug con un número de implicaciones relevante.

### Git/GitHub<a name="git_github"></a> 
[Volver al índice](#indice)

Hay sistemas de control de versiones disponibles, el más común es Git, popularizado gracias a GitHub. Otros sistemas interesantes son Apache Subversion (SVN) y Mercurial.

Los comandos más habituales en Git son:
    
* git add: añadir archivos a la "zona de espera" de Git. Es necesario añadir antes de realizar commit.
* git commit: guarda las modificaciones en los archivos en un repositorio local. Opcional incluir mensaje (recomendado).
* git status: estado de los archivos en la rama de trabajo.
* git branch: cambiar, añadir o eliminar ramas de trabajo.
* git checkout: empieza a trabajar en una rama distinta.
* git merge: integrar ramas.
* git clone: crear una copia de un directorio remoto en el local.
* git push: enviar cambios locales a un repositorio remoto.
* git pull: obtener la última versión de un repositorio.

GitHub es una plataforma para el mantenimiento y desarrollo colaborativo de código. La interfaz de GitHub permite realizar las operaciones que normalmente se harían con Git, pero de una manera más "amigable".

Veamos algunos archivos comunes en un proyecto en GitHub:

* license: https://docs.github.com/en/free-pro-team@latest/github/creating-cloning-and-archiving-repositories/licensing-a-repository
* .gitignore: https://docs.github.com/en/free-pro-team@latest/github/using-git/ignoring-files

Veamos algunos ejemplos de repositorios en GitHub:

* scikit-learn: https://github.com/scikit-learn/scikit-learn
* CPrior: https://github.com/guillermo-navas-palencia/cprior

## Documentación<a name="documentacion"></a> 
[Volver al índice](#indice)

Una parte fundamental del desarrollo de una librería es la creación de buena documentación. Una librería de calidad, que pretenda ser empleada por un número importante de desarrolladores y/o organizaciones, requiere una documentación completa y comprensible.

Muchos desarrolladores dan poca importancia a la creación de documentación, pero eso es un error por varios motivos:

* Si el número de usuarios incrementa, una documentación de mala calidad aumenta el número de preguntas, y por lo tanto, la necesidad de soporte.
* En muchas ocasiones un desarrollador trabaja en varias librerías a la vez, es díficil recordar todo el código, o incluso recordar el funcionamiento de algunos métodos.

### Docstrings<a name="docstrings"></a> 
[Volver al índice](#indice)

Hay varios formatos disponibles para la creación de docstrings:
    
* Epytext: http://epydoc.sourceforge.net/
* resT: https://www.sphinx-doc.org/en/master/
* Google: https://github.com/google/styleguide/blob/gh-pages/pyguide.md#38-comments-and-docstrings
* Numpydoc: https://numpydoc.readthedocs.io/en/latest/

Sphinx requiere la extension Napoleon para utilizar los formatos Google y Numpydoc https://sphinxcontrib-napoleon.readthedocs.io/en/latest/

**Mi opinión**: Google y Numpydoc son los dos formatos más elegantes y legibles.

### Sphinx<a name="sphinx"></a> 
[Volver al índice](#indice)

Sphinx https://www.sphinx-doc.org/en/master/ es la herramienta de generación de documentación automática más empleada.

Configurar sphinx dentro de una librería es relativamente sencillo gracias a *sphinx-quickstart* https://www.sphinx-doc.org/en/master/usage/quickstart.html. Como resultado obtenemos un archivo conf.py que podremos modificar más adelante. Por ejemplo: https://github.com/guillermo-navas-palencia/cprior/blob/master/doc/source/conf.py.

Los comandos más comunes con sphinx son:
<pre>
make clean
make html -j4
</pre>

Para generar documentación los dos formatos de archivo más utilizados son reStructuredText (.rst) y Markdown (.md):
    
* reStructuredText: https://www.sphinx-doc.org/es/master/usage/restructuredtext/index.html
* Markdown: https://www.markdownguide.org/

Sphinx ofrece la opción de convertir Notebooks a HTML mediante nbsphinx https://nbsphinx.readthedocs.io/en/0.8.0/. Esto es muy útil para añadir tutoriales en la documentación.

### Otros<a name="doc_otros"></a> 
[Volver al índice](#indice)

#### Guía de instalación

Toda buena documentación incluye una sección con indicaciones para una correcta instalación. En ocasiones, las librerías contienen archivos en otros lenguajes de programación, o tienen dependencias que complejizan la instalación. En el caso de dar soporte a diferentes sistemas operativos, la dificultad puede ser aún mayor.

#### Ejemplos/tutoriales

Si una librería está destinada al "gran público", es casi obligatorio incluir el máximo número posible de tutoriales y ejemplos sencillos. Estos tutoriales deben cubrir todas las funcionalidades presentes en la librería.

Crear ejemplos puede ser costoso inicialmente, pero también puede ahorrar mucho tiempo de soporte, ya que podéis dirigir muchos usuarios a la documentación.

#### Release notes

Release notes son una forma de documentar los cambios que han ocurrido entre versiones. Estos resultan útiles para especificar si los nuevos cambios hacen que un código utilizando la antigua versión sea ahora incompatible. Las release notes de Scikit-Learn son una referencia en términos de detalle y calidad: https://scikit-learn.org/stable/whats_new.html

## Pruebas unitarias (unit testing)<a name="unittest"></a> 
[Volver al índice](#indice)

La creación de pruebas unitarias es la parte más crítica del desarrollo de software. Las pruebas unitarias permiten comprobar que el código funciona correctamente, es decir, el comportamiento es el esperado. El objetivo es crear pruebas pequeñas que aislen las funcionalidades del código, de forma que se puedan detectar errores de forma rápida.

No realizar pruebas unitarias durante el desarrollo puede tener consecuencias:

* Encontrar errores en las fases posteriores de puesta en producción, retrasando la planificación de forma inesperada.
* Los usuarios pueden encontrar bugs. Un gran número de bugs produce desconfianza sobre la calidad del código.
* Dificultades para comprobar que después de un refactoring el código se comporta de la misma manera.

El test driven development (TDD) implica desarrollar las pruebas unitarias necesarias antes de escribir el software. Es una metodología para escribir el código atendiendo a los requisitos implementados en las pruebas unitarias. El objetivo es implementar el código más sencillo posible que haga pasar la prueba, más adelante éste se modificará para mejorar eficiencia y calidad.

### Librerías disponibles<a name="unittest_librerias"></a> 
[Volver al índice](#indice)

Los dos librerías predominantes para pruebas unitarias son unittest y pytest, siendo pytest la más utilizada por el momento. Unittest es uno de los módulos nativos de Python.

* unittest: https://docs.python.org/3/library/unittest.html
* pytest: https://docs.pytest.org/en/stable/

Probar todos los archivos de test:
<pre>coverage run -m pytest --cov-report html --cov-report annotate --cov=myproject tests/</pre>

Probar todas las funciones en un archivo de test:
<pre>coverage run -m pytest --cov-report html --cov-report annotate --cov=myproject tests/test_1.py</pre>

Probar una función de un archivo de test:
<pre>coverage run -m pytest --cov-report html --cov-report annotate --cov=myproject tests/test_1.py -k test_function_1</pre>

Ver todos los comandos disponibles en pytest: <pre>pytest --help</pre>

### Coverage <a name="unittest_coverage"></a> 
[Volver al índice](#indice)

Una vez hemos implementado las pruebas unitarias, es importante saber si realmente se están probando las líneas de código que nos interesan. Las herramientas de cobertura sirven para determinar el porcentaje de líneas que han sido probadas. Este porcentaje es relevante ya que algunos sistemas no permiten subir código con un valor por debajo del 80%.

* Codecov: https://codecov.io/
* Coveralls: https://coveralls.io/

**Mi opinión**: Codecov es más completo que Coveralls.

### Pruebas de calidad<a name="pruebas_calidad"></a> 
[Volver al índice](#indice)

Otro de los aspectos importantes antes de productivizar una librería es comprobar ciertas métricas de calidad. Lo más habitual es comprobar que satisface el estándar de Python PEP-8. Algunas herramientas disponibles son:

* flake8: https://flake8.pycqa.org/en/latest/#
* pylint: https://www.pylint.org/
* sonarqube: https://www.sonarqube.org/ (más avanzada que las anteriores).

Con flake8 podemos comprobar todo nuestro proyecto utilizando:
<pre>flake8 myproject/</pre>

## Integración continua (CI)<a name="ci"></a> 
[Volver al índice](#indice)

La integración continua (continuous integration, CI) es una metodología de desarrollo de software que consiste en integrar, valga la redundancia, es decir, realizar la ejecución de las pruebas unitarias y de calidad de forma rutinaria, para poder detectar fallos lo antes posible. Es necesario acostumbrarse a esta práctica para desarrollar software de forma ágil.

Algunos de los servicios de integración más extendidos son:

* https://www.jenkins.io/
* https://travis-ci.org/
* https://circleci.com/

Más información: https://djangostars.com/blog/continuous-integration-circleci-vs-travisci-vs-jenkins/

#### .travis.yml

Travis CI es el servicio de integración más popular en GitHub debido a su facilidad de puesta a punto, especialmente si lo comparamos con Jenkins. La configuración de Travis CI se realiza a través del archivo .travis.yml.

Veamos algunos ejemplos:

* https://github.com/guillermo-navas-palencia/optbinning/blob/master/.travis.yml
* https://github.com/numpy/numpy/blob/master/.travis.yml

## Despliegue de librería<a name="depliegue_libreria"></a> 
[Volver al índice](#indice)

En la actualdiad hay varias formas de desplegar una librería. La más habitual sigue siendo la subida al repositorio PyPI, pero otras formas que están auge son mediante el uso de contenedores. Docker https://www.docker.com/ ha desarrollado contenedores estándar de software para facilitar la distribución de librerías junto al software necesario para su correcta ejecución.

#### PyPI (https://pypi.org/)

PyPI es el repositorio de software oficial de Python. 

#### setup.py

El script setup.py es el elemento central para la distribución e instalación de librerías en Python. La estructura de código en setup.py puede variar, aquí tenemos un ejemplo:

<pre>
from setuptools import find_packages, setup

# install requirements
install_requires = [
    'matplotlib',
    'numpy>=1.16.1',
    'pandas',
    'scipy',
    'scikit-learn>=0.22.0',
]

# test requirements
tests_require = [
    'pytest',
    'coverage'
]

setup(
    name="project_name",
    version="0.1.0",
    description="Project Name: description",
    long_description="Project Name: long description",
    author="myname",
    author_email="myemail",
    packages=find_packages(),
    platforms="any",
    include_package_data=True,
    license="Apache Licence 2.0",
    url="https://github.com/github_username/project_name",
    python_requires='>=3.6',
    install_requires=install_requires,
    tests_require=tests_require,
    classifiers=[
        'Topic :: Scientific/Engineering :: Mathematics',
        'Topic :: Software Development :: Libraries',
        'Topic :: Software Development :: Libraries :: Python Modules',
        'Intended Audience :: Developers',
        'Intended Audience :: Education',
        'Intended Audience :: Science/Research',
        'License :: OSI Approved :: Apache Software License',
        'Programming Language :: Python :: 3',
        'Programming Language :: Python :: 3.6',
        'Programming Language :: Python :: 3.7']
    )
</pre>

Instrucciones para subir librería a PyPI:

<pre>
python setup.py sdist bdist_wheel
twine upload dist/*
</pre>

twine: https://twine.readthedocs.io/en/latest/

Más información: https://packaging.python.org/tutorials/packaging-projects/

## Entrega continua<a name="cd_1"></a> 
[Volver al índice](#indice)

Es una práctica de desarrollo de software que entrega el código directamente preparado para producción, una vez se realizan cambios y pasan las pruebas requeridas en los procesos de integración continua. Esto no implica que un producto de entregue al público tras cada cambio, sino que permite a los desarrolladores disponer de una versión testada para la puesta en producción cuando sea necesario.

## Despliegue continuo (CD)<a name="cd_2"></a> 
[Volver al índice](#indice)

Despligue continuo (continuous deployment, CD) se diferencia de entrega continua en que cada versión testada para producción es desplegada. Esto es más habitual en negocios que realizan varias cambios diarios (webs y apps).

## Metodologías de trabajo<a name="metodologias"></a> 
[Volver al índice](#indice)

En esta última sección vamos a presentar las metodologías Agile (Scrum y Kanban) y DevOps por ser las más extendidas en el campo del desarrollo de software.

### Agile<a name="agile"></a> 
[Volver al índice](#indice)

Manifiesto Agile:

* Valorar a los individuos y sus interacciones frente a procesos y herramientas.
* Valorar más el software que funciona, que una documentación exhaustiva.
* Valorar más la colaboración con el cliente que la negociación de un contrato.
* Valorar más la respuesta al cambio que el seguimiento de un plan.

Vamos a mirar con más detalle dos métodos ágiles muy utilizados: Scrum y Kanban.

#### Scrum<a name="scrum"></a> 
[Volver al índice](#indice)

Principios de Scrum:
    
* Inspección y adaptación: sprint (1 - 4 semanas).
* Auto-organización y colaboración.
* Priorización.
* Mantener el latido.

In [2]:
from IPython.display import Image
from IPython.core.display import HTML 
Image(url= "https://www.visual-paradigm.com/servlet/editor-content/scrum/what-are-scrum-time-boxed-events/sites/7/2018/12/five-scrum-events.png")

Un poco más de detalle: https://www.anayamultimedia.es/libro.php?id=4724069

#### Kanban<a name="kanban"></a> 
[Volver al índice](#indice)

Principios Kanban:

* Visualizar el flujo de todo el trabajo.
* Divida el trabajo en ítems pequeños.
* Limite el trabajo en curso.
* Mida el tiempo empleado en completar un ciclo completo.

### DevOps<a name="devops"></a> 
[Volver al índice](#indice)

DevOps (Development + Operations) tiene el objetivo de maximizar la colaboración e integración entre el equipo de desarrollo y los equipos de operaciones (IT, producción, gestión). Estos dos departamentos, que tradicionalmente se han considerado silos, deben comunicarse de forma efectiva para mejorar el ciclo de producto. 

Algunos links para saber más:

* https://devops.com/
* https://ml-ops.org/