<font size=6>

<b>Curso de Análisis de Datos con Python</b>
</font>

<font size=4>
    
Curso de formación interna, CIEMAT. <br/>
Madrid, Junio de 2023

Antonio Delgado Peris (Cristina Labajo Villaverde)
</font>

https://github.com/andelpe/curso-python-analisis-datos

<br/>

# Tema 1 - Introducción y generalidades

## Objetivos del curso

- Proporcionar los fundamentos del análisis de datos usando el lenguaje Python.

- Presentar el creciente ecosistema de librerías numéricas y científicas entorno al lenguaje. 

- Conocer y manejar la librería _NumPy_, como base del cálculo numérico en Python.

- Usar la librería _Pandas_ para realizar tareas habituales de procesado y análisis de datos.

- Conocer y emplear algunas de las librerías de visualización más populares de Python.

- Utilizar el entorno _Jupyter_ para trabajo interactivo, e integración de código, documentación y resultados.

- Introducir otras librerías de análisis de datos en Python. 


## Características de python

- **Interpretado** (no compilado)
  - Portable: soportado en multiples plataformas (mismo código fuente)
  - Más lento que C/C++ (pero existen opciones para acelerar las partes críticas)
- **Desarrollo incremental**
  - Intérprete interactivo y Jupyter notebooks
  - Capacidades de introspección
  - Tipos dinámicos
- **Versátil**
  - Desarrollos rápidos (prototipos, scripts)
    - Tipos dinámicos, rica librería estándar, sintaxis intuitiva... 
  - Herramienta de control / integración (_pegamento_)
    - Interfaces con código C o Java, ejecutables
  - Desarrollos complejos (GUIs, DBs, webs, cálculo científico)
  - Orientación a objetos, excepciones, generadores...
- **Uso muy extendido**
  - Seguramente el más usado en entornos científicos
  - Cualquier nuevo proyecto ofrece _python library/bindings_
- Rinde homenaje a los Monty Python!

## Modelo de ejecución

- Python compila el código fuente a bytecodes
  - Almacenados como ficheros .pyc para reutilización
- Python Virtual Machine (PVM): ejecuta los bytecodes

![modelo_ejecucion](images/t1_modelo_ejecucion.png)
  
<br/>

- Otras posibilidades (_esotéricas_)
  - Traductores a C++
  - Integración con Java (_Jython_, en lugar de CPython)
  - Compilación a ejecutable: _py2exe_ (Windows) , _Numba_
- Además, se puede integrar Python con lenguaje compilado, de varias maneras:
  - Escribiendo módulos Python en C (usando `Python.h`)
  - Usar _Cython_ para integrar código Python y C, y crear módulos compilados para Python
  - Usar _CFFI_ o _Ctypes_, para usar librerías C (compiladas) existentes, desde Python
  - Crear un _wrapper_ Python para librerías C/C++, con _Swig_ o _Boost_


## Instalación de Python

Solo hay que descargarlo en el formato adecuado para nuestro sistema operativo desde https://www.python.org

En muchos sistemas Unix/Linux, Python viene ya instalado por defecto (incluso es usado por el propio S.O.).

La instalación para Windows permite añadir Python al PATH, e instalarla para un usuario o para todo el sistema (_Customize installation_). Ver: https://docs.python.org/3/using/windows.html

También puede venir incluido en distribuciones de software más amplias:

- El ejemplo más conocido es `Anaconda`, que incluye numerosos paquetes científico/técnicos adicionales (así como un IDE, una GUI, un gestor de paquetes/entornos (`conda`), etc.)
  - Existe una versión minimalista llamada `Miniconda`, que solo incluye Python, _conda_, y unos pocos paquetes extra.

### Instalación de paquetes externos

La herramienta oficial (y más usada) para instalar paquetes Python es `pip`. 

Instala paquetes del Python Package Index (PyPi): https://pypi.org/

    python3 -m pip install cowsay
    # o       
    pip install cowsay    

- Una práctica recomendada, y cada vez más extendida, es el uso de entornos virtuales para aislar aplicaciones (cada entorno puede tener sus propios paquetes, en la versión que quieran):
  - `venv`, incluida con Python 3.3+. Para versiones anteriores: `virtualenv` (externa, Python 2 y 3).
  - `conda` _environments_: el gestor de paquetes y entornos distribuido con `Anaconda`, o `Miniconda`.
- Para entornos científicos, como ya hemos comentado, existen distribuciones pre-empaquetadas, como Anaconda.

### Usando entornos virtuales _venv_

Directorio base para nuestros entornos:

    $> mkdir $HOME/pythonenvs
    $> cd $HOME/pythonenvs


Crear el nuevo entorno, contenido en un directorio del mismo nombre, usando el módulo `venv`:

    $> python3 -m venv data       # [Windows] C:\>python -m venv c:\path\to\myenv


Activar el entorno virtual `data` (para instalar nuevos paquetes, o para utilizarlo):

    $> source data/bin/activate   # [Windows] C:\> ...myenv\Scripts\activate.bat
    (data)


El entorno incluye su propio `python` (y `pip`):

    $> which python3
    ~/pythonenvs/data/bin/python3
    (data)


Actualizar `pip`:

    $> python3 -m pip install --upgrade pip
    [...]
    Successfully installed pip-21.2.4
      (data)


Instalar los paquetes necesarios (p.ej. para este curso):
<br/>Nota: se recomienda instalar todos los paquetes necesarios de una vez para minimizar problemas de dependencias

    $> python3 -m pip install jedi==0.17.2 jupyterlab ipywidgets numpy pandas scipy scikit-learn statsmodels matplotlib ipympl seaborn


Un atajo es el uso de un fichero `requirements.txt` que liste todos los paquetes necesarios:
  - Para instalar todos los paquetes de un fichero `requirements.txt`: `pip install -r requirements.txt`
  - Para producir el fichero `requirements.txt` con lo instalado en el entorno actual: `pip freeze > requirements.txt` 

Finalmente, para salir del entorno virtual:    

    $> deactivate


### Usando entornos virtuales _Conda_

NOTA: El reciente proyecto `mamba` reimplementa el gestor de paquetes de `conda` para que sea más rápido, eficiente y sostenible. Se puede usar en una instalación conda existente. Para más información: https://github.com/mamba-org/mamba

Crear un entorno virtual (en directorio `[Conda]/envs/data`):

    $> conda create -n data [python=3.6]
      

Activar el entorno virtual `data` (para instalar nuevos paquetes, o para utilizarlo):

    $> conda activate data
    (data) $> 


Instalar los paquetes necesarios (p.ej. para este curso):
<br/>Nota: se recomienda instalar todos los paquetes necesarios de una vez para minimizar problemas de dependencias

      (data) $> conda install jupyterlab ipiwidgets numpy pandas scipy scikit-learn statsmodels matplotlib ipympl seaborn

También se puede crear un entorno a partir de un fichero de entorno, que incluye el nombre del entorno, y dependencias a instalar (con o sin versiones). P.ej:
  - El siguiente comando crea un entorno `stats` e instala las dependencias incluidas: `conda env create -f stats_env.yml`
  - Para crear un fichero de entorno que refleje la instalación del entorno en uso: `conda env export > data_env.yml` 
  
NOTA: en un entorno Conda también podemos usar `pip freeze` para generar un fichero `requirements.txt`,
que es en general más detallado que un `<environment>.yml` (lista todos los paquetes y sus versiones, no dependencias).

Finalmente, para salir del entorno virtual:    

    (data) $> conda deactivate
      


## Ejecución de Python

### Intérpretes interactivos

- Intérprete interactivo (consola):

<font size=1>
    
         ~ $> python
         Python 3.6.4 |Anaconda, Inc.| (default, Jan 16 2018, 12:04:33)
         [GCC 4.2.1 Compatible Clang 4.0.1 (tags/RELEASE_401/final)] on darwin
         Type "help", "copyright", "credits" or "license" for more information.
         
         >>> print("Hello")
         Hello

</font>

- O la variante _mejorada_, _ipython_:

<font size=1>

         ~ $> ipython
         Python 3.6.4 |Anaconda, Inc.| (default, Jan 16 2018, 12:04:33)
         Type 'copyright', 'credits' or 'license' for more information
         IPython 6.2.1 -- An enhanced Interactive Python. Type '?' for help.

```python
    
     In [1]: print("Hello")
     Hello
```

</font>
<br/>

Los intérpretes interactivos son ideales para pruebas rápidas (o _calculadora_...).

- Permiten ejectuar código línea a línea, manteniendo el estado
- Ofrecen las posibilidades de introspección y documentación de Python (`help`, `dir`, `type`...)

### En _scripts_

    python myscript.py
    
O ejecutándolo:

    myscript.py
    
- En Unix, se usa algo como `#!/usr/bin/env python`, en la primera línea del script.
- En Windows, se puede hacer _doble click_ con el ratón (quizás se cierre sin poder ver el resultado)

Los programas suelen necesitar acceder a librerías externas (en Python, módulos), otros ficheros `.py`.

- Volveremos sobre ello, pero los módulos se buscan o bien el directorio actual, o en algunos directorios del sistema, o en los indicados por la variable de entorno `PYTHONPATH`.

### Edición de scripts y módulos

Se puede usar cualquier editor de texto puro: `vim`, `emacs`, `sublime`, `notepad++`...
- No usar algo como `Word`!
- Yo uso `vim` (como cualquier programador serio, ejem...)

También se puede usar un entorno de desarrollo integrado (IDE)
- Incluyen muchas utilidades de ayuda, depuración, refactorización
- Integran un intérprete interactivo
- Muchas opciones: IDLE (parte de Python), PyCharm, Spyder (de Anaconda), Visual Studio, Eclipse...

O se puede usar _Jupyter_.

## El código fuente en Python

La indentación tiene significado sintáctico en Python 
- Python anima a escribir código legible
- La indentación (espacios o tabuladores) crea bloques de código
- Se recomienda usar siempre 4 espacios (y evitar el tabulador)

Ejemplo (_incorrecto_), en C:
```c
if (X > 0) {
     printf("X es positivo") }
     if (X < 2) {
          printf("X es 1")
}
```

Lo mismo en Python:  
```python
if X > 0:
    print("X es positivo")
if X < 2:
    print("X es 1")
```

NOTA: La indentación es ignorada dentro de un paréntesis:
```python
if ((X > 0)
    and ((if X < 2):
print("X es 1")
```

En Python, los comentarios se introducen con `#`:
```python
# This is a comment
print("Hello")
```

## Sobre las versiones de Python

### Versiones de Python

Python 3 es la única versión soportada oficialmente en la actualidad.
- Python 2 ya no recibe mejoras, ni parches de seguridad

Eso no impide que Python 2 todavía se use mucho, y viene pre-instalada en sistemas operativos _recientes_ como _CentOs 7_.

Los ejemplos y ejercicios de este curso están realizados completamente en Python 3.
- En algún caso, se hace referencia a diferencias con Python 2, pero son mínimas.

### Diferencias entre Python 2 y 3

_Compatibilidad hacia atrás_: Cualquier programa de `Python 3.x` puede ser interpretado por `Python 3.y`, si `y > x` (la recíproca no es necesariamente cierta, si ha usado alguna funcionalidad añadida).

Sin embargo, Python 3 no mantiene compatibilidad hacia atrás con Python 2. Los siguientes casos no funcionan en Python 3:

- `print` pasó de ser una sentencia a una función: `print "This"` --> `print('This')`
- La división entre enteros pasó a producir un _float_: `3/2 == 1` --> `3/2 == 1.5`
- Sintaxis para excepciones: `except IOError, ex` --> `except IOError as ex`

Existen algunas soluciones:

- Script de conversión automática (`2to3 <python-2-script>` genera un python-3-script)

- Usar siempre la sintaxis de Python 3, y añadir la siguiente línea a todos los scripts

  - Inocua en Python 3, posibilita la nueva sintaxis en Python 2 (>=2.6):

        from __future__ import division, print_function

No hay Python 4.0 previsto *any time soom*.

### Jupyter

#### Jupyter notebooks

El proyecto Jupyter nació como una evolución (y _spin-off_) de IPython.

Su elemento central son los _Jupyter notebooks_:

- Son documentos que integran código, resultados, visualizaciones y texto en formato _Markdown_ (que se muestra como HTML).

- Soporta diferentes entornos (_kernels_), e incluso lenguajes (R, Julia...)

- El usuario interacciona con los notebooks a través de su navegador.

- Muy útil para documentar y compartir trabajo científico

- También muy práctico para pre-configurar entornos de trabajo: ideal para cursos, p. ej.

- También es una opción como entorno de desarrollo/pruebas (pero no la única)

- Los _notebooks_ se almacenan como ficheros _JSON_, con todos sus elementos, y se pueden recuperar, y ejecutar posteriormente.

La otra pieza de Jupyter es el programa que sirve el contenido de los notebooks al navegador, y ejecuta su código bajo demanda.

- Jupyter integra un pequeño servidor web y varios _kernels_ de ejecución (uno por notebook abierto).

- Usando el navegador, podemos ejecutar el código del notebook en el ordenador local, o en un sistema remoto (p.ej. en la nube)

![jupyter](images/t1_jupyter.png)

#### Jupyterlab

La versión más reciente de Jupyer se llama `Jupyterlab` (por oposición a `Jupyter notebooks`).

- Jupyterlab permite trabajar en varios notebooks a la vez, editar archivos de texto (o módulos Python), abrir una consola IPython tradicional, o acceder a una terminal del sistema donde está corriendo.

- Además, Jupyterlab soporta la instalación de complementos para aportar funcionalidad adicional

Dadas sus capacidades, Jupyterlab puede ser considerado también como un IDE, y cada vez más científicos lo utilizan como su único entorno de desarrollo (es una cuestión de hábito y preferencia personal).


#### Notas sobre el uso de Jupyterlab

- Los notebooks se dividen en celdas. Cada celda puede ser de código, de texto Markdown, o de puro texto (_raw_).
  - `Shift+Enter` ejecuta una celda de código, y convierte una celda Markdown a HTML.
  - Se puede ejecutar también un comando en la terminal (y no en Python) usando `!<comando>`, p.ej.: `!ls`.
  - Finalmente, también están los comandos _mágicos_ de IPython, que empiezan por `%`.
    - Se puede consultar ayuda sobre estos comandos ejecutando `%magic`
- Operaciones con celdas:
  - Añadir nueva celda: botón +, o A (arriba), o B (abajo)
  - Copiar, cortar, pegar, borrar celda:  C, X, V, DD
  - Deshacer una operación con celdas:  Z  (Otras operaciones: Ctrl-Z)
- Para comandos de ayuda, o, en general, con salidas largas, recomiendo...
  - Ejecutarlos en una consola independiente (para no contaminar el notebook)
  - O usar la opción de activar las barras de _scroll_ (menú del botón derecho del ratón en la celda de salida).
- Jupyterlab puede gestionar diversos ficheros y carpetas, y este curso hace uso de ellos.
  - Mantened los notebooks de los temas en la carpeta raíz, y trabajar en ella.
    - El directorio de trabajo será el correcto si se usa Binder, o si se lanza un Jupyterlab local desde la carpeta raíz del curso.
    - Si se usa Google Colab, se requieren acciones adicionales: consultar la información del `README` de este curso.

### Instalación de Jupyterlab

Terminal:

```
pip install jupyterlab
cd <directorio-del-curso>
jupyter lab 
```

Por defecto la carpeta de inicio de jupyter lab es aquella desde que lo lancemos.

Alternativamente, se puede forzar modificando la variable `c.ServerApp.root_dir` en el fichero de configuración `.jupyter/jupyter_lab_config.py`. Ejemplo:
```
c.ServerApp.root_dir = 'D:\\Users\\andelpe\\cernbox\\work\\tecnologias\\python\\curso_ciemat\\2023\\repo'
```

## Referencias

- Web de referencia: http://python.org
- Documentación (enlazada por la previa): http://docs.python.org/ 
- Documentos de cabecera:
  - Tutorial: https://docs.python.org/3/tutorial/
  - Library reference: https://docs.python.org/3/library/
- Python en Windows: https://docs.python.org/3/using/windows.html
- Virtual environments: https://docs.python.org/3/tutorial/venv.html
- Conda: https://conda.io/projects/conda/en/latest/user-guide/
- Jupyter(lab):
  - Proyecto Jupyter: https://jupyter.org/
  - Docs Jupyterlab: https://jupyterlab.readthedocs.io
- Pero hay mucha más información en Internet
  - _Google_, _Stack Overflow_, _ChatGPT_ ...