# Estructura del curso de Python para análisis de datos

El objetivo de este curso, el primero del Master en Big Data Science de la Universidad de Navarra, es conseguir formar a los alumnos para que sean capaces de analizar datos usando el lenguaje de programación Python y las librerías más comúnmente utilizadas; entre ellas, una de las más famosas es Pandas.

La estructura del curso se divide en dos partes en las que utilizaremos una herramienta interactiva llamada Jupyter Notebook.
Jupyter Notebook (anteriormente, IPython Notebook) es una aplicación web de código abierto que te permite crear y compartir documentos que contienen código en vivo, ecuaciones, visualizaciones y texto narrativo. Esto permite que las clases sean mucho más dinámicas y es ideal para los siguientes casos de uso:
* Aprende y prueba Python
* Procesamiento / transformación de datos
* Simulación numérica
* Modelado estadístico
* Aprendizaje automático

Además, es una aplicación muy utilizada en el campo de la Ciencia de Datos (Data Science) para crear y compartir documentos que incluyen: limpieza y transformación de datos, simulación numérica, modelado estadístico, visualización de datos, aprendizaje automático y mucho más. Te permite editar y ejecutar documentos de notebook a través de cualquier navegador web de tu elección; y puede ejecutarse en un escritorio local que no requiere acceso a Internet o puede instalarse en un servidor remoto y acceder a través de Internet. También podemos ejecutar Jupyter Notebook sin ninguna instalación.


### Primera parte

Intentamos cubrir los aspectos principales del lenguaje Python para así poder encarar de forma segura la segunda parte.

#### Contenidos primera parte

* Sesión 1.- Tipos básicos, variables y operadores
* Sesión 2.- Sentencias de control y listas
* Sesión 3.- Tuplas, sets y diccionarios. Iteradores y bucles
* Sesión 4.- Procesados de ficheros, funciones y OOP (programación orientada a objetos)

### Segunda parte

Esta segunda parte introduce la librería Pandas, que es la más comunmmente utilizada en Python para el analisis de datos, así como librerías asociadas. El objetivo de esta segunda parte es familiarizarse con esta librería pero sobretodo entender como se procesan datos usando Python. Se enfoca desde un punto de vista práctico, intentado resolver problemas del mundo real lo más pronto posible.

#### Contenidos segunda parte

* Sesión 5.- Introducción a Pandas: Series y Dataframes
* Sesión 6.- Pandas: Índices y métodos
* Sesión 7.- Proyectos en Python
* Sesión 8.- Ejemplos prácticos 


### Evaluación

La evaluación de la asignatura consiste principalmente en dos ejercicios, cada uno correspondiente a cada una de las partes donde:

* El ejercicio de la parte 1 tiene un peso del 30%
* El ejercicio de la parte 2 tiene un peso del 60% 
* Un 10% valorará la asistencia, interés y grado participación durante el curso

Los ejercicios se suministran segun vayamos terminando con cada una de las partes (consultad el ADI de la asignatura).



## ¿Qué es Python?

Python es un lenguaje de programación de uso general creado por Guido Van Rossum allá en 1990. Es decir, es un lenguaje maduro y muy usado. 

Se suele decir que Python es interpretado porque no hay una fase de compilación, aunque hay que decir que se genera bytecode (los ficheros .pyc) para acelerar la ejecución del mismo, pero no es código máquina. En definitiva, las principales características de Python son:

* Fácil de entender y aprender
* Tipado dinámico
* *Baterias incluidas*, lo que significa que la instalación estandard incluye muchas utilidades preinstaladas
* OpenSource y con enorme respaldo de su comunidad
* Polivalente

La principal diferencia de Python con otros lenguajes más específicos dentro del ámbito de *Data Science* (como R) es su polivalencia. Con Python podemos implementar sencillos scripts para pedir datos al usuario por pantalla, hasta como sitios Web, bots, scrapping, tratamiento y análisis de datos, orquestración para CI/CD, etc. Evidentemente, Python tiene algunas debilidades, pero en general, es un lenguaje maduro py potente que ofrece una capacidad de computación y cálculo elevados (aunque en algunos casos haya que acudir a lenguajes como C, que puede invocarse también directamente desde Python).

### Jupyter Notebook

Jupyter Notebook es una herramienta que permite ejecutar via Web lo que se conoce como *notebooks*, que no son otra cosa que archivos de texto que permiten añadir secciones con contenido HTML, Markdown, y código que puede ejecutarse directamente. El éxito de Jupyter radica en que es fácil de usar y permite prototipar conceptos y experimentos de forma rápida y visual; la persona a la que se le muestra un notebook ni siquiera necesita tener instalado Python o Jupyter, ya que se le puede mostrar como una página Web.

Actualmente existe una version de Jupyter conocida como JupyterLab tiene con una UI diferente y con más funcionalidades; para el objetivo de este curso, nos centraremos en Jupyter Notebook.

Es importante reseñar que Jupyter Notebook no es exclusivo para Python, de hecho soporta una infinidad de lenguajes (R, Java, Go, etc), con lo que resulta tremendamente versátil si en algún momento hemos de trabajar con otros lenguajes.


# Guia de inicio rápido

Vamos a detallar las distintas opciones para poder ejecutar Jupyter Notebook y así poder hacer los ejercicios según vamos explicando cada concepto durante las clases.

Más adelante se explicará las herramientas y el proceso utilizado para generar un proyecto Python end-to-end: con Docker (opcional), todas las librearias necesarias instaladas de base, testeo, linting, tipado estático (opcional) y empaquetamiento para su distribución (también opcional si preferimos desplegar en una página o servicio Web)

Las opciones que vamos a enumerar se engloban en tres grandes grupos, que van de más facil a más dificil en cuanto al tiempo requerido para la puesta en marcha, pero hay que indicar que cuanto más dificil, generalmente más libertad y versatilidad ofrecen.


**NOTA: Antes de empezar, se recomienda que todo el mundo se cree una cuenta en [Github](https://github.com) ya que es necesaria para parte de las opciones que se muestran a continuación y porque en general, es recomendable subir nuestro trabajo o tenerlo bajo control de versiones**


### Opción 1: Utilizar un servicio externo para ejecutar Jupyter notebook

Esta opción principalmente consiste en usar alguno de los servicios que actualmente permiten ejecutar notebooks en una página web. Las principales ventajas de esta opción son:

* Cero configuración: no hay que instalar nada para poder empezar a trabajar con Jupyter
* La mayoria incluyen colaboración remota (pero no todos)

En contrapartida, pocos o ninguno ofrece muchas opciones de configuración en cuanto a qué versiones de que paquetes usar y algunos no permiten ni siquiera guardar los datasets que usamos, sólo son válidos durante la sesión.

Veamos algunos de estos servicios. Mencionaremos los requisitos necesarios para usarlos, cómo gestionan los dataset, si permiten tener notebooks privados y si permiten colaborar con más de una persona en un notebook.

#### Binder

[Binder](https://mybinder.org/) es un servicio muy conocido que permite ejecutar notebooks online y que forma parte del ecosistema Jupyter. 

* **Requisitos para usarlos**: Binder importa desde Github, así que necesitáis tener un repositorio con notebooks.

* **Instalación de paquetes**: Se puede hacer a través de un fichero *requirements.txt*

* **Conectividad**: Sí, se puede acceder a recursos externos desde los notebook

* **Gestión datasets**: Si los datasets son pequeños (<10 MB) no hay problema en tenerlos en el propio repositorio.

* **Acceso privado**: No

* **Compartir**: Sí

* **Edición colaborativa**: No

#### Kernels Kaggle

[Kaggle](https://www.kaggle.com/) es mas conocido por las competiciones y articulos tutoriales relacionados con Data Science, pero tambien permiten ejecutar notebooks de Jupyter en su servicio [Kernels](https://www.kaggle.com/kernels). 

* **Requisitos para usarlos**: Crearse una cuenta en Kaggle.

* **Instalación de paquetes**: Viene con cientos de paquetes pre-instalados y se pueden instalar mas con pip.

* **Conectividad**: Sí, se puede acceder a recursos externos desde los notebook

* **Gestión datasets**: Hay que utilizar el servicio [Datasets](https://www.kaggle.com/datasets) 

* **Acceso privado**: Sí

* **Compartir**: Sí

* **Edición colaborativa**: Sí, aunque no es en tiempo real

#### Google Colaboratory

[Google Colaboratory](https://colab.research.google.com/) permite crear nuevos notebooks, importar alguno existente o que exista en Github.. 

* **Requisitos para usarlos**: Tener cuenta en Google.

* **Instalación de paquetes**: Viene con cientos de paquetes pre-instalados y se pueden instalar mas con pip, pero los paquetes instalados asi tienen que instalarse de nuevo en cada sesion.

* **Conectividad**: Si, se puede acceder a recursos externos desde los notebook

* **Gestión datasets**: Se puede subir cualquier dataset pero se elimina con la sesión, alternativamente se puede conectar con Google Drive aunque no resulta fácil ni sencillo

* **Acceso privado**: Sí

* **Compartir**: Sí

* **Edicion colaborativa**: Sí, aunque no es en tiempo real, hay un retraso de unos 30 segundos

#### Microsoft Azure Notebooks

[Azure Notebooks](https://notebooks.azure.com/) es la opción de Microsoft para ejecutar notebooks online, y es una de las mejores, la verdad. 

* **Requisitos para usarlos**: Tener cuenta en en Microsoft o en Outlook.

* **Instalación de paquetes**: Viene con cientos de paquetes pre-instalados y se pueden instalar mas especificandolos en *requirements.txt* o *environments.yml*.

* **Conectividad**: Sí, se puede acceder a recursos externos desde los notebook

* **Gestión datasets**: Se pueden subir cualquier dataset al proyecto con lo que esta disponible en los notebooks.

* **Acceso privado**: Sí

* **Compartir**: Sí

* **Edición colaborativa**: No, aunque esta en su roadmap

#### CoCalc

[CoCalc](https://cocalc.com/) diminutivo de Collaborative Calculation, es un entorno para la ejecución no sólo de notebooks, sino también de proyectos Python, R o LaTeX. Require crear un proyecto para incluir notebooks y el interfaz es un poco complejo al principio. 

* **Requisitos para usarlos**: Tener cuenta en en CoCalc.

* **Instalación de paquetes**: Viene con cientos de paquetes pre-instalados y se pueden instalar más si opta por un plan que no sea el gratuito.

* **Conectividad**: No con el plan gratuito

* **Gestión datasets**: Se puede subir cualquier dataset al proyecto que está disponible en los notebooks.

* **Acceso privado**: Sí

* **Compartir**: Sí

* **Edición colaborativa**: Sí, en tiempo real, de las mejores incluiso con el plan gratuito


Existen otras opciones, como [DataLore](https://datalore.jetbrains.com/) o [Databricks](https://databricks.com/) pero con los que hemos listado anteriormente debería ser más que suficiente para empezar a trabajar.


### Opción 2: Instalar lo minimo y necesario en la maquina para empezar a trabajar

El conjunto de paquetes imprescindible para empezar a trabajar sería:

* Python 3
* Jupyter Notebook
* Pandas
* Matplotlib
* Numpy
* Seaborn

Lo más sencillo para coseguirlo todo de una sola vez es instalar [Conda Individual](https://www.anaconda.com/products/individual) y seguir las instrucciones especificas para cada [plataforma](https://docs.anaconda.com/anaconda/install/]. Conda es un conjunto de herramientas que van mucho más alla de Python y Jupyter, pero que instala todo lo necesario para poder empezar. 

Una vez instalado, podemos usar Conda Navigator:


<img src="nav-defaults.png" alt="drawing" width="800"/>

Arrancar Jupyter Notebook, y entonces seleccionar la carpeta donde hayamos descargado los notebooks del curso y poder ejecutarlos.

### Opción 3: Instalar los paquetes necesarios localmente en un entorno virtual y ejecutar Jupyter Notebook

Otra opción que requiere mas configuración pero permite mayor flexibilidad es instalar todos los paquetes y luego crear un entorno virtual para ejecutar nuestros notebooks.

#### Entornos virtuales

Un entorno virtual no es otra cosa que una instalación específica de Python junto con todos los paquetes asociados a ese entorno. Esto permite tener varias versiones de Python, con varias versiones de un mismo paquete, lo cual resulta imposible si utilizamos solo una versión de Python con un conjunto de paquetes.

Veamos cuáles serían los pasos en un entorno Windows.

1.- Descargar e instalar (Python)[https://www.python.org/downloads/windows/] para Windows

2.- Abrir una terminal y comprobar que python se reconoce como una comando

<img src="python-3.6.png" alt="drawing" width="500"/>

3.- Actualiza el gestor de paquetes de Python (pip) a la ultima version

```Shell
python -m pip install --upgrade pip
```

4.- Instalar el paquete virtualenv que nos permite crear entornos virtuales

```Shell
pip install virtualenv
```

5.- El siguiente paso es crear un directorio que es donde se creara en nuevo entorno


```Shell
// movernos al escritorio (puede ser otro sitio también)
cd .\Desktop  
  
// crear un nuevo directorio 
mkdir nuevo_entorno  
  
// meterse en el directorio nuevo  
cd .\nuevo_entorno  
  
// crear un nuevo entorno 'venv' (aunque se puede usar cualquier nombre)
virtualenv venv
```

6.- Tenemos que activar el nuevo entorno para estar seguros que estamos "usando" el entorno

```Shell
// activamos el entorno
.\venv\Scripts\activate
  
// listamos los paquetes instalados
pip list
 
```

7.- Instalamos los paquetes necesarios en el entorno

```Shell
pip install numpy
pip install pandas
pip install scipy
pip install matplotlib
pip install seaborn
pip install scikit-learn
pip install jupyter -y
```

8.- Ahora podemos ejecutar Jupyter notebook; generalmente jupyter no se añade al PATH en Windows, con lo que hay que ejecutarlo a través de Python

```Shell
py -m notebook 

// O si no funciona
python -m notebook
```

9.- Una vez hemos terminado hay que desactivar el entorno hasta la próxima vez

```Shell
.\venv\Scripts\deactivate
```


### Opción 4: Utilizar un container con Docker 

Esta opción es de las que mas requieren configuración pero que permiten la mayor flexibilidad, más incluso que con un entorno virtual. Lo veremos en la última sesión del curso



