## **Python for Data Analysis**
### **Módulo 1: Introducción a Python**
**Andrés C. Medina Sanhueza**

PhD(c) Engineering Systems

Lead Advanced Analytics Financial Retail Cencosud-Scotiabank

anmedinas@gmail.com

**Tópicos del Curso**
1. **Módulo 1**
  * Introducción a Python.
  * Qué es Python y porqué ha ganado popularidad ultimamente.
  * Ecosistema de Python.
  * Descripción de los principales módulos y ejemplos.
  * Entornos de programación (IDE).
  * Configuración de ambientes en diferentes sistemas operativos.
  * Anaconda y Google Colab  



---



# **1. Conceptos Previos** 

**¿Qué es Programar?**

*Programar* es el proceso de crear un conjunto de instrucciones para decirle a una computadora cómo realizar una tarea. Se puede programar utilizando una variedad de lenguajes de programación de computadora.

Un lenguaje de programación es, en la ciencia de la computación, la **herramienta** para automatizar informaciones y acciones a través de una computadora.

**¿Qué es un algoritmo?**

En matemáticas, lógica, ciencias de la computación y disciplinas relacionadas, *un algoritmo ​ es un conjunto de instrucciones o reglas definidas y no-ambiguas, ordenadas y finitas que permite, típicamente, solucionar un problema*, realizar un cómputo, procesar datos y llevar a cabo otras tareas o actividades

# **2. Introducción**


## **2.1 ¿ Qué es Python ?**

Python es un lenguaje de programación interpretado cuya principal filosofía es que sea legible por cualquier persona con conocimientos básicos de programación. Entre las caracteristicas de este lenguaje estan principalmente: 

* Es totalmente gratuito. Se trata de un lenguaje open source o de código abierto, por lo que no hay que pagar ninguna licencia para utilizarlo.

* Está respaldado por una enorme comunidad. Su carácter gratuito hace que continuamente se estén desarrollando nuevas librerías y aplicaciones. Es difícil pensar en algo que no haya hecho alguien. Esto es un factor multiplicativo para los programadores, puesto que cualquier duda estará resuelta en los foros.

* Es un lenguaje multiparadigma. Esto significa que combina propiedades de diferentes paradigmas de programación, lo que permite que sea muy flexible y fácil de aprender de manera independiente de los conocimientos del interesado.

* Sus aplicaciones no se limitan a un área en concreto. El hecho de que sea multiparadigma permite utilizarlo en campos aparentemente tan dispares como el diseño de aplicaciones web o la inteligencia artificial, entre muchos otros.

* Python es apto para todas las plataformas. Podemos ejecutarlo en diferentes sistemas operativos como Windows o Linux simplemente usando el intérprete correspondiente.


## **2.2 ¿Porqué python ha ganado popularidad ultimamente?**

Python es, en estos momentos, el lenguaje de programación más popular. Diferentes usuarios como niños, estudiantes, profesores, investigadores de todo tipo (Ciencias Sociales, Biología, Medicina, Economía, etc), expertos en Finanzas, Seguros, Marketing, desarrolladores, analistas o científicos de datos lo aprenden y lo utilizan en sus campos de interés. Esta popularidad, radica en al menos tres aspectos.

* Los desarrolladores lo hacen calculando el número de preguntas que se hacen sobre él en webs como **StackOverflow**. Se trata de webs donde consultan sus dudas y comparten conocimiento con la comunidad.

* Es el lenguaje de referencia en Data Science y Machine Learning.

*  Python es un lenguaje de código abierto. 

## **2.3 Ecosistema de Python**

El lenguaje Python presenta una sintaxis y semántica referente a la biblioteca estándar. Existen muchos componentes opcionales que se incluyen en las distribuciones de Python y esto le permite al sistema contar con la portabilidad de los programas.

Las librerías Python son amplias, con gran cantidad de producciones en contenidos. Consta de módulos que permiten el acceso de funcionalidades del sistema como entrada y salida de archivos, soluciones estandarizadas a problemas de programación, etc.

Los módulos en Python se encargan de alentar y reforzar la portabilidad de programas que separan especificaciones de la plataforma y conseguir APIs neutrales.

<img src="https://miro.medium.com/max/673/1*mzN5DJRmzaArBj3-vkuybg.png" width=400 height=350 />

* **Visualización:** Para entender mejor los datos y tener una mejor comprensión del problema, las librerías Python de visualización más recomendadas son: Matplotlib, Bokeh y Seaborn.

* **Cálculo Numérico:** La preparación de datos y cálculo de atributos relevantes sirven para enfrentar problemas gracias al análisis de datos. Las más usadas son: NumPy, SciPy, Pandas y Numba.

* **Machine Learning:** La construcción de este modelo consume poco tiempo gracias al aprendizaje automático que te brindan librerías como Scikit-Learn.

* **Deep Learning:** Este tipo de librerías Python tienen un aprendizaje profundo y se reflejan en bibliotecas como TensorFlow, Keras, PyTorch.

* **Inteligencia Artificial Explicable:** Aplica métodos y técnicas tecnológicas que aplican inteligencia artificial para brindar resultados eficientes. La librería más usada es SHAP.

* **Procesamiento de Lenguaje Natural:** Utiliza el cálculo de frecuencias normalizadas y construir modelos con datos de texto. Las más usadas son: Gensim, SpaCy y NLTK.

# **3. Entornos de programación (IDE)**

El IDE en sí mismo es software, que consta de herramientas de desarrollo que se utilizan para desarrollar software y probarlo. Proporciona un entorno de desarrollo donde todas las herramientas están disponibles en una única interfaz gráfica de usuario (GUI) fácil de usar.

Un IDE incluye principalmente:

* Editor de código para escribir los códigos de software
* Automatización de construcción local
* Depurador de programas

Aparte de estos, diferentes IDE tienen diferentes características que juntas ayudan a los desarrolladores en sus etapas de desarrollo. Las IDE más utilizadas son las siguientes:

* PyCharm.
* KDevelop.
* Thonny.
* Visual Studio.
* Atom.
* LiClipse.
* Spyder.
* Pyzo.

# **4. ¿Cómo comienzo?**





### **4.1 ¿Qué es Anaconda?**

```Anaconda``` es una distribución de ```Python``` que contiene paquetes más usados en temas de ciencia, matemáticas o ingeniería como pueden ser ```Numpy```, ```Scipy``` y ```Matplotlib```. Se distribuye bajo [licencia BSD de tres clausulas](http://docs.continuum.io/anaconda/eula) asi que [se considera software libre](http://www.gnu.org/licenses/license-list.html#ModifiedBSD)

<img src="https://elpythonista.com/wp-content/uploads/2020/10/Anaconda-entrada-hd.jpg" width=550 height=280 />

**Conda** es un gestor de paquetes y entornos virtuales multiplataforma que nos permite instalar, actualizar paquetes y sus dependencias, de esta manera podremos configurar y cambiar distintos entornos en nuestro ordenador. A grandes rasgos, un entorno virtual o ```Virtual Environment``` es una caperta en la que se encuentran los ejecutables de python y las distintas versiones de las librerías que utilizaremos. Para instalar ```Anaconda``` dirigirse a la [página oficial de Anaconda](https://www.anaconda.com/products/individual#Downloads)



### **4.2 ¿Porqué usar Anaconda?**

Porque es fácil de instalar, fácil de actualizar, y fácil de usar.

<tr>
<td><img src="figs/conda_pagina.png" align="middle" style="width: 1000px;"/> </td>
</tr>

Instalar es relativamente sencillo, basta con visitar la [pagina oficial de Anaconda](https://docs.conda.io/projects/conda/en/latest/user-guide/install/windows.html), se descarga el paquete y se siguen las instrucciones. Al finalizar la instalación deberían tener un ```Anaconda Launcher``` en Inicio y un ```Anaconda Prompt```.

<tr>
<td><img src="figs/conda.png" align="middle" style="width: 1000px;"/> </td>
</tr>

Si se tiene el ```Launcher``` esta todo ok. Si no está, se puede instala utilizando ```Anaconda Prompt```, escribir en el terminal 

```python
>>> conda install launcher
```

Este, es el procedimiento para instalar cualquier paquete. Para actualizar ```conda``` se hace del mismo terminal  ```Anaconda Prompt```

```python
>>> conda update conda
>>> conda update anaconda
```

###  **4.3 Comandos Útiles en Anaconda Prompt**

* **Entrega información de la instalación en el SO**
```python
>>> conda info
```
* **Lista información de los ambientes creados**
```python
>>> conda info --envs
```
* **Crea un ambiente (environment)** 
```python
>>> conda create -n yourname
```
* **Crea una copia de un ambiente** 
```python
>>> conda create --clone yourname --name copy_name
```
* **Elimina un ambiente** 
```python
>>> conda env remove --name yourname
```
* **Activa ambiente creado**
```python
>>> source activate yourname (Linux/MacOS)
>>> conda activate yourname (Windows)
```
* **Desactiva ambiente creado**
```python
>>> conda deactivate (Linux/MacOS)
>>> deactivate (Windows)
```
* **Lista de paquetes instalados en conda y versiones**
```python
>>> conda list -e
```
* **Busqueda de paquetes especificos** 
```python
>>> conda search paquete
```
* **Instalando Paquetes**
```python
>>> conda install package
```
* **Crea lista de paquetes** 
```python
>>> conda list -e > requirements.txt
```
* **Instala lista de paquetes** 
```python
>>> conda install --file requirements.txt
```
* **Versión de Python** 
```python
>>> python --version
```
Para mayor conocimiento de comandos básicos en terminal conda visitar [Hoja de Trucos de Conda](https://docs.conda.io/projects/conda/en/4.6.0/_downloads/52a95608c49671267e40c689e0bc00ca/conda-cheatsheet.pdf).

Se recomienda instalar:
* [Jupyter](http://jupyter.org/) Terminal Web
* [Pandas](https://pandas.pydata.org/) Para procesar datos
* [Matplotlib](https://matplotlib.org/) Para realizar gráficos
* [Seaborn](https://seaborn.pydata.org/) Para realizar gráficos más elaborados
* [Scikit-Learn](http://scikit-learn.org/stable/) Para Machine Learning
* [Statsmodels](http://www.statsmodels.org/stable/index.html) Para modelos estadísticos

### **4.4 Gestión de Paquetes con pip**

**pip** es un sistema de gestión de paquetes utilizado para instalar y administrar paquetes de software escritos en Python. Muchos paquetes pueden ser encontrados en el Python Package Index (PyPI).

<tr>
<td><img src="figs/pip.png" align="middle" style="width: 700px;"/> </td>
</tr>

Algunos comandos utiles con pip:

* **Instalación de pip**
```python
>>> conda install pip 
```
* **Versión de pip**
```python
>>> pip --version 
```
* **Actualización de pip**
```python
>>> pip install -U pip (Linux/MacOS)
>>> python -m pip install -U pip (Windows)
>>> conda update pip 
```
* **Instalación de paquetes**
```python
>>> pip install package
```
* **desinstalación de paquetes**
```python
>>> pip uninstall package
```
* **Listado de paquetes instalados**
```python
>>> pip list 
```
* **Listado de paquetes instalados desactualizados**
```python
>>> pip list --outdated
```
* **Información de cierto paquete**
```python
>>> pip show package
```

## **4.6 Jupyter Notebook**

```Jupyter Notebook```  es una aplicación web que permite crear y compartir documentos que contienen código fuente, ecuaciones, visualizaciones y texto aplicativo. Entre sus usos esta la limpieza y transformación de datos, simulación numérica, modelado estadístico, machine learning entre otros. El acrónimo ```Jupyter``` viene de los nombres iniciales de los softwares Julia + Python + R.

<tr>
<td><img src="figs/jupyter_not.jpg" align="middle" style="width: 1000px;"/> </td>
</tr>

Para lanzar **Jupyter**, basta con teclear en la linea de comandos lo siguiente:

```python
>>> jupyter notebook --browser=firefox
```

El parámetro de **browser** no es necesario a menos, que tenga un navegador de preferencia (chrome, opera, explorer, safari, chrome). Al no incluir el parámetro de **browser**, jupyter notebook lanzara en el navegador que se tenga configurado por defecto.

<tr>
<td><img src="figs/jupyter_launch.png" align="middle" style="width: 1000px;"/> </td>
</tr>

En la casilla **New**  seleccionar *Python 3* para abrir un notebook vacio y comenzar a programar.

<tr>
<td><img src="figs/scree_not.png" align="middle" style="width: 1000px;"/> </td>
</tr>



## **4.7 Google Colab**

Colaboratory, también llamado "Colab", permite ejecutar y programar en Python en tu navegador con las siguientes ventajas: No requiere configuración. Da acceso gratuito a GPUs. Permite compartir contenido fácilmente.

Es relativamente fácil crear notebooks con Google-Colab porque sólo se necesita acceso a cuenta de google. Para crear un notebook basta hacer click con el botón derecho del mouse y en *More* seleccionar **Google Colaboratory**.

<img src="figs/open_colab.png"/>

Una vez haber clickeado, se desplegará una ventana nueva en el navegador que luce de la siguiente manera.

<tr>
<td><img src="figs/colab_print.png" align="middle" style="width: 1000px;"/> </td>
</tr>

El resto del curso, se trabajará sólo en Google-Colab.

Para aprender más sobre como escribir en notebooks de jupyter, visitar el siguiente [tutorial](https://jupyter.brynmawr.edu/services/public/dblank/Jupyter%20Notebook%20Users%20Manual.ipynb).

