*Ciencia: Scientia: Conocimiento*


## ¿Qué es la Ciencia de Datos?

Ciencia de (los) Datos es un término acuñado a principios de siglo para describir la disciplina científica que busca extraer conocimiento (información) a partir de datos (masivos): *Aprender de los datos*

Frecuentemente se asocia a *Big Data*, término usado para describir el escenario tecnológico actual respecto a abundancia, tazas de generación y variedad de datos 

La ciencia de los datos es de base interdisciplinar ya que combina habilidades de 
- Ciencias de la computación: Diseñar algoritmos eficientes y escalables para procesar bases de datos 
- Matemáticas aplicadas y estadística: Diseñar modelos que caractericen y resuman los datos
- Un cierto dominio experto: Formular preguntas científicas e intepretar las resultados en pos de responderlas


Referencias:
- https://en.wikipedia.org/wiki/The_Fourth_Paradigm
- https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century  
- https://datascience.columbia.edu/data-science-vs-computer-science-vs-statistics

## ¿Qué es la Computación Científica?

Disciplina que busca desarrollar herramientas de matemática computacional para modelar y/o simular problemas complejos

Computación científica habilita y provee herramientas para resolver problemas de ciencia de datos

Suele llevar un énfasis en Computación de Alto Rendimiendo (*High Performance Computing*)

En este curso aprenderemos a manejar librerías de computación científica basadas en el lenguaje de programación **Python** usando como ejemplos problemas de ciencia de datos y procesamiento de señales

## ¿Qué es Python?

Python es un lenguaje de programación interpretado y multi-paradigma liberado en 1991 y ampliamente usado en ciencia de los datos 

¿Por qué?
- Enfoque en la simpleza, lo cual resulta en código más fácil de mantener y desarrollo más rápido
- Menor curva de aprendizaje
- Rico ecosistema de librerías abiertas para computo científico: *[Numpy](http://www.numpy.org/)*, *[Scipy](https://www.scipy.org/)*, *Pandas*, entre otras que serán estudiadas en este curso

¿Y que hay del desempeño de mis algoritmos versus lenguajes de programación de más bajo nivel? 
- Trade-off entre tiempo de computo y horas hombre de programación
- Las librerías de cómputo científico de Python están compiladas con librerías optimizadas de bajo nivel (*e.g.* BLAS, LAPACK)
- Para una función que no está en las librerias: Integrar Python con lenguajes de bajo nivel (*e.g.* C++, Fortran)

## ¿Python2 o Python3?

- Python 2.7 sigue existiendo (y "compitiendo" con Python 3)
- Un 95% de las librerias han sido portadas Python 3
- Python 2 ya no se sigue desarrollando
- En este curso usaremos **Python 3** como lenguaje oficial

Referencias: 
- https://wiki.python.org/moin/Python2orPython3
- https://python-3-for-scientists.readthedocs.io/en/latest/

## ¿Qué es PEP 8?

Python Enhancement Proposal (PEP) es una especificación técnica que busca mejorar el lenguaje Python. PEP 0 es el índice de todos los PEP existentes. 

El PEP 8 es una guia de buenas prácticas para formatear y escribir código en Python. El objetivo de PEP 8 es mantener un estándar que facilite la lectura de código escrito en Python

Referencias: https://www.python.org/dev/peps/pep-0008/

## ¿Qué es IPython?

Interactive Python (IPython) es un interprete de Python que ofrece varias mejoras tales como autocompletación de path y modulos, acceso desde terminal a documentación y código fuente, búsqueda histórica de comandos, y las *magics* que serán vistas más adelante. 

IPython puede usarse desde la consola (SHELL) o como notebook mediante **jupyter**

## ¿Qué es Jupyter?

Es un ambiente interactivo basado en web. El motor de jupyter corre en un servidor (local o remoto) al cual el usuario accede a través de un browser. En nuestro caso el motor (kernel) está basado en **IPython** pero también existe jupyter para lenguajes R y Julia. 

El notebook puede contener código, gráficas interactivas, GUIs, texto con formato markdown, ecuaciones u otros elementos HTML (tablas, imágenes, audio, video), es decir todo un experimento autocontenido en un notebook. Esto hace de jupyter un ambiente ideal para desarrollo científico  

Para desarrollar modulos o librerías de Python se puede complementar con otras IDEs tales como *[pycharm](https://www.jetbrains.com/pycharm/)* o *[Spyder](https://www.spyder-ide.org/)* o editores de texto como *[vim](https://www.vim.org/)* o *(emacs)[https://www.gnu.org/software/emacs/]*, todas estas disponibles en los repositorios de su distribución de Linux preferida

## Modelo de capas de nuestro ambiente de trabajo:

<img src="img/intro.svg">

## ¿Qué son los ambientes virtuales de Python?

Imaginemos que
- necesitamos usar una librería que funciona con una versión de Python distinta a la mi sistema operativo
- trabajamos en varios proyectos distintos donde cada uno requiere una versión de Python distinta

En estos escenarios conviene manejar uno o más ambientes virtuales. 

- Un ambiente virtual es un ambiente de desarrollo aislado
- Podemos crear uno para cada proyecto en que trabajemos
- Cada ambiente puede tener su propia versión de interprete y librerias sin entrar en conflicto 


## ¿Cómo instalo un ambiente de desarrollo basado en Python?


### No quiero usar ambientes virtuales:
- **Opción 1:** Instalar Python 3 y sus librerias desde el repositorio de tu distribución
- **Opción 2:** Usar el manejador PIP (Pip Install Packages) para instalar paquetes de [PyPI](https://pypi.org/)

### Si quiero usar ambientes virtuales (recomendado):
- **Opción 1:** Usar Python virtualenv y el manejador PIP 
- **Opción 2:** Usar Conda (Recomendada para los que ocupan Windows)



### Instalando desde tu distribución 

Si usas Ubuntu/Debian

    sudo apt-get install python3 python3-numpy python3-matplotlib python3-scipy python3-pandas ipython3 ipython3-notebook

Si usas Archlinux

    sudo pacman -S python python-numpy python-matplotlib python-scipy python-pandas ipython jupyter
    
   
### Usando PIP

Si usas Ubuntu

    sudo apt-get install python3 python3-pip
    pip3 install numpy matplotlib scipy pandas ipython jupyter --user

    
Si usas Archlinux

    sudo pacman -S python python-pip
    pip install numpy matplotlib scipy pandas ipython jupyter --user
    
Comandos de PIP (pip --help)

    list, search, install, uninstall, show, ...
    
### Usando Python virtualenv

Creando y accediendo a un ambiente
    
    virtualenv asd
    source asd/bin/activate
    
Instalando paquetes con PIP
    
    pip install numpy

Salir de un ambiente
    
    deactivate
    
Eliminar un ambiente
    
    rm -r asd/
    
### Usando conda

¿Qué es conda?
- Es un manejador de ambientes y paquetes para Python
- Tiene su propio repositorio
- No requiere tener compiladores instalados
- Es multiplataforma

¿Cómo se instala?
- Descargar instalador en https://docs.conda.io/en/latest/miniconda.html (versión 64b Python3.7)
- Aceptar licencia y escoger directorio

      sh Miniconda3-latest-Linux-x86_64.sh


¿Cómo se accede al ambiente base?

    source ...../miniconda3/etc/profile.d/conda.sh
    conda activate

¿Cómo se añade un canal?

    conda config --get channels
    conda config --add channels conda-forge
    conda config --append channels conda-forge

¿Cómo se actualiza el ambiente? 

    conda update --all

¿Cómo se busca un paquete?

    conda search numpy

¿ Cómo se instala un paquete de versión y build específica?

    conda install numpy=1.16.2=py37_blas_openblash1522bff_0

Otros comandos de conda
    
    conda list/clean/uninstall/help

¿Cómo se crea un nuevo ambiente?
    
    conda create -n nombre
    conda activate nombre
    
¿Cómo se listan los ambientes?

    conda env list

    