# Herramientas de Data Mining - Python


## 1.- Instalar Python y sus paquetes de computación científica

### Opción 1 - WinPython (sólo para Windows): 

WinPython es una distribución científica portátil del lenguaje de programación Python, que viene con preparado con la vasta mayoría de los paquetes científicos necesarios para trabajos estadísticos, de preparación de datos y de Data Mining. 

La página principal del proyecto está [acá](https://winpython.github.io/), el repo de github está [acá](https://github.com/winpython/winpython). 

La principal virtud de esta distribución, además de ser extremadamente fácil de instalar, es que está auto-contenida y no interfiere con otras instalaciones de Python. De esta manera, podemos tener todos las mismas versiones de los paquetes, sin que cada uno de ustedes tenga que modificar sus instalaciones principales de Python (si es que la tienen). 

Otra virtud de esta distribución es que resulta relativamente simple instalar paquetes adicionales, a través de un panel de control, que permite la instalación por "Drag and Drop". Las distribuciones que son puro Python, simplemente se bajan de [Pypi](https://pypi.python.org/pypi). Existen otras librerías que requieren la compilación de módulos externos escritos en C. Muchos de ellos tienen archivos pre-compilados, que se pueden encontrar en la [página de  Christoph Gohlke](http://www.lfd.uci.edu/~gohlke/pythonlibs/), si no existen distribuciones pre-compiladas, la labor es algo más ardua y escapa al objetivo de esta introducción.

Durante este curso vamos a usar Python 3.6 de 64 bits. La versión de más actual de WinPython a estos efectos la pueden encontrar [acá](https://github.com/winpython/winpython/releases), bajo el nombre WinPython64-3.6.6.2Qt5.exe ([link directo de descarga](https://github.com/winpython/winpython/releases/download/1.10.20180827/WinPython64-3.6.6.2Qt5.exe)).


### Opción 2 - Anaconda (todos los sistemas operativos):

Anaconda es otra distribución científica de Python. También viene preparada con una gran cantidad de paquetes científicos, pero tiene la desventaja de que no es portátil. Las instrucciones para descarga e instalación pueden encontrarse [su página de descargas](https://www.continuum.io/downloads). Para instalar paquetes adicionales, en general se pude usar el comando de línea 

> `conda install <nombre del paquete>`


### Opción 3 - Otras Distribuciones o Instalación Manual (solo usuarios muy avanzados):

Existen otras distribuciones científicas de Python como [Canopy](https://www.enthought.com/products/canopy/) o también pueden instalar Python sin librerías externas desde la [página principal de Python](https://www.python.org/) y luego instalar de a una las librerías necesarias. Esta tarea es ardua y por momentos muy frustrante para usuarios con moderados conocimientos de compilación de programas en C. 

## Consideraciones para usuarios de Windows

Es muy posible que necesiten instalar [Microsoft Visual C++ 2015 Redistributable](https://www.microsoft.com/en-us/download/details.aspx?id=53587). Además, si usan una versión anterior a Windows 10, quizás también necesiten instalar la actualización de Windows [KB2999226](https://support.microsoft.com/en-us/kb/2999226).


## 2.- Breve Introducción a Jupyter Notebooks

[Jupyter Notebooks](http://jupyter.org/) es una aplicación cliente-servidor con un "front end" en html, que permite la ejecución remota e interactiva de código desde el navegador. Originalmente era exclusivo de Python (IPython Notebooks), pero se generalizó a [otros lenguajes](https://github.com/jupyter/jupyter/wiki/Jupyter-kernels)

No es una aplicación destinada a el remplazo de un IDE, sino que es particularmente util para:
- Presentaciones y tutoriales interactivos
- Prototipado rápido y visualizaciones
- Ejecución de código en máquinas remotas y/o en clúster
- Kaggle kernels
- Azure Notebooks


Además, para hacer el trabajo mas simple e interactivo, los notebooks incorporan resaltado de sintaxis, ayuda, renderizado de markdown y Latex, como así también funciones "mágicas", que iremos viendo a medida que sean útiles. 

Por ejemplo, esta presentación está escrita en markdown y la siguiente fórmula en Latex

$$c = \sqrt{a^2 + b^2}$$

> `$$c = \sqrt{a^2 + b^2}$$`


In [None]:
# ejemplos de ayuda y autocompletado (interactivo)
import pandas as pd

pd.read_csv?
#pd.read_csv()

In [None]:
%lsmagic

In [None]:
%%timeit
a = 100
list(range(10000))
b = 123

In [None]:
%timeit l = 0

In [None]:
%%html
<h1> Titulo </h1>

## 3.- Breve Introducción a Python

Python es un lenguaje interpretado de tipos dinámicos. A diferencia de R, por ejemplo, es un lenguaje de uso general y su capacidad para las ciencias de datos no viene dada desde sus librerías internas sino por los módulos externos. Se puede usar en forma imperativa u orientada a objetos; teóricamente también dentro del paradigma de programación funcional, pero con ciertas limitaciones (existen límites para ejecución recursiva, por ejemplo).

Python puro tiende a ser lento (para ejecutar, rápido para escribir), por tener tipos dinámicos y por el GIL. Sin embargo, el intérprete más comúnmente usado (CPytyhon) esta implementado en C y permite la integración de módulos externos de C, C++ y Fortran que, bien utilizados, permiten la aceleración de las partes claves de un programa. 

Desde lo estético, Python reemplaza las llaves por indentaciones, cosa que fuerza un código más leíble. Por lo demás, existe toda una "filosofía" de lo que es "pythonico", en términos de prolijidad, funcionalidad y belleza del código.

In [None]:
import this

In [None]:
# definición de variables
"""
las variables se definen simplemente con un signo =
"""

cadena = "estos es una cadena de texto"
entero = 10
punto_flotante = 10.4
punto_flotante_alternativa = 10.
lista = ["elemento1", "elemento2", 1236]
diccionario = {"llave1": 1, "llave2": 2}


In [None]:
type(1), type(2), type(2/1)

In [None]:
%whos

In [None]:
#los elementos de una lista se acceden por indice, los diccionarios por nombre de la clave

print(lista[0]) #en python se empieza a contar desde 0
print(diccionario["llave1"])
diccionario.llave1

### Definición de funciones

Las funciones se definen con la palabra clave `def`

```python
def funcion(argumento1, argumento2, argumento_con_default=None, 
            *argumentos_posicionales_aninimos, **otros_argumentos_con_nombre)
    # hacer algo
    algo = 0
    return algo
```

In [None]:
def func1(a, b=1, *args, **kwargs):
    print("a =", a)
    print("b =", b)
    for i, arg in enumerate(args):
        print("elemento {0} de args es igual a {1}".format(i, arg))
    for i, arg in enumerate(kwargs):
        print("elemento {0} de kwargs es igual a {1}".format(arg, kwargs[arg]))

In [None]:
func1(entero, punto_flotante, *lista, **diccionario)

In [None]:
# for loops

for (k, v), o in zip(diccionario.items(), [1,2]):
    print(k, v, o)

In [None]:
a = list([1,2,3])
b = tuple([1,2,3])
a[0] =10
b[0] = 100

In [None]:
a

In [None]:
# while loops

import numpy as np

cent = 0
print(cent)
while cent < 0.5:
    cent = np.random.rand()
    print("nuevo cent:", cent)

In [None]:
n = 10000
lista1 = []
for a in range(n):
    b = a + 2 
    lista1.append(b)
lista2 = [a + 2 for a in range(n)] 

In [None]:
print(lista1 is lista2)
print(lista1 == lista2)

In [None]:
lista3 = lista2
lista3 is lista2

In [None]:
lista2[0] = "nuevo_elemento"
lista3

In [None]:
lista4 = lista1.copy()
lista1[0] = "nuevo2"
lista4

In [None]:
dic_comp ={k: v for k, v in zip(["elem_" + str(i) for i in range(10)], range(10))}
dic_comp

#### Generadores

Los generadores son un tipo especial de iteradores. A diferencia de una lista, por ejemplo, no contienen en memoria todos sus elementos, sino que los van "generando" a medida que le son requeridos

In [None]:
generator = (a for a in range(10))
generator

In [None]:
for a in generator:
    print(a)

In [None]:
generator

In [None]:
list(generator)

In [None]:
generator = (a for a in range(10))
list(generator)


## 4.- Breve Introducción a Pandas

Pandas es una librería externa para la manipulación de datos tabulares. Usa array de datos de numpy con timos homogeneos **por columnas**. Por convención, se importa como pd

```python
import pandas as pd
```

In [None]:
from sklearn.datasets import load_iris

base_data = load_iris()
base_data
del data

In [None]:
base_data.keys()

In [None]:
print(base_data["DESCR"])

In [None]:
target_names = base_data["target_names"]
data = pd.DataFrame(base_data["data"], columns=base_data['feature_names'])
data.index.name = "index"
data

In [None]:
#falta incorporar el target de predicción

target = pd.Series(base_data["target"], name="target")
target

In [None]:

data

In [None]:
%ls

In [None]:
data.to_csv("iris.csv")
data.to_pickle("iris.pkl")
data.to_excel("iris.xlsx")
%ls

In [None]:
data = pd.read_csv("iris.csv", index_col="index")
data = pd.read_pickle("iris.pkl")
data = pd.read_excel("iris.xlsx", index_col="index")

In [None]:
data

In [None]:
data["sepal length (cm)"]

In [None]:
data.ix[146, 1]

In [None]:
data["sepal length (cm)"].plot()

In [None]:
%matplotlib inline  
data["sepal length (cm)"].plot()

In [None]:
data.plot.scatter(x="sepal length (cm)", y="sepal width (cm)", color=data.target / 2, colormap="cool")

In [None]:
import seaborn as sns
sns.set()

data
sns.pairplot(data, hue="target")

In [None]:
data.target.value_counts()

In [None]:
data["target"] = data.target.apply(lambda x: target_names[x])
sns.pairplot(data, hue="target")