# Práctica 0

## Jacinto Arias, José A. Gámez - Minería de Datos Curso 2016/2017


En esta práctica veremos las capacidades básicas de jupyter y comenzaremos a trabajar con las librerías de python que utilizaremos durante el curso.

## Editando texto con Markdown

El formato **markdown** se ha convertido en el formato de texto anotado más popular después de **html**, esto se debe principalmente a que siendo solo un superconjunto con respecto a este último la forma de trabajar es mucho más ligera y por ello podemos usarlo en multitud de sitios. Generalmente se usa mucho para documentar pequeños fragmentos como los ficheros ```README.md``` de **github**

La sintaxis es muy reducida y fácil de aprender, podéis consultarla en el siguiente [Enlace](http://jupyter-notebook.readthedocs.io/en/latest/examples/Notebook/Working%20With%20Markdown%20Cells.html). A continuación os dejo unos ejemplos que podéis consultar editando el código de la celda:

# Encabezado 1
## Encabezado 2
### Encabezado 3
#### Encabezado 4

**Negrita**, *cursiva*
* Lista1
* Lista2
* Lista3

Incluso fórmulas en formato $\LaTeX$!
$$P(A \mid B) = \frac{P(B \mid A) P(A)}{P(B)}$$



## Trabajando con python

Cualquier tipo de expresión se puede escribir en una libreta de python, la salida de dicho código así como todo lo que imprimamos por consola (y las excepción si algo ha ido mal) se mostrarán en la celda de "salida" despues de la ejecución.

In [1]:
a = 10
b = 5
print(a)
a
b

10


5

Como podéis apreciar la salida de la celda corresponde con la última expresión evaluada, mientras que si imprimimos cualquier valor podremos observar la salida justo antes. 

Podemos escribir cualquier fragmento de código, incluyendo clases o funciones:

In [2]:
# Filtra los numeros impares
def impares(arr):
    return [x for x in arr if x%2!=0]

In [3]:
a = [x*3 for x in range(10)]
print(a)
print(impares(a))

[0, 3, 6, 9, 12, 15, 18, 21, 24, 27]
[3, 9, 15, 21, 27]


## Trabajando con Scientific Python
A continuación veremos muy por encima las funcionalidades básicas de las librerías de python que utilizaremos

Cargando librerías:

In [4]:
import numpy as np
import pandas as pd
from scipy import stats, integrate
import matplotlib as mpl
import matplotlib.pyplot as plt

import seaborn as sns
sns.set(color_codes=True)

## Numpy

Numpy es un motor de álgebra lineal al estilo de matlab. Su principal funcionalidad se enmarca en torno a la gestión de matrices y vectores. Más información sobre uso básico en el siguiente [Enlace](https://docs.scipy.org/doc/numpy-dev/user/quickstart.html)

### Creación de Arrays

In [5]:
# Podemos crear arrays de distintas dimensiones, utilizando para ello distintas opciones:

# Usando una secuencia de python
a1 = np.array([0,1,2,3])
print(a1)
# Usando el generador de rangos de numpy
a2 = np.arange(4)
print(a2)

[0 1 2 3]
[0 1 2 3]


In [10]:
# Para crear una matriz, usamos distintas dimensiones o la funcion para dimensionar un array unidimensional:
b1 = np.array([[0,1,2,3],
               [4,5,6,7],
               [8,9,10,11]])
print(b1)
print()
b2 = np.arange(12).reshape(3, 4)
print(b2)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


In [8]:
# Tambien podemos crear matrices de un tamaño predeterminados:
z = np.zeros((3,4))
o = np.ones((3,3))
i = np.eye(3,3)
print(z,"\n\n",o,"\n\n",i)

[[ 0.  0.  0.  0.]
 [ 0.  0.  0.  0.]
 [ 0.  0.  0.  0.]] 

 [[ 1.  1.  1.]
 [ 1.  1.  1.]
 [ 1.  1.  1.]] 

 [[ 1.  0.  0.]
 [ 0.  1.  0.]
 [ 0.  0.  1.]]


### Propiedades
Podemos acceder a diversas propiedades de una matriz

In [None]:
a = np.arange(12).reshape(3, 4)
print(a, "\n")
# Tamaño de sus dimensiones
print(a.shape)
# Rango
print(a.ndim)
# Tipo de datos
print(a.dtype.name)

###  Operaciones
numpy viene cargado con multitud de operaciones en referencia a los elementos de la matriz y operaciones de álgebra lineal

In [None]:
# Algunas operaciones entre elementos
print(a * 3, "\n")
print(a ** 2, "\n")

# Que estamos haciendo aqui?
print(o + np.eye(o.shape[1]) * 2)


In [None]:
a = np.array([[4, 7], [2, 6]])
print(a, "\n")

# Operaciones entre matrices:

# Transposición
print(a.transpose(), "\n")

# Inversa:
print(np.linalg.inv(a), "\n")

# Producto: ¿que estamos haciendo con esta operacion?
print(np.dot(a, np.linalg.inv(a)) , "\n")

### Índices
Existen diversas formas de indexar matrices, muy similares a como se indexan el resto de estructuras en python básico

In [None]:
a = np.arange(12).reshape(3, 4)

print(a[0,2], "\n")
print(a[:,2], "\n")
print(a[0,:], "\n")
print(a[0:2,0:2], "\n")

## Pandas
Pandas es la librería de tratamiento de datos estructurados que utilizaremos durante las prácticas. Más información en el siguiente [Enlace](http://pandas.pydata.org/pandas-docs/stable/10min.html)

### Creando datos
Normalmente trabajaremos con conjuntos de datos obtenidos de sucesos o experimentos reales, pero a veces, para probar las cosas, podemos trabajar sencillamente con datos generados sintéticamente.

Un **dataframe** es una estructura de datos similar a una tabla de una base de datos, donde las columnas representarán variables y las filas casos concretos.

Pandas es capaz de crear estos dataframes a partir de diversas estructuras y distintos tipos de datos.

In [None]:
# El caso mas sencillo es crear variable numericas. Para ello utilizaremos los generadores aleatorios de numpy.

# Generamos 100 ocurrencias de una variable aleatoria uniforme:
n = 100
unif = np.random.uniform(size = n)
# Generamos 100 ocurrencias de una variable aleatoria gaussiana:
gauss = np.random.normal(loc = 0, scale = 1, size = n)
# Generamos 100 ocurrencias de una variable aleatoria discreta:
dias = np.random.choice(["lunes", "martes", "jueves"], size = n)

# Imprimimos los 5 primeros valores de cada una:
print(unif[0:5])
print(gauss[0:5])
print(dias[0:5])

In [None]:
# Ahora podemos crear el dataframe pasandole para ello un diccionario con las variables y sus nombres:
df = pd.DataFrame({"uniforme" : unif, "gaussiana" : gauss, "dias" : dias})

Ahora podemos imprimirlo, podeis observar como jupyter renderiza una tabla para que podamos ver los datos con mayor comodidad. Para reducir la tabla y que no ocupe toda la pantalla podéis usar el atajo ```shift+o``` en modo comando.

In [None]:
df

### Operando sobre DataFrames
Durante el resto del curso iremos introduciendo diversas operaciones sobre conjuntos de datos que nos permitirar procesar los datos de la manera que necesitemos de cara a preparar nuestros algoritmos. De momento vamos probar algunas de las más frecuentes.

Con head podemos obtener las primeras n filas del DataFrame, para poder visualizar o probar cosas.
Imaginad que tuviesemos 10M de filas, ¿qué pasaría al intentar imprimir la tabla?

In [None]:
df.head(6)

También podemos obtener subconjuntos del DataFrame mediante operaciones más potentes, como indexado directo o indexado condiciado a determinadas propiedades

In [None]:
# Obtener determinadas filas
df.loc[0:5,:]

In [None]:
# Obtener determinadas columnas
df.loc[0:5,['dias']]

In [None]:
# Obtener filas que cumplan una condición
df.loc[df.dias == "lunes"].head()

### Operaciones sobre los datos:
Podemos efectuar distintas operaciones sobre los datos. Algunas de las más importantes son la obtención de estadísticos:

In [None]:
# La media de las variables numéricas:
df.mean()

In [None]:
# En general podemos obtener una descripción general:
df.describe()

In [None]:
# O en el caso de variables categóricas podemos agrupar los valores y contar
df.groupby('dias').count()

### Generación de gráficas

Las gráficas son sumamente importantes en cualquier actividad relacionada con la Minería de Datos. En este curso usaremos muchas gráficas, pero no incidiremos en el uso de las librerías que las generan sino más bien en saber interpretarlas de manera general; es por ello que la mayoría del código de generación de gráficas irá ya preparado dentro de las libretas.

### Algunos ejemplos:

In [None]:
# Codigo auziliar para configurar el entorno gráfico no es necesario entenderlo...
%matplotlib inline
mpl.rcParams["figure.figsize"] = "8, 4"
import warnings
warnings.simplefilter("ignore")

Vamos a mostrar nuestras variables numéricas a modo de **histograma**, así podremos identificar la distribución aleatoria con la que las hemos creado.

In [None]:
sns.distplot(df.gaussiana)

In [None]:
# Histogramas para nuestras variables numéricas
sns.distplot(df.uniforme)

Ahora podemos probar a representar ambas variables simultáneamente en un **scatterplot**. Observad fijamente el gráfico ¿Existe algún tipo de correlación, tiene alguna utilidad adicional esta gráfica con respecto a las otras dos?

In [None]:
sns.jointplot(x="gaussiana", y="uniforme", data=df);

Estas representaciones son válidad para variables numéricas, pero, ¿cómo podemos representar variables categóricas?
Las seguientes gráficas muestras algunos ejemplos de cómo lograrlo.

In [None]:
sns.countplot(x="dias", data=df);

Por último, hay veces que nos interesa mezclar información categórica con información numérica. Para ello podemos utilizar una gráfica organizada por capas. En este caso no observaremos nada especial puesto que nuestros datos son completamente aleatorios.


En este gráfico mostramos la variable ```gaussiana``` contra la variable ```dias```


In [None]:
g = sns.FacetGrid(df, col="dias", hue="dias")
g.map(plt.hist, "gaussiana");

# Ejercicios

Hemos realizado un repaso rápido por algunas de las funcionalidades que veremos a lo largo del curso. Es recomendable que los alumnos repasen de nuevo la libreta y se familiaricen con la sintaxis que acabamos de ver. No es necesario memorizar ni adquirir un nivel de experiencia demasiado alto con estas herramientas ya que los ejercicios de programación irán en su mayoria muy guiados. No obstante sí es recomendable poder entender las operaciones a realizar con fluidez para poder prestar atención a los conceptos de Minería de Datos que se expliquen.

Por ello, y con caracter opcional para esta práctica, se proponen los siguientes ejecicios. También es recomendable echar un vistazo a los tutoriales de numpy y pandas, así como repasar python3 si uno piensa que podría hacerle falta.

### 1. Crea un vector de numpy nulo (todo ceros) de 10 elementos pero cuyo 5º elemento sea un 5
**No vale definirlo explicitamente!**

In [None]:
# COMPLETAR CODIGO en ???
v = np.???
???
print(v)
assert(np.array_equal(v, [0,0,0,0,5,0,0,0,0,0])), "Tu array no es valido!"

### 2. Crea una matriz de 4x5 en los que todos los elementos tengan un valor de 2

In [None]:
# COMPLETAR CODIGO en ???
v = ???
print(v)
assert(np.array_equal(v, [[2,2,2,2,2],[2,2,2,2,2],[2,2,2,2,2],[2,2,2,2,2]])), "Tu matriz no es valida!"

### 3. Crea una matriz de 3x3 cuyos elementos de la diagonal sean 3 y los demas ceros

In [None]:
# COMPLETAR CODIGO en ???
v = ???
print(v)
assert(np.array_equal(v, [(3,0,0),(0,3,0),(0,0,3)])), "Tu matriz no es valida!"

### 4. De la siguiente matriz A de 4x4, obten la submatriz de 2x2 del cuadrante de abajo a la derecha

In [None]:
# COMPLETAR CODIGO en ???
A = np.arange(16).reshape(4,4).transpose()
asub = ???
print(A, "\n")
print(asub)
assert(np.array_equal(asub, [[10,14],[11,15]])), "Tu matriz no es valida!"

### 5. De la siguiente matriz A de 5x5 obten la matriz central de 3x3 que resulta de quitar todos los elementos periféricos

In [None]:
# COMPLETAR CODIGO en ???
A = np.arange(25).reshape(5,5).transpose()
asub = ???
print(A, "\n")
print(asub)
assert(np.array_equal(asub, [[6,11,16],[7,12,17],[8,13,18]])), "Tu matriz no es valida!"

### 6. Este el el código con el que generamos nuestro DataFrame inicial para el ejemplo...
Si observas, las tres funciones ```np.random``` generan datos aleatorios, cada una siguiendo una distribución distinta. No obstante las tres funciones comparten un parámetro común llamado ```size```que determina el tamaño de muestras (el número de filas) que tendrá nuestro DataFrame.

Antes de seguir, vuelve al apartado de las gráficas y observa los dos histogramas que generamos cuando estabamos evaluando la práctica. Estos histogramas se generaron para un valor de muestra de ```n=100```. Una vez los hayas visualizado bien vuelve a este código y ejecútalo incrementando el valor de ```n```, tendrás que incrementarlo en un factor de 10x cada vez. Vuelve arriba y genera de nuevo las gráficas, ¿que está ocurriendo, porqué se modifican así?

In [None]:
# Generamos n ocurrencias de una variable aleatoria uniforme:
n = ???
unif = np.random.uniform(size = n)
# Generamos n ocurrencias de una variable aleatoria gaussiana:
gauss = np.random.normal(loc = 0, scale = 1, size = n)
# Generamos n ocurrencias de una variable aleatoria discreta:
dias = np.random.choice(["lunes", "martes", "jueves"], size = n)

# Ahora podemos crear el dataframe pasandole para ello un diccionario con las variables y sus nombres:
df = pd.DataFrame({"uniforme" : unif, "gaussiana" : gauss, "dias" : dias})

### 7. (solo leer, ejecutar y pensar) Vamos a añadir una nueva variable a nuestro Dataframe...
En este caso se trata de la variable gaussiana3 que será nuestra misma variable anterior pero multiplicada por 3

In [None]:
# Generamos 1000 ocurrencias de una variable aleatoria uniforme:
n = 1000
unif = np.random.uniform(size = n)
# Generamos 1000 ocurrencias de una variable aleatoria gaussiana:
gauss = np.random.normal(loc = 0, scale = 1, size = n)
# Generamos 1000 ocurrencias de una variable aleatoria discreta:
dias = np.random.choice(["lunes", "martes", "jueves"], size = n)

# Nueva Variable
gauss3 = gauss * 3

# Ahora podemos crear el dataframe pasandole para ello un diccionario con las variables y sus nombres:
df = pd.DataFrame({"uniforme" : unif, "gaussiana" : gauss, "gaussiana3" : gauss3, "dias" : dias})

Ahora repetiremos el **scatterplot** anterior pero utilizando gaussiana y gaussiana3, ¿eres capaz de identificar alguna diferencia fundamental?, ¿qué ha ocurrido?.

In [None]:
sns.jointplot(x="gaussiana", y="gaussiana3", data=df)

### 8.  (solo leer, ejecutar y pensar) Vamos a introducir un nuevo concepto: Modificar el DataFrame
Concretamente, vamos a modificar la variable Gaussiana con respecto a la variable dias, para ello simplemente seleccionaremos los elementos de cada dias y multiplicaremos por un valor concreto.

In [None]:
# Recordad como se efectuaba la selección, ahora simplemente añadirmos una operación y una actualización
df.loc[df.dias=='lunes',['gaussiana']] = df.loc[df.dias=='lunes',['gaussiana']]*10
df.loc[df.dias=='martes',['gaussiana']] = df.loc[df.dias=='martes',['gaussiana']]*50

Ahora que hemos modificado la variable gaussiana en función del dias, vamos a repetir el gráfico anterior que separaba cada histograma por dias. ¿Qué cambios puedes apreciar?, ¿Cuál es el motivo?

In [None]:
g = sns.FacetGrid(df, col="dias", hue="dias")
g.map(plt.hist, "gaussiana");