# Módulo IV: Introducción a la Ciencia de Datos
***

## Sesión a
   + Introducción a *Pandas*, *Numpy*, *Matplolib*.
   
El manejo de datos que hemos visto hasta ahora como muestra de las herramientas de Python
puede volverse menos flexible cuando se trata de manejar mayores cantidades de datos, cuando se quiera hacer uso de bases de datos mas eficientes. En el área de ciencia de datos, los usuarios de Python cuentan con herramientas específicas para mejorar este manejo. Para instalarlas, escribe en tu terminal:

```python
conda install numpy pandas scipy  matplolib scikit-learn
```

### Numpy
***

**Numpy** es el paquete por excelencia para manejar arreglos numéricos, matrices y conjuntos de datos multidimensionales, de forma eficiente.  Para usar numpy, sólo importamos el paquete como hemos aprendido:

In [20]:
import numpy as np
x = np.arange(1,10)
x

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

Con la instrucción **np.arange(1,10)** acabamos de crear un vector numérico desde el 1 hasta el 9. Es similar a la función **range()** que hemos usado anteriormente.

Sobre estos arreglos numéricos podemos realizar operaciones qe no son posibles con listas. Por ejemplo:

In [21]:
l = [1,2,3,4]
l1 = [5,6,7,8]
l*2

[1, 2, 3, 4, 1, 2, 3, 4]

Con la útlima operación logramos duplicar la lista con los mismos elementos. ¿Pero qué pasa si lo que queríamos era multiplicar por 2 cada elemento de la lista? Quizá con comprensión de listas podemos lograrlo:

In [22]:
[i*2 for i in l]

[2, 4, 6, 8]

Si queremos elevar al cuadrado los elementos de la lista **l**, obtendremos un error. Al igual que si intentamos multiplicar dos listas:

In [23]:
l**2
l*l1

TypeError: unsupported operand type(s) for ** or pow(): 'list' and 'int'

Sin embargo, utilizando un array de numpy podemos fácilmente operar:

In [24]:
x*2

array([ 2,  4,  6,  8, 10, 12, 14, 16, 18])

In [25]:
x**2

array([ 1,  4,  9, 16, 25, 36, 49, 64, 81])

In [26]:
x1 = np.arange(11,20)
x*x1

array([ 11,  24,  39,  56,  75,  96, 119, 144, 171])

Recordando nuestra variable precios, podemos intentar restarle a todos un descuento. La lista que teníamos anteriormente era:

In [27]:
precios = [12000, 9850.5, 9000.0, 30000.0, 18000.0,
           12000.0, 11000, 15000.0, 6000.0, 18000, 8000.0]
descuento = 1000           # descuento para aplicar

In [28]:
precios-100

TypeError: unsupported operand type(s) for -: 'list' and 'int'

Nos arroja un error dado que no está definida una resta entre tipos listas y entero. Tendríamos que construir otro bucle o comprension de listas para lograr el resultado.

In [29]:
[i - 100 for i in precios]

[11900,
 9750.5,
 8900.0,
 29900.0,
 17900.0,
 11900.0,
 10900,
 14900.0,
 5900.0,
 17900,
 7900.0]

A pesar de que podemos obtener lo que buscamos con bucles *for* y comprensión de listas, debemos tener en cuenta que el uso de **Numpy** aumenta la **eficiencia** con la que se ejecutan las operaciones. Además que permite otra variedad de operaciones numéricas importantes.

In [30]:
numprecios = np.array(precios)    # convierte la lista de precios en un array de numpy
numprecios*2     # multiplica cada elemento del array individualmente, por dos.

array([ 24000.,  19701.,  18000.,  60000.,  36000.,  24000.,  22000.,
        30000.,  12000.,  36000.,  16000.])

In [31]:
numprecios-100   # resta 100 unidades a cada elemento del array.

array([ 11900. ,   9750.5,   8900. ,  29900. ,  17900. ,  11900. ,
        10900. ,  14900. ,   5900. ,  17900. ,   7900. ])

Podemos presionar la tecla <tab> para revisar los métodos disponibles para aplicar sobre los array de **numpy**:
```python    
numprecios.<tab> 
```
![Métodos sobre array de numpy](images/020-numpymetodos.png)

Podemos ver el tamaño del arreglo como siempre (número de elementos):

In [33]:
len(numprecios)

11

Pero además, podemos ver las dimensiones del mismo haciendo:

In [34]:
numprecios.shape

(11,)

Siendo el primer valor de la tupla resultante el número de filas y el segundo el número de columnas en caso de tener estructuras de más de dos dimensiones como matrices.

**Numpy** cuenta con sus propios tipos de variable para manejar con mayor precisión las operaciones: enteros, flotantes, complejos, booleanos, strings, entre otros.

![Tipos de datos de numpy](images/021-numpydatos.png)

In [36]:
np.int64

numpy.int64

Si queremos convertir el arreglo a otro tipo distinto de dato, usamos la funcion **astype(tipo_de_dato)**:

In [38]:
x.astype(int)
x.dtype  #nos informa que tipo de variable contiene el array

dtype('int64')

Para construir una matriz, podemos modificar las dimensiones del array, al contrario de la lista que sólo es unidimensional. La función reshape cambia la forma del array según las dimensiones que especifiquemos:

In [39]:
matriz = x.reshape((3,3))
matriz

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [42]:
print(matriz.dtype)   # tipo de objeto
print(matriz.ndim)    # número de dimensiones del objeto

int64
2


Ahora que tenemos una matriz, incluso podemos aplicar operaciones matemáticas típicas para ella: productos, transpuestas, y en general de álgebra lineal, entre otros:

![Métodos para matrices](images/022-matrizmetodo.png)

In [43]:
matriz.T

array([[1, 4, 7],
       [2, 5, 8],
       [3, 6, 9]])

La instrucción anterior es una forma abreviada de usar la función **transpose** de numpy, que nos arroja el mismo resultado:

In [45]:
np.transpose(matriz)

array([[1, 4, 7],
       [2, 5, 8],
       [3, 6, 9]])

Las operaciones aritméticas básicas pueden aplicarse tanto con operadores binarios como métodos explícitos, ofreciendo el mismo resultado:

In [51]:
a = np.array([1,2,3])
b = np.array([(1.5,2,3), (4,5,6)], dtype = float)
c = np.array([[(1.5,2,3), (4,5,6)], [(3,2,1), (4,5,6)]],dtype=float)

In [52]:
a + b   # suma con operador

array([[ 2.5,  4. ,  6. ],
       [ 5. ,  7. ,  9. ]])

In [53]:
np.add(a,b)    # suma con método

array([[ 2.5,  4. ,  6. ],
       [ 5. ,  7. ,  9. ]])

In [55]:
a/b

array([[ 0.66666667,  1.        ,  1.        ],
       [ 0.25      ,  0.4       ,  0.5       ]])

...es equivalente a 

In [56]:
np.divide(a,b)

array([[ 0.66666667,  1.        ,  1.        ],
       [ 0.25      ,  0.4       ,  0.5       ]])

In [57]:
a*b

array([[  1.5,   4. ,   9. ],
       [  4. ,  10. ,  18. ]])

...es equivalente a

In [59]:
np.multiply(a,b)

array([[  1.5,   4. ,   9. ],
       [  4. ,  10. ,  18. ]])

Incluso podemos calcular funciones trigonométricas para cada valor con **np.cos(a)** y **np.sin(a)**, o raíces cuadradas con **np.sqrt(a)**

In [60]:
numprecios.sum()
numprecios.max()
numprecios.min()

6000.0

No tenemos que construir una función para calcular la media, con un array de numpy hacemos directamente:

In [62]:
numprecios.mean()

13531.863636363636

Incluso las medidas estadísticas más comunes como [desviación estándar](https://es.wikipedia.org/wiki/Desviación_típica), [varianza](https://es.wikipedia.org/wiki/Varianza) y [mediana](https://es.wikipedia.org/wiki/Mediana_(estadística)):

In [64]:
numprecios.var()   # varianza de un conjunto de datos

40527971.095041327

In [65]:
numprecios.std()   # desviación estándar de un conjunto de datos

6366.1582681426735

In [68]:
np.median(numprecios)   # mediana de los datos

12000.0

Todas las operaciones usuales con listas, como ordenar, concatenar, anexar, insertar, eliminar elementos, extraer subsecciones y realizar operaciones lógicas pueden realizarse intuitivamente con numpy.

In [69]:
numprecios[0:2]

array([ 12000. ,   9850.5])

In [70]:
numprecios[1]

9850.5

Y para acceder a los elementos de una matriz o cualquier objeto multidimensional, usamos los índices para cada dimensión:

In [72]:
matriz[0:2, 1]   # en la primera posición los elementos de las filas
                 # y el la segunda posición lo elementos de la columna

array([2, 5])

La comparación de arrays puede hacerse tanto elemento a elemento, como por objeto completo:

In [75]:
numprecios = np.array([9000,4000,5000])
numprecios2 = numprecios
numprecios3 = np.array([9000,2000,6790])

In [None]:
compras['precio'] # elige una columna por nombre

In [77]:
compras[1:3] # elige varias columnas por indices, subsección

NameError: name 'compras' is not defined

In [78]:
numprecios == numprecios3


array([ True, False, False], dtype=bool)

In [80]:
np.array_equal(numprecios, numprecios2)

True

In [82]:
np.array_equal(numprecios, numprecios3)

False

De igual manera para las demás condiciones lógicas que apliquen:

In [84]:
numprecios < 5000

array([False,  True, False], dtype=bool)

In [None]:
Incluso podemos elegir subsecciones de acuerdo a las condiciones:

In [85]:
matriz[matriz < 2]

array([1])

In [86]:
numprecios[numprecios < 5000]

array([4000])

In [87]:
np.insert(numprecios,len(numprecios),7000)

array([9000, 4000, 5000, 7000])

La línea anterior inserta un nuevo elemento al final del array. El primer argumento es el array que queremos modificar, el segundo es la posición dentro del array donde queremos colocar el elemento, y el último es el contenido a insertar.

Para insertar al final automáticamente podemos usar directamente la función **append**:

In [88]:
np.append(numprecios, 8000)

array([9000, 4000, 5000, 8000])

In [None]:
np.delete(numprecios, [1,2]) # elimina los elementos en las posiciones 1 y 2 del array numprecios

Podemos anexar listas completas de precios y construir una con todos los valores, concatenando cada array:

In [89]:
p = np.array([2000,6000])   # nuevos precios a anexar
np.concatenate((numprecios, p))   # une las dos listas de precios 

array([9000, 4000, 5000, 2000, 6000])

Y una de las funciones más utiles, para dividir el la lista de elementos, es intuitivamnte la funcion **split**:

In [91]:
np.split(x,3) 

[array([1, 2, 3]), array([4, 5, 6]), array([7, 8, 9])]

Esta funcion divide el array en 3 sub arrays del mismo tamaño. Por lo que el segundo argumento debe ser un multiplo del tamaño total.

Hay dos variantes de esta función: split horizontal y vertical. También debe usarse múltiplos de las dimensiones de los arrays para no obtener errores.

In [92]:
np.hsplit(b,2)  #completar explanation

np.vsplit(b,3) #completar explanation

ValueError: array split does not result in an equal division

### Pandas
***

Es conveniente contar con una estructura que nos pemita mantener nuestros datos de forma organizada, como una base de datos, tal como una tipica tabla en excel. 
Así podríamos tener, por ejemplo información como:

| producto | precio | tienda | dirección | estacionamiento | punto |
|--------------|----------------|----------------------------------|
|arroz | 9000 |  los chinos de la esquina| Av 5 calle 10| False | True|

Pandas es un paquete construido con base en los arrays de numpy, que provee una estrcutura con columnas y filas etiquetadas, llamadas dataframe, para manipular registros de datos, variables y valores de distintos tipos.

Los datos que tenemos hasta los momentos de nuestras compras, formaban algunas variables:

In [99]:
nombres = ["azucar","arroz","harina", "aceite"]
precios = [9850.5, 9000, 12000, 18000]

tienda1 = "los chinos de la esquina"
tienda2 = "supermercado MUNDO"
tienda3 = "Abasto el rey"
tienda4 = "la bodega de Juan"

tiendas = [tienda1, tienda2, tienda3, tienda4]

direcciones = ["Avenida 5 CALLe 10", "av 4 calle 25 edif c", 
               "AV LORA CALLE 23", "av Don tulio edif Uno calle 32"]

# variables lógicas que indican False o True dependiendo 
# si hay o no estacionamiento o punto de venta en cada lugar.
estacionamientos = [True, True, False, False]
puntos = [True, False, True, False]

# en forma de diccionario
productos = {'azucar':9000.0, 'arroz':9850.5, 'harina':11000, 'aceite':12000, 'pasta':18000}

Es muy conveniente que tengamos organizados estos datos dentro de un dataframe. Esto permite además poder realizar una cantidad de operaciones y análisis estadísticos y descriptivos sobre los datos.

Para crear un dataframe en pandas, primero debemos importar el paquete y luego usar la función **DataFrame()**:

In [100]:
import pandas as pd
df = pd.DataFrame({'grupo': ['A', 'B', 'C', 'A', 'B', 'C'],
                   'valor': [1, 2, 3, 4, 5, 6]})

Nota que la estructura que recibe la función **DataFrame** es un diccionario de python, definido entre llaves, con pares *clave:valor*.

Igual que en un diccionario, podemos acceder a las columnas por medio de sus etiquetas o nombres:

In [102]:
df['grupo']

0    A
1    B
2    C
3    A
4    B
5    C
Name: grupo, dtype: object

Ademas las operaciones sobre lel contenido se hace de manera directa, por ejemplo, la suma de la columna "valor":

In [103]:
df['valor'].sum()

21

Nota que esta función se aplica sobre el array de numpy resultante de la selección. 

Ademas, si se quiere aplicar operaciones según los grupos, podemos facilmente agrupar cada conjunto de datos y aplicar las funciones:

In [104]:
df.groupby('grupo').sum()  # suma de los valores según los grupos

Unnamed: 0_level_0,valor
grupo,Unnamed: 1_level_1
A,5
B,7
C,9


En esta instrucción, primero agrupamos segun la variable "grupo" y a este resultado le aplicamos la función suma. Una función muy utilizada cuando se trabaja con categorías de datos y clasificaciones.

Para crear el dataframe con nuestras compras, utilizamos las listas que y teniamos guardadas, como pares clave valor de la forma **'nombre-de-columna': variable**.

In [105]:
compras = pd.DataFrame({'productos': nombres, 'precios': precios, 'tienda': tiendas,
                        'direccion':direcciones, 'estacionamiento':estacionamientos,'punto':puntos})

O de igual manera, podemos pasarle una lista con todas las listas de datos, y espcificarle los nombres de las columnas:

In [106]:
compras = pd.DataFrame(list(zip(nombres, precios, tiendas, direcciones, estacionamientos,puntos)), 
                       columns=['producto', 'precio','tienda','direccion','estacionamiento','punto'])

In [107]:
compras['precio'] # elige uns columna por nombre
compras[1:3] # elige varias columnas por indices, subsección

Unnamed: 0,producto,precio,tienda,direccion,estacionamiento,punto
1,arroz,9000.0,supermercado MUNDO,av 4 calle 25 edif c,True,False
2,harina,12000.0,Abasto el rey,AV LORA CALLE 23,False,True


### Matplolib

### Sesión b:  
   + Introducción a *Jupyter notebook* y *IPython*.

| [Atrás](Módulo III - Funciones, lectura y escritura de archivos.ipynb) | [Inicio](Introducción - Contenido.ipynb)