# Módulo IV - 01 - Introducción a la Ciencia de Datos
***

El manejo de datos que hemos visto hasta ahora como muestra de las herramientas de Python
puede volverse menos flexible cuando se trata de manejar mayores cantidades de datos, cuando se quiera hacer uso de bases de datos mas eficientes. En el área de ciencia de datos, los usuarios de Python cuentan con herramientas específicas para mejorar este manejo. Para instalarlas, escribe en tu terminal:

```python
conda install numpy pandas scipy matplotlib scikit-learn
```

## Numpy
***

**Numpy** es el paquete por excelencia para manejar arreglos numéricos, matrices y conjuntos de datos multidimensionales, de forma eficiente.  Para usar numpy, sólo importamos el paquete como hemos aprendido:

In [1]:
import numpy as np
x = np.arange(1,10)
x

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

Con la instrucción **np.arange(1,10)** acabamos de crear un vector numérico desde el 1 hasta el 9. Es similar a la función **range()** que hemos usado anteriormente.

Sobre estos arreglos numéricos podemos realizar operaciones qe no son posibles con listas. Por ejemplo:

In [2]:
l = [1,2,3,4]
l1 = [5,6,7,8]
l*2

[1, 2, 3, 4, 1, 2, 3, 4]

Con la útlima operación logramos duplicar la lista con los mismos elementos. ¿Pero qué pasa si lo que queríamos era multiplicar por 2 cada elemento de la lista? Quizá con comprensión de listas podemos lograrlo:

In [3]:
[i*2 for i in l]

[2, 4, 6, 8]

Si queremos elevar al cuadrado los elementos de la lista **l**, obtendremos un error. Al igual que si intentamos multiplicar dos listas:

In [4]:
l**2
l*l1

TypeError: unsupported operand type(s) for ** or pow(): 'list' and 'int'

Sin embargo, utilizando un array de numpy podemos fácilmente operar:

In [None]:
x*2

In [None]:
x**2

In [None]:
x1 = np.arange(11,20)
x*x1

Recordando nuestra variable precios, podemos intentar restarle a todos un descuento. La lista que teníamos anteriormente era:

In [None]:
precios = [12000, 9850.5, 9000.0, 30000.0, 18000.0,
           12000.0, 11000, 15000.0, 6000.0, 18000, 8000.0]
descuento = 1000           # descuento para aplicar

In [None]:
precios-100

Nos arroja un error dado que no está definida una resta entre tipos listas y entero. Tendríamos que construir otro bucle o comprension de listas para lograr el resultado.

In [None]:
[i - 100 for i in precios]

A pesar de que podemos obtener lo que buscamos con bucles *for* y comprensión de listas, debemos tener en cuenta que el uso de **Numpy** aumenta la **eficiencia** con la que se ejecutan las operaciones. Además que permite otra variedad de operaciones numéricas importantes.

In [None]:
numprecios = np.array(precios)    # convierte la lista de precios en un array de numpy
numprecios * 2     # multiplica cada elemento del array individualmente, por dos.

In [None]:
numprecios - 100   # resta 100 unidades a cada elemento del array.

Podemos presionar la tecla <tab> para revisar los métodos disponibles para aplicar sobre los array de **numpy**:
```python    
numprecios.<tab> 
```
![Métodos sobre array de numpy](images/020-numpymetodos.png)

Podemos ver el tamaño del arreglo como siempre (número de elementos):

In [None]:
len(numprecios)

Pero además, podemos ver las dimensiones del mismo haciendo:

In [None]:
numprecios.shape

Siendo el primer valor de la tupla resultante el número de filas y el segundo el número de columnas en caso de tener estructuras de más de dos dimensiones como matrices.

**Numpy** cuenta con sus propios tipos de variable para manejar con mayor precisión las operaciones: enteros, flotantes, complejos, booleanos, strings, entre otros.

![Tipos de datos de numpy](images/021-numpydatos.png)

In [None]:
np.int64

Si queremos convertir el arreglo a otro tipo distinto de dato, usamos la funcion **astype(tipo_de_dato)**:

In [None]:
x.astype(int)
x.dtype  #nos informa que tipo de variable contiene el array

Para construir una matriz, podemos modificar las dimensiones del array, al contrario de la lista que sólo es unidimensional. La función reshape cambia la forma del array según las dimensiones que especifiquemos:

In [None]:
matriz = x.reshape((3,3))
matriz

In [None]:
print(matriz.dtype)   # tipo de objeto
print(matriz.ndim)    # número de dimensiones del objeto

Ahora que tenemos una matriz, incluso podemos aplicar operaciones matemáticas típicas para ella: productos, transpuestas, y en general de álgebra lineal, entre otros:

![Métodos para matrices](images/022-matrizmetodo.png)

In [None]:
matriz.T

La instrucción anterior es una forma abreviada de usar la función **transpose** de numpy, que nos arroja el mismo resultado:

In [None]:
np.transpose(matriz)

Las operaciones aritméticas básicas pueden aplicarse tanto con operadores binarios como métodos explícitos, ofreciendo el mismo resultado:

In [None]:
a = np.array([1,2,3])
b = np.array([(1.5,2,3), (4,5,6)], dtype = float)
c = np.array([[(1.5,2,3), (4,5,6)], [(3,2,1), (4,5,6)]],dtype=float)

In [None]:
a + b   # suma con operador

In [None]:
np.add(a,b)    # suma con método

In [None]:
a/b

...es equivalente a 

In [None]:
np.divide(a,b)

In [None]:
a*b

...es equivalente a

In [None]:
np.multiply(a,b)

Incluso podemos calcular funciones trigonométricas para cada valor con **np.cos(a)** y **np.sin(a)**, o raíces cuadradas con **np.sqrt(a)**

In [None]:
numprecios.sum()

In [None]:
numprecios.max()

In [None]:
numprecios.min()

No tenemos que construir una función para calcular la media, con un array de numpy hacemos directamente:

In [None]:
numprecios.mean()

Incluso las medidas estadísticas más comunes como [desviación estándar](https://es.wikipedia.org/wiki/Desviación_típica), [varianza](https://es.wikipedia.org/wiki/Varianza) y [mediana](https://es.wikipedia.org/wiki/Mediana_(estadística)):

In [None]:
numprecios.var()   # varianza de un conjunto de datos

In [None]:
numprecios.std()   # desviación estándar de un conjunto de datos

In [None]:
np.median(numprecios)   # mediana de los datos

Todas las operaciones usuales con listas, como ordenar, concatenar, anexar, insertar, eliminar elementos, extraer subsecciones y realizar operaciones lógicas pueden realizarse intuitivamente con numpy.

In [None]:
numprecios[0:2]

In [None]:
numprecios[1]

Y para acceder a los elementos de una matriz o cualquier objeto multidimensional, usamos los índices para cada dimensión:

In [None]:
matriz[0:2, 1]   # en la primera posición los elementos de las filas
                 # y el la segunda posición lo elementos de la columna

La comparación de arrays puede hacerse tanto elemento a elemento, como por objeto completo:

In [None]:
numprecios = np.array([9000,4000,5000])
numprecios2 = numprecios
numprecios3 = np.array([9000,2000,6790])

In [None]:
numprecios == numprecios3

In [None]:
np.array_equal(numprecios, numprecios2)

In [None]:
np.array_equal(numprecios, numprecios3)

De igual manera para las demás condiciones lógicas que apliquen:

In [None]:
numprecios < 5000

Incluso podemos elegir subsecciones de acuerdo a las condiciones:

In [None]:
matriz[matriz < 2]

In [None]:
numprecios[numprecios < 5000]

In [None]:
np.insert(numprecios,len(numprecios),7000)

La línea anterior inserta un nuevo elemento al final del array. El primer argumento es el array que queremos modificar, el segundo es la posición dentro del array donde queremos colocar el elemento, y el último es el contenido a insertar.

Para insertar al final automáticamente podemos usar directamente la función **append**:

In [None]:
np.append(numprecios, 8000)

In [None]:
np.delete(numprecios, [1,2]) # elimina los elementos en las posiciones 1 y 2 del array numprecios

Podemos anexar listas completas de precios y construir una con todos los valores, concatenando cada array:

In [None]:
p = np.array([2000,6000])   # nuevos precios a anexar
np.concatenate((numprecios, p))   # une las dos listas de precios 

Y una de las funciones más utiles, para dividir el la lista de elementos, es intuitivamnte la funcion **split**:

In [None]:
np.split(x,3) 

Esta funcion divide el array en 3 sub arrays del mismo tamaño. Por lo que el segundo argumento debe ser un multiplo del tamaño total.

Hay dos variantes de esta función: split horizontal y vertical. También debe usarse múltiplos de las dimensiones de los arrays para no obtener errores.

In [None]:
np.hsplit(b,3)  #completar explanation

np.vsplit(b,2) #completar explanation

## Pandas
***

Es conveniente contar con una estructura que nos pemita mantener nuestros datos de forma organizada, como una base de datos, tal como una tipica tabla en excel. 
Así podríamos tener, por ejemplo información como:

| producto | precio | tienda | dirección | estacionamiento | punto |
|--------------|----------------|----------------------------------|
|arroz | 9000 |  los chinos de la esquina| Av 5 calle 10| False | True|

Pandas es un paquete construido con base en los arrays de numpy, que provee una estrcutura con columnas y filas etiquetadas, llamadas dataframe, para manipular registros de datos, variables y valores de distintos tipos.

Los datos que tenemos hasta los momentos de nuestras compras, formaban algunas variables:

In [None]:
nombres = ["azucar","arroz","harina", "aceite"]
precios = [9850.5, 9000, 12000, 18000]

tienda1 = "los chinos de la esquina"
tienda2 = "supermercado MUNDO"
tienda3 = "Abasto el rey"
tienda4 = "la bodega de Juan"

tiendas = [tienda1, tienda2, tienda3, tienda4]

direcciones = ["Avenida 5 CALLe 10", "av 4 calle 25 edif c", 
               "AV LORA CALLE 23", "av Don tulio edif Uno calle 32"]

# variables lógicas que indican False o True dependiendo 
# si hay o no estacionamiento o punto de venta en cada lugar.
estacionamientos = [True, True, False, False]
puntos = [True, False, True, False]

# en forma de diccionario
productos = {'azucar':9000.0, 'arroz':9850.5, 'harina':11000, 'aceite':12000, 'pasta':18000}

***
> *Intenta arreglar las direcciones para que tengan un formato estándar. Recuerda las funciones sobre **strings** que hemos visto antes.*

***

In [None]:
direcciones = [d.title() for d in direcciones]
tiendas = [t.title() for t in tiendas]
print(direcciones)
print(tiendas)

Es muy conveniente que tengamos organizados estos datos dentro de un **dataframe**. Esto permite además poder realizar una cantidad de operaciones y análisis estadísticos y descriptivos sobre los datos.

Para crear un dataframe en pandas, primero debemos importar el paquete y luego usar la función **DataFrame()**:

In [None]:
import pandas as pd
df = pd.DataFrame({'grupo': ['A', 'B', 'C', 'A', 'B', 'C'],
                   'valor': [1, 2, 3, 4, 5, 6]})

Nota que la estructura que recibe la función **DataFrame** es un diccionario de python, definido entre llaves con pares **clave:valor**.

Igual que en un diccionario, podemos acceder a las columnas por medio de sus etiquetas o nombres:

In [None]:
df['grupo']

Ademas las operaciones sobre lel contenido se hace de manera directa, por ejemplo, la suma de la columna "valor":

In [None]:
df['valor'].sum()

Nota que esta función se aplica sobre el array de **numpy** resultante de la selección. 

Ademas, si se quiere aplicar operaciones según los grupos, podemos facilmente agrupar cada conjunto de datos y aplicar las funciones:

In [None]:
df.groupby('grupo').sum()  # suma de los valores según los grupos

En esta instrucción, primero agrupamos segun la variable "grupo" y a este resultado le aplicamos la función suma. Una función muy utilizada cuando se trabaja con categorías de datos y clasificaciones.

Para crear el dataframe con nuestras compras, utilizamos las listas que y teniamos guardadas, como pares clave valor de la forma **'nombre-de-columna': variable**.

In [None]:
compras = pd.DataFrame({'productos': nombres, 'precios': precios, 'tienda': tiendas,
                        'direccion':direcciones, 'estacionamiento':estacionamientos,'punto':puntos})

O de igual manera, podemos pasarle una lista con todas las listas de datos, y especificarle los nombres de las columnas:

In [None]:
compras = pd.DataFrame(list(zip(nombres, precios, tiendas, direcciones, estacionamientos,puntos)), 
                       columns=['producto', 'precio','tienda','direccion','estacionamiento','punto'])
compras

In [None]:
compras['precio'] # elige una columna por nombre

In [None]:
compras[1:3] # elige varias columnas por indices, subsección

Pandas incluye sus  propias funciones para lectura y escritura de archivos. Podemos leer un .csv con la función **read_csv**:

In [None]:
import pandas as pd
datos = pd.read_csv('source/compras.csv', header=None)
datos

Ahora modificamos los datos:

In [None]:
datos[1] = datos[1] + 1000
datos

Y los guardamos nuevamente en el otro archivo con la funcion **to_csv**.

In [None]:
datos.to_csv('source/dfcompras.csv', header=False, index=False, index_label=False)

De esta manera se reduce sustancialmente el código que hemos utilizado antes para lectura y escritura de archivos con las librerías básicas de Python.

In [None]:
datos = pd.read_csv('source/dfcompras.csv')
datos

## Matplotlib

Cuando tenemos un conjunto de datos y además queremos analizarlo, una de las primeras cosas que podemos hacer es construir gráficos para visualizar su forma y comportamiento. Es la mejor forma de iniciar análisis descriptivos que nos ayuden a tener una idea clara de cuáles serán los próximos pasos de nuestro estudio.

Matplotlib es una librería de Python capaz de generar gráficos en dos dimensiones, con excelente calidad, sin exagerar en la cantidad de código e instrucciones que debes usar. Además, Matplotlib se integra sin problemas con arrays de Numpy y dataframes de Pandas.

Pyplot es un módulo de Matplotlib que genera gráficos similares a la plataforma de cálculo matemático MATLAB. Para usar estas funcionalidades, importamos el módulo como:

In [None]:
import matplotlib.pyplot as plt

Con la función **plot** generamos nuestro primer gráfico, usando una lista de puntos *[1,2,3,4]*:

In [None]:
plt.plot([1,2,3,4])

En este punto no se visualiza aun el gráfico, sólo generamos el objeto 2D. la función **show** despliega el resultado:

In [None]:
plt.show()

Un gráfico en dos dimensiones se compone de coordenadas *x* en el eje horizontal y *y* en el vertical. La función **plot** recibe el conjunto de puntos para cada una, pero en este caso introducimos sólo un vector. Pyplot asume que el vector numérico corresponde a las coordenadas **y**, y genera automáticamente valores para el eje **x**.

Si especificamos ambas coordenadas, el primer vector será **x** y el segundo **y**. Adicionalmente podemos especificar un tercer argumento para modificar el color y el estilo de la línea:

In [None]:
x = np.arange(1,20)    # array de numpy con números de 1 a 19
y = x ** 2             # 'y' contiene los elementos de 'x' al cuadrado
plt.plot(x,y,'ro')

El argumento **'ro'** establece el color, seguido del tipo de línea, en este caso **red** y **o** (puntos o círculos).

In [None]:
plt.show()

Otros estilos de líneas que puedes utilizar son:

+ Cuadrados: **'s'**
+ Triángulos: **'^'**
+ Líneas discontínuas: **'--'**

Por defecto la función **plot** usa **'b-'**, (línea contínua azul).

In [None]:
plt.plot(x,y,'go')    # Color verde (green) con puntos
plt.ylabel("f(x)")    # Etiqueta o nombre para el eje vertical
plt.xlabel('x')       # Etiqueta o nombre para el eje horizontal
plt.axis([0,6,0,20])  # Rangos para los ejes

Con **ylabel** y **xlabel** se definen los nombres de los ejes de coordenadas. El vector *[0, 6, 0, 20]* se usa para establecer los límites de cada eje: los dos primeros valores para **x**, los dos segundos para **y**.

In [None]:
plt.show()

Para comparar varias curvas en un mismo gráfico, es tan simple como colocar en llamada de **plot** cada par de coordenadas:

In [None]:
plt.plot(x, x, 'ro', x, y,'gs', x, y-25, 'y^')
plt.show()


***
> Escribe el código para graficar los precios que tenemos hasta ahora de nuestras compras! Usa los colores y formas que desees. (El argumento **linewidth** aumenta o disminuye el grosor de la línea según números reales).

***

In [None]:
plt.plot(precios)
plt.show()

El eje x generado automáticamente no es explicativo para el tipo de datos que tenemos. Preferiríamos que aparecieran los nombres de cada producto segun el precio que les corresponde. Para agregar estas etiquetas, la función **xticks** construye la estructura haciendo uso de la lista de nombres y la cantidad de elementos que tengamos:

In [None]:
plt.plot(precios, 'ro')
plt.xticks(np.arange(len(nombres)),nombres)

In [None]:
plt.show()

Aunque es evidente la diferencia de los precios entre cada producto, el uso de puntos no para visualizar no es muy conveniente. Este tipo de datos podemos observarlo de mejor manera con un gráfico de barras:

In [None]:
plt.bar(np.arange(len(nombres)),precios)
plt.xticks(np.arange(len(nombres)),nombres)
plt.show()

La función **bar** recibe un conjunto de números que indican el inicio de cada barra en el eje **x**, además de los valores para la altura de cada barra. En nuestro caso, creamos un rango de número según la cantidad de productos que tenemos usando ``np.arange(len(nombres))``: [0,1,2,3].

Aprovechemos de usar nuestro *dataframe* **compras** para extraer los precios y nombres para el gráfico, y confirmar que obtenemos el mismo resultado:

In [None]:
xcoordenadas = np.arange(len(compras['producto'])) # coordenadas para el eje x
plt.bar(xcoordenadas,compras['precio'], tick_label = compras['producto'])  # generando el gráfico de barras
plt.show()

Nota que las etiquetas para el eje **x** también pueden especificarse dentro de la función **bar**, por medio del argumento **tick_label**, sin necesidad de usar separadamente la instrucción **xticks**.

Si queremos comparar las proporciones que ocupan cada producto según su precio, podemos usar un gŕafico de torta o "pie":

In [None]:
plt.pie(compras['precio'], labels=compras['producto'])

In [None]:
plt.show()

Podemos incluso colocar varias figuras en un mismo espacio. Con la función **subplots** definimos el número de columnas o filas de nuestro espacio. Esta función genera los ejes en los cuales podemos graficar (los llamamos *eje0* y *eje1*). Luego en cada uno de estos ejes producimos las figuras que queremos:

In [None]:
figura, (eje0, eje1) = plt.subplots(ncols = 2)
eje0.bar(xcoordenadas,compras['precio'], tick_label = compras['producto'])
eje1.pie(compras['precio'], labels=compras['producto'])

plt.show()

Para construir estructuras más avanzadas como en la imagen siguiente, se puede usar la función **subplot2grid**:

![Grid de gŕaficos](images/027-subplot2grid.png)

| [Atrás](Módulo III - 02 - Introducción al Control de Versiones con Git.ipynb) | [Inicio](00 - Contenido.ipynb) | [Siguiente](Módulo IV - 02 - Introducción a Jupyter Notebook.ipynb)