# Manipulaci√≥n de Datos con Numpy

- Python viene con muchas [Funciones integradas](https://docs.python.org/3/library/functions.html)
    - Por ejemplo: print, type, range, etc
- Pero **la mayor parte de la funcionalidad que se necesita en el d√≠a a d√≠a no est√°** en Python base.


- Podemos **descargar otras colecciones de funciones y clases, llamadas Paquetes** (A.K.A. Librer√≠a A.K.A Modulos)
    - Python tiene un √≠ndice de paquetes (PyPi) que es b√°sicamente como una tienda de aplicaciones para Python. 

    - En una celda de c√≥digo, podemos instalar cualquier paquete PyPi que necesitemos usando:
        - `!pip <package name>`

# NumPy 

NumPy (o Numpy) es una biblioteca de √°lgebra lineal para Python, la raz√≥n por la que es tan importante para la ciencia de datos con Python es que casi todas las bibliotecas del ecosistema PyData se basan en NumPy como uno de sus principales componentes b√°sicos.

Numpy tambi√©n es incre√≠blemente r√°pido, ya que tiene enlaces a bibliotecas C. Para obtener m√°s informaci√≥n sobre por qu√© querr√≠a usar Arrays en lugar de listas, consulte esta excelente [StackOverflow post](http://stackoverflow.com/questions/993984/why-numpy-instead-of-python-lists).

Solo aprenderemos los conceptos b√°sicos de NumPy, ¬°para comenzar necesitamos instalarlo!


## Instrucciones de instalaci√≥n

**Se recomienda encarecidamente que instale Python utilizando la distribuci√≥n de Anaconda para asegurarse de que todas las dependencias subyacentes (como las bibliotecas de √Ålgebra lineal) se sincronicen con el uso de una instalaci√≥n de conda. Si tiene Anaconda, instale NumPy yendo a su terminal o s√≠mbolo del sistema y escribiendo:**
    
    conda install numpy
    
**Si no tiene Anaconda y no puede instalarlo, consulte [Numpy's official documentation on various installation instructions.](http://docs.scipy.org/doc/numpy-1.10.1/user/install.html)**

- Cuando importamos un paquete, podemos simplemente importarlo con su nombre completo. 
```python
import numpy
```

- Tambi√©n podemos darle un alias/identificador (un apodo corto)
```python
import numpy as np
```

In [1]:
import numpy as np

### Submodulos

- Los paquetes pueden estar hechos de piezas m√°s peque√±as llamadas subm√≥dulos. 
    - Los subm√≥dulos permiten que las funciones se organicen de manera √∫til.
    - Numpy tiene un subm√≥dulo llamado `np.random` que contiene funciones relacionadas con la generaci√≥n o selecci√≥n de datos en funci√≥n de la probabilidad aleatoria.



## Usando NumPy


In [2]:
# muestra el modulo
np.random

<module 'numpy.random' from 'C:\\Users\\gilbe\\Anaconda3\\lib\\site-packages\\numpy\\random\\__init__.py'>

In [3]:
## ¬øNo puedes elegir una opci√≥n de cena? ¬°Deja que numpy lo haga!
opciones_cena = ['Hamburguesa', 'Pollo', 'Lasa√±a', 'Filet Mignon']
np.random.choice(opciones_cena)

'Filet Mignon'

# ¬øPor qu√© NumPy?

- Las listas y tuplas de Python no son eficientes con grandes cantidades de datos.
- El √°lgebra lineal tiene muchas manipulaciones matem√°ticas √∫tiles que podemos usar.
- Necesitamos una forma de almacenar nuestros datos de forma lineal organizada.
>- La soluci√≥n: matrices numpy!

Tambi√©n, Intentar multiplicar dos listas juntas da lugar a un error y revela una debilidad cr√≠tica de las listas: **Las listas no pueden manejar c√°lculos.**

In [9]:
cantidad = [17, 40, 1]
precio = [2, 1, 10]

Si quisiera saber el monto total vendido, un calculo natural ser√≠a la multiplicacion del precio por la cantidad.

In [10]:
precio * cantidad

TypeError: can't multiply sequence by non-int of type 'list'

## Trabajar con arreglos NumPy


- Haz una matriz `calor√≠as_por_servicio` con las calor√≠as por porci√≥n:

|                      |  Calorias por Servicio |
|:---------------------|-----------------------:|
| Cheeseburger         |                    740 |
| Chicken Tikka Masala |                    240 |
| Lasagna              |                    408 |
| Filet Mignon         |                    301 |



In [4]:
## Haz una matriz con cu√°ntas calor√≠as hay en cada uno>?from www.calorieking.com
calorias_por_servicio = np.array([740, 240, 408, 301])
calorias_por_servicio

array([740, 240, 408, 301])


- Haz una matriz de `precios` con sus precios:

|                      |  Precio |
|:---------------------|--------:|
| Cheeseburger         |    8.5  |
| Chicken Tikka Masala |   12.5  |
| Lasagna              |   11    |
| Filet Mignon         |   15.75 |


    

In [5]:
# ¬øCu√°l es el precio? https://www.numbeo.com/food-prices/
precios = np.array([8.50, 12.50, 11.00, 15.75])
precios

array([ 8.5 , 12.5 , 11.  , 15.75])

### ¬øCu√°les ser√≠an nuestras calor√≠as totales si comi√©ramos:

- ¬ø2 porciones de lasa√±a, 1 filet mignon y 3 hamburguesas con queso?

>Total del pedido = la suma de todos los precios * n√∫mero de porciones ordenadas.
- Sugerencia: haga una matriz de `porciones`.

In [6]:
# ¬ø2 porciones de lasa√±a y 1 filet mignon y 3 hamburguesas con queso?
porciones = np.array([3,0,2,1])
porciones

array([3, 0, 2, 1])

In [7]:
## Calcular calor√≠as totales
np.sum(calorias_por_servicio * porciones)

3337

#### ¬øCu√°l ser√≠a nuestra factura total?

In [8]:
## calcular la factura total
np.sum(porciones * precios)

63.25

### ¬øY si decidimos agregar 2 √≥rdenes de Tikka Masala?

- Hmmm... ¬øQu√© √≠ndice era Pollo? ü§î

## üí° C√≥mo recordarnos los nombres/√≠ndice entero de cada elemento

- Haz un `arreglo_opciones` de los nombres de las opciones de cena:
    - 'Hamburguesa con queso', 'Pollo', 'Lasa√±a', 'Filet Mignon'



In [9]:
## las matrices pueden almacenar cadenas
arreglo_opciones = np.array(['Hamburguesa', 'Pollo', 'Lasa√±a', 'Filet Mignon'])
arreglo_opciones

array(['Hamburguesa', 'Pollo', 'Lasa√±a', 'Filet Mignon'], dtype='<U12')

#### Usando Enumerate 

- Podemos usar la funci√≥n `enumerate` para dividir cada opci√≥n de cena con su √≠ndice entero.


In [10]:
## ¬°No puedo recordar qu√© √≠ndice es qu√©!
for i, comida in enumerate(arreglo_opciones):
    print(f'{i}: {comida}')

0: Hamburguesa
1: Pollo
2: Lasa√±a
3: Filet Mignon


- ¬°Queremos reutilizar esto para poder envolverlo en una funci√≥n simple!

In [11]:
def reporte_comida():
    
    """Utiliza enumerate para imprimir el √≠ndice de cada elemento de la matriz"""
    for i, comida in enumerate(arreglo_opciones):
        print(f'{i}: {comida}')

### ¬øQu√© pasa si decidimos agregar 2 √≥rdenes de Pollo?

In [12]:
# Llamada de funci√≥n
reporte_comida()

0: Hamburguesa
1: Pollo
2: Lasa√±a
3: Filet Mignon


In [13]:
## use el √≠ndice para reemplazar el valor de pollo tikka masala con 2
porciones[1] = 2
porciones

array([3, 2, 2, 1])

In [14]:
# calcular factura total
(porciones * precios).sum()

88.25

In [15]:
np.sum(porciones * precios)

88.25

### ¬øQu√© pasar√≠a si hubiera promociones de happy hour con descuento?
- Las hamburguesas con queso y el filet mignon tienen un 25 % de descuento
> Sugerencia: haz una matriz de `descuentos`.

In [16]:
# Llamada de funci√≥n
reporte_comida()

0: Hamburguesa
1: Pollo
2: Lasa√±a
3: Filet Mignon


In [17]:
## descuentos
descuentos = np.array([.25, 0, 0, .25])
precios

array([ 8.5 , 12.5 , 11.  , 15.75])

In [18]:
## precios con descuentos
precios_descuento = precios - precios*descuentos
precios_descuento

array([ 6.375 , 12.5   , 11.    , 11.8125])

In [19]:
# sumatoria de descuentos
np.sum(precios_descuento * porciones).round(2)

77.94

## ¬øNo ser√≠a bueno...
>- si tuvi√©ramos una manera de agrupar TODA esta informaci√≥n sin memorizar √≠ndices que fuera realmente f√°cil de visualizar?
- Hmmm....ü§î - ¬°Un diccionario podr√≠a funcionar!

- Hacer un diccionario cena_data que contenga los datos de:
    - precios
    - calor√≠as por porci√≥n
    - descuentos
    - y porciones

### Diccionario

In [20]:
# Podr√≠amos usar un diccionario para Precio, Calor√≠as por porci√≥n, descuento, porciones
cena_data = {'Opciones de Cena': arreglo_opciones,
             'Precio': precios,
             'Calorias por Servicio': calorias_por_servicio,
             'Descuento': descuentos,
             'Porciones': porciones}
cena_data

{'Opciones de Cena': array(['Hamburguesa', 'Pollo', 'Lasa√±a', 'Filet Mignon'], dtype='<U12'),
 'Precio': array([ 8.5 , 12.5 , 11.  , 15.75]),
 'Calorias por Servicio': array([740, 240, 408, 301]),
 'Descuento': array([0.25, 0.  , 0.  , 0.25]),
 'Porciones': array([3, 2, 2, 1])}

- Hmmm, eso es **mejor** pero a√∫n es muy dif√≠cil ver los datos alineados.

## Pandas 

> üêº PANDAS AL RESCATE!

In [21]:
# Importa pandas
import pandas as pd

In [22]:
## hacer un marco de datos de nuestra cena_data
df = pd.DataFrame(cena_data)
df

Unnamed: 0,Opciones de Cena,Precio,Calorias por Servicio,Descuento,Porciones
0,Hamburguesa,8.5,740,0.25,3
1,Pollo,12.5,240,0.0,2
2,Lasa√±a,11.0,408,0.0,2
3,Filet Mignon,15.75,301,0.25,1


In [23]:
## calcular el total del pedido usando el marco de datos
np.sum((df['Precio'] - df['Precio']*df['Descuento']) * df['Porciones']).round(2)

77.94

### Los pandas est√°n construidos encima de Numpy

> Pandas est√° construido SOBRE NumPy y **por lo tanto, ¬°puede hacer muchas de las mismas cosas que las matrices numpy!**

In [24]:
## puede obtener los datos como una matriz usando .values
df.values

array([['Hamburguesa', 8.5, 740, 0.25, 3],
       ['Pollo', 12.5, 240, 0.0, 2],
       ['Lasa√±a', 11.0, 408, 0.0, 2],
       ['Filet Mignon', 15.75, 301, 0.25, 1]], dtype=object)

In [25]:
## ¬øCu√°l es el precio medio de nuestros alimentos?
round(df['Precio'].mean(), 2)
#round(columna, lugar al que desea redondear)

11.94

In [26]:
## ¬øCu√°ntas porciones pedimos en total?
df['Porciones'].sum()

8

# Asignaci√≥n: 

- Revisar y estudiar los notebooks: 0. Numpy y 1. Numpy, para obtener m√°s detalle sobre las funciones de NumPy

# Fin