# Manipulación de Datos con Numpy

- Python viene con muchas [Funciones integradas](https://docs.python.org/3/library/functions.html)
    - Por ejemplo: print, type, range, etc
- Pero **la mayor parte de la funcionalidad que se necesita en el día a día no está** en Python base.


- Podemos **descargar otras colecciones de funciones y clases, llamadas Paquetes** (A.K.A. Librería A.K.A Modulos)
    - Python tiene un índice de paquetes (PyPi) que es básicamente como una tienda de aplicaciones para Python. 

    - En una celda de código, podemos instalar cualquier paquete PyPi que necesitemos usando:
        - `!pip <package name>`

# NumPy 

NumPy (o Numpy) es una biblioteca de álgebra lineal para Python, la razón por la que es tan importante para la ciencia de datos con Python es que casi todas las bibliotecas del ecosistema PyData se basan en NumPy como uno de sus principales componentes básicos.

Numpy también es increíblemente rápido, ya que tiene enlaces a bibliotecas C. Para obtener más información sobre por qué querría usar Arrays en lugar de listas, consulte esta excelente [StackOverflow post](http://stackoverflow.com/questions/993984/why-numpy-instead-of-python-lists).

Solo aprenderemos los conceptos básicos de NumPy, ¡para comenzar necesitamos instalarlo!


## Instrucciones de instalación

**Se recomienda encarecidamente que instale Python utilizando la distribución de Anaconda para asegurarse de que todas las dependencias subyacentes (como las bibliotecas de Álgebra lineal) se sincronicen con el uso de una instalación de conda. Si tiene Anaconda, instale NumPy yendo a su terminal o símbolo del sistema y escribiendo:**
    
    conda install numpy
    
**Si no tiene Anaconda y no puede instalarlo, consulte [Numpy's official documentation on various installation instructions.](http://docs.scipy.org/doc/numpy-1.10.1/user/install.html)**

- Cuando importamos un paquete, podemos simplemente importarlo con su nombre completo. 
```python
import numpy
```

- También podemos darle un alias/identificador (un apodo corto)
```python
import numpy as np
```

In [1]:
import numpy as np

### Submodulos

- Los paquetes pueden estar hechos de piezas más pequeñas llamadas submódulos. 
    - Los submódulos permiten que las funciones se organicen de manera útil.
    - Numpy tiene un submódulo llamado `np.random` que contiene funciones relacionadas con la generación o selección de datos en función de la probabilidad aleatoria.



## Usando NumPy


In [2]:
# muestra el modulo
np.random

<module 'numpy.random' from 'C:\\Users\\gilbe\\Anaconda3\\lib\\site-packages\\numpy\\random\\__init__.py'>

In [3]:
## ¿No puedes elegir una opción de cena? ¡Deja que numpy lo haga!
opciones_cena = ['Hamburguesa', 'Pollo', 'Lasaña', 'Filet Mignon']
np.random.choice(opciones_cena)

'Filet Mignon'

# ¿Por qué NumPy?

- Las listas y tuplas de Python no son eficientes con grandes cantidades de datos.
- El álgebra lineal tiene muchas manipulaciones matemáticas útiles que podemos usar.
- Necesitamos una forma de almacenar nuestros datos de forma lineal organizada.
>- La solución: matrices numpy!

También, Intentar multiplicar dos listas juntas da lugar a un error y revela una debilidad crítica de las listas: **Las listas no pueden manejar cálculos.**

In [9]:
cantidad = [17, 40, 1]
precio = [2, 1, 10]

Si quisiera saber el monto total vendido, un calculo natural sería la multiplicacion del precio por la cantidad.

In [10]:
precio * cantidad

TypeError: can't multiply sequence by non-int of type 'list'

## Trabajar con arreglos NumPy


- Haz una matriz `calorías_por_servicio` con las calorías por porción:

|                      |  Calorias por Servicio |
|:---------------------|-----------------------:|
| Cheeseburger         |                    740 |
| Chicken Tikka Masala |                    240 |
| Lasagna              |                    408 |
| Filet Mignon         |                    301 |



In [4]:
## Haz una matriz con cuántas calorías hay en cada uno>?from www.calorieking.com
calorias_por_servicio = np.array([740, 240, 408, 301])
calorias_por_servicio

array([740, 240, 408, 301])


- Haz una matriz de `precios` con sus precios:

|                      |  Precio |
|:---------------------|--------:|
| Cheeseburger         |    8.5  |
| Chicken Tikka Masala |   12.5  |
| Lasagna              |   11    |
| Filet Mignon         |   15.75 |


    

In [5]:
# ¿Cuál es el precio? https://www.numbeo.com/food-prices/
precios = np.array([8.50, 12.50, 11.00, 15.75])
precios

array([ 8.5 , 12.5 , 11.  , 15.75])

### ¿Cuáles serían nuestras calorías totales si comiéramos:

- ¿2 porciones de lasaña, 1 filet mignon y 3 hamburguesas con queso?

>Total del pedido = la suma de todos los precios * número de porciones ordenadas.
- Sugerencia: haga una matriz de `porciones`.

In [6]:
# ¿2 porciones de lasaña y 1 filet mignon y 3 hamburguesas con queso?
porciones = np.array([3,0,2,1])
porciones

array([3, 0, 2, 1])

In [7]:
## Calcular calorías totales
np.sum(calorias_por_servicio * porciones)

3337

#### ¿Cuál sería nuestra factura total?

In [8]:
## calcular la factura total
np.sum(porciones * precios)

63.25

### ¿Y si decidimos agregar 2 órdenes de Tikka Masala?

- Hmmm... ¿Qué índice era Pollo? 🤔

## 💡 Cómo recordarnos los nombres/índice entero de cada elemento

- Haz un `arreglo_opciones` de los nombres de las opciones de cena:
    - 'Hamburguesa con queso', 'Pollo', 'Lasaña', 'Filet Mignon'



In [9]:
## las matrices pueden almacenar cadenas
arreglo_opciones = np.array(['Hamburguesa', 'Pollo', 'Lasaña', 'Filet Mignon'])
arreglo_opciones

array(['Hamburguesa', 'Pollo', 'Lasaña', 'Filet Mignon'], dtype='<U12')

#### Usando Enumerate 

- Podemos usar la función `enumerate` para dividir cada opción de cena con su índice entero.


In [10]:
## ¡No puedo recordar qué índice es qué!
for i, comida in enumerate(arreglo_opciones):
    print(f'{i}: {comida}')

0: Hamburguesa
1: Pollo
2: Lasaña
3: Filet Mignon


- ¡Queremos reutilizar esto para poder envolverlo en una función simple!

In [11]:
def reporte_comida():
    
    """Utiliza enumerate para imprimir el índice de cada elemento de la matriz"""
    for i, comida in enumerate(arreglo_opciones):
        print(f'{i}: {comida}')

### ¿Qué pasa si decidimos agregar 2 órdenes de Pollo?

In [12]:
# Llamada de función
reporte_comida()

0: Hamburguesa
1: Pollo
2: Lasaña
3: Filet Mignon


In [13]:
## use el índice para reemplazar el valor de pollo tikka masala con 2
porciones[1] = 2
porciones

array([3, 2, 2, 1])

In [14]:
# calcular factura total
(porciones * precios).sum()

88.25

In [15]:
np.sum(porciones * precios)

88.25

### ¿Qué pasaría si hubiera promociones de happy hour con descuento?
- Las hamburguesas con queso y el filet mignon tienen un 25 % de descuento
> Sugerencia: haz una matriz de `descuentos`.

In [16]:
# Llamada de función
reporte_comida()

0: Hamburguesa
1: Pollo
2: Lasaña
3: Filet Mignon


In [17]:
## descuentos
descuentos = np.array([.25, 0, 0, .25])
precios

array([ 8.5 , 12.5 , 11.  , 15.75])

In [18]:
## precios con descuentos
precios_descuento = precios - precios*descuentos
precios_descuento

array([ 6.375 , 12.5   , 11.    , 11.8125])

In [19]:
# sumatoria de descuentos
np.sum(precios_descuento * porciones).round(2)

77.94

## ¿No sería bueno...
>- si tuviéramos una manera de agrupar TODA esta información sin memorizar índices que fuera realmente fácil de visualizar?
- Hmmm....🤔 - ¡Un diccionario podría funcionar!

- Hacer un diccionario cena_data que contenga los datos de:
    - precios
    - calorías por porción
    - descuentos
    - y porciones

### Diccionario

In [20]:
# Podríamos usar un diccionario para Precio, Calorías por porción, descuento, porciones
cena_data = {'Opciones de Cena': arreglo_opciones,
             'Precio': precios,
             'Calorias por Servicio': calorias_por_servicio,
             'Descuento': descuentos,
             'Porciones': porciones}
cena_data

{'Opciones de Cena': array(['Hamburguesa', 'Pollo', 'Lasaña', 'Filet Mignon'], dtype='<U12'),
 'Precio': array([ 8.5 , 12.5 , 11.  , 15.75]),
 'Calorias por Servicio': array([740, 240, 408, 301]),
 'Descuento': array([0.25, 0.  , 0.  , 0.25]),
 'Porciones': array([3, 2, 2, 1])}

- Hmmm, eso es **mejor** pero aún es muy difícil ver los datos alineados.

## Pandas 

> 🐼 PANDAS AL RESCATE!

In [21]:
# Importa pandas
import pandas as pd

In [22]:
## hacer un marco de datos de nuestra cena_data
df = pd.DataFrame(cena_data)
df

Unnamed: 0,Opciones de Cena,Precio,Calorias por Servicio,Descuento,Porciones
0,Hamburguesa,8.5,740,0.25,3
1,Pollo,12.5,240,0.0,2
2,Lasaña,11.0,408,0.0,2
3,Filet Mignon,15.75,301,0.25,1


In [23]:
## calcular el total del pedido usando el marco de datos
np.sum((df['Precio'] - df['Precio']*df['Descuento']) * df['Porciones']).round(2)

77.94

### Los pandas están construidos encima de Numpy

> Pandas está construido SOBRE NumPy y **por lo tanto, ¡puede hacer muchas de las mismas cosas que las matrices numpy!**

In [24]:
## puede obtener los datos como una matriz usando .values
df.values

array([['Hamburguesa', 8.5, 740, 0.25, 3],
       ['Pollo', 12.5, 240, 0.0, 2],
       ['Lasaña', 11.0, 408, 0.0, 2],
       ['Filet Mignon', 15.75, 301, 0.25, 1]], dtype=object)

In [25]:
## ¿Cuál es el precio medio de nuestros alimentos?
round(df['Precio'].mean(), 2)
#round(columna, lugar al que desea redondear)

11.94

In [26]:
## ¿Cuántas porciones pedimos en total?
df['Porciones'].sum()

8

# Asignación: 

- Revisar y estudiar los notebooks: 0. Numpy y 1. Numpy, para obtener más detalle sobre las funciones de NumPy

# Fin