<center><h1>Introducción a Numpy</h1></center>

Aprenda a trabajar con datos utilizando la biblioteca NumPy.

## 1. Introducción.
Cuando se trata de programar en Python, las bibliotecas son donde está el verdadero poder. Al igual que los complementos o las extensiones, las bibliotecas desbloquean su código y lo hacen más eficiente. 

Con algunos fundamentos de la programación de Python, puede usar bibliotecas para análisis y visualización de datos de alto rendimiento. En esta lección, repasaremos una de las bibliotecas más fáciles de usar que existen: NumPy.

![numpy](figs/1.1-m289.gif)


NumPy es muy popular porque facilita la escritura de programas. Python es un lenguaje de alto nivel, lo que significa que no tiene que asignar memoria manualmente. Con los lenguajes de bajo nivel, debe definir la asignación y el procesamiento de la memoria, lo que le brinda más control sobre el rendimiento, pero también ralentiza su programación. NumPy le ofrece lo mejor de ambos mundos: rendimiento de procesamiento sin toda la asignación.

![numpy](figs/1.2-m289.gif)

En esta lección, aprenderemos a usar NumPy para trabajar con bases de datos, estadísticas, aprendizaje automático y más, con conjuntos de datos del mundo real, incluidos los datos de viajes en taxi de la ciudad de Nueva York.

Deberá sentirse cómodo con la programación en Python, pero aquí hay algunos puntos que puede esperar en esta lección:

- Cómo las operaciones vectorizadas aceleran su código
- Cómo seleccionar datos de NumPy ndarrays
- Cómo analizar datos usando métodos NumPy


## 2. Introducción a Ndarrays.

La estructura de datos central en NumPy es la matriz **ndarray** o **n-dimensional**. En programación, array describe una colección de elementos, similar a una lista. La palabra **n-dimensional** se refiere al hecho de que los *ndarrays* pueden tener una o más dimensiones. Comenzaremos trabajando con ndarrays unidimensionales (1D).

![onedimensional](figs/2.1-m289.svg)


Para usar la biblioteca NumPy, primero debemos importarla a nuestro entorno de Python. Es común importar NumPy usando el alias `np`:

```python
import numpy as np
```

Luego, podemos convertir directamente una lista en un ndarray usando el [constructor `numpy.array()`](https://numpy.org/doc/stable/reference/generated/numpy.ndarray.html). Para crear un ndarray 1D, podemos pasar una sola lista:

```python
data_ndarray = np.array([5, 10, 15, 20])
```

Usamos la sintaxis `np.array()` en lugar de `numpy.array()` debido a nuestro código `import numpy as np`. Cuando introduzcamos una nueva sintaxis, siempre usaremos el nombre completo para describirla, y deberá sustituirla por la forma abreviada donde corresponda.

### Ejercicio

Ejecute las instrucciones a continuación.

1. Importe `numpy` y asígnelo al alias `np`.
1. Cree un NumPy ndarray de la lista `[10, 20, 30]`. Asigne el resultado a la variable `data_ndarray`.

In [2]:
import numpy as np 
data_ndarray = np.array('10 20 30'.split(), dtype=int)
print(data_ndarray)

[10 20 30]


## 3. Comprender la vectorización.

Ndarrays y la biblioteca NumPy facilitan la manipulación y el análisis de datos. Exploremos por qué.

Usando Python estándar, podríamos considerar usar listas de listas para representar conjuntos de datos. Si bien las listas de listas funcionan con conjuntos de datos pequeños, no son muy buenas para conjuntos de datos más grandes.

Veamos un ejemplo que involucra dos columnas de datos. Cada fila contiene dos números que queremos sumar. Usando Python estándar, podríamos usar una estructura de lista de listas para almacenar nuestros datos, y podríamos usar bucles for para iterar sobre esos datos:

![vectorization](figs/3.1-m289.svg)

En cada iteración de nuestro bucle, Python convierte nuestro código en [código de bytes](https://en.wikipedia.org/wiki/Bytecode), y el código de bytes le pide al procesador de nuestra computadora que sume los dos números:

![bytecode](figs/3.2-m289.gif)

Nuestra computadora necesitaría ocho ciclos de procesador para procesar las ocho filas de nuestros datos.

La biblioteca NumPy aprovecha una característica del procesador llamada **Single Instruction Multiple Data (SIMD)** para procesar datos más rápido. SIMD permite que un procesador realice la misma operación en múltiples puntos de datos en un solo ciclo de procesador:

![simd](figs/3.3-m289.gif)

Como resultado, usar NumPy solo requeriría dos ciclos de procesador, lo que lo hace cuatro veces más rápido que Python estándar solo. Llamamos a este concepto de reemplazar bucles `for` con operaciones aplicadas a múltiples puntos de datos a la vez **vectorización**, y los ndarrays hacen posible la vectorización.

Exploraremos cómo la vectorización hace que nuestro código sea más rápido y fácil de ejecutar a lo largo de esta lección. 

Practicaremos la conversión de un conjunto de datos del mundo real de una lista de listas a un ndarray.

## 4. Datos de taxis y aeropuertos de la ciudad de Nueva York.

Hasta ahora, solo hemos practicado la creación de ndarrays unidimensionales, pero los ndarrays también pueden ser bidimensionales:

![twodimensional](figs/4.1-m289.svg)

Para explorar los ndarrays bidimensionales (2D), analizaremos los datos de viajes en taxi de la ciudad de Nueva York publicados por la ciudad de Nueva York.

<img src="figs/nyc_taxi.jpg" alt="taxis" height="200" width="400"/>

Solo trabajaremos con un subconjunto de estos datos: aproximadamente 90 000 viajes en taxi amarillo hacia y desde los aeropuertos de la ciudad de Nueva York entre enero y junio de 2016. A continuación se incluye información sobre las columnas seleccionadas del conjunto de datos:

- `pickup_year`: el año del viaje
- `pickup_month`: el mes del viaje (enero es `1`, diciembre es `12`)
- `pickup_day`: el día del mes del viaje
- `pickup_location_code`: el aeropuerto o <a href="https://en.wikipedia.org/wiki/Boroughs_of_New_York_City" target="_blank">borough</a> donde comenzó el viaje< /li>
- `dropoff_location_code`: el aeropuerto o distrito donde finalizó el viaje
- `trip_distance`: la distancia del viaje en millas
- `trip_length`: la duración del viaje en segundos
- `fare_amount`: la tarifa base del viaje, en dólares
- `total_amount`: el monto total cobrado al pasajero, incluidas todas las tarifas, peajes y propinas

Puede encontrar información sobre todas las columnas en el diccionario de datos [del conjunto de datos](nyc_taxi_data_dictionary.md).

Nuestros datos están en un [archivo CSV](https://en.wikipedia.org/wiki/Comma-separated_values) llamado `nyc_taxis.csv`. A continuación se muestran las primeras líneas de datos sin procesar en nuestro CSV (estamos mostrando solo las primeras cuatro columnas del archivo para que el formato sea más fácil de entender):

```
pickup_year,pickup_month,pickup_day,pickup_dayofweek
2016,1,1,5
2016,1,1,5
2016,1,1,5
2016,1,1,5
```
Puede notar que también podríamos representar los datos en forma de tabla:

<table class="dataframe">
<thead>
<tr>
<th>pickup_year</th>
<th>pickup_month</th>
<th>pickup_day</th>
<th>pickup_dayofweek</th>
<th>pickup_time</th>
<th>pickup_location_code</th>
<th>dropoff_location_code</th>
<th>trip_distance</th>
<th>trip_length</th>
<th>fare_amount</th>
<th>fees_amount</th>
<th>tolls_amount</th>
<th>tip_amount</th>
<th>total_amount</th>
<th>payment_type</th>
</tr>
</thead>
<tbody>
<tr>
<td>2016</td>
<td>1</td>
<td>1</td>
<td>5</td>
<td>0</td>
<td>2</td>
<td>4</td>
<td>21.00</td>
<td>2037</td>
<td>52.0</td>
<td>0.8</td>
<td>5.54</td>
<td>11.65</td>
<td>69.99</td>
<td>1</td>
</tr>
<tr>
<td>2016</td>
<td>1</td>
<td>1</td>
<td>5</td>
<td>0</td>
<td>2</td>
<td>1</td>
<td>16.29</td>
<td>1520</td>
<td>45.0</td>
<td>1.3</td>
<td>0.00</td>
<td>8.00</td>
<td>54.30</td>
<td>1</td>
</tr>
<tr>
<td>2016</td>
<td>1</td>
<td>1</td>
<td>5</td>
<td>0</td>
<td>2</td>
<td>6</td>
<td>12.70</td>
<td>1462</td>
<td>36.5</td>
<td>1.3</td>
<td>0.00</td>
<td>0.00</td>
<td>37.80</td>
<td>2</td>
</tr>
<tr>
<td>2016</td>
<td>1</td>
<td>1</td>
<td>5</td>
<td>0</td>
<td>2</td>
<td>6</td>
<td>8.70</td>
<td>1210</td>
<td>26.0</td>
<td>1.3</td>
<td>0.00</td>
<td>5.46</td>
<td>32.76</td>
<td>1</td>
</tr>
<tr>
<td>2016</td>
<td>1</td>
<td>1</td>
<td>5</td>
<td>0</td>
<td>2</td>
<td>6</td>
<td>5.56</td>
<td>759</td>
<td>17.5</td>
<td>1.3</td>
<td>0.00</td>
<td>0.00</td>
<td>18.80</td>
<td>2</td>
</tr>
</tbody>
</table>

¿Esto te parece familiar? Compare esta tabla con el diagrama del ndarray 2D que vimos anteriormente. Puede imaginarse los ndarrays 2D almacenando datos como esta tabla.

Para convertir el conjunto de datos en un ndarray 2D, primero usaremos [el módulo csv](https://docs.python.org/3/library/csv.html) integrado de Python para importar nuestro CSV como una "lista de listas". Luego, convertiremos la lista de listas en un ndarray. Usaremos nuevamente el constructor `numpy.array()`, pero para crear un ndarray 2D, pasaremos nuestra lista de listas en lugar de una sola lista:

```python
# our list of lists is stored as data_list
data_ndarray = np.array(data_list)
```
¡Convirtamos nuestra taxi CSV en un ndarray NumPy!

### Ejercicio

En la siguiente celda, hemos utilizado el módulo `csv` de Python para importar el archivo `nyc_taxis.csv` y convertirlo en una lista de listas que contienen valores flotantes.

1. Agrega una línea de código usando el constructor `numpy.array()` para convertir la variable `convert_taxi_list` en un NumPy ndarray.

2. Asigne el resultado a la variable nombre `taxi`.

In [4]:
import csv

# import nyc_taxi.csv as a list of lists
with open('nyc_taxis.csv', 'r') as f:
    header_taxi = [*next(csv.reader(f))]
    taxi_list = [*csv.reader(f)]

converted_taxi_list = [[float(element) for element in row] for row in taxi_list]

# start writing your code below this comment
taxi = np.array(converted_taxi_list)

print(taxi)

[[2.016e+03 1.000e+00 1.000e+00 ... 1.165e+01 6.999e+01 1.000e+00]
 [2.016e+03 1.000e+00 1.000e+00 ... 8.000e+00 5.430e+01 1.000e+00]
 [2.016e+03 1.000e+00 1.000e+00 ... 0.000e+00 3.780e+01 2.000e+00]
 ...
 [2.016e+03 6.000e+00 3.000e+01 ... 5.000e+00 6.334e+01 1.000e+00]
 [2.016e+03 6.000e+00 3.000e+01 ... 8.950e+00 4.475e+01 1.000e+00]
 [2.016e+03 6.000e+00 3.000e+01 ... 0.000e+00 5.484e+01 2.000e+00]]


## 5. Formas de matrices.
### Ejercicio

## 6. Seleccionar y dividir filas y elementos de Ndarrays.
### Ejercicio

## 7. Selección de columnas y rangos de corte personalizados.
### Ejercicio

## 8. Matemáticas vectoriales.
### Ejercicio

## 9. Matemáticas vectoriales (continuación).
### Ejercicio

## 10. Cálculo de estadísticas para matrices 1D.
### Ejercicio

## 11. Cálculo de estadísticas para matrices 1D (continuación).
### Ejercicio

## 12. Cálculo de estadísticas para arreglos 2D.
### Ejercicio