# Introducción a NumPy

**¿Qué es NumPy?**
* NumPy es una biblioteca para el lenguaje de programación Python, que soporta la creación y manipulación de arrays y matrices multidimensionales.
* Es una abreviatura de "Numerical Python".

**Importancia de NumPy en Data Science**
* Eficiencia en operaciones numéricas y manipulación de datos.
* Facilita la realización de cálculos matemáticos complejos
* Ampliamente utilizado para tareas de análisis de datos, debido a su velocidad y recursos de memoria optimizados.

**Importación de NumPy**
* NumPy se importa a nuestros cuadernos con el comando `import numpy as np`

In [2]:
import pandas as pd
import numpy as np

**NumPy** nos da acceso a una amplia gama de algoritmos matemáticos, y además nos proporciona un nuevo objeto, es decir, un nuevo tipo de datos, que son los **arrays**.

Por ahora nos vamos a concentrar en algunas cosas que podemos hacer con NumPy en nuestros datos de Pandas.

El principal aporte de NumPy a la ciencia de datos es su capacidad para realizar operaciones que van desde simples hasta muy complejas, y vamos a comenzar, por supuesto, por las simples. Incluso vamos a ver algunas operaciones que ya hemos visto cómo se realizan con Pandas, pero esta vez, será con NumPy.

In [9]:
ruta = r'C:\Users\migue\OneDrive\Documentos\Minería de Datos/Ciudades_Visitadas_Latinoamerica_2023.csv'

df = pd.read_csv(ruta)
df

Unnamed: 0,Ciudad,País,Población,Visitantes
0,Ciudad de México,México,9265833,21000000
1,Buenos Aires,Argentina,3059574,15000000
2,Río de Janeiro,Brasil,6748314,13000000
3,Lima,Perú,9756020,9000000
4,Bogotá,Colombia,7181663,8000000
5,Santiago de Chile,Chile,6199241,7500000
6,São Paulo,Brasil,12333146,20000000
7,La Habana,Cuba,2164182,4000000
8,Cancún,México,888124,5000000
9,Cartagena,Colombia,1036671,3000000


Imagina que quieres saber el **promedio de habitantes** que tienen todas estas ciudades sumadas. Eso ya lo sabes hacer con Pandas.

In [11]:
df['Población'].mean()

5863276.8

El problema es que este número tiene decimales, y yo quisiera que sea un número redondo. Numpy me puede ayudar con esto.

In [13]:
np.round(df['Población'].mean())

5863277.0

Numpy tambien puede ayudarme a encontrar el **valor mínimo** o **máximo** de una columna de mi DataFrame.

In [15]:
np.min(df['Visitantes'])

3000000

In [17]:
np.max(df['Visitantes'])

21000000

NumPy posee muchos métodos interesantes.

In [19]:
print(dir(np))



# Arrays

Además de brindarnos herramientas de algoritmos matemáticos muy poderosas, **NumPy** nos brinda un **nuevo tipo de datos** que es una estructura de datos, en realidad, y que se llama **array**.

In [4]:
array_1 = np.array([1, 2, 3, 4, 5])
array_1

array([1, 2, 3, 4, 5])

In [23]:
type(array_1)

numpy.ndarray

Puede que en este momento estés pensando "*Eso es una lista*". Bueno, la verdad que es muy parecido, pero el array de NumPy es **mucho más rápido** y **más poderoso**.

Para comparar la *velocidad* de un **array** versus una **lista**, tenemos que trabajar con objetos más grandes y pesados, donde la velocidad va a ser más evidente.

Para eso vamos a crear dos objetos nuevos (una lista y un array) que contengan **un millón de elementos**:

In [25]:
lista_millon = list(range(1000000))
array_millon = np.array(lista_millon)

In [27]:
type(lista_millon)

list

In [29]:
type(array_millon)

numpy.ndarray

In [31]:
import time

Para medir el tiempo, hemos tenido que importar en la primera celda de este cuaderno, una librería de python llamada `time`, que nos brinda algunas herramientas para medir el tiempo que toma en ejecutarse un determinado código.

Imaginemos que quiero obtener el **cuadrado** de cada número que hay en mis nuevos objetos. Estamos hablando de multiplicar al cuadrado un millón de números en cada uno de ellos. El objetivo de hacer esto, es para medir cuánto tiempo tarda la *lista*, y cuánto tarda el *array*, para ver **cuál es más eficiente**.

Para lograr eso, `time` me va a permitir crear marcas de tiempo antes y después de ejecutar mi código, y así poder ver cuánto ha durado su ejecución:

In [33]:
inicio_lista = time.time()

for i in lista_millon:
    i**2
    
fin_lista = time.time()

print("Tiempo de ejecución: ", fin_lista - inicio_lista)

Tiempo de ejecución:  0.1831190586090088


In [35]:
inicio_array = time.time()

array_millon ** 2
    
fin_array = time.time()

print("Tiempo de ejecución: ", fin_array - inicio_array)

Tiempo de ejecución:  0.0019996166229248047


# Tipos de Arrays

Vamos a profundizar en la principal **estructura de datos** en NumPy, que son los **arrays**.

Vamos a conocer los **dos tipos de array** que podemos crear, y cómo manipular estas estructuras.

Ya hemos conocido a los arrays de NumPy, y hemos visto que básicamente un array es:
* una **cuadrícula de valores**,
* que tienen que ser todos **del mismo tipo** (pueden ser integers, floats, pero todos del mismo tipo),
* y está **indexado**, o sea que tiene un índice, como la mayoría de las estructuras de datos que vimos hasta ahora.

In [8]:
import numpy as np

In [12]:
array = np.array([1, 2, 3])
array

array([1, 2, 3])

Este es un **array unidimensional**, porque tiene **una sola dimensión**. Tiene un **largo**.

In [14]:
array.shape

(3,)

Intentemos conocer la **forma** de este array. Utilicemos la propiedad `shape` que usábamos para conocer la forma de un DataFrame.

In [16]:
len(array)

3

Como puede ver, he pedido conocer el **largo** y el **alto** de mi array, pero solo me dice el largo, y no hay ninguna medida para el alto, porque no lo tiene. Solo tiene **una dimensión**, que es el largo.

Ahora creemos un **array de dos dimensiones**:

In [18]:
array_2d = np.array([[1, 2, 3],[4, 5, 6]]) # Para array multidimensionales debemos pasar una lista de listas
array_2d

array([[1, 2, 3],
       [4, 5, 6]])

Las dos *listas* que le he pasado, se han ordenado una arriba de la otra, y tenemos una especie de *tabla*, pero no es una tabla, es un **array de dos dimensiones**.

Voy a consultar el largo (`len`) de este array. ¿Voy a obtener **6**, debido a que tiene 6 elementos? ¿O tal vez debería obtener **3** ya que ese es el ancho de esta especie de *tabla*?

In [20]:
len(array_2d)

2

Este array tiene un **largo de 2**, a pesar de que sus elementos tienen 3 números cada uno. ¿Entonces por qué dice que tiene un largo de 2?

Porque en realidad este array tiene **2 elementos**, que son cada uno de los conjuntos de 3 números:
* Elemento #1: **[1, 2, 3]**
* Elemento #2: **[4, 5, 6]**


¿Y si consultamos su **forma**?

In [22]:
array_2d.shape

(2, 3)

Bueno, ahora podemos ver sus **dos dimensiones**. Nuestro array tiene:
* **2 unidades de alto**
* **3 unidades de largo**.

# Manipulación de Arrays
Veamos algunos métodos y estrategias que nos permiten manipular arrays en NumPy.

Algo que también podemos hacer es **concatenar** a nuestros arrays, del mismo modo en que hemos concatenado DataFrames con Pandas.

In [67]:
x = np.array([[1, 2, 3]])
y = np.array([[1, 2, 3]])
z = np.array([[1, 2, 3]])

In [69]:
array_conc = np.concatenate((x, y, z))
array_conc

array([[1, 2, 3],
       [1, 2, 3],
       [1, 2, 3]])

In [71]:
array_conc = np.concatenate((x, y, z), axis=1)
array_conc

array([[1, 2, 3, 1, 2, 3, 1, 2, 3]])

In [73]:
array_conc = np.concatenate((x, y, z), axis=0)
array_conc

array([[1, 2, 3],
       [1, 2, 3],
       [1, 2, 3]])

Como puedes ver, el argumento que hemos pasado a `concatenate()` es una lista de listas a concatenar, y esto a devuelto un **array** (porque lo hicimos con NumPy) **de una dimensión**.

Pero el método `concatenate()` de NumPy tiene un segundo argumento, que es el **"Eje"**, o **"Axis"**, que nos permite especificar a lo largo de qué eje será concatenado el resultado.

In [77]:
a = np.array([[1, 2], [3, 4]])
b = np.array([[5, 6], [7, 8]])
array = np.concatenate((a, b), axis=0)
array

array([[1, 2],
       [3, 4],
       [5, 6],
       [7, 8]])

In [79]:
a = np.array([[1, 2], [3, 4]])
b = np.array([[5, 6], [7, 8]])
array = np.concatenate((a, b), axis=1)
array

array([[1, 2, 5, 6],
       [3, 4, 7, 8]])

In [53]:
array_conc_2 = np.stack([x, y, z], axis=0) # Otra forma de concatenar
array_conc_2

array([[1, 2, 3],
       [1, 2, 3],
       [1, 2, 3]])

Hay algunas estrategias extra para manipular arrays, como por ejemplo **cambiar su forma**.

Para hacer eso, primero voy a tomar el último array que hemos creado y lo voy a alamacenar en la variable `array_concatenado`:

In [82]:
a = np.array([[1, 2], [3, 4]])
b = np.array([[5, 6], [7, 8]])
array_concatenado = np.concatenate((a, b), axis=0)
array_concatenado

array([[1, 2],
       [3, 4],
       [5, 6],
       [7, 8]])

Si quiero conocer la **forma** de este array.

In [84]:
array_concatenado.shape

(4, 2)

Es de **4 por 2**, porque tiene **cuatro filas** y **dos columnas**.

Pero voy a **cambiar su forma**, pidiéndole que se reorganice para ser un array de **2 filas** por **4 columnas**, usando el método `reshape()`:

In [86]:
array_reformado = array_concatenado.reshape(2, 4)
array_reformado

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

También puedo hacer cosas como **sumar arrays**:

In [88]:
array_suma = array_reformado + array_reformado
array_suma

array([[ 2,  4,  6,  8],
       [10, 12, 14, 16]])

O multiplicarlos

In [90]:
array_producto = array_reformado * array_reformado
array_producto

array([[ 1,  4,  9, 16],
       [25, 36, 49, 64]])

Básicamente puedes usar todos los operadores matemáticos que conocemos para hacer cálculos con arrays (ya sean uni o bidimensionales).

Un detalle específico en NumPy es cómo hacemos en este caso el cálculo de la **raíz cuadrada**, ya que es con un método especial de NumPy que se llama `sqrt()`, que significa **square root** (o *raíz cuadrada*).

In [92]:
raiz_cuadrada = np.sqrt(array_producto)
raiz_cuadrada

array([[1., 2., 3., 4.],
       [5., 6., 7., 8.]])

# Indexación y Segmentación de Arrays

Vamos a aprender cómo:
* **acceder a elementos específicos** de un array de NumPy a través de la **indexación**,
* cortar (o hacer **slicing**) a nuestros arrays para obtener subconjuntos
* usar **índices booleanos** para filtrar datos en los arrays.

### Indexar Arrays

En NumPy, puedes acceder a elementos específicos de un array de la misma manera que en las listas de Python, utilizando **índices**.

Para estos ejemplos voy a crear dos arrays: uno unidimensional y otro bidimensional.

In [94]:
array_1d = np.array([1, 2, 3, 4, 5])

In [98]:
array_2d = np.array([[1, 2, 3],
                    [4, 5, 6],
                    [7, 8, 9]])

¿Queremos acceder al **primer elemento** de un **array unidimensional**?

In [100]:
array_1d[0]

1

¿al último?

In [102]:
array_1d[-1]

5

Esto es lo mismo que hacemos con las listas. Pero veamos qué pasa si hago lo mismo con mi array de **dos dimensiones**:

In [106]:
array_2d

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [104]:
array_2d[0]

array([1, 2, 3])

Aquí lo que he obtenido es el primer elemento del array bidimensional, que es **la fila que se encuentra en el índice `0`**.

Entonces si se da el caso de que yo quiero utilizar solamente el **numero 6** de este array (y no toda la fila en que se encuentra el 6), primero tengo que indexar la posición de la fila, y luego la posición del elemento 6.

In [108]:
array_2d[1][2]

6

O también puedo escribirlo así… y es lo mismo.

In [110]:
array_2d[1, 2]

6

### Seleccionar Subconjuntos (Slicing)

Otra estrategia que ya conocemos en Python, y que también podemos aplicar con los arrays de NumPy, es el **slicing**, para seleccionar subconjuntos de datos.

Para un array de **una dimensión**, lo aplicamos exactamente igual que con las listas:

In [115]:
array_1d

array([1, 2, 3, 4, 5])

In [113]:
array_1d[1:4]

array([2, 3, 4])

Para arrays **bidimensionales**, puedes hacer slicing tanto en filas como en columnas.

Supongamos que quiero obtener la **segunda fila** completa:

In [117]:
array_2d

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [119]:
array_2d[ 1 , : ]

array([4, 5, 6])

Pero si quiero obtener los **dos últimos números** de esa fila:

In [121]:
array_2d[ 1 , 1:3]

array([5, 6])

También podemos usar el slicing para obtener **una columna completa**, por ejemplo la **columna del medio**:

In [123]:
array_2d[ : , 1]

array([2, 5, 8])

In [125]:
array_2d[ :2 , :2]

array([[1, 2],
       [4, 5]])

### Indexación Booleana (o también llamada Filtrado)

La indexación booleana nos permite seleccionar elementos de un array **que cumplan con una condición específica**.

Por ejemplo, quiero identificar qué números de mi array unidimensional son **mayores a 3**:

In [127]:
array_1d

array([1, 2, 3, 4, 5])

In [129]:
array_1d > 3

array([False, False, False,  True,  True])

In [131]:
array_1d[array_1d > 3]

array([4, 5])

O tal vez en mi array de dos dimensiones quiero ver **qué números son pares**:

In [134]:
array_2d

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [136]:
array_2d % 2 == 0

array([[False,  True, False],
       [ True, False,  True],
       [False,  True, False]])

In [138]:
array_2d[array_2d % 2 == 0]

array([2, 4, 6, 8])

La **indexación** y el **slicing** son herramientas poderosas en NumPy, ya que te permiten acceder y manipular datos de manera eficiente. 

La **indexación booleana**, en particular, es extremadamente útil para el análisis de datos, ya que permite filtrar datos según condiciones específicas.

# Forma y Estructura de Arrays

Vamos a entender cómo **cambiar la forma y el tamaño** de los arrays de NumPy, y para eso vamos a aprender a utilizar algunos métodos especiales.

Por un lado ya hemos visto que la propiedad `.shape` sirve para conocer la **forma** de un array.

In [140]:
array = np.array([1, 2, 3, 4 , 5, 6, 7, 8, 9])
array

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [142]:
array.shape

(9,)

Y también disponemos de `reshape()` que sirve para **modificar su forma**.

In [144]:
array_reformado = array.reshape(3, 3)
array_reformado

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

El método `transpose()` (que significa *transponer*), que se encarga de **voltear el array**, es decir, de cambiar las filas a columnas y las columnas a filas.

In [149]:
array_transpuesto = array_reformado.transpose()
array_transpuesto

array([[1, 4, 7],
       [2, 5, 8],
       [3, 6, 9]])

Por otro lado, para **convertir un array bidimensional en un array unidimensional**, tenemos el método `flatten()`.

`flatten()` significa "achatado".

In [152]:
array_unidim = array_transpuesto.flatten()
array_unidim

array([1, 4, 7, 2, 5, 8, 3, 6, 9])

Estos son métodos muy simples de usar, y esta capacidad de cambiar la forma y el tamaño de los arrays es fundamental en NumPy, ya que permite manipular y preparar datos para el análisis, la visualización y el modelado. Estas operaciones son eficientes y flexibles, y facilitan el trabajo con conjuntos de datos complejos.

# Operaciones Avanzadas y Funciones Universales con Arrays

Vamos a aprender varios recursos que nos van a permitir realizar operaciones más avanzadas con arrays.

Primero, el **broadcasting**, que es una estrategia que nos permite extender operaciones de un modo curioso pero muy eficiente.

Observa estos dos arrays, uno es unidimensional, y el otro es bidimensional:

In [154]:
array_1d = np.array([1, 2, 3])
array_1d

array([1, 2, 3])

In [158]:
array_2d = np.array([[0], [10], [20], [30]])
array_2d

array([[ 0],
       [10],
       [20],
       [30]])

A pesar de que el primero tiene una forma **horizontal** y el segundo **vertical**, voy a intentar sumarlos. Por favor, analiza el resultado para comprender de qué manera funciona el broadcasting.

In [160]:
broadcast_suma = array_1d + array_2d
broadcast_suma

array([[ 1,  2,  3],
       [11, 12, 13],
       [21, 22, 23],
       [31, 32, 33]])

Y a esto tambien lo podemos hacer con otras operaciones, como por ejemplo, la multiplicación.

In [162]:
broadcast_producto = array_1d * array_2d
broadcast_producto

array([[ 0,  0,  0],
       [10, 20, 30],
       [20, 40, 60],
       [30, 60, 90]])

### Funciones Universales (ufuncs)

Las funciones universales en Numpy, también conocidas como ufuncs son funciones que operan en arrays de NumPy, pero aplicándose **elemento por elemento**, de manera **vectorizada**, lo que las hace muy eficientes. Veamos algunos ejemplos.

Primero tenemos las **funciones Aritméticas** básicas.

El método `add()` sirve para realizar sumas vectorizadas.

In [166]:
a = np.array([1, 2, 3])
b = np.array([4, 5, 6])

In [170]:
array_suma = np.add(a, b)
array_suma

array([5, 7, 9])

In [172]:
array_suma_2 = a + b
array_suma_2

array([5, 7, 9])

Los nombres de las demás funciones aritméticas básicas son: 

In [131]:
# .substract(), .multiply(), .divide()

Ahora veamos algunas **funciones Matemáticas**.

Para conocer el **exponencial** de cada número de un array, puedo usar `exp()`.

In [176]:
a

array([1, 2, 3])

In [174]:
array_exp = np.exp(a)
array_exp

array([ 2.71828183,  7.3890561 , 20.08553692])

Tenemos `log()` para conocer el **logaritmo natural** (log cuya base es el número **e**) de cada número:

In [178]:
array_log = np.log(a)  # este es el logaritmo natural ("ln" en las calculadoras científicas)
array_log

array([0.        , 0.69314718, 1.09861229])

También puedes calcular el logaritmo natural para otras bases, como base de 2, o de 10, de esta manera:

In [180]:
array_log_10 = np.log10(a)  # este es el logaritmo base 10
array_log_10

array([0.        , 0.30103   , 0.47712125])

Y finalmente, dentro de las funciones matemáticas: `sqrt()`, que ya la vimos antes, y que sirve para conocer la **raíz cuadrada** de cada elemento de un array:

In [182]:
array_raiz_cuadr = np.sqrt(a)
array_raiz_cuadr

array([1.        , 1.41421356, 1.73205081])

Hay muchas más **funciones universales**, como las trigonométricas, las estadísticas, las lógicas, hiperbólicas, y otras más.

Como siempre insisto en que lo importante no es saberse de memoria todas las cosas que existen en Python, porque es imposible, sino sólo saber que existen para luego saber dónde y cómo buscarlas en caso de que las necesites.

| Categoría                | Función       | Descripción Breve                                               |
|--------------------------|---------------|-----------------------------------------------------------------|
| **Aritméticas**          | `add`         | Suma elemento a elemento de dos arrays.                         |
|                          | `subtract`    | Resta elemento a elemento de dos arrays.                        |
|                          | `multiply`    | Multiplica elemento a elemento de dos arrays.                   |
|                          | `divide`      | Divide elemento a elemento de dos arrays.                       |
|                          | `negative`    | Cambia el signo a los elementos de un array.                    |
|                          | `power`       | Eleva los elementos de un array a las potencias de otro array.  |
|                          | `mod`         | Calcula el módulo elemento a elemento entre dos arrays.         |
| **Trigonométricas**      | `sin`         | Seno de los elementos del array.                                |
|                          | `cos`         | Coseno de los elementos del array.                              |
|                          | `tan`         | Tangente de los elementos del array.                            |
|                          | `arcsin`      | Arcoseno de los elementos del array.                            |
|                          | `arccos`      | Arcocoseno de los elementos del array.                          |
|                          | `arctan`      | Arcotangente de los elementos del array.                        |
| **Hiperbólicas**         | `sinh`        | Seno hiperbólico de los elementos del array.                    |
|                          | `cosh`        | Coseno hiperbólico de los elementos del array.                  |
|                          | `tanh`        | Tangente hiperbólica de los elementos del array.                |
|                          | `arcsinh`     | Arcoseno hiperbólico de los elementos del array.                |
|                          | `arccosh`     | Arcocoseno hiperbólico de los elementos del array.              |
|                          | `arctanh`     | Arcotangente hiperbólica de los elementos del array.            |
| **Exponencial y Logaritmo** | `exp`      | Exponencial de los elementos del array.                         |
|                          | `log`         | Logaritmo natural de los elementos del array.                   |
|                          | `log2`        | Logaritmo base 2 de los elementos del array.                    |
|                          | `log10`       | Logaritmo base 10 de los elementos del array.                   |
|                          | `expm1`       | `exp(x) - 1` para todos los elementos del array.                |
|                          | `log1p`       | `log(1 + x)` para todos los elementos del array.                |
| **Estadísticas**         | `sum`         | Suma de elementos en el array.                                  |
|                          | `prod`        | Producto de elementos en el array.                              |
|                          | `mean`        | Media de elementos en el array.                                 |
|                          | `std`         | Desviación estándar de los elementos del array.                 |
|                          | `var`         | Varianza de los elementos en el array.                          |
|                          | `min`         | Mínimo de los elementos del array.                              |
|                          | `max`         | Máximo de los elementos del array.                              |
| **Comparación**          | `greater`     | Comparación elemento a elemento (mayor que) entre dos arrays.   |
|                          | `less`        | Comparación elemento a elemento (menor que) entre dos arrays.   |
|                          | `equal`       | Comparación elemento a elemento (igual) entre dos arrays.       |
|                          | `not_equal`   | Comparación elemento a elemento (no igual) entre dos arrays.    |
|                          | `greater_equal` | Comparación elemento a elemento (mayor o igual) entre dos arrays. |
|                          | `less_equal`  | Comparación elemento a elemento (menor o igual) entre dos arrays. |

Este listado no es exhaustivo ya que existe una gran cantidad, y creo que no sería practico incluir aquí algunas funciones que son tan específicas que harían que esta tabla deje de ser práctica.

En caso de que quieras conocer la lista completa, puedes hacerlo visitando [este enlace](https://numpy.org/doc/stable/reference/ufuncs.html) hacia la documentación oficial de NumPy.

# Tratamiento de Datos Faltantes con NumPy

La **limpieza de datos** es un tema que ya hemos abordado en Pandas, por lo que no es necesario volver a destacar su importancia. Uno de los aspectos más delicados de la limpieza de datos, como hemos visto, es cómo **tratar a los datos faltantes**.

Volveremos a retomar ese tema, pero esta vez para aprender cómo lo hacemos **con NumPy**, con los métodos que esta librería dispone para **manejar**, **identificar** y **sustituir datos faltantes**.

En NumPy, los datos faltantes suelen representarse como `np.nan` (que significa *Not a Number*).

Veamos cómo crearíamos un dato faltante en un array, por si quisieramos reservar un lugar para un elemento faltante pero que no podemos representar con cero.

In [184]:
array = np.array([1, 2, np.nan, 4, 5])
array

array([ 1.,  2., nan,  4.,  5.])

Para comprobar la presencia de `NaN` en un array, lo podemos hacer usando la función `np.isnan()`.

In [186]:
np.isnan(array)

array([False, False,  True, False, False])

Ahora hablemos sobre cómo podemos manejar a los elementos `NaN` en cálculos. Supongamos que quiero conocer el **promedio** de los números del array, usando la función `mean()`.

In [188]:
np.mean(array)

nan

Las operaciones matemáticas estándar aplicadas sobre arrays que contienen elementos `NaN`, van a terminar devolviendo `NaN`.

NumPy, habiendo previsto esto, también nos ofrece funciones que ignoran `NaN`.

In [192]:
array

array([ 1.,  2., nan,  4.,  5.])

In [190]:
np.nanmean(array)

3.0

NumPy ofrece varias **funciones** que están diseñadas específicamente para **ignorar los valores NaN** (Not a Number) en los cálculos.

Estas funciones son extremadamente útiles en el análisis de datos, ya que permiten realizar cálculos estadísticos y matemáticos sin que los valores faltantes o indefinidos distorsionen los resultados. Algunas de estas funciones son:

| Función        | Descripción                                                                           |
|----------------|---------------------------------------------------------------------------------------|
| `np.nanmean`   | Calcula la media de un array ignorando los NaN.                                       |
| `np.nanmedian` | Calcula la mediana de un array ignorando los NaN.                                     |
| `np.nansum`    | Calcula la suma de los elementos de un array, ignorando los NaN.                      |
| `np.nanmax`    | Encuentra el valor máximo en un array, ignorando los NaN.                             |
| `np.nanmin`    | Encuentra el valor mínimo en un array, ignorando los NaN.                             |
| `np.nanstd`    | Calcula la desviación estándar de un array, ignorando los NaN.                        |
| `np.nanvar`    | Calcula la varianza de un array, ignorando los NaN.                                   |
| `np.nanargmax` | Devuelve los índices de los valores máximos a lo largo de un eje, ignorando los NaN.  |
| `np.nanargmin` | Devuelve los índices de los valores mínimos a lo largo de un eje, ignorando los NaN.  |
| `np.nancumsum` | Calcula la suma acumulativa de los elementos a lo largo de un eje específico, ignorando los NaN. |
| `np.nancumprod`| Calcula el producto acumulativo de los elementos a lo largo de un eje específico, ignorando los NaN. |

Una estrategia común en el manejo de datos faltantes, es sustituir `NaN` por otro valor, como el cero, o el promedio o la mediana del array. Esto lo podemos hacer con el método `where()`, que en inglés significa *"donde"*, y que es una especie de mezcla de loop for y de estructura de control if, porque lo que hace es pasar por cada elemento del array, y dice *"allí donde se cumple esta condición haz esto, y allí donde no se cumple la condición, haz esto otro"*.

Entonces si queremos reemplazar los `NaN` por `cero`:

In [194]:
array

array([ 1.,  2., nan,  4.,  5.])

In [196]:
array_con_0 = np.where(np.isnan(array), 0, array)
array_con_0

array([1., 2., 0., 4., 5.])

Otra manera de hacerlo:

In [198]:
array2_con_0 = np.array([1, 2, np.nan, 4, 5])
array2_con_0

array([ 1.,  2., nan,  4.,  5.])

In [200]:
array2_con_0[np.isnan(array2_con_0)] = 0
array2_con_0

array([1., 2., 0., 4., 5.])

Si en vez de `0`, queremos reemplazar nuestros `NaN` con el **promedio** de todos los números del array, podemos hacerlo de esta manera:

In [202]:
promedio = np.nanmean(array)
promedio

3.0

In [204]:
array_con_promedio = np.where(np.isnan(array), promedio, array)
array_con_promedio

array([1., 2., 3., 4., 5.])

Otra manera de hacerlo:

In [206]:
array2_con_promedio = np.array([1, 2, np.nan, 4, 5])
array2_con_promedio

array([ 1.,  2., nan,  4.,  5.])

In [208]:
array2_con_promedio[np.isnan(array2_con_promedio)] = np.nanmean(array2_con_promedio)
array2_con_promedio

array([1., 2., 3., 4., 5.])

Veremos como **eliminar los valores no válidos**, porque muchas veces, puede que sea eso lo que queramos hacer en arrays que contienen `NaN`.

Para hacer esto, técnicamente vamos a estar creando un nuevo array donde esos elementos ya no van a estar. Es decir que los vamos a **filtrar**.

Primero veamos cómo creamos un nuevo array que solo contiene los valores `NaN` usando el método `isnan()`:

In [210]:
array

array([ 1.,  2., nan,  4.,  5.])

In [216]:
np.isnan(array)

array([False, False,  True, False, False])

In [214]:
array_filtrado = array[np.isnan(array)]
array_filtrado

array([nan])

Si hago esto, estoy filtrando para que me queden solo los valores NaN, pero si antes coloco el símbolo de tilde invertida ~ (*Alt + 126*) , logro que me quede exactamente lo contrario: los valores que no son NaN.

In [218]:
array_filtrado = array[~np.isnan(array)]
array_filtrado

array([1., 2., 4., 5.])

En conclusión, NumPy nos proporciona suficientes y muy eficientes herramientas para identificar, manejar y sustituir valores `NaN`, lo que nos permite mantener la integridad de nuestros análisis.

# Importación y Exportación de Datos con NumPy

Vamos a aprender cómo importar datos desde archivos externos para cargarlos en nuestros arrays de NumPy, y también vamos a aprender el proceso inverso: cómo exportar nuestros arrays de NumPy hacia archivos externos, como Excel o csv.

NumPy tiene herramientas que facilitan la importación de datos desde varios tipos de archivos, y es bastante similar a como lo hacemos con Pandas.

In [7]:
import numpy as np
import pandas as pd

In [5]:
ruta = r'C:\Users\migue\OneDrive\Documentos\Minería de Datos/medallas.csv'

Ahora que tenemos nuestra ruta cargada, vamos a usar un método de NumPy que se llama `genfromtxt()`, que se podría traducir más o menos como "**gen**erar desde un texto". Este método es parecido a `read_csv()` de Pandas, pero tiene algunas particularidades.

Lo voy a aplicar tal cual como lo haría con `read_csv()` (colocando solo la ruta del archivo), para comenzar desde allí. Recibiremos un mensaje de error.

In [10]:
array = np.genfromtxt(ruta)
array

ValueError: Some errors were detected !
    Line #15 (got 2 columns instead of 1)
    Line #17 (got 2 columns instead of 1)
    Line #20 (got 2 columns instead of 1)
    Line #22 (got 2 columns instead of 1)
    Line #24 (got 2 columns instead of 1)
    Line #27 (got 4 columns instead of 1)
    Line #36 (got 2 columns instead of 1)
    Line #39 (got 3 columns instead of 1)
    Line #44 (got 4 columns instead of 1)
    Line #63 (got 2 columns instead of 1)
    Line #65 (got 2 columns instead of 1)
    Line #70 (got 2 columns instead of 1)
    Line #72 (got 3 columns instead of 1)
    Line #73 (got 3 columns instead of 1)
    Line #74 (got 4 columns instead of 1)
    Line #77 (got 2 columns instead of 1)
    Line #78 (got 2 columns instead of 1)
    Line #82 (got 2 columns instead of 1)
    Line #86 (got 3 columns instead of 1)

Estamos obteniendo un mensaje de error que nos muestra un montón de alertas. Eso es porque hay que tener en cuenta una cosa muy importante: aquí no estamos guardando nuestros datos en un **DataFrame** de Pandas, sino en un **array** de NumPy, que son dos cosas muy diferentes.

En primer lugar hay que considerar que los **arrays** solo pueden contener un solo tipo de datos a la vez, por lo que se genera un conflicto con nuestro archivo de origen, ya que contiene **tanto números como texto**, por lo que no podemos meter esa información dentro de un array.

Por esa razón, para poder lograr nuestro objetivo, vamos a tener que trabajar con los parámetros del método `genfromtxt()`, para poder adecuarlo a nuestras necesidades.

En primer lugar, `genfromtxt()` requiere que le específiquemos qué tipo de delimitador tienen nuestros datos.

In [12]:
array = np.genfromtxt(ruta, delimiter=',')
array

array([[ nan,  nan,  nan,  nan,  nan],
       [ nan,   1.,   2.,   3.,  nan],
       [ nan,   2.,   2.,   4.,  nan],
       [ 17.,   7.,  22.,  46.,  nan],
       [  1.,   1.,   5.,   7.,  nan],
       [ nan,   3.,   4.,   7.,  nan],
       [  2.,  nan,  nan,   2.,  nan],
       [ nan,   1.,  nan,   1.,  nan],
       [  1.,   3.,   3.,   7.,  nan],
       [  3.,   1.,   3.,   7.,  nan],
       [  1.,  nan,  nan,   1.,  nan],
       [ nan,  nan,   1.,   1.,  nan],
       [  7.,   6.,   8.,  21.,  nan],
       [  3.,   1.,   2.,   6.,  nan],
       [ nan,  nan,   1.,   1.,  nan],
       [  7.,   6.,  11.,  24.,  nan],
       [  2.,   4.,   6.,  12.,  nan],
       [ nan,   4.,   1.,   5.,  nan],
       [  3.,   3.,   2.,   8.,  nan],
       [ nan,  nan,   1.,   1.,  nan],
       [  7.,   3.,   5.,  15.,  nan],
       [  4.,   4.,   3.,  11.,  nan],
       [  3.,   4.,   4.,  11.,  nan],
       [ nan,   3.,   2.,   5.,  nan],
       [  2.,   1.,  nan,   3.,  nan],
       [  1.,   1.,   4.,

Ahora ya no recibimos un mensaje de error, pero nuestros datos están repletos de valores `NaN`. Esto lo podemos atender con el parámetro `filling_values`.

In [14]:
array = np.genfromtxt(ruta, delimiter=',', filling_values=0)
array

array([[  0.,   0.,   0.,   0.,   0.],
       [  0.,   1.,   2.,   3.,   0.],
       [  0.,   2.,   2.,   4.,   0.],
       [ 17.,   7.,  22.,  46.,   0.],
       [  1.,   1.,   5.,   7.,   0.],
       [  0.,   3.,   4.,   7.,   0.],
       [  2.,   0.,   0.,   2.,   0.],
       [  0.,   1.,   0.,   1.,   0.],
       [  1.,   3.,   3.,   7.,   0.],
       [  3.,   1.,   3.,   7.,   0.],
       [  1.,   0.,   0.,   1.,   0.],
       [  0.,   0.,   1.,   1.,   0.],
       [  7.,   6.,   8.,  21.,   0.],
       [  3.,   1.,   2.,   6.,   0.],
       [  0.,   0.,   1.,   1.,   0.],
       [  7.,   6.,  11.,  24.,   0.],
       [  2.,   4.,   6.,  12.,   0.],
       [  0.,   4.,   1.,   5.,   0.],
       [  3.,   3.,   2.,   8.,   0.],
       [  0.,   0.,   1.,   1.,   0.],
       [  7.,   3.,   5.,  15.,   0.],
       [  4.,   4.,   3.,  11.,   0.],
       [  3.,   4.,   4.,  11.,   0.],
       [  0.,   3.,   2.,   5.,   0.],
       [  2.,   1.,   0.,   3.,   0.],
       [  1.,   1.,   4.,

Ahora ya no tenemos valores `NaN`, pero si observamos bien: la primera fila del array contiene puros ceros, y esto es porque en realidad lo que había aquí eran los títulos de las columnas.

Vamos a ayudar a `getfromtxt()` a eliminarlas, diciéndole que ignore los encabezados de columna, ya que no tiene sentido tener ceros ahí.

In [16]:
array = np.genfromtxt(ruta, delimiter=',', filling_values=0, skip_header=1)
array

array([[  0.,   1.,   2.,   3.,   0.],
       [  0.,   2.,   2.,   4.,   0.],
       [ 17.,   7.,  22.,  46.,   0.],
       [  1.,   1.,   5.,   7.,   0.],
       [  0.,   3.,   4.,   7.,   0.],
       [  2.,   0.,   0.,   2.,   0.],
       [  0.,   1.,   0.,   1.,   0.],
       [  1.,   3.,   3.,   7.,   0.],
       [  3.,   1.,   3.,   7.,   0.],
       [  1.,   0.,   0.,   1.,   0.],
       [  0.,   0.,   1.,   1.,   0.],
       [  7.,   6.,   8.,  21.,   0.],
       [  3.,   1.,   2.,   6.,   0.],
       [  0.,   0.,   1.,   1.,   0.],
       [  7.,   6.,  11.,  24.,   0.],
       [  2.,   4.,   6.,  12.,   0.],
       [  0.,   4.,   1.,   5.,   0.],
       [  3.,   3.,   2.,   8.,   0.],
       [  0.,   0.,   1.,   1.,   0.],
       [  7.,   3.,   5.,  15.,   0.],
       [  4.,   4.,   3.,  11.,   0.],
       [  3.,   4.,   4.,  11.,   0.],
       [  0.,   3.,   2.,   5.,   0.],
       [  2.,   1.,   0.,   3.,   0.],
       [  1.,   1.,   4.,   6.,   0.],
       [ 39.,  41.,  33.,

Y por último, los números se han cargado como **floats**, porque eso es lo que hace `genfromtxt()` por defecto. Pero por supuesto podemos modificar esto con el parámetro `dtype`:

In [19]:
array = np.genfromtxt(ruta, delimiter=',', filling_values=0, skip_header=1, dtype=int)
array

array([[  0,   1,   2,   3,   0],
       [  0,   2,   2,   4,   0],
       [ 17,   7,  22,  46,   0],
       [  1,   1,   5,   7,   0],
       [  0,   3,   4,   7,   0],
       [  2,   0,   0,   2,   0],
       [  0,   1,   0,   1,   0],
       [  1,   3,   3,   7,   0],
       [  3,   1,   3,   7,   0],
       [  1,   0,   0,   1,   0],
       [  0,   0,   1,   1,   0],
       [  7,   6,   8,  21,   0],
       [  3,   1,   2,   6,   0],
       [  0,   0,   1,   1,   0],
       [  7,   6,  11,  24,   0],
       [  2,   4,   6,  12,   0],
       [  0,   4,   1,   5,   0],
       [  3,   3,   2,   8,   0],
       [  0,   0,   1,   1,   0],
       [  7,   3,   5,  15,   0],
       [  4,   4,   3,  11,   0],
       [  3,   4,   4,  11,   0],
       [  0,   3,   2,   5,   0],
       [  2,   1,   0,   3,   0],
       [  1,   1,   4,   6,   0],
       [ 39,  41,  33, 113,   0],
       [  1,   0,   1,   2,   0],
       [  1,   1,   2,   4,   0],
       [  1,   0,   1,   2,   0],
       [  0,  

In [23]:
# Vamos a eliminar la última columna del array (correspondiente a los 'Paises' del conjunto de datos)

array_sin_col = array[:,:-1]

array_sin_col

array([[  0,   1,   2,   3],
       [  0,   2,   2,   4],
       [ 17,   7,  22,  46],
       [  1,   1,   5,   7],
       [  0,   3,   4,   7],
       [  2,   0,   0,   2],
       [  0,   1,   0,   1],
       [  1,   3,   3,   7],
       [  3,   1,   3,   7],
       [  1,   0,   0,   1],
       [  0,   0,   1,   1],
       [  7,   6,   8,  21],
       [  3,   1,   2,   6],
       [  0,   0,   1,   1],
       [  7,   6,  11,  24],
       [  2,   4,   6,  12],
       [  0,   4,   1,   5],
       [  3,   3,   2,   8],
       [  0,   0,   1,   1],
       [  7,   3,   5,  15],
       [  4,   4,   3,  11],
       [  3,   4,   4,  11],
       [  0,   3,   2,   5],
       [  2,   1,   0,   3],
       [  1,   1,   4,   6],
       [ 39,  41,  33, 113],
       [  1,   0,   1,   2],
       [  1,   1,   2,   4],
       [  1,   0,   1,   2],
       [  0,   0,   2,   2],
       [  1,  12,  11,  33],
       [  2,   5,   1,   8],
       [  1,  11,  16,  37],
       [  0,   0,   1,   1],
       [ 22,  

In [25]:
df_desde_np = pd.DataFrame(array_sin_col)
df_desde_np

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,0,2,2,4
2,17,7,22,46
3,1,1,5,7
4,0,3,4,7
...,...,...,...,...
88,0,1,0,1
89,2,1,1,4
90,1,6,12,19
91,3,0,2,5


In [27]:
df_desde_np_columnas = pd.DataFrame(array_sin_col, columns=['Oro', 'Plata', 'Bronce', 'Total'])
df_desde_np_columnas

Unnamed: 0,Oro,Plata,Bronce,Total
0,0,1,2,3
1,0,2,2,4
2,17,7,22,46
3,1,1,5,7
4,0,3,4,7
...,...,...,...,...
88,0,1,0,1
89,2,1,1,4
90,1,6,12,19
91,3,0,2,5


En un array de NumPy, todos los elementos deben ser del mismo tipo de dato. Esto es una de las principales diferencias entre un array de NumPy y una lista de Python, que puede contener diferentes tipos de datos.

**Array Homogéneo:** 

Los arrays de NumPy están diseñados para ser eficientes en términos de uso de memoria y cálculos. Para lograr esto, todos los elementos dentro de un array de NumPy deben ser del mismo tipo de dato (por ejemplo, todos enteros, todos flotantes, todos strings, etc.).

**Tipado en Arrays de NumPy:**

Cuando creas un array de NumPy con diferentes tipos de datos, NumPy convertirá automáticamente los valores para que sean del mismo tipo de dato.
NumPy usa un tipo de dato más general que puede abarcar a todos los elementos del array. Por ejemplo:

- Si mezclas enteros y flotantes, NumPy convierte todos los valores a flotantes.
- Si mezclas números y strings, NumPy convierte todos los valores a strings.

Al establecer **dtype=None**, NumPy intenta inferir automáticamente el tipo de dato más adecuado para cada columna. Sin embargo, si encuentra una mezcla de tipos de datos en una misma columna (por ejemplo, números y strings), opta por convertir todos los valores a strings para mantener la homogeneidad en el array.

En la siguiente línea de código, notamos que como hay tanto números como nombres de países (strings), NumPy convierte todos los elementos del array a cadenas de texto (tipo string) para evitar inconsistencias en los tipos.

In [29]:
array_nuevo = np.genfromtxt(ruta, delimiter=',', dtype=None, encoding=None)
array_nuevo

array([['Oro', 'Plata', 'Bronce', 'Total', 'Pais'],
       ['', '1', '2', '3', 'Argentina'],
       ['', '2', '2', '4', 'Armenia'],
       ['17', '7', '22', '46', 'Australia'],
       ['1', '1', '5', '7', 'Austria'],
       ['', '3', '4', '7', 'Azerbaijan'],
       ['2', '', '', '2', 'Bahamas'],
       ['', '1', '', '1', 'Bahrain'],
       ['1', '3', '3', '7', 'Belarus'],
       ['3', '1', '3', '7', 'Belgium'],
       ['1', '', '', '1', 'Bermuda'],
       ['', '', '1', '1', 'Botswana'],
       ['7', '6', '8', '21', 'Brazil'],
       ['3', '1', '2', '6', 'Bulgaria'],
       ['', '', '1', '1', 'Burkina Faso'],
       ['7', '6', '11', '24', 'Canada'],
       ['2', '4', '6', '12', 'Chinese Taipei'],
       ['', '4', '1', '5', 'Colombia'],
       ['3', '3', '2', '8', 'Croatia'],
       ['', '', '1', '1', "Cie d'Ivoire"],
       ['7', '3', '5', '15', 'Cuba'],
       ['4', '4', '3', '11', 'Czech Republic'],
       ['3', '4', '4', '11', 'Denmark'],
       ['', '3', '2', '5', 'Dominican Republi

Todo esto nos ha dado herramientas para importar datos externos dentro de un array.

¿Pero que tal si lo que queremos es exportar nuestros arrays de NumPy para guardarlos en archivos externos?.

In [33]:
array_ejemplo = np.array([[1, 2, 3],
                          [4, 5, 6]])
array_ejemplo

array([[1, 2, 3],
       [4, 5, 6]])

Ahora voy a crear la ruta de salida (es decir, dónde quiero que se guarde mi nuevo archivo):

In [35]:
ruta = r'C:\Users\migue\OneDrive\Documentos\Minería de Datos\30Abr/arraynp.csv'

Y a continuación voy a aplicar el método `savetxt()` para exportarlo.

En este caso necesitaré brindarle tres argumentos a `savetxt()`:
* la ruta de destino
* el array que quiero guardar en ese archivo
* y ya que quiero crear un archivo .csv, debo informarle qué delimitador quiero usar

In [37]:
np.savetxt(ruta, 
          array_ejemplo,
          delimiter=',')

De esta manera, nuestro archivo se ha exportado correctamente, pero observamos lo siguiente:

![image.png](attachment:643e92c0-05ec-4f94-b4e9-1cc3a3331969.png)

¿Por qué ha sucedido esto? Este es el resultado del comportamiento predeterminado de la función `savetxt()` de NumPy, la cual guarda los números en un formato de punto flotante con notación científica.
 
Esto es así porque por defecto, `savetxt()` utiliza el parámetro `fmt` (que significa *formato*) con el valor `%.18e`, que sirve para escribir los números de esa manera, ya que es una representación detallada y con notación científica.

Si prefieres que los números se guarden como **enteros**:

In [41]:
np.savetxt(ruta, 
          array_ejemplo,
          delimiter=',',
          fmt='%d')

Antes de ejecutar la celda anterior, deben cerrar y/o eliminar el archivo creado anterior, ya que de lo contrario dará error.

![image.png](attachment:52e6166c-8b99-4af5-ad46-2d1531e07bfb.png)

# Integración de NumPy con Pandas

Ahora intentaremos comprender cómo pueden trabajar juntos NumPy y Pandas en el análisis de datos.

Para eso, vamos a aprender a **convertir estructuras de datos** entre Pandas y NumPy.

Pandas, como hemos visto, es una biblioteca de Python que proporciona estructuras de datos (*Series* y *DataFrames*), así como también nos brinda muchas y muy importantes herramientas de análisis de datos.

NumPy y Pandas están estrechamente integrados, y de hecho, **Pandas se basa en NumPy** para realizar muchas de sus operaciones.

Ahora voy a crear un pequeño DataFrame de ejemplo.

In [43]:
df = pd.DataFrame({
    'Impares': [1, 3, 5],
    'Pares': [2, 4, 6]
})
df

Unnamed: 0,Impares,Pares
0,1,2
1,3,4
2,5,6


In [49]:
type(df)

pandas.core.frame.DataFrame

Ahora veamos cómo convertir DataFrames de Pandas en Arrays de NumPy.

Esto es algo que podemos lograr de dos maneras:
* con el atributo `.values`.

In [45]:
array1 = df.values
array1

array([[1, 2],
       [3, 4],
       [5, 6]], dtype=int64)

In [47]:
type(array1)

numpy.ndarray

* con el método `to_numpy()`.

In [52]:
array2 = df.to_numpy()
array2

array([[1, 2],
       [3, 4],
       [5, 6]], dtype=int64)

In [54]:
type(array2)

numpy.ndarray

Ahora veamos cómo podemos hacer operaciones con Arrays de NumPy… en Pandas.

Como **Pandas se basa en NumPy**, entonces las operaciones de NumPy **se pueden aplicar directamente** a columnas o filas de los DataFrames de Pandas.

In [56]:
df

Unnamed: 0,Impares,Pares
0,1,2
1,3,4
2,5,6


In [58]:
np.sqrt(df)

Unnamed: 0,Impares,Pares
0,1.0,1.414214
1,1.732051,2.0
2,2.236068,2.44949


Entonces, no tendremos problema en aplicar todos los recursos que brinda NumPy en los objetos de Pandas. Esto sí que es una gran virtud de ambas librerías.

Ahora veamos el proceso contrario al que hicimos antes, y veamos **cómo convertir Arrays de NumPy en DataFrames de Pandas**.

Esto es muy útil para también poder aprovechar las funcionalidades de Pandas en la manipulación de datos, y se logra simplemente pasando el array como argumento del método `DataFrame()`.

In [60]:
array1

array([[1, 2],
       [3, 4],
       [5, 6]], dtype=int64)

In [62]:
df1 = pd.DataFrame(array1)
df1

Unnamed: 0,0,1
0,1,2
1,3,4
2,5,6


Observa, eso sí, que como los arrays no tienen columnas propiamente dichas, tampoco tienen nombres de columnas, y por eso al convertirse en DataFrame, Pandas le asigna automáticamente números a los encabezados de las columnas.

Si quieres elegir nombres personalizados para tus columnas, lo puedes hacer con el parámetro `columns`:

In [64]:
df1 = pd.DataFrame(array1, columns=['Col1', 'Col2'])
df1

Unnamed: 0,Col1,Col2
0,1,2
1,3,4
2,5,6


La cuestión es que ahora mi array ya es un DataFrame, y puedo disponer de todos los recursos de Pandas para hacer análisis sobre esta información. **¿Qué recursos?** Literalmente todos.

Puedo usar las estrategias de agrupación y de filtrado de Pandas en mis arrays, o puedo usar las operaciones avanzadas de NumPy en mis DataFrames y Series de Pandas.