# Integración de NumPy con Pandas

El objetivo de esta lección es que puedas comprender cómo pueden trabajar juntos NumPy y Pandas en el análisis de datos.

Para eso, vamos a aprender a **convertir estructuras de datos** entre Pandas y NumPy.

Pandas, como hemos visto, es una biblioteca de Python que proporciona estructuras de datos (*Series* y *DataFrames*), así como también nos brinda muchas y muy importantes herramientas de análisis de datos.

NumPy y Pandas están estrechamente integrados, y de hecho, **Pandas se basa en NumPy** para realizar muchas de sus operaciones.

Comencemos **importando ambas bibliotecas**, para disponer de todos los recursos de Pandas y de NumPy en un mismo cuaderno.

In [1]:
import pandas as pd
import numpy as np

Ahora voy a crear un pequeño DataFrame de ejemplo.

In [2]:
df = pd.DataFrame({
    'Impares': [1, 3, 5],
    'Pares': [2, 4, 6]
})
df

Unnamed: 0,Impares,Pares
0,1,2
1,3,4
2,5,6


Ahora veamos cómo convertir DataFrames de Pandas en Arrays de NumPy.

Esto es algo que podemos lograr de dos maneras:
* con el atributo `.values`.

In [3]:
array_np1 = df.values
array_np1

array([[1, 2],
       [3, 4],
       [5, 6]], dtype=int64)

 * con el método `to_numpy()`.

In [4]:
array_np2 = df.to_numpy()
array_np2

array([[1, 2],
       [3, 4],
       [5, 6]], dtype=int64)

Ahora veamos cómo podemos hacer operaciones con Arrays de NumPy… en Pandas.

Y lo genial de esto es que como **Pandas se basa en NumPy**, entonces las operaciones de NumPy **se pueden aplicar directamente** a columnas o filas de los DataFrames de Pandas.

In [5]:
np.sqrt(df)

Unnamed: 0,Impares,Pares
0,1.0,1.414214
1,1.732051,2.0
2,2.236068,2.44949


In [6]:
np.max(df)

6

Entonces, como verás, no tendrás problema en aplicar todos los recursos que brinda NumPy en tus objetos de Pandas. Esto sí que es una gran virtud de ambas librerías.

Ahora veamos el proceso contrario al que hicimos antes, y veamos **cómo convertir Arrays de NumPy en DataFrames de Pandas**.

Esto es muy útil para también poder aprovechar las funcionalidades de Pandas en la manipulación de datos, y se logra simplemente pasando el array como argumento del método `DataFrame()`.

In [7]:
df_desde_np = pd.DataFrame(array_np1)
df_desde_np

Unnamed: 0,0,1
0,1,2
1,3,4
2,5,6


Observa, eso sí, que como los arrays no tienen columnas propiamente dichas, tampoco tienen nombres de columnas, y por eso al convertirse en DataFrame, Pandas le asigna automáticamente números a los encabezados de las columnas.

Si quieres elegir nombres personalizados para tus columnas, lo puedes hacer con el parámetro `columns`:

In [8]:
df_desde_np = pd.DataFrame(array_np1, columns=['Col1', 'Col2'])
df_desde_np

Unnamed: 0,Col1,Col2
0,1,2
1,3,4
2,5,6


La cuestión es que ahora mi array ya es un DataFrame, y puedo disponer de todos los recursos de Pandas para hacer análisis sobre esta información. **¿Qué recursos?** Literalmente todos.

Puedo usar las estrategias de agrupación y de filtrado de Pandas en mis arrays, o puedo usar las operaciones avanzadas de NumPy en mis DataFrames y Series de Pandas.

Esto es un montón, y nos deja un poco más cerca de nuestro objetivo de ser científicos de datos.

Integración de NumPy con Pandas 1
Crea un DataFrame de Pandas llamado mi_dataframe con dos columnas: "Frutas" y "Cantidad".

La columna "Frutas" debe contener los valores "Manzana", "Banana" y "Cereza".

La columna "Cantidad" debe contener los números 5, 8 y 3 respectivamente.

Luego, convierte este DataFrame en un array de NumPy y guárdalo en una variable llamada array_frutas.

In [2]:
# Crear el DataFrame
mi_dataframe_b = pd.DataFrame({
    "Frutas": ["Manzana", "Banana", "Cereza"],
    "Cantidad": [5, 8, 3]
})
 
# Convertir el DataFrame en un array de NumPy
array_frutas = mi_dataframe_b.to_numpy()


NameError: name 'pd' is not defined

Integración de NumPy con Pandas 2
Crea un DataFrame de Pandas llamado mi_dataframe con dos columnas: "Frutas" y "Cantidad". Identico al ejercicio anterior.

La columna "Frutas" debe contener los valores "Manzana", "Banana" y "Cereza".

La columna "Cantidad" debe contener los números 5, 8 y 3 respectivamente.

Luego, filtra las filas donde la cantidad sea mayor a 4, almacena el resultado en una variable llamada: mi_dataframe_filtrado

Convierte el resultado en un array de NumPy. Guarda el array resultante en una variable llamada array_filtrado

In [None]:
import pandas as pd
import numpy as np
 
# Crear el DataFrame nuevamente
mi_dataframe = pd.DataFrame({
    "Frutas": ["Manzana", "Banana", "Cereza"],
    "Cantidad": [5, 8, 3]
})
 
# Filtrar las filas donde la cantidad sea mayor a 4
filtro = mi_dataframe['Cantidad'] > 4
mi_dataframe_filtrado = mi_dataframe[filtro]
 
# Convertir el DataFrame filtrado en un array de NumPy
array_filtrado = mi_dataframe_filtrado.to_numpy()

In [None]:
import numpy as np
import pandas as pd
 
# Crear el array de NumPy
mi_array = np.array([[10, 40], [20, 50], [30, 60]])
 
# Convertir el array en un DataFrame de Pandas
df_numeros = pd.DataFrame(mi_array, columns=["Decenas", "Centenas"])