# Optimización y rendimiento de Series

Primero, es importante entender que Pandas está construido sobre NumPy, lo que significa que muchas de las optimizaciones de rendimiento se derivan del uso eficiente de arrays de NumPy. 

Las Series en Pandas están diseñadas para ser rápidas y eficientes, pero hay varias estrategias adicionales que se pueden emplear para mejorar aún más el rendimiento.

###  Tipos de datos y memoria

El tipo de datos de una Serie puede tener un impacto significativo en el rendimiento y el uso de memoria. Es recomendable utilizar tipos de datos más eficientes siempre que sea posible.

In [4]:
import pandas as pd

# Crear una Serie con tipo de dato int64
serie = pd.Series([1, 2, 3, 4, 5], dtype='int64')
print(serie.memory_usage(deep=True))

# Convertir la Serie a tipo int32
serie = serie.astype('int32')
print(serie.memory_usage(deep=True))

172
152


El uso de tipos de datos más pequeños puede reducir considerablemente el uso de memoria, lo que es crucial cuando se trabaja con grandes datasets.

### Uso de operaciones vectorizadas

Las operaciones vectorizadas en Pandas y NumPy son más rápidas que los bucles explícitos de Python. Siempre que sea posible, utilice operaciones vectorizadas para manipular Series.

In [13]:
import pandas as pd
import numpy as np

# Crear un generador aleatorio
rng = np.random.default_rng(seed=42)

# Generar la serie utilizando el nuevo generador aleatorio
serie = pd.Series(rng.random(1000000))

# Operación vectorizada
result = serie * 2


Evite el uso de bucles for para realizar operaciones en Series, ya que son significativamente más lentos.

### Evitar la copia innecesaria de datos

Algunas operaciones en Pandas pueden resultar en la copia de datos, lo que puede ser costoso en términos de memoria y tiempo.  
Utilice las opciones ``inplace=True`` cuando estén disponibles para modificar objetos en el lugar y evitar la creación de copias.

In [17]:
# Modificar una Serie en el lugar para evitar la copia
import pandas as pd
serie = pd.Series([1, 2, 3, 4, 5])
serie.drop(0, inplace=True)

###  Uso eficiente de apply y map

Aunque apply y map son útiles para aplicar funciones a una Serie, pueden ser lentos para grandes volúmenes de datos. Siempre que sea posible, utilice funciones vectorizadas en lugar de apply o map.

In [21]:
import pandas as pd
import numpy as np

# Crear un generador aleatorio
rng = np.random.default_rng(seed=42)

# Generar la serie utilizando el nuevo generador aleatorio
serie = pd.Series(rng.random(1000000))

# Uso de una función vectorizada en lugar de apply
result = np.sqrt(serie)

### Filtrado y selección condicional

El filtrado y la selección condicional pueden ser optimizados utilizando operaciones vectorizadas y evitando la creación de copias innecesarias de datos.

In [24]:
import pandas as pd
import numpy as np

# Crear un generador aleatorio
rng = np.random.default_rng(seed=42)

# Generar la serie utilizando el nuevo generador aleatorio
serie = pd.Series(rng.random(1000000))

# Filtrado eficiente de una Serie
filtered_serie = serie[serie > 0.5]

### Uso de ``pd.eval`` y ``query``

Para operaciones complejas, pd.eval y query pueden mejorar significativamente el rendimiento al compilar expresiones a código nativo

In [28]:
import pandas as pd
import numpy as np

# Crear un generador aleatorio
rng = np.random.default_rng(seed=42)

# Generar la serie utilizando el nuevo generador aleatorio
serie = pd.Series(rng.random(1000000))

# Uso de pd.eval para operaciones complejas
result = pd.eval('serie * 2 + 1')


### Manejo de valores nulos

El manejo de valores nulos puede ser costoso en términos de rendimiento. Utilice métodos eficientes como fillna y dropna para tratar con valores nulos.

In [31]:
# Rellenar valores nulos de manera eficiente
serie = pd.Series([1, 2, None, 4, 5])
serie.fillna(0, inplace=True)

### Uso de índices eficientes

El uso de índices eficientes puede mejorar el rendimiento de las operaciones de búsqueda y selección. Asegúrese de que los índices estén correctamente configurados y optimizados.

In [37]:
# Configurar un índice eficiente
import pandas as pd
serie = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e'])
print(serie.loc['c'])


3
