# ¿Qué son los tipos de datos en Pandas y por qué son importantes?

En Pandas, los tipos de datos (o dtypes) son fundamentales para el manejo eficaz y eficiente de los datos en DataFrames. Cada columna en un DataFrame tiene un tipo de dato asociado, lo que determina cómo se almacenan y procesan los datos en esa columna. 

Los tipos de datos en Pandas están basados en los tipos de datos de NumPy, lo que permite que Pandas herede su eficiencia y velocidad en las operaciones numéricas y de manipulación de datos.

Para ver los tipos de datos de un DataFrame, se puede utilizar el atributo .dtypes:

In [4]:
import pandas as pd

# Crear un DataFrame de ejemplo
data = {
    'columna_entero': [1, 2, 3],
    'columna_flotante': [1.1, 2.2, 3.3],
    'columna_texto': ['a', 'b', 'c'],
    'columna_fecha': pd.to_datetime(['2023-01-01', '2023-01-02', '2023-01-03'])
}

df = pd.DataFrame(data)

# Ver los tipos de datos
print(df.dtypes)


columna_entero               int64
columna_flotante           float64
columna_texto               object
columna_fecha       datetime64[ns]
dtype: object


Es crucial entender que Pandas utiliza el tipo object para almacenar datos de texto, pero esto puede ser ineficiente en términos de memoria y velocidad. A partir de versiones recientes, se recomienda usar el tipo string para cadenas de texto, lo que proporciona una mejor optimización y coherencia.

In [7]:
# Convertir una columna de texto a tipo string
df['columna_texto'] = df['columna_texto'].astype('string')

# Ver los tipos de datos actualizados
print(df.dtypes)

columna_entero               int64
columna_flotante           float64
columna_texto       string[python]
columna_fecha       datetime64[ns]
dtype: object


## ¿Qué tipos de datos existen en Pandas?

* ``int64``: Representa números enteros de 64 bits. Es el tipo de datos por defecto para columnas que contienen valores enteros.

In [11]:
import pandas as pd

df = pd.DataFrame({'enteros': [1, 2, 3]})
print(df.dtypes)  

enteros    int64
dtype: object


* ``float64``: Representa números de punto flotante de 64 bits. Este tipo es utilizado para columnas que contienen valores decimales.


In [14]:
df = pd.DataFrame({'flotantes': [1.1, 2.2, 3.3]})
print(df.dtypes)  

flotantes    float64
dtype: object


* ``bool``: Utilizado para valores booleanos (True o False).


In [17]:
df = pd.DataFrame({'booleanos': [True, False, True]})
print(df.dtypes)  

booleanos    bool
dtype: object


* ``datetime64[ns]``: Representa marcas de tiempo con precisión de nanosegundos. Es el tipo adecuado para datos de fecha y hora.

In [20]:
df = pd.DataFrame({'fechas': pd.to_datetime(['2023-01-01', '2023-01-02', '2023-01-03'])})
print(df.dtypes) 

fechas    datetime64[ns]
dtype: object


* ``timedelta64[ns]``: Utilizado para representar diferencias de tiempo con precisión de nanosegundos.

In [23]:
df = pd.DataFrame({'deltas': pd.to_timedelta(['1 days', '2 days', '3 days'])})
print(df.dtypes) 

deltas    timedelta64[ns]
dtype: object


* ``category``: Este tipo de dato es útil para columnas que contienen un número limitado de categorías únicas. Permite una compresión eficiente y mejora el rendimiento en ciertas operaciones.

In [26]:
df = pd.DataFrame({'categorias': pd.Categorical(['a', 'b', 'a'])})
print(df.dtypes) 

categorias    category
dtype: object


* ``string``: A partir de versiones recientes de Pandas, se recomienda utilizar el tipo string en lugar de object para almacenar datos de texto. Este tipo es más eficiente y coherente.

In [29]:
df = pd.DataFrame({'texto': ['a', 'b', 'c']}, dtype='string')
print(df.dtypes) 

texto    string[python]
dtype: object


* ``object``: Tradicionalmente utilizado para datos de texto, aunque también puede almacenar cualquier tipo de objeto de Python. Sin embargo, su uso puede ser menos eficiente comparado con string para cadenas de texto.

In [32]:
df = pd.DataFrame({'objetos': ['a', 'b', 'c']})
print(df.dtypes)  

objetos    object
dtype: object


## Cambiar el tipo de dato

La función principal para realizar esta tarea es ``astype()``, que permite convertir una columna a un tipo de dato específico.

Para cambiar el tipo de dato de una columna, se puede utilizar el método astype() de la siguiente manera:

In [37]:
import pandas as pd

# Crear un DataFrame de ejemplo
data = {
    'columna_entero': [1, 2, 3],
    'columna_flotante': [1.1, 2.2, 3.3],
    'columna_texto': ['a', 'b', 'c']
}

df = pd.DataFrame(data)

# Convertir la columna 'columna_entero' a tipo float
df['columna_entero'] = df['columna_entero'].astype('float64')

print(df.dtypes)

columna_entero      float64
columna_flotante    float64
columna_texto        object
dtype: object


Pandas también permite convertir múltiples columnas a diferentes tipos de datos utilizando un diccionario con el método astype():

In [40]:
# Convertir múltiples columnas a diferentes tipos
df = df.astype({'columna_entero': 'float64', 'columna_texto': 'string'})

print(df.dtypes)

columna_entero             float64
columna_flotante           float64
columna_texto       string[python]
dtype: object


En algunos casos, puede ser necesario convertir una columna a un tipo de dato que no sea compatible con todos los valores actuales en la columna. Para manejar estos casos, el parámetro errors puede ser utilizado con el método astype() para controlar el comportamiento en caso de errores. 

Por ejemplo, errors='ignore' simplemente ignorará los errores de conversión, mientras que errors='raise' (por defecto) generará una excepción.

In [43]:
# Convertir la columna 'columna_texto' a tipo int, ignorando errores
df['columna_texto'] = df['columna_texto'].astype('int64', errors='ignore')

print(df.dtypes)

columna_entero             float64
columna_flotante           float64
columna_texto       string[python]
dtype: object


Para convertir una columna de tipo datetime, Pandas proporciona la función ``pd.to_datetime()``, que es más robusta que ``astype()`` para este tipo de conversión.

In [47]:
# Crear un DataFrame de ejemplo
data = {
    'columna_fecha': ['2023-01-01', '2023-01-02', '2023-01-03']
}

df = pd.DataFrame(data)

# Convertir la columna 'columna_fecha' a tipo datetime
df['columna_fecha'] = pd.to_datetime(df['columna_fecha'])

print(df.dtypes)

columna_fecha    datetime64[ns]
dtype: object


Para convertir una columna a tipo category, se puede usar el método astype() o la función pd.Categorical():

In [50]:
# Crear un DataFrame de ejemplo
data = {
    'columna_texto': ['a', 'b', 'a']
}

df = pd.DataFrame(data)

# Convertir la columna 'columna_texto' a tipo category
df['columna_texto'] = df['columna_texto'].astype('category')

print(df.dtypes)

columna_texto    category
dtype: object


Cambiar el tipo de dato de las columnas de un DataFrame puede mejorar significativamente la eficiencia del almacenamiento y la velocidad de las operaciones. Es una práctica recomendada revisar y ajustar los tipos de datos después de cargar y limpiar un conjunto de datos para asegurar un rendimiento óptimo.

# Optimización y rendimiento

- int8, int16, int32 y int64: Para columnas de enteros, el uso de tipos de enteros más pequeños (int8, int16, int32) puede reducir significativamente el uso de memoria.
- float32 en lugar de float64: Para columnas de números decimales, si la precisión no es crítica, float32 puede ser una opción más eficiente que float64.
- Categorías: Convertir columnas con un número limitado de valores únicos a tipo category puede ahorrar memoria y mejorar el rendimiento en operaciones de filtrado y agrupamiento.

In [56]:
import pandas as pd

# Crear un DataFrame de ejemplo
data = {
    'id': [1, 2, 3, 4],
    'age': [25, 30, 35, 40],
    'salary': [50000.0, 60000.0, 70000.0, 80000.0],
    'department': ['HR', 'Engineering', 'Marketing', 'HR']
}

df = pd.DataFrame(data)

# Optimizar tipos de datos
df['id'] = df['id'].astype('int8')
df['age'] = df['age'].astype('int8')
df['salary'] = df['salary'].astype('float32')
df['department'] = df['department'].astype('category')

print(df.dtypes)

id                int8
age               int8
salary         float32
department    category
dtype: object


### Reducción de uso de memoria

El método ``memory_usage()`` permite analizar el uso de memoria de un DataFrame. Para reducir el uso de memoria, se pueden convertir las columnas a tipos de datos más eficientes.

In [60]:
# Ver el uso de memoria antes de la optimización
print(df.memory_usage(deep=True))

# Optimizar tipos de datos
df['id'] = df['id'].astype('int8')
df['age'] = df['age'].astype('int8')
df['salary'] = df['salary'].astype('float32')
df['department'] = df['department'].astype('category')

# Ver el uso de memoria después de la optimización
print(df.memory_usage(deep=True))

Index         132
id              4
age             4
salary         16
department    281
dtype: int64
Index         132
id              4
age             4
salary         16
department    281
dtype: int64


### Vectorización de operaciones

La vectorización consiste en aplicar operaciones a arrays enteros en lugar de iterar fila por fila. Esto aprovecha las optimizaciones internas de NumPy y Pandas, resultando en un rendimiento significativamente mejorado. Evita el uso de bucles for y utiliza funciones vectorizadas siempre que sea posible.

In [65]:
import numpy as np
import pandas as pd

# Crear un generador aleatorio con una semilla para reproducibilidad
rng = np.random.default_rng(seed=42)

# Crear un DataFrame grande de ejemplo
n = 1000000
df = pd.DataFrame({
    'a': rng.random(n),
    'b': rng.random(n)
})

# Operación vectorizada: suma de las columnas 'a' y 'b'
df['c'] = df['a'] + df['b']

# Evitar bucles for:
# for i in range(n):
#     df.loc[i, 'c'] = df.loc[i, 'a'] + df.loc[i, 'b']

### Uso de métodos eficientes para operaciones comunes

Algunas operaciones comunes tienen métodos específicos en Pandas que están optimizados para el rendimiento. Por ejemplo, el método ``pd.concat()`` es más eficiente que utilizar bucles para concatenar DataFrames.

In [69]:
import numpy as np
import pandas as pd

# Crear un generador aleatorio con una semilla para reproducibilidad
rng = np.random.default_rng(seed=42)

# Crear múltiples DataFrames pequeños usando el nuevo generador aleatorio
dfs = [pd.DataFrame(rng.standard_normal((100, 4))) for _ in range(10)]

# Concatenar DataFrames de manera eficiente
df_concatenated = pd.concat(dfs, ignore_index=True)


### Evitar copias innecesarias de DataFrames

Las operaciones que modifican DataFrames pueden crear copias innecesarias, lo que consume más memoria y tiempo. Para evitar esto, es recomendable reasignar el DataFrame después de realizar la operación en lugar de modificarlo directamente. Esta práctica mantiene el código más claro y eficiente.

In [73]:
import numpy as np
import pandas as pd

# Crear un generador aleatorio con una semilla para reproducibilidad
rng = np.random.default_rng(seed=42)

# Crear un DataFrame de ejemplo utilizando el nuevo generador aleatorio
df = pd.DataFrame(rng.standard_normal((1000, 4)), columns=list('ABCD'))

# Eliminar columnas reasignando el DataFrame
df = df.drop(columns=['B', 'C'])

### Uso de ``eval()`` y ``query()``

Pandas proporciona las funciones eval() y query() para realizar operaciones y consultas que son más rápidas y eficientes que las operaciones estándar, especialmente para grandes DataFrames.

In [77]:
import numpy as np
import pandas as pd

# Crear un generador aleatorio con una semilla para reproducibilidad
rng = np.random.default_rng(seed=42)

# Crear un DataFrame de ejemplo utilizando el nuevo generador aleatorio
df = pd.DataFrame({
    'A': rng.standard_normal(1000000),
    'B': rng.standard_normal(1000000),
    'C': rng.standard_normal(1000000)
})

# Utilizar eval para una operación aritmética
df['D'] = pd.eval('df.A + df.B - df.C')

# Utilizar query para filtrar datos
filtered_df = df.query('A > 0 and B < 0')

### Consideraciones con grandes cantidades de datos

Trabajar con grandes cantidades de datos en Pandas puede presentar varios desafíos de rendimiento y memoria. Para manejar estos casos de manera eficiente, es crucial considerar varias estrategias y técnicas avanzadas que pueden ayudar a optimizar el proceso.

Los tipos de datos adecuados son fundamentales para la eficiencia. Utilizar tipos más pequeños y específicos, como int8 en lugar de int64, o float32 en lugar de float64, puede reducir significativamente el uso de memoria. Además, convertir columnas con un número limitado de valores únicos a tipo category puede ahorrar memoria y mejorar el rendimiento en operaciones de filtrado y agrupamiento.

El método ``memory_usage()`` permite analizar el uso de memoria de un DataFrame. Conviene utilizar esta herramienta para identificar columnas que pueden ser optimizadas.

In [86]:
import pandas as pd

# Crear un DataFrame de ejemplo
data = {
    'id': [1, 2, 3, 4],
    'age': [25, 30, 35, 40],
    'salary': [50000.0, 60000.0, 70000.0, 80000.0],
    'department': ['HR', 'Engineering', 'Marketing', 'HR']
}

df = pd.DataFrame(data)
print(df.dtypes)
# Ver el uso de memoria antes de la optimización
print(df.memory_usage(deep=True))

# Optimizar tipos de datos
df['id'] = df['id'].astype('int8')
df['age'] = df['age'].astype('int8')
df['salary'] = df['salary'].astype('float32')
df['department'] = df['department'].astype('category')
print(df.dtypes)
# Ver el uso de memoria después de la optimización
print(df.memory_usage(deep=True))



id              int64
age             int64
salary        float64
department     object
dtype: object
Index         132
id             32
age            32
salary         32
department    220
dtype: int64
id                int8
age               int8
salary         float32
department    category
dtype: object
Index         132
id              4
age             4
salary         16
department    281
dtype: int64


La vectorización de operaciones consiste en aplicar operaciones a arrays enteros en lugar de iterar fila por fila. Esto aprovecha las optimizaciones internas de NumPy y Pandas, resultando en un rendimiento significativamente mejorado.

Para operaciones comunes, Pandas ofrece métodos específicos que están optimizados para el rendimiento. Por ejemplo, pd.concat() es más eficiente que concatenar DataFrames en un bucle.

In [89]:
import pandas as pd
import numpy as np

# Crear un generador aleatorio con una semilla para reproducibilidad
rng = np.random.default_rng(seed=42)

# Crear un DataFrame grande de ejemplo utilizando el nuevo generador aleatorio
n = 1000000
df = pd.DataFrame({
    'a': rng.random(n),
    'b': rng.random(n)
})

# Operación vectorizada: suma de las columnas 'a' y 'b'
df['c'] = df['a'] + df['b']

In [92]:
# Crear un generador aleatorio con una semilla para reproducibilidad
rng = np.random.default_rng(seed=42)

# Crear múltiples DataFrames pequeños usando el nuevo generador aleatorio
dfs = [pd.DataFrame(rng.standard_normal((100, 4))) for _ in range(10)]

# Concatenar DataFrames de manera eficiente
df_concatenated = pd.concat(dfs, ignore_index=True)

 <span style="background-color: yellow">Es recomendable reasignar el DataFrame después de realizar la operación en lugar de modificarlo directamente. Esto evita la creación de copias innecesarias mientras mantiene el código más claro y seguro, optimizando tanto la memoria como el tiempo de ejecución. </span>

In [96]:
# Crear un generador aleatorio con una semilla para reproducibilidad
rng = np.random.default_rng(seed=42)

# Crear un DataFrame de ejemplo utilizando el nuevo generador aleatorio
df = pd.DataFrame(rng.standard_normal((1000, 4)), columns=list('ABCD'))

# Eliminar columnas reasignando el DataFrame
df = df.drop(columns=['B', 'C'])

Las funciones eval() y query() de Pandas permiten realizar operaciones y consultas de manera más rápida y eficiente, especialmente útiles para grandes DataFrames.

In [99]:
# Crear un generador aleatorio con una semilla para reproducibilidad
rng = np.random.default_rng(seed=42)

# Crear un DataFrame de ejemplo utilizando el nuevo generador aleatorio
df = pd.DataFrame({
    'A': rng.standard_normal(1000000),
    'B': rng.standard_normal(1000000),
    'C': rng.standard_normal(1000000)
})

# Utilizar eval para una operación aritmética
df['D'] = pd.eval('df.A + df.B - df.C')

# Utilizar query para filtrar datos
filtered_df = df.query('A > 0 and B < 0')