# Tipos de dato texto y categóricos

 Los datos de tipo texto se representan utilizando el tipo object o string en Pandas, mientras que los datos categóricos se representan con el tipo category. Cada uno de estos tipos tiene sus particularidades y ventajas en el manejo de datos.

El tipo texto (``object`` o ``string``) se utiliza generalmente para datos que representan cadenas de caracteres. Las operaciones comunes con datos de tipo texto incluyen la búsqueda de patrones, la manipulación de cadenas y la limpieza de datos. Pandas proporciona una serie de métodos específicos para trabajar con datos de tipo texto, accesibles a través del atributo ``.str``.

Ejemplo de creación de una Serie de tipo texto:

In [3]:
import pandas as pd

# Crear una Serie de tipo texto
serie_texto = pd.Series(['manzana', 'banana', 'cereza'])
print(serie_texto)

0    manzana
1     banana
2     cereza
dtype: object


El tipo categórico (``category``) se utiliza para datos que toman un número limitado y fijo de posibles valores, como categorías o etiquetas. Los datos categóricos son útiles para representar variables cualitativas y pueden ofrecer mejoras significativas en la eficiencia de almacenamiento y el rendimiento de ciertas operaciones. Además, permiten realizar operaciones estadísticas y de agrupamiento de manera más efectiva.

Ejemplo de creación de una Serie categórica:

In [7]:
# Crear una Serie categórica
serie_categorica = pd.Series(['bajo', 'medio', 'alto', 'medio'], dtype='category')
print(serie_categorica)

0     bajo
1    medio
2     alto
3    medio
dtype: category
Categories (3, object): ['alto', 'bajo', 'medio']


Las ventajas del uso de datos categóricos incluyen:

- **Eficiencia de almacenamiento**: Los datos categóricos se almacenan internamente como enteros, lo que reduce el uso de memoria.  
- **Optimización de operaciones**: Las operaciones sobre datos categóricos pueden ser más rápidas debido a la representación interna eficiente.  
- **Facilitación de análisis**: Los datos categóricos permiten realizar operaciones de agrupamiento y análisis estadísticos con mayor facilidad.  
Transformar datos de texto a categóricos puede ser beneficioso en muchos casos. Por ejemplo, si se tiene una columna de un DataFrame que contiene un número limitado de categorías distintas, se puede convertir a tipo categórico para mejorar la eficiencia.

Ejemplo de conversión de una columna de texto a categórica:

In [12]:
# Crear un DataFrame con una columna de tipo texto
df = pd.DataFrame({'nivel': ['bajo', 'medio', 'alto', 'medio']})

# Convertir la columna a tipo categórico
df['nivel'] = df['nivel'].astype('category')
print(df.dtypes)

nivel    category
dtype: object


Para trabajar con datos de tipo texto y categóricos, Pandas ofrece diversas funciones y métodos que facilitan la manipulación y el análisis. Es importante seleccionar el tipo de dato adecuado según las necesidades específicas del análisis para optimizar tanto el rendimiento como la claridad del código.