## 2. Variables categóricas en Pandas

In [1]:
import pandas as pd
import numpy as np

In [2]:
dogs = pd.read_csv("Datos\ShelterDogs.csv") # Importar conujnto de datos

# Cambiar una variable tipo object a una categórica de tipo ordinal

dogs["size"] = dogs["size"].astype("category")
dogs["size"] = dogs["size"].cat.set_categories(["small", "medium", "large"], ordered=True)

### Agregar categorías

In [3]:
dogs["keep_in"] = dogs["keep_in"].astype("category")

nuevas = ["Unknown History", "Open Yard (Countryside)"]
dogs["keep_in"] = dogs["keep_in"].cat.add_categories(nuevas)
dogs["keep_in"].value_counts(dropna=False)

both flat and garden       1224
NaN                        1021
garden                      510
flat                        182
Open Yard (Countryside)       0
Unknown History               0
Name: keep_in, dtype: int64

### Remover categorías

In [4]:
# Remover categorías

# Remover la categoría "Unknown History"
dogs["keep_in"] = dogs["keep_in"].cat.remove_categories(["Unknown History"])

# Imprimir tabla de frecuencias
print(dogs["keep_in"].value_counts(normalize=True))


both flat and garden       0.638831
garden                     0.266180
flat                       0.094990
Open Yard (Countryside)    0.000000
Name: keep_in, dtype: float64


### Actualización de categorías

In [5]:
# Crear un diccionario de cambios
cambios = {"small":"tiny"}

# Renombrar las categorias
dogs["size"] = dogs["size"].cat.rename_categories(cambios)

# Usar la función lambda para convertir todas las categorias en mayúscula usando al función upper()
dogs["size"] =  dogs["size"].cat.rename_categories(lambda c: c.upper())

# Imprimir la lista de categorias
print(dogs["size"].cat.categories)


Index(['TINY', 'MEDIUM', 'LARGE'], dtype='object')


### Colapsar o cambiar simultaneamente valores a las categorías

In [6]:
# Crear un diccionario con los valores actualizados
update_coats = {"wirehaired":"medium", "medium-long":"medium"}

# Crear una nueva columna para la actualización (colapsada). La función replace es la encargada de hacer el reemplazo
dogs["coat_collapsed"] = dogs["coat"].replace(update_coats)

# Convertir la nueva columna en categórica
dogs["coat_collapsed"] = dogs["coat_collapsed"].astype("category")

# Imprimir frecuencias
print(dogs["coat_collapsed"].value_counts())

short     1972
medium     785
long       180
Name: coat_collapsed, dtype: int64


### Re organizar las categorías (convertir en variables ordinales)

In [7]:
# Imprimir los valores actuales de la columna size
print(dogs["size"].cat.categories)

# Re ordenar las categorías y sobre escribiendo los valores originales
dogs["size"].cat.reorder_categories(new_categories=['TINY', 'MEDIUM', 'LARGE'], ordered=True, inplace=True)

print(dogs.groupby(by="size")["sex"].value_counts())

Index(['TINY', 'MEDIUM', 'LARGE'], dtype='object')
size    sex   
TINY    male       260
        female     214
MEDIUM  male      1090
        female     854
LARGE   male       331
        female     188
Name: sex, dtype: int64


## 2. Identificación de problemas con variables categóricas

In [9]:
# Reemplazar una palabra mal escrita
replace_map = {"Malez": "male"}

# Actualizar la columna sex con el diccionario creado
dogs["sex"] = dogs["sex"].replace(replace_map)

# Eliminar espacios al inicio
dogs["sex"] = dogs["sex"].str.strip()

# Convertir todas las categorías en minúscula
dogs["sex"] = dogs["sex"].str.lower()

# Convertir a una serie categórica
dogs["sex"] = dogs["sex"].astype("category")

# Imprimir el número de perros que contienen la palabra Englis en su nombre
print(dogs[dogs["breed"].str.contains("English", regex=False)].shape[0])

print(dogs["sex"].value_counts())

35
male      1681
female    1256
Name: sex, dtype: int64
