# Limpieza y preparación de datos

## 2.1 Tratamiento de los datos que faltan

## LAS SECCIONES QUE FALTAN EN ESTE NOTEBOOKS ES PORQUE ESTAN RESUELTAS EN LOS NOTEBOOKS ANTERIORES

### Expresiones Regulares

- `[A-Z0-9._%+-]+`:  
    - `[A-Z0-9._%+-]` es un conjunto de caracteres que incluye letras mayúsculas (A-Z), dígitos (0-9), y los caracteres ., _, %, +, y -.
    - `+` indica que uno o más de estos caracteres pueden aparecer.    
    - `@`: Un carácter de arroba literal.

- `[A-Z0-9.-]+`:
    - `[A-Z0-9.-]` es un conjunto de caracteres que incluye letras mayúsculas (A-Z), dígitos (0-9), y los caracteres . y -.
    - `+` indica que uno o más de estos caracteres pueden aparecer.

- `\.`: Un punto literal (el \ se usa para escapar el . ya que, en regex, el punto normalmente significa "cualquier carácter").

- `[A-Z]{2,4}`:
    - `[A-Z]` es un conjunto de letras mayúsculas.  
    - `{2,4}` indica que deben aparecer de 2 a 4 de estas letras (por ejemplo, .com, .net, .info).

### Ejercicio 5. Expresiones regulares.

#### Dado el siguiente Diccionario:  

In [3]:
import numpy as np
import pandas as pd

data = {
    'Name': [
        'Dave', 'Steve', 'Rob', 'Ryan', 'Alice', 'Eve', 'John', 'Jane', 'Peter', 'Mary', 'Tom', 'Lucy', 
        'Mike', 'Chris', 'Emma', 'Olivia', 'Sophia', 'Liam', 'Noah', 'Mason', 'Ava', 'Mia', 'James', 'Benjamin'
    ],
    'Email': [
        'dave@google.com', 'steve@gmail.com', 'rob@yahoo.com', 'ryan@gmail.com', 
        'alice@hotmail.com', 'eve@google.com', 'john@outlook.com', 'jane@gmail.com',
        'peter@amazon.com', 'mary@google.com', 'tom@apple.com', 'lucy@yahoo.com',
        'mike@facebook.com', 'chris@netflix.com', 'emma@google.com', 'olivia@gmail.com',
        'sophia@amazon.com', 'liam@apple.com', 'noah@google.com', 'mason@yahoo.com',
        'ava@outlook.com', 'mia@gmail.com', 'james@hotmail.com', 'benjamin@google.com'
    ]
}

# Creando el DataFrame

df= pd.DataFrame(data)
df


Unnamed: 0,Name,Email
0,Dave,dave@google.com
1,Steve,steve@gmail.com
2,Rob,rob@yahoo.com
3,Ryan,ryan@gmail.com
4,Alice,alice@hotmail.com
5,Eve,eve@google.com
6,John,john@outlook.com
7,Jane,jane@gmail.com
8,Peter,peter@amazon.com
9,Mary,mary@google.com


### Una vez pasado el diccionario a un DataFrame que contiene nombres y direcciones de correo electrónico, realiza las siguientes tareas:

- Extrae los dominios de los correos electrónicos.
- Cuenta la frecuencia de cada dominio.
- Crea un nuevo DataFrame que contenga cada dominio como columna y el número de veces que se repiten dichos dominios en las filas.
#### Resolver de las dos formas: Usando expresiones regulares y usando los métodos propios de pandas.

## Solución con expresiones regulares

In [7]:
import re

# Se extraen los dominios con expresiones regulares:
df['Dominio'] = df['Email'].apply(lambda x: re.search(r'@([\w.-]+)', x).group(1))

# Contar la frecuencia de cada dominio:
dominio_counts = df['Dominio'].value_counts()

# Se crea un nuevo DatFrame con os dominios como columnas:
dominio_df = pd.DataFrame([dominio_counts]).T.reset_index()

dominio_df.columns = ['Dominio', 'Frecuencia']
# La 'T' se usa para transponer el DatFrame

dominio_df

Unnamed: 0,Dominio,Frecuencia
0,google.com,6
1,gmail.com,5
2,yahoo.com,3
3,hotmail.com,2
4,outlook.com,2
5,amazon.com,2
6,apple.com,2
7,facebook.com,1
8,netflix.com,1


## Solución con los métodos propios de Pandas

In [9]:
# Usando métodos de pandas
df['Dominio'] = df['Email'].str.split('@').str[1]

# Contar la frecuencia de cada dominio
dominio_counts = df['Dominio'].value_counts()
# Se crea un nuevo DatFrame con os dominios como columnas:

dominio_df = pd.DataFrame([dominio_counts]).T.reset_index()
dominio_df.columns = ['Dominio', 'Frecuencia']

dominio_df


Unnamed: 0,Dominio,Frecuencia
0,google.com,6
1,gmail.com,5
2,yahoo.com,3
3,hotmail.com,2
4,outlook.com,2
5,amazon.com,2
6,apple.com,2
7,facebook.com,1
8,netflix.com,1


## 2.9 Datos Categóricos

In [10]:
values = pd.Series(['apple', 'orange', 'apple',
                    'apple'] * 2)

values1 = pd.Series(['Naranja', 'Mango', 'Piña']*3)
                    
print(values)
print()
values1             

0     apple
1    orange
2     apple
3     apple
4     apple
5    orange
6     apple
7     apple
dtype: object



0    Naranja
1      Mango
2       Piña
3    Naranja
4      Mango
5       Piña
6    Naranja
7      Mango
8       Piña
dtype: object

In [11]:
print(pd.unique(values))
print()
pd.unique(values1)

['apple' 'orange']



array(['Naranja', 'Mango', 'Piña'], dtype=object)

In [13]:
print(pd.value_counts(values))
print()
pd.value_counts(values1)

apple     6
orange    2
Name: count, dtype: int64



  print(pd.value_counts(values))
  pd.value_counts(values1)


Naranja    3
Mango      3
Piña       3
Name: count, dtype: int64

In [14]:
print(pd.Series(values).value_counts())
print()
pd.Series(values1).value_counts()


apple     6
orange    2
Name: count, dtype: int64



Naranja    3
Mango      3
Piña       3
Name: count, dtype: int64

Muchos sistemas de datos (para almacenamiento de datos, cálculo estadístico u otros usos) han desarrollado enfoques especializados para representar datos con valores repetidos para un almacenamiento y cálculo más eficientes. En el almacenamiento de datos, una práctica recomendada consiste en utilizar las denominadas tablas de dimensiones, que contienen los valores distintos y almacenan las observaciones primarias como claves enteras que hacen referencia a la tabla de dimensiones:

In [20]:
values = pd.Series([0, 1, 0, 0] * 2)
values2 = pd.Series([0, 1, 2, 1] * 2)
print(values)
print()
values2

0    0
1    1
2    0
3    0
4    0
5    1
6    0
7    0
dtype: int64



0    0
1    1
2    2
3    1
4    0
5    1
6    2
7    1
dtype: int64

In [16]:
dim = pd.Series(['apple', 'orange'])
print(dim)

print()

dim1 = pd.Series(['Naranja', 'Piña', 'Mango'])
dim1


0     apple
1    orange
dtype: object



0    Naranja
1       Piña
2      Mango
dtype: object

Podemos utilizar el método `take` para restaurar la serie original de cadenas:

In [21]:
print(dim.take(values))
print()
dim1.take(values2)


0     apple
1    orange
0     apple
0     apple
0     apple
1    orange
0     apple
0     apple
dtype: object



0    Naranja
1       Piña
2      Mango
1       Piña
0    Naranja
1       Piña
2      Mango
1       Piña
dtype: object

Esta representación como números enteros se denomina representación categórica o codificada en diccionario. La array de valores distintos puede denominarse categorías, diccionario o niveles de los datos. Aqui utilizaremos los términos categórico y categorías. Los valores enteros que hacen referencia a las categorías se denominan códigos de categoría o simplemente códigos.

### Ejemplo

Supongamos que tenemos una serie de índices codificados que representan diferentes tipos de mascotas, y una serie de etiquetas que contienen los nombres de las mascotas. Queremos usar el método take para reconstruir las etiquetas originales a partir de los índices.

In [176]:
# Series de índices codificados
encoded_labels = pd.Series([0, 1, 2, 1, 0, 2, 2, 0])

# Series de etiquetas originales
pet_labels = pd.Series(['cat', 'dog', 'bird'])

# Reconstruir las etiquetas originales
decoded_labels = pet_labels.take(encoded_labels)

decoded_labels

0     cat
1     dog
2    bird
1     dog
0     cat
2    bird
2    bird
0     cat
dtype: object

#### MI EJEMPLO

Supongamos que tenemos una serie de índices codificados que representan diferentes tipos de deportes, y una serie de etiquetas que contienen los nombres de los deportes. Queremos usar el método take para reconstruir las etiquetas originales a partir de los índices.

In [30]:
# Series de ìndices codificados
codigos = pd.Series([0,0,0,1,1,1,1,2,2,3,4,4])
codigos

0     0
1     0
2     0
3     1
4     1
5     1
6     1
7     2
8     2
9     3
10    4
11    4
dtype: int64

In [31]:
# Serie de etiquetas originales
deportes = pd.Series(['Baloncesto','Beisbol','Voleibol','Fútbol','Ciclismo'])
deportes

#Reconstruir las etiquetas originales
dec_deportes = deportes.take(codigos)
dec_deportes

0    Baloncesto
0    Baloncesto
0    Baloncesto
1       Beisbol
1       Beisbol
1       Beisbol
1       Beisbol
2      Voleibol
2      Voleibol
3        Fútbol
4      Ciclismo
4      Ciclismo
dtype: object

### Ejercicio 6. Dados los siguientes datos:

In [39]:
import numpy as np
import pandas as pd

encoded_labels = [
    0, 1, 2, 3, 0, 4, 5, 6, 2, 1, 3, 0, 5, 4, 6, 1, 2, 5, 4, 3,
    7, 8, 9, 10, 7, 11, 12, 13, 9, 8, 10, 7, 12, 11, 13, 8, 9, 12, 11, 10,
    14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33
]

serie_encoded_labels = pd.Series(encoded_labels)

animal_labels = [
    'cat', 'dog', 'bird', 'fish', 'lion', 'tiger', 'bear', 'elephant', 
    'giraffe', 'zebra', 'kangaroo', 'koala', 'panda', 'monkey',
    'shark', 'whale', 'dolphin', 'penguin', 'ostrich', 'crocodile', 
    'alligator', 'hippopotamus', 'rhinoceros', 'cheetah', 'leopard', 
    'jaguar', 'wolf', 'fox', 'rabbit', 'squirrel', 'bat', 'owl', 
    'hawk', 'eagle'
]

serie_animal_labels = pd.Series(animal_labels)





1- Recrear las etiquetas originales a partir de los índices codificados.  
2- Contar la frecuencia de cada etiqueta de animal.  
3- Identificar las etiquetas de animales únicas presentes en los datos.  
4- Determinar el animal más frecuente y el menos frecuente.  
5- Agrupar los animales y contar la frecuencia por grupos (mamíferos, aves, reptiles, etc.).  
6- Identificar la posición de las primeras y últimas ocurrencias de cada animal.  
7- Generar un resumen estadístico de las frecuencias de los animales (media, mediana, desviación estándar).  
8- Filtrar y mostrar solo los animales con una frecuencia mayor que 2.  
9- Encontrar y mostrar las etiquetas de animales que aparecen solo una vez.  
10- Calcular el porcentaje de apariciones de cada animal respecto al total.  
11- Ordenar las etiquetas de animales por frecuencia en orden descendente.  
12- Generar un DataFrame que muestre la frecuencia acumulativa de las etiquetas.

In [73]:
# 1- Recrear las etiquetas originales a partir de los índices codificados.  
dec_animal_labels = serie_animal_labels.take(serie_encoded_labels)
dec_animal_labels

0              cat
1              dog
2             bird
3             fish
0              cat
4             lion
5            tiger
6             bear
2             bird
1              dog
3             fish
0              cat
5            tiger
4             lion
6             bear
1              dog
2             bird
5            tiger
4             lion
3             fish
7         elephant
8          giraffe
9            zebra
10        kangaroo
7         elephant
11           koala
12           panda
13          monkey
9            zebra
8          giraffe
10        kangaroo
7         elephant
12           panda
11           koala
13          monkey
8          giraffe
9            zebra
12           panda
11           koala
10        kangaroo
14           shark
15           whale
16         dolphin
17         penguin
18         ostrich
19       crocodile
20       alligator
21    hippopotamus
22      rhinoceros
23         cheetah
24         leopard
25          jaguar
26          

In [42]:
# 2- Contar la frecuencia de cada etiqueta de animal.  

frecuencia = dec_animal_labels.value_counts()
frecuencia

cat             3
elephant        3
dog             3
panda           3
kangaroo        3
zebra           3
giraffe         3
koala           3
tiger           3
lion            3
fish            3
bird            3
bear            2
monkey          2
leopard         1
hawk            1
owl             1
bat             1
squirrel        1
rabbit          1
fox             1
wolf            1
jaguar          1
penguin         1
cheetah         1
rhinoceros      1
hippopotamus    1
alligator       1
crocodile       1
ostrich         1
dolphin         1
whale           1
shark           1
eagle           1
Name: count, dtype: int64

In [44]:
# 3- Identificar las etiquetas de animales únicas presentes en los datos.  
animal = dec_animal_labels.unique()

animal

array(['cat', 'dog', 'bird', 'fish', 'lion', 'tiger', 'bear', 'elephant',
       'giraffe', 'zebra', 'kangaroo', 'koala', 'panda', 'monkey',
       'shark', 'whale', 'dolphin', 'penguin', 'ostrich', 'crocodile',
       'alligator', 'hippopotamus', 'rhinoceros', 'cheetah', 'leopard',
       'jaguar', 'wolf', 'fox', 'rabbit', 'squirrel', 'bat', 'owl',
       'hawk', 'eagle'], dtype=object)

In [46]:
# 4- Determinar el animal más frecuente y el menos frecuente.  
mas_frecuente = frecuencia.idxmax()
menos_frecuente = frecuencia.idxmin()

print(f"El animal mas frecuencte es el '{mas_frecuente}'")
print(f"El animal menos frecuencte es el '{menos_frecuente}'")

El animal mas frecuencte es el 'cat'
El animal menos frecuencte es el 'leopard'


In [48]:
"""
5- Agrupar los animales y contar la frecuencia por grupos (mamíferos, aves, 
      reptiles, etc.).  
"""

groups = {
    'mamíferos': ['cat', 'dog', 'lion', 'tiger', 'bear', 'elephant', 'zebra', 'kangaroo', 'koala', 'panda', 'monkey', 'jaguar', 'wolf', 'fox', 'rabbit', 'squirrel'],
    'aves': ['bird', 'giraffe', 'penguin', 'ostrich', 'bat', 'owl', 'hawk', 'eagle'],
    'reptiles': ['crocodile', 'alligator', 'hippopotamus', 'rhinoceros']
}

grupos_frecuencia = {group: dec_animal_labels.isin(animal).sum() for group, animal in groups.items()}

grupos_frecuencia


{'mamíferos': 36, 'aves': 12, 'reptiles': 4}

In [61]:
# 6- Identificar la posición de las primeras y últimas ocurrencias de cada animal. 
primera_ocurrencia = dec_animal_labels.groupby(dec_animal_labels).apply(lambda x: x.index[0])

ultima_ocurrencia = dec_animal_labels.groupby(dec_animal_labels).apply(lambda x: x.index[-1])

print(f"Primera ocurrencia: \n{primera_ocurrencia}")
print(f"Última ocurrencia: \n{ultima_ocurrencia}")

Primera ocurrencia: 
alligator       20
bat             30
bear             6
bird             2
cat              0
cheetah         23
crocodile       19
dog              1
dolphin         16
eagle           33
elephant         7
fish             3
fox             27
giraffe          8
hawk            32
hippopotamus    21
jaguar          25
kangaroo        10
koala           11
leopard         24
lion             4
monkey          13
ostrich         18
owl             31
panda           12
penguin         17
rabbit          28
rhinoceros      22
shark           14
squirrel        29
tiger            5
whale           15
wolf            26
zebra            9
dtype: int64
Última ocurrencia: 
alligator       20
bat             30
bear             6
bird             2
cat              0
cheetah         23
crocodile       19
dog              1
dolphin         16
eagle           33
elephant         7
fish             3
fox             27
giraffe          8
hawk            32
hippopotamus   

In [62]:
"""
 7- Generar un resumen estadístico de las frecuencias de los animales (media, mediana, desviación estándar).  

"""
frecuencia.describe()

count    34.000000
mean      1.764706
std       0.955330
min       1.000000
25%       1.000000
50%       1.000000
75%       3.000000
max       3.000000
Name: count, dtype: float64

In [66]:
# 8- Filtrar y mostrar solo los animales con una frecuencia mayor que 2.  
filtro_mayor_de_2 = frecuencia[frecuencia > 2]
filtro_mayor_de_2

cat         3
elephant    3
dog         3
panda       3
kangaroo    3
zebra       3
giraffe     3
koala       3
tiger       3
lion        3
fish        3
bird        3
Name: count, dtype: int64

In [67]:
# 9- Encontrar y mostrar las etiquetas de animales que aparecen solo una vez.
una_ocurrencia = frecuencia[frecuencia == 1]
una_ocurrencia

leopard         1
hawk            1
owl             1
bat             1
squirrel        1
rabbit          1
fox             1
wolf            1
jaguar          1
penguin         1
cheetah         1
rhinoceros      1
hippopotamus    1
alligator       1
crocodile       1
ostrich         1
dolphin         1
whale           1
shark           1
eagle           1
Name: count, dtype: int64

In [74]:
# 10- Calcular el porcentaje de apariciones de cada animal respecto al total. 
porciento = (frecuencia / len(dec_animal_labels)) * 100
porciento


cat             5.000000
elephant        5.000000
dog             5.000000
panda           5.000000
kangaroo        5.000000
zebra           5.000000
giraffe         5.000000
koala           5.000000
tiger           5.000000
lion            5.000000
fish            5.000000
bird            5.000000
bear            3.333333
monkey          3.333333
leopard         1.666667
hawk            1.666667
owl             1.666667
bat             1.666667
squirrel        1.666667
rabbit          1.666667
fox             1.666667
wolf            1.666667
jaguar          1.666667
penguin         1.666667
cheetah         1.666667
rhinoceros      1.666667
hippopotamus    1.666667
alligator       1.666667
crocodile       1.666667
ostrich         1.666667
dolphin         1.666667
whale           1.666667
shark           1.666667
eagle           1.666667
Name: count, dtype: float64

In [76]:
# 11- Ordenar las etiquetas de animales por frecuencia en orden descendente. 
orden_descendente = frecuencia.sort_values(ascending=False)

orden_descendente

cat             3
koala           3
elephant        3
fish            3
lion            3
tiger           3
bird            3
giraffe         3
zebra           3
kangaroo        3
panda           3
dog             3
bear            2
monkey          2
cheetah         1
shark           1
whale           1
dolphin         1
ostrich         1
crocodile       1
alligator       1
hippopotamus    1
rhinoceros      1
bat             1
penguin         1
jaguar          1
wolf            1
fox             1
rabbit          1
squirrel        1
owl             1
hawk            1
leopard         1
eagle           1
Name: count, dtype: int64

In [78]:
# 12- Generar un DataFrame que muestre la frecuencia acumulativa de las etiquetas.
frecuencia_acumulativa = frecuencia.cumsum()
df_frecuencia_acumulativa= pd.DataFrame({'Animal': frecuencia_acumulativa.index, 'Frecuencia acumulada': frecuencia_acumulativa.values})

df_frecuencia_acumulativa

Unnamed: 0,Animal,Frecuencia acumulada
0,cat,3
1,elephant,6
2,dog,9
3,panda,12
4,kangaroo,15
5,zebra,18
6,giraffe,21
7,koala,24
8,tiger,27
9,lion,30


### 2.10 Extension de tipos de datos categóricos en Pandas

Pandas tiene un tipo de extensión especial `Categorical` para contener datos que utilizan la representación o codificación categórica basada en enteros. Esta es una técnica popular de compresión de datos para datos con muchas ocurrencias de valores similares y puede proporcionar un rendimiento significativamente más rápido con un menor uso de memoria, especialmente para datos de cadenas.

Volvamos al ejemplo de la serie anterior:

In [103]:
fruits = ['apple', 'orange', 'apple', 'apple'] * 2

fruta = ['Mango', 'Piña', 'Piña', 'Mango'] * 3


In [104]:
N = len(fruits)
print(N)
print()
N1=len(fruta)
N1

8



12

In [105]:
rng = np.random.default_rng(seed=12345)

In [122]:
df = pd.DataFrame({'fruit': fruits,
                   'basket_id': np.arange(N),
                   'count': rng.integers(3, 15, size=N),
                   'weight': rng.uniform(0, 4, size=N)},
                    columns=['basket_id', 'fruit', 'count', 'weight'])

df1 = pd.DataFrame({'Fruta': fruta,
                   'Id': np.arange(N1),
                   'Cantidad': rng.integers(3, 15, size=N1),
                   'Peso': rng.uniform(0, 4, size=N1)},
                    columns=['Fruta', 'Id', 'Cantidad', 'Peso'])


print(df)
print()
print(df1)
print()
print(df['fruit'])
print()
df1['Fruta']

   basket_id   fruit  count    weight
0          0   apple     12  2.989498
1          1  orange      8  0.803369
2          2   apple     10  1.851017
3          3   apple     14  2.543766
4          4   apple     10  3.651182
5          5  orange      9  1.365126
6          6   apple      8  2.660173
7          7   apple      3  0.141289

    Fruta  Id  Cantidad      Peso
0   Mango   0         8  1.080839
1    Piña   1         3  2.783669
2    Piña   2        11  2.834449
3   Mango   3         8  3.904744
4   Mango   4         3  0.530979
5    Piña   5        10  0.385430
6    Piña   6         6  3.326940
7   Mango   7         6  1.105017
8   Mango   8        12  3.624836
9    Piña   9        11  2.286409
10   Piña  10         9  2.406878
11  Mango  11         6  0.018823

0     apple
1    orange
2     apple
3     apple
4     apple
5    orange
6     apple
7     apple
Name: fruit, dtype: object



0     Mango
1      Piña
2      Piña
3     Mango
4     Mango
5      Piña
6      Piña
7     Mango
8     Mango
9      Piña
10     Piña
11    Mango
Name: Fruta, dtype: object

Aquí, `df['fruta']` es un array de objetos de cadena de Python. Podemos convertirlo en categórico llamando a:

In [124]:
fruit_cat = df['fruit'].astype('category')
print(fruit_cat)
fruita_cat = df['fruit'].astype('category')
fruta_cate = df1['Fruta'].astype('category')
print()
fruta_cate

0     apple
1    orange
2     apple
3     apple
4     apple
5    orange
6     apple
7     apple
Name: fruit, dtype: category
Categories (2, object): ['apple', 'orange']



0     Mango
1      Piña
2      Piña
3     Mango
4     Mango
5      Piña
6      Piña
7     Mango
8     Mango
9      Piña
10     Piña
11    Mango
Name: Fruta, dtype: category
Categories (2, object): ['Mango', 'Piña']

Los valores de `fruit_cat` son ahora una instancia de pandas.Categorical, a la que se puede acceder mediante el atributo .array:

In [127]:
c = fruit_cat.array
type(c)
c1 = fruta_cate.array

El objeto `Categorical` tiene atributos de categorías y códigos:

In [151]:
c.categories

Index(['apple', 'orange'], dtype='object')

In [152]:
c.codes

array([0, 1, 0, 0, 0, 1, 0, 0], dtype=int8)

Un truco útil para obtener una correspondencia entre códigos y categorías es:

In [128]:
print(dict(enumerate(c.categories)))
print()
dict(enumerate(c1.categories))


{0: 'apple', 1: 'orange'}



{0: 'Mango', 1: 'Piña'}

Puede convertir una columna DataFrame en categórica asignando el resultado convertido:

In [154]:
df['fruit'] = df['fruit'].astype('category')
df1['Fruta'] = df1['Fruta'].astype('category')

In [129]:
print(df["fruit"])
print()
df1['Fruta']

0     apple
1    orange
2     apple
3     apple
4     apple
5    orange
6     apple
7     apple
Name: fruit, dtype: object



0     Mango
1      Piña
2      Piña
3     Mango
4     Mango
5      Piña
6      Piña
7     Mango
8     Mango
9      Piña
10     Piña
11    Mango
Name: Fruta, dtype: object

También puede crear `pandas.Categorical` directamente a partir de otros tipos de secuencias de Python:

In [130]:
my_categories = pd.Categorical(['foo', 'bar', 'baz', 'foo', 'bar'])
print(my_categories)
print()

mis_categorias = pd.Categorical(['lechuga','malanga','Puerro'])
mis_categorias

['foo', 'bar', 'baz', 'foo', 'bar']
Categories (3, object): ['bar', 'baz', 'foo']



['lechuga', 'malanga', 'Puerro']
Categories (3, object): ['Puerro', 'lechuga', 'malanga']

Si ha obtenido datos categóricos codificados de otra fuente, puede utilizar el constructor alternativo `from_codes`:

In [132]:
categories = ['foo', 'bar', 'baz']
categorias =['lechuga', 'malanga', 'Puerro']

codes = [0, 1, 2, 0, 0, 1]
codigo = [1, 0, 0, 1, 2, 1, 2, 2]

In [133]:
my_cats_2 = pd.Categorical.from_codes(codes, categories)
print(my_cats_2)
print()

mis_categorias_2 = pd.Categorical.from_codes(codigo, categorias)
mis_categorias_2

['foo', 'bar', 'baz', 'foo', 'foo', 'bar']
Categories (3, object): ['foo', 'bar', 'baz']



['malanga', 'lechuga', 'lechuga', 'malanga', 'Puerro', 'malanga', 'Puerro', 'Puerro']
Categories (3, object): ['lechuga', 'malanga', 'Puerro']

A menos que se especifique explícitamente, las conversiones categóricas no asumen un orden específico de las categorías. Por lo tanto, la matriz de categorías puede estar en un orden diferente dependiendo del orden de los datos de entrada. Cuando utilice `from_codes` o cualquiera de los otros constructores, puede indicar que las categorías tienen un orden significativo:

In [136]:
ordered_cat = pd.Categorical.from_codes(codes, categories,
                                        ordered=True)
print(ordered_cat)
print()
orden_asc_mis_categorias = pd.Categorical.from_codes(codes, categorias, ordered=True)
orden_asc_mis_categorias                          

['foo', 'bar', 'baz', 'foo', 'foo', 'bar']
Categories (3, object): ['foo' < 'bar' < 'baz']



['lechuga', 'malanga', 'Puerro', 'lechuga', 'lechuga', 'malanga']
Categories (3, object): ['lechuga' < 'malanga' < 'Puerro']

La salida `[foo < bar < baz]` indica que 'foo' precede a 'bar' en la ordenación, y así sucesivamente. Una instancia categórica desordenada puede ordenarse con `as_ordered`:

In [137]:
print(my_cats_2.as_ordered())
print()
mis_categorias_2.as_ordered()

['foo', 'bar', 'baz', 'foo', 'foo', 'bar']
Categories (3, object): ['foo' < 'bar' < 'baz']



['malanga', 'lechuga', 'lechuga', 'malanga', 'Puerro', 'malanga', 'Puerro', 'Puerro']
Categories (3, object): ['lechuga' < 'malanga' < 'Puerro']

Por último, los datos categóricos no tienen por qué ser cadenas, aunque sólo he mostrado ejemplos de cadenas. Un array categórico puede consistir en cualquier tipo de valor inmutable.

### 2.10 Cálculos con datos categorías

El uso de `Categorical` en pandas comparado con la versión no codificada (como un array de cadenas) generalmente se comporta de la misma manera. Algunas partes de pandas, como la función `groupby`, funcionan mejor cuando se trabaja con `categoricals`. También hay algunas funciones que pueden utilizar la bandera `ordered`.

Consideremos algunos datos numéricos aleatorios y utilicemos la función `pandas.qcut binning`. Esto devuelve `pandas.Categorical`; hemos usado `pandas.cut` anteriormente pero hemos pasado por alto los detalles de cómo funcionan los categóricos:

In [139]:
rng = np.random.default_rng(seed=12345)

draws = rng.standard_normal(1000)

draws[:5]

array([-1.42382504,  1.26372846, -0.87066174, -0.25917323, -0.07534331])

Calculemos un intervalo de cuartiles de estos datos y extraigamos algunas estadísticas:

In [156]:
bins = pd.qcut(draws, 4)
print(bins)
print()
bins1 = pd.qcut(draws, 3)
bins1

[(-3.121, -0.675], (0.687, 3.211], (-3.121, -0.675], (-0.675, 0.0134], (-0.675, 0.0134], ..., (0.0134, 0.687], (0.0134, 0.687], (-0.675, 0.0134], (0.0134, 0.687], (-0.675, 0.0134]]
Length: 1000
Categories (4, interval[float64, right]): [(-3.121, -0.675] < (-0.675, 0.0134] < (0.0134, 0.687] < (0.687, 3.211]]



[(-3.121, -0.395], (0.435, 3.211], (-3.121, -0.395], (-0.395, 0.435], (-0.395, 0.435], ..., (-0.395, 0.435], (-0.395, 0.435], (-3.121, -0.395], (0.435, 3.211], (-0.395, 0.435]]
Length: 1000
Categories (3, interval[float64, right]): [(-3.121, -0.395] < (-0.395, 0.435] < (0.435, 3.211]]

Aunque son útiles, los cuartiles exactos de la muestra pueden ser menos útiles para elaborar un informe que los nombres de los cuartiles. Podemos conseguirlo con el argumento labels de `qcut`:

In [157]:
bins = pd.qcut(draws, 4, labels=['Q1', 'Q2', 'Q3', 'Q4'])
bins1 = pd.qcut(draws, 4, labels=['Q1', 'Q2', 'Q3', 'Q4'])
print(bins)
print()
bins1

['Q1', 'Q4', 'Q1', 'Q2', 'Q2', ..., 'Q3', 'Q3', 'Q2', 'Q3', 'Q2']
Length: 1000
Categories (4, object): ['Q1' < 'Q2' < 'Q3' < 'Q4']



['Q1', 'Q4', 'Q1', 'Q2', 'Q2', ..., 'Q3', 'Q3', 'Q2', 'Q3', 'Q2']
Length: 1000
Categories (4, object): ['Q1' < 'Q2' < 'Q3' < 'Q4']

In [158]:
print(bins.codes[:10])
print()
bins1.codes[:10]

[0 3 0 1 1 0 0 2 2 0]



array([0, 3, 0, 1, 1, 0, 0, 2, 2, 0], dtype=int8)

La etiqueta categórica `bins` no contiene información sobre los bordes de los bins en los datos, por lo que podemos utilizar `groupby` para extraer algunos estadísticos de resumen:

In [159]:
bins = pd.Series(bins, name='quartile')

In [161]:
results = (pd.Series(draws)
           .groupby(bins)
           .agg(['count', 'min', 'max'])
           .reset_index())


# el método agg calcula las estadísticas resumidas para cada grupo, 
# en este caso, el número de elementos en cada grupo, 
# el valor mínimo y el valor máximo.
results

  .groupby(bins)


Unnamed: 0,quartile,count,min,max
0,Q1,250,-3.119609,-0.678494
1,Q2,250,-0.673305,0.008009
2,Q3,250,0.018753,0.686183
3,Q4,250,0.688282,3.211418


La columna "quartile" del resultado conserva la información categórica original, incluida la ordenación, de los intervalos:

In [162]:
results['quartile']

0    Q1
1    Q2
2    Q3
3    Q4
Name: quartile, dtype: category
Categories (4, object): ['Q1' < 'Q2' < 'Q3' < 'Q4']

### Mejor rendimiento con categóricos

Como anteriormente se ha dicho que los tipos categóricos pueden mejorar el rendimiento y el uso de memoria, así que veamos algunos ejemplos. Consideremos una serie con 10 millones de elementos y un pequeño número de categorías distintas:

In [170]:
N = 10_000_000

In [167]:
labels = pd.Series(['foo', 'bar', 'baz', 'qux'] * (N // 4))
labels1 = pd.Series(['bar', 'qux', 'qux', 'baz'] * (N // 4))
print(labels)
print()
labels1

0    foo
1    bar
2    baz
3    qux
4    foo
5    bar
6    baz
7    qux
dtype: object



0    bar
1    qux
2    qux
3    baz
4    bar
5    qux
6    qux
7    baz
dtype: object

Ahora convertimos las etiquetas en categóricas:

In [168]:
categories = labels.astype('category')
categorias = labels1.astype('category')
print(categories)
print()
categorias

0    foo
1    bar
2    baz
3    qux
4    foo
5    bar
6    baz
7    qux
dtype: category
Categories (4, object): ['bar', 'baz', 'foo', 'qux']



0    bar
1    qux
2    qux
3    baz
4    bar
5    qux
6    qux
7    baz
dtype: category
Categories (3, object): ['bar', 'baz', 'qux']

Ahora observamos que las etiquetas utilizan bastante más memoria que las categorías:

In [169]:
print(labels.memory_usage(deep=True))
print()
labels1.memory_usage(deep=True)

548



548

In [170]:
print(categories.memory_usage(deep=True))
print()
categorias.memory_usage(deep=True)

520



404

La conversión a categoría no es gratuita, por supuesto, pero es un coste único:

In [173]:
%time _ = labels.astype('category')


CPU times: total: 0 ns
Wall time: 1.01 ms


Las operaciones `GroupBy` pueden ser significativamente más rápidas con categóricas porque los algoritmos subyacentes utilizan arrays de códigos basada en enteros en lugar de un array  de cadenas. Aquí comparamos el rendimiento de value_counts(), que utiliza internamente la maquinaria `GroupBy`:

In [174]:
%timeit labels.value_counts()

187 µs ± 11 µs per loop (mean ± std. dev. of 7 runs, 10,000 loops each)


In [175]:
%timeit categories.value_counts()

323 µs ± 68.1 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


###  Métodos categóricos

Las series que contienen datos categóricos disponen de varios métodos especiales similares a los métodos de cadena especializados de Series.str. Esto también proporciona un acceso conveniente a las categorías y códigos. Considere la Serie:

In [176]:
s = pd.Series(['a', 'b', 'c', 'd'] * 2)
s1 = pd.Series(['e', 'f', 'g', 'h'] * 2)
    
cat_s = s.astype('category')
cate_s = s1.astype('category')
print(cat_s)
print()
cate_s

0    a
1    b
2    c
3    d
4    a
5    b
6    c
7    d
dtype: category
Categories (4, object): ['a', 'b', 'c', 'd']



0    e
1    f
2    g
3    h
4    e
5    f
6    g
7    h
dtype: category
Categories (4, object): ['e', 'f', 'g', 'h']

El atributo especial de acceso `cat` proporciona acceso a métodos categóricos:

In [177]:
print(cat_s.cat.codes)
print()
cate_s.cat.codes

0    0
1    1
2    2
3    3
4    0
5    1
6    2
7    3
dtype: int8



0    0
1    1
2    2
3    3
4    0
5    1
6    2
7    3
dtype: int8

In [179]:
print(cat_s.cat.categories)
print()
cate_s.cat.categories


Index(['a', 'b', 'c', 'd'], dtype='object')



Index(['e', 'f', 'g', 'h'], dtype='object')

Supongamos que sabemos que el conjunto real de categorías para estos datos se extiende más allá de los cuatro valores observados en los datos. Podemos utilizar el método `set_categories` para cambiarlas:

In [188]:
actual_categories = ['a', 'b', 'c', 'd', 'e']
actual_categorias = ['e', 'f', 'g', 'h']

cat_s2 = cat_s.cat.set_categories(actual_categories)
cat_s3 = cate_s.cat.set_categories(actual_categorias)

print(cat_s2)
print()
cat_s3

0    a
1    b
2    c
3    d
4    a
5    b
6    c
7    d
dtype: category
Categories (5, object): ['a', 'b', 'c', 'd', 'e']



0    e
1    f
2    g
3    h
4    e
5    f
6    g
7    h
dtype: category
Categories (4, object): ['e', 'f', 'g', 'h']

Aunque parezca que los datos no cambian, las nuevas categorías se reflejarán en las operaciones que las utilicen. Por ejemplo, value_counts respeta las categorías, si están presentes:



In [190]:
print(cat_s.value_counts())
print()
cate_s.value_counts()

a    2
b    2
c    2
d    2
Name: count, dtype: int64



e    2
f    2
g    2
h    2
Name: count, dtype: int64

In [187]:
cat_s2.value_counts()

a    2
b    2
c    2
d    2
e    0
Name: count, dtype: int64

En grandes conjuntos de datos, las categorías se utilizan a menudo como una herramienta conveniente para ahorrar memoria y mejorar el rendimiento. Después de filtrar un gran DataFrame o Series, muchas de las categorías pueden no aparecer en los datos. Para ayudar con esto, podemos utilizar el método remove_unused_categories para recortar las categorías no observadas:

In [191]:
cat_s3 = cat_s[cat_s.isin(['a', 'b'])]
cate_s3 = cate_s[cate_s.isin(['f','g'])]
print(cat_s3)
print()
cate_s3

0    a
1    b
4    a
5    b
dtype: category
Categories (4, object): ['a', 'b', 'c', 'd']



1    f
2    g
5    f
6    g
dtype: category
Categories (4, object): ['e', 'f', 'g', 'h']

In [193]:
print(cat_s3.cat.remove_unused_categories())
print()
cate_s3.cat.remove_unused_categories()

0    a
1    b
4    a
5    b
dtype: category
Categories (2, object): ['a', 'b']



1    f
2    g
5    f
6    g
dtype: category
Categories (2, object): ['f', 'g']

In [194]:
cate_s3

1    f
2    g
5    f
6    g
dtype: category
Categories (4, object): ['e', 'f', 'g', 'h']