# Ayudantía 3: Text & Categories

En esta ayudantía estudiaremos principalmente el uso de los tipos de datos `string` y `category`, y cuales son los metodos que usaremos para trabajar con este tipo de datos

## Texto

Como siempre, antes que todo importamos las librerias

In [1]:
import pandas as pd
import os
import numpy as np
pd.set_option("display.max_columns", 999)  # Permite mostrar hasta 999 columnas de un DataFrame en Jupyter.

Pebenos notas qué, al crear una Serie o Dataframe, sus elementos son designados como `object` (como podemos ver más abajo), que es la designacion generica 

In [2]:
s = pd.Series(['a', 'b', 'c'])
s

0    a
1    b
2    c
dtype: object

Para que la serie sea del tipo de dato `string`, hay que espesificarlo, o al cerar la serie:

In [3]:
s = pd.Series(['a', 'b', 'c'], dtype="string")
s

0    a
1    b
2    c
dtype: string

In [4]:
s = pd.Series(['a', 'b', 'c'], dtype=pd.StringDtype()) #estas dos fomas hacen los mismo
s

0    a
1    b
2    c
dtype: string

o con la serie ya creada:

In [5]:
s = pd.Series(['a', 'b', 'c'])
s = s.astype("string") 
s

0    a
1    b
2    c
dtype: string

Si tenemos un dataframe lo podemos hacer de forma similar:

In [6]:
df = pd.DataFrame({"A": ["a", "b", "c", "a"]})
df["A"] = df["A"].astype('string')
df['A']

0    a
1    b
2    c
3    a
Name: A, dtype: string

## Metodos

Los metodos son "funciones" que le podemos aplicar a una serie que tenga un `dtype` especifico, en este caso siendo `string`. Estas nos permitiraran hacer (casi) de todo, modificar, filtrar, transformar, entre muchas otras cosas. Ahora haremos una pincelada por metodos que podemos usar, pero hay muchos más. Si quiren explorar aun más profundo está la [documentación](https://pandas.pydata.org/docs/user_guide/text.html) de pandas, donde hay una lista completa de todos los metodos, además de más ejemplos:

In [7]:
s = pd.Series(['A', 'B', 'C', 'Aaba', 'Baca','acac', np.nan, 'CABA', 'dog', 'cat'], dtype="string") #serie que nos permitirá trabajar

Empecemos con cosas relacionadas a formato:

In [8]:
s.str.lower() #todo en minusculas

0       a
1       b
2       c
3    aaba
4    baca
5    acac
6    <NA>
7    caba
8     dog
9     cat
dtype: string

In [9]:
s.str.upper() #todo en mayusculas

0       A
1       B
2       C
3    AABA
4    BACA
5    ACAC
6    <NA>
7    CABA
8     DOG
9     CAT
dtype: string

Podemos preguntar el largo de cada `string`

In [10]:
s.str.len()

0       1
1       1
2       1
3       4
4       4
5       4
6    <NA>
7       4
8       3
9       3
dtype: Int64

Podemos preguntar cuales de los elementos comienza con un `string` en particular:

In [11]:
s.str.match("A")

0     True
1    False
2    False
3     True
4    False
5    False
6     <NA>
7    False
8    False
9    False
dtype: boolean

Notemos que este nos entrega una Serie de valores `boolean`, lo que nos permite usarla para "filtrar" de esta forma 

In [12]:
s[s.str.match("A")]

0       A
3    Aaba
dtype: string

Si quisieramos hacer algo similar, pero ignorando mayuscula y minuscula, podemos:

In [13]:
s[s.str.lower().str.match("a")] #Si! Podemos concatenar operaciones

0       A
3    Aaba
5    acac
dtype: string

O si quisieramos saber que elementos consitnene un `string` en particular:

In [14]:
s[s.str.contains('ca')]

4    Baca
5    acac
9     cat
dtype: string

Y podemos, tambien, contar la cantidad de veces que un `string` aparace

In [15]:
s.str.count("a")

0       0
1       0
2       0
3       2
4       2
5       2
6    <NA>
7       0
8       0
9       1
dtype: Int64

Y lo ultimo sobre texto que les mostraré será esto:

In [16]:
s.str[1]

0    <NA>
1    <NA>
2    <NA>
3       a
4       a
5       c
6    <NA>
7       A
8       o
9       a
dtype: string

Que nos retorna el elemento en la posición 1 de todos los strings en la serie

### Formating

Algo para lo que pueden ser muy utiles estos metodos, es para realizar *formating* en columnas. Por ejemplo

In [17]:
df = pd.DataFrame(np.random.randn(3, 2),columns=[' Column A ', ' Column B '], index=range(3))
df

Unnamed: 0,Column A,Column B
0,-0.708094,0.257832
1,-1.170355,-0.605535
2,-0.074776,-0.154183


Podemos ver que los nombres de estas columnas poseen espacios entre palabras, espacios a los lados, y mayusculas. Esto puede presentar un problema en algunas ocasiones, además de ser molesto a la hora de programar, es molesto tener que escribir `df[ Column A ] = ...` cada vez que queremos hacer algo, y para esto podemos hacer cambios que nos hagan más ameno trabajar con esta:

In [18]:
df.columns.str.strip() #elimina los espacios a los lados

Index(['Column A', 'Column B'], dtype='object')

In [19]:
df.columns.str.lower() #todo minusculas

Index([' column a ', ' column b '], dtype='object')

In [20]:
df.columns = df.columns.str.strip().str.lower().str.replace(' ', '_')
df

Unnamed: 0,column_a,column_b
0,-0.708094,0.257832
1,-1.170355,-0.605535
2,-0.074776,-0.154183


Podemos ver que el resultado son nombres en columnas que son mucho más fáciles de trabajar, es mucho más comodo escribir `df[column_a] = ...` 

## Categoricals
Citando de la documentacion de pandas: *Categoricals are a pandas data type corresponding to categorical variables in statistics. A categorical variable takes on a limited, and usually fixed, number of possible values (categories; levels in R). Examples are gender, social class, blood type, country affiliation, observation time or rating via Likert scales.*

*In contrast to statistical categorical variables, categorical data might have an order (e.g. ‘strongly agree’ vs ‘agree’ or ‘first observation’ vs. ‘second observation’), but numerical operations (additions, divisions, …) are not possible.*
 
tl;dr: Son valores limitados y usualmente fijos, que pueden o no tener un orden, pero no se les pueden hacer opraciones numericas

Para invocarlas lo hacemos de la misma forma que con los `strings`

In [21]:
s = pd.Series(["a", "b", "c", "a"], dtype="category")
s

0    a
1    b
2    c
3    a
dtype: category
Categories (3, object): [a, b, c]

Lo podemos hacer al momentos de crearla, o lo podemos asignar luego 

In [22]:
df = pd.DataFrame({"A": ["a", "b", "c", "a"]})
df["B"] = df["A"].astype('category')
df

Unnamed: 0,A,B
0,a,a
1,b,b
2,c,c
3,a,a


In [23]:
df.dtypes 

A      object
B    category
dtype: object

In [24]:
df['B'] #podemos ver que la categoria se creo de forma automática

0    a
1    b
2    c
3    a
Name: B, dtype: category
Categories (3, object): [a, b, c]

Existe gran variedad de funciones que nos permiten asignar categorias a dataframes ya existentes:

In [25]:
df = pd.DataFrame({'value': np.random.randint(0, 100, 20)})
df.head()

Unnamed: 0,value
0,43
1,68
2,37
3,84
4,23


In [26]:
# pd.cut? #descomente para ver la doscumentacion de cut

Entre estas está `cut` para, que nos permite usar etiquetas ya hechas para separar valores numericos en intervalos

In [27]:
labels = ["{0} - {1}".format(i, i + 9) for i in range(0, 100, 10)] #acá estamos creando las eqitas de la forma i - i+9
df['group'] = pd.cut( #aca le decimos, en una nueva columna llamada 'grorp'
                     df.value # usa estos datos
                     , range(0, 105, 10) #y estos limites 
                     , right=False #sin el limite de la derecha
                     , labels=labels #usando estas etiquetas
                    ) 
df.head()

Unnamed: 0,value,group
0,43,40 - 49
1,68,60 - 69
2,37,30 - 39
3,84,80 - 89
4,23,20 - 29


In [28]:
df.dtypes

value       int32
group    category
dtype: object

Y podemos ver que cada numero esta asignado a la categoria que corresponde. 

Notemos que una categoria esta definida completamente por dos elementos: 
 
* Las categorias en sí, una secuancia de valores unicos y sin valores perdidos
* Su orden, un booleano que explicita si la categoria es ordenada o no

lo podemos ver aquí:


In [29]:
df['group'].cat.categories

Index(['0 - 9', '10 - 19', '20 - 29', '30 - 39', '40 - 49', '50 - 59',
       '60 - 69', '70 - 79', '80 - 89', '90 - 99'],
      dtype='object')

In [30]:
df['group'].cat.ordered #cut genera catogorias ordenadas

True

### Metodos

De la misma forma que con los `string`, las categorias tiene su abanico de metodos que nos permiten trabajar con ellas, por ejemplo:

In [31]:
s = pd.Series(["a", "b", "c", "a"], dtype="category")
s

0    a
1    b
2    c
3    a
dtype: category
Categories (3, object): [a, b, c]

Podemos renombrar las categorias, usando de base los valores existentes:

In [32]:
s.cat.categories = ["Group %s" % g for g in s.cat.categories]
s

0    Group a
1    Group b
2    Group c
3    Group a
dtype: category
Categories (3, object): [Group a, Group b, Group c]

Podemos usar una lista totalmente distinta 

In [33]:
s = s.cat.rename_categories([1, 2, 3])
s

0    1
1    2
2    3
3    1
dtype: category
Categories (3, int64): [1, 2, 3]

O podemos usar diccionarios con el fin de hacer un cambio elemento por elemento

In [34]:
s = s.cat.rename_categories({2: 'y', 1: 'x' , 3: 'z'})
s

0    x
1    y
2    z
3    x
dtype: category
Categories (3, object): [x, y, z]

Podemos agregar elementos nuevos a la categoria:

In [35]:
s = s.cat.add_categories([4])
s

0    x
1    y
2    z
3    x
dtype: category
Categories (4, object): [x, y, z, 4]

Y podemos remover

In [36]:
s = s.cat.remove_categories([4])
s

0    x
1    y
2    z
3    x
dtype: category
Categories (3, object): [x, y, z]

Algo que puede ser muy util para ahorrar memoria, podemos remover todas las categorias en desuso:

In [37]:
s1 = pd.Series(pd.Categorical(["a", "b", "a"],categories=["a", "b", "c", "d"]))
s1

0    a
1    b
2    a
dtype: category
Categories (4, object): [a, b, c, d]

In [38]:
s1 = s1.cat.remove_unused_categories()
s1

0    a
1    b
2    a
dtype: category
Categories (2, object): [a, b]

Si las categorias son ordendas, tenemos otro abanico de herramientas para usar:

In [39]:
s2 = pd.Series(["a", "b", "c", "a"]).astype(pd.CategoricalDtype(ordered=True))

Podemos ordenar, tambien como llamar al máximo y al mínimo

In [40]:
s2.sort_values(inplace=True)
s2

0    a
3    a
1    b
2    c
dtype: category
Categories (3, object): [a < b < c]

In [41]:
s2

0    a
3    a
1    b
2    c
dtype: category
Categories (3, object): [a < b < c]

In [42]:
s2.min(), s2.max()

('a', 'c')

Notemos que el orden tiene todo que ver con como lo predeterminamos, y no con oredenes léxicos y/o numericos, i.e.:

In [43]:
s3 = pd.Series([1, 2, 3, 1], dtype="category")
s3 = s3.cat.set_categories([2, 3, 1], ordered=True)
s3

0    1
1    2
2    3
3    1
dtype: category
Categories (3, int64): [2 < 3 < 1]

In [44]:
s3.sort_values(inplace=True)
s3

1    2
2    3
0    1
3    1
dtype: category
Categories (3, int64): [2 < 3 < 1]

Dado que podemos asignar un orden a las categorias, podemos aprovechar para hacer orden en multiples columnas:

In [45]:
df1 = pd.DataFrame({'A': pd.Categorical(list('bbeebbaa'),categories=['e', 'a', 'b'],ordered=True),'B': [1, 2, 1, 2, 2, 1, 2, 1]})
df1.sort_values(by=['A', 'B'])

Unnamed: 0,A,B
2,e,1
3,e,2
7,a,1
6,a,2
0,b,1
5,b,1
1,b,2
4,b,2


Lo ultimo que veremos son comparaciones, si tenemos Series distintas, pero que poseen las mismas categorias, podemos realizar comparaciones como: 

In [46]:
cat = pd.Series([1, 2, 3]).astype(
    pd.CategoricalDtype([3, 2, 1], ordered=True)
)


cat_base = pd.Series([2, 2, 2]).astype(
    pd.CategoricalDtype([3, 2, 1], ordered=True)
)

In [47]:
cat

0    1
1    2
2    3
dtype: category
Categories (3, int64): [3 < 2 < 1]

In [48]:
cat_base

0    2
1    2
2    2
dtype: category
Categories (3, int64): [3 < 2 < 1]

Podemos hacer lo típico

In [49]:
cat > cat_base #comparar con otra serie

0     True
1    False
2    False
dtype: bool

In [50]:
cat > 2 #con un elemento de la categoria 

0     True
1    False
2    False
dtype: bool

In [51]:
cat == cat_base #igualdades

0    False
1     True
2    False
dtype: bool

In [52]:
cat != cat_base #desigualdades

0     True
1    False
2     True
dtype: bool

Hay muchisimo que no alcanzamos a ver, para esto la [documentacion](https://pandas.pydata.org/docs/user_guide/categorical.html) es tu amiga (casi tanto como Stack Overflow)