# Clase 11: Manuipulación de strings, datetimes y categorías

**MDS7202: Laboratorio de Programación Científica para Ciencia de Datos**}

## Objetivos

- Comprender el cómo manipular y analizar datos de texto de manera eficiente y efectiva con Pandas.



In [1]:
import pandas as pd

## Datasets de Hoy


In [None]:
# setear opciones para mostrar todas las filas y columnas
# cuidado al ejecutar esto en sus notebooks, se puede quedar pegado el navegador!
pd.set_option("display.max_colwidth", None)
pd.set_option("display.max_colwidth", None)

## 1.- Strings

### Motivación

<div align='center'>
<img src='https://raw.githubusercontent.com/MDS7202/MDS7202/main/recursos/2023-01/11-Pandas4/pets.jpg' alt='Mascotas' width=600/>
</div>

Supongamos que poseemos un dataset generado a partir de [_web scrapping_](https://es.wikipedia.org/wiki/Web_scraping) que contiene el nombre de una mascota más el resumen (_abstract_) de la página asociada a estos en Wikipedia.


In [3]:
mascotas = [
    [
        "Perro",
        "  El perro (Canis familiaris o Canis lupus familiaris, dependiendo de si "
        "se lo considera una especie por derecho propio o una subespecie del "
        "lobo),1​2​3​ llamado perro doméstico o can,4​ y en algunos lugares"
        " coloquialmente llamado chucho,5​ tuso,6​ choco,7​ entre otros; es un "
        "mamífero carnívoro de la familia de los cánidos, que constituye "
        "una especie del género Canis.8​9​. Posee un oído y un olfato muy "
        "desarrollados, y este último es su principal órgano sensorial.  \n"
        ],
    [
        "Gato",
        "  El gato doméstico1​2​ (Felis silvestris catus), llamado popularmente "
        "gato, y de forma coloquial minino,3​ michino,4​ michi,5​ micho,"
        "6​ mizo,7​ miz,8​ morroño9​ o morrongo,10​ entre otros nombres, es "
        "un mamífero carnívoro de la familia Felidae. Es una subespecie "
        "domesticada por la convivencia con el ser humano.  \n"
    ],
    [
        "Canario",
        "  El canario doméstico (Serinus canaria domestica)3​4​ es una "
        "subespecie desarrollada durante siglos de selección en cautividad "
        "partiendo de ejemplares del canario silvestre o canario salvaje "
        "(Serinus canaria), una especie de ave del orden paseriforme de "
        "la familia de los fringílidos, endémica de las islas Canarias, "
        "Azores y Madeira.5​6​   \n"
    ],
]
df_mascotas = pd.DataFrame(mascotas, columns=["nombre", "resumen"])
df_mascotas

Unnamed: 0,nombre,resumen
0,Perro,El perro (Canis familiaris o Canis lupus fam...
1,Gato,El gato doméstico1​2​ (Felis silvestris catu...
2,Canario,El canario doméstico (Serinus canaria domest...


Notemos qué sucede al acceder al resumen del Perro.

In [4]:
resumen_perro = df_mascotas.loc[0, "resumen"]
resumen_perro

'  El perro (Canis familiaris o Canis lupus familiaris, dependiendo de si se lo considera una especie por derecho propio o una subespecie del lobo),1\u200b2\u200b3\u200b llamado perro doméstico o can,4\u200b y en algunos lugares coloquialmente llamado chucho,5\u200b tuso,6\u200b choco,7\u200b entre otros; es un mamífero carnívoro de la familia de los cánidos, que constituye una especie del género Canis.8\u200b9\u200b. Posee un oído y un olfato muy desarrollados, y este último es su principal órgano sensorial.  \n'

> **Pregunta ❓**: ¿Qué representa el símbolo `\n`?

> **Pregunta ❓:** ¿Podemos utilizar directamente el texto tal cuál está, por ejemplo, para hacer un buscador? ¿Qué poemos hacer al respecto?

En muchas ocasiones, los conjuntos de datos que se utilizan en análisis de datos incluyen una columna que contiene texto. Sin embargo, este texto no siempre está listo para ser utilizado directamente, ya que puede presentarse de manera desordenada y con errores. Por esta razón, es de suma importancia aprender a preprocesar el texto antes de utilizarlo en análisis posteriores.


Las `Series` de pandas implementan diversos métodos de procesamiento de string que permiten operar facilmente con estos. Por lo general, estos métodos son una réplica de los métodos originales de la clase built-in `string`, los cuales veremos a continuación:

### Métodos de la Clase String

Python cuenta con una variedad de métodos built-in para procesar strings. Algunos de los métodos más comunes son:

In [5]:
resumen_perro

'  El perro (Canis familiaris o Canis lupus familiaris, dependiendo de si se lo considera una especie por derecho propio o una subespecie del lobo),1\u200b2\u200b3\u200b llamado perro doméstico o can,4\u200b y en algunos lugares coloquialmente llamado chucho,5\u200b tuso,6\u200b choco,7\u200b entre otros; es un mamífero carnívoro de la familia de los cánidos, que constituye una especie del género Canis.8\u200b9\u200b. Posee un oído y un olfato muy desarrollados, y este último es su principal órgano sensorial.  \n'

#### `len`

Devuelve la longitud de una cadena de caracteres

In [6]:
len(resumen_perro)

471

#### `.lower`

Convierte todos los caracteres de un string a minúsculas.

In [7]:
resumen_perro.lower()

'  el perro (canis familiaris o canis lupus familiaris, dependiendo de si se lo considera una especie por derecho propio o una subespecie del lobo),1\u200b2\u200b3\u200b llamado perro doméstico o can,4\u200b y en algunos lugares coloquialmente llamado chucho,5\u200b tuso,6\u200b choco,7\u200b entre otros; es un mamífero carnívoro de la familia de los cánidos, que constituye una especie del género canis.8\u200b9\u200b. posee un oído y un olfato muy desarrollados, y este último es su principal órgano sensorial.  \n'

#### `.upper()`

Convierte todos los caracteres de un string a mayúsculas.

In [8]:
resumen_perro.upper()

'  EL PERRO (CANIS FAMILIARIS O CANIS LUPUS FAMILIARIS, DEPENDIENDO DE SI SE LO CONSIDERA UNA ESPECIE POR DERECHO PROPIO O UNA SUBESPECIE DEL LOBO),1\u200b2\u200b3\u200b LLAMADO PERRO DOMÉSTICO O CAN,4\u200b Y EN ALGUNOS LUGARES COLOQUIALMENTE LLAMADO CHUCHO,5\u200b TUSO,6\u200b CHOCO,7\u200b ENTRE OTROS; ES UN MAMÍFERO CARNÍVORO DE LA FAMILIA DE LOS CÁNIDOS, QUE CONSTITUYE UNA ESPECIE DEL GÉNERO CANIS.8\u200b9\u200b. POSEE UN OÍDO Y UN OLFATO MUY DESARROLLADOS, Y ESTE ÚLTIMO ES SU PRINCIPAL ÓRGANO SENSORIAL.  \n'

#### `.title()`

title(): Convierte la primera letra de cada palabra de una cadena en mayúscula.

In [9]:
resumen_perro.title()

'  El Perro (Canis Familiaris O Canis Lupus Familiaris, Dependiendo De Si Se Lo Considera Una Especie Por Derecho Propio O Una Subespecie Del Lobo),1\u200b2\u200b3\u200b Llamado Perro Doméstico O Can,4\u200b Y En Algunos Lugares Coloquialmente Llamado Chucho,5\u200b Tuso,6\u200b Choco,7\u200b Entre Otros; Es Un Mamífero Carnívoro De La Familia De Los Cánidos, Que Constituye Una Especie Del Género Canis.8\u200b9\u200b. Posee Un Oído Y Un Olfato Muy Desarrollados, Y Este Último Es Su Principal Órgano Sensorial.  \n'

#### `.capitalize()`

capitalize(): Convierte la primera letra de una cadena en mayúscula.

In [10]:
resumen_perro.capitalize()

'  el perro (canis familiaris o canis lupus familiaris, dependiendo de si se lo considera una especie por derecho propio o una subespecie del lobo),1\u200b2\u200b3\u200b llamado perro doméstico o can,4\u200b y en algunos lugares coloquialmente llamado chucho,5\u200b tuso,6\u200b choco,7\u200b entre otros; es un mamífero carnívoro de la familia de los cánidos, que constituye una especie del género canis.8\u200b9\u200b. posee un oído y un olfato muy desarrollados, y este último es su principal órgano sensorial.  \n'

#### `.strip()`

Elimina los espacios en blanco al principio y al final de una cadena.

In [11]:
resumen_perro

'  El perro (Canis familiaris o Canis lupus familiaris, dependiendo de si se lo considera una especie por derecho propio o una subespecie del lobo),1\u200b2\u200b3\u200b llamado perro doméstico o can,4\u200b y en algunos lugares coloquialmente llamado chucho,5\u200b tuso,6\u200b choco,7\u200b entre otros; es un mamífero carnívoro de la familia de los cánidos, que constituye una especie del género Canis.8\u200b9\u200b. Posee un oído y un olfato muy desarrollados, y este último es su principal órgano sensorial.  \n'

In [12]:
resumen_perro.strip()

'El perro (Canis familiaris o Canis lupus familiaris, dependiendo de si se lo considera una especie por derecho propio o una subespecie del lobo),1\u200b2\u200b3\u200b llamado perro doméstico o can,4\u200b y en algunos lugares coloquialmente llamado chucho,5\u200b tuso,6\u200b choco,7\u200b entre otros; es un mamífero carnívoro de la familia de los cánidos, que constituye una especie del género Canis.8\u200b9\u200b. Posee un oído y un olfato muy desarrollados, y este último es su principal órgano sensorial.'

#### `.split()`

Divide una cadena en una lista de substrings, utilizando un string (habitualmente `" "`) como separador.

In [13]:
resumen_perro

'  El perro (Canis familiaris o Canis lupus familiaris, dependiendo de si se lo considera una especie por derecho propio o una subespecie del lobo),1\u200b2\u200b3\u200b llamado perro doméstico o can,4\u200b y en algunos lugares coloquialmente llamado chucho,5\u200b tuso,6\u200b choco,7\u200b entre otros; es un mamífero carnívoro de la familia de los cánidos, que constituye una especie del género Canis.8\u200b9\u200b. Posee un oído y un olfato muy desarrollados, y este último es su principal órgano sensorial.  \n'

In [14]:
resumen_perro.split(" ")

['',
 '',
 'El',
 'perro',
 '(Canis',
 'familiaris',
 'o',
 'Canis',
 'lupus',
 'familiaris,',
 'dependiendo',
 'de',
 'si',
 'se',
 'lo',
 'considera',
 'una',
 'especie',
 'por',
 'derecho',
 'propio',
 'o',
 'una',
 'subespecie',
 'del',
 'lobo),1\u200b2\u200b3\u200b',
 'llamado',
 'perro',
 'doméstico',
 'o',
 'can,4\u200b',
 'y',
 'en',
 'algunos',
 'lugares',
 'coloquialmente',
 'llamado',
 'chucho,5\u200b',
 'tuso,6\u200b',
 'choco,7\u200b',
 'entre',
 'otros;',
 'es',
 'un',
 'mamífero',
 'carnívoro',
 'de',
 'la',
 'familia',
 'de',
 'los',
 'cánidos,',
 'que',
 'constituye',
 'una',
 'especie',
 'del',
 'género',
 'Canis.8\u200b9\u200b.',
 'Posee',
 'un',
 'oído',
 'y',
 'un',
 'olfato',
 'muy',
 'desarrollados,',
 'y',
 'este',
 'último',
 'es',
 'su',
 'principal',
 'órgano',
 'sensorial.',
 '',
 '\n']

In [15]:
resumen_perro

'  El perro (Canis familiaris o Canis lupus familiaris, dependiendo de si se lo considera una especie por derecho propio o una subespecie del lobo),1\u200b2\u200b3\u200b llamado perro doméstico o can,4\u200b y en algunos lugares coloquialmente llamado chucho,5\u200b tuso,6\u200b choco,7\u200b entre otros; es un mamífero carnívoro de la familia de los cánidos, que constituye una especie del género Canis.8\u200b9\u200b. Posee un oído y un olfato muy desarrollados, y este último es su principal órgano sensorial.  \n'

> **Pregunta: ❓**: ¿Cómo podría separar oraciones?

In [16]:
oraciones_divididas = resumen_perro.split(".")

In [17]:
for oracion in oraciones_divididas:
    print(oracion.strip().capitalize(), '\n')

El perro (canis familiaris o canis lupus familiaris, dependiendo de si se lo considera una especie por derecho propio o una subespecie del lobo),1​2​3​ llamado perro doméstico o can,4​ y en algunos lugares coloquialmente llamado chucho,5​ tuso,6​ choco,7​ entre otros; es un mamífero carnívoro de la familia de los cánidos, que constituye una especie del género canis 

8​9​ 

Posee un oído y un olfato muy desarrollados, y este último es su principal órgano sensorial 

 



#### `join("")`

Une una lista de strings en un único string según algún separador (comunmente un espacio `" "`, punto `"."` o salto e linea `"\n"`).

In [18]:
"-".join(oraciones_divididas)

'  El perro (Canis familiaris o Canis lupus familiaris, dependiendo de si se lo considera una especie por derecho propio o una subespecie del lobo),1\u200b2\u200b3\u200b llamado perro doméstico o can,4\u200b y en algunos lugares coloquialmente llamado chucho,5\u200b tuso,6\u200b choco,7\u200b entre otros; es un mamífero carnívoro de la familia de los cánidos, que constituye una especie del género Canis-8\u200b9\u200b- Posee un oído y un olfato muy desarrollados, y este último es su principal órgano sensorial-  \n'

#### `str1 in str2`

Devuelve True si un substring está presente en un string.

In [19]:
resumen_perro

'  El perro (Canis familiaris o Canis lupus familiaris, dependiendo de si se lo considera una especie por derecho propio o una subespecie del lobo),1\u200b2\u200b3\u200b llamado perro doméstico o can,4\u200b y en algunos lugares coloquialmente llamado chucho,5\u200b tuso,6\u200b choco,7\u200b entre otros; es un mamífero carnívoro de la familia de los cánidos, que constituye una especie del género Canis.8\u200b9\u200b. Posee un oído y un olfato muy desarrollados, y este último es su principal órgano sensorial.  \n'

In [20]:
"perro" in resumen_perro

True

In [21]:
"gato" in resumen_perro

False

#### `.replace()`

Reemplaza un substring con otro en una string.

In [22]:
# por ejemplo, eliminar la palabra perro.

resumen_perro.replace("perro", "")

'  El  (Canis familiaris o Canis lupus familiaris, dependiendo de si se lo considera una especie por derecho propio o una subespecie del lobo),1\u200b2\u200b3\u200b llamado  doméstico o can,4\u200b y en algunos lugares coloquialmente llamado chucho,5\u200b tuso,6\u200b choco,7\u200b entre otros; es un mamífero carnívoro de la familia de los cánidos, que constituye una especie del género Canis.8\u200b9\u200b. Posee un oído y un olfato muy desarrollados, y este último es su principal órgano sensorial.  \n'

In [23]:
# notar que es sensible a mayúsculas.
resumen_perro.replace("Perro", "")

'  El perro (Canis familiaris o Canis lupus familiaris, dependiendo de si se lo considera una especie por derecho propio o una subespecie del lobo),1\u200b2\u200b3\u200b llamado perro doméstico o can,4\u200b y en algunos lugares coloquialmente llamado chucho,5\u200b tuso,6\u200b choco,7\u200b entre otros; es un mamífero carnívoro de la familia de los cánidos, que constituye una especie del género Canis.8\u200b9\u200b. Posee un oído y un olfato muy desarrollados, y este último es su principal órgano sensorial.  \n'

In [24]:
resumen_perro.replace("perro", "gato")

'  El gato (Canis familiaris o Canis lupus familiaris, dependiendo de si se lo considera una especie por derecho propio o una subespecie del lobo),1\u200b2\u200b3\u200b llamado gato doméstico o can,4\u200b y en algunos lugares coloquialmente llamado chucho,5\u200b tuso,6\u200b choco,7\u200b entre otros; es un mamífero carnívoro de la familia de los cánidos, que constituye una especie del género Canis.8\u200b9\u200b. Posee un oído y un olfato muy desarrollados, y este último es su principal órgano sensorial.  \n'

### Strings en pandas

La mayoría de los métodos de procesamiento de strings que se vieron anteriormente pueden ser ejecutados a través del atributo `.str` en las series de Pandas.

La idea detrás del uso de los métodos de .str es que el preprocesamiento se haga de manera ordenada y eficiente. Al utilizar estos métodos, los usuarios pueden aplicar una variedad de transformaciones a sus datos de texto en una sola línea de código, lo que facilita el procesamiento de grandes conjuntos de datos de texto.

In [25]:
df_mascotas

Unnamed: 0,nombre,resumen
0,Perro,El perro (Canis familiaris o Canis lupus fam...
1,Gato,El gato doméstico1​2​ (Felis silvestris catu...
2,Canario,El canario doméstico (Serinus canaria domest...


In [26]:
df_mascotas.loc[:, "resumen"]

0      El perro (Canis familiaris o Canis lupus fam...
1      El gato doméstico1​2​ (Felis silvestris catu...
2      El canario doméstico (Serinus canaria domest...
Name: resumen, dtype: object

#### Len, Lower, Upper, Title y Capitalize

In [30]:
df_mascotas.loc[:, "resumen"].str

<pandas.core.strings.accessor.StringMethods at 0x7fb0c4aebc40>

In [31]:
df_mascotas.loc[:, "resumen"].str.len()

0    471
1    316
2    343
Name: resumen, dtype: int64

In [32]:
df_mascotas.loc[:, "resumen"].str.lower()

0      el perro (canis familiaris o canis lupus fam...
1      el gato doméstico1​2​ (felis silvestris catu...
2      el canario doméstico (serinus canaria domest...
Name: resumen, dtype: object

In [33]:
df_mascotas.loc[:, "resumen"].str.upper()

0      EL PERRO (CANIS FAMILIARIS O CANIS LUPUS FAM...
1      EL GATO DOMÉSTICO1​2​ (FELIS SILVESTRIS CATU...
2      EL CANARIO DOMÉSTICO (SERINUS CANARIA DOMEST...
Name: resumen, dtype: object

In [34]:
df_mascotas.loc[:, "resumen"].str.title()

0      El Perro (Canis Familiaris O Canis Lupus Fam...
1      El Gato Doméstico1​2​ (Felis Silvestris Catu...
2      El Canario Doméstico (Serinus Canaria Domest...
Name: resumen, dtype: object

In [35]:
df_mascotas.loc[:, "resumen"].str.capitalize()

0      el perro (canis familiaris o canis lupus fam...
1      el gato doméstico1​2​ (felis silvestris catu...
2      el canario doméstico (serinus canaria domest...
Name: resumen, dtype: object

#### Contains, Split y Join


> **Nota: 🗒️**: `.contains` reemplaza al operador `.in`

In [36]:
df_mascotas.loc[:, "resumen"].str.contains("perro")

0     True
1    False
2    False
Name: resumen, dtype: bool

In [37]:
df_mascotas.loc[:, "resumen"].str.contains("gato")

0    False
1     True
2    False
Name: resumen, dtype: bool

In [40]:
df_mascotas.loc[:, "resumen"].str.split(" ")

0    [, , El, perro, (Canis, familiaris, o, Canis, ...
1    [, , El, gato, doméstico1​2​, (Felis, silvestr...
2    [, , El, canario, doméstico, (Serinus, canaria...
Name: resumen, dtype: object

In [41]:
df_mascotas.loc[:, "resumen"].str.split(" ").str.join("|")

0    ||El|perro|(Canis|familiaris|o|Canis|lupus|fam...
1    ||El|gato|doméstico1​2​|(Felis|silvestris|catu...
2    ||El|canario|doméstico|(Serinus|canaria|domest...
Name: resumen, dtype: object

#### Replace

In [42]:
df_mascotas.loc[:, "resumen"]

0      El perro (Canis familiaris o Canis lupus fam...
1      El gato doméstico1​2​ (Felis silvestris catu...
2      El canario doméstico (Serinus canaria domest...
Name: resumen, dtype: object

In [43]:
(
    df_mascotas.loc[:, "resumen"]
    .str.replace("(", "", regex=False)
    .str.replace(")", "", regex=False)
)

0      El perro Canis familiaris o Canis lupus fami...
1      El gato doméstico1​2​ Felis silvestris catus...
2      El canario doméstico Serinus canaria domesti...
Name: resumen, dtype: object

> **Pregunta ❓:** ¿Qué indica el parámetro `regex`?

#### Expresiones Regulares

Las expresiones regulares son una herramienta de búsqueda y manipulación de texto que permiten encontrar patrones específicos en una cadena de caracteres.

Una expresión regular es una secuencia de caracteres que define un patrón de búsqueda. Los patrones pueden incluir caracteres específicos, combinaciones de caracteres, grupos de caracteres y operadores especiales que permiten hacer coincidir patrones complejos en el texto.

Aunque pueden parecer complicadas al principio, las expresiones regulares son una herramienta muy poderosa ya que pueden ser aplicadas en una amplia variedad de tareas de procesamiento de texto.


- Tutorial de regex: https://www.programiz.com/python-programming/regex
- Playground para probar regex online: https://regex101.com/

##### Sintaxis y reglas básicas

1. Usa caracteres literales para representar las letras y números que deseas buscar. Por ejemplo, la expresión regular `abc` buscará la cadena de texto `"abc"`.
2. Utiliza caracteres especiales para representar patrones de búsqueda más complejos. Por ejemplo, el carácter especial `"."` representa cualquier carácter, y el carácter especial `"^"` representa el inicio de una línea.
3. Utiliza corchetes para definir un conjunto de caracteres que deseas buscar. Por ejemplo, [abc] buscará cualquiera de los caracteres `"a"`, `"b"` o `"c"`.
4. Utiliza caracteres especiales como `*` o `+` para representar repeticiones de caracteres o patrones. Por ejemplo, `a*` buscará cero o más repeticiones de la letra `"a"` como `""`, `"a"`, `"aa"`, etc...; `a+` en cambio aceptará `"a"`, `"aa"`, etc...
5. Utiliza paréntesis para agrupar patrones y aplicar operadores a grupos de caracteres. Por ejemplo, `(abc)+` buscará una o más repeticiones de la cadena `"abc"`.
6. Utiliza el carácter especial `\` para escapar caracteres especiales (o sea, para tratar a *, +, [, ], etc... como texto) y tratarlos como caracteres literales. Por ejemplo, `\.com` buscará el texto `".com"`.
7. Utiliza el símbolo `^` para indicar que lo que se busca está al inicio de la línea, y el símbolo `$` para indica que lo que se busca el final de la línea. 
8. Uitiliza `\s+` para encontrar todos los espacios, `[0-9]` para buscar los dígitos (`[0-9]+` para uno o más de un dígito) y `[a-zA-Z]` para encontrar letras (`[a-zA-Z]+` para uno o más de una letra).

In [55]:
# sintaxis regex

# en este caso se eliminan todas las comas
df_mascotas.loc[:, "resumen"].str.replace(",", "", regex=True).values

array(['  El perro (Canis familiaris o Canis lupus familiaris dependiendo de si se lo considera una especie por derecho propio o una subespecie del lobo)1\u200b2\u200b3\u200b llamado perro doméstico o can4\u200b y en algunos lugares coloquialmente llamado chucho5\u200b tuso6\u200b choco7\u200b entre otros; es un mamífero carnívoro de la familia de los cánidos que constituye una especie del género Canis.8\u200b9\u200b. Posee un oído y un olfato muy desarrollados y este último es su principal órgano sensorial.  \n',
       '  El gato doméstico1\u200b2\u200b (Felis silvestris catus) llamado popularmente gato y de forma coloquial minino3\u200b michino4\u200b michi5\u200b micho6\u200b mizo7\u200b miz8\u200b morroño9\u200b o morrongo10\u200b entre otros nombres es un mamífero carnívoro de la familia Felidae. Es una subespecie domesticada por la convivencia con el ser humano.  \n',
       '  El canario doméstico (Serinus canaria domestica)3\u200b4\u200b es una subespecie desarrollada durante 

In [56]:
# en este caso se eliminan todas las comas y los punto y coma.
# agregamos más de un caracter por eliminar usando []
df_mascotas.loc[:, "resumen"].str.replace("[,;]", "", regex=True).values

array(['  El perro (Canis familiaris o Canis lupus familiaris dependiendo de si se lo considera una especie por derecho propio o una subespecie del lobo)1\u200b2\u200b3\u200b llamado perro doméstico o can4\u200b y en algunos lugares coloquialmente llamado chucho5\u200b tuso6\u200b choco7\u200b entre otros es un mamífero carnívoro de la familia de los cánidos que constituye una especie del género Canis.8\u200b9\u200b. Posee un oído y un olfato muy desarrollados y este último es su principal órgano sensorial.  \n',
       '  El gato doméstico1\u200b2\u200b (Felis silvestris catus) llamado popularmente gato y de forma coloquial minino3\u200b michino4\u200b michi5\u200b micho6\u200b mizo7\u200b miz8\u200b morroño9\u200b o morrongo10\u200b entre otros nombres es un mamífero carnívoro de la familia Felidae. Es una subespecie domesticada por la convivencia con el ser humano.  \n',
       '  El canario doméstico (Serinus canaria domestica)3\u200b4\u200b es una subespecie desarrollada durante s

In [58]:
# en este caso se eliminan todas las comas y los punto y coma y los puntos
# notar que el punto hay que escribirlo con un slash inverso \: \.
df_mascotas.loc[:, "resumen"].str.replace("[,;\.]", "", regex=True).values

array(['  El perro (Canis familiaris o Canis lupus familiaris dependiendo de si se lo considera una especie por derecho propio o una subespecie del lobo)1\u200b2\u200b3\u200b llamado perro doméstico o can4\u200b y en algunos lugares coloquialmente llamado chucho5\u200b tuso6\u200b choco7\u200b entre otros es un mamífero carnívoro de la familia de los cánidos que constituye una especie del género Canis8\u200b9\u200b Posee un oído y un olfato muy desarrollados y este último es su principal órgano sensorial  \n',
       '  El gato doméstico1\u200b2\u200b (Felis silvestris catus) llamado popularmente gato y de forma coloquial minino3\u200b michino4\u200b michi5\u200b micho6\u200b mizo7\u200b miz8\u200b morroño9\u200b o morrongo10\u200b entre otros nombres es un mamífero carnívoro de la familia Felidae Es una subespecie domesticada por la convivencia con el ser humano  \n',
       '  El canario doméstico (Serinus canaria domestica)3\u200b4\u200b es una subespecie desarrollada durante siglos

In [59]:
# mismo caso para los paréntesis ( y ) y corchetes [, ]: hay que agregar \.
df_mascotas.loc[:, "resumen"].str.replace("[,;\.\(\)\[\]\d]", "", regex=True).values

array(['  El perro Canis familiaris o Canis lupus familiaris dependiendo de si se lo considera una especie por derecho propio o una subespecie del lobo\u200b\u200b\u200b llamado perro doméstico o can\u200b y en algunos lugares coloquialmente llamado chucho\u200b tuso\u200b choco\u200b entre otros es un mamífero carnívoro de la familia de los cánidos que constituye una especie del género Canis\u200b\u200b Posee un oído y un olfato muy desarrollados y este último es su principal órgano sensorial  \n',
       '  El gato doméstico\u200b\u200b Felis silvestris catus llamado popularmente gato y de forma coloquial minino\u200b michino\u200b michi\u200b micho\u200b mizo\u200b miz\u200b morroño\u200b o morrongo\u200b entre otros nombres es un mamífero carnívoro de la familia Felidae Es una subespecie domesticada por la convivencia con el ser humano  \n',
       '  El canario doméstico Serinus canaria domestica\u200b\u200b es una subespecie desarrollada durante siglos de selección en cautividad 

In [60]:
# \d indica que se eliminarán todos todos los dígitos

df_mascotas.loc[:, "resumen"].str.replace("\d", "", regex=True)

0      El perro (Canis familiaris o Canis lupus fam...
1      El gato doméstico​​ (Felis silvestris catus)...
2      El canario doméstico (Serinus canaria domest...
Name: resumen, dtype: object

In [61]:
# todo junto:
df_mascotas.loc[:, "resumen"].str.replace("[,;\.\(\)\[\]\d]", "", regex=True).values

array(['  El perro Canis familiaris o Canis lupus familiaris dependiendo de si se lo considera una especie por derecho propio o una subespecie del lobo\u200b\u200b\u200b llamado perro doméstico o can\u200b y en algunos lugares coloquialmente llamado chucho\u200b tuso\u200b choco\u200b entre otros es un mamífero carnívoro de la familia de los cánidos que constituye una especie del género Canis\u200b\u200b Posee un oído y un olfato muy desarrollados y este último es su principal órgano sensorial  \n',
       '  El gato doméstico\u200b\u200b Felis silvestris catus llamado popularmente gato y de forma coloquial minino\u200b michino\u200b michi\u200b micho\u200b mizo\u200b miz\u200b morroño\u200b o morrongo\u200b entre otros nombres es un mamífero carnívoro de la familia Felidae Es una subespecie domesticada por la convivencia con el ser humano  \n',
       '  El canario doméstico Serinus canaria domestica\u200b\u200b es una subespecie desarrollada durante siglos de selección en cautividad 

> **Pregunta ❓**: ¿Según las reglas que vimos anteriormente, habría una forma más rápida de limpiar un string?

In [62]:
df_mascotas.loc[:, "resumen"].str.replace("[^A-Za-z]+", " ", regex=True).values

array([' El perro Canis familiaris o Canis lupus familiaris dependiendo de si se lo considera una especie por derecho propio o una subespecie del lobo llamado perro dom stico o can y en algunos lugares coloquialmente llamado chucho tuso choco entre otros es un mam fero carn voro de la familia de los c nidos que constituye una especie del g nero Canis Posee un o do y un olfato muy desarrollados y este ltimo es su principal rgano sensorial ',
       ' El gato dom stico Felis silvestris catus llamado popularmente gato y de forma coloquial minino michino michi micho mizo miz morro o o morrongo entre otros nombres es un mam fero carn voro de la familia Felidae Es una subespecie domesticada por la convivencia con el ser humano ',
       ' El canario dom stico Serinus canaria domestica es una subespecie desarrollada durante siglos de selecci n en cautividad partiendo de ejemplares del canario silvestre o canario salvaje Serinus canaria una especie de ave del orden paseriforme de la familia de

In [71]:
df_mascotas.loc[:, "resumen"].str.replace("\b[^\W]+\b", " ", regex=True).values

array(['  El perro (Canis familiaris o Canis lupus familiaris, dependiendo de si se lo considera una especie por derecho propio o una subespecie del lobo),1\u200b2\u200b3\u200b llamado perro doméstico o can,4\u200b y en algunos lugares coloquialmente llamado chucho,5\u200b tuso,6\u200b choco,7\u200b entre otros; es un mamífero carnívoro de la familia de los cánidos, que constituye una especie del género Canis.8\u200b9\u200b. Posee un oído y un olfato muy desarrollados, y este último es su principal órgano sensorial.  \n',
       '  El gato doméstico1\u200b2\u200b (Felis silvestris catus), llamado popularmente gato, y de forma coloquial minino,3\u200b michino,4\u200b michi,5\u200b micho,6\u200b mizo,7\u200b miz,8\u200b morroño9\u200b o morrongo,10\u200b entre otros nombres, es un mamífero carnívoro de la familia Felidae. Es una subespecie domesticada por la convivencia con el ser humano.  \n',
       '  El canario doméstico (Serinus canaria domestica)3\u200b4\u200b es una subespecie des

 > Nota: 

- `\W` para buscar todas las palabras que no contienen caracteres que no sean letras ni números, incluyendo letras con acento. 
- `\b` se utiliza para indicar que la expresión regular debe buscar palabras completas, es decir, que no se debe incluir ninguna letra o número antes o después de la palabra.

### Paréntesis: Método `apply`

El método apply de Pandas se utiliza para aplicar una función a una columna o fila de un DataFrame. La función que se va a aplicar puede ser una función integrada de Python, una función definida por el usuario o una función lambda.

In [76]:
df_mascotas.loc[:, "resumen"]

0      El perro (Canis familiaris o Canis lupus fam...
1      El gato doméstico1​2​ (Felis silvestris catu...
2      El canario doméstico (Serinus canaria domest...
Name: resumen, dtype: object

In [77]:
def is_gato_in(value):
    if "gato" in value:
        return True
    else:
        return False

df_mascotas.loc[:, "resumen"].apply(is_gato_in)

0    False
1     True
2    False
Name: resumen, dtype: bool

In [78]:
def seleccionar_10_caracteres(value):
    return value[0:10]

df_mascotas.loc[:, "resumen"].apply(seleccionar_10_caracteres)

0      El perro
1      El gato 
2      El canar
Name: resumen, dtype: object

In [79]:
def limpiar(value):
    return value.replace(",", "").replace(";", "").lower()

df_mascotas.loc[:, "resumen"].apply(limpiar)

0      el perro (canis familiaris o canis lupus fam...
1      el gato doméstico1​2​ (felis silvestris catu...
2      el canario doméstico (serinus canaria domest...
Name: resumen, dtype: object

#### `strip_accents_ascii`

`strip_accents_ascii` se utiliza para eliminar los acentos y diacríticos de una cadena, convirtiendo los caracteres Unicode que representan los acentos y diacríticos en caracteres ASCII equivalentes.

In [93]:
import unicodedata

def strip_accents_ascii(value):
    nkfd_form = unicodedata.normalize("NFKD", value)
    return nkfd_form.encode("ASCII", "ignore").decode("ASCII")

In [94]:
strip_accents_ascii('doméstico')

'domestico'

In [95]:
df_mascotas.loc[:, "resumen"]

0      El perro (Canis familiaris o Canis lupus fam...
1      El gato doméstico1​2​ (Felis silvestris catu...
2      El canario doméstico (Serinus canaria domest...
Name: resumen, dtype: object

In [96]:
df_mascotas.loc[:, "resumen"].apply(strip_accents_ascii)

0      El perro (Canis familiaris o Canis lupus fam...
1      El gato domestico12 (Felis silvestris catus)...
2      El canario domestico (Serinus canaria domest...
Name: resumen, dtype: object

#### Uso de `.apply` sobre DataFrames

`apply` usada sobre un Dataframe permite ejecutar una función sobre las filas o columnas, lo que se indica a través del parámetro `axis`.

In [104]:
def unir_nombre_y_descripcion(row):
    return row["nombre"] + " - " + row["resumen"]
    
# ojo: para aplicar en filas tiene que ser axis=1
df_mascotas.apply(unir_nombre_y_descripcion, axis=1)

0    Perro -   El perro (Canis familiaris o Canis l...
1    Gato -   El gato doméstico1​2​ (Felis silvestr...
2    Canario -   El canario doméstico (Serinus cana...
dtype: object

In [105]:
def unir_filas(col):
    return '|'.join(col)
    
# ojo: para aplicar en filas tiene que ser axis=1
df_mascotas.apply(unir_filas, axis=0)

nombre                                    Perro|Gato|Canario
resumen      El perro (Canis familiaris o Canis lupus fam...
dtype: object

#### Preprocesamiento Completo



In [107]:
df_mascotas.loc[:, "resumen"].values

array(['  El perro (Canis familiaris o Canis lupus familiaris, dependiendo de si se lo considera una especie por derecho propio o una subespecie del lobo),1\u200b2\u200b3\u200b llamado perro doméstico o can,4\u200b y en algunos lugares coloquialmente llamado chucho,5\u200b tuso,6\u200b choco,7\u200b entre otros; es un mamífero carnívoro de la familia de los cánidos, que constituye una especie del género Canis.8\u200b9\u200b. Posee un oído y un olfato muy desarrollados, y este último es su principal órgano sensorial.  \n',
       '  El gato doméstico1\u200b2\u200b (Felis silvestris catus), llamado popularmente gato, y de forma coloquial minino,3\u200b michino,4\u200b michi,5\u200b micho,6\u200b mizo,7\u200b miz,8\u200b morroño9\u200b o morrongo,10\u200b entre otros nombres, es un mamífero carnívoro de la familia Felidae. Es una subespecie domesticada por la convivencia con el ser humano.  \n',
       '  El canario doméstico (Serinus canaria domestica)3\u200b4\u200b es una subespecie des

In [91]:
df_mascotas_procesado = (
    df_mascotas.loc[:, "resumen"]
    .apply(strip_accents_ascii)
    .str.replace("[,;\.\(\)\[\]\d*]", "", regex=True)
    .str.replace(r"\s+", " ", regex=True) # en este caso se reemplazan todos los espacios por solo un espacio.
    .str.strip()
    .str.lower()
)

df_mascotas_procesado.values

array(['el perro canis familiaris o canis lupus familiaris dependiendo de si se lo considera una especie por derecho propio o una subespecie del lobo llamado perro domestico o can y en algunos lugares coloquialmente llamado chucho tuso choco entre otros es un mamifero carnivoro de la familia de los canidos que constituye una especie del genero canis posee un oido y un olfato muy desarrollados y este ultimo es su principal organo sensorial',
       'el gato domestico felis silvestris catus llamado popularmente gato y de forma coloquial minino michino michi micho mizo miz morrono o morrongo entre otros nombres es un mamifero carnivoro de la familia felidae es una subespecie domesticada por la convivencia con el ser humano',
       'el canario domestico serinus canaria domestica es una subespecie desarrollada durante siglos de seleccion en cautividad partiendo de ejemplares del canario silvestre o canario salvaje serinus canaria una especie de ave del orden paseriforme de la familia de lo

---

## 2.- Datos Temporales

### Dataset de Temperaturas Globales

![wbg_climate](https://raw.githubusercontent.com/MDS7202/MDS7202/main/recursos/2023-01/11-Pandas4/wbg_climate.png)


https://climateknowledgeportal.worldbank.org/download-data

In [216]:
df_temp = pd.read_csv("./temperature.csv")
df_temp.head(3)

Unnamed: 0,Temperature,Year,Month,Country,ISO3
0,-0.0311,1991,Jan,Afghanistan,AFG
1,1.43654,1991,Feb,Afghanistan,AFG
2,6.88685,1991,Mar,Afghanistan,AFG


### Motivación

Las fechas y horarios son por lo general parte íntegra de los datos en muchas aplicaciones. Algunos ejemplos de uso de fechas y horarios en aplicaciones son el análisis de datos de ventas a lo largo del tiempo, el seguimiento de la evolución del clima, el análisis de la actividad del usuario en una plataforma digital, entre otros.

> **Pregunta ❓**: ¿Qué aplicación particular podríamos darle al manejar los datetimes del clima? 

### Módulo `Datetime`

El módulo datetime en Python es una librería estándar (built-in) que proporciona clases y métodos para trabajar con fechas y horas los cuales simplifican la manipulación y cálculos ellos.

In [110]:
import datetime

#### Date

Objeto que almacena día, mes y año.

In [111]:
date_object = datetime.date.today()
print(date_object)

2023-04-16


In [112]:
date_object.day

16

In [113]:
date_object.month

4

In [114]:
date_object.year

2023

#### Datetime

Almacena segundos, minutos, hora, día, mes y año. También puede contener timezone.

In [115]:
datetime_object = datetime.datetime.now()
print(datetime_object)

2023-04-16 23:34:32.958296


#### Instanciar nuevos Date y Datetimes

In [116]:
d = datetime.date(2021, 9, 9)
print(d)

2021-09-09


In [117]:
print("Año:", d.year)
print("Mes:", d.month)
print("Día:", d.day)

Año: 2021
Mes: 9
Día: 9


In [118]:
d = datetime.datetime(2021, 4, 19, 10, 59, 55)
print(d)

2021-04-19 10:59:55


In [119]:
print("Hora:", d.hour)
print("Minuto:", d.minute)
print("Segundo:", d.second)
print("Microsegundo:", d.microsecond)

Hora: 10
Minuto: 59
Segundo: 55
Microsegundo: 0


Obviamente, estos objetos cuentan con las restricciones pertinentes 

In [120]:
datetime.datetime(-1, 4, 19, 10, 59, 55)

ValueError: year -1 is out of range

In [121]:
datetime.datetime(9999, 4, 19, 10, 59, 55)

datetime.datetime(9999, 4, 19, 10, 59, 55)

Relacionado: https://es.wikipedia.org/wiki/Problema_del_a%C3%B1o_2000


El problema del año 2000, fue un bug o error de software causado por la costumbre que habían adoptado los programadores de omitir la centuria en el año para el almacenamiento de fechas (generalmente para economizar memoria), asumiendo que el software solo funcionaría durante los años cuyos números comenzaran con 19XX


![Antes](https://www.sopitas.com/wp-content/uploads/2016/04/ss.gif)


In [122]:
datetime.datetime(999999, 4, 19, 10, 59, 55)

ValueError: year 999999 is out of range

In [123]:
datetime.datetime(2020, 4, 19, 10, 60, 55)

ValueError: minute must be in 0..59

¿Y los años bisiestos?

In [124]:
datetime.datetime(2020, 2, 29)

datetime.datetime(2020, 2, 29, 0, 0)

In [125]:
datetime.datetime(2021, 2, 29)

ValueError: day is out of range for month

##### Desde timestamp

`A Unix timestamp is the number of seconds between a particular date and January 1, 1970 at UTC.`

In [126]:
timestamp = datetime.date.fromtimestamp(1326244364)
print("Date =", timestamp)

Date = 2012-01-10


> **Pregunta ❓**: ¿Podemos sumar o restar fechas?

In [127]:
delta = datetime.datetime(1, 1, 1)
delta

datetime.datetime(1, 1, 1, 0, 0)

In [128]:
d

datetime.datetime(2021, 4, 19, 10, 59, 55)

In [129]:
d + delta

TypeError: unsupported operand type(s) for +: 'datetime.datetime' and 'datetime.datetime'

#### TimeDelta

Permide sumar semanas, días, horas, etc... a objetos `date` y `datetime`.

In [130]:
d

datetime.datetime(2021, 4, 19, 10, 59, 55)

In [131]:
from datetime import timedelta

t1 = timedelta(weeks=2)
t1

datetime.timedelta(days=14)

In [132]:
d + t1

datetime.datetime(2021, 5, 3, 10, 59, 55)

In [133]:
d - t1

datetime.datetime(2021, 4, 5, 10, 59, 55)

¿Y tiempos negativos?

In [134]:
t2 = timedelta(minutes=-1)

In [135]:
d + t2

datetime.datetime(2021, 4, 19, 10, 58, 55)

In [136]:
d - t2

datetime.datetime(2021, 4, 19, 11, 0, 55)

¿Cambios de mes?

In [137]:
t3 = timedelta(days=1)

In [141]:
datetime.date(2021, 2, 28) + t3

datetime.date(2021, 3, 1)

In [140]:
# notar que también funciona para años bisiestos
datetime.date(2020, 2, 28) + t3 

datetime.date(2020, 2, 29)

#### Formatear a string con `.strftime`

Permite convertir un objeto datetime a una cadena de caracteres que siga un patrón específico para representar la fecha y la hora.

In [None]:
d

In [None]:
s1 = d.strftime("%d/%m/%Y, %H:%M:%S")
# dd/mm/YY H:M:S format
s1

In [None]:
s1 = d.strftime("%m/%d/%Y, %H:%M:%S")
# dd/mm/YY H:M:S format
s1

In [None]:
s1 = d.strftime("%d/%m/%Y")
# dd/mm/YY H:M:S format
s1

In [None]:
s2 = d.strftime("%A %d %B %Y, %X")
# dd/mm/YY H:M:S format
s2

Referencia completa de formateo de fechas:

https://www.programiz.com/python-programming/datetime/strftime

---



###  Datos temporales en Pandas

Pandas implementa su propio sistema de datetimes.
`pd.to_datetimes` nos permite convertir una `Serie` o un `DataFrame` en una `Serie` de datetimes.

In [217]:
df_temp.head(3)

Unnamed: 0,Temperature,Year,Month,Country,ISO3
0,-0.0311,1991,Jan,Afghanistan,AFG
1,1.43654,1991,Feb,Afghanistan,AFG
2,6.88685,1991,Mar,Afghanistan,AFG


In [218]:
dates = df_temp.loc[:, ["Year", "Month"]]
dates

Unnamed: 0,Year,Month
0,1991,Jan
1,1991,Feb
2,1991,Mar
3,1991,Apr
4,1991,May
...,...,...
59899,2016,Aug
59900,2016,Sep
59901,2016,Oct
59902,2016,Nov


In [219]:
dates.loc[:, "Day"] = 1
dates

Unnamed: 0,Year,Month,Day
0,1991,Jan,1
1,1991,Feb,1
2,1991,Mar,1
3,1991,Apr,1
4,1991,May,1
...,...,...,...
59899,2016,Aug,1
59900,2016,Sep,1
59901,2016,Oct,1
59902,2016,Nov,1


In [220]:
dates = dates.astype(str)
concat_dates = dates.loc[:, 'Year'] + ' '+  dates.loc[:, 'Month'] + ' ' + dates.loc[:, 'Day']
concat_dates

0        1991 Jan 1
1        1991 Feb 1
2        1991 Mar 1
3        1991 Apr 1
4        1991 May 1
            ...    
59899    2016 Aug 1
59900    2016 Sep 1
59901    2016 Oct 1
59902    2016 Nov 1
59903    2016 Dec 1
Length: 59904, dtype: object

In [221]:
parsed_dates = pd.to_datetime(concat_dates)
parsed_dates

0       1991-01-01
1       1991-02-01
2       1991-03-01
3       1991-04-01
4       1991-05-01
           ...    
59899   2016-08-01
59900   2016-09-01
59901   2016-10-01
59902   2016-11-01
59903   2016-12-01
Length: 59904, dtype: datetime64[ns]

In [222]:
# aquí le dimos el formato con el cuál queríamos leer la fecha.

parsed_dates_2 = pd.to_datetime(concat_dates, format="%Y %b %d")

In [223]:
pd.to_datetime(concat_dates, format="%Y %b %d") > "2016 01 01"

0        False
1        False
2        False
3        False
4        False
         ...  
59899     True
59900     True
59901     True
59902     True
59903     True
Length: 59904, dtype: bool

In [224]:
df_temp.loc[:, 'dates'] = parsed_dates

In [225]:
df_temp.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 59904 entries, 0 to 59903
Data columns (total 6 columns):
 #   Column       Non-Null Count  Dtype         
---  ------       --------------  -----         
 0   Temperature  59904 non-null  float64       
 1   Year         59904 non-null  int64         
 2   Month        59904 non-null  object        
 3   Country      59904 non-null  object        
 4   ISO3         59904 non-null  object        
 5   dates        59904 non-null  datetime64[ns]
dtypes: datetime64[ns](1), float64(1), int64(1), object(3)
memory usage: 2.7+ MB


#### Valores Inválidos

Puede ocurrir que tengamos algún dato inválido que no podamos transformar a `datetime`.

`pd.to_datetime` ofrece el siguiente parámetro para manejar estos problemas:

`errors{‘ignore’, ‘raise’, ‘coerce’}, default ‘raise’`

- If `raise`, then invalid parsing will raise an exception.

- If `coerce`, then invalid parsing will be set as NaT.

- If `ignore`, then invalid parsing will return the input.


**Nota:** NaT = Not a Time


In [226]:
pd.to_datetime(["2009/07/31", "asd"], errors="coerce")

DatetimeIndex(['2009-07-31', 'NaT'], dtype='datetime64[ns]', freq=None)

#### Comparaciones y consultas

Se puede especificar directamente filtros booleanos usando datetimes como también strings:

In [227]:
df_temp.loc[:, "dates"] > datetime.datetime(2010, 1, 1)

0        False
1        False
2        False
3        False
4        False
         ...  
59899     True
59900     True
59901     True
59902     True
59903     True
Name: dates, Length: 59904, dtype: bool

In [228]:
df_temp.loc[:, "dates"] > "2010-1-1"

0        False
1        False
2        False
3        False
4        False
         ...  
59899     True
59900     True
59901     True
59902     True
59903     True
Name: dates, Length: 59904, dtype: bool

#### Indexado

Podemos fijar las fechas como índices y luego indexar por rangos de estas

In [229]:
temperaturas_por_fecha = df_temp.set_index("dates")
temperaturas_por_fecha

Unnamed: 0_level_0,Temperature,Year,Month,Country,ISO3
dates,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1991-01-01,-0.03110,1991,Jan,Afghanistan,AFG
1991-02-01,1.43654,1991,Feb,Afghanistan,AFG
1991-03-01,6.88685,1991,Mar,Afghanistan,AFG
1991-04-01,12.93970,1991,Apr,Afghanistan,AFG
1991-05-01,17.07550,1991,May,Afghanistan,AFG
...,...,...,...,...,...
2016-08-01,26.09480,2016,Aug,Venezuela,VEN
2016-09-01,26.22090,2016,Sep,Venezuela,VEN
2016-10-01,26.62850,2016,Oct,Venezuela,VEN
2016-11-01,26.27680,2016,Nov,Venezuela,VEN


In [230]:
# Rango 1995-1-1 al 199-12-1
temperaturas_por_fecha.loc["1995-1-1":"1999-12-1"]

Unnamed: 0_level_0,Temperature,Year,Month,Country,ISO3
dates,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1995-01-01,0.92358,1995,Jan,Afghanistan,AFG
1995-02-01,2.96133,1995,Feb,Afghanistan,AFG
1995-03-01,6.36893,1995,Mar,Afghanistan,AFG
1995-04-01,12.26760,1995,Apr,Afghanistan,AFG
1995-05-01,18.11870,1995,May,Afghanistan,AFG
...,...,...,...,...,...
1999-08-01,24.86170,1999,Aug,Venezuela,VEN
1999-09-01,25.33310,1999,Sep,Venezuela,VEN
1999-10-01,25.35280,1999,Oct,Venezuela,VEN
1999-11-01,25.94590,1999,Nov,Venezuela,VEN


In [231]:
temperaturas_por_fecha.loc["1999-11-1":"1999-12-1"]

Unnamed: 0_level_0,Temperature,Year,Month,Country,ISO3
dates,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1999-11-01,8.22556,1999,Nov,Afghanistan,AFG
1999-12-01,3.80288,1999,Dec,Afghanistan,AFG
1999-11-01,7.79985,1999,Nov,Albania,ALB
1999-12-01,4.74799,1999,Dec,Albania,ALB
1999-11-01,17.59640,1999,Nov,Algeria,DZA
...,...,...,...,...,...
1999-12-01,2.38418,1999,Dec,Uzbekistan,UZB
1999-11-01,24.71980,1999,Nov,Vanuatu,VUT
1999-12-01,24.55080,1999,Dec,Vanuatu,VUT
1999-11-01,25.94590,1999,Nov,Venezuela,VEN


#### Timedeltas

`pd.Timedelta` permite utilizar una interfaz similar a los `datetime.timedelta` para ejecutar cálculos sobre las fechas:

`weeks, days, hours, minutes, seconds, milliseconds, microseconds, nanoseconds`

In [234]:
ptd1 = pd.Timedelta(weeks=2)
ptd1

Timedelta('14 days 00:00:00')

In [241]:
df_temp.loc[:, "dates"] + ptd1

0       1991-01-15
1       1991-02-15
2       1991-03-15
3       1991-04-15
4       1991-05-15
           ...    
59899   2016-08-15
59900   2016-09-15
59901   2016-10-15
59902   2016-11-15
59903   2016-12-15
Name: dates, Length: 59904, dtype: datetime64[ns]

Y podemos también hacer Broadcasting con `datetime.timedeltas`

In [242]:
df_temp.loc[:, "dates"] + datetime.timedelta(days=-1)

0       1990-12-31
1       1991-01-31
2       1991-02-28
3       1991-03-31
4       1991-04-30
           ...    
59899   2016-07-31
59900   2016-08-31
59901   2016-09-30
59902   2016-10-31
59903   2016-11-30
Name: dates, Length: 59904, dtype: datetime64[ns]

---

## 3.- Datos Categóricos

Una variable categórica es un tipo de dato que puede tomar un número limitado (y usualmente fijo) de posibles valores.
Ejemplos de esto: Género, clase social, tipo de sangre, etc...

En general, guardar los datos como categóricos es mucho más eficiente que guardarlos como string. Según la referencia de pandas:

> The memory usage of a Categorical is proportional to the number of categories plus the length of the data. In contrast, an object dtype is a constant times the length of the data.

Como ejemplo, usaremos los continentes a los que pertenece cada país:

In [206]:
countries = pd.read_csv(
    "https://raw.githubusercontent.com/MDS7202/MDS7202/main/recursos/2023-01/11-Pandas4/country-and-continent.csv"
)
countries = countries.loc[:, ["Continent_Name", "Country_Name"]]
countries

Unnamed: 0,Continent_Name,Country_Name
0,Asia,"Afghanistan, Islamic Republic of"
1,Europe,Albania
2,Antarctica,Antarctica (the territory South of 60 deg S)
3,Africa,"Algeria, People's Democratic Republic of"
4,Oceania,American Samoa
...,...,...
257,Africa,Zambia
258,Oceania,Disputed Territory
259,Asia,Iraq-Saudi Arabia Neutral Zone
260,Asia,United Nations Neutral Zone


Declaramos una variable como categórica transformando la serie a `category` con `.astype("category")`:

In [160]:
countries["Continent_Name"]

0            Asia
1          Europe
2      Antarctica
3          Africa
4         Oceania
          ...    
257        Africa
258       Oceania
259          Asia
260          Asia
261          Asia
Name: Continent_Name, Length: 262, dtype: object

In [161]:
countries["Continent_Name"] = countries.loc[:, "Continent_Name"].astype("category")
countries["Continent_Name"]

0            Asia
1          Europe
2      Antarctica
3          Africa
4         Oceania
          ...    
257        Africa
258       Oceania
259          Asia
260          Asia
261          Asia
Name: Continent_Name, Length: 262, dtype: category
Categories (7, object): ['Africa', 'Antarctica', 'Asia', 'Europe', 'North America', 'Oceania', 'South America']

Podemos acceder a las categorías con:

In [162]:
countries["Continent_Name"].cat.categories

Index(['Africa', 'Antarctica', 'Asia', 'Europe', 'North America', 'Oceania',
       'South America'],
      dtype='object')

### Operaciones con categorías

Podemos renombrar categorías usando el método `rename_categories`:

In [163]:
# renombrar en español
countries["Continent_Name"] = countries["Continent_Name"].cat.rename_categories(
    [
        "Africa",
        "Antarctica",
        "Asia",
        "Europa",
        "América del Norte",
        "Oceania",
        "América del Sur",
    ]
)

countries["Continent_Name"]

0            Asia
1          Europa
2      Antarctica
3          Africa
4         Oceania
          ...    
257        Africa
258       Oceania
259          Asia
260          Asia
261          Asia
Name: Continent_Name, Length: 262, dtype: category
Categories (7, object): ['Africa', 'Antarctica', 'Asia', 'Europa', 'América del Norte', 'Oceania', 'América del Sur']

In [164]:
countries.sample(10)

Unnamed: 0,Continent_Name,Country_Name
240,Europa,Ukraine
30,América del Norte,British Virgin Islands
131,Europa,Lithuania
73,Antarctica,South Georgia and the South Sandwich Islands
41,Africa,Central African Republic
242,Africa,"Egypt, Arab Republic of"
94,América del Norte,Guadeloupe
233,Africa,"Tunisia, Tunisian Republic"
210,Europa,Slovak Republic
174,Oceania,Marshall Islands the


`rename_categories` también acepta diccionarios como entrada. La idea es que el diccionario vincule los nombres antiguos con los nuevos:

In [165]:
countries["Continent_Name"] = countries["Continent_Name"].cat.rename_categories(
    {
        "Europe": "Europa",
    }
)

In [166]:
countries

Unnamed: 0,Continent_Name,Country_Name
0,Asia,"Afghanistan, Islamic Republic of"
1,Europa,Albania
2,Antarctica,Antarctica (the territory South of 60 deg S)
3,Africa,"Algeria, People's Democratic Republic of"
4,Oceania,American Samoa
...,...,...
257,Africa,Zambia
258,Oceania,Disputed Territory
259,Asia,Iraq-Saudi Arabia Neutral Zone
260,Asia,United Nations Neutral Zone


Se pueden agregar categorías

In [167]:
countries["Continent_Name"].cat.add_categories(["Atlantida"])

0            Asia
1          Europa
2      Antarctica
3          Africa
4         Oceania
          ...    
257        Africa
258       Oceania
259          Asia
260          Asia
261          Asia
Name: Continent_Name, Length: 262, dtype: category
Categories (8, object): ['Africa', 'Antarctica', 'Asia', 'Europa', 'América del Norte', 'Oceania', 'América del Sur', 'Atlantida']

Como también eliminar las no usadas:

In [168]:
# Remover las no usadas
countries["Continent_Name"].cat.remove_unused_categories()

0            Asia
1          Europa
2      Antarctica
3          Africa
4         Oceania
          ...    
257        Africa
258       Oceania
259          Asia
260          Asia
261          Asia
Name: Continent_Name, Length: 262, dtype: category
Categories (7, object): ['Africa', 'Antarctica', 'Asia', 'Europa', 'América del Norte', 'Oceania', 'América del Sur']

O incluso, eliminar una categoría completa. Noten que esto transforma valores de esa categoría a `NaN`.

In [169]:
# Como también remover una categoría completa.
countries["Continent_Name"].cat.remove_categories(["Europa"])

0            Asia
1             NaN
2      Antarctica
3          Africa
4         Oceania
          ...    
257        Africa
258       Oceania
259          Asia
260          Asia
261          Asia
Name: Continent_Name, Length: 262, dtype: category
Categories (6, object): ['Africa', 'Antarctica', 'Asia', 'América del Norte', 'Oceania', 'América del Sur']

### Nota sobre memoria

Como habíamos dicho, es mucho más eficiente guardar variables categóricas que strings.
Podemos ver esto en el siguiente ejemplo:

#### Usando Strings

In [173]:
# cuidado con este experimento, ocupa mucha memoria!
df_pesado = pd.DataFrame(
    ["A", "B", "C", "D", "E", "F", "G", "H", "I", "J"] * 10000000, columns=["var"]
)
df_pesado

Unnamed: 0,var
0,A
1,B
2,C
3,D
4,E
...,...
99999995,F
99999996,G
99999997,H
99999998,I


In [174]:
# strings no tienen .cat
df_pesado["var"].cat

AttributeError: Can only use .cat accessor with a 'category' dtype

In [175]:
# observen la cantidad de memoria.
df_pesado.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000000 entries, 0 to 99999999
Data columns (total 1 columns):
 #   Column  Dtype 
---  ------  ----- 
 0   var     object
dtypes: object(1)
memory usage: 762.9+ MB


#### Usando Categorías

In [176]:
df_pesado = pd.DataFrame(
    ["A", "B", "C", "D", "E", "F", "G", "H", "I", "J"] * 10000000, columns=["var"]
)
df_pesado["var"] = df_pesado["var"].astype("category")
df_pesado

Unnamed: 0,var
0,A
1,B
2,C
3,D
4,E
...,...
99999995,F
99999996,G
99999997,H
99999998,I


In [177]:
df_pesado["var"].cat

<pandas.core.arrays.categorical.CategoricalAccessor object at 0x7fb0c026ca90>

In [178]:
df_pesado.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000000 entries, 0 to 99999999
Data columns (total 1 columns):
 #   Column  Dtype   
---  ------  -----   
 0   var     category
dtypes: category(1)
memory usage: 95.4 MB


### Un pequeño merge con los datos anteriores

Notar que en esta versión se especificó sobre que variables hacer el merge en ambos datasets.

In [179]:
temp_agg = df_temp.groupby("Country").agg({"Temperature": ["mean", "std"]})
temp_agg

Unnamed: 0_level_0,Temperature,Temperature
Unnamed: 0_level_1,mean,std
Country,Unnamed: 1_level_2,Unnamed: 2_level_2
Afghanistan,13.545609,8.695203
Albania,12.106435,7.101392
Algeria,23.439610,7.473115
Andorra,11.953746,6.014903
Angola,22.133815,1.710757
...,...,...
United States,7.617000,9.077944
Uruguay,17.941855,4.505184
Uzbekistan,13.158793,10.837303
Vanuatu,24.123163,1.204321


In [180]:
countries

Unnamed: 0,Continent_Name,Country_Name
0,Asia,"Afghanistan, Islamic Republic of"
1,Europa,Albania
2,Antarctica,Antarctica (the territory South of 60 deg S)
3,Africa,"Algeria, People's Democratic Republic of"
4,Oceania,American Samoa
...,...,...
257,Africa,Zambia
258,Oceania,Disputed Territory
259,Asia,Iraq-Saudi Arabia Neutral Zone
260,Asia,United Nations Neutral Zone


In [181]:
temp_agg.columns = temp_agg.columns.droplevel()
temp_agg = temp_agg.reset_index()
temp_agg.columns = ["Country", "Mean temperature", "Std temperature"]
temp_agg

merged_df = pd.merge(
    temp_agg,
    countries,
    how="left",
    left_on="Country",
    right_on="Country_Name",
)

merged_df

Unnamed: 0,Country,Mean temperature,Std temperature,Continent_Name,Country_Name
0,Afghanistan,13.545609,8.695203,,
1,Albania,12.106435,7.101392,Europa,Albania
2,Algeria,23.439610,7.473115,,
3,Andorra,11.953746,6.014903,,
4,Angola,22.133815,1.710757,Africa,Angola
...,...,...,...,...,...
193,United States,7.617000,9.077944,América del Norte,United States
194,Uruguay,17.941855,4.505184,,
195,Uzbekistan,13.158793,10.837303,Asia,Uzbekistan
196,Vanuatu,24.123163,1.204321,Oceania,Vanuatu


---

## 4.- Ordinales

Una variable ordinal es un tipo de variable categórica que representa una característica o atributo que se puede ordenar o clasificar en diferentes niveles o categorías que tienen un orden predefinido.


Por ejemplo, hagamos una clasificación muy simple del clima a partir de la temperatura media. Para esto, calculemos cuartiles:

> Nota: Los elementos meteorológicos a tomar en cuenta para definir un clima son la temperatura, la presión, el viento, la humedad y la precipitación. Referencias: https://es.wikipedia.org/wiki/Clima

In [182]:
mean_temp = merged_df["Mean temperature"]
mean_temp

0      13.545609
1      12.106435
2      23.439610
3      11.953746
4      22.133815
         ...    
193     7.617000
194    17.941855
195    13.158793
196    24.123163
197    25.865055
Name: Mean temperature, Length: 198, dtype: float64

In [183]:
mean_temp.describe()

count    198.000000
mean      18.889212
std        8.721793
min      -17.072330
25%       11.300543
50%       22.726409
75%       25.844148
max       28.883495
Name: Mean temperature, dtype: float64

In [184]:
clima_ordinal = pd.qcut(
    mean_temp, 5, labels=["Polar", "Frio", "Templado", "Calido", "Muy Calido"]
)
clima_ordinal

0          Frio
1          Frio
2      Templado
3          Frio
4      Templado
         ...   
193       Polar
194        Frio
195        Frio
196    Templado
197      Calido
Name: Mean temperature, Length: 198, dtype: category
Categories (5, object): ['Polar' < 'Frio' < 'Templado' < 'Calido' < 'Muy Calido']

#### Operaciones sobre Series Categóricas con Orden

In [185]:
clima_ordinal.value_counts()

Polar         40
Frio          40
Muy Calido    40
Templado      39
Calido        39
Name: Mean temperature, dtype: int64

In [186]:
clima_ordinal.min()

'Polar'

In [187]:
clima_ordinal.max()

'Muy Calido'

In [188]:
clima_ordinal.mode()

0         Polar
1          Frio
2    Muy Calido
Name: Mean temperature, dtype: category
Categories (5, object): ['Polar' < 'Frio' < 'Templado' < 'Calido' < 'Muy Calido']

---

### Ordenar y Filtrar usando Ordinales

In [189]:
merged_df["Temp Quartile"] = clima_ordinal
merged_df.head(3)

Unnamed: 0,Country,Mean temperature,Std temperature,Continent_Name,Country_Name,Temp Quartile
0,Afghanistan,13.545609,8.695203,,,Frio
1,Albania,12.106435,7.101392,Europa,Albania,Frio
2,Algeria,23.43961,7.473115,,,Templado


In [190]:
merged_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 198 entries, 0 to 197
Data columns (total 6 columns):
 #   Column            Non-Null Count  Dtype   
---  ------            --------------  -----   
 0   Country           198 non-null    object  
 1   Mean temperature  198 non-null    float64 
 2   Std temperature   198 non-null    float64 
 3   Continent_Name    131 non-null    category
 4   Country_Name      131 non-null    object  
 5   Temp Quartile     198 non-null    category
dtypes: category(2), float64(2), object(2)
memory usage: 8.7+ KB


In [191]:
merged_df = merged_df.sort_values(["Temp Quartile", "Mean temperature"])
merged_df

Unnamed: 0,Country,Mean temperature,Std temperature,Continent_Name,Country_Name,Temp Quartile
71,Greenland,-17.072330,8.745566,América del Norte,Greenland,Polar
32,Canada,-5.963874,12.528132,América del Norte,Canada,Polar
150,Russia,-5.255763,14.663405,Europa,Russia,Polar
119,Mongolia,0.598241,13.699369,Asia,Mongolia,Polar
133,Norway,1.726860,7.287373,Europa,Norway,Polar
...,...,...,...,...,...,...
114,Mauritania,28.416357,4.659151,,,Muy Calido
188,Tuvalu,28.504638,0.393742,Oceania,Tuvalu,Muy Calido
155,Senegal,28.630989,2.062197,Africa,Senegal,Muy Calido
28,Burkina Faso,28.698612,2.397689,Africa,Burkina Faso,Muy Calido


### Nota sobre Merge con id repetidos

> Pregunta: ¿Qué sucede si hacemos un merge de una fila con muchas otras con igual identificador?

In [192]:
merged_df["Temp Quartile"].cat.categories

Index(['Polar', 'Frio', 'Templado', 'Calido', 'Muy Calido'], dtype='object')

In [193]:
mask = merged_df["Temp Quartile"] < "Frio"
mask

71      True
32      True
150     True
119     True
133     True
       ...  
114    False
188    False
155    False
28     False
111    False
Name: Temp Quartile, Length: 198, dtype: bool

In [194]:
merged_df[mask]

Unnamed: 0,Country,Mean temperature,Std temperature,Continent_Name,Country_Name,Temp Quartile
71,Greenland,-17.07233,8.745566,América del Norte,Greenland,Polar
32,Canada,-5.963874,12.528132,América del Norte,Canada,Polar
150,Russia,-5.255763,14.663405,Europa,Russia,Polar
119,Mongolia,0.598241,13.699369,Asia,Mongolia,Polar
133,Norway,1.72686,7.287373,Europa,Norway,Polar
80,Iceland,2.307253,4.468936,Europa,Iceland,Polar
62,Finland,2.402188,9.278735,Europa,Finland,Polar
174,Sweden,2.537722,8.185242,Europa,Sweden,Polar
96,Kyrgyzstan,3.13748,9.972644,,,Polar
103,Liechtenstein,3.549368,5.943636,,,Polar


## Anexo: Cómo Combinar dos Filtros/Máscaras Booleanas

Se puede usar las operaciones `|` (or) y `&` and para combinar dos máscaras.

- `|` simboliza un ó lógico.
- `&` simboliza un y lógico.

In [195]:
mask_2 = (merged_df["Temp Quartile"] < "Frio") | (
    merged_df["Temp Quartile"] == "Templado"
)
mask_2

71      True
32      True
150     True
119     True
133     True
       ...  
114    False
188    False
155    False
28     False
111    False
Name: Temp Quartile, Length: 198, dtype: bool

In [196]:
merged_df[mask_2]

Unnamed: 0,Country,Mean temperature,Std temperature,Continent_Name,Country_Name,Temp Quartile
71,Greenland,-17.072330,8.745566,América del Norte,Greenland,Polar
32,Canada,-5.963874,12.528132,América del Norte,Canada,Polar
150,Russia,-5.255763,14.663405,Europa,Russia,Polar
119,Mongolia,0.598241,13.699369,Asia,Mongolia,Polar
133,Norway,1.726860,7.287373,Europa,Norway,Polar
...,...,...,...,...,...,...
121,Mozambique,24.281818,2.410008,Africa,Mozambique,Templado
61,Fiji,24.325886,1.436607,,,Templado
54,ElSalvador,24.371996,1.016290,,,Templado
51,DominicanRepublic,24.483362,1.356441,,,Templado
