# Clase 12: Trabajando Con Distintos Tipos de Datos

**MDS7202: Laboratorio de Programación Científica para Ciencia de Datos**

**Profesor: Pablo Badilla**

## Objetivos de la Clase

- Comprender las interfaces que Python ofrece para trabajar usando datos de texto, temporales y categorías .

### Roadmap


**Unidad 2: Manejo de Datos con Pandas y AED**

- [X] Introducción a Manejo de Datos Tabulares con Pandas
- [X] Reorganización, Multi-Índices y Agregación de Datos.
- [X] Concatenación y Combinación de Múltiples Fuentes de Datos.
- [ ] Trabajo con strings y datos temporales, categóricos y ordinales en Pandas.

In [1]:
import pandas as pd

## Datasets de Hoy


### Dataset de Temperaturas Globales

![wbg_climate](./resources/wbg_climate.png)


https://climateknowledgeportal.worldbank.org/download-data

In [2]:
temp_df = pd.read_csv("./resources/temperature.csv")
temp_df.head(3)

Unnamed: 0,Temperature,Year,Month,Country,ISO3
0,-0.0311,1991,Jan,Afghanistan,AFG
1,1.43654,1991,Feb,Afghanistan,AFG
2,6.88685,1991,Mar,Afghanistan,AFG


In [3]:
# setear opciones para mostrar todas las filas y columnas
# cuidado al ejecutar esto en sus notebooks, se puede quedar pegado el navegador!
pd.set_option("display.max_colwidth", None)
pd.set_option("display.max_colwidth", None)

---

## 1.- Strings

Es común que los datasets incluyan por lo menos una columna que contiene texto. Por lo general, el texto no es utilizable tal como viene (desordenado y sucio) por lo que preprocesarlo antes de utilizarlo es una tarea que se debe dominar.

Las `Series` de pandas implementan diversos métodos de procesamiento de string que permiten operar facilmente con estos. Por lo general, estos métodos son una réplica de los métodos originales de la clase built-in `string`.

<div align='center'>
<img src='./resources/pets.jpg' alt='Mascotas' width=600/>
</div>

In [4]:
mascotas = [
    (
        "Perro",
        "El perro (Canis familiaris o Canis lupus familiaris, dependiendo de si se lo considera una especie por "
        "derecho propio o una subespecie del lobo),1​2​3​ llamado perro doméstico o can,4​ y en algunos lugares"
        " coloquialmente llamado chucho,5​ tuso,6​ choco,7​ entre otros; es un mamífero carnívoro de la familia de "
        "los cánidos, que constituye una especie del género Canis.8​9​ En el 2013, la población mundial estimada "
        "de perros estaba entre setecientos millones y novecientos ochenta y siete millones.10​11​ Su tamaño "
        "(o talla), su forma y su pelaje es muy diverso, según la raza. Posee un oído y un olfato muy desarrollados,"
        " y este último es su principal órgano sensorial. Su longevidad media es de diez a trece años,12​13​14​ "
        "dependiendo de la raza. ",
    ),
    (
        "Gato",
        "El gato doméstico1​2​ (Felis silvestris catus), llamado popularmente gato, y de forma coloquial minino,"
        "3​ michino,4​ michi,5​ micho,6​ mizo,7​ miz,8​ morroño9​ o morrongo,10​ entre otros nombres, es un mamífero "
        "carnívoro de la familia Felidae. Es una subespecie domesticada por la convivencia con el ser humano. "
        "El gato se comunica a través de vocalizaciones. Las más populares son su característico maullido y el "
        "ronroneo, pero puede aullar, gemir, gruñir y bufar.11​Los gatos desarrollaron el maullido con la única "
        "finalidad de poder comunicarse con el ser humano. Además, adopta poses o expresiones que informan, "
        "a sus congéneres, sus enemigos o sus cuidadores, de su ánimo o sus intenciones. ",
    ),
    (
        "Hamster",
        "Los cricetinos (Cricetinae) son una subfamilia de roedores, conocidos comúnmente como hámsteres (un germanismo)"
        ".2​3​ Se han identificado diecinueve especies actuales, agrupadas en siete géneros. La mayoría son originarias "
        "de Oriente Medio y del sureste de los Estados Unidos. Todas las especies se caracterizan por las bolsas "
        "expansibles, llamadas abazones, ubicadas en el interior de la boca y que van desde las mejillas hasta los hombros."
        " Al ser muy fáciles de criar en cautividad, son ampliamente usados como animales de laboratorio y como mascotas. ",
    ),
    (
        "Cuy",
        "Cavia porcellus, conocida como cuy, cuye, cuyo, cobaya, cobayo, acure, güimo o conejillo de Indias, es una especie "
        "híbrida doméstica de roedor histricomorfo de la familia Caviidae. Es el resultado del cruce milenario de varias "
        "especies del género Cavia realizado en la región andina de América del Sur, habiéndose encontrado registros "
        "arqueológicos en Colombia, Ecuador, Perú y Bolivia. Fue una ofrenda en tiempos antiguos para su Dios.1​ ",
    ),
    (
        "Canario",
        "El canario doméstico (Serinus canaria domestica)3​4​ es una subespecie desarrollada durante siglos de selección"
        " en cautividad partiendo de ejemplares del canario silvestre o canario salvaje (Serinus canaria), una especie "
        "de ave del orden paseriforme de la familia de los fringílidos, endémica de las islas Canarias, Azores y Madeira.5​6​"
        "Es el ave doméstica criada como animal de compañía más abundante del mundo junto con el periquito. A pesar de esto, "
        "no se conocen poblaciones asilvestradas. ",
    ),
]
mascotas_df = pd.DataFrame(mascotas, columns=["nombre", "descripcion"])
mascotas_df

Unnamed: 0,nombre,descripcion
0,Perro,"El perro (Canis familiaris o Canis lupus familiaris, dependiendo de si se lo considera una especie por derecho propio o una subespecie del lobo),1​2​3​ llamado perro doméstico o can,4​ y en algunos lugares coloquialmente llamado chucho,5​ tuso,6​ choco,7​ entre otros; es un mamífero carnívoro de la familia de los cánidos, que constituye una especie del género Canis.8​9​ En el 2013, la población mundial estimada de perros estaba entre setecientos millones y novecientos ochenta y siete millones.10​11​ Su tamaño (o talla), su forma y su pelaje es muy diverso, según la raza. Posee un oído y un olfato muy desarrollados, y este último es su principal órgano sensorial. Su longevidad media es de diez a trece años,12​13​14​ dependiendo de la raza."
1,Gato,"El gato doméstico1​2​ (Felis silvestris catus), llamado popularmente gato, y de forma coloquial minino,3​ michino,4​ michi,5​ micho,6​ mizo,7​ miz,8​ morroño9​ o morrongo,10​ entre otros nombres, es un mamífero carnívoro de la familia Felidae. Es una subespecie domesticada por la convivencia con el ser humano. El gato se comunica a través de vocalizaciones. Las más populares son su característico maullido y el ronroneo, pero puede aullar, gemir, gruñir y bufar.11​Los gatos desarrollaron el maullido con la única finalidad de poder comunicarse con el ser humano. Además, adopta poses o expresiones que informan, a sus congéneres, sus enemigos o sus cuidadores, de su ánimo o sus intenciones."
2,Hamster,"Los cricetinos (Cricetinae) son una subfamilia de roedores, conocidos comúnmente como hámsteres (un germanismo).2​3​ Se han identificado diecinueve especies actuales, agrupadas en siete géneros. La mayoría son originarias de Oriente Medio y del sureste de los Estados Unidos. Todas las especies se caracterizan por las bolsas expansibles, llamadas abazones, ubicadas en el interior de la boca y que van desde las mejillas hasta los hombros. Al ser muy fáciles de criar en cautividad, son ampliamente usados como animales de laboratorio y como mascotas."
3,Cuy,"Cavia porcellus, conocida como cuy, cuye, cuyo, cobaya, cobayo, acure, güimo o conejillo de Indias, es una especie híbrida doméstica de roedor histricomorfo de la familia Caviidae. Es el resultado del cruce milenario de varias especies del género Cavia realizado en la región andina de América del Sur, habiéndose encontrado registros arqueológicos en Colombia, Ecuador, Perú y Bolivia. Fue una ofrenda en tiempos antiguos para su Dios.1​"
4,Canario,"El canario doméstico (Serinus canaria domestica)3​4​ es una subespecie desarrollada durante siglos de selección en cautividad partiendo de ejemplares del canario silvestre o canario salvaje (Serinus canaria), una especie de ave del orden paseriforme de la familia de los fringílidos, endémica de las islas Canarias, Azores y Madeira.5​6​Es el ave doméstica criada como animal de compañía más abundante del mundo junto con el periquito. A pesar de esto, no se conocen poblaciones asilvestradas."


In [5]:
desc_perro = mascotas_df.loc[0, "descripcion"]
desc_perro

'El perro (Canis familiaris o Canis lupus familiaris, dependiendo de si se lo considera una especie por derecho propio o una subespecie del lobo),1\u200b2\u200b3\u200b llamado perro doméstico o can,4\u200b y en algunos lugares coloquialmente llamado chucho,5\u200b tuso,6\u200b choco,7\u200b entre otros; es un mamífero carnívoro de la familia de los cánidos, que constituye una especie del género Canis.8\u200b9\u200b En el 2013, la población mundial estimada de perros estaba entre setecientos millones y novecientos ochenta y siete millones.10\u200b11\u200b Su tamaño (o talla), su forma y su pelaje es muy diverso, según la raza. Posee un oído y un olfato muy desarrollados, y este último es su principal órgano sensorial. Su longevidad media es de diez a trece años,12\u200b13\u200b14\u200b dependiendo de la raza. '

### Métodos de la Clase String

Como se dijo anteriormente, la mayoría de los métodos para string que implementa pandas sobre las `Series` son una réplica de los métodos implementados por la clase `String`. 

A continuación veremos un par de ejemplos de los métodos de strings y como utilizar estos métodos sobre una serie.

In [6]:
len(desc_perro)

749

In [7]:
desc_perro.lower()

'el perro (canis familiaris o canis lupus familiaris, dependiendo de si se lo considera una especie por derecho propio o una subespecie del lobo),1\u200b2\u200b3\u200b llamado perro doméstico o can,4\u200b y en algunos lugares coloquialmente llamado chucho,5\u200b tuso,6\u200b choco,7\u200b entre otros; es un mamífero carnívoro de la familia de los cánidos, que constituye una especie del género canis.8\u200b9\u200b en el 2013, la población mundial estimada de perros estaba entre setecientos millones y novecientos ochenta y siete millones.10\u200b11\u200b su tamaño (o talla), su forma y su pelaje es muy diverso, según la raza. posee un oído y un olfato muy desarrollados, y este último es su principal órgano sensorial. su longevidad media es de diez a trece años,12\u200b13\u200b14\u200b dependiendo de la raza. '

In [8]:
desc_perro.upper()

'EL PERRO (CANIS FAMILIARIS O CANIS LUPUS FAMILIARIS, DEPENDIENDO DE SI SE LO CONSIDERA UNA ESPECIE POR DERECHO PROPIO O UNA SUBESPECIE DEL LOBO),1\u200b2\u200b3\u200b LLAMADO PERRO DOMÉSTICO O CAN,4\u200b Y EN ALGUNOS LUGARES COLOQUIALMENTE LLAMADO CHUCHO,5\u200b TUSO,6\u200b CHOCO,7\u200b ENTRE OTROS; ES UN MAMÍFERO CARNÍVORO DE LA FAMILIA DE LOS CÁNIDOS, QUE CONSTITUYE UNA ESPECIE DEL GÉNERO CANIS.8\u200b9\u200b EN EL 2013, LA POBLACIÓN MUNDIAL ESTIMADA DE PERROS ESTABA ENTRE SETECIENTOS MILLONES Y NOVECIENTOS OCHENTA Y SIETE MILLONES.10\u200b11\u200b SU TAMAÑO (O TALLA), SU FORMA Y SU PELAJE ES MUY DIVERSO, SEGÚN LA RAZA. POSEE UN OÍDO Y UN OLFATO MUY DESARROLLADOS, Y ESTE ÚLTIMO ES SU PRINCIPAL ÓRGANO SENSORIAL. SU LONGEVIDAD MEDIA ES DE DIEZ A TRECE AÑOS,12\u200b13\u200b14\u200b DEPENDIENDO DE LA RAZA. '

In [9]:
desc_perro.title()

'El Perro (Canis Familiaris O Canis Lupus Familiaris, Dependiendo De Si Se Lo Considera Una Especie Por Derecho Propio O Una Subespecie Del Lobo),1\u200b2\u200b3\u200b Llamado Perro Doméstico O Can,4\u200b Y En Algunos Lugares Coloquialmente Llamado Chucho,5\u200b Tuso,6\u200b Choco,7\u200b Entre Otros; Es Un Mamífero Carnívoro De La Familia De Los Cánidos, Que Constituye Una Especie Del Género Canis.8\u200b9\u200b En El 2013, La Población Mundial Estimada De Perros Estaba Entre Setecientos Millones Y Novecientos Ochenta Y Siete Millones.10\u200b11\u200b Su Tamaño (O Talla), Su Forma Y Su Pelaje Es Muy Diverso, Según La Raza. Posee Un Oído Y Un Olfato Muy Desarrollados, Y Este Último Es Su Principal Órgano Sensorial. Su Longevidad Media Es De Diez A Trece Años,12\u200b13\u200b14\u200b Dependiendo De La Raza. '

In [10]:
desc_perro.split(" ")

['El',
 'perro',
 '(Canis',
 'familiaris',
 'o',
 'Canis',
 'lupus',
 'familiaris,',
 'dependiendo',
 'de',
 'si',
 'se',
 'lo',
 'considera',
 'una',
 'especie',
 'por',
 'derecho',
 'propio',
 'o',
 'una',
 'subespecie',
 'del',
 'lobo),1\u200b2\u200b3\u200b',
 'llamado',
 'perro',
 'doméstico',
 'o',
 'can,4\u200b',
 'y',
 'en',
 'algunos',
 'lugares',
 'coloquialmente',
 'llamado',
 'chucho,5\u200b',
 'tuso,6\u200b',
 'choco,7\u200b',
 'entre',
 'otros;',
 'es',
 'un',
 'mamífero',
 'carnívoro',
 'de',
 'la',
 'familia',
 'de',
 'los',
 'cánidos,',
 'que',
 'constituye',
 'una',
 'especie',
 'del',
 'género',
 'Canis.8\u200b9\u200b',
 'En',
 'el',
 '2013,',
 'la',
 'población',
 'mundial',
 'estimada',
 'de',
 'perros',
 'estaba',
 'entre',
 'setecientos',
 'millones',
 'y',
 'novecientos',
 'ochenta',
 'y',
 'siete',
 'millones.10\u200b11\u200b',
 'Su',
 'tamaño',
 '(o',
 'talla),',
 'su',
 'forma',
 'y',
 'su',
 'pelaje',
 'es',
 'muy',
 'diverso,',
 'según',
 'la',
 'raza.',
 'P

In [11]:
"-".join(["Este", "string", "(ya no)", "esta", "separado"])

'Este-string-(ya no)-esta-separado'

In [12]:
"perro" in desc_perro

True

In [13]:
"gato" in desc_perro

False

### Strings En Las Series

In [14]:
mascotas_df["descripcion"]

0    El perro (Canis familiaris o Canis lupus familiaris, dependiendo de si se lo considera una especie por derecho propio o una subespecie del lobo),1​2​3​ llamado perro doméstico o can,4​ y en algunos lugares coloquialmente llamado chucho,5​ tuso,6​ choco,7​ entre otros; es un mamífero carnívoro de la familia de los cánidos, que constituye una especie del género Canis.8​9​ En el 2013, la población mundial estimada de perros estaba entre setecientos millones y novecientos ochenta y siete millones.10​11​ Su tamaño (o talla), su forma y su pelaje es muy diverso, según la raza. Posee un oído y un olfato muy desarrollados, y este último es su principal órgano sensorial. Su longevidad media es de diez a trece años,12​13​14​ dependiendo de la raza. 
1                                                         El gato doméstico1​2​ (Felis silvestris catus), llamado popularmente gato, y de forma coloquial minino,3​ michino,4​ michi,5​ micho,6​ mizo,7​ miz,8​ morroño9​ o morrongo,10​ entre otros 

#### Len, Lower, Upper, Title y Capitalize

In [16]:
mascotas_df["descripcion"].str

<pandas.core.strings.accessor.StringMethods at 0x7f4c3856f490>

In [15]:
mascotas_df["descripcion"].str.len()

0    749
1    696
2    553
3    439
4    494
Name: descripcion, dtype: int64

In [17]:
mascotas_df["descripcion"].str.lower()

0    el perro (canis familiaris o canis lupus familiaris, dependiendo de si se lo considera una especie por derecho propio o una subespecie del lobo),1​2​3​ llamado perro doméstico o can,4​ y en algunos lugares coloquialmente llamado chucho,5​ tuso,6​ choco,7​ entre otros; es un mamífero carnívoro de la familia de los cánidos, que constituye una especie del género canis.8​9​ en el 2013, la población mundial estimada de perros estaba entre setecientos millones y novecientos ochenta y siete millones.10​11​ su tamaño (o talla), su forma y su pelaje es muy diverso, según la raza. posee un oído y un olfato muy desarrollados, y este último es su principal órgano sensorial. su longevidad media es de diez a trece años,12​13​14​ dependiendo de la raza. 
1                                                         el gato doméstico1​2​ (felis silvestris catus), llamado popularmente gato, y de forma coloquial minino,3​ michino,4​ michi,5​ micho,6​ mizo,7​ miz,8​ morroño9​ o morrongo,10​ entre otros 

In [18]:
mascotas_df["descripcion"].str.upper()

0    EL PERRO (CANIS FAMILIARIS O CANIS LUPUS FAMILIARIS, DEPENDIENDO DE SI SE LO CONSIDERA UNA ESPECIE POR DERECHO PROPIO O UNA SUBESPECIE DEL LOBO),1​2​3​ LLAMADO PERRO DOMÉSTICO O CAN,4​ Y EN ALGUNOS LUGARES COLOQUIALMENTE LLAMADO CHUCHO,5​ TUSO,6​ CHOCO,7​ ENTRE OTROS; ES UN MAMÍFERO CARNÍVORO DE LA FAMILIA DE LOS CÁNIDOS, QUE CONSTITUYE UNA ESPECIE DEL GÉNERO CANIS.8​9​ EN EL 2013, LA POBLACIÓN MUNDIAL ESTIMADA DE PERROS ESTABA ENTRE SETECIENTOS MILLONES Y NOVECIENTOS OCHENTA Y SIETE MILLONES.10​11​ SU TAMAÑO (O TALLA), SU FORMA Y SU PELAJE ES MUY DIVERSO, SEGÚN LA RAZA. POSEE UN OÍDO Y UN OLFATO MUY DESARROLLADOS, Y ESTE ÚLTIMO ES SU PRINCIPAL ÓRGANO SENSORIAL. SU LONGEVIDAD MEDIA ES DE DIEZ A TRECE AÑOS,12​13​14​ DEPENDIENDO DE LA RAZA. 
1                                                         EL GATO DOMÉSTICO1​2​ (FELIS SILVESTRIS CATUS), LLAMADO POPULARMENTE GATO, Y DE FORMA COLOQUIAL MININO,3​ MICHINO,4​ MICHI,5​ MICHO,6​ MIZO,7​ MIZ,8​ MORROÑO9​ O MORRONGO,10​ ENTRE OTROS 

In [19]:
mascotas_df["descripcion"].str.title()

0    El Perro (Canis Familiaris O Canis Lupus Familiaris, Dependiendo De Si Se Lo Considera Una Especie Por Derecho Propio O Una Subespecie Del Lobo),1​2​3​ Llamado Perro Doméstico O Can,4​ Y En Algunos Lugares Coloquialmente Llamado Chucho,5​ Tuso,6​ Choco,7​ Entre Otros; Es Un Mamífero Carnívoro De La Familia De Los Cánidos, Que Constituye Una Especie Del Género Canis.8​9​ En El 2013, La Población Mundial Estimada De Perros Estaba Entre Setecientos Millones Y Novecientos Ochenta Y Siete Millones.10​11​ Su Tamaño (O Talla), Su Forma Y Su Pelaje Es Muy Diverso, Según La Raza. Posee Un Oído Y Un Olfato Muy Desarrollados, Y Este Último Es Su Principal Órgano Sensorial. Su Longevidad Media Es De Diez A Trece Años,12​13​14​ Dependiendo De La Raza. 
1                                                         El Gato Doméstico1​2​ (Felis Silvestris Catus), Llamado Popularmente Gato, Y De Forma Coloquial Minino,3​ Michino,4​ Michi,5​ Micho,6​ Mizo,7​ Miz,8​ Morroño9​ O Morrongo,10​ Entre Otros 

In [20]:
mascotas_df["descripcion"].str.capitalize()

0    El perro (canis familiaris o canis lupus familiaris, dependiendo de si se lo considera una especie por derecho propio o una subespecie del lobo),1​2​3​ llamado perro doméstico o can,4​ y en algunos lugares coloquialmente llamado chucho,5​ tuso,6​ choco,7​ entre otros; es un mamífero carnívoro de la familia de los cánidos, que constituye una especie del género canis.8​9​ en el 2013, la población mundial estimada de perros estaba entre setecientos millones y novecientos ochenta y siete millones.10​11​ su tamaño (o talla), su forma y su pelaje es muy diverso, según la raza. posee un oído y un olfato muy desarrollados, y este último es su principal órgano sensorial. su longevidad media es de diez a trece años,12​13​14​ dependiendo de la raza. 
1                                                         El gato doméstico1​2​ (felis silvestris catus), llamado popularmente gato, y de forma coloquial minino,3​ michino,4​ michi,5​ micho,6​ mizo,7​ miz,8​ morroño9​ o morrongo,10​ entre otros 

#### Contains, Split y Join

In [21]:
mascotas_df["descripcion"].str.contains("perro")

0     True
1    False
2    False
3    False
4    False
Name: descripcion, dtype: bool

In [22]:
mascotas_df["descripcion"].str.contains("gato")

0    False
1     True
2    False
3    False
4    False
Name: descripcion, dtype: bool

In [23]:
mascotas_df["descripcion"].str.split(" ")

0                                               [El, perro, (Canis, familiaris, o, Canis, lupus, familiaris,, dependiendo, de, si, se, lo, considera, una, especie, por, derecho, propio, o, una, subespecie, del, lobo),1​2​3​, llamado, perro, doméstico, o, can,4​, y, en, algunos, lugares, coloquialmente, llamado, chucho,5​, tuso,6​, choco,7​, entre, otros;, es, un, mamífero, carnívoro, de, la, familia, de, los, cánidos,, que, constituye, una, especie, del, género, Canis.8​9​, En, el, 2013,, la, población, mundial, estimada, de, perros, estaba, entre, setecientos, millones, y, novecientos, ochenta, y, siete, millones.10​11​, Su, tamaño, (o, talla),, su, forma, y, su, pelaje, es, muy, diverso,, según, la, raza., Posee, un, oído, y, un, olfato, muy, desarrollados,, y, ...]
1    [El, gato, doméstico1​2​, (Felis, silvestris, catus),, llamado, popularmente, gato,, y, de, forma, coloquial, minino,3​, michino,4​, michi,5​, micho,6​, mizo,7​, miz,8​, morroño9​, o, morrongo,10​, entre, otros, nomb

In [24]:
mascotas_df["descripcion"].str.split(" ").str.join("|")

0    El|perro|(Canis|familiaris|o|Canis|lupus|familiaris,|dependiendo|de|si|se|lo|considera|una|especie|por|derecho|propio|o|una|subespecie|del|lobo),1​2​3​|llamado|perro|doméstico|o|can,4​|y|en|algunos|lugares|coloquialmente|llamado|chucho,5​|tuso,6​|choco,7​|entre|otros;|es|un|mamífero|carnívoro|de|la|familia|de|los|cánidos,|que|constituye|una|especie|del|género|Canis.8​9​|En|el|2013,|la|población|mundial|estimada|de|perros|estaba|entre|setecientos|millones|y|novecientos|ochenta|y|siete|millones.10​11​|Su|tamaño|(o|talla),|su|forma|y|su|pelaje|es|muy|diverso,|según|la|raza.|Posee|un|oído|y|un|olfato|muy|desarrollados,|y|este|último|es|su|principal|órgano|sensorial.|Su|longevidad|media|es|de|diez|a|trece|años,12​13​14​|dependiendo|de|la|raza.|
1                                                         El|gato|doméstico1​2​|(Felis|silvestris|catus),|llamado|popularmente|gato,|y|de|forma|coloquial|minino,3​|michino,4​|michi,5​|micho,6​|mizo,7​|miz,8​|morroño9​|o|morrongo,10​|entre|otros|

#### Replace

In [26]:
mascotas_df["descripcion"]

0    El perro (Canis familiaris o Canis lupus familiaris, dependiendo de si se lo considera una especie por derecho propio o una subespecie del lobo),1​2​3​ llamado perro doméstico o can,4​ y en algunos lugares coloquialmente llamado chucho,5​ tuso,6​ choco,7​ entre otros; es un mamífero carnívoro de la familia de los cánidos, que constituye una especie del género Canis.8​9​ En el 2013, la población mundial estimada de perros estaba entre setecientos millones y novecientos ochenta y siete millones.10​11​ Su tamaño (o talla), su forma y su pelaje es muy diverso, según la raza. Posee un oído y un olfato muy desarrollados, y este último es su principal órgano sensorial. Su longevidad media es de diez a trece años,12​13​14​ dependiendo de la raza. 
1                                                         El gato doméstico1​2​ (Felis silvestris catus), llamado popularmente gato, y de forma coloquial minino,3​ michino,4​ michi,5​ micho,6​ mizo,7​ miz,8​ morroño9​ o morrongo,10​ entre otros 

In [25]:
mascotas_df["descripcion"].str.replace("(", "", regex=False).str.replace(
    ")", "", regex=False
)

0    El perro Canis familiaris o Canis lupus familiaris, dependiendo de si se lo considera una especie por derecho propio o una subespecie del lobo,1​2​3​ llamado perro doméstico o can,4​ y en algunos lugares coloquialmente llamado chucho,5​ tuso,6​ choco,7​ entre otros; es un mamífero carnívoro de la familia de los cánidos, que constituye una especie del género Canis.8​9​ En el 2013, la población mundial estimada de perros estaba entre setecientos millones y novecientos ochenta y siete millones.10​11​ Su tamaño o talla, su forma y su pelaje es muy diverso, según la raza. Posee un oído y un olfato muy desarrollados, y este último es su principal órgano sensorial. Su longevidad media es de diez a trece años,12​13​14​ dependiendo de la raza. 
1                                                       El gato doméstico1​2​ Felis silvestris catus, llamado popularmente gato, y de forma coloquial minino,3​ michino,4​ michi,5​ micho,6​ mizo,7​ miz,8​ morroño9​ o morrongo,10​ entre otros nombres,

##### Expresiones Regulares

> Según [`re` de `python`](https://docs.python.org/3/library/re.html): *A regular expression (or RE) specifies a set of strings that matches it; the functions in this module let you check if a particular string matches a given regular expression (or if a given regular expression matches a particular string, which comes down to the same thing).*


- https://www.programiz.com/python-programming/regex

- https://regex101.com/

In [28]:
mascotas_df["descripcion"].str.replace("\(|\)|,", "", regex=True)

0    El perro Canis familiaris o Canis lupus familiaris dependiendo de si se lo considera una especie por derecho propio o una subespecie del lobo1​2​3​ llamado perro doméstico o can4​ y en algunos lugares coloquialmente llamado chucho5​ tuso6​ choco7​ entre otros; es un mamífero carnívoro de la familia de los cánidos que constituye una especie del género Canis.8​9​ En el 2013 la población mundial estimada de perros estaba entre setecientos millones y novecientos ochenta y siete millones.10​11​ Su tamaño o talla su forma y su pelaje es muy diverso según la raza. Posee un oído y un olfato muy desarrollados y este último es su principal órgano sensorial. Su longevidad media es de diez a trece años12​13​14​ dependiendo de la raza. 
1                                                            El gato doméstico1​2​ Felis silvestris catus llamado popularmente gato y de forma coloquial minino3​ michino4​ michi5​ micho6​ mizo7​ miz8​ morroño9​ o morrongo10​ entre otros nombres es un mamífero c

In [29]:
mascotas_df["descripcion"].str.replace("\d{1,3}", "", regex=True)

0    El perro (Canis familiaris o Canis lupus familiaris, dependiendo de si se lo considera una especie por derecho propio o una subespecie del lobo),​​​ llamado perro doméstico o can,​ y en algunos lugares coloquialmente llamado chucho,​ tuso,​ choco,​ entre otros; es un mamífero carnívoro de la familia de los cánidos, que constituye una especie del género Canis.​​ En el , la población mundial estimada de perros estaba entre setecientos millones y novecientos ochenta y siete millones.​​ Su tamaño (o talla), su forma y su pelaje es muy diverso, según la raza. Posee un oído y un olfato muy desarrollados, y este último es su principal órgano sensorial. Su longevidad media es de diez a trece años,​​​ dependiendo de la raza. 
1                                               El gato doméstico​​ (Felis silvestris catus), llamado popularmente gato, y de forma coloquial minino,​ michino,​ michi,​ micho,​ mizo,​ miz,​ morroño​ o morrongo,​ entre otros nombres, es un mamífero carnívoro de la fami

### Paréntesis: Método `apply`

Este método permite aplicar una función sobre una serie (o sobre las filas o columnas de un DataFrame)

In [30]:
mascotas_df["descripcion"].apply(lambda x: "gato" in x)

0    False
1     True
2    False
3    False
4    False
Name: descripcion, dtype: bool

In [31]:
import unicodedata


def strip_accents_ascii(s):
    """Transform accentuated unicode symbols into ascii or nothing
    Warning: this solution is only suited for languages that have a direct
    transliteration to ASCII symbols.
    See also
    --------
    strip_accents_unicode
        Remove accentuated char for any unicode symbol.
    """
    nkfd_form = unicodedata.normalize("NFKD", s)
    return nkfd_form.encode("ASCII", "ignore").decode("ASCII")

In [32]:
mascotas_df["descripcion"]

0    El perro (Canis familiaris o Canis lupus familiaris, dependiendo de si se lo considera una especie por derecho propio o una subespecie del lobo),1​2​3​ llamado perro doméstico o can,4​ y en algunos lugares coloquialmente llamado chucho,5​ tuso,6​ choco,7​ entre otros; es un mamífero carnívoro de la familia de los cánidos, que constituye una especie del género Canis.8​9​ En el 2013, la población mundial estimada de perros estaba entre setecientos millones y novecientos ochenta y siete millones.10​11​ Su tamaño (o talla), su forma y su pelaje es muy diverso, según la raza. Posee un oído y un olfato muy desarrollados, y este último es su principal órgano sensorial. Su longevidad media es de diez a trece años,12​13​14​ dependiendo de la raza. 
1                                                         El gato doméstico1​2​ (Felis silvestris catus), llamado popularmente gato, y de forma coloquial minino,3​ michino,4​ michi,5​ micho,6​ mizo,7​ miz,8​ morroño9​ o morrongo,10​ entre otros 

In [33]:
mascotas_df["descripcion"].apply(strip_accents_ascii)

0    El perro (Canis familiaris o Canis lupus familiaris, dependiendo de si se lo considera una especie por derecho propio o una subespecie del lobo),123 llamado perro domestico o can,4 y en algunos lugares coloquialmente llamado chucho,5 tuso,6 choco,7 entre otros; es un mamifero carnivoro de la familia de los canidos, que constituye una especie del genero Canis.89 En el 2013, la poblacion mundial estimada de perros estaba entre setecientos millones y novecientos ochenta y siete millones.1011 Su tamano (o talla), su forma y su pelaje es muy diverso, segun la raza. Posee un oido y un olfato muy desarrollados, y este ultimo es su principal organo sensorial. Su longevidad media es de diez a trece anos,121314 dependiendo de la raza. 
1                                                      El gato domestico12 (Felis silvestris catus), llamado popularmente gato, y de forma coloquial minino,3 michino,4 michi,5 micho,6 mizo,7 miz,8 morrono9 o morrongo,10 entre otros nombres, es un mamifero car

Aplicación sobre DataFrames:

In [34]:
mascotas_df

Unnamed: 0,nombre,descripcion
0,Perro,"El perro (Canis familiaris o Canis lupus familiaris, dependiendo de si se lo considera una especie por derecho propio o una subespecie del lobo),1​2​3​ llamado perro doméstico o can,4​ y en algunos lugares coloquialmente llamado chucho,5​ tuso,6​ choco,7​ entre otros; es un mamífero carnívoro de la familia de los cánidos, que constituye una especie del género Canis.8​9​ En el 2013, la población mundial estimada de perros estaba entre setecientos millones y novecientos ochenta y siete millones.10​11​ Su tamaño (o talla), su forma y su pelaje es muy diverso, según la raza. Posee un oído y un olfato muy desarrollados, y este último es su principal órgano sensorial. Su longevidad media es de diez a trece años,12​13​14​ dependiendo de la raza."
1,Gato,"El gato doméstico1​2​ (Felis silvestris catus), llamado popularmente gato, y de forma coloquial minino,3​ michino,4​ michi,5​ micho,6​ mizo,7​ miz,8​ morroño9​ o morrongo,10​ entre otros nombres, es un mamífero carnívoro de la familia Felidae. Es una subespecie domesticada por la convivencia con el ser humano. El gato se comunica a través de vocalizaciones. Las más populares son su característico maullido y el ronroneo, pero puede aullar, gemir, gruñir y bufar.11​Los gatos desarrollaron el maullido con la única finalidad de poder comunicarse con el ser humano. Además, adopta poses o expresiones que informan, a sus congéneres, sus enemigos o sus cuidadores, de su ánimo o sus intenciones."
2,Hamster,"Los cricetinos (Cricetinae) son una subfamilia de roedores, conocidos comúnmente como hámsteres (un germanismo).2​3​ Se han identificado diecinueve especies actuales, agrupadas en siete géneros. La mayoría son originarias de Oriente Medio y del sureste de los Estados Unidos. Todas las especies se caracterizan por las bolsas expansibles, llamadas abazones, ubicadas en el interior de la boca y que van desde las mejillas hasta los hombros. Al ser muy fáciles de criar en cautividad, son ampliamente usados como animales de laboratorio y como mascotas."
3,Cuy,"Cavia porcellus, conocida como cuy, cuye, cuyo, cobaya, cobayo, acure, güimo o conejillo de Indias, es una especie híbrida doméstica de roedor histricomorfo de la familia Caviidae. Es el resultado del cruce milenario de varias especies del género Cavia realizado en la región andina de América del Sur, habiéndose encontrado registros arqueológicos en Colombia, Ecuador, Perú y Bolivia. Fue una ofrenda en tiempos antiguos para su Dios.1​"
4,Canario,"El canario doméstico (Serinus canaria domestica)3​4​ es una subespecie desarrollada durante siglos de selección en cautividad partiendo de ejemplares del canario silvestre o canario salvaje (Serinus canaria), una especie de ave del orden paseriforme de la familia de los fringílidos, endémica de las islas Canarias, Azores y Madeira.5​6​Es el ave doméstica criada como animal de compañía más abundante del mundo junto con el periquito. A pesar de esto, no se conocen poblaciones asilvestradas."


In [35]:
mascotas_df.apply(lambda x: x["nombre"] + " - " + x["descripcion"], axis=1)

0    Perro - El perro (Canis familiaris o Canis lupus familiaris, dependiendo de si se lo considera una especie por derecho propio o una subespecie del lobo),1​2​3​ llamado perro doméstico o can,4​ y en algunos lugares coloquialmente llamado chucho,5​ tuso,6​ choco,7​ entre otros; es un mamífero carnívoro de la familia de los cánidos, que constituye una especie del género Canis.8​9​ En el 2013, la población mundial estimada de perros estaba entre setecientos millones y novecientos ochenta y siete millones.10​11​ Su tamaño (o talla), su forma y su pelaje es muy diverso, según la raza. Posee un oído y un olfato muy desarrollados, y este último es su principal órgano sensorial. Su longevidad media es de diez a trece años,12​13​14​ dependiendo de la raza. 
1                                                          Gato - El gato doméstico1​2​ (Felis silvestris catus), llamado popularmente gato, y de forma coloquial minino,3​ michino,4​ michi,5​ micho,6​ mizo,7​ miz,8​ morroño9​ o morrongo,

#### Preprocesamiento Completo

In [37]:
mascotas_df["descripcion"]

0    El perro (Canis familiaris o Canis lupus familiaris, dependiendo de si se lo considera una especie por derecho propio o una subespecie del lobo),1​2​3​ llamado perro doméstico o can,4​ y en algunos lugares coloquialmente llamado chucho,5​ tuso,6​ choco,7​ entre otros; es un mamífero carnívoro de la familia de los cánidos, que constituye una especie del género Canis.8​9​ En el 2013, la población mundial estimada de perros estaba entre setecientos millones y novecientos ochenta y siete millones.10​11​ Su tamaño (o talla), su forma y su pelaje es muy diverso, según la raza. Posee un oído y un olfato muy desarrollados, y este último es su principal órgano sensorial. Su longevidad media es de diez a trece años,12​13​14​ dependiendo de la raza. 
1                                                         El gato doméstico1​2​ (Felis silvestris catus), llamado popularmente gato, y de forma coloquial minino,3​ michino,4​ michi,5​ micho,6​ mizo,7​ miz,8​ morroño9​ o morrongo,10​ entre otros 

In [38]:
(
    mascotas_df["descripcion"]
    .apply(lambda x: strip_accents_ascii(x))
    .str.replace("\(|\)|,|\d{1,3}|;|\.", " ", regex=True)
    .str.replace(r"\s+", " ", regex=True)
    .str.strip()
    .str.lower()
)

0    el perro canis familiaris o canis lupus familiaris dependiendo de si se lo considera una especie por derecho propio o una subespecie del lobo llamado perro domestico o can y en algunos lugares coloquialmente llamado chucho tuso choco entre otros es un mamifero carnivoro de la familia de los canidos que constituye una especie del genero canis en el la poblacion mundial estimada de perros estaba entre setecientos millones y novecientos ochenta y siete millones su tamano o talla su forma y su pelaje es muy diverso segun la raza posee un oido y un olfato muy desarrollados y este ultimo es su principal organo sensorial su longevidad media es de diez a trece anos dependiendo de la raza
1                                             el gato domestico felis silvestris catus llamado popularmente gato y de forma coloquial minino michino michi micho mizo miz morrono o morrongo entre otros nombres es un mamifero carnivoro de la familia felidae es una subespecie domesticada por la convivencia c

#### Concatenación

In [39]:
desc_limpia = (
    mascotas_df["descripcion"]
    .apply(lambda x: strip_accents_ascii(x))
    .str.replace("\(|\)|,|\d{1,3}|;|\.", " ", regex=True)
    .str.replace(r"\s+", " ", regex=True)
    .str.strip()
    .str.lower()
)
# s1 + s2 + ... + sn
desc_limpia.str.cat(sep="|")

'el perro canis familiaris o canis lupus familiaris dependiendo de si se lo considera una especie por derecho propio o una subespecie del lobo llamado perro domestico o can y en algunos lugares coloquialmente llamado chucho tuso choco entre otros es un mamifero carnivoro de la familia de los canidos que constituye una especie del genero canis en el la poblacion mundial estimada de perros estaba entre setecientos millones y novecientos ochenta y siete millones su tamano o talla su forma y su pelaje es muy diverso segun la raza posee un oido y un olfato muy desarrollados y este ultimo es su principal organo sensorial su longevidad media es de diez a trece anos dependiendo de la raza|el gato domestico felis silvestris catus llamado popularmente gato y de forma coloquial minino michino michi micho mizo miz morrono o morrongo entre otros nombres es un mamifero carnivoro de la familia felidae es una subespecie domesticada por la convivencia con el ser humano el gato se comunica a traves de v

---

## 2.- Datos Temporales

### Módulo Datetime

Módulo built-in de python enfocado en manejar fechas y horas.

In [40]:
import datetime

#### Date

Objeto que almacena día, mes y año.

In [41]:
date_object = datetime.date.today()
print(date_object)

2022-04-25


In [42]:
date_object.day

25

In [43]:
date_object.month

4

In [44]:
date_object.year

2022

#### Datetime

Almacena segundos, minutos, hora, día, mes y año. También puede contener timezone.

In [45]:
datetime_object = datetime.datetime.now()
print(datetime_object)

2022-04-25 17:33:24.430822


#### Instanciar nuevos Date y Datetimes

In [46]:
d = datetime.date(2021, 9, 9)
print(d)

2021-09-09


In [47]:
print("Año:", d.year)
print("Mes:", d.month)
print("Día:", d.day)

Año: 2021
Mes: 9
Día: 9


In [48]:
d = datetime.datetime(2021, 4, 19, 10, 59, 55)
print(d)

2021-04-19 10:59:55


In [49]:
print("Hora:", d.hour)
print("Minuto:", d.minute)
print("Segundo:", d.second)
print("Microsegundo:", d.microsecond)

Hora: 10
Minuto: 59
Segundo: 55
Microsegundo: 0


Obviamente, estos objetos cuentan con las restricciones pertinentes 

In [50]:
datetime.datetime(-1, 4, 19, 10, 59, 55)

ValueError: year -1 is out of range

In [53]:
datetime.datetime(9999, 4, 19, 10, 59, 55)

datetime.datetime(9999, 4, 19, 10, 59, 55)

Relacionado: https://es.wikipedia.org/wiki/Problema_del_a%C3%B1o_2000


El problema del año 2000, fue un bug o error de software causado por la costumbre que habían adoptado los programadores de omitir la centuria en el año para el almacenamiento de fechas (generalmente para economizar memoria), asumiendo que el software solo funcionaría durante los años cuyos números comenzaran con 19XX


![Antes](https://www.sopitas.com/wp-content/uploads/2016/04/ss.gif)


In [54]:
datetime.datetime(999999, 4, 19, 10, 59, 55)

ValueError: year 999999 is out of range

In [55]:
datetime.datetime(2020, 4, 19, 10, 60, 55)

ValueError: minute must be in 0..59

¿Y los años bisiestos?

In [56]:
datetime.datetime(2020, 2, 29)

datetime.datetime(2020, 2, 29, 0, 0)

In [57]:
datetime.datetime(2021, 2, 29)

ValueError: day is out of range for month

##### Desde timestamp

`A Unix timestamp is the number of seconds between a particular date and January 1, 1970 at UTC.`

In [58]:
timestamp = datetime.date.fromtimestamp(1326244364)
print("Date =", timestamp)

Date = 2012-01-10


> **Pregunta ❓**: ¿Podemos sumar o restar fechas?

In [59]:
delta = datetime.datetime(1, 1, 1)
delta

datetime.datetime(1, 1, 1, 0, 0)

In [60]:
d

datetime.datetime(2021, 4, 19, 10, 59, 55)

In [61]:
d + delta

TypeError: unsupported operand type(s) for +: 'datetime.datetime' and 'datetime.datetime'

#### TimeDelta

Permide sumar semanas, días, horas, etc... a objetos `date` y `datetime`.

In [62]:
d

datetime.datetime(2021, 4, 19, 10, 59, 55)

In [63]:
from datetime import timedelta

t1 = timedelta(weeks=2)
t1

datetime.timedelta(days=14)

In [64]:
d + t1

datetime.datetime(2021, 5, 3, 10, 59, 55)

¿Y tiempos negativos?

In [65]:
t2 = timedelta(minutes=-1)

In [66]:
d + t2

datetime.datetime(2021, 4, 19, 10, 58, 55)

In [67]:
d - t2

datetime.datetime(2021, 4, 19, 11, 0, 55)

¿Cambios de mes?

In [68]:
t3 = timedelta(days=1)

In [69]:
t3 + datetime.date(2020, 2, 28)

datetime.date(2020, 2, 29)

In [70]:
t3 + datetime.date(2021, 2, 28)

datetime.date(2021, 3, 1)

#### Formatear a string

In [71]:
s1 = d.strftime("%d/%m/%Y, %H:%M:%S")
# dd/mm/YY H:M:S format
s1

'19/04/2021, 10:59:55'

In [72]:
s1 = d.strftime("%d/%m/%Y")
# dd/mm/YY H:M:S format
s1

'19/04/2021'

In [73]:
s2 = d.strftime("%A %d %B %Y, %X")
# dd/mm/YY H:M:S format
s2

'Monday 19 April 2021, 10:59:55'

Referencia completa de formateo de fechas:

https://www.programiz.com/python-programming/datetime/strftime

---

## 3.- Datos temporales en Pandas

Pandas implementa su propio sistema de datetimes.
`pd.to_datetimes` nos permite convertir una `Serie` o un `DataFrame` en una `Serie` de datetimes.

In [74]:
temp_df.head(3)

Unnamed: 0,Temperature,Year,Month,Country,ISO3
0,-0.0311,1991,Jan,Afghanistan,AFG
1,1.43654,1991,Feb,Afghanistan,AFG
2,6.88685,1991,Mar,Afghanistan,AFG


In [75]:
import numpy as np

dates = temp_df.loc[:, ["Year", "Month"]]
dates["Day"] = np.ones(dates.shape[0])
dates

Unnamed: 0,Year,Month,Day
0,1991,Jan,1.0
1,1991,Feb,1.0
2,1991,Mar,1.0
3,1991,Apr,1.0
4,1991,May,1.0
...,...,...,...
59899,2016,Aug,1.0
59900,2016,Sep,1.0
59901,2016,Oct,1.0
59902,2016,Nov,1.0


In [76]:
pd.to_datetime(["1991", "Jan", "1.0"], yearfirst=True)

OutOfBoundsDatetime: Out of bounds nanosecond timestamp: 1-01-01 00:00:00

### Paréntesis: Método `Map`

Esta función permite hacer un `mapeo` (sustituir un valor por otro) sobre los elementos de una serie.

In [None]:
dates["Month"]

In [77]:
dates["Month"].map(
    {
        "Jan": 1,
        "Feb": 2,
        "Mar": 3,
        "Apr": 4,
        "May": 5,
        "Jun": 6,
        "Jul": 7,
        "Aug": 8,
        "Sep": 9,
        "Oct": 10,
        "Nov": 11,
        "Dec": 12,
    }
)

0         1
1         2
2         3
3         4
4         5
         ..
59899     8
59900     9
59901    10
59902    11
59903    12
Name: Month, Length: 59904, dtype: int64

In [78]:
dates["Month"] = dates["Month"].map(
    {
        "Jan": 1,
        "Feb": 2,
        "Mar": 3,
        "Apr": 4,
        "May": 5,
        "Jun": 6,
        "Jul": 7,
        "Aug": 8,
        "Sep": 9,
        "Oct": 10,
        "Nov": 11,
        "Dec": 12,
    }
)

In [79]:
dates

Unnamed: 0,Year,Month,Day
0,1991,1,1.0
1,1991,2,1.0
2,1991,3,1.0
3,1991,4,1.0
4,1991,5,1.0
...,...,...,...
59899,2016,8,1.0
59900,2016,9,1.0
59901,2016,10,1.0
59902,2016,11,1.0


In [80]:
parsed_dates = pd.to_datetime(dates, yearfirst=True, infer_datetime_format=True)
parsed_dates

0       1991-01-01
1       1991-02-01
2       1991-03-01
3       1991-04-01
4       1991-05-01
           ...    
59899   2016-08-01
59900   2016-09-01
59901   2016-10-01
59902   2016-11-01
59903   2016-12-01
Length: 59904, dtype: datetime64[ns]

In [81]:
temp_df["dates"] = parsed_dates
temp_df

Unnamed: 0,Temperature,Year,Month,Country,ISO3,dates
0,-0.03110,1991,Jan,Afghanistan,AFG,1991-01-01
1,1.43654,1991,Feb,Afghanistan,AFG,1991-02-01
2,6.88685,1991,Mar,Afghanistan,AFG,1991-03-01
3,12.93970,1991,Apr,Afghanistan,AFG,1991-04-01
4,17.07550,1991,May,Afghanistan,AFG,1991-05-01
...,...,...,...,...,...,...
59899,26.09480,2016,Aug,Venezuela,VEN,2016-08-01
59900,26.22090,2016,Sep,Venezuela,VEN,2016-09-01
59901,26.62850,2016,Oct,Venezuela,VEN,2016-10-01
59902,26.27680,2016,Nov,Venezuela,VEN,2016-11-01


In [82]:
temp_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 59904 entries, 0 to 59903
Data columns (total 6 columns):
 #   Column       Non-Null Count  Dtype         
---  ------       --------------  -----         
 0   Temperature  59904 non-null  float64       
 1   Year         59904 non-null  int64         
 2   Month        59904 non-null  object        
 3   Country      59904 non-null  object        
 4   ISO3         59904 non-null  object        
 5   dates        59904 non-null  datetime64[ns]
dtypes: datetime64[ns](1), float64(1), int64(1), object(3)
memory usage: 2.7+ MB


### Valores Inválidos

Puede ocurrir que tengamos algún dato inválido que no podamos transformar a `datetime`.

`pd.to_datetime` ofrece el siguiente parámetro para manejar estos problemas:

`errors{‘ignore’, ‘raise’, ‘coerce’}, default ‘raise’`

- If `raise`, then invalid parsing will raise an exception.

- If `coerce`, then invalid parsing will be set as NaT.

- If `ignore`, then invalid parsing will return the input.


**Nota:** NaT = Not a Time


In [83]:
pd.to_datetime(["2009/07/31", "asd"], errors="coerce")

DatetimeIndex(['2009-07-31', 'NaT'], dtype='datetime64[ns]', freq=None)

### Indexado

Podemos fijar las fechas como índices y luego indexar por rangos de estas

In [84]:
temperaturas_por_fecha = temp_df.set_index("dates")
temperaturas_por_fecha

Unnamed: 0_level_0,Temperature,Year,Month,Country,ISO3
dates,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1991-01-01,-0.03110,1991,Jan,Afghanistan,AFG
1991-02-01,1.43654,1991,Feb,Afghanistan,AFG
1991-03-01,6.88685,1991,Mar,Afghanistan,AFG
1991-04-01,12.93970,1991,Apr,Afghanistan,AFG
1991-05-01,17.07550,1991,May,Afghanistan,AFG
...,...,...,...,...,...
2016-08-01,26.09480,2016,Aug,Venezuela,VEN
2016-09-01,26.22090,2016,Sep,Venezuela,VEN
2016-10-01,26.62850,2016,Oct,Venezuela,VEN
2016-11-01,26.27680,2016,Nov,Venezuela,VEN


In [85]:
# Rango 1995-1-1 al 199-12-1
temperaturas_por_fecha.loc["1995-1-1":"1999-12-1"]

Unnamed: 0_level_0,Temperature,Year,Month,Country,ISO3
dates,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1995-01-01,0.92358,1995,Jan,Afghanistan,AFG
1995-02-01,2.96133,1995,Feb,Afghanistan,AFG
1995-03-01,6.36893,1995,Mar,Afghanistan,AFG
1995-04-01,12.26760,1995,Apr,Afghanistan,AFG
1995-05-01,18.11870,1995,May,Afghanistan,AFG
...,...,...,...,...,...
1999-08-01,24.86170,1999,Aug,Venezuela,VEN
1999-09-01,25.33310,1999,Sep,Venezuela,VEN
1999-10-01,25.35280,1999,Oct,Venezuela,VEN
1999-11-01,25.94590,1999,Nov,Venezuela,VEN


In [86]:
temperaturas_por_fecha.loc["1999-11-1":"1999-12-1"]

Unnamed: 0_level_0,Temperature,Year,Month,Country,ISO3
dates,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1999-11-01,8.22556,1999,Nov,Afghanistan,AFG
1999-12-01,3.80288,1999,Dec,Afghanistan,AFG
1999-11-01,7.79985,1999,Nov,Albania,ALB
1999-12-01,4.74799,1999,Dec,Albania,ALB
1999-11-01,17.59640,1999,Nov,Algeria,DZA
...,...,...,...,...,...
1999-12-01,2.38418,1999,Dec,Uzbekistan,UZB
1999-11-01,24.71980,1999,Nov,Vanuatu,VUT
1999-12-01,24.55080,1999,Dec,Vanuatu,VUT
1999-11-01,25.94590,1999,Nov,Venezuela,VEN


### Pandas Timedeltas

En general podemos construir un `pd.Timedelta` con los parámetros:

`weeks, days, hours, minutes, seconds, milliseconds, microseconds, nanoseconds`

In [87]:
ptd1 = pd.Timedelta(weeks=2)
ptd1

Timedelta('14 days 00:00:00')

In [88]:
temp_df["dates"]

0       1991-01-01
1       1991-02-01
2       1991-03-01
3       1991-04-01
4       1991-05-01
           ...    
59899   2016-08-01
59900   2016-09-01
59901   2016-10-01
59902   2016-11-01
59903   2016-12-01
Name: dates, Length: 59904, dtype: datetime64[ns]

In [89]:
temp_df["dates"] + ptd1

0       1991-01-15
1       1991-02-15
2       1991-03-15
3       1991-04-15
4       1991-05-15
           ...    
59899   2016-08-15
59900   2016-09-15
59901   2016-10-15
59902   2016-11-15
59903   2016-12-15
Name: dates, Length: 59904, dtype: datetime64[ns]

Y podemos también hacer Broadcasting con `datetime.timedeltas`

In [90]:
temp_df["dates"] + datetime.timedelta(days=-1)

0       1990-12-31
1       1991-01-31
2       1991-02-28
3       1991-03-31
4       1991-04-30
           ...    
59899   2016-07-31
59900   2016-08-31
59901   2016-09-30
59902   2016-10-31
59903   2016-11-30
Name: dates, Length: 59904, dtype: datetime64[ns]

---

## 4.- Datos Categóricos

Una variable categórica es un tipo de dato que puede tomar un número limitado (y usualmente fijo) de posibles valores.
Ejemplos de esto: Género, clase social, tipo de sangre, etc...

En general, guardar los datos como categóricos es mucho más eficiente que guardarlos como string. Según la referencia de pandas:

> The memory usage of a Categorical is proportional to the number of categories plus the length of the data. In contrast, an object dtype is a constant times the length of the data.

Como ejemplo, usaremos los continentes a los que pertenece cada país:

In [91]:
countries = pd.read_csv("resources/country-and-continent.csv")
countries = countries.loc[:, ["Continent_Name", "Country_Name"]]
countries

Unnamed: 0,Continent_Name,Country_Name
0,Asia,"Afghanistan, Islamic Republic of"
1,Europe,Albania
2,Antarctica,Antarctica (the territory South of 60 deg S)
3,Africa,"Algeria, People's Democratic Republic of"
4,Oceania,American Samoa
...,...,...
257,Africa,Zambia
258,Oceania,Disputed Territory
259,Asia,Iraq-Saudi Arabia Neutral Zone
260,Asia,United Nations Neutral Zone


Declaramos una variable como categórica transformando la serie a `category` con `.astype("category")`:

In [92]:
countries["Continent_Name"]

0            Asia
1          Europe
2      Antarctica
3          Africa
4         Oceania
          ...    
257        Africa
258       Oceania
259          Asia
260          Asia
261          Asia
Name: Continent_Name, Length: 262, dtype: object

In [94]:
countries["Continent_Name"] = countries.loc[:, "Continent_Name"].astype("category")
countries["Continent_Name"]

0            Asia
1          Europe
2      Antarctica
3          Africa
4         Oceania
          ...    
257        Africa
258       Oceania
259          Asia
260          Asia
261          Asia
Name: Continent_Name, Length: 262, dtype: category
Categories (7, object): ['Africa', 'Antarctica', 'Asia', 'Europe', 'North America', 'Oceania', 'South America']

Podemos acceder a las categorías con:

In [95]:
countries["Continent_Name"].cat.categories

Index(['Africa', 'Antarctica', 'Asia', 'Europe', 'North America', 'Oceania',
       'South America'],
      dtype='object')

### Operaciones con categorías

Podemos renombrar categorías usando el método `rename_categories`:

In [96]:
# renombrar en español
countries["Continent_Name"] = countries["Continent_Name"].cat.rename_categories(
    [
        "Africa",
        "Antarctica",
        "Asia",
        "Europa",
        "América del Norte",
        "Oceania",
        "América del Sur",
    ]
)

countries["Continent_Name"]

0            Asia
1          Europa
2      Antarctica
3          Africa
4         Oceania
          ...    
257        Africa
258       Oceania
259          Asia
260          Asia
261          Asia
Name: Continent_Name, Length: 262, dtype: category
Categories (7, object): ['Africa', 'Antarctica', 'Asia', 'Europa', 'América del Norte', 'Oceania', 'América del Sur']

In [None]:
countries.sample(10)

`rename_categories` también acepta diccionarios como entrada. La idea es que el diccionario vincule los nombres antiguos con los nuevos:

In [97]:
countries["Continent_Name"] = countries["Continent_Name"].cat.rename_categories(
    {
        "Europe": "Europa",
    }
)

In [98]:
countries

Unnamed: 0,Continent_Name,Country_Name
0,Asia,"Afghanistan, Islamic Republic of"
1,Europa,Albania
2,Antarctica,Antarctica (the territory South of 60 deg S)
3,Africa,"Algeria, People's Democratic Republic of"
4,Oceania,American Samoa
...,...,...
257,Africa,Zambia
258,Oceania,Disputed Territory
259,Asia,Iraq-Saudi Arabia Neutral Zone
260,Asia,United Nations Neutral Zone


Se pueden agregar categorías

In [99]:
countries["Continent_Name"].cat.add_categories(["Atlantida"])

0            Asia
1          Europa
2      Antarctica
3          Africa
4         Oceania
          ...    
257        Africa
258       Oceania
259          Asia
260          Asia
261          Asia
Name: Continent_Name, Length: 262, dtype: category
Categories (8, object): ['Africa', 'Antarctica', 'Asia', 'Europa', 'América del Norte', 'Oceania', 'América del Sur', 'Atlantida']

Como también eliminar las no usadas:

In [100]:
# Remover las no usadas
countries["Continent_Name"].cat.remove_unused_categories()

0            Asia
1          Europa
2      Antarctica
3          Africa
4         Oceania
          ...    
257        Africa
258       Oceania
259          Asia
260          Asia
261          Asia
Name: Continent_Name, Length: 262, dtype: category
Categories (7, object): ['Africa', 'Antarctica', 'Asia', 'Europa', 'América del Norte', 'Oceania', 'América del Sur']

O incluso, eliminar una categoría completa. Noten que esto transforma valores de esa categoría a `NaN`.

In [101]:
# Como también remover una categoría completa.
countries["Continent_Name"].cat.remove_categories(["Europa"])

0            Asia
1             NaN
2      Antarctica
3          Africa
4         Oceania
          ...    
257        Africa
258       Oceania
259          Asia
260          Asia
261          Asia
Name: Continent_Name, Length: 262, dtype: category
Categories (6, object): ['Africa', 'Antarctica', 'Asia', 'América del Norte', 'Oceania', 'América del Sur']

### Nota sobre memoria

Como habíamos dicho, es mucho más eficiente guardar variables categóricas que strings.
Podemos ver esto en el siguiente ejemplo:

#### Usando Strings

In [102]:
# cuidado con este experimento, ocupa mucha memoria!
df_pesado = pd.DataFrame(
    ["A", "B", "C", "D", "E", "F", "G", "H", "I", "J"] * 10000000, columns=["var"]
)
df_pesado

Unnamed: 0,var
0,A
1,B
2,C
3,D
4,E
...,...
99999995,F
99999996,G
99999997,H
99999998,I


In [103]:
# strings no tienen .cat
df_pesado["var"].cat

AttributeError: Can only use .cat accessor with a 'category' dtype

In [104]:
# observen la cantidad de memoria.
df_pesado.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000000 entries, 0 to 99999999
Data columns (total 1 columns):
 #   Column  Dtype 
---  ------  ----- 
 0   var     object
dtypes: object(1)
memory usage: 762.9+ MB


#### Usando Categorías

In [105]:
df_pesado = pd.DataFrame(
    ["A", "B", "C", "D", "E", "F", "G", "H", "I", "J"] * 10000000, columns=["var"]
)
df_pesado["var"] = df_pesado["var"].astype("category")
df_pesado

Unnamed: 0,var
0,A
1,B
2,C
3,D
4,E
...,...
99999995,F
99999996,G
99999997,H
99999998,I


In [106]:
df_pesado["var"].cat

<pandas.core.arrays.categorical.CategoricalAccessor object at 0x7f4c352a4910>

In [107]:
df_pesado.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000000 entries, 0 to 99999999
Data columns (total 1 columns):
 #   Column  Dtype   
---  ------  -----   
 0   var     category
dtypes: category(1)
memory usage: 95.4 MB


### Un pequeño merge con los datos anteriores

Notar que en esta versión se especificó sobre que variables hacer el merge en ambos datasets.

In [109]:
temp_agg = temp_df.groupby("Country").agg({"Temperature": ["mean", "std"]})
temp_agg

Unnamed: 0_level_0,Temperature,Temperature
Unnamed: 0_level_1,mean,std
Country,Unnamed: 1_level_2,Unnamed: 2_level_2
Afghanistan,13.545609,8.695203
Albania,12.106435,7.101392
Algeria,23.439610,7.473115
Andorra,11.953746,6.014903
Angola,22.133815,1.710757
...,...,...
United States,7.617000,9.077944
Uruguay,17.941855,4.505184
Uzbekistan,13.158793,10.837303
Vanuatu,24.123163,1.204321


In [110]:
countries

Unnamed: 0,Continent_Name,Country_Name
0,Asia,"Afghanistan, Islamic Republic of"
1,Europa,Albania
2,Antarctica,Antarctica (the territory South of 60 deg S)
3,Africa,"Algeria, People's Democratic Republic of"
4,Oceania,American Samoa
...,...,...
257,Africa,Zambia
258,Oceania,Disputed Territory
259,Asia,Iraq-Saudi Arabia Neutral Zone
260,Asia,United Nations Neutral Zone


In [111]:
temp_agg.columns = temp_agg.columns.droplevel()
temp_agg = temp_agg.reset_index()
temp_agg.columns = ["Country", "Mean temperature", "Std temperature"]
temp_agg

merged_df = pd.merge(
    temp_agg,
    countries,
    how="left",
    left_on="Country",
    right_on="Country_Name",
)

merged_df

Unnamed: 0,Country,Mean temperature,Std temperature,Continent_Name,Country_Name
0,Afghanistan,13.545609,8.695203,,
1,Albania,12.106435,7.101392,Europa,Albania
2,Algeria,23.439610,7.473115,,
3,Andorra,11.953746,6.014903,,
4,Angola,22.133815,1.710757,Africa,Angola
...,...,...,...,...,...
193,United States,7.617000,9.077944,América del Norte,United States
194,Uruguay,17.941855,4.505184,,
195,Uzbekistan,13.158793,10.837303,Asia,Uzbekistan
196,Vanuatu,24.123163,1.204321,Oceania,Vanuatu


---

## 5.- Ordinales

Son variables categóricas con un orden definido.

Por ejemplo, hagamos una clasificación muy simple del clima a partir de la temperatura media. Para esto, calculemos cuartiles:

> Nota: Los elementos meteorológicos a tomar en cuenta para definir un clima son la temperatura, la presión, el viento, la humedad y la precipitación. Referencias: https://es.wikipedia.org/wiki/Clima

In [112]:
mean_temp = merged_df["Mean temperature"]
mean_temp

0      13.545609
1      12.106435
2      23.439610
3      11.953746
4      22.133815
         ...    
193     7.617000
194    17.941855
195    13.158793
196    24.123163
197    25.865055
Name: Mean temperature, Length: 198, dtype: float64

In [113]:
mean_temp.describe()

count    198.000000
mean      18.889212
std        8.721793
min      -17.072330
25%       11.300543
50%       22.726409
75%       25.844148
max       28.883495
Name: Mean temperature, dtype: float64

In [114]:
clima_ordinal = pd.qcut(
    mean_temp, 5, labels=["Polar", "Frio", "Templado", "Calido", "Muy Calido"]
)
clima_ordinal

0          Frio
1          Frio
2      Templado
3          Frio
4      Templado
         ...   
193       Polar
194        Frio
195        Frio
196    Templado
197      Calido
Name: Mean temperature, Length: 198, dtype: category
Categories (5, object): ['Polar' < 'Frio' < 'Templado' < 'Calido' < 'Muy Calido']

#### Operaciones sobre Series Categóricas con Orden

In [115]:
clima_ordinal.value_counts()

Polar         40
Frio          40
Muy Calido    40
Templado      39
Calido        39
Name: Mean temperature, dtype: int64

In [116]:
clima_ordinal.min()

'Polar'

In [117]:
clima_ordinal.max()

'Muy Calido'

In [118]:
clima_ordinal.mode()

0         Polar
1          Frio
2    Muy Calido
Name: Mean temperature, dtype: category
Categories (5, object): ['Polar' < 'Frio' < 'Templado' < 'Calido' < 'Muy Calido']

---

### Ordenar y Filtrar usando Ordinales

In [119]:
merged_df["Temp Quartile"] = clima_ordinal
merged_df.head(3)

Unnamed: 0,Country,Mean temperature,Std temperature,Continent_Name,Country_Name,Temp Quartile
0,Afghanistan,13.545609,8.695203,,,Frio
1,Albania,12.106435,7.101392,Europa,Albania,Frio
2,Algeria,23.43961,7.473115,,,Templado


In [120]:
merged_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 198 entries, 0 to 197
Data columns (total 6 columns):
 #   Column            Non-Null Count  Dtype   
---  ------            --------------  -----   
 0   Country           198 non-null    object  
 1   Mean temperature  198 non-null    float64 
 2   Std temperature   198 non-null    float64 
 3   Continent_Name    131 non-null    category
 4   Country_Name      131 non-null    object  
 5   Temp Quartile     198 non-null    category
dtypes: category(2), float64(2), object(2)
memory usage: 8.7+ KB


In [121]:
merged_df = merged_df.sort_values(["Temp Quartile", "Mean temperature"])
merged_df

Unnamed: 0,Country,Mean temperature,Std temperature,Continent_Name,Country_Name,Temp Quartile
71,Greenland,-17.072330,8.745566,América del Norte,Greenland,Polar
32,Canada,-5.963874,12.528132,América del Norte,Canada,Polar
150,Russia,-5.255763,14.663405,Europa,Russia,Polar
119,Mongolia,0.598241,13.699369,Asia,Mongolia,Polar
133,Norway,1.726860,7.287373,Europa,Norway,Polar
...,...,...,...,...,...,...
114,Mauritania,28.416357,4.659151,,,Muy Calido
188,Tuvalu,28.504638,0.393742,Oceania,Tuvalu,Muy Calido
155,Senegal,28.630989,2.062197,Africa,Senegal,Muy Calido
28,Burkina Faso,28.698612,2.397689,Africa,Burkina Faso,Muy Calido


### Nota sobre Merge con id repetidos

> Pregunta: ¿Qué sucede si hacemos un merge de una fila con muchas otras con igual identificador?

In [122]:
merged_df["Temp Quartile"].cat.categories

Index(['Polar', 'Frio', 'Templado', 'Calido', 'Muy Calido'], dtype='object')

In [123]:
mask = merged_df["Temp Quartile"] < "Frio"
mask

71      True
32      True
150     True
119     True
133     True
       ...  
114    False
188    False
155    False
28     False
111    False
Name: Temp Quartile, Length: 198, dtype: bool

In [124]:
merged_df[mask]

Unnamed: 0,Country,Mean temperature,Std temperature,Continent_Name,Country_Name,Temp Quartile
71,Greenland,-17.07233,8.745566,América del Norte,Greenland,Polar
32,Canada,-5.963874,12.528132,América del Norte,Canada,Polar
150,Russia,-5.255763,14.663405,Europa,Russia,Polar
119,Mongolia,0.598241,13.699369,Asia,Mongolia,Polar
133,Norway,1.72686,7.287373,Europa,Norway,Polar
80,Iceland,2.307253,4.468936,Europa,Iceland,Polar
62,Finland,2.402188,9.278735,Europa,Finland,Polar
174,Sweden,2.537722,8.185242,Europa,Sweden,Polar
96,Kyrgyzstan,3.13748,9.972644,,,Polar
103,Liechtenstein,3.549368,5.943636,,,Polar


## Anexo: Cómo Combinar dos Filtros/Máscaras Booleanas

Se puede usar las operaciones `|` (or) y `&` and para combinar dos máscaras.

- `|` simboliza un ó lógico.
- `&` simboliza un y lógico.

In [125]:
mask_2 = (merged_df["Temp Quartile"] < "Frio") | (
    merged_df["Temp Quartile"] == "Templado"
)
mask_2

71      True
32      True
150     True
119     True
133     True
       ...  
114    False
188    False
155    False
28     False
111    False
Name: Temp Quartile, Length: 198, dtype: bool

In [126]:
merged_df[mask_2]

Unnamed: 0,Country,Mean temperature,Std temperature,Continent_Name,Country_Name,Temp Quartile
71,Greenland,-17.072330,8.745566,América del Norte,Greenland,Polar
32,Canada,-5.963874,12.528132,América del Norte,Canada,Polar
150,Russia,-5.255763,14.663405,Europa,Russia,Polar
119,Mongolia,0.598241,13.699369,Asia,Mongolia,Polar
133,Norway,1.726860,7.287373,Europa,Norway,Polar
...,...,...,...,...,...,...
121,Mozambique,24.281818,2.410008,Africa,Mozambique,Templado
61,Fiji,24.325886,1.436607,,,Templado
54,ElSalvador,24.371996,1.016290,,,Templado
51,DominicanRepublic,24.483362,1.356441,,,Templado
