# Clase 10: Trabajando Con Distintos Tipos de Datos

**MDS7202: Laboratorio de Programación Científica para Ciencia de Datos**

**Profesor: Matías Rojas**

## Objetivos de la Clase

- Comprender los métodos que nos entrega la librería Pandas para manejar datos de texto, temporales, ordinales y categóricos.

### Roadmap


**Unidad 2: Manejo de Datos con Pandas y AED**

- [X] Introducción a Manejo de Datos Tabulares con Pandas
- [X] Reorganización, Multi-Índices y Agregación de Datos.
- [X] Concatenación y Combinación de Múltiples Fuentes de Datos.
- [ ] Trabajo con strings y datos temporales, categóricos y ordinales en Pandas.

In [None]:
import pandas as pd

## Datasets de Hoy


### Dataset de Temperaturas Globales

![wbg_climate](https://i.ibb.co/Rvxt0rH/wbg-climate.png)


https://climateknowledgeportal.worldbank.org/download-data

In [None]:
temp_df = pd.read_csv("https://raw.githubusercontent.com/maranedah/MDS7202/main/clases/Clase%2010%20-%20Trabajando%20Con%20Distintos%20Tipos%20de%20Datos/resources/temperature.csv")
temp_df.head(3)

In [None]:
# setear opciones para mostrar todas las filas y columnas
# cuidado al ejecutar esto en sus notebooks, se puede quedar pegado el navegador!
pd.set_option("display.max_colwidth", None)
pd.set_option("display.max_colwidth", None)

---

## 1.- Strings

Es común que los datasets que trabajemos en la vida real incluyan por lo menos una columna que contiene texto y que nos puede útil a la hora de construir modelos de aprendizaje automático. Sin embargo, dado que el texto en su naturaleza no estructurada es difícil de trabajar, ya que contiene un montón de palabras mal escritas, símbolos extraños, y otros elementos, su preprocesamiento se vuelve complejo.

Las `Series` de pandas implementan diversos métodos de procesamiento de string que permiten operar facilmente con estos. Por lo general, estos métodos son una réplica de los métodos originales de la clase built-in `string`.

<div align='center'>
<img src='https://i.ibb.co/vYGMFP5/pets.jpg' alt='Mascotas' width=600/>
</div>

In [None]:
mascotas = [
    (
        "Perro",
        "El perro (Canis familiaris o Canis lupus familiaris, dependiendo de si se lo considera una especie por "
        "derecho propio o una subespecie del lobo),1​2​3​ llamado perro doméstico o can,4​ y en algunos lugares"
        " coloquialmente llamado chucho,5​ tuso,6​ choco,7​ entre otros; es un mamífero carnívoro de la familia de "
        "los cánidos, que constituye una especie del género Canis.8​9​ En el 2013, la población mundial estimada "
        "de perros estaba entre setecientos millones y novecientos ochenta y siete millones.10​11​ Su tamaño "
        "(o talla), su forma y su pelaje es muy diverso, según la raza. Posee un oído y un olfato muy desarrollados,"
        " y este último es su principal órgano sensorial. Su longevidad media es de diez a trece años,12​13​14​ "
        "dependiendo de la raza. ",
    ),
    (
        "Gato",
        "El gato doméstico1​2​ (Felis silvestris catus), llamado popularmente gato, y de forma coloquial minino,"
        "3​ michino,4​ michi,5​ micho,6​ mizo,7​ miz,8​ morroño9​ o morrongo,10​ entre otros nombres, es un mamífero "
        "carnívoro de la familia Felidae. Es una subespecie domesticada por la convivencia con el ser humano. "
        "El gato se comunica a través de vocalizaciones. Las más populares son su característico maullido y el "
        "ronroneo, pero puede aullar, gemir, gruñir y bufar.11​Los gatos desarrollaron el maullido con la única "
        "finalidad de poder comunicarse con el ser humano. Además, adopta poses o expresiones que informan, "
        "a sus congéneres, sus enemigos o sus cuidadores, de su ánimo o sus intenciones. ",
    ),
    (
        "Hamster",
        "Los cricetinos (Cricetinae) son una subfamilia de roedores, conocidos comúnmente como hámsteres (un germanismo)"
        ".2​3​ Se han identificado diecinueve especies actuales, agrupadas en siete géneros. La mayoría son originarias "
        "de Oriente Medio y del sureste de los Estados Unidos. Todas las especies se caracterizan por las bolsas "
        "expansibles, llamadas abazones, ubicadas en el interior de la boca y que van desde las mejillas hasta los hombros."
        " Al ser muy fáciles de criar en cautividad, son ampliamente usados como animales de laboratorio y como mascotas. ",
    ),
    (
        "Cuy",
        "Cavia porcellus, conocida como cuy, cuye, cuyo, cobaya, cobayo, acure, güimo o conejillo de Indias, es una especie "
        "híbrida doméstica de roedor histricomorfo de la familia Caviidae. Es el resultado del cruce milenario de varias "
        "especies del género Cavia realizado en la región andina de América del Sur, habiéndose encontrado registros "
        "arqueológicos en Colombia, Ecuador, Perú y Bolivia. Fue una ofrenda en tiempos antiguos para su Dios.1​ ",
    ),
    (
        "Canario",
        "El canario doméstico (Serinus canaria domestica)3​4​ es una subespecie desarrollada durante siglos de selección"
        " en cautividad partiendo de ejemplares del canario silvestre o canario salvaje (Serinus canaria), una especie "
        "de ave del orden paseriforme de la familia de los fringílidos, endémica de las islas Canarias, Azores y Madeira.5​6​"
        "Es el ave doméstica criada como animal de compañía más abundante del mundo junto con el periquito. A pesar de esto, "
        "no se conocen poblaciones asilvestradas. ",
    ),
]
mascotas_df = pd.DataFrame(mascotas, columns=["nombre", "descripcion"])
mascotas_df

In [None]:
desc_perro = mascotas_df.loc[0, "descripcion"]
desc_perro

### Métodos de la Clase String

Como se dijo anteriormente, la mayoría de los métodos para string que implementa pandas sobre las `Series` son una réplica de los métodos implementados por la clase `String`. 

A continuación veremos un par de ejemplos de los métodos de strings y como utilizar estos métodos sobre una serie.

In [None]:
len(desc_perro)

In [None]:
desc_perro.lower()

In [None]:
desc_perro.upper()

In [None]:
desc_perro.title()

In [None]:
desc_perro.split(" ")

In [None]:
"-".join(["Este", "string", "(ya no)", "esta", "separado"])

In [None]:
"perro" in desc_perro

In [None]:
"gato" in desc_perro

### Strings En Las Series

In [None]:
mascotas_df["descripcion"]

#### Len, Lower, Upper, Title y Capitalize

In [None]:
mascotas_df["descripcion"].str

In [None]:
mascotas_df["descripcion"].str.len()

In [None]:
mascotas_df["descripcion"].str.lower()

In [None]:
mascotas_df["descripcion"].str.upper()

In [None]:
mascotas_df["descripcion"].str.title()

In [None]:
mascotas_df["descripcion"].str.capitalize()

In [None]:
mascotas_df['title'] = mascotas_df["descripcion"].str.title()

In [None]:
mascotas_df.head()

#### Contains, Split y Join

In [None]:
mascotas_df["descripcion"].str.contains("perro")

In [None]:
mascotas_df["descripcion"].str.contains("gato")

In [None]:
mascotas_df["descripcion"].str.split(" ")

In [None]:
mascotas_df["descripcion"].str.split(" ").str.join("|")

#### Replace

In [None]:
mascotas_df["descripcion"]

In [None]:
mascotas_df["descripcion"].str.replace("(", "", regex=False).str.replace(
    ")", "", regex=False
)

##### Expresiones Regulares

> Según [`re` de `python`](https://docs.python.org/3/library/re.html): *A regular expression (or RE) specifies a set of strings that matches it; the functions in this module let you check if a particular string matches a given regular expression (or if a given regular expression matches a particular string, which comes down to the same thing).*


- https://www.programiz.com/python-programming/regex

- https://regex101.com/

In [None]:
mascotas_df["descripcion"].str.replace("\(|\)|,", "", regex=True)

In [None]:
mascotas_df["descripcion"].str.replace("\d{1,3}", "", regex=True)

### Paréntesis: Método `apply`

Este método permite aplicar una función sobre una serie (o sobre las filas o columnas de un DataFrame)

In [None]:
mascotas_df["descripcion"].apply(lambda x: "gato" in x)

In [None]:
import unicodedata


def strip_accents_ascii(s):
    """Transform accentuated unicode symbols into ascii or nothing
    Warning: this solution is only suited for languages that have a direct
    transliteration to ASCII symbols.
    See also
    --------
    strip_accents_unicode
        Remove accentuated char for any unicode symbol.
    """
    nkfd_form = unicodedata.normalize("NFKD", s)
    return nkfd_form.encode("ASCII", "ignore").decode("ASCII")

In [None]:
mascotas_df["descripcion"]

In [None]:
mascotas_df["descripcion"].apply(strip_accents_ascii)

Aplicación sobre DataFrames:

In [None]:
mascotas_df

In [None]:
mascotas_df.apply(lambda x: x["nombre"] + " - " + x["descripcion"], axis=1)

#### Preprocesamiento Completo

In [None]:
mascotas_df["descripcion"]

In [None]:
(
    mascotas_df["descripcion"]
    .apply(lambda x: strip_accents_ascii(x))
    .str.replace("\(|\)|,|\d{1,3}|;|\.", " ", regex=True)
    .str.replace(r"\s+", " ", regex=True)
    .str.strip()
    .str.lower()
)

#### Concatenación

In [None]:
desc_limpia = (
    mascotas_df["descripcion"]
    .apply(lambda x: strip_accents_ascii(x))
    .str.replace("\(|\)|,|\d{1,3}|;|\.", " ", regex=True)
    .str.replace(r"\s+", " ", regex=True)
    .str.strip()
    .str.lower()
)




In [None]:
desc_limpia

In [None]:
# s1 + s2 + ... + sn
desc_limpia.str.cat(sep="|")

---

## 2.- Datos Temporales

### Módulo Datetime

Módulo built-in de python enfocado en manejar fechas y horas.

In [None]:
import datetime

#### Date

Objeto que almacena día, mes y año.

In [None]:
date_object = datetime.date.today()
date_object

In [None]:
date_object.day

In [None]:
date_object.month

In [None]:
date_object.year

#### Datetime

Almacena segundos, minutos, hora, día, mes y año. También puede contener timezone.

In [None]:
datetime_object = datetime.datetime.now()
datetime_object

#### Instanciar nuevos Date y Datetimes

In [None]:
d = datetime.date(2022, 9, 21)
print(d)

In [None]:
print("Año:", d.year)
print("Mes:", d.month)
print("Día:", d.day)

In [None]:
d = datetime.datetime(2022, 9, 21, 14, 59, 55, 2)
print(d)

In [None]:
print("Hora:", d.hour)
print("Minuto:", d.minute)
print("Segundo:", d.second)
print("Microsegundo:", d.microsecond)

Obviamente, estos objetos cuentan con las restricciones pertinentes 

In [None]:
datetime.datetime(-1, 4, 19, 10, 59, 55)

In [None]:
datetime.datetime(99999, 4, 19, 10, 59, 55)

In [None]:
datetime.datetime(2020, 4, 19, 10, 60, 55)

Relacionado: https://es.wikipedia.org/wiki/Problema_del_a%C3%B1o_2000


El problema del año 2000, fue un bug o error de software causado por la costumbre que habían adoptado los programadores de omitir la centuria en el año para el almacenamiento de fechas (generalmente para economizar memoria), asumiendo que el software solo funcionaría durante los años cuyos números comenzaran con 19XX


![Antes](https://www.sopitas.com/wp-content/uploads/2016/04/ss.gif)


¿Y los años bisiestos?

In [None]:
datetime.datetime(2020, 2, 29)

In [None]:
datetime.datetime(2021, 2, 29)

##### Desde timestamp

`A Unix timestamp is the number of seconds between a particular date and January 1, 1970 at UTC.`

In [None]:
timestamp = datetime.date.fromtimestamp(1326244364)
print("Date =", timestamp)

> **Pregunta ❓**: ¿Podemos sumar o restar fechas?

In [None]:
delta = datetime.datetime(1, 1, 1)
delta

In [None]:
d

In [None]:
d + delta

#### TimeDelta

Permide sumar semanas, días, horas, etc... a objetos `date` y `datetime`.

In [None]:
d

In [None]:
from datetime import timedelta

t1 = timedelta(weeks=2)
t1

In [None]:
d - t1

¿Y tiempos negativos?

In [None]:
t2 = timedelta(minutes=-1)

In [None]:
d + t2

In [None]:
d - t2

¿Cambios de mes?

In [None]:
t3 = timedelta(days=1)

In [None]:
t3 + datetime.date(2020, 2, 28)

In [None]:
t3 + datetime.date(2021, 2, 28)

In [None]:
d

#### Formatear a string

In [None]:
s1 = d.strftime("%d/%m/%Y, %H:%M:%S")
# dd/mm/YY H:M:S format
s1

In [None]:
s1 = d.strftime("%d/%m/%Y")
# dd/mm/YY H:M:S format
s1

In [None]:
s2 = d.strftime("%A %d %B %Y, %X")
# dd/mm/YY H:M:S format
s2

Referencia completa de formateo de fechas:

https://www.programiz.com/python-programming/datetime/strftime

---

## 3.- Datos temporales en Pandas

Pandas implementa su propio sistema de datetimes.
`pd.to_datetimes` nos permite convertir una `Serie` o un `DataFrame` en una `Serie` de datetimes.

In [None]:
temp_df.head(3)

In [None]:
import numpy as np

dates = temp_df.loc[:, ["Year", "Month"]]
dates["Day"] = np.ones(dates.shape[0])
dates

In [None]:
pd.to_datetime([1991, 'Jan', 1], yearfirst=True)

### Paréntesis: Método `Map`

Esta función permite hacer un `mapeo` (sustituir un valor por otro) sobre los elementos de una serie.

In [None]:
dates["Month"]

In [None]:
dates["Month"].map(
    {
        "Jan": 1,
        "Feb": 2,
        "Mar": 3,
        "Apr": 4,
        "May": 5,
        "Jun": 6,
        "Jul": 7,
        "Aug": 8,
        "Sep": 9,
        "Oct": 10,
        "Nov": 11,
        "Dec": 12,
    }
)

In [None]:
dates["Month"] = dates["Month"].map(
    {
        "Jan": 1,
        "Feb": 2,
        "Mar": 3,
        "Apr": 4,
        "May": 5,
        "Jun": 6,
        "Jul": 7,
        "Aug": 8,
        "Sep": 9,
        "Oct": 10,
        "Nov": 11,
        "Dec": 12,
    }
)

In [None]:
dates

In [None]:
parsed_dates = pd.to_datetime(dates, yearfirst=True, infer_datetime_format=True)
parsed_dates

In [None]:
temp_df["dates"] = parsed_dates
temp_df

In [None]:
temp_df.info()

### Valores Inválidos

Puede ocurrir que tengamos algún dato inválido que no podamos transformar a `datetime`.

`pd.to_datetime` ofrece el siguiente parámetro para manejar estos problemas:

`errors{‘ignore’, ‘raise’, ‘coerce’}, default ‘raise’`

- If `raise`, then invalid parsing will raise an exception.

- If `coerce`, then invalid parsing will be set as NaT.

- If `ignore`, then invalid parsing will return the input.


**Nota:** NaT = Not a Time


In [None]:
pd.to_datetime(["2009/07/31", "asd"], errors="coerce")

### Indexado

Podemos fijar las fechas como índices y luego indexar por rangos de estas

In [None]:
temperaturas_por_fecha = temp_df.set_index("dates")
temperaturas_por_fecha

In [None]:
# Rango 1995-1-1 al 199-12-1
temperaturas_por_fecha.loc["1995-1-1":"1999-12-1"]

In [None]:
temperaturas_por_fecha.loc["1999-11-1":"1999-12-1"]

### Pandas Timedeltas

En general podemos construir un `pd.Timedelta` con los parámetros:

`weeks, days, hours, minutes, seconds, milliseconds, microseconds, nanoseconds`

In [None]:
ptd1 = pd.Timedelta(weeks=2)
ptd1

In [None]:
temp_df["dates"]

In [None]:
temp_df["dates"] + ptd1

Y podemos también hacer Broadcasting con `datetime.timedeltas`

In [None]:
temp_df["dates"] + datetime.timedelta(days=1)

---

## 4.- Datos Categóricos

Una variable categórica es un tipo de dato que puede tomar un número limitado (y usualmente fijo) de posibles valores.
Ejemplos de esto: Género, clase social, tipo de sangre, etc...

En general, guardar los datos como categóricos es mucho más eficiente que guardarlos como string. Según la referencia de pandas:

> The memory usage of a Categorical is proportional to the number of categories plus the length of the data. In contrast, an object dtype is a constant times the length of the data.

Como ejemplo, usaremos los continentes a los que pertenece cada país:

In [None]:
countries = pd.read_csv("https://raw.githubusercontent.com/maranedah/MDS7202/main/clases/Clase%2010%20-%20Trabajando%20Con%20Distintos%20Tipos%20de%20Datos/resources/country-and-continent.csv")
countries = countries.loc[:, ["Continent_Name", "Country_Name"]]
countries

Declaramos una variable como categórica transformando la serie a `category` con `.astype("category")`:

In [None]:
countries["Continent_Name"].unique()

In [None]:
countries["Continent_Name"] = countries.loc[:, "Continent_Name"].astype("category")
countries["Continent_Name"]

Podemos acceder a las categorías con:

In [None]:
countries["Continent_Name"].cat.categories

### Operaciones con categorías

Podemos renombrar categorías usando el método `rename_categories`:

In [None]:
# renombrar en español
countries["Continent_Name"] = countries["Continent_Name"].cat.rename_categories(
    [
        "Africa",
        "Antarctica",
        "Asia",
        "Europa",
        "América del Norte",
        "Oceania",
        "América del Sur",
    ]
)

countries["Continent_Name"]

In [None]:
countries.sample(10)

`rename_categories` también acepta diccionarios como entrada. La idea es que el diccionario vincule los nombres antiguos con los nuevos:

In [None]:
countries["Continent_Name"] = countries["Continent_Name"].cat.rename_categories(
    {
        "Europa": "Europaa",
    }
)

In [None]:
countries

Se pueden agregar categorías

In [None]:
countries["Continent_Name"].cat.add_categories(["Atlantida"])

Como también eliminar las no usadas:

In [None]:
# Remover las no usadas
countries["Continent_Name"].cat.remove_unused_categories()

O incluso, eliminar una categoría completa. Noten que esto transforma valores de esa categoría a `NaN`.

In [None]:
# Como también remover una categoría completa.
countries["Continent_Name"].cat.remove_categories(["Europaa"])

### Nota sobre memoria

Como habíamos dicho, es mucho más eficiente guardar variables categóricas que strings.
Podemos ver esto en el siguiente ejemplo:

#### Usando Strings

In [None]:
# cuidado con este experimento, ocupa mucha memoria!
df_pesado = pd.DataFrame(
    ["A", "B", "C", "D", "E", "F", "G", "H", "I", "J"] * 10000000, columns=["var"]
)
df_pesado

In [None]:
# strings no tienen .cat
df_pesado["var"].cat

In [None]:
# observen la cantidad de memoria.
df_pesado.info()

#### Usando Categorías

In [None]:
df_pesado = pd.DataFrame(
    ["A", "B", "C", "D", "E", "F", "G", "H", "I", "J"] * 10000000, columns=["var"]
)

df_pesado["var"] = df_pesado["var"].astype("category")
df_pesado

In [None]:
df_pesado["var"].cat

In [None]:
df_pesado.info()

### Un pequeño merge con los datos anteriores

Notar que en esta versión se especificó sobre que variables hacer el merge en ambos datasets.

In [None]:
temp_df

In [None]:
temp_agg = temp_df.groupby("Country").agg({"Temperature": ["mean", "std"]})
temp_agg

In [None]:
countries

In [None]:
temp_agg.columns = temp_agg.columns.droplevel()
temp_agg = temp_agg.reset_index()
temp_agg.columns = ["Country", "Mean temperature", "Std temperature"]
temp_agg

merged_df = pd.merge(
    temp_agg,
    countries,
    how="left",
    left_on="Country",
    right_on="Country_Name",
)

merged_df

---

## 5.- Ordinales

Son variables categóricas con un orden definido.

Por ejemplo, hagamos una clasificación muy simple del clima a partir de la temperatura media. Para esto, calculemos cuartiles:

> Nota: Los elementos meteorológicos a tomar en cuenta para definir un clima son la temperatura, la presión, el viento, la humedad y la precipitación. Referencias: https://es.wikipedia.org/wiki/Clima

In [None]:
mean_temp = merged_df["Mean temperature"]
mean_temp

In [None]:
mean_temp.describe()

In [None]:
clima_ordinal = pd.qcut(
    mean_temp, 5, labels=["Polar", "Frio", "Templado", "Calido", "Muy Calido"]
)
clima_ordinal

#### Operaciones sobre Series Categóricas con Orden

In [None]:
clima_ordinal.value_counts()

In [None]:
clima_ordinal.min()

In [None]:
clima_ordinal.max()

In [None]:
clima_ordinal.mode()

---

### Ordenar y Filtrar usando Ordinales

In [None]:
merged_df["Temp Quartile"] = clima_ordinal
merged_df.head(3)

In [None]:
merged_df.info()

In [None]:
merged_df = merged_df.sort_values(["Temp Quartile", "Mean temperature"])
merged_df

In [None]:
mask = merged_df["Temp Quartile"] == "Muy Calido"
mask

In [None]:
merged_df[mask]

## Anexo: Cómo Combinar dos Filtros/Máscaras Booleanas

Se puede usar las operaciones `|` (or) y `&` and para combinar dos máscaras.

- `|` simboliza un ó lógico.
- `&` simboliza un y lógico.

In [None]:
mask_2 = (merged_df["Temp Quartile"] < "Frio") | (
    merged_df["Temp Quartile"] == "Templado"
)
mask_2

In [None]:
merged_df[mask_2]