# Procesamiento de datos 
Clase: 7

## Indice

1. Formato datetime <br>
1.1. De string a datetime <br>
1.2. timedelta <br>

2. Codificación <br>
2.1 Label encoding <br>
2.2. Ordinal Encoder <br>
2.3. One hot encoding <br>
2.4. get dummies <br>

Empezamos por cargar las librerías necesarias para la clase:

In [15]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

## 1. Formato datetime


Trabajar con fechas y horas en programación puede resultar complicado. Afortunadamente, hay muchas bibliotecas de código abierto, como es el caso de datetime en Python, que incluye tres módulos separados en la biblioteca estándar para trabajar con fechas y horas:

- **calendar** genera calendarios y proporciona funciones utilizando el calendario gregoriano.
- **datetime** proporciona clases para manipular fechas y horas.
- **time** proporciona funciones relacionadas con el tiempo donde no se necesitan fechas.

Aquí nos centraremos en el módulo datetime. La idea principal de datetime es hacer que sea menos complicado acceder a los atributos del objeto relacionados con fechas, horas y zonas horarias. Calendar también devuelve instancias de clases de fecha y hora. time es menos poderoso y más complicado de usar que datetime. 

Datetime proporciona tres clases:

- **datetime.date** es una fecha idealizada que supone que el calendario gregoriano se extiende infinitamente hacia el futuro y el pasado. Este objeto almacena el año, el mes y el día como atributos.
- **datetime.time** es una hora idealizada que supone que hay 86.400 segundos por día sin segundos intercalares. Este objeto almacena la hora, minuto, segundo, microsegundo y tzinfo (información de zona horaria).
- **datetime.datetime** es una combinación de una fecha y una hora. Tiene todos los atributos de ambas clases.


Empezemos por cargar la librería datetime y guardar el momento en el que lo hacemos como "tiempo_0":

In [5]:

import datetime
tiempo_0 = datetime.datetime.now()
print(tiempo_0)

2022-04-06 19:41:10.429893


In [3]:
%%time
1+1

Wall time: 0 ns


2

**Ejercicio:** Como extraemos el año, el mes, el día, la hora, minuto y segundo en el que estábamos por separado? <br>
Ejemplo: print( 'Año: ' + str( tiempo_0.year ) ) 

Año: 2022
Mes: 4
Día: 6
Hora: 19
Minuto: 41
Segundo: 10


los módulos date y time funcionan igual, pero solo manejan información sobre la fecha y sobre la hora, respectivamente.

**Ejercicio: ** Recuerdas que al principio guardamos la información del momento en el que empezábamos a trabajar con el formato datetime en "tiempo_0"? Cuanto tiempo ha pasado? Devuelve la solución en segundos, minutos, y horas.

**Ejercicio:** De que tipo es el objeto resta entre tiempos?

datetime.timedelta

**Ejercicio:** La última clase de este curso tendrá lugar el 17 de Mayo, acabando a las 21:10. Define una función Que te diga cuantos dias, horas, minutos y segundos quedan para acabar el curso.

Quedan 41 dias, 1 horas, 12 minutos y 18 segundos para que termine la asignatura


41 days, 1:11:18.598938


### de string a datetime

Para ayudar a evitar errores de comunicación, **la Organización Internacional de Normalización (ISO) desarrolló la norma ISO 8601**. Esta norma especifica que todas las fechas deben escribirse en orden de mayor a menor información significativa. Esto significa que el formato es año, mes, día, hora, minuto y segundo:

**YYYY-mm-dd HH:MM:SS**

Sin embargo, no todos los datos nos entrarán en este formato, sino como string en un formato diferente. Por tanto, para trabajar con este tipo de datos, tendremos que pasar a datetime. Para ello podemos usar pandas.datetime, que además de pasar de string a datetime selecciona el formato correcto de manera automática en muchos casos.

df['Columna del DataFrame'] = pd.to_datetime(df['Columna del DataFrame'], format=formato especifico)


Vamos a crear un DataFrame de ejemplo:

In [16]:
# creamos un diccionario:
diccionario1 = {'dates':  ['2021-04-15','2022-07-12','2023-12-22']}
# creamos un dataframe a partir del diccionario:
df = pd.DataFrame(diccionario1)
#A ver que pinta tiene?
df

Unnamed: 0,dates
0,2021-04-15
1,2022-07-12
2,2023-12-22


**Ejercicio:** Como se ha guardado cada objeto? Puedes obtener el mes del primer elemento con datetime?

**Ejercicio:** Usa .to_datetime para crear una nueva columna 'dates 2' con las fechas en formato datetime. De que tipo es el primer elemento ahora? Puedes sacar el mes con datetime?

**Ejercicio:** Crea nuevos dataframes. Pratica con los siguientes formatos: <br>

diccionario2 = {'dates':  ['20210415','20220712','20231222']} <br>
diccionario3 = {'dates':  ['2021/04/15','2022/07/12','2023/12/22']} <br>
diccionario4 = {'dates':  ['15/04/2021','12/07/2022','22/12/2023']} <br>
diccionario5 = {'dates':  ['15/Apr/2021','12/Jul/2022','22/Dec/2023']} <br>
diccionario6 = {'dates':  ['15.Apr-2021','12.Jul-2022','22.Dec-2023']}

### timedelta

timedelta se puede usar para sumar/restar un tiempo dado a un datetime. 

**Ejercicio** Crea la variable now con la fecha y la hora (como hemos visto antes). Crea la variable 'delta1', 'delta2', 'delta3' con timedelta con los valores: <br>
a) 3000 segundos<br>
b) - 1 hora (valor negativo)<br>
c) 3 horas, 2 dias y 4 segundos<br>
Finalmente, combina suma la variable now con las tres deltas (por separado)

Now 2022-04-06 20:11:29.116048
Now + delta1: 2022-04-06 21:01:29.116048
Now + delta2: 2022-04-06 19:11:29.116048
Now + delta3: 2022-04-08 23:11:33.116048


2022-04-06 21:01:29.271416
2022-04-06 19:11:29.271416
2022-04-08 23:11:33.271416


Además timedelta vale para convertir ese tiempo a segundos, minutos, horas, dias, etc. <br>
**Ejercicio:** Utiliza timedelta para convertir delta2 y delta3 a segundos.

-3600.0
183604.0


## 2. Encoding - Codificación


En muchas actividades de aprendizaje automático o ciencia de datos, el conjunto de datos puede contener texto o valores categóricos. Por ejemplo, la función de color tiene valores como rojo, naranja, azul, blanco, etc. El plan de comidas tiene valores como desayuno, almuerzo, merienda, cena, etc. 
Sin embargo, **la mayoría de algoritmos de aprendizaje automático esperan valores numéricos**. Cuando trabajemos con variables categóricas tendremos, entonces, que convertilas a variables numéricas. 

**Hay muchas formas de convertir valores categóricos en valores numéricos**. Cada enfoque tiene sus propios puntos fuertes y débiles. En este curso, trabajaremos con dos modelos: One-Hot-Encoding y Label-Encoder. Ambos codificadores son parte de la biblioteca SciKit-learn y se utilizan para convertir texto o datos categóricos en datos numéricos.

Vamos a crear un DataFrame con dos variables categóricas diferentes como ejemplo.

In [37]:
# creamos un diccionario:
diccionario1 = {'colores':  ['verde', 'azul', 'azul', 'verde', 'rojo', 'azul'],
               'nivel': ['bajo', 'bajo', 'alto', 'medio', 'bajo', 'medio']}
# creamos un dataframe a partir del diccionario:
df = pd.DataFrame(diccionario1)
#A ver que pinta tiene?
df

Unnamed: 0,colores,nivel
0,verde,bajo
1,azul,bajo
2,azul,alto
3,verde,medio
4,rojo,bajo
5,azul,medio


## 2.1. Label encoding

Este enfoque es muy simple e implica convertir cada valor de una columna en un número. Por ejemplo, asignará un número a cada color, y un número a cada nivel.

**Ejercicio** Utiliza LabelEncoder de scikit-learn.preprocessing para codificar las variables colores y nivel. Como puedes obtener las clases en cada uno?

pista: https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelEncoder.html

array([2, 0, 0, 2, 1, 0], dtype=int64)

Unnamed: 0,colores,nivel,colores encoded
0,verde,bajo,2
1,azul,bajo,0
2,azul,alto,0
3,verde,medio,2
4,rojo,bajo,1
5,azul,medio,0


Unnamed: 0,colores,nivel,colores encoded,colores_label,nivel_label
0,verde,bajo,2,2,1
1,azul,bajo,0,0,1
2,azul,alto,0,0,0
3,verde,medio,2,2,2
4,rojo,bajo,1,1,1
5,azul,medio,0,0,2


**Ejercicio**: Que tipo de variables son 'colores' y 'nivel'?



Colores es una variable categórica nominal, mientras que nivel es una variable categórica ordinal.
Una posible desventaja de usar labelencoder es que al asignar un número a una variable categórica nominal estamos imponiendo un orden de manera artificial. Por ejemplo, los colores no tienen ningún orden, mientras que a nivel sí. 

**Ejercicio:** Que valores se han asignado a bajo, medio y alto?

### 2.2. OrdinalEncoder

Si trabajamos con variables ordinales, es posible que queramos introducir un orden específico. [ERRATA!: LabelEncoder asigna el orden por orden de aparición]. Podemos entonces usar OrdinalEncoder para asignar un orden.

**Ejercicio:** Utiliza OrdinalEncoder de sklearn para codificar la variable 'nivel' con un orden de 0 a 2 a los valores bajo, medio, alto. Y si quisiera ordenarlas al reves, como lo podemos hacer?

### 2.3. One hot encoding

Para las variables categóricas donde no existe una relación ordinal, la codificación de números enteros puede no ser suficiente, o incluso dañina para el modelo, en el peor de los casos.

Dicho de otra manera, forzar una relación ordinal a través de una codificación ordinal y permitir que el modelo asuma un ordenamiento natural entre categorías puede generar un rendimiento deficiente o resultados inesperados ( como predicciones a mitad de camino entre categorías).

Una solución sería aplicar una codificación one-hot a la representación ordinal. Aquí es donde se elimina la variable codificada entera y se agrega una nueva variable binaria para cada valor en la variable.

Por ejemplo, en el caso de la variable color hay tres categorías. Por lo tanto, se necesitan tres variables binarias. Se coloca un valor "1" en la variable binaria para el color y valores "0" para los otros colores.

Esta transformación de codificación one-hot está disponible en la biblioteca de aprendizaje automático de Python de scikit-learn a través de la clase OneHotEncoder.

En este caso, las categorias se ordenan alfanuméricamente.

https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html

**Ejercicio:** Usa Onehotencoding de sklearn para codificar la variables colores.

### 2.4. get dummies


Este enfoque es más flexible porque permite codificar tantas columnas de categoría como desee y elegir cómo etiquetar las columnas con un prefijo. La denominación adecuada hará que el resto del análisis sea un poco más fácil.

**Ejercicio:** Utiliza get_dummies de pandas para codificar la variable colores.

**Ejercicio:** Cuales son las diferencias entre label encoder, ordinal encoder, onehotencoding y get_dummies?



Unnamed: 0,colores,nivel,colores encoded,colores_label,nivel_label,alto,bajo,medio
0,verde,bajo,2,2,1,0,1,0
1,azul,bajo,0,0,1,0,1,0
2,azul,alto,0,0,0,1,0,0
3,verde,medio,2,2,2,0,0,1
4,rojo,bajo,1,1,1,0,1,0
5,azul,medio,0,0,2,0,0,1
