# Procesamiento y Etiquetado de Datos

**Docente:** Ph.D. John William Branch  
**Asistente de Docencia:** Sergio Robles

Clasificación y Reconocimiento de Patrones  
Universidad Nacional - Sede Medellin

#### Entrega *(Fecha por Definir)*
* El Notebook debe ser enviado al correo: srobles@unal.edu.co
* El Asunto del correo debe ser: **CRP G1 - Taller 1**
* El Correo debe tener adjunto un Notebook resuelto (Archivo con extensión 'ipynb')

## Paquetes

Librerías y paquetes de python a utilizar en el siguiente notebook.  
(Deben estar previamente instalados)

In [None]:
%matplotlib inline
import random
import numpy as np
import pandas as pd
import cv2
import matplotlib.pyplot as plt
import skimage as sk
from skimage import transform
from skimage import util
from sklearn import preprocessing
from scipy import ndarray

In [None]:
# Utils
def random_rotation(image_array: ndarray):
    # pick a random degree of rotation between 25% on the left and 25% on the right
    random_degree = random.uniform(-25, 25)
    return sk.transform.rotate(image_array, random_degree)

def random_noise(image_array: ndarray):
    # add random noise to the image
    return sk.util.random_noise(image_array)

def horizontal_flip(image_array: ndarray):
    # horizontal flip doesn't need skimage, it's easy as flipping the image array of pixels !
    return image_array[:, ::-1]

## Datos Estructurados

Los datos estructurados son aquellos que estan organizados en variables o atributos. Comunmente se presentan o almacenan en matrices donde cada ejemplo es una fila de la matriz, y cada atributo, una columna.

In [None]:
# Tip: utilizar la librería pandas
# Tip: data/data.csv

# ESCRIBA SU CÓDIGO AQUÍ

In [None]:
# Imprimir los primeros 5 ejemplos

# ESCRIBA SU CÓDIGO AQUÍ

In [None]:
# Imprimir el tamaño del DataFrame

# ESCRIBA SU CÓDIGO AQUÍ

### Procesamiento de Datos

Aunque los datos estructurados esten organizados por atributos, no siempre se obtienen con las mejores condiciones. Debido a esto muchos conjuntos de datos pueden tener datos faltantes, datos errados, valores no estandarizados, etc.  
Por esto se busca realizar ciertas operaciones o procesamiento para mejorar la calidad de los datos.

### Datos Nulos

In [None]:
# Eliminar las filas donde al menos un dato sea nulo
# Tip: pandas dropna()

# ESCRIBA SU CÓDIGO AQUÍ

In [None]:
# Imprime el tamaño del nuevo DataFrame

# ESCRIBA SU CÓDIGO AQUÍ

### Nuevos Atributos

In [None]:
# Crear un nuevo atributo (columna) en el DataFrame que sea una tupla así: (latitud, longitud)
# Tip: Utilizar list y zip de python

# ESCRIBA SU CÓDIGO AQUÍ

In [None]:
# Crear dos nuevos atributos (columnas) en el DataFrame donde una sea la fecha y la otra la hora
# Tip: Utilizar funciones lambda

# ESCRIBA SU CÓDIGO AQUÍ

In [None]:
# Crear un nuevo atributo (columna) en el DataFrame que sea el número del día de la semana (Domingo 1 - Sabado 7)
# Tip: Utilizar funciones lambda

# ESCRIBA SU CÓDIGO AQUÍ

### Variables dummies

Las variables o atributos categóricos son problemáticos a la hora de aplicar algunos métodos estadísticos y matemáticos. Para esto, se utiliza una técnica para generar nuevas variables que representen el dato de los atributos categóricos. Estas variables reciben el nombre de variables "dummies".

In [None]:
# Crear variabels dummies para el atributo UCR_PART
# Tip: Revisar documentación de pandas

# ESCRIBA SU CÓDIGO AQUÍ

In [None]:
# Imprimir los primeros 5 ejemplos

# ESCRIBA SU CÓDIGO AQUÍ

### Análisis Estadístico

Al realizar análisis estadístico es posible concluir premisas erradas. Esto por la poco o baja calidad que pueden tener los datos. Por esto, se realizó todo un procesamiento con el fin de mejorar la precisión de los resultados estadísticos.

In [None]:
# Contar cuantos crimenes se realizaron por cada hora única
# Tip: Utilizar groupby de pandas

# ESCRIBA SU CÓDIGO AQUÍ

In [None]:
# Imprimir la media de las horas de crimenes realizados por cada día único
# Tip: Utilizar groupby de pandas

# ESCRIBA SU CÓDIGO AQUÍ

### Normalización y Otros (No calificable)

La normalización de los datos es un paso importante en la utilizacón de modelos matemáticos y computacionales. Esta le permite a los modelos a utilizar encontrar el resultado en un menor número de pasos y/o repeticiones, así como mejorar la precisión entre las diferentes dimensiones (variables) que los datos puedan tener.

In [None]:
xs = np.random.uniform(-5, 5, (100))
ys = np.random.uniform(-5, 5, (100))

In [None]:
plt.plot(xs, ys, 'ro')
plt.axis([-6, 6, -6, 6])

In [None]:
X_scaled = preprocessing.scale(xs)
Y_scaled = preprocessing.scale(ys)

In [None]:
plt.plot(X_scaled, Y_scaled, 'bo')
plt.axis([-5, 5, -5, 5])

In [None]:
X_normalized = preprocessing.normalize([X_scaled], norm='l2')
Y_normalized = preprocessing.normalize([Y_scaled], norm='l2')

In [None]:
plt.plot(X_normalized, Y_normalized, 'go')
plt.axis([-0.5, 0.5, -0.5, 0.5])

## Datos No Estructurados

Los datos **no** estructurados se procesan diferente a los estructurados. Esto porque estos tipos de datos poseen características diferentes. Por ejemplo, una imagen tiene sus datos distribuidos de manera espacial, por lo que contiene más información que la que a simple vista se puede observar.

In [None]:
images = []
data = []

In [None]:
# Leer las 11 imagenes almacenadas en la ruta data/images y almacenarlas en el array images
# Tip: Utilizar opencv
# Tip: Las imagenes a través de opencv son leidas en formato BGR, cambiar el formato a RGB

# ESCRIBA SU CÓDIGO AQUÍ

In [None]:
# Imprimir una imagen leida
# Tip: Utilizar matplotlib

# ESCRIBA SU CÓDIGO AQUÍ

### Normalización y Otros

Los datos no estructurados también pueden ser normalizados. Para las imágenes se realizan 3 tipos de procesos importantes: ajustar dimensionalidad (Resize), normalizar valores de intensidad (Normalize) y aumentar el dato (Augmentation Data)

In [None]:
images_resize = []

In [None]:
# Realizar un resize a las imagenes almacenas y guardarlas en la variable images_resize (128x128)
# Tip: Utilizar opencv

# ESCRIBA SU CÓDIGO AQUÍ

In [None]:
images_normalize = []

In [None]:
for i in images_resize:
    aux = cv2.normalize(i, None, alpha=0, beta=1, norm_type=cv2.NORM_MINMAX, dtype=cv2.CV_32F)
    images_normalize.append(aux)