<a href="https://colab.research.google.com/github/ssanchezgoe/curso_deep_learning_economia/blob/main/NBs_Google_Colab/DL_S03_Tipos_de_Datos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<p><img alt="Colaboratory logo" height="140px" src="https://upload.wikimedia.org/wikipedia/commons/archive/f/fb/20161010213812%21Escudo-UdeA.svg" align="left" hspace="10px" vspace="0px"></p>

<h1> Curso Deep Learning: Economía</h1>

## S03: Datos no estructurados

# Tabla de contenido

Temática:

- ¿Qué son los datos no estructurados?.
- Como tratar los datos no estructurados.

# Datos no estructurados: Deep Dive

Los datos no estructurados corresponden a información que no se organiza de acuerdo con un modelo o esquema de datos preestablecido y, por tanto, no se puede almacenar en una base de datos tradicional o RDBMS (Relational Database Managment System). El texto y la multimedia son dos tipos comunes de contenido estructurado. Algunos ejemplos concretos son:

- Muchos documentos comerciales
- Mensajes de correo electrónico
- Videos 
- Fotos
- Páginas web
- Archivos de audio

Entre el 80% y 90% de los datos generados y recopilados por las organizaciones corresponden a datos no estructurados. La velocidad con que la que crecen estos tipos de datos es, en ocasiones, más rápida que el volumen de los datos no estructurados.

Los almacenamientos de datos no estructurados contienen una gran cantidad de información que se puede usar para orientar las decisiones comerciales. Sin embargo, históricamente los datos no estructurados han sido dificil de analizar. Con la ayuda de la inteligencia artificial y el aprendizaje automático, han surgido nuevas herramientas que pueden buscar en estas grandes cantidades de datos para obtener respuesta a diferentes problemas planteados desde una visión de inteligencia de negocios.

La pregunta principal respecto a esto datos es:

**¿Cómo se pasa tipos de datos diversos como imágenes y sonidos, a una tabla donde se tienen características con valores numéricos?**

Esquemáticamente se tiene que resolver cualquiera de los siguientes problemas

<p><img alt="Unstructure data to Tables" height="200px" src="https://github.com/ssanchezgoe/curso_deep_learning_economia/blob/main/images/DL_S03_Untructured_Data_To_Tables.png?raw=true" align="center" vspace="15px"></p>

en donde, con ayuda de herramientas de deep learning, podemos transformar los datos no estructurados en tablas. 

## Imágenes en escala de grises

Las imágenes digitales corresponden a un arreglo matricial de píxeles con cierto valor (ver siguiente imagen).

<p><img alt="Unstructure data to Tables" height="250px" src="https://github.com/ssanchezgoe/curso_deep_learning_economia/blob/main/images/DL_S03_Gray_Digital_Image.png?raw=true" align="center" vspace="15px"></p>

En general, una imagen en escala de grises tendrá un rango de valores dependiendo de la **profundiad de pixel de la imagen**, la cual se da en bits. En la siguiente imagen se ilustran varias profundidades. 

<p><img alt="Unstructure data to Tables" height="250px" src="https://github.com/ssanchezgoe/curso_deep_learning_economia/blob/main/images/DL_S03_Pixel_Depth.png?raw=true" align="center" vspace="15px"></p>

Como puede advertirse, la cantidad de valores para cierta profundidad de pixel puede determinarse como una potencia de 2. En la siguiente tabla se muestra los posibles valores según la profundidad de pixels.

Profundidad de Pixel | Cantidad de Valores
--|--
1|$2^1=2$
2|$2^2=4$
3|$2^3=8$
4|$2^4=16$
5|$2^5=32$
6|$2^6=64$
8|$2^8=256$
16|$2^{16}=65536$

### Imágenes de 8 y 16 bits

A continuación se descargarán dos imágenes, una de 8 bits y otra de 16 bits, del repositorio de clase para ilustrar los valores almacenados por los píxeles.

In [None]:
!rm DL*
!wget https://github.com/ssanchezgoe/curso_deep_learning_economia/raw/main/images/DL_S03_peppers2.tif
!wget https://github.com/ssanchezgoe/curso_deep_learning_economia/raw/main/images/DL_S03_EPI.tif
!wget https://github.com/ssanchezgoe/curso_deep_learning_economia/raw/main/images/DL_S03_RGB_Lena.jpeg
!wget https://raw.githubusercontent.com/ssanchezgoe/curso_deep_learning_economia/main/dependencies/DL_Utils_Images.py
!wget https://raw.githubusercontent.com/ssanchezgoe/curso_deep_learning_economia/main/dependencies/DL_Utils_Videos.py

In [None]:
import numpy as np
import matplotlib.pyplot as plt

In [None]:
import DL_Utils_Images as Utils_Images
import DL_Utils_Videos as Utils_Videos

In [None]:
Utils_Images.image_info("DL_S03_peppers2.tif")
Utils_Images.imshow("DL_S03_peppers2.tif", cmap='gray', title='Peppers 8Bits')

In [None]:
Utils_Images.image_info("DL_S03_EPI.tif")
Utils_Images.imshow("DL_S03_EPI.tif", cmap='gray', title='EPI 16Bits')

## Imágenes a color

Una imagen a color corresponde a un arreglo en 3 canales (ver imagen a continuación) de los colores primarios rojo, verde y azul, de ahí su nombre en ingles RGB (Red, Green and Blue)


<p><img alt="Unstructure data to Tables" height="300px" src="https://github.com/ssanchezgoe/curso_deep_learning_economia/blob/main/images/DL_S03_RGB.png?raw=true" align="center" vspace="15px"></p>



In [None]:
Utils_Images.image_info("DL_S03_RGB_Lena.jpeg")
Utils_Images.imshow("DL_S03_RGB_Lena.jpeg", title='Lena RGB')
Utils_Images.imshow_RGB("DL_S03_RGB_Lena.jpeg")

## Videos:

Los videos corresponden a secuencias temporales (frames) de imágenes, las cuales pueden ser en escalas de grises o a color. En la siguiente imágen se ilustra un video como secuencia 

<p><img alt="Unstructure data to Tables" height="100px" src="https://github.com/ssanchezgoe/curso_deep_learning_economia/blob/main/images/DL_S03_video_sequence.png?raw=true" align="center" vspace="15px"></p>

Importemos la librería de computer visión, basada en c++, `cv2`:

In [None]:
Utils_Videos.video_info("/content/drive/My Drive/curso_economia_deep_learning/videos/v_CricketShot_g08_c01.avi")

In [None]:
seq = Utils_Videos.load_video("/content/drive/My Drive/curso_economia_deep_learning/videos/v_CricketShot_g08_c01.avi")
Utils_Videos.plot_frames(seq, 4, 4)

## Sonido

Cuando el sonido se graba digitalmente, se obtiene una larga cadena de números como se muestra a continuación

In [None]:
#@title Ejemplo de una gráfica de **sonido**

from scipy.io import wavfile
import matplotlib.pyplot as plt

rate, snd = wavfile.read(filename='/content/drive/My Drive/curso_economia_deep_learning/audio/data_sms.wav')

plt.plot(snd)
plt.show()

In [None]:
#@title la gráfica anterior se escucha como

from IPython.display import Audio
Audio(data=snd, rate=rate)

Podemos trazar un **espectrograma** del sonido, por medio de una técnica conocida como transformada rápida de Fourier (FFT). El espectrograma representa las frecuencias presentes a diferentes tiempos en el sonido. 

In [None]:
#@title Espectrograma
_ = plt.specgram(snd, NFFT=1024, Fs=44100)
plt.ylabel('Frequency (Hz)')
plt.xlabel('Time (s)')

Del espectrograma se deriva que, al principio del sonido existe presencia de altas frecuencias. A medida que transcurre el tiempo, estas frecuencias se reducen, predominando las frecuencias bajas. 

## Texto

Imaginémos un conjunto de información y reseás de sitios en airbnb en una base de datos no estructurada, en donde uno de los documentos tiene la siguiente forma: 

```
DOCUMENTO DE EJEMPLO

{"_id":"10115921",
"listing_url":"https://www.airbnb.com/rooms/10115921",
"name":"GOLF ROYAL RESİDENCE TAXİM(1+1):3",
"summary":"our place situated at the middle of beautiful places such as nişantaşi street just 5 min walking and osmanbey these streets are full of markets,resturants also  we are 1.2 kilo metere far from taksim square and istiklal street one of the most famous",
"space":"",
"description":"our place situated at the middle of beautiful places such as nişantaşi street just 5 min walking and osmanbey these streets are full of markets,resturants also  we are 1.2 kilo metere far from taksim square and istiklal street one of the most famous",
"neighborhood_overview":"",
"notes":"",
"transit":"",
"access":"",
"interaction":"",
"house_rules":"",
"property_type":"Serviced apartment",
"room_type":"Entire home/apt",
"bed_type":"Real Bed",
"minimum_nights":"1",
"maximum_nights":"1125",
"cancellation_policy":"strict_14_with_grace_period",
"last_scraped":{"$date":{"$numberLong":"1550466000000"}},
"calendar_last_scraped":{"$date":{"$numberLong":"1550466000000"}},
"first_review":{"$date":{"$numberLong":"1454302800000"}},
"last_review":{"$date":{"$numberLong":"1502078400000"}},
"accommodates":{"$numberInt":"4"},
"bedrooms":{"$numberInt":"2"},
"beds":{"$numberInt":"4"},
"number_of_reviews":{"$numberInt":"3"},
"bathrooms":{"$numberDecimal":"1.0"},
"amenities":["TV","Cable TV","Internet","Wifi","Air conditioning","Wheelchair accessible","Kitchen","Paid parking off premises","Smoking allowed","Doorman","Elevator","Buzzer/wireless intercom","Heating","Family/kid friendly","Suitable for events","Dryer","Smoke detector","Carbon monoxide detector","First aid kit","Safety card","Fire extinguisher","Essentials","Shampoo","24-hour check-in","Hangers","Hair dryer","Iron","Laptop friendly workspace","Self check-in","Building staff","Crib","Hot water","Luggage dropoff allowed","Long term stays allowed"],"price":{"$numberDecimal":"838.00"},
"extra_people":{"$numberDecimal":"0.00"},
"guests_included":{"$numberDecimal":"1"},
"images":{"thumbnail_url":"","medium_url":"","picture_url":"https://a0.muscache.com/im/pictures/fbdaf067-9682-48a6-9838-f51589d4791a.jpg?aki_policy=large","xl_picture_url":""},
"host":{"host_id":"51471538","host_url":"https://www.airbnb.com/users/show/51471538","host_name":"Ahmet","host_location":"Istanbul, İstanbul, Turkey","host_about":"","host_response_time":"within an hour","host_thumbnail_url":"https://a0.muscache.com/im/pictures/user/d8c830d0-16da-455c-818a-790864132e0a.jpg?aki_policy=profile_small","host_picture_url":"https://a0.muscache.com/im/pictures/user/d8c830d0-16da-455c-818a-790864132e0a.jpg?aki_policy=profile_x_medium","host_neighbourhood":"Şişli","host_response_rate":{"$numberInt":"100"},"host_is_superhost":false,"host_has_profile_pic":true,"host_identity_verified":false,"host_listings_count":{"$numberInt":"16"},"host_total_listings_count":{"$numberInt":"16"},"host_verifications":["email","phone","reviews"]},
"address":{"street":"Şişli, İstanbul, Turkey","suburb":"Şişli","government_area":"Sisli","market":"Istanbul","country":"Turkey","country_code":"TR","location":{"type":"Point","coordinates":[{"$numberDouble":"28.98713"},{"$numberDouble":"41.04841"}],"is_location_exact":false}},
"availability":{"availability_30":{"$numberInt":"30"},"availability_60":{"$numberInt":"60"},"availability_90":{"$numberInt":"90"},"availability_365":{"$numberInt":"365"}},
"review_scores":{"review_scores_accuracy":{"$numberInt":"7"},"review_scores_cleanliness":{"$numberInt":"7"},"review_scores_checkin":{"$numberInt":"8"},"review_scores_communication":{"$numberInt":"8"},"review_scores_location":{"$numberInt":"10"},"review_scores_value":{"$numberInt":"7"},"review_scores_rating":{"$numberInt":"67"}},
"reviews":[{"_id":"61231578","date":{"$date":{"$numberLong":"1454302800000"}},"listing_id":"10115921","reviewer_id":"12352658","reviewer_name":"Johann","comments":"This place and the service has a lot of potential but certainly has not reached its prime yet. Ahmet was very quick to respond and approve my reservation which is great. He was also very responsive to additional questions. The residence service at the counter was also good and the blokes were helpful. The apartment is clean and spacious, although it could do with a couple of extra basic necessities particularly in the kitchen. \r\n\r\nHowever, two main things made this experience rather average instead of great.\r\n- I reserved a flat with TWO bedrooms and only got one. I complained and they relocated me to a bigger apartment with two separate beds, but still ONE bedroom.  Upon booking make sure to confirm its two bedrooms you sign up to.\r\n\r\n- Saturday seemed to be national construction day which meant 8am rise and shine. sunday there was activity too although less loud. Normally not a problem but not great when you experienced some of the Istanbul night life the night before. A notice about this at least would have been great."},{"_id":"69120673","date":{"$date":{"$numberLong":"1460174400000"}},"listing_id":"10115921","reviewer_id":"20657237","reviewer_name":"Mohamed","comments":"The location is just perfect. You can find everything in the neighborhood such as restaurants, supermarket, exchange, shops....etc.\nThe lobby of the hotel is small.\nI stayed in the two bedroom apt.\nUnfortunately, the second room has the bathroom while the master bedroom has none. You have to use the one in the living room.\nSome of the staff in the Hotel are very very helpful like Mustafa and some are friendly like Mohamed."},{"_id":"179271487","date":{"$date":{"$numberLong":"1502078400000"}},"listing_id":"10115921","reviewer_id":"32336412","reviewer_name":"Abdulrazaq","comments":"They have to check the type of apartment"}]}
```

Supongamos que se pretende crear un modelo en donde el campo de `reviews` se use para dar un calificativo de bueno o malo, según la cadena de caractéres alojada en las reseña:

```
The location is just perfect. You can find everything in the neighborhood such as restaurants, supermarket, exchange, shops....etc.The lobby of the hotel is small. I stayed in the two bedroom apt. Unfortunately, the second room has the bathroom while the master bedroom has none. You have to use the one in the living room. Some of the staff in the Hotel are very very helpful like Mustafa and some are friendly like Mohamed.
```

Intuitivamente, un algoritmo de inteligencia artificial no puede procesar como entrada un texto para resolver este tipo de problema, por lo que se requiere asignar a cada palabra del texto una codificación numérica, para que los algoritmos de inteligencia artificial sean capaces de procesar la información.

Veamos un ejemplo de como podemos procesar el texto:

Había una vez una iguana

Con una ruana de lana

Peinandose la melena junto al río Magdalena

Y la iguana tomaba café

Tomaba café a la hora del té

Y la iguana tomaba café

Tomaba café a la hora del té

Llegó un perezoso caminando

En pijama y bostezando

Le dio un empujón a Doña iguana

Y la lanzó de cabeza al agua

Y el perezoso se toma el café

Se toma el café a la hora del té

Y el perezoso se toma el café

Se toma el café a la hora del té

La iguana volvió toda mojada

Furibunda y enojada

Le espicha la oreja al perezoso

Y lo encerró en el calabozo

Y la iguana termina el café

Termina el café a la hora del té

Y la iguana termina el café

Termina el café a la hora del té

para que sea "legible" para un algoritmo de IA.


In [None]:
#@title Ingesta de datos
!wget https://raw.githubusercontent.com/ssanchezgoe/curso_deep_learning_economia/main/data/DL_text_sample.txt

In [None]:
#@title Procesamiento de texto
from tensorflow import keras
import numpy as np

# Apertura del archivo
with open('DL_text_sample.txt') as f:
    data = f.read()
    print(data)

# Tokenizador
tok=keras.preprocessing.text.Tokenizer()
tok.fit_on_texts([data])

print(tok.index_word.items())

## Deep Learning e Ingeniería de características.

La ingeniería de caracterísiticas es un problema esencial para lograr obtener un modelo preciso a través de características significativas. Estas características deben guardar una relación con la variable objetivo, de lo contrarío, el modelo resultante podría carecer de capacidad predictiva. 

El problema en la extracción de características es que se requiere de los siguientes elementos:

- Contar con expertos en el tema.
- Conocimiento relacionado con el tema.
- Usar herramientas potentes para la extracción de caracerísticas.
- Costoso desde el punto de vista de tiempo.

En el caso de las redes neuronales, esta estracción de características, o **ingeniería de características**, se realiza de forma automática mediante la arquitectura de red:

<p><img alt="Unstructure data to Tables" height="350px" src="https://github.com/ssanchezgoe/curso_deep_learning_economia/blob/main/images/DL_S03_Feature_Engineering.png?raw=true" align="center" vspace="15px"></p>

## Ejercicios

### Ejercicio 1: Tratamiento de imágenes en escala de grises.

Tome cualquier imágen de internet en escala de grises, grafíquela e imprima la siguiente información:

- Profundidad de píxel.
- Valores de píxel mínimo y máximo.
- Dimensiones de la imagen.
- Total Pixeles en la imagen. 

Ayuda: Realice una función para este fin. 


### Ejercicio 2: Tratamiento de imágenes RGB 

Tome cualquier imágen RGB de internet, visualice la imagen y sus canales RGB e imprima la siguiente información:

- Profundidad de píxel.
- Valores de píxel mínimo y máximo.
- Dimensiones de la imagen.
- Total Pixeles en la imagen. 

Ayuda: Realice una función para este fin. 


### Ejercicio 3: Tratatmiento de Texto

Tome como archivo de entrada el texto alojado el [Link](https://raw.githubusercontent.com/ssanchezgoe/curso_deep_learning_economia/main/data/DL_Carton_Review.txt) y consulte en internet cómo tokenizar mediante en `keras` un texto. Imprima el resultado final como un diccionario en donde se especifíque el código (número entero asociado) de la palabra y la pabra en sí.