# Unitat 4: Introducció a les tècniques de Machine Learning (ML)

## Que és Machine Learning?

> "L'aprenentatge automàtic ("machine learning" en anglès) és un camp de la intel·ligència artificial que està dedicat al disseny, l'anàlisi i el desenvolupament d'algorismes i tècniques que permeten que les màquines evolucionin. Es una àrea multidisciplinària que, a través de ciències com la computació, les matemàtiques, la lògica i la filosofia, estudia la creació i el disseny de programes capaços de generalitzar comportaments a partir del reconeixement de patrons o classificació i de sistemes capaços de resoldre problemes quotidians per si mateixos, utilitzant com a paradigma la intel·ligència humana." https://ca.wikipedia.org/wiki/Aprenentatge_autom%C3%A0tic


<img src="images/subfieldsAI.jpeg" width=50%/>
<br/>
<img src="images/AI.png" width=80%/>

## Tasques més habituals de ML 

Podem classificar les tasques segons unes certes activitats[3]:

- Classification and class probability estimation. Per a cada individu d'una població estimar el conjunt de classes al qual pertany. Exemples, Quins grups de clients reaccionaran a una oferta? Quins clients accedirien a realitzar una enquesta telefònica?, ...
- Regression ("value estimation"). S'intenta estimar o predir el valor número d'una variable. Exemples, Quants clients usaran aquest servei?. La regressió està relacionada amb la classificació. La classificació prediu si* alguna cosa passarà i la regressió quant* ocorrerà.
- Clustering. Intenta agrupar elements d'una població que comparteixin similituds. Quina relació guarden aquests clients?
- Casual modeling. Intenta ajudar a comprendre la influència mútua d'esdeveniments o accions. Què t'ha portat a comprar aquest producte?

## Què ocorre amb un algorisme *tradicional* en aquestes tasques?

Anem pensar com fer el disseny d'un sistema de recomanació.
- Quins criteris utilitzaríem?
- Com implementariamos les regles*?

Disposem de la següent informació:
  
| Transaction ID | Order | User Region | Product ID | Product Price | Promotion | Product Category | Product Description | User Class |
|----------------|-------|-------------|------------|---------------|-----------|------------------|---------------------|------------|
| 001            | 1     | 920         | 01         | 25            | Yes       | Book             | bla bla BLA         | A          |
| 001            | 2     | 920         | 02         | 20            | Yes       | Book             | ble ble BLE         | A          |
| 839            | 1     | 878         | 03         | 40            | No        | Technology       | blu blu BLU         | C          |
| 839            | 2     | 878         | 04         | 100           | No        | Home             | None None none      | C          |
| 030            | 1     | 909         | 05         | 20            | No        | Home             | Lorem Ipsum         | D          |
| 030            | 2     | 909         | 06         | 20            | Yes       | Garden           | Green Green         | D          |


- IDEES?

```python
if shopping.cart contains produt."01" then:
    add a new product in web panel ("02") # "Altres usuaris també compraren:"

if shopping.cart contains product."Garden" then:
    add a new product in web panel ("05")

if shopping.cart contains product.Description."BLA" and product.Category."Book" then:
    add a new product in web panel ("03")
```
I què passaria sí es consideren nous criteris, canvis en els models o en els valors dels atributs, o simplement si tenim milers de transaccions diàries.

**Aquest tipus de solucions:**
- Són *ad hoc* i segons la seva dimensió, són impossibles de mantenir.
- No són escalables ni flexibles
- Consumeixen elevades quantitats de recursos computacions i ofereixen un temps de resposta insuficient.
- Són fiables? 

Y ¿qué pasaría sí se considerán nuevos criterios, cambios en los modelos o en los valores de los atributos, o simplemente si tuvieramos miles de transacciones diarias.


## Com afronta el problema un algorisme d'aprenentatge?

<img src="images/modeloBaseML.png" witdh="80%" />


## Tipus 

### A) Mètodes supervisats i B) no supervisats

La principal diferència entre tots dos mètodes és la disposició de dades amb informació rellevant cap a l'objectiu que permetin guíar el procés de aprendijzaje. Si existeixen aquestes dades, ens trobem davant la possibilitat d'aplicar mètodes supervisats. Per exemple, quants tipus de clients podriamos tenir? Estem davant un problema no supervisat ja que no existeix una informació prèvia que ens ajudi a esteblecer uns certs patrons o regles. D'altra banda, davant la problemàtica de poder trobar grups de clients amb un alt potencial a cancel·lar el seu contracte, estem davant un problema on aplicar un mètode supervisat ja que disposem de clients amb i sense contracte. Podem usar aquesta separació per a guíar el procés d'aprenentatge.

Tècniques de classificació, regressió i modelatge casual generalment són mètodes supervisats. Clustering, co-*ocurrence grouping i profiling són, generalment, mètodes no supervisats. La resta de tasques poden pertànyer a tots dos mètodes.

També existeixen els *mètodes semi-supervisats**, una combinació de tots dos on hi ha una certa informació etiquetada però la gran majoria no ho està.


### C) Reinforcement learning - Aprenentatge per reforç.
Aquest tipus de mètodes es basen a recompensar accions o compartamientos positius per a guiar l'aprenentatge. Existeix una funció de recompensa tant positiva com negativa que evalua la decisió presa. L'avaluació de l'estat, l'acció i la recompensa serveixen per a entrenar el model.

<img src="images/reinforcementModelOpenAI.jpg" width="60%">

## A) Aprenentatge supervisat

Dins de l'aprenentatge supervisat podem distingir dos tipus de problema bàsics:

1. **Regressió**
2. **Classificació**

La millor manera de distingir entre l'un i l'altre és preguntar-se si necessitem predir una quantitat o un valor continu, quant val una casa donat un veïnat i la superfície? (regressió). Donat el valor d'una casa i la superfície digues-me en què veïnat està (classificació).

#### A.1 Regressió

El nom va ser introduït per Francis Galton quan estudiava que els fills de gent alta tendien a ser baixos,
per la qual cosa hi havia una **regressió a la mitjana**.

Entre els algorismes més usats per a realitzar regressions trobem:


1. Regressió Lineal i variants. 
2. Arbres regressors i *trees ensembles*.
3. *Support Vector Regressors*.

#### A.2 Clasificación

Una de les tasques més comunes a realitzar. Es tracta de trobar el grup al qual pertany una observació.

Entre els algorismes més usats i útils trobem:

1. **Logistic Regression**
2. **Regression trees and ensembles**
3. **Support Vector Classifiers**

## B) Aprenentatge no supervisat

Aquest tipus d'algorismes venen condicionats pel fet que tenim dades sense etiquetes.

Dins d'aquesta categoria podem trobar tres altres sub-categories en funció de l'objectiu que definim o del problema a cobrir:

1. **Clustering**:      
2. **Reducció de dimensionalitat** / visualització:
3. Regles d'associació


## Elecció de l'algoritme

Atès que la principal tasca a realitzar és saber triar que tipus de model usar en cada situació, hi ha dos errors potencials que són fàcils de cometre:

1. Triar malament l'algorisme, ja sigui per un model poc complex que sobre simplifiqui el problema (**underfitting**) o un model massa complex que no aprengui sinó que de "memoría" apliqui el mateix (**overfitting**).

2. Elecció incorrecta de dades.
    Els principals problemes de dades que podem tenir són:

    1. Una representativitat de casos insuficient.

    2. Dades amb poca qualitat: *outliers*, *nan's*,...

    3. Atributs irrellevants: identificadors, *garbage in*, *garbage out*,...

Una part crucial a l'hora de crear un model és seleccionar les variables adequades i/o modificar-les de manera que aportin més informació al model, la qual cosa es coneix com **Feature engineering**:

1. *Feature extraction*: creació de noves variables, p. ex. $ duration = date_{exit} - date_{start}$.
2. *Feature selection*: eliminació d'atributs que no aporten valor al model, redueix el renou i pot millorar el rendiment de l'algorisme.



## Bibliografía

- [1] Introduction to Machine Learning with Python. A guide for Data Scientist. Andreas C. Müller and Sarah Guido. OReilly. 2017
- [2] Data Science for Business. Foster Provost and Tom Fawcett. OReilly. 2013
- [3] Machine Learning. The art and science of Algorithms that make sense od data. Peter Flach. Cambridge. 2012
- [5] Machine Learning & Data Science Blueprints for Finance: from Building Trading Strategies to Robo-advisors using python. Hariom Tatsat, Sahil Puri, and Brad Lookabaugh. OReilly. 2021

[![License: CC BY 4.0](https://img.shields.io/badge/License-CC_BY_4.0-lightgrey.svg)](https://creativecommons.org/licenses/by/4.0/) <br/>
Authors: [Isaac Lera](https://personal.uib.cat/isaac.lera), [Miquel Miró](https://personal.uib.cat/miquel.miro) and [Biel Moyà](https://personal.uib.cat/gabriel.moya)<br/>
Institution: Universitat de les Illes Balears (UIB) <br/>