# Part 1 - Classificació de medicaments (Drug Classification drug200)

## Context

El dataset [drug200](datasets/drug200.csv) conté informació de pacients i el medicament que podria ser adequats per ells.

## Contingut

La característica objectiu és **Drug**. Els conjunts de característiques són:

- Age
- Sex
- BP (Nivells de Pressió Arterial (PA))
- Cholesterol
- Na_to_K (Ràtio de Sodi a Potassi)
- Drug

## Pregunta 1
Carrega el dataset i mostra les primeres 5 files.

## Pregunta 2

Indica quantes files i quantes columnes té el dataset.

## Pregunta 3

Identifica si hi ha valors nuls.

Què faries amb aquests valors (si hi ha)?

_Resposta_

## Pregunta 4
Implementa l'anterior resposta. Comprova que després de fer-ho no falten valors.

## Pregunta 5
Acaba de preparar el dataset per poder-li'l passar a un model de machine learning.

## Pregunta 6
Fes un gràfic per mostrar la relació entre les variables l'edat i la ràtio de Sodi a Potassi per tipus de medicaments.
Comenta el resultat obtés.


In [None]:
# Ací el teu gràfic

_Comentari sobre el gràfic_

## Pregunta 7
Fes algun altre gràfic que ajude a explicar l'anterior conclussió.

In [None]:
# Ací el teu gràfic

## Pregunta 8
Volem fer una aplicació per a ajudar els metges a receptart un o altre fàrmac. Prova els models:

- LogisticRegression
- KNeighborsClassifier
- SupportVectorClassifier
- DecisionTreeClassifier
- RandomForestClassifier
- GradientBoostingClassifier

Seleccionar el millor i raona la resposta.

## Pregunta 9
Quins son els paràmetres que més influixen en la predicció del millor model de l'apartat anterior? Quanitifica-ho.

## Pregunta 10
Ens ha arribat una pacient de 39 anys, amb la pressió arterial alta, el colesterol normal i la ràtio Sodi a Potassi de 14. Quin fàrmac li administrarem?

# Part 2 - Deep Learning (imdb_top_1000)

## Context
- Entrenament d'un model de deep learning en un [dataset de pel·lícules i programes de televisió](datasets/imdb_top_1000.csv).
- Estudiar el rendiment del model amb diferents tècniques de regularització.
- Interpretar els resultats mitjançant gràfics.

### Columnes:
- **Poster_Link** - Enllaç del pòster que utilitza IMDB
- **Series_Title** - Nom de la pel·lícula
- **Released_Year** - Any en què es va estrenar la pel·lícula
- **Certificate** - Certificat obtingut per la pel·lícula
- **Runtime** - Durada total de la pel·lícula
- **Genre** - Gènere de la pel·lícula
- **IMDB_Rating** - Puntuació de la pel·lícula al lloc d'IMDB
- **Overview** - Mini història/resum
- **Meta_score** - Puntuació obtinguda per la pel·lícula recopil·lant l'opinió d'almenys quatre crítics especialitzats
- **Director** - Nom del director
- **Star1, Star2, Star3, Star4** - Nom de les estrelles
- **No_of_votes** - Nombre total de vots
- **Gross** - Diners guanyats per la pel·lícula

Considerarem que el nostre target és IMDB_Rating.

In [None]:
# Carrega el dataset i mostra les 5 primeres files

In [None]:
# mostra detalls del dataset

## Pregunta 11
Donat el següent preprocessat de dades, explica (amb comentaris) perquè hem fet cadascuna de les transformacions:

In [None]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import OneHotEncoder, MinMaxScaler

# Suposen el dataframe està carregat en la variable df

# 1.
#
df['Gross'] = df['Gross'].str.replace(',', '').astype(float)
gross_mean = df['Gross'].mean()
df['Gross'].fillna(gross_mean, inplace=True)

# 2. 
#
meta_score_mean = df['Meta_score'].mean()  
df['Meta_score'].fillna(meta_score_mean, inplace=True)  

# 3. 
# 
X = df[['Released_Year', 'Genre', 'Meta_score', 'Director', 'Star1', 'Star2', 'Star3', 'Star4', 'Gross']]
y = df['IMDB_Rating'] 

# 4. 
#
X['Genre'] = X['Genre'].fillna('') 
genre_split = X['Genre'].str.get_dummies(sep=',') 

# 
encoder = OneHotEncoder(sparse_output=False, handle_unknown='ignore') 
categorical_cols = ['Director', 'Star1', 'Star2', 'Star3', 'Star4']
categorical_encoded = encoder.fit_transform(X[categorical_cols]) 

# 5.
#
X = X.drop(['Genre', 'Director', 'Star1', 'Star2', 'Star3', 'Star4'], axis=1)
X = np.hstack([X.values, genre_split.values, categorical_encoded])

# 6. 
#
scaler = MinMaxScaler()
numeric_cols = [0, 1, 2] 
X[:, numeric_cols] = scaler.fit_transform(X[:, numeric_cols])

# 7. 
#
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=42)

# 8. 
print(f"Valors nuls a X_train després de la neteja: {np.isnan(X_train).sum()}")
print(f"Valors nuls a X_val després de la neteja: {np.isnan(X_val).sum()}")

# 
print(f"Forma del conjunt d'entrenament X_train: {X_train.shape}")
print(f"Forma del conjunt de validació X_val: {X_val.shape}")


## Pregunta 12
Crea, entrena i analitza el resultat d'un model bàsic en Keras. Ha d'incloure:
- Dissenyar una xarxa neuronal amb capes denses.
- Compilar el model utilitzant una funció de pèrdua adequada i un optimitzador.
- Entrenar el model


## Pregunta 13
Mostra les corbes d'aprenentatge.
Aprecies underfitting o overfitting a partir de les corbes? Indica en quines zones i justifica la resposta.


In [None]:
# Gràfic de la funció de pèrdua

# Gràfic de la mètrica


_Comentaris sobre l'entrenament del model_


## Pregunta 14

Implementa la tècnica de parada anticipada. Quin efecte té sobre el model?

_Comnetaris del model_


## Pregunta 15
Implementa i analitza l'efecte de Batch Normalization. Lleva la parada anticipada de l'apartat anterior.

_Comnetaris del model_


## Pregunta 16
Implementa i analitza l'efecte de Dropout. Lleva la parada anticipada i la normalització per lots.

_Comentaris del model_


## Pregunta 17
Junta en una implementació final els mètodes de Dropout, Batch Normalization i Early Stopping.
Fes un gràfic amb les corbes i comenta-les.

In [None]:
# Codi

Comentaris

## Pregunta 18

Acaba de sortir una serie que ens han dit que està molt be. Es tracta de _Severance_ <https://www.imdb.com/es-es/title/tt11280740/>. 

1. Què deuriem de fer per a fer una predicció a partir de les dades existents a la web?
2. Com ho implementaries per a fer-ho el més automatitzat possible?

_Resposta_

## Pregunta 19
Observa els valors finals de l'entrenament de la xarxa neuronal. Quin hauria de ser (més o menys) l'error en fer un la predicció de l'apartat anterior?

Resposta

## Pregunta 20

Si agafarem la pel·lícula "The Game" de David Fincher creus que la predicció obtesa seria bona? I si ho ferem amb la pel·lícula "Gothika" de Mathieu Kassovitz? Justifica la resposta.

Resposta