# Práctica 1: Clasificación de células

## Enunciado del problema
La anemia de células falciformes es una alteración de la sangre que hace que los glóbulos rojos
se deformen hasta adquirir una forma elongada, en vez de circular.

Esta práctica consiste en clasificar un conjunto de células en tres clases diferentes
(circulares - c, elongadas - e u otras - o) usando el **mínimo de características posibles**.

<img alt="Glóbulos rojos en la sangre" src="example.jpeg" width="600"/>

## Descripción del dataset
El dataset está formado por cuatro archivos CSV que contienen diferentes atributos sobre cada célula.
Cada célula está identificada por un ID único, para poder ser reconocida en los diferentes archivos.

Los cuatro archivos de datos son los siguientes:
- `info.csv`: Contiene el path a la imagen de la célula en cuestión y su clase.
- `color.csv`: Contiene todas las características referentes al color extraídas de cada célula.
- `shape.csv`: Contiene todas las características referentes a la forma extraídas de cada célula.
- `texture.csv`: Contiene todas las características referentes a la textura extraídas de cada célula.

Estas características han sido extraídas mediante técnicas de visión por computador.
El dataset está formado completamente por datos numéricos y no contiene datos inválidos o vacíos.

## Importación del dataset
Para poder tratar este dataset de manera eficiente, se ha generado un nuevo fichero CSV que
une los datos de los tres cuatro archivos de datos.

Para agregar los datos en un solo fichero, se ha desarrollado un script, que es capaz de unir en un
archivo los datos de entrenamiento así como los datos de test.

## Análisis exploratorio de datos
Una vez generado el fichero que une todos los datos de entrenamiento, se ha podido comprobar como este
contiene 121 columnas (variables) y 445 filas (muestras).

In [39]:
from utils.utils import get_data

X, y = get_data()
X.shape

  data = data.drop("idx", 1)
  data = data.drop("path", 1)


(445, 121)

A continuación podemos ver una muestra de las características del dataset.

In [40]:
X.head()

Unnamed: 0,Blue mean,Green mean,Red mean,Blue std,Green std,Red std,Hue mean,Saturation mean,Value mean,Hue std,...,Correlation3,Correlation4,Correlation5,Correlation6,Correlation7,Correlation8,Correlation9,Correlation10,Correlation11,Correlation12
0,150.2912,118.8615,130.3895,5.2289,8.8786,8.438,131.4628,53.4965,150.4433,10.9909,...,0.8115,0.8603,0.8183,0.857,0.8081,0.8603,0.7689,0.7501,0.7577,0.7627
1,158.2896,126.3923,144.6604,6.0253,10.1304,9.7674,136.0408,53.0517,159.4682,18.7224,...,0.785,0.8285,0.7694,0.8347,0.7821,0.8285,0.7014,0.715,0.7294,0.725
2,154.9417,127.0161,143.5692,5.2608,10.3249,9.3363,138.2455,46.8765,155.5516,15.9481,...,0.787,0.844,0.8015,0.8651,0.7957,0.844,0.7378,0.7645,0.744,0.7277
3,151.9344,115.6617,132.1807,8.5218,13.4602,14.1391,132.4725,63.1637,153.4545,21.6648,...,0.7484,0.8133,0.7608,0.8399,0.7608,0.8133,0.6838,0.7264,0.6996,0.6775
4,152.5914,123.9839,138.9914,4.7207,8.9208,8.741,136.2724,48.6253,153.1451,14.368,...,0.8152,0.8573,0.8087,0.8626,0.8146,0.8573,0.7469,0.7651,0.7627,0.7534


## Modelos de aprendizaje automático
Una vez explicado el enunciado del problema y visto cómo se han importado los datos, podemos pasar a
explicar los diferentes pasos que se han seguido para obtener el modelo final.

### División del conjunto de datos en train y test
En primer lugar, se ha hecho una división de los datos de entrenamiento en dos subconjuntos, para poder
entrenar y posteriormente, evaluar el rendimiento del modelo.

Esta división se ha hecho con el método `train_test_split` de `scikit`, dándole al subconjunto de test
un tamaño del 30% del conjunto global.

In [41]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=57)

### Escalado de datos
Adicionalmente, se han normalizado los datos mediante el escalado estándar usando la clase
`StandardScaler`.

In [42]:
from utils.utils import scale_data

X_train, X_test = scale_data(X_train, X_test)

### Perceptrón, regresión logística, Random Forest y SVM básicos
La primera estrategia para intentar construir un modelo de aprendizaje automático capaz de clasificar
correctamente las células, ha sido entrenar cuatro clasificadores distintos utilizando todas las
características del dataset.

#### Perceptrón

In [43]:
from utils.utils import print_model_performance_metrics
from sklearn.linear_model import SGDClassifier

clf = SGDClassifier(loss="perceptron", eta0=1, max_iter=1000, learning_rate="constant", random_state=5)
clf.fit(X_train, y_train)
prediction = clf.predict(X_test)

print_model_performance_metrics(y_test, prediction)

[[50  0  0]
 [ 0 43  2]
 [ 1  2 36]]
Precision:	 0.9626865671641791
Recall:	 0.9626865671641791
F1 score:	 0.9626865671641791


#### Regresión logística

In [44]:
clf = SGDClassifier(loss="log", eta0=1, max_iter=1000, learning_rate="constant", random_state=5)
clf.fit(X_train, y_train)
prediction = clf.predict(X_test)

print_model_performance_metrics(y_test, prediction)

[[48  0  2]
 [ 0 41  4]
 [ 2  2 35]]
Precision:	 0.9253731343283582
Recall:	 0.9253731343283582
F1 score:	 0.9253731343283582


#### Random forest

In [45]:
from sklearn.ensemble import RandomForestClassifier

clf = RandomForestClassifier(max_depth=2, random_state=0)
clf.fit(X_train, y_train)
prediction = clf.predict(X_test)

print_model_performance_metrics(y_test, prediction)

[[50  0  0]
 [ 0 41  4]
 [ 0  1 38]]
Precision:	 0.9626865671641791
Recall:	 0.9626865671641791
F1 score:	 0.9626865671641791


#### Support Vector Machine (SVM)

In [46]:
from sklearn.svm import SVC

svc = SVC(C=1.0, kernel="linear", probability=True)
svc.fit(X_train, y_train)
prediction = svc.predict(X_test)

print_model_performance_metrics(y_test, prediction)

[[47  0  3]
 [ 0 42  3]
 [ 1  1 37]]
Precision:	 0.9402985074626866
Recall:	 0.9402985074626866
F1 score:	 0.9402985074626865


#### Comparación
| Clasificador       | F1 Score (test split)  | F1 Score (test data)  |
| ------------------ |:----------------------:|:---------------------:|
| Perceptrón         | 0.9626                 | 0.4808                |
| Regresión logística| 0.9253                 | 0.3926                |
| Random forest      | 0.9626                 | 0.2838                |
| SVM                | 0.9402                 | 0.1367                |

Podemos observar que, pese a que el rendimiento de todos los modelos parece ser bueno juzgando por el subconjunto de
entrenamiento, una vez subido a la plataforma Kaggle para ser evaluado con el conjunto `test`, el rendimiento de ningún
modelo es aceptable.