# __Fundamentos de Aprendizaje Automático 2021/2022__
## Práctica de Introducción: _TRATAMIENTO DE DATOS, PARTICIONAMIENTO Y DISEÑO PRELIMINAR DE LA APLICACIÓN_
### Grupo 1462 - Pareja 10 - Kevin de la Coba Malam

In [5]:
import pandas as pd
import numpy as np
from Datos import Datos
import EstrategiaParticionado

## __1. Introducción__
En este jupyter notebook se explicarán las soluciones a los diferentes apartados de la práctica de introducción.

## __2. Clase Datos - Tratamiento de datos__
En el enunciado de la práctica se nos pide crear una clase "Datos" la cuál contenga los siguientes atributos:
* **nominalAtributos**: Lista de valores booleanos indicando si una columna es nominal o no.
* **diccionario**: Diccionario que nos permite _traducir_ los datos originales a datos númericos.
* **datos**: Matriz en la cual se guardan los datos _traducidos_.

Para resolver este apartado se ha creado el archivo __Datos.py__ donde se encuentra la clase __Datos__. 
Dicha clase contiene un constructor que se encarga de construir los atributos antes mencionados, para eso lo primero que se hace es cargar el archivo _"tic-tac-toe.data"_ o _"german.data"_ usando la librería _pandas_, en concreto, usando la función _read_csv_:

In [2]:
df1 = pd.read_csv("ConjuntosDatos/tic-tac-toe.data")
df2 = pd.read_csv("ConjuntosDatos/german.data")

Como podemos ver, el archivo no es un _.csv_ pero el contenido que hay dentro _contiene el formato_ del _.csv_. Por esta razón la función no da ningún problema y se cargan los datos en el dataframe __df__. 

In [3]:
df1.head(5)

Unnamed: 0,TLeftSq,TMidSq,TRightSq,MLeftSq,MMidSq,MRightSq,BLeftSq,BMidSq,BRightSq,Class
0,x,x,x,x,o,o,x,o,o,positive
1,x,x,x,x,o,o,o,x,o,positive
2,x,x,x,x,o,o,o,o,x,positive
3,x,x,x,x,o,o,o,b,b,positive
4,x,x,x,x,o,o,b,o,b,positive


In [4]:
df2.head(5)

Unnamed: 0,A1,A2,A3,A4,A5,A6,A7,A8,A9,A10,...,A12,A13,A14,A15,A16,A17,A18,A19,A20,Class
0,A11,6,A34,A43,1169,A65,A75,4,A93,A101,...,A121,67,A143,A152,2,A173,1,A192,A201,1
1,A12,48,A32,A43,5951,A61,A73,2,A92,A101,...,A121,22,A143,A152,1,A173,1,A191,A201,2
2,A14,12,A34,A46,2096,A61,A74,2,A93,A101,...,A121,49,A143,A152,1,A172,2,A191,A201,1
3,A11,42,A32,A42,7882,A61,A74,2,A93,A103,...,A122,45,A143,A153,1,A173,2,A191,A201,1
4,A11,24,A33,A40,4870,A61,A73,3,A93,A101,...,A124,53,A143,A153,2,A173,2,A191,A201,2


Podemos ver que el dataframe ha cargado los archivos de forma exitosa. Podemos empezar a crear los atributos.

In [5]:
dataset1 = Datos("ConjuntosDatos/tic-tac-toe.data")
dataset2 = Datos("ConjuntosDatos/german.data")

## 2.1 nominalAtributos
Para cargar esta lista, se creo un método llamado __asignaNominalAtributos__. Dicho método recibe como argumento los tipos de las columnas (obtenidos usando __df.dtypes__). 
```py
def asignaNominalAtributos(self, tipos):
        """Itera sobre los tipos de atributos y asigna:
            True: Si la columna es nominal (object).
            False: Si la columna no es nominal.

        Args:
            line: Tipos obtenidos del dataframe de pandas.
        """
        for tipo in tipos:
            self.nominalAtributos.append(True if tipo == object else False)
```
Lo que se hace es que se itera sobre dichos elementos con el fin de ver si la columna contiene atributos nominales.


In [11]:
print("Dataset tic-tac-toe")
dataset1.nominalAtributos

Dataset tic-tac-toe


[True, True, True, True, True, True, True, True, True, True]

In [10]:
print("Dataset german")
dataset2.nominalAtributos

Dataset german


[True,
 False,
 True,
 True,
 False,
 True,
 True,
 False,
 True,
 True,
 False,
 True,
 False,
 True,
 True,
 False,
 True,
 False,
 True,
 True,
 False]

Podemos ver que el formato de las listas es el correcto. Podemos ver también que en el primer caso (tic-tac-toe) todos los atributos son nominales, pero en el segundo __no__. La segunda columan, la quinta... esas columnas tienen valores numéricos y se muestra correctamente en la lista.

## 2.2 diccionario
Para cargar este diccionario se creo un método llamado __construyeDiccionario__. Dicho método recibe como argumento el dataframe original. 
```py
    def construyeDiccionario(self, df):
        """Método que itera sobre los datos y construye
        un diccionario de diccionarios en el que se muestra
        el valor que puede tener cada atributo. Ejemplo:
        {
            "Attr1": {"x": 1, "y": 2} -- Orden alfabético
            "Attr2": {"x": 1, "y": 2}
            ...
        }
        
        Args:
            df (Pandas Dataframe): Dataframe pandas con todos los datos.
        """
        for item in df.iteritems():
            columnName = item[0]
            possibleValues = list(df[columnName].unique()).copy()
            possibleValues.sort()
            for i, value in enumerate(possibleValues):
                if columnName not in self.diccionario:
                    self.diccionario[columnName] = {}
                self.diccionario[columnName][value] = i
```
El algoritmo implementado en el método itera sobre cada columna (con los datos de esta incluidos) mediante el métdo __df.iteritems()__. Una vez tenemos la columna lo que se hace es que se crea una lista con los todos los valores únicos de dicha columna mediante el método __df[column_name].unique()__. Esta lista se ordena y por último se añade un diccionario al diccionario "padre", donde la _key_ es el nombre de la columna y los _values_ son los distintos posibles valores ordenados alfabéticamente y enumerados. 

In [13]:
print("Dataset tic-tac-toe")
dataset1.diccionario['TLeftSq']

Dataset tic-tac-toe


{'b': 0, 'o': 1, 'x': 2}

In [12]:
print("Dataset german")
dataset2.diccionario['A1']

Dataset german


{'A11': 0, 'A12': 1, 'A13': 2, 'A14': 3}

Como se muestra estos son los posibles valores de la primera columna de cada uno de los dataset.

## 2.3 datos
Para cargar esta matriz se creo un método llamado __construyeDatos__. Dicho método recibe como argumento el dataframe original.
```py
    def construyeDatos(self, df):
        """Método que itera sobre todas las filas del dataset
        con el fin de traducir los datos a números.

        Args:
            df (Pandas Dataframe): Dataset con los datos originales.
        """
        self.datos = np.zeros(shape=df.shape)
        for i, item in enumerate(df.iterrows()):
            for j, col in enumerate(item[1].items()):
                self.datos[i][j] = self.diccionario[col[0]][col[1]]
```
El algoritmo implementado primero crea una matriz con la misma forma que tiene el dataframe recibido mediante la librería __numpy__, para inicializar dicha matriz se usa __np.zeros(shape=...)__ (crea una matriz con ceros) y se le envía como argumento la forma de la matriz con __df.shape__ (nos devuelve la forma del dataframe).

Una vez tenemos la matriz, iteramos sobre todas las filas mediante __df.iterrows()__, leemos cada columna en la fila y cambiamos el valor en la matriz numpy.

In [14]:
print("Dataset tic-tac-toe")
dataset1.datos

Dataset tic-tac-toe


array([[2., 2., 2., ..., 1., 1., 1.],
       [2., 2., 2., ..., 2., 1., 1.],
       [2., 2., 2., ..., 1., 2., 1.],
       ...,
       [1., 2., 1., ..., 1., 2., 0.],
       [1., 2., 1., ..., 1., 2., 0.],
       [1., 1., 2., ..., 2., 2., 0.]])

In [1]:
print("Dataset german")
dataset2.datos

Dataset german


NameError: name 'dataset2' is not defined

Podemos ver que los datos se han traducido y unicamente tenemos valores numéricos.

## __3. Particionamiento - Tratamiento de datos__
Se nos pide completar la plantilla donde tenemos una clase abstracta que define una _estrategia de particionado (EstrategiaParticionado)_. A parte se nos pide crear 2 clases más las cuales implementan estrategias de partcionado específicas, _Cross Validation (Validación cruzada)_ y _Simple Validation (Validación Simple)_.

La clase abstracta _EstrategiaParticionado_ fue completada unicamente declarando los atributos en el constructor

```py
class EstrategiaParticionado:
    """Clase abstracta donde se define la estrategia de particionado.
    """
  
    # Clase abstracta
    __metaclass__ = ABCMeta
  
    def __init__(self):
        """Constructor, solo se declaran los atributos.
        """
        self.particiones = []
    
    @abstractmethod
    def creaParticiones(self,datos,seed=None):
        """Método abstracto para crear particiones.

        Args:
            datos: Dataset.
            seed: Seed para generar aleatoriedad. Por defecto None.
        """
        pass
```
Como se puede ver la clase consta del atributo __particiones__, siguiendo el esquema proporcionado en el enunciado. Ese atributo contendrá objetos de la clase Particiones indicando los índices usados para el _Train_ y el _Test_. 

## 3.1 Validación simple
La validación simple parte los datos en 2, una parte para el test y otra para el training. La clase _ValidacionSimple_ recibe como argumentos en el constructor el porcentaje usado para el test (el porcentaje es un número que esta entre (0-100)) y el número de ejecuciones que se harán (esto marca el número de permutaciones a crear para las particiones).

```py
class ValidacionSimple(EstrategiaParticionado):
    """Clase que define una estrategia de particionado,
    en concreto, validación simple.
    """
  
    def __init__(self, proporcionTest, numeroEjecuciones):
        """Constructor.

        Args:
            proporcionTest: Porcentaje para la proporción de test de los datos.
            numeroEjecuciones: Número de ejecuciones.
        """
        super().__init__()
        self.proporcionTest = proporcionTest
        self.numeroEjecuciones = numeroEjecuciones
```
Posteriormente el método _creaParticiones_ es implementado.
```py
def creaParticiones(self,datos,seed=None):
        def creaParticiones(self,datos,seed=None):
        random.seed(seed)
        self.particiones = []
        longitudDatos = np.shape(datos)[0]
        longitudTest = int((self.proporcionTest/100)*longitudDatos)
                
        lista_valores = [i for i in range(longitudDatos)]

        for i in range(self.numeroEjecuciones):
            self.particiones.append(Particion())
            
            # Calculamos los indices
            random.shuffle(lista_valores)
            
            # Asignamos los indices
            self.particiones[-1].indicesTest = lista_valores[:longitudTest]
            self.particiones[-1].indicesTrain = lista_valores[longitudTest:]
```
El algoritmo primero calcula la longitud de los datos (número de filas) y la longitud del test (número de filas asignadas al test). Debe tenerse en cuenta que para la longitud del test se hace una división entera. Posteriormente, creamos una lista de valores que contiene todos los índices de los datos, después, en un bucle, permutamos dicha lista y asignamos la parte correspondiente al test y la otra parte al training.

Para probar el correcto funcionamiento crearemos un array numpy pequeño y crearemos dichos índices.

In [7]:
datos = np.random.random((10, 2))

# Asignamos el 30% al test
vc = EstrategiaParticionado.ValidacionSimple(30, 3)
vc.creaParticiones(datos)

for i in range(3):
    print()
    print("Test:", vc.particiones[i].indicesTest)
    print("Train:", vc.particiones[i].indicesTrain)


Test: [0, 3, 8]
Train: [9, 4, 1, 2, 6, 5, 7]

Test: [7, 6, 5]
Train: [3, 9, 2, 4, 1, 8, 0]

Test: [6, 8, 5]
Train: [7, 9, 2, 0, 3, 4, 1]


Se puede ver que los índices se crean correctamente.

## 3.1 Validación cruzada
En esta estrategia dividimos los datos en un número N de partes, la intención usar cada una de las N partes como test y a la vez usar el resto como training.
La clase _ValidacionCruzada_ recibe como argumento en el constructor, el número N de partes a crear sobre los datos.

```py
class ValidacionCruzada(EstrategiaParticionado):
    """Clase que define una estrategia de particionado,
    en concreto, validación simple.
    """

    def __init__(self, numeroParticiones):
        """Construcor.

        Args:
            numeroParticiones (int): Número de particiones de la validación cruzada.
        """
        super().__init__()
        self.numeroParticiones = numeroParticiones
```
Como se puede ver, simplemente en el constructor asignamos el valor de dicho atributo.
Posteriormente se implementó el método _creaParticiones_.

```py
def creaParticiones(self,datos,seed=None):
    random.seed(seed)
    self.particiones = []
    longitudDatos = np.shape(datos)[0]
    longitudPorcion = int(longitudDatos/self.numeroParticiones)

    lista_valores = [i for i in range(longitudDatos)]
    random.shuffle(lista_valores)

    for i in range(self.numeroParticiones):
        self.particiones.append(Particion())

        # Calculamos los indices del test
        fromTest = i*longitudPorcion
        toTest = fromTest + longitudPorcion

        # Asignamos los indices
        self.particiones[-1].indicesTest = lista_valores[fromTest:toTest]
        self.particiones[-1].indicesTrain = [i for i in lista_valores if i not in self.particiones[-1].indicesTest]
```
Al igual que en el método de validación simple, creamos una lista con los valores de los indices en los datos, posteriormente permutamos dicha lista pero en este caso solo es necesario hacerlo una vez. En un bucle asignamos las particiones usando la lista permutada.
Por ejemplo:

In [10]:
datos = np.random.random((10, 2)) 

vc = EstrategiaParticionado.ValidacionCruzada(4)
particiones = vc.creaParticiones(datos)
      
for i in range(3):
    print()
    print("Test:", vc.particiones[i].indicesTest)
    print("Train:", vc.particiones[i].indicesTrain)


Test: [0, 5]
Train: [8, 7, 6, 1, 9, 2, 3, 4]

Test: [8, 7]
Train: [0, 5, 6, 1, 9, 2, 3, 4]

Test: [6, 1]
Train: [0, 5, 8, 7, 9, 2, 3, 4]


Se puede apreciar que el array es el mismo, solo vamos asignando la porcion del test que le toca.