# __Fundamentos de Aprendizaje Automático 2021/2022__
## Práctica de Introducción: _TRATAMIENTO DE DATOS, PARTICIONAMIENTO Y DISEÑO PRELIMINAR DE LA APLICACIÓN_
### Grupo 1462 - Pareja 10 - Kevin de la Coba Malam

In [1]:
import pandas as pd
import numpy as np
from Datos import Datos

## __1. Introducción__
En este jupyter notebook se explicarán las soluciones a los diferentes apartados de la práctica de introducción.

## __2. Clase Datos - Tratamiento de datos__
En el enunciado de la práctica se nos pide crear una clase "Datos" la cuál contenga los siguientes atributos:
* **nominalAtributos**: Lista de valores booleanos indicando si una columna es nominal o no.
* **diccionario**: Diccionario que nos permite _traducir_ los datos originales a datos númericos.
* **datos**: Matriz en la cual se guardan los datos _traducidos_.

Para resolver este apartado se ha creado el archivo __Datos.py__ donde se encuentra la clase __Datos__. 
Dicha clase contiene un constructor que se encarga de construir los atributos antes mencionados, para eso lo primero que se hace es cargar el archivo _"tic-tac-toe.data"_ o _"german.data"_ usando la librería _pandas_, en concreto, usando la función _read_csv_:

In [2]:
df1 = pd.read_csv("ConjuntosDatos/tic-tac-toe.data")
df2 = pd.read_csv("ConjuntosDatos/german.data")

Como podemos ver, el archivo no es un _.csv_ pero el contenido que hay dentro _contiene el formato_ del _.csv_. Por esta razón la función no da ningún problema y se cargan los datos en el dataframe __df__. 

In [3]:
df1.head(5)

Unnamed: 0,TLeftSq,TMidSq,TRightSq,MLeftSq,MMidSq,MRightSq,BLeftSq,BMidSq,BRightSq,Class
0,x,x,x,x,o,o,x,o,o,positive
1,x,x,x,x,o,o,o,x,o,positive
2,x,x,x,x,o,o,o,o,x,positive
3,x,x,x,x,o,o,o,b,b,positive
4,x,x,x,x,o,o,b,o,b,positive


In [4]:
df2.head(5)

Unnamed: 0,A1,A2,A3,A4,A5,A6,A7,A8,A9,A10,...,A12,A13,A14,A15,A16,A17,A18,A19,A20,Class
0,A11,6,A34,A43,1169,A65,A75,4,A93,A101,...,A121,67,A143,A152,2,A173,1,A192,A201,1
1,A12,48,A32,A43,5951,A61,A73,2,A92,A101,...,A121,22,A143,A152,1,A173,1,A191,A201,2
2,A14,12,A34,A46,2096,A61,A74,2,A93,A101,...,A121,49,A143,A152,1,A172,2,A191,A201,1
3,A11,42,A32,A42,7882,A61,A74,2,A93,A103,...,A122,45,A143,A153,1,A173,2,A191,A201,1
4,A11,24,A33,A40,4870,A61,A73,3,A93,A101,...,A124,53,A143,A153,2,A173,2,A191,A201,2


Podemos ver que el dataframe ha cargado los archivos de forma exitosa. Podemos empezar a crear los atributos.

In [5]:
dataset1 = Datos("ConjuntosDatos/tic-tac-toe.data")
dataset2 = Datos("ConjuntosDatos/german.data")

## 2.1 nominalAtributos
Para cargar esta lista, se creo un método llamado __asignaNominalAtributos__. Dicho método recibe como argumento los tipos de las columnas (obtenidos usando __df.dtypes__). 
```py
def asignaNominalAtributos(self, tipos):
        """Itera sobre los tipos de atributos y asigna:
            True: Si la columna es nominal (object).
            False: Si la columna no es nominal.

        Args:
            line: Tipos obtenidos del dataframe de pandas.
        """
        for tipo in tipos:
            self.nominalAtributos.append(True if tipo == object else False)
```
Lo que se hace es que se itera sobre dichos elementos con el fin de ver si la columna contiene atributos nominales.


In [11]:
print("Dataset tic-tac-toe")
dataset1.nominalAtributos

Dataset tic-tac-toe


[True, True, True, True, True, True, True, True, True, True]

In [10]:
print("Dataset german")
dataset2.nominalAtributos

Dataset german


[True,
 False,
 True,
 True,
 False,
 True,
 True,
 False,
 True,
 True,
 False,
 True,
 False,
 True,
 True,
 False,
 True,
 False,
 True,
 True,
 False]

Podemos ver que el formato de las listas es el correcto. Podemos ver también que en el primer caso (tic-tac-toe) todos los atributos son nominales, pero en el segundo __no__. La segunda columan, la quinta... esas columnas tienen valores numéricos y se muestra correctamente en la lista.

## 2.2 diccionario
Para cargar este diccionario se creo un método llamado __construyeDiccionario__. Dicho método recibe como argumento el dataframe original. 
```py
    def construyeDiccionario(self, df):
        """Método que itera sobre los datos y construye
        un diccionario de diccionarios en el que se muestra
        el valor que puede tener cada atributo. Ejemplo:
        {
            "Attr1": {"x": 1, "y": 2} -- Orden alfabético
            "Attr2": {"x": 1, "y": 2}
            ...
        }
        
        Args:
            df (Pandas Dataframe): Dataframe pandas con todos los datos.
        """
        for item in df.iteritems():
            columnName = item[0]
            possibleValues = list(df[columnName].unique()).copy()
            possibleValues.sort()
            for i, value in enumerate(possibleValues):
                if columnName not in self.diccionario:
                    self.diccionario[columnName] = {}
                self.diccionario[columnName][value] = i
```
El algoritmo implementado en el método itera sobre cada columna (con los datos de esta incluidos) mediante el métdo __df.iteritems()__. Una vez tenemos la columna lo que se hace es que se crea una lista con los todos los valores únicos de dicha columna mediante el método __df[column_name].unique()__. Esta lista se ordena y por último se añade un diccionario al diccionario "padre", donde la _key_ es el nombre de la columna y los _values_ son los distintos posibles valores ordenados alfabéticamente y enumerados. 

In [13]:
print("Dataset tic-tac-toe")
dataset1.diccionario['TLeftSq']

Dataset tic-tac-toe


{'b': 0, 'o': 1, 'x': 2}

In [12]:
print("Dataset german")
dataset2.diccionario['A1']

Dataset german


{'A11': 0, 'A12': 1, 'A13': 2, 'A14': 3}

Como se muestra estos son los posibles valores de la primera columna de cada uno de los dataset.

## 2.3 datos
Para cargar esta matriz se creo un método llamado __construyeDatos__. Dicho método recibe como argumento el dataframe original.
```py
    def construyeDatos(self, df):
        """Método que itera sobre todas las filas del dataset
        con el fin de traducir los datos a números.

        Args:
            df (Pandas Dataframe): Dataset con los datos originales.
        """
        self.datos = np.zeros(shape=df.shape)
        for i, item in enumerate(df.iterrows()):
            for j, col in enumerate(item[1].items()):
                self.datos[i][j] = self.diccionario[col[0]][col[1]]
```
El algoritmo implementado primero crea una matriz con la misma forma que tiene el dataframe recibido mediante la librería __numpy__, para inicializar dicha matriz se usa __np.zeros(shape=...)__ (crea una matriz con ceros) y se le envía como argumento la forma de la matriz con __df.shape__ (nos devuelve la forma del dataframe).

Una vez tenemos la matriz, iteramos sobre todas las filas mediante __df.iterrows()__, leemos cada columna en la fila y cambiamos el valor en la matriz numpy.

In [14]:
print("Dataset tic-tac-toe")
dataset1.datos

Dataset tic-tac-toe


array([[2., 2., 2., ..., 1., 1., 1.],
       [2., 2., 2., ..., 2., 1., 1.],
       [2., 2., 2., ..., 1., 2., 1.],
       ...,
       [1., 2., 1., ..., 1., 2., 0.],
       [1., 2., 1., ..., 1., 2., 0.],
       [1., 1., 2., ..., 2., 2., 0.]])

In [15]:
print("Dataset german")
dataset2.datos

Dataset german


array([[ 0.,  2.,  4., ...,  1.,  0.,  0.],
       [ 1., 29.,  2., ...,  0.,  0.,  1.],
       [ 3.,  8.,  4., ...,  0.,  0.,  0.],
       ...,
       [ 3.,  8.,  2., ...,  0.,  0.,  0.],
       [ 0., 27.,  2., ...,  1.,  0.,  1.],
       [ 1., 27.,  4., ...,  0.,  0.,  0.]])

Podemos ver que los datos se han traducido y unicamente tenemos valores numéricos.