In [1]:
# PRÁCTICA 3 - Métodos de clasificación
# Carlos Carnero Mérida
# Clara Rodríguez Prieto

In [2]:
%matplotlib inline

import numpy as np

In [3]:
# Lectura fichero
trainData = np.loadtxt('Iris2Clases.txt', delimiter=',', usecols=(0,1,2,3))

In [4]:
# Lectura ficheros prueba
pruebaData1 = np.loadtxt('TestIris01.txt', delimiter=',', usecols=(0,1,2,3), dtype=None).reshape(1, -1)
pruebaData2 = np.loadtxt('TestIris02.txt', delimiter=',', usecols=(0,1,2,3), dtype=None).reshape(1, -1)
pruebaData3 = np.loadtxt('TestIris03.txt', delimiter=',', usecols=(0,1,2,3), dtype=None).reshape(1, -1)

In [5]:
# AGRUPAMIENTO BORROSO (K-MEDIAS)

In [6]:
# Parámetros
tolerancia1 = 0.01
pesoExponencial = 2
clases = 2

In [7]:
def inicializarCentroidesKMedias() :
    a = [4.6, 3.0, 4.0, 0.0]
    b = [6.8, 3.4, 4.6, 0.7]
    return np.array([a, b])

In [8]:
def predecir(pruebaData, centroides) :
    a = np.linalg.norm(pruebaData - centroides[0]) ** 2
    b = np.linalg.norm(pruebaData - centroides[1]) ** 2

    if a <= b: return 'Iris-setosa'
    else: return 'Iris-versicolor'

In [9]:
# Entrenamiento
numMuestras = trainData.shape[0]
numCaracteristicas = trainData.shape[1]
centroides = inicializarCentroidesKMedias()
probAleatoria = np.random.rand(numMuestras, clases)
centroidesAux = np.zeros_like(centroides)
while np.linalg.norm(centroides - centroidesAux) > tolerancia1:
    probNormal = probAleatoria / np.sum(probAleatoria, axis=1)[:, np.newaxis]
    centroidesNuevos = np.dot((probNormal ** pesoExponencial).T, trainData) / np.sum((probNormal ** pesoExponencial).T, axis=1)[:, np.newaxis]
    distancias = np.linalg.norm(trainData[:, np.newaxis, :] - centroidesNuevos, axis=2)
    probNueva = 1 / np.sum((distancias[:, :, np.newaxis] / distancias[:, np.newaxis, :]) ** (2 / (pesoExponencial - 1)), axis=2)
    centroidesAux = centroides
    centroides = centroidesNuevos
    probAleatoria = probNueva

In [10]:
# Realizar casos de prueba
pruebaPredicciones1 = predecir(pruebaData1, centroides)
pruebaPredicciones2 = predecir(pruebaData2, centroides)
pruebaPredicciones3 = predecir(pruebaData3, centroides)

print(f"TestIris01.txt: {pruebaPredicciones1}")
print(f"TestIris02.txt: {pruebaPredicciones2}")
print(f"TestIris03.txt: {pruebaPredicciones3}")

TestIris01.txt: Iris-setosa
TestIris02.txt: Iris-versicolor
TestIris03.txt: Iris-setosa


In [11]:
# ALGORITMO DE LLOYD

In [12]:
# Parámetros
tolerancia2 = 10 ** (-10)
iteracion = 2
numMaxIteraciones = 10
razonAprendizaje = 0.1

In [13]:
def distanciaEucladiana(a, b) :
    return np.sqrt(np.sum((a - b) ** 2))

In [14]:
def inicializarCentroidesLloyd() :
    a = [4.6, 3.0, 4.0, 0.0]
    b = [6.8, 3.4, 4.6, 0.7]
    return np.array([a, b])

In [15]:
def asignarClusters(data, centroides) :
    clusters = np.zeros(len(data))
    for i, punto in enumerate(data) :
        distancias = [distanciaEucladiana(punto, centroide) for centroide in centroides]
        clusters[i] = np.argmin(distancias)
    return clusters

In [16]:
def calcularCentroides(data, clusters, iteracion) :
    centroides = np.zeros((iteracion, data.shape[1]))
    for i in range(iteracion) :
        puntos = data[clusters == 1]
        centroides[i] = np.mean(puntos, axis = 0)
    return centroides

In [17]:
centroides = inicializarCentroidesLloyd()
for i in range(numMaxIteraciones) :
    centroidesAux = centroides.copy()
    clusters = asignarClusters(trainData, centroides)
    centroides = calcularCentroides(trainData, clusters, iteracion)
    if np.abs(centroides - centroidesAux).max() < tolerancia2:
        break
    centroides = centroidesAux + razonAprendizaje * (centroides - centroidesAux)

In [18]:
# Realizar casos de prueba
pruebaClusters1 = asignarClusters(pruebaData1, centroides)
pruebaClusters2 = asignarClusters(pruebaData2, centroides)
pruebaClusters3 = asignarClusters(pruebaData3, centroides)

print(f"TestIris01.txt: {pruebaClusters1}")
print(f"TestIris02.txt: {pruebaClusters2}")
print(f"TestIris03.txt: {pruebaClusters3}")

TestIris01.txt: [0.]
TestIris02.txt: [1.]
TestIris03.txt: [0.]


In [19]:
# BAYES

In [20]:
# Lectura fichero
trainDataEtiquetas = {}
with open('Iris2Clases.txt', 'r') as fichero:
    for linea in fichero:
        valores = linea.strip().split(',')
        etiqueta = valores[-1]
        fila = [float(valor) if valor.replace('.', '', 1).isdigit() else valor for valor in valores[:-1]]
        if etiqueta in trainDataEtiquetas:
            trainDataEtiquetas[etiqueta].append(fila)
        else:
            trainDataEtiquetas[etiqueta] = [fila]
trainDataEtiquetas = {etiqueta: np.array(filas) for etiqueta, filas in trainDataEtiquetas.items()}

In [21]:
def calcularMultivariables(trainData) :
    media = np.mean(trainData, axis=0)
    covarianza = np.cov(trainData, rowvar=False)
    return media, covarianza

In [22]:
def calcularVerosimilitud(pruebaData, media, covarianza) :
    longitud = len(pruebaData)
    exponente = np.dot(np.dot((longitud - media).T, np.linalg.inv(covarianza)), (longitud - media)) * -0.5
    return exponente

In [23]:
# Entrenamiento
medias = {}
covarianzas = {}
etiquetas = {}
i = 0
for etiqueta, trainData in trainDataEtiquetas.items() :
    media, covarianza = calcularMultivariables(trainData)
    medias[i] = media
    covarianzas[i] = covarianza
    etiquetas[i] = etiqueta
    i += 1
print(f"Medias: {medias}")
print(f"Covarianzas: {covarianzas}")
print(f"Etiquetas: {etiquetas}")

In [24]:
# Realizar casos de prueba
# Fichero prueba 1
pruebaVerosimilitudes1 = {}
for i in range(len(trainDataEtiquetas)) :
    media = medias[i]
    covarianza = covarianzas[i]
    pruebaVerosimilitudes1[i] = calcularVerosimilitud(pruebaData1, media, covarianza)
pruebaPrediccion1 = max(pruebaVerosimilitudes1)
print(f"TestIris01.txt: {etiquetas[pruebaPrediccion1]}")
print(f"TestIris01.txt: {pruebaVerosimilitudes1}")

# Fichero prueba 2
pruebaVerosimilitudes2 = {}
for i in range(len(trainDataEtiquetas)) :
    media = medias[i]
    covarianza = covarianzas[i]
    pruebaVerosimilitudes2[i] = calcularVerosimilitud(pruebaData2, media, covarianza)
pruebaPrediccion2 = max(pruebaVerosimilitudes2)
print(f"TestIris02.txt: {etiquetas[pruebaPrediccion2]}")
print(f"TestIris02.txt: {pruebaVerosimilitudes2}")

# Fichero prueba 3
pruebaVerosimilitudes3 = {}
for i in range(len(trainDataEtiquetas)) :
    media = medias[i]
    covarianza = covarianzas[i]
    pruebaVerosimilitudes3[i] = calcularVerosimilitud(pruebaData3, media, covarianza)
pruebaPrediccion3 = max(pruebaVerosimilitudes1)
print(f"TestIris03.txt: {etiquetas[pruebaPrediccion3]}")
print(f"TestIris03.txt: {pruebaVerosimilitudes3}")

TestIris01.txt: Iris-versicolor
TestIris01.txt: {0: -125.96139575281384, 1: -68.22223227647362}
TestIris02.txt: Iris-versicolor
TestIris02.txt: {0: -125.96139575281384, 1: -68.22223227647362}
TestIris03.txt: Iris-versicolor
TestIris03.txt: {0: -125.96139575281384, 1: -68.22223227647362}
