# Actividad 5.2. Implementación de algoritmos Zero-R y One-R
## Minería de datos
### Pablo Avelar Armenta

In [56]:
import pandas as pd

from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# Cargando los datos

In [57]:
data = pd.read_csv("datasets/db.csv")

attributes = data.drop('Clase', axis=1) # Características
class_ = data['Clase'] # Clase objetivo

# Diviendo en conjunto de entrenamiento y de prueba
Se indica que el 30% de los datos se destinará al conjunto de prueba, mientras que el 70% restante se destinará al conjunto de entrenamiento

In [58]:
attributes_train, attributes_test, class_train, class_test = train_test_split(attributes, class_, test_size=0.3)

## Clase del conjunto de entrenamiento

In [59]:
class_train

14     good
9      good
1       acc
10      acc
12    unacc
2     unacc
6     unacc
7     unacc
5      good
4      good
Name: Clase, dtype: object

## Clase del conjunto de pruebas

In [60]:
class_test

13     good
3     unacc
11     good
8       acc
0       acc
Name: Clase, dtype: object

## Conjunto de entrenamiento

In [61]:
attributes_train

Unnamed: 0,Compra\n(Ordinal),Mantenimiento\n(Ordinal),Puertas\n(Nominal),Personas\n(Nominal)
14,med,low,3,more
9,low,low,4,4
1,vhigh,med,4,4
10,vhigh,med,2,more
12,vhigh,vhigh,3,2
2,vhigh,vhigh,3,2
6,vhigh,vhigh,4,more
7,vhigh,vhigh,2,4
5,med,low,2,4
4,med,low,2,more


## Conjunto de entrenamiento

In [62]:
attributes_test

Unnamed: 0,Compra\n(Ordinal),Mantenimiento\n(Ordinal),Puertas\n(Nominal),Personas\n(Nominal)
13,low,low,4,more
3,vhigh,vhigh,2,4
11,low,low,4,more
8,vhigh,med,3,4
0,vhigh,med,3,4


# Algoritmo One Rule

In [63]:
def one_rule(attr_train, class_train):
    best_feature = None
    best_accuracy = 0
    best_rules = {}

    # Se itera por cada atributo
    for column in attr_train.columns:
        # Se almacena el valor más común por cada valor del atributo
        rules = {}
        for value in attr_train[column].unique():
            most_common_class = class_train[attr_train[column] == value].mode()[0]
            rules[value] = most_common_class

        # Calcula la precisión del conjunto de entrenamiento
        predictions = attr_train[column].map(rules)
        accuracy = accuracy_score(class_train, predictions)

        # Guarda si es la mejor precisión
        if accuracy > best_accuracy:
            best_accuracy = accuracy
            best_feature = column
            best_rules = rules

    return best_feature, best_rules

# Se obtiene la mejor regla!!
best_feature, best_rules = one_rule(attributes_train, class_train)

# Se hacen predicciones en el conjunto de prueba usando la mejor regla!!!!
predictions = attributes_test[best_feature].map(best_rules)

# Se calcula la precisión
accuracy = accuracy_score(class_test, predictions)
print(f"El mejor atributo: {best_feature}")
print(f"Precisión en conjunto de pruebas: {accuracy:.2f}")

El mejor atributo: Mantenimiento
(Ordinal)
Precisión en conjunto de pruebas: 1.00


# Zero-R

In [64]:
def zero_rule(class_train):
    return class_train.mode()[0]

most_common_class = zero_rule(class_train)

# Se crea una lista de predicciones con la clase más frecuente!!
predictions = [most_common_class] * len(class_test)

accuracy = accuracy_score(class_test, predictions)

print(f"Clase más frecuente: {most_common_class}")
print(f"Precisión del algoritmo: {accuracy:.2f}")

Clase más frecuente: good
Precisión del algoritmo: 0.40
