In [1]:
import pandas as pd 
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

## Se procesa la data

In [23]:
archivo = "cancer.csv"
data = pd.read_csv(archivo,
                  header=None, 
                  sep=',')

## Observación: Sobre el procesamiento de la data 

#### Los datos están organizados de la siguiente manera:

In [24]:
data.head(5)

Unnamed: 0,0
0,10000255111213112
1,100294554457103212
2,10154253111223112
3,10162776881343712
4,10170234113213112


#### Tomando el primer elemento se obtiene: 

In [27]:
data.iloc[0,:]

0    1000025,5,1,1,1,2,1,3,1,1,2
Name: 0, dtype: object

#### Por lo que no es posible procesar de una manera adecuada los datos. 
#### Es por eso que se usa la función **procesar_data** la cual retorna 
#### los datos como una lista de listas, en donde cada lista contiene elementos de tipo entero.

In [14]:
def procesar_data(data):
    """
    Función que retorna una lista de listas con valores enteros
    
    Parámetros: 
        data: DataFrame de pandas 

    return: 
        lista de listas con valores enteros
    """
    
    lista_final = data.values.tolist()  # Convierte a lista de listas
    lista_numerica = []
    for lista in lista_final:
        for i in range(len(lista)):
            lista_split = lista[i].split(",")
            lista_auxiliar = []
            for k in lista_split:
                if k != "?":
                    lista_auxiliar.append(int(k))
                else:
                    lista_auxiliar.append(k)
                
            lista_numerica.append(lista_auxiliar)

    return lista_numerica

# Lista inicial

In [113]:
lista_inicial = procesar_data(data)
lista_inicial

[[1000025, 5, 1, 1, 1, 2, 1, 3, 1, 1, 2],
 [1002945, 5, 4, 4, 5, 7, 10, 3, 2, 1, 2],
 [1015425, 3, 1, 1, 1, 2, 2, 3, 1, 1, 2],
 [1016277, 6, 8, 8, 1, 3, 4, 3, 7, 1, 2],
 [1017023, 4, 1, 1, 3, 2, 1, 3, 1, 1, 2],
 [1017122, 8, 10, 10, 8, 7, 10, 9, 7, 1, 4],
 [1018099, 1, 1, 1, 1, 2, 10, 3, 1, 1, 2],
 [1018561, 2, 1, 2, 1, 2, 1, 3, 1, 1, 2],
 [1033078, 2, 1, 1, 1, 2, 1, 1, 1, 5, 2],
 [1033078, 4, 2, 1, 1, 2, 1, 2, 1, 1, 2],
 [1035283, 1, 1, 1, 1, 1, 1, 3, 1, 1, 2],
 [1036172, 2, 1, 1, 1, 2, 1, 2, 1, 1, 2],
 [1041801, 5, 3, 3, 3, 2, 3, 4, 4, 1, 4],
 [1043999, 1, 1, 1, 1, 2, 3, 3, 1, 1, 2],
 [1044572, 8, 7, 5, 10, 7, 9, 5, 5, 4, 4],
 [1047630, 7, 4, 6, 4, 6, 1, 4, 3, 1, 4],
 [1048672, 4, 1, 1, 1, 2, 1, 2, 1, 1, 2],
 [1049815, 4, 1, 1, 1, 2, 1, 3, 1, 1, 2],
 [1050670, 10, 7, 7, 6, 4, 10, 4, 1, 2, 4],
 [1050718, 6, 1, 1, 1, 2, 1, 3, 1, 1, 2],
 [1054590, 7, 3, 2, 10, 5, 10, 5, 4, 4, 4],
 [1054593, 10, 5, 5, 3, 6, 7, 7, 10, 1, 4],
 [1056784, 3, 1, 1, 1, 2, 1, 2, 1, 1, 2],
 [1057013, 8, 4, 5, 1,

# Datos faltantes

Se tienen 16 registros en los cuales no se tiene completa la información.
La función **listas_con_interrogacion** devuelve estas listas.

In [110]:
def listas_con_interrogacion(lista_de_listas):
    """
    Función que devuelve las listas que incluyen el carcater "?"

    Parámetros: 
        lista_de_listas: lista cuyos elementos son listas con valores nuḿericos
        o con el caracter "?"
    
    return:
        Las listas que contienen el caracter "?"
    """
    return [lista for lista in lista_de_listas if "?" in lista]

In [111]:
# Listas en donde se tiene un elemento con "?"
listas_interrogacion = listas_con_interrogacion(lista_inicial) 
listas_interrogacion

[[1057013, 8, 4, 5, 1, 2, '?', 7, 3, 1, 4],
 [1096800, 6, 6, 6, 9, 6, '?', 7, 8, 1, 2],
 [1183246, 1, 1, 1, 1, 1, '?', 2, 1, 1, 2],
 [1184840, 1, 1, 3, 1, 2, '?', 2, 1, 1, 2],
 [1193683, 1, 1, 2, 1, 3, '?', 1, 1, 1, 2],
 [1197510, 5, 1, 1, 1, 2, '?', 3, 1, 1, 2],
 [1241232, 3, 1, 4, 1, 2, '?', 3, 1, 1, 2],
 [169356, 3, 1, 1, 1, 2, '?', 3, 1, 1, 2],
 [432809, 3, 1, 3, 1, 2, '?', 2, 1, 1, 2],
 [563649, 8, 8, 8, 1, 2, '?', 6, 10, 1, 4],
 [606140, 1, 1, 1, 1, 2, '?', 2, 1, 1, 2],
 [61634, 5, 4, 3, 1, 2, '?', 2, 3, 1, 2],
 [704168, 4, 6, 5, 6, 7, '?', 4, 9, 1, 2],
 [733639, 3, 1, 1, 1, 2, '?', 3, 1, 1, 2],
 [1238464, 1, 1, 1, 1, 1, '?', 2, 1, 1, 2],
 [1057067, 1, 1, 1, 1, 1, '?', 1, 1, 1, 2]]

Por lo que antes de dividir el conjunto de datos en las proporciones que se piden,
se piensan las siguientes estrategias para "completar" esos datos.

# Estrategias para llenar los datos faltantes

Se utilizan 2 estrategias para llenar los datos: 

- **Eliminar filas con: ?** 
- **Imputación con la mediana**

## Estrategia 1: Eliminar filas con "?"

Se borran estos datos en el conjunto de datos de prueba 

In [116]:
lista_inicial 

AttributeError: 'list' object has no attribute 'isdigit'

In [74]:
data_numpy_filtrado = np.array([fila for fila in data_numpy if "?" not in fila]) # Crear un nuevo array sin las listas con "?"

In [76]:
# Se observa que las lingitudes coinciden
len(data_numpy_filtrado) == len(data_numpy)-len(listas_interrogacion)

True

In [80]:
# 699 - 16 = 683
len(data_numpy_filtrado)

683

### División del conjunto de datos utilizando las filas eliminadas con "?"

Para dividir la data, se usan los datos en **data_numpy_filtrado**

In [104]:
X_interrogacion = data_numpy_filtrado[:, :-1]  # Todas las columnas excepto la última
y_interrogacion = data_numpy_filtrado[:, -1]   # Solo la última columna

In [107]:
X_interrogacion[0]

array(['1000025', '5', '1', '1', '1', '2', '1', '3', '1', '1'],
      dtype='<U21')

In [101]:
# Dividir en conjunto de entrenamiento (60%) y el resto (40%)
X_ent, X_temp, y_ent, y_temp = train_test_split(X_interrogacion, y_interrogacion, test_size=0.4, random_state=0)

# Dividir el conjunto temporal en validación (20%) y prueba (20%)
X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.5, random_state=0)

# Ver las dimensiones de los conjuntos anteriores
print(f'Tamaño del conjunto de entrenamiento: {X_ent.shape}')
print(f'Tamaño del conjunto de validación: {X_val.shape}')
print(f'Tamaño del conjunto de prueba: {X_test.shape}')

Tamaño del conjunto de entrenamiento: (409, 10)
Tamaño del conjunto de validación: (137, 10)
Tamaño del conjunto de prueba: (137, 10)


### Clasificador Gaussiano

In [102]:
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score


# Crear una instancia del clasificador Naive Bayes Gaussiano
nb_classifier = GaussianNB()

# Entrenar el modelo con los datos de entrenamiento
nb_classifier.fit(X_ent, y_ent)

# Predecir para los conjuntos de entrenamiento, validación y prueba
predicciones_ent = nb_classifier.predict(X_ent)
predicciones_val = nb_classifier.predict(X_val)
predicciones_test = nb_classifier.predict(X_test)

# Calcular la precisión (accuracy)
accuracy_ent = accuracy_score(y_ent, predicciones_ent) * 100
accuracy_val = accuracy_score(y_val, predicciones_val) * 100
accuracy_test = accuracy_score(y_test, predicciones_test) * 100

# Imprimir los resultados
print(f"Precisión en entrenamiento: {accuracy_ent:.2f}%")
print(f"Precisión en validación: {accuracy_val:.2f}%")
print(f"Precisión en prueba: {accuracy_test:.2f}%")

ValueError: dtype='numeric' is not compatible with arrays of bytes/strings.Convert your data to numeric values explicitly instead.