## Read DATA

In [5]:
import pandas as pd

ruta_archivo = "data/abstracts.csv"
df_r = pd.read_csv(ruta_archivo, index_col = 0)

In [6]:
numero_filas = df_r.shape[0]
print("Papers", numero_filas)
df_r.columns

Papers 113008


Index(['cell_line', 'pubmedid', 'title', 'abstract'], dtype='object')

In [7]:
#Limitar dataset 
df = df_r.head(130)

## Preprocesamiento

In [8]:
from nltk.tokenize import RegexpTokenizer
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer
import re

def preprocess_text(text):
    text = text.lower()
    tokenizer = RegexpTokenizer(r'\w+')
    stop_words = set(stopwords.words('english'))
    lemmatizer = WordNetLemmatizer()
    tokens = tokenizer.tokenize(text)
    tokens = [lemmatizer.lemmatize(word) for word in tokens if word not in stop_words]
    tokens = [word for word in tokens if not re.match(r'\d+', word)]
    processed_text = ' '.join(tokens)
    return processed_text

df['abstract_p'] = df['abstract'].apply(preprocess_text)
#df.to_csv('data/abstracts.csv', index=False)
print(df)

     cell_line  pubmedid                                              title  \
0    CVCL_0028  33040078  Splicing factor SF3B1 promotes endometrial can...   
1    CVCL_0028  34476599  Sirtuin 2 promotes cell stemness and MEK/ERK s...   
2    CVCL_0028  35401936  Role of the prorenin receptor in endometrial c...   
3    CVCL_0028  32431202  NLRC5 promotes cell migration and invasion by ...   
4    CVCL_0028  24526410  GRP78 mediates cell growth and invasiveness in...   
..         ...       ...                                                ...   
125  CVCL_0136  30104528  Berberine Inhibits Human Melanoma A375.S2 Cell...   
126  CVCL_0136  29164214  Withapubesides A-D: natural inducible nitric o...   
127  CVCL_0136  19252325  Cytotoxic prenylated flavonoids from the stem ...   
128  CVCL_0138  34452453  Efficient Transendothelial Migration of Latent...   
129  CVCL_0138  34985653  Jurkat-Derived (J-Lat, J1.1, and Jurkat E4) an...   

                                              abstr

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['abstract_p'] = df['abstract'].apply(preprocess_text)


In [20]:
a = "associated"
print(preprocess_text(a))

associated


In [8]:
unique_values = df['cell_line'].unique()
print(len(unique_values))

12


In [8]:
from sklearn.svm import OneClassSVM
from scipy.spatial import distance
from sklearn.feature_extraction.text import TfidfVectorizer

corpus = df['abstract_p']

vectorizer = TfidfVectorizer()
X_tfidf = vectorizer.fit_transform(corpus)

feature_names = vectorizer.get_feature_names()
dictionary = {i: feature_name for i, feature_name in enumerate(feature_names)}



In [38]:
from sklearn.svm import OneClassSVM
from sklearn.feature_extraction.text import TfidfVectorizer
import numpy as np

corpus = df['abstract_p'].tolist()  # Obtener la lista de documentos

# Crear el objeto vectorizador TF-IDF
vectorizer = TfidfVectorizer()
X_tfidf = vectorizer.fit_transform(corpus)

category_labels = df['cell_line'].tolist()  # Convertir la columna a una lista
document_indices = df.index.tolist()

# Número de categorías
num_categories = 12

# Diccionarios para almacenar los centroides y radios por categoría
category_centroids = {}
category_radii = {}
category_document_counts = {}

for category in set(category_labels):
    # Obtener los índices de los documentos correspondientes a la categoría actual
    category_indices = [i for i, label in enumerate(category_labels) if label == category]

    if len(category_indices) > 0:
        # Obtener los documentos correspondientes a la categoría actual
        category_documents = X_tfidf[category_indices]

        # Entrenar el modelo SVDD para la categoría actual
        model = OneClassSVM(gamma='scale')
        model.fit(category_documents)

        # Obtener los vectores de soporte del modelo
        support_vectors = model.support_vectors_

        # Calcular el centroide
        centroid = np.mean(support_vectors, axis=0)
        category_centroids[category] = centroid

        # Calcular el radio (distancia promedio entre los vectores de soporte y el centroide)
        distances = np.linalg.norm(support_vectors - centroid, axis=1)
        radius = np.mean(distances)
        category_radii[category] = radius

        # Contar la cantidad de documentos en el centroide
        document_count = len(category_indices)
        category_document_counts[category] = document_count

# Imprimir los resultados por categoría
for category in category_centroids:
    centroid = category_centroids[category]
    radius = category_radii[category]
    document_count = category_document_counts[category]

    print("Categoría:", category)
    print("Radio:", radius)
    print("Cantidad de documentos en el centroide:", document_count)
    print("Centro de la esfera:", centroid)
    print()

Categoría: CVCL_0081
Radio: 0.8997990642468928
Cantidad de documentos en el centroide: 13
Centro de la esfera: [[0. 0. 0. ... 0. 0. 0.]]

Categoría: CVCL_0082
Radio: 0.8783281141968601
Cantidad de documentos en el centroide: 7
Centro de la esfera: [[0. 0. 0. ... 0. 0. 0.]]

Categoría: CVCL_0028
Radio: 0.9231832826502782
Cantidad de documentos en el centroide: 13
Centro de la esfera: [[0.         0.         0.         ... 0.         0.00436579 0.00683307]]

Categoría: CVCL_0110
Radio: 0.9301525976172133
Cantidad de documentos en el centroide: 13
Centro de la esfera: [[0.         0.00345127 0.         ... 0.         0.         0.        ]]

Categoría: CVCL_0113
Radio: 0.8948901635178277
Cantidad de documentos en el centroide: 13
Centro de la esfera: [[0. 0. 0. ... 0. 0. 0.]]

Categoría: CVCL_0115
Radio: 0.9097923308791559
Cantidad de documentos en el centroide: 13
Centro de la esfera: [[0. 0. 0. ... 0. 0. 0.]]

Categoría: CVCL_0080
Radio: 0.9310391619310289
Cantidad de documentos en el c

In [None]:
Tengo un data set con 130 filas, son dos columanas con texto y la otra con una categoria, con 12 categorias
c1, c2, ..., c12 y los textos pueden estar c1 n doc, c2 m docs, etc. los documentos ya estas limpiados, lo que necesito es 
que se le aplique TF IDF para ponerlos en un espcio vectorial para luego entrenar un modelo SVDD, entonce divide la data en test 
y train de ahi aplicar 12 hyperesferas de ahi obetber las centros a de las 12 hyperesferas y los radios de cada esfera haz el coddigo en python 

In [41]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.svm import OneClassSVM
import numpy as np

# Dividir los datos en conjunto de entrenamiento y prueba
X_train, X_test, y_train, y_test, indices_train, indices_test = train_test_split(df['abstract_p'], df['cell_line'], df.index, test_size=0.2, random_state=42)

# Obtener el corpus y convertirlo en una lista
corpus_train = X_train.tolist()
corpus_test = X_test.tolist()

# Crear el objeto vectorizador TF-IDF
vectorizer = TfidfVectorizer()
X_train_tfidf = vectorizer.fit_transform(corpus_train)
X_test_tfidf = vectorizer.transform(corpus_test)

category_labels_train = y_train.tolist()  # Convertir la columna a una lista
category_labels_test = y_test.tolist()

# Número de categorías
num_categories = 12

# Diccionarios para almacenar los centroides y radios por categoría
category_centroids = {}
category_radii = {}
category_document_counts = {}

for category in set(category_labels_train):
    # Obtener los índices de los documentos correspondientes a la categoría actual en el conjunto de entrenamiento
    category_indices_train = [i for i, label in enumerate(category_labels_train) if label == category]

    if len(category_indices_train) > 0:
        # Obtener los documentos correspondientes a la categoría actual en el conjunto de entrenamiento
        category_documents_train = X_train_tfidf[category_indices_train]

        # Entrenar el modelo SVDD para la categoría actual en el conjunto de entrenamiento
        model = OneClassSVM(nu=0.1, kernel="rbf", gamma=0.1)
        model.fit(category_documents_train)

        # Obtener los vectores de soporte del modelo
        support_vectors = model.support_vectors_

        # Calcular el centroide
        centroid = np.mean(support_vectors, axis=0)
        category_centroids[category] = centroid

        # Calcular el radio (distancia promedio entre los vectores de soporte y el centroide)
        distances = np.linalg.norm(support_vectors - centroid, axis=1)
        radius = np.mean(distances)
        category_radii[category] = radius

        # Contar la cantidad de documentos en el centroide
        document_count = len(category_indices_train)
        category_document_counts[category] = document_count

# Realizar predicciones en el conjunto de prueba
predictions = []
for i, doc in enumerate(X_test_tfidf):
    min_distance = float('inf')
    predicted_category = None
    for category in set(category_labels_train):
        # Calcular la distancia del documento al centroide de la categoría
        distance = np.linalg.norm(doc - category_centroids[category])
        if distance < min_distance:
            min_distance = distance
            predicted_category = category
    predictions.append(predicted_category)

# Calcular la precisión del modelo SVDD en el conjunto de prueba
accuracy = sum(y_test == predictions) / len(y_test)
print("Precisión del modelo SVDD:", accuracy)


Precisión del modelo SVDD: 0.7692307692307693


In [42]:
from sklearn.model_selection import train_test_split
from sklearn.svm import OneClassSVM
from sklearn.metrics import accuracy_score

# Dividir los datos en conjunto de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(df['abstract_p'], df['cell_line'], test_size=0.2, random_state=42)

# Obtener el corpus y convertirlo en una lista
corpus_train = X_train.tolist()
corpus_test = X_test.tolist()

# Crear el objeto vectorizador TF-IDF
vectorizer = TfidfVectorizer()
X_train_tfidf = vectorizer.fit_transform(corpus_train)
X_test_tfidf = vectorizer.transform(corpus_test)

# Entrenar el modelo SVDD con los hiperparámetros especificados
model = OneClassSVM(nu=0.1, kernel="rbf", gamma=0.1)
model.fit(X_train_tfidf)

# Realizar predicciones en el conjunto de prueba
predictions = model.predict(X_test_tfidf)

# Calcular la precisión del modelo en el conjunto de prueba
accuracy = accuracy_score(y_test, predictions)
print("Precisión del modelo SVDD:", accuracy)


Precisión del modelo SVDD: 0.0


In [82]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.svm import OneClassSVM
import numpy as np

# Dividir los datos en conjunto de entrenamiento y prueba
X_train, X_test, y_train, y_test, indices_train, indices_test = train_test_split(df['abstract_p'], df['cell_line'], df.index, test_size=0.2, random_state=42)

# Obtener el corpus y convertirlo en una lista
corpus_train = X_train.tolist()
corpus_test = X_test.tolist()

# Crear el objeto vectorizador TF-IDF
vectorizer = TfidfVectorizer()
X_train_tfidf = vectorizer.fit_transform(corpus_train)
X_test_tfidf = vectorizer.transform(corpus_test)

category_labels_train = y_train.tolist()  # Convertir la columna a una lista
category_labels_test = y_test.tolist()

# Número de categorías
num_categories = 12

# Diccionarios para almacenar los centros y radios por categoría
category_centers = {}
category_radii = {}
category_document_counts = {}

for category in set(category_labels_train):
    # Obtener los índices de los documentos correspondientes a la categoría actual en el conjunto de entrenamiento
    category_indices_train = [i for i, label in enumerate(category_labels_train) if label == category]

    if len(category_indices_train) > 0:
        # Obtener los documentos correspondientes a la categoría actual en el conjunto de entrenamiento
        category_documents_train = X_train_tfidf[category_indices_train]

        # Entrenar el modelo SVDD para la categoría actual en el conjunto de entrenamiento
        model = OneClassSVM(nu=0.1, kernel="rbf", gamma="scale")
        model.fit(category_documents_train)

        # Obtener los vectores de soporte del modelo
        support_vectors = model.support_vectors_

        # Calcular el centro de la hiperesfera como el vector medio de los vectores de soporte
        center = np.mean(support_vectors, axis=0)
        category_centers[category] = center

        # Calcular el radio de la hiperesfera como la distancia media entre los vectores de soporte y el centro
        distances = np.linalg.norm(support_vectors - center, axis=1)
        radius = np.mean(distances)
        category_radii[category] = radius

        # Contar la cantidad de documentos en la hiperesfera
        document_count = len(category_indices_train)
        category_document_counts[category] = document_count

# Imprimir los resultados
for category in set(category_labels_train):
    print("Categoría:", category)
    print("Centro de la hiperesfera:", category_centers[category])
    print("Radio de la hiperesfera:", category_radii[category])
    print()

# Realizar predicciones en el conjunto de prueba
predictions = []
for i, doc in enumerate(X_test_tfidf):
    min_distance = float('inf')
    predicted_category = None
    for category in set(category_labels_train):
        # Calcular la distancia del documento al centro de la hiperesfera
        distance = np.linalg.norm(doc - category_centers[category])
        if distance < min_distance:
            min_distance = distance
            predicted_category = category
    predictions.append(predicted_category)

accuracy = sum(y_test == predictions) / len(y_test)
print("Precisión del modelo SVDD:", accuracy)

Categoría: CVCL_0081
Centro de la hiperesfera: [[0. 0. 0. ... 0. 0. 0.]]
Radio de la hiperesfera: 0.8650740307078411

Categoría: CVCL_0082
Centro de la hiperesfera: [[0. 0. 0. ... 0. 0. 0.]]
Radio de la hiperesfera: 0.8486529514178892

Categoría: CVCL_0110
Centro de la hiperesfera: [[0. 0. 0. ... 0. 0. 0.]]
Radio de la hiperesfera: 0.9249437746941228

Categoría: CVCL_0028
Centro de la hiperesfera: [[0.         0.         0.         ... 0.         0.         0.00490632]]
Radio de la hiperesfera: 0.9171292891712453

Categoría: CVCL_0113
Centro de la hiperesfera: [[0. 0. 0. ... 0. 0. 0.]]
Radio de la hiperesfera: 0.8943721506998026

Categoría: CVCL_0115
Centro de la hiperesfera: [[0. 0. 0. ... 0. 0. 0.]]
Radio de la hiperesfera: 0.8932666768554471

Categoría: CVCL_0080
Centro de la hiperesfera: [[0.         0.         0.         ... 0.         0.         0.00819205]]
Radio de la hiperesfera: 0.91930633449714

Categoría: CVCL_0107
Centro de la hiperesfera: [[0.00709729 0.         0.       

## Matriz de distancias

In [83]:
centers = np.array(list(category_centers.values()))
origin  = np.zeros(centers.shape[1])
print(origin)
vectors_to_centers = centers - origin
print(vectors_to_centers.shape)

distances = np.zeros((num_categories, num_categories))
vectors_to_centers

[0.]
(12, 1, 3208)


array([[[0.        , 0.        , 0.        , ..., 0.        ,
         0.        , 0.        ]],

       [[0.        , 0.        , 0.        , ..., 0.        ,
         0.        , 0.        ]],

       [[0.        , 0.        , 0.        , ..., 0.        ,
         0.        , 0.        ]],

       ...,

       [[0.        , 0.10528045, 0.01696511, ..., 0.        ,
         0.        , 0.00470507]],

       [[0.        , 0.        , 0.        , ..., 0.        ,
         0.        , 0.        ]],

       [[0.        , 0.        , 0.        , ..., 0.00599232,
         0.0199784 , 0.00444956]]])