## Análisis del método average word2vec como sistema de recomendación de licitaciones

#### input: histórico de licitaciones con traducción
#### output: recomendación de licitaciones (content-based) basada en average word2vec

### Autor: Silvia García, Data Scientist, Grupo EVM

In [None]:
# Importing necessary libraries
import pandas as pd
import numpy as np
import nltk
nltk.download('stopwords')
from nltk.corpus import stopwords
from sklearn.metrics.pairwise import linear_kernel
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer
from nltk.tokenize import RegexpTokenizer
import re
import string
import random
from PIL import Image
import requests
from io import BytesIO
import matplotlib.pyplot as plt
%matplotlib inline
from sklearn.metrics.pairwise import cosine_similarity
from gensim.models import Word2Vec
from gensim.models.phrases import Phrases, Phraser
from matplotlib import pyplot
from gensim.models import KeyedVectors
import gensim

import warnings
warnings.filterwarnings("ignore")

### 1. Lectura del df

In [2]:
# Reading the data
df = pd.read_csv("main_licitaciones_bbdd_idioma_traduccion.csv", error_bad_lines = False)

In [3]:
print('el número de licitaciones es de', len(df))
df.head(2)

el número de licitaciones es de 849412


Unnamed: 0,Identificador,Número de expediente,Link licitación,Objeto del Contrato,Estado,Vigente/Anulada/Archivada,Tipo de procedimiento,Tramitación,Forma de presentación de la oferta,Órgano de Contratación,...,Número de ofertas recibidas por licitación/lote,Resultado licitación/lote,Identificador Adjudicatario de la licitación/lote,Importe adjudicación sin impuestos licitación/lote,Primera publicación,Fecha actualización,Código Lugar de ejecución,Tipo Licitación,idioma,translate
0,8689190,300/2021/00220,https://contrataciondelestado.es/wps/poc?uri=d...,"Escuela de deportes alternativos, para el fome...",Resuelta,VIGENTE,Abierto simplificado,Ordinaria,Electrónica,Distrito de Latina,...,2,Adjudicado,G82270489,200000,2021-11-15,2021-12-30,ES300,Licitación Directa,Language.SPANISH,"Escuela de deportes alternativos, para el fome..."
1,8723412,2021/066 PASS,https://contrataciondelestado.es/wps/poc?uri=d...,Suministro (Suscripción) de licencias de softw...,Adjudicada,VIGENTE,Abierto simplificado,Ordinaria,Electrónica,Presidencia de la Autoridad Independiente de R...,...,6,Adjudicado,B84852391,1765632,2021-11-18,2021-12-30,ES300,Licitación Directa,Language.SPANISH,Suministro (Suscripción) de licencias de softw...


In [4]:
df.columns

Index(['Identificador', 'Número de expediente', 'Link licitación',
       'Objeto del Contrato', 'Estado', 'Vigente/Anulada/Archivada',
       'Tipo de procedimiento', 'Tramitación',
       'Forma de presentación de la oferta', 'Órgano de Contratación',
       'Tipo de contrato', 'Lote', 'CPV', 'Sistema de contratación',
       'Directiva de aplicación', 'Subcontratación permitida',
       'Valor estimado del contrato', 'Presupuesto base sin impuestos',
       'Con Adjudicatario', 'Número de ofertas recibidas por licitación/lote',
       'Resultado licitación/lote',
       'Identificador Adjudicatario de la licitación/lote',
       'Importe adjudicación sin impuestos licitación/lote',
       'Primera publicación', 'Fecha actualización',
       'Código Lugar de ejecución', 'Tipo Licitación', 'idioma', 'translate'],
      dtype='object')

### 2. Preprocesamiento de texto

La idea es eliminar símbolos, tildes y caracteres extraños, así como stop words. Pasar a minúscula todas las letras.

In [16]:
df['analisis'] = df['translate'] + ' ' + df['Tipo de procedimiento'] + ' ' \
+ ' ' + df['Órgano de Contratación'] + ' ' + df['Tipo de contrato']

In [17]:
df['analisis'] = df['analisis'].str.normalize('NFKD').str.encode('ascii', errors='ignore').str.decode('utf-8')
df['analisis'] = df['analisis'].str.replace(r'\w*\d\w*','')

In [18]:
def _removeNonAscii(s):
    return "".join(i for i in s if  ord(i)<128)

def make_lower_case(text):
    return text.lower()

def remove_stop_words(text):
    text = text.split()
    stops = set(stopwords.words("spanish"))
    text = [w for w in text if not w in stops]
    text = " ".join(text)
    return text

def remove_html(text):
    html_pattern = re.compile('<.*?>')
    return html_pattern.sub(r'', text)

def remove_punctuation(text):
    tokenizer = RegexpTokenizer(r'\w+')
    text = tokenizer.tokenize(text)
    text = " ".join(text)
    return text

df['cleaned'] = df['analisis'].apply(_removeNonAscii)

df['cleaned'] = df.cleaned.apply(func = make_lower_case)
df['cleaned'] = df.cleaned.apply(func = remove_stop_words)
df['cleaned'] = df.cleaned.apply(func = remove_punctuation)
df['cleaned'] = df.cleaned.apply(func = remove_html)

In [19]:
# Creamos el corpus

corpus = []
for words in df['cleaned']:
    corpus.append(words.split())

In [20]:
corpus

[['escuela',
  'deportes',
  'alternativos',
  'fomento',
  'deporte',
  'vida',
  'sana',
  'cultura',
  'dirigido',
  'jovenes',
  'barrio',
  'cano',
  'roto',
  'distrito',
  'latina',
  'abierto',
  'simplificado',
  'distrito',
  'latina',
  'servicios'],
 ['suministro',
  'suscripcion',
  'licencias',
  'software',
  'ofimatico',
  'autoridad',
  'independiente',
  'responsabilidad',
  'fiscal',
  'aai',
  'abierto',
  'simplificado',
  'presidencia',
  'autoridad',
  'independiente',
  'responsabilidad',
  'fiscal',
  'suministros'],
 ['instalacion',
  'envolvente',
  'ayuntamiento',
  'rena',
  'abierto',
  'simplificado',
  'area',
  'fomento',
  'diputacion',
  'provincial',
  'badajoz',
  'obras'],
 ['prestacion',
  'servicios',
  'mantenimiento',
  'material',
  'rodante',
  'motor',
  'direccion',
  'servicios',
  'logisticos',
  'adif',
  'abierto',
  'adif',
  'consejo',
  'administracion',
  'servicios'],
 ['prestacion',
  'servicios',
  'mantenimiento',
  'material',


In [21]:
any('kyocera' in sublist for sublist in corpus)

True

In [23]:
df.loc[849407, 'cleaned']

'servicio formacion ambito ofimatica marco convocatoria formacion ocupacional oferta areas prioritarias foap negociado publicidad ayuntamiento mataro servicios'

## Explicación de los hiperparámetros del word2vec

Understanding some of the parameters: https://machinelearningmastery.com/tutorial-first-neural-network-python-keras/

To train the model earlier, we had to set some parameters. Now, let's try to understand what some of them mean. For reference, this is the command that we used to train the model.

model = gensim.models.Word2Vec (documents, size=150, window=10, min_count=2, workers=10)

#### size

The size of the dense vector to represent each token or word. If you have very limited data, then size should be a much smaller value. If you have lots of data, its good to experiment with various sizes. A value of 100-150 has worked well for me.

#### window

The maximum distance between the target word and its neighboring word. If your neighbor's position is greater than the maximum window width to the left and the right, then, some neighbors are not considered as being related to the target word. In theory, a smaller window should give you terms that are more related. If you have lots of data, then the window size should not matter too much, as long as its a decent sized window.

#### min_count

Minimium frequency count of words. The model would ignore words that do not statisfy the min_count. Extremely infrequent words are usually unimportant, so its best to get rid of those. Unless your dataset is really tiny, this does not really affect the model.

#### workers

How many threads to use behind the scenes?


## Entrenamiento del modelo word2vec

In [24]:
# Create CBOW model
model_cbow = gensim.models.Word2Vec(corpus, 
                                    min_count = 10,
                                    vector_size = 100, 
                                    window = 5,
                                    workers = 10)

#model1.train(corpus, total_examples = len(corpus), epochs = 10)

In [25]:
# Create Skip Gram model
model_sw = gensim.models.Word2Vec(corpus, 
                                      min_count = 10, 
                                      vector_size = 100,
                                      window = 5, 
                                      sg = 1)

In [27]:
# Print results
print("Cosine similarity between 'abierto' " +
               "and 'simplificado' - Skip Gram : ",
    model_sw.wv.similarity('abierto', 'simplificado'))

Cosine similarity between 'abierto' and 'simplificado' - Skip Gram :  0.71698385


In [28]:
w1 = "mesa"
model_cbow.wv.most_similar(positive=w1)

[('senado', 0.7647478580474854),
 ('diputados', 0.6881349086761475),
 ('valencianes', 0.6643110513687134),
 ('radiotransparente', 0.5713235139846802),
 ('parlamento', 0.5668038725852966),
 ('camara', 0.5308099389076233),
 ('spect', 0.48241034150123596),
 ('ujieres', 0.4539910554885864),
 ('multifotonica', 0.4491378664970398),
 ('estereotaxia', 0.4428333044052124)]

In [29]:
# Which one is the odd one out in this list?
model_cbow.wv.doesnt_match(["abierto","simplificado","silla"])

'silla'

In [30]:
df.head(3)

Unnamed: 0,Identificador,Número de expediente,Link licitación,Objeto del Contrato,Estado,Vigente/Anulada/Archivada,Tipo de procedimiento,Tramitación,Forma de presentación de la oferta,Órgano de Contratación,...,Identificador Adjudicatario de la licitación/lote,Importe adjudicación sin impuestos licitación/lote,Primera publicación,Fecha actualización,Código Lugar de ejecución,Tipo Licitación,idioma,translate,analisis,cleaned
0,8689190,300/2021/00220,https://contrataciondelestado.es/wps/poc?uri=d...,"Escuela de deportes alternativos, para el fome...",Resuelta,VIGENTE,Abierto simplificado,Ordinaria,Electrónica,Distrito de Latina,...,G82270489,200000,2021-11-15,2021-12-30,ES300,Licitación Directa,Language.SPANISH,"Escuela de deportes alternativos, para el fome...","Escuela de deportes alternativos, para el fome...",escuela deportes alternativos fomento deporte ...
1,8723412,2021/066 PASS,https://contrataciondelestado.es/wps/poc?uri=d...,Suministro (Suscripción) de licencias de softw...,Adjudicada,VIGENTE,Abierto simplificado,Ordinaria,Electrónica,Presidencia de la Autoridad Independiente de R...,...,B84852391,1765632,2021-11-18,2021-12-30,ES300,Licitación Directa,Language.SPANISH,Suministro (Suscripción) de licencias de softw...,Suministro (Suscripcion) de licencias de softw...,suministro suscripcion licencias software ofim...
2,8303894,77/IDE/2021/2021/O/128,https://contrataciondelestado.es/wps/poc?uri=d...,Instalación de envolvente en el Ayuntamiento d...,Resuelta,VIGENTE,Abierto simplificado,Ordinaria,Electrónica,Área de Fomento de la Diputación Provincial de...,...,B06220818,412000,2021-09-16,2021-12-30,ES431,Licitación Directa,Language.SPANISH,Instalación de envolvente en el Ayuntamiento d...,Instalacion de envolvente en el Ayuntamiento d...,instalacion envolvente ayuntamiento rena abier...


In [32]:
len(model_sw.wv)

37054

In [34]:
model_sw.wv.index_to_key 

['abierto',
 'servicios',
 'suministros',
 'servicio',
 'suministro',
 'simplificado',
 'ayuntamiento',
 'obras',
 's',
 'direccion',
 'a',
 'publicidad',
 'negociado',
 'general',
 'marco',
 'mantenimiento',
 'acuerdo',
 'junta',
 'gobierno',
 'i',
 'contratacion',
 'salud',
 'alcaldia',
 'd',
 'contrato',
 'seguridad',
 'gestion',
 'municipal',
 'gerencia',
 'centros',
 'derivado',
 'l',
 'material',
 'ajuntament',
 'social',
 'hospital',
 'presidencia',
 'provincial',
 'centro',
 'barcelona',
 'proyecto',
 'consejeria',
 'sanitaria',
 'm',
 'instalacion',
 'administracion',
 'publica',
 'ejecucion',
 'lotes',
 'mutua',
 'diputacion',
 'madrid',
 'adquisicion',
 'lote',
 'destino',
 'asistencia',
 'area',
 'local',
 'agencia',
 'instalaciones',
 'limpieza',
 'empresa',
 'estatal',
 'consejo',
 'educacion',
 'instituto',
 'e',
 'universidad',
 'desarrollo',
 'objeto',
 'universitario',
 'equipos',
 'obra',
 'sociedad',
 'tecnica',
 'san',
 'sistema',
 'transporte',
 'per',
 'colaborad

In [35]:
model_cbow.wv.vectors.shape

(37054, 100)

## Guardado del modelo para visualización

https://radimrehurek.com/gensim/scripts/word2vec2tensor.html

python -m gensim.scripts.word2vec2tensor -i .\word2vec.model -o .\tensorboard\

In [36]:
model_sw.wv.save_word2vec_format("word2vec_sw.model")
model_cbow.wv.save_word2vec_format("word2vec_cbow.model")

## Asignación de pesos a las licitaciones

In [37]:
model = model_sw

In [38]:
df['avg word2vec'] = ''

In [39]:
# Generate the average word2vec for the each book description

def vectors(x):
    
    # Creating a list for storing the vectors (description into vectors)
    global word_embeddings
    word_embeddings = []
    df_cleaned = []

    # Reading the each book description 
    for idx, line in x.iterrows():
        avgword2vec = None
        count = 0
        for word in line['cleaned'].split():
            if word in model.wv:
                count += 1
                if avgword2vec is None:
                    avgword2vec = model.wv[word]
                else:
                    avgword2vec = avgword2vec + model.wv[word]

        if avgword2vec is not None:
            avgword2vec = avgword2vec / count
            #print([avgword2vec.tolist()])

            x.at[idx, 'avg word2vec'] = avgword2vec
            #word_embeddings.append(avgword2vec)
            #df_cleaned.append(line)
            
    #df_ = pd.DataFrame(df_cleaned)
    #df_ = df_.rename(columns = {0: 'title'})
    
    return x

In [40]:
df_ = vectors(df)

In [41]:
df_.head(3)

Unnamed: 0,Identificador,Número de expediente,Link licitación,Objeto del Contrato,Estado,Vigente/Anulada/Archivada,Tipo de procedimiento,Tramitación,Forma de presentación de la oferta,Órgano de Contratación,...,Importe adjudicación sin impuestos licitación/lote,Primera publicación,Fecha actualización,Código Lugar de ejecución,Tipo Licitación,idioma,translate,analisis,cleaned,avg word2vec
0,8689190,300/2021/00220,https://contrataciondelestado.es/wps/poc?uri=d...,"Escuela de deportes alternativos, para el fome...",Resuelta,VIGENTE,Abierto simplificado,Ordinaria,Electrónica,Distrito de Latina,...,200000,2021-11-15,2021-12-30,ES300,Licitación Directa,Language.SPANISH,"Escuela de deportes alternativos, para el fome...","Escuela de deportes alternativos, para el fome...",escuela deportes alternativos fomento deporte ...,"[0.012540068, 0.008312313, -0.037487954, -0.07..."
1,8723412,2021/066 PASS,https://contrataciondelestado.es/wps/poc?uri=d...,Suministro (Suscripción) de licencias de softw...,Adjudicada,VIGENTE,Abierto simplificado,Ordinaria,Electrónica,Presidencia de la Autoridad Independiente de R...,...,1765632,2021-11-18,2021-12-30,ES300,Licitación Directa,Language.SPANISH,Suministro (Suscripción) de licencias de softw...,Suministro (Suscripcion) de licencias de softw...,suministro suscripcion licencias software ofim...,"[0.07913456, 0.25526994, -0.17649616, 0.204690..."
2,8303894,77/IDE/2021/2021/O/128,https://contrataciondelestado.es/wps/poc?uri=d...,Instalación de envolvente en el Ayuntamiento d...,Resuelta,VIGENTE,Abierto simplificado,Ordinaria,Electrónica,Área de Fomento de la Diputación Provincial de...,...,412000,2021-09-16,2021-12-30,ES431,Licitación Directa,Language.SPANISH,Instalación de envolvente en el Ayuntamiento d...,Instalacion de envolvente en el Ayuntamiento d...,instalacion envolvente ayuntamiento rena abier...,"[-0.09953443, -0.11866342, -0.17670447, 0.0230..."


In [22]:
df_.loc[df_['Identificador Adjudicatario de la licitación/lote'] == 'B38944864']

Unnamed: 0,Identificador,Número de expediente,Link licitación,Objeto del Contrato,Estado,Vigente/Anulada/Archivada,Tipo de procedimiento,Tramitación,Forma de presentación de la oferta,Órgano de Contratación,...,Resultado licitación/lote,Identificador Adjudicatario de la licitación/lote,Importe adjudicación sin impuestos licitación/lote,Primera publicación,Fecha actualización,Código Lugar de ejecución,Tipo Licitación,analisis,cleaned,avg word2vec
2685,8430166,1560/2021,https://contrataciondelestado.es/wps/poc?uri=d...,Elaboración de una herramienta de visualizació...,Adjudicada,VIGENTE,Abierto simplificado,Ordinaria,Electrónica,Presidencia del Ente Público Empresarial Puert...,...,Adjudicado,B38944864,225000,2021-10-07,2021-12-29,ES70,Licitación Directa,Elaboracion de una herramienta de visualizacio...,elaboracion herramienta visualizacion datos at...,"[-0.084173925, -0.03299803, -0.24019097, -0.06..."
29187,8442249,8/2021,https://contrataciondelestado.es/wps/poc?uri=d...,Asistencia técnica en la elaboración de indica...,Resuelta,VIGENTE,Abierto simplificado,Ordinaria,Electrónica,Director del Instituto Canario de Estadística ...,...,Adjudicado,B38944864,840000,2021-10-08,2021-11-23,ES70,Licitación Directa,Asistencia tecnica en la elaboracion de indica...,asistencia tecnica elaboracion indicadores req...,"[0.03202313, 0.31714207, -0.3279275, -0.054686..."
29792,8108023,6/2021,https://contrataciondelestado.es/wps/poc?uri=d...,Asistencia técnica estadística para el Proyect...,Resuelta,VIGENTE,Abierto,Ordinaria,Electrónica,Director del Instituto Canario de Estadística ...,...,Adjudicado,B38944864,2900000,2021-08-05,2021-11-23,ES70,Licitación Directa,Asistencia tecnica estadistica para el Proyect...,asistencia tecnica estadistica proyecto medcoa...,"[-0.1433087, 0.15215789, -0.28989643, 0.014293..."
54994,7813691,CONTR 2021/9310,https://contrataciondelestado.es/wps/poc?uri=d...,Asistencia técnica a la producción estadística...,Resuelta,VIGENTE,Abierto,Ordinaria,Electrónica,Instituto de Estadística de las Illes Balears,...,Adjudicado,B38944864,9090458,2021-07-02,2021-10-06,ES532,Licitación Directa,Asistencia tecnica a la produccion estadistica...,asistencia tecnica produccion estadistica inst...,"[-0.10759709, 0.24977857, -0.38225928, 0.07332..."
66835,8121135,DGMCS006/2021,https://contrataciondelestado.es/wps/poc?uri=d...,Servicio de consultoría y asistencia técnica p...,Resuelta,VIGENTE,Abierto simplificado,Ordinaria,Electrónica,Dirección General de Modernización y Calidad d...,...,Adjudicado,B38944864,455000,2021-08-06,2021-09-10,ES709,Licitación Directa,Servicio de consultoria y asistencia tecnica p...,servicio consultoria asistencia tecnica defini...,"[0.014282397, 0.123506434, -0.30014586, -0.028..."
82585,7433712,1/2021,https://contrataciondelestado.es/wps/poc?uri=d...,Asistencia técnica a la producción estadística...,Resuelta,VIGENTE,Abierto,Ordinaria,Electrónica,Director del Instituto Canario de Estadística ...,...,Adjudicado,B38944864,7020000,2021-04-25,2021-07-30,ES70,Licitación Directa,Asistencia tecnica a la produccion estadistica...,asistencia tecnica produccion estadistica inst...,"[-0.100316934, 0.27400094, -0.33375058, 0.0646..."
82586,7433712,1/2021,https://contrataciondelestado.es/wps/poc?uri=d...,Asistencia técnica a la producción estadística...,Resuelta,VIGENTE,Abierto,Ordinaria,Electrónica,Director del Instituto Canario de Estadística ...,...,Adjudicado,B38944864,6240000,2021-04-25,2021-07-30,ES70,Licitación Directa,Asistencia tecnica a la produccion estadistica...,asistencia tecnica produccion estadistica inst...,"[-0.100316934, 0.27400094, -0.33375058, 0.0646..."
88574,7401206,2/2021,https://contrataciondelestado.es/wps/poc?uri=d...,Asistencia técnica al Proyecto de la Estadísti...,Resuelta,VIGENTE,Abierto,Ordinaria,Electrónica,Director del Instituto Canario de Estadística ...,...,Adjudicado,B38944864,1760000,2021-04-21,2021-07-16,ES70,Licitación Directa,Asistencia tecnica al Proyecto de la Estadisti...,asistencia tecnica proyecto estadistica poblac...,"[-0.04111858, 0.05675525, -0.25336602, 0.07226..."
117506,3602378,EJ/2019/000028,https://contrataciondelestado.es/wps/poc?uri=d...,El contrato tiene por objeto la prestación de...,Adjudicada,VIGENTE,Abierto,Ordinaria,Electrónica,Junta de Gobierno del Ayuntamiento de Santa Cr...,...,Adjudicado,B38944864,6550000,2019-05-20,2021-05-13,ES709,Licitación Directa,El contrato tiene por objeto la prestacion de...,contrato objeto prestacion servicios apertura ...,"[0.28186494, -0.13018064, -0.15886948, 0.07237..."
152231,5445771,A-3/2020,https://contrataciondelestado.es/wps/poc?uri=d...,Contratación de los servicios de actividades d...,Adjudicada,VIGENTE,Abierto,Ordinaria,Electrónica,Presidencia Organismo Autónomo de Museos y Cen...,...,Adjudicado,B38944864,8275127,2020-08-10,2021-02-12,ES709,Licitación Directa,Contratacion de los servicios de actividades d...,contratacion servicios actividades didacticas ...,"[0.11920337, -0.18525346, -0.27225515, -0.0668..."


In [20]:
df_.info(verbose = False)

<class 'pandas.core.frame.DataFrame'>
Int64Index: 286014 entries, 0 to 833755
Columns: 30 entries, Identificador to avg word2vec
dtypes: int64(3), object(27)
memory usage: 75.7+ MB


In [42]:
# Recommending the Top 5 similar books

def recommendations(df_, df_index):
    
    # finding cosine similarity for the vectors

    cosine_similarities = cosine_similarity(df_.loc[df_index, 'avg word2vec'].reshape(1,-1), 
                                            df_['avg word2vec'].values.tolist())
    
    df_['cosine'] = cosine_similarities.T
         
    #idx = df_.loc[df_['title'] == title].index.values[0]
    #sim_scores = list(enumerate(cosine_similarities[idx]))
    #sim_scores = sorted(cosine_similarities, key = lambda x: x[1], reverse = True)
    df_ = df_.sort_values(by = 'cosine', ascending = False)
    #sim_scores = sim_scores[1:6]
    #book_indices = [i[0] for i in sim_scores]
    #recommend = df_.iloc[1:6]
    
    return df_

In [43]:
rec = recommendations(df_, 2685)

In [44]:
for i in rec.index.values[:6]:
    print(rec.loc[i, 'Link licitación'])
    print(rec.loc[i, 'cosine'])

https://contrataciondelestado.es/wps/poc?uri=deeplink:detalle_licitacion&idEvl=GAYaOpLvG2Muf4aBO%2BvQlQ%3D%3D
0.9999999
https://contrataciondelestado.es/wps/poc?uri=deeplink:detalle_licitacion&idEvl=Rufi8oEnjtfnSoTX3z%2F7wA%3D%3D
0.965695
https://contrataciondelestado.es/wps/poc?uri=deeplink:detalle_licitacion&idEvl=ZQabzBretzGXQV0WE7lYPw%3D%3D
0.8993915
https://contrataciondelestado.es/wps/poc?uri=deeplink:detalle_licitacion&idEvl=H4PPS7MKWtirz3GQd5r6SQ%3D%3D
0.8980014
http://www.gobiernodecanarias.org/perfildelcontratante/apipublica/anuncios-licitacion.html?licitacion=67259
0.8979521
http://www.gobiernodecanarias.org/perfildelcontratante/apipublica/anuncios-licitacion.html?licitacion=67260
0.8979521


In [32]:
for i in rec.index.values[:6]:
    print(rec.loc[i, 'Link licitación'])
    print(rec.loc[i, 'cosine'])

https://contrataciondelestado.es/wps/poc?uri=deeplink:detalle_licitacion&idEvl=GAYaOpLvG2Muf4aBO%2BvQlQ%3D%3D
0.9999998
https://contrataciondelestado.es/wps/poc?uri=deeplink:detalle_licitacion&idEvl=Rufi8oEnjtfnSoTX3z%2F7wA%3D%3D
0.9131579
https://contrataciondelestado.es/wps/poc?uri=deeplink:detalle_licitacion&idEvl=ZQabzBretzGXQV0WE7lYPw%3D%3D
0.87696975
http://www.madrid.org/cs/Satellite?op2=PCON&idPagina=1204201624785&c=CM_ConvocaPrestac_FA&pagename=PortalContratacion%2FPage%2FPCON_contratosPublicos&language=es&idConsejeria=1109266187224&cid=1354874142911
0.87384385
https://contrataciondelestado.es/wps/poc?uri=deeplink:detalle_licitacion&idEvl=bvpkAhokotVvYnTkQN0%2FZA%3D%3D
0.87178814
http://www.madrid.org/cs/Satellite?op2=PCON&idPagina=1204201624785&c=CM_ConvocaPrestac_FA&pagename=PortalContratacion%2FPage%2FPCON_contratosPublicos&language=es&idConsejeria=1109266187224&cid=1354896231181
0.8663601


In [31]:
for i in rec.index.values[:6]:
    print(rec.loc[i, 'Link licitación'])
    print(rec.loc[i, 'cosine'])

https://contrataciondelestado.es/wps/poc?uri=deeplink:detalle_licitacion&idEvl=GAYaOpLvG2Muf4aBO%2BvQlQ%3D%3D
0.99999994
https://contrataciondelestado.es/wps/poc?uri=deeplink:detalle_licitacion&idEvl=Rufi8oEnjtfnSoTX3z%2F7wA%3D%3D
0.9799895
https://contrataciondelestado.es/wps/poc?uri=deeplink:detalle_licitacion&idEvl=ZQabzBretzGXQV0WE7lYPw%3D%3D
0.9443207
https://www.contratosdegalicia.gal/licitacion?N=803423
0.9369464
https://contrataciondelestado.es/wps/poc?uri=deeplink:detalle_licitacion&idEvl=H4PPS7MKWtirz3GQd5r6SQ%3D%3D
0.9362494
https://contrataciondelestado.es/wps/poc?uri=deeplink:detalle_licitacion&idEvl=zm2dEKoeP66XQV0WE7lYPw%3D%3D
0.9356841
