.

<span style="color: #8B008B; font-weight: bold; font-family: Arial; font-size: 3em;">Sistema de recomendación de librerías Python</span>

 <span style="color:#4B0082; font-family: Arial; font-size: 2em;">José Pérez Yázquez</span>

 <span style="color:#4B0082; font-family: Arial; font-size: 1.5em;">Octubre de 2017</span>

---

<span style="color: #12297c; font-family: Arial; font-size: 3em;">Introducción</span>

El presente proyecto implementa una propuesta de recomendador de librerías Python, la idea es que dado un proyecto que estemos desarrollando, nos recomiende librerías que otros proyectos similares han usado. Para ello usa como "corpus" la BBDD por excelencia de código, **Github**, y como medida de similitud sus descripciones y las librerías que ya compartan.

El proyecto consta de dos fases, en la primera de ellas obtendremos todos los metadatos de los proyectos usando la API Rest de Github y en la segunda parte, basándonos en esos metadatos construiremos el sistema de recomendación.

Aunque el objetivo del proyecto es procesar proyectos **Python**, sería fácilmente extensible para que procesara proyectos implementados en otros lenguajes. Por ejemplo, si quisiéramos hacer un sistema de recomendación de librerías **R**, solo sería necesario modificar la expresión regular que busca los **import** para que buscase la instrucción **library**.



        

.

<span style="color: #12297c; font-family: Arial; font-size: 3em;">Carga y procesamiento de datos</span>        

Esta fase se divide a su vez en cuatro subfases:
 - Recopilación de la información de los proyectos
 - Clonado de los proyectos
 - Procesamiento de los proyectos clonados
 - Preprocesamiento de los datos

# Recopilación de la información de los proyectos

Usando la API Rest de Github descarga la información, metadatos, de todos los proyectos que cumplen una serie de criterios, estos serán los siguientes:
  - Identificados como proyectos Python
  - Creado entre el 1 de Enero de 2012 y el 31 de Octubre de 2017
  - Con un mínimo de 10 estrellas

Toda la información es almacenada en MongoDB concretamente en una colección llamada **projects** de una BD llamada **github**, la información almacenada es la siguiente:
 - **id**: Identificador generado por Github
 - **name**: Nombre del proyecto
 - **full_name**: Nombre ampliado del proyecto
 - **created_at**: Fecha de creación
 - **git_url**: Url al repositorio (es lo que se usa cuando se quiere clonar)
 - **description**: Descripción del proyecto
 - **language**: Lenguaje de programación del proyecto (Java, Python, Scala, etc)
 - **stars**: Número de estrellas del proyecto, nos da una medida de la *populariodad* del proyecto
 - **library**: Lista con las librerías que el proyecto usa, en principio estará vacía y se alimentará cuando se procese el proyecto
 - **readme_txt**: Almacenará el texto de los ficheros README de los proyectos.
 - **readme_language**: Indica el idioma en el que está redactado el fichero README
 - **readme_words**: Descomposición del fichero README en palabras con significado semántico, será la información base para el sistema de recomendación
 - **raw_data**: Almacena toda la información del proyecto sin procesar por si más adelante es necesario algún dato que en estos momentos no parece relevante.
 
Además se incluirán un par de propiedades de uso interno

 - **library_lines**: Lineas de los ficheros **py** en los que se detectó la importación de una librería. De uso interno
 - **pipeline_status**: Algunas de las operaciones que se realizan pueden ser muy costosas en cuanto al tiempo que consumen, por ello se lleva para cada proyecto el registro del estado en el que está. 

Cuando se usa la API de Github sin autenticación existen una serie de límites que no podemos superar, el primero es que el número máximo de resultados que cualquier consulta puede devolver
es de 1000, para salvar este impedimento, vamos a realizar sucesivas consultas restringiendo las llamadas a un solo día del intervalo que vamos a cubrir.

Por otra parte, existe otra restricción en el uso de la API, el número de llamadas por minuto está limitado a 60, podríamos incrementar esta cantidad si las llamadas son autenticadas,
esto es usar por ejemplo un "client ID" y "secret"  como partes de la consulta, pero vamos abordar una estrategia diferente. Se irán realizando las consultas sin atender a los límites y cuando ese límite se supere, se suspenderá el proceso durante 61 segundos y posteriormente se reanudará
por el punto en el que iba.

Si se desea consultar los límites comentados, podemos hacer una consulta, por ejemplo usando curl

curl -i https://api.github.com/users/octocat

HTTP/1.1 200 OK

Date: Mon, 01 Jul 2017 17:27:06 GMT

Status: 200 OK

X-RateLimit-Limit: 60

X-RateLimit-Remaining: 56

X-RateLimit-Reset: 1372700873


En la cabecera de la respuesta nos muestra los límites con el valor actual:

 - **X-RateLimit-Limit**       Número máximo de solicitudes que se le permite hacer por hora.
 - **X-RateLimit-Remaining**   Número de solicitudes restantes en la ventana de límite de velocidad actual.
 - **X-RateLimit-Reset**       Hora a la que se restablece la ventana de límite de velocidad actual en segundos UTC.

En primer lugar vamos a cargar las librerías necesarias para esta fase del proyecto

In [1]:
%matplotlib inline
import warnings
warnings.filterwarnings('ignore')
#import logging
#logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.ERROR)

In [2]:
from pymongo import MongoClient
from datetime import date, timedelta
from time import sleep
import sys
import os
import re
import json
import requests

A continuación vamos a definir una serie de constantes que serán usadas en el código, de esta manera podremos cambiar facilimente alguno de estos valores.
El significado de cada una de ellas es el siguiente:
 - **MIN_STARTS**: Número mínimo de estrellas que tiene que tener un proyecto para ser considerado
 - **START_DATE**: Fecha de inicio del intervalo, haciendo referencia a la fecha de creación del proyecto en Github
 - **END_DATE**: Fecha de fin del intervalo
 - **URL_PATTERN**: Patrón de la URL para la consulta a la API de Github, podemos ver que filtramos por lenguaje (Python), por fecha de creación (la suministraremos durante la ejecución) y por numero de estrellas (referido a la constante comentada anteriormente).
 - **ROOT_PATH**: Directorio raiz donde clonaremos los repositorios (debe existir antes de empezar a clonar los proyectos).
 - **CLONE_COMMAND**: Comando usado para clonar los repositorios
 - **LIBRARY_PATTERN**: Patrón que cumplen las líneas de código en las que se importa una librería
 - **FILE_LANGUAGE_EXTENSION**: Extensión de los ficheros para el lenguaje a procesar.

En la introducción deciamos que el sistema podrías ser extensible a otros lenguajes más allá de Python, para ello tendríamos que cambiar las dos últimas constantes a las apropiadas al lenguaje que queramos procesar, por ejemplo para **Java**, la última constante valdría **".java"** y para **R** valdría **".r"**

In [3]:
MIN_STARTS = 10
START_DATE = date(2017, 8, 1)
END_DATE = date(2017, 8, 2)
URL_PATTERN = 'https://api.github.com/search/repositories?q=language:Python+created:{0}+stars:>={1}&type=Repositories'

CLONE_COMMAND = "git clone {0} {1}"
ROOT_PATH = "d:/tfm/tmp"

LIBRARY_PATTERN = '(?m)^(?:from[ ]+(\S+)[ ]+)?import[ ]+([\S,\s]+)(\n)$'
FILE_LANGUAGE_EXTENSION = ".py"

Como se ha comentado anteriormente, vamos a usar MongoDB como tecnología de persistencia, vamos a definir una funcion que nos devuelva una referencia a la colección de proyectos con la que estamos trabajando.

In [4]:
def get_repository_projects():
    client = MongoClient('localhost', 27017)
    db = client.tfm_poc
    return db.projects

La siguiente función es la que realmente hace las llamadas a la API, tendrá como entrada la fecha de creación de los proyectos, usará la URL que hemos definicdo como constante.

In [5]:
def get_projects_by_date(date):
    print("Processing date", date)
    url_pattern = URL_PATTERN
    url = url_pattern.format(date, MIN_STARTS)
    response = requests.get(url)
    if (response.ok):
        response_data = json.loads(response.content.decode('utf-8'))['items']
        for project in response_data:
            insert_project(project)
    else:
        response.raise_for_status()

A continuanción definimos otra función auxiliar, que dada la información de la respuesta de la API, seleccionamos los atributos que vamos a necesitar y los almacenamos como un documento Mongo. Adicionalmente crea las propiedades mencionadas previamente (readme_txt,library,etc.).

In [6]:
def insert_project(github_project):
    if repository_projects.find_one({"id": github_project["id"]}):
        print("Project {0} is already included in the repository".format(github_project["name"]))
    else:
        project = {
            'id': github_project["id"],
            'name': github_project["name"],
            'full_name': github_project["full_name"],
            'created_at': github_project["created_at"],
            'git_url': github_project["git_url"],
            'description': github_project["description"],
            'language': github_project["language"],
            'stars': github_project["stargazers_count"],
            'readme_txt': "",
            'readme_language': None,
            'readme_words': [],
            'library': [],            
            'raw_data': github_project,
            'pipeline_status': 'INITIAL',
            'library_lines': [],
        }
        repository_projects.insert(project)

Finalmente ejecutamos el programa que, usando las funciones anteriormente definidas, descarga la información de los proyectos y la inserta en la BBDD, podemos observar que descompone las llamadas para traer en cada una de ellas solo los proyectos de un determinado dia y que *"gestiona"* las restricciones que tenemos en cuanto a llamada en la ventana de tiempo actual. 

En primer lugar recuperamos la colección en la que vamos a insertar los proyectos.

In [7]:
repository_projects = get_repository_projects()

Cargamos los proyectos en la colección, aplicamos las técnicas descritas para salvar las restricciones que nos impone la API de Github (número de items devuelto por cada consulta y número de llamadas por minuto).

In [8]:
for project_create_at in [START_DATE + timedelta(days=x) for x in range((END_DATE - START_DATE).days + 1)]:
    try:
        get_projects_by_date(project_create_at)
    except:
        print(">> Reached call limit, waiting 61 seconds...")
        sleep(61)
        get_projects_by_date(project_create_at)

Processing date 2017-08-01
Project defcon25-public is already included in the repository
Project isf is already included in the repository
Project Deep-Image-Matting is already included in the repository
Project TWindbg is already included in the repository
Project visimportance is already included in the repository
Project vulcan is already included in the repository
Project programmable-agents_tensorflow is already included in the repository
Project WAF_Bypass_Helper is already included in the repository
Project django_rest_example is already included in the repository
Project keras-transform is already included in the repository
Project SkySpyWatch is already included in the repository
Project pypaperbak is already included in the repository
Project homekit_python is already included in the repository
Processing date 2017-08-02
Project Imports-in-Python is already included in the repository
Project kinetics-i3d is already included in the repository
Project OSINT-SPY is already inclu

En este punto tendriamos cargada toda la información que necesitamos de Github.

# Clonado de los proyectos

Para analizar las librerías que un proyecto utiliza, un camino podría ser buscar los ficheros **requirements** de cada proyecto y parsear esa información, pero dicho fichero no está presente en una gran cantidad de proyectos, por lo que se ha optado por un camino un poco más **radical**.

Usando la información cargada en el paso anterior, fundamentalmente la propiedad **git_url**, vamos a clonar cada proyecto en local para posteriormente procesarlos.

**NOTAS**: 
* El directorio ROOT_PATH debe existir antes de lanzar el siguiente script
* Nos aseguramos que el directorio no existe, porque este código, dado que puede tardar bastante, lo podemos ejecutar en diferentes momentos, es decir llegado un punto se podría abortar el proceso y lanzarlo más adelante sin que se resienta por ello.

In [9]:
os.chdir(ROOT_PATH)

for project in repository_projects.find({'pipeline_status':'INITIAL'}):
    print("Cloning project", project['name'], "...")
    path = ROOT_PATH + "/" + str(project["id"])
    if not os.path.isdir(path):
        os.system(CLONE_COMMAND.format(project["git_url"], project["id"]))
    project['pipeline_status'] = 'CLONED'
    repository_projects.update({'_id': project['_id']}, {"$set": project}, upsert=False)

Cloning project geetest_break ...
Cloning project MachineLearningAction ...
Cloning project QQ_zone ...
Cloning project webcrawler ...
Cloning project solving-minesweeper-by-tensorflow ...
Cloning project parseNTFS ...
Cloning project captcha-svm ...
Cloning project minimal_flight_search ...
Cloning project wx_robot_example ...
Cloning project new-pac ...


En este punto tendríamos clonados todos los repositorios con los que construiremos el sistema de recomendación.

**NOTA**: La cantidad de datos descargados supera los 1.8Tb

# Procesamiento de los proyectos clonados

En esta fase, partiendo de los ficheros ya clonados en local, se identifican los ficheros README y se almacenan en la BBDD, por otra parte, se recorren línea por línea los ficheros Python y, usando expresiones regulares, se extraen las librerías que se están usando para almacenarlas también en la BBDD.

Comenzamos definiendo una función que dado un fichero python (extensión **.py**), lo recorre linea por linea y, usando expresiones regulares, buscamos todas las librerias que se estén usando, de forma esquemática estas son las acciones que se llevan a cabo:

 - Contemplar la posibilidad de que lo devuelto por la expresión regular sea una lista de librerías (import lib1,lib2,lib), en cuyo caso descomponemos la lista en sus librerías individuales
 - Se excluyen las librerías que empiezan por "**.**" ya que se trata de librerías internas de los proyectos
 - Se contempla que la librería tenga un alias eliminándolo
 - Se queda solo con el paquete principal
 - Se limpian espacios en blanco

Almacenamos esta lista en la propiedad **library** del proyecto en cuestión, también almacenamos la lista de líneas que declaran los imports por si en el futuro necesitamos volver a procesarlas.

In [10]:
def process_python_file(project, file_path):
    def process_expression(item):
        def insert(lib):
            lib = lib.strip()
            if '.' in lib:
                # Solo nos quedamos con el paquete principal
                lib = lib.split('.')[0]
            if not lib in library:
                library.append(lib)

        if not item.startswith('.'):
            if ',' in item:
                [insert(lib) for lib in item.split(',')]
            elif " as " in item:
                insert(item.split(" as ")[0])
            else:
                insert(item)

    library = project['library']
    library_lines = project['library_lines']

    with open(file_path, 'r', encoding='utf-8') as f:
        for line in f:
            match = re.search(LIBRARY_PATTERN, line)
            if match:
                library_lines.append(line)
                if match.group(1) != None:
                    process_expression(match.group(1))
                else:
                    process_expression(match.group(2))

    project['library'] = library
    project['library_lines'] = library_lines

Por otra parte, definimos también una función que dado un fichero **README** lo lea y almacena en la propiedad **readme_txt**

In [11]:
def process_readme_file(project, file_path):
    with open(file_path, 'r') as f:
        project['readme_txt'] = f.read()

Finalmente recorremos los repositorios no procesados, como comentabamos anteriormente este proceso permite lanzarlo reiteradas veces, para cada repositorio analizamos su fichero **README** y cada uno de los ficheros Python para extraer las librerías.

In [12]:
for project in repository_projects.find({'pipeline_status':'CLONED'}):
    try:
        path = ROOT_PATH + "/" + str(project["id"])
        if os.path.isdir(path):
            print("Processing project", project["name"])
            for root, dirs, files in os.walk(path):
                for file in files:
                    try:
                        if file.endswith(FILE_LANGUAGE_EXTENSION):
                            process_python_file(project, os.path.join(root, file))
                        else:
                            if file.lower().startswith("readme."):
                                process_readme_file(project, os.path.join(root, file))
                    except:
                        pass
            project['pipeline_status'] = 'PROCESSED'
            repository_projects.update({'_id': project['_id']}, {"$set": project}, upsert=False) 
    except:
        print("Error procesing project {0} [{1}] - {2}".format(project['id'], project['name'], sys.exc_info()[0]))

Processing project geetest_break
Processing project MachineLearningAction
Processing project QQ_zone
Processing project webcrawler
Processing project solving-minesweeper-by-tensorflow
Processing project parseNTFS
Processing project captcha-svm
Processing project minimal_flight_search
Processing project wx_robot_example
Processing project new-pac


## Detección del idioma del proyecto

Dado que uno de los pilares del sistema de detección es el Procesamiento del Lenguaje Natural, uno de los primeros pasos es detectar el idioma en el que está redactado el fichero **README** fuente de nuestros textos. Dado que la mayoría de proyectos están redactados en Ingles, y en aras de simplificar el modelo, vamos a eliminar todos los proyectos que no estén descritos en este idioma.

Para ello vamos a usar la función **detect** de la librería **langdetect**, implementaremos un *wrapper* sobre ella que tendrá en cuenta los posibles errores así como la posibildad de que el fichero README esté vacío.

In [13]:
from langdetect import detect

def detect_language(project):
    language = None
    try:
        if len(project['readme_txt']):
            language = detect(project['readme_txt'])
    except:
        pass
    return (language)

Obtenemos los proyectos que, por un motivo un otro, no estén en **Inglés**

In [14]:
projects_not_english = [project for project in list(repository_projects.find()) if detect_language(project) != 'en']

Comprobamos que el número de proyectos que vamos a borrar no es muy elevado con respecto al total.

In [15]:
print("Not English proyects number  :", len(projects_not_english))
print("Total number of proyects :", repository_projects.count() )

Not English proyects number  : 10
Total number of proyects : 39


Finalmente borramos los proyectos que no nos interesan

In [16]:
for project in projects_not_english:
    repository_projects.delete_one({'id': project["id"]})

Mostramos el número de proyectos que han quedado

In [17]:
print("Total number of proyects :", repository_projects.count() )

Total number of proyects : 29


# Procesamiento de los datos

Una vez tenemos la base de los metadatos que vamos a usar, el siguiente paso es procesarlos de cara a tenerlos preparados para su uso directo por parte de los modelos.

## Proyectos

En cuanto a lo que a los proyectos se refiere, procesamos las descripciones quedándonos con las palabras diferentes que encontramos en cada una de ellas, eliminamos puntuaciones, números y palabras irrelevantes como nombres personales y palabras comunes que no aportan significado (denominados "stop words"), esto evitará que se formen tópicos en torno a ellos

Además, utilizamos el stemmer Snowball, también llamado Porter2 stemmer, para detectar palabras similares presentes en diferentes formatos (eliminar sufijo, prefijo, etc.). Snowball es un lenguaje desarrollado por M.F. Porter, para definir de forma eficiente stemmers. Este algoritmo de derivación es el más utilizado en el dominio del procesamiento del lenguaje natural.

Para hacer el procesamiento usaremos la librería **nltk** (Natural Language Toolkit), proporciona un gran número de métodos que cubren diferentes temas en el dominio de los datos del lenguaje humano, como la clasificación, derivación, etiquetado, análisis y razonamiento semántico.

Creamos una función que dado un texto lo descompone en las palabras con significado que lo componen. Vamos a excluir los siguientes tipos de palabras:

- Nombres propios
- Palabras consideradas como "Stop Words"
- Números

Adicionalmente aplicamos el proceso de "steamming" que comentabamos anteriormente

In [18]:
import nltk
from nltk.tokenize import RegexpTokenizer
from nltk.corpus import stopwords
from nltk.stem import SnowballStemmer

In [19]:
tokenizer = RegexpTokenizer(r'\w+')
stop_words = set(stopwords.words('english'))
stemmer = SnowballStemmer("english")

In [20]:
def get_words(text):
    def add_word(word):
        word = word.lower()
        if word not in stop_words and not word.replace('.', '').isdigit():
            words.append(stemmer.stem(word))

    words = []
    for chunk in nltk.ne_chunk(nltk.pos_tag(tokenizer.tokenize(text))):
        # nltk.word_tokenize    devuelve la lista de palabras que forman la frase (tokenización)
        # nltk.pos_tag          devuelve el part of speech (categoría) correspondiente a la palabra introducida
        # nltk.ne_chunk         devuelve la etiqueta correspondiente al part of speech (POC)
        try:
            if chunk.label() == 'PERSON':
                # PERSON es un POC asociado a los nombres propios, los cuales no vamos a añadir
                pass
            else:
                for c in chunk.leaves():
                    add_word(c[0])
        except AttributeError:
            add_word(chunk[0])

    return words


## Librerías

En cuanto a las librerías solo vamos tener en cuenta las librerías de "**terceros**", es decir vamos a excluir las librerías definidas en los propios proyectos y las librerías del sistema, las primeras porque obviamente no las van a tener otros proyectos y lo único que haría sería incluir ruido y las segundas, las del sistema, por ser demasiado comunes.

Para poder catalogar las librerías de terceros, vamos a usar como referencia las librerías disponibles en [PyPi](https://pypi.python.org/pypi). Realizaremos un proceso de scraping sobre su web, almacenaremos las librerías un una colección de nuestra BBDD Mongo.

**NOTA**: Vamos a sustituir el caracter "**-**" por "**_**", esto se hace porque nos encontraremos casos en los que la librería se llame algo como **some-word** y la instalación se deba hacer con ese nombre **pip install some-word**, sin embargo, cuando la encontremos en el código pasará a llamarse **some_word**, es decir encontraremos algo como **import some_word**

In [21]:
def get_repository_library():
    client = MongoClient('localhost', 27017)
    db = client.tfm_poc
    return db.library

In [22]:
repository_library = get_repository_library()

In [23]:
def insert_library(library_name):
    library_name = library_name.lower().replace("-", "_")
    if repository_library.find_one({"name": library_name}):
        print("Library {0} is already included in the repository".format(library_name))
    else:
        library = {
            'name': library_name
        }
        repository_library.insert(library)

In [24]:
#import requests
#
#PYPI_LIST_URL = 'https://pypi.python.org/simple/'
#
#content = requests.get(PYPI_LIST_URL)
#
#for line in content.text.split('\n'):
#    match = re.search("'>([\w\-\.]+)", line)
#    if match:
#        insert_library(match.group(1))

Vamos a definir una función que filtre las librerías que no pertenezcan a la colección creada en los pasos anteriores anteriores

In [25]:
def process_library(library):
    library_processed = []
    for lib in library:
        if repository_library.find_one({"name": lib}):
            library_processed.append(lib)
    return library_processed

A continuación recorremos los proyectos aplicándole tanto el procesamiento a los ficheros **README** como a las **librerías**.

In [26]:
for project in repository_projects.find({'pipeline_status':'PROCESSED'}):
    try:
        print("Processing",project["name"])
        project['readme_words'] = get_words(project['readme_txt'])
        project['library'] = process_library(project['library'])
        project['pipeline_status'] = 'DONE'
    
        repository_projects.update({'_id': project['_id']}, {"$set": project}, upsert=False)
    except:
        print("Error procesing project {0} [{1}] - {2}".format(project['id'], project['name'], sys.exc_info()[0]))
        pass

Finalmente eliminaremos de nuestro repositorio los proyectos que no tienen librerías o que no tienen ningun elemento en su lista de palabras (la descomposición de los ficheros **readme**)

In [27]:
i = 0
for project in repository_projects.find({'pipeline_status': 'DONE'}):
    if len(project['library']) == 0 or len(project['readme_words']) == 0:
        i += 1
        print("Deleting",project["name"])
        repository_projects.delete_one({'id': project["id"]})

print("Projects deleted:", i)

Projects deleted: 0


.

<span style="color: #12297c; font-family: Arial; font-size: 3em;">Implementación de modelos</span>

Tras la fase anterior, tendríamos una colección MongoDB con cada uno de los proyectos de nuestro "pre-corpus" con la lista de librerías que cada proyecto usa, así como su descripción **"extendida"** extraída de su fichero **README**. Estaríamos en disposición por tanto de comenzar la implementación de nuestro recomendador.

Vamos a implementar dos versiones del recomendador, una que buscará similitudes basándose en las descripciones de los proyectos y otra que se basará en las librerías que cada proyecto usa para determinar proyectos similares.
Para la primera de las opciones se usará un modelo **LSA** (Latent Semantic Analysis) usando procesamiento de lenguaje natural, para la segunda se usará un simple **"Count Vectorizer"**, dado que la aproximación anterior no es adecuada para documentos con pocos términos, en nuestro caso un documento sería el listado de las librerías usadas.


## Carga de los datos


Comenzamos importando las librerías que vamos a usar en esta fase del proyecto.

In [28]:
import os
import uuid
import re
import nltk
import json
import itertools
import gensim
import random
import numpy as np
import matplotlib.pyplot as plt
from pymongo import MongoClient
from collections import defaultdict
from collections import OrderedDict
from gensim import corpora, models, similarities, matutils
from gensim.models import CoherenceModel

Slow version of gensim.models.doc2vec is being used


Definimos una funcion para cargar los datos de los proyectos, entre los datos a cargar está el fichero **readme** y las librerías usadas, datos que serán los que usemos para calcular las similitudes entre los proyectos.

In [29]:
def load_projects(max_projects=50000):
    def get_repository():
        client = MongoClient('localhost', 27017)
        db = client.tfm_data
        return db.projects
    projects_repository = get_repository()
    return list(projects_repository.find({'pipeline_status':'DONE'}).limit(max_projects))

Usando la funcíon anterior cargamos los datos, dado que el proceso es bastante pesado solo cargaremos un subconjunto de las mismas

In [30]:
projects = load_projects(10000)

In [31]:
len(projects)

10000

A modo de ejemplo, mostramos las primeras 5 librerías de uno de los proyectos

In [32]:
projects[0]['library'][:5]

['unittest', 'logging', 'cssutils', 'glue', 'pkg_resources']

Creamos una función que construye una lista con todas las descripciones de todos los proyectos

In [33]:
def get_texts_from_readme(projects):
    texts = []
    [texts.append(project['readme_words']) for project in projects]
    return texts

Ejecutamos la función que acabamos de definir, tendremos una lista de listas, en la que para cada proyecto tendremos las palabras que lo definen.

In [34]:
texts_from_readme = get_texts_from_readme(projects)

A modo de ejemplo, mostramos las 5 primeras entradas de uno de los proyectos.

In [35]:
texts_from_readme[0][:5]

['glue', 'imag', 'https', 'badg', 'furi']

Y una parte del contenido del fichero README

In [36]:
projects[0]['readme_txt'][:2000]

'Glue\n====\n\n.. image:: https://badge.fury.io/py/glue.png\n    :target: http://badge.fury.io/py/glue\n\n.. image:: https://travis-ci.org/jorgebastida/glue.png?branch=master\n    :target: https://travis-ci.org/jorgebastida/glue\n\n.. image:: https://coveralls.io/repos/jorgebastida/glue/badge.png?branch=master\n    :target: https://coveralls.io/r/jorgebastida/glue?branch=master\n\n.. image:: https://pypip.in/d/glue/badge.png\n    :target: https://crate.io/packages/glue/\n\n\nGlue is a simple command line tool to generate sprites::\n\n    $ glue source output\n\n* The latest documentation is available at: http://glue.readthedocs.org\n* Installation instructions: http://glue.readthedocs.org/en/latest/installation.html\n* Glue-users mailing list: https://groups.google.com/forum/#!forum/glue-users\n\nFeatures\n--------\n* Automatic Sprite (Image + Metadata) creation including:\n\n  - css (less, scss)\n  - cocos2d\n  - json (array, hash)\n  - CAAT\n\n* Automatic multi-dpi `retina <http://gl

# Modelo LSA/LSI: Latent Semantic Analysis / Latent Semantic Indexing

## Principios teóricos

Para identificar la similitud entre los proyectos basándonos en su descripción, entendiéndose como tal su fichero README, utilizamos el "análisis semántico latente" (LSA, usando la abreviatura en inglés), que es una técnica ampliamente utilizada en el procesamiento del lenguaje natural. LSA transforma cada texto en un vector, en un espacio de características. En nuestro caso, las características son palabras que ocurren en las descripciones. A continuación, se crea una matriz que contiene todos los vectores: las columnas representan las descripciones de los proyectos y las filas representan palabras únicas. Por consiguiente, el número de filas puede ascender a decenas de miles de palabras. 

Con el fin de identificar las características relevantes de esta matriz, usaremos la "descomposición de valores singulares" (SVD, usando la abreviatura en inglés), que es una técnica de reducción de dimensión, se utiliza para reducir el número de líneas -palabras-, manteniendo y resaltando la similitud entre columnas-descripción -. La dimensión de esta matriz de aproximación se establece mediante un hiperparámetro que es el número de temas, comúnmente llamado como tópicos. En este marco, un tópico consiste en un conjunto de palabras con pesos asociados que definen la contribución de cada palabra a la dirección de este tópico. Basándose en esta matriz de aproximación de baja dimensión, la similitud entre dos columnas -descripciones- se calcula utilizando el coseno del ángulo entre estos dos vectores.


**NOTA**: Generalmente LSA y LSI se utilizan indistintamente para referirse al mismo concepto.

## Creación del diccionario
 
El diccionario está formado por la concatenación de todas las palabras que aparecen en algún resumen de alguno de los proyectos. Básicamente esta función mapea cada palabra única con su identificador. Es decir, si tenemos N palabras, lo que conseguiremos al final es que cada proyecto sea representada mediante un vector en un espacio de N dimensiones.
 
Para ello, partiendo de la lista creada en el paso anterior, usaremos la función **corpora** del paquete **gensim**.

El diccionario consiste en una concatenación de palabras únicas de todas las descripciones. Gensim es una biblioteca eficiente para analizar la similitud semántica latente entre documentos.
Este módulo implementa el concepto de Diccionario - un mapeo entre palabras y
sus entes ids.

Los diccionarios pueden ser creados a partir de un corpus y luego pueden ver las frecuencia del documento (eliminación de palabras comunes mediante el método func: `Dictionary.filter_extremes`), guardado / cargado desde el disco (vía: func: `Dictionary.save` y: func:` Dictionary.load`), fusionado con otro diccionario (: func: `Dictionary.merge_with`) etc.

In [37]:
dictionary = corpora.Dictionary(texts_from_readme)
dictionary

<gensim.corpora.dictionary.Dictionary at 0x2e4033b0>

Podemos ver la longitud del diccionario creado

In [38]:
print(dictionary)

Dictionary(131546 unique tokens: ['libfontconfig', 'bitfinex', 'liner', 'ping13', '2ceiw1dmk6vy3tjnnttlmockers4aphjehxe4szpewsuxfsyb4frsjsa8zbwdsxyhh7']...)


La función **token2i** asigna palabras únicas con sus ids. En nuestro caso, la longitud del diccionario es igual a *N* palabras lo que significa que cada descripción del proyecto será representada a través de un espacio vectorial de *N* dimensiones

Mostramos las primeras 10 entradas

In [39]:
list(itertools.islice(dictionary.token2id.items(), 0, 10))

[('libfontconfig', 14694),
 ('bitfinex', 88069),
 ('liner', 8502),
 ('ping13', 97046),
 ('2ceiw1dmk6vy3tjnnttlmockers4aphjehxe4szpewsuxfsyb4frsjsa8zbwdsxyhh7',
  55102),
 ('microsd', 4145),
 ('metdata', 29796),
 ('opensvp', 34396),
 ('_medici', 20558),
 ('toplama', 92336)]

## Creación del Corpus

Crearemos un corpus con la colección de todos los resúmenes previamente pre-procesados y transformados usando el diccionario. Vamos a convertir los textos a un formato que gensim puede utilizar, esto es, una representación como bolsa de palabras (BoW). Gensim espera ser alimentado con una estructura de datos de corpus, básicamente una lista de "sparce vectors", estos constan de pares (id, score), donde el id es un ID numérico que se asigna al término a través de un diccionario. 

Mostramos el numero de elementos únicos que existen en los documentos (los que componen el diccionario) y el numero de textos (correspondientes a las descripciones de los proyectos).

In [40]:
print('Number of unique tokens : %d' % len(dictionary))
print('Number of documents     : %d' % len(texts_from_readme))

Number of unique tokens : 131546
Number of documents     : 10000


In [41]:
def create_corpus(dictionary, texts):
    return [dictionary.doc2bow(text) for text in texts]

In [42]:
corpus = create_corpus(dictionary, texts_from_readme)

A modo de ejemplo, mostramos las 5 primeras entradas del primer proyecto

In [43]:
corpus[0][:5]

[(0, 4), (1, 2), (2, 1), (3, 2), (4, 1)]

## Creación del modelo TFID

Un alto peso en tf-idf se alcanza por una alta frecuencia en un Documento y una baja frecuencia en toda la colección de documentos; los pesos tienden a filtrar términos comunes. Para la creación de este corpus, vamos a usar la función **TfidfModel** del objeto **models** (perteneciente a la librería *gemsim*).


In [44]:
def create_tfidf(corpus):
    tfidf = models.TfidfModel(corpus)
    corpus_tfidf = tfidf[corpus]
    return corpus_tfidf

In [45]:
corpus_tfidf = create_tfidf(corpus)

En corpus tenemos, para cada project, una lista con sus palabras y el tfidf de cada una. Mostramos las 10 primeras entradas del <primer elemento

In [46]:
corpus_tfidf[0][:10]

[(0, 0.05761854322053846),
 (1, 0.02979646764514527),
 (2, 0.011654538385197933),
 (3, 0.05886720965598663),
 (4, 0.033792406111922954),
 (5, 0.010956200100641224),
 (6, 0.078520333557761),
 (7, 0.00554316051250372),
 (8, 0.01654351139506536),
 (9, 0.007661428185064732)]

Si queremos saber que palabra es cada uno de estos términos podemos consultar el diccionario

In [47]:
print(dictionary[8],",",dictionary[19],",", dictionary[88])

want , class , get


## Determinación del número de topicos

Con los elementos que tenemos hasta ahora ya estamos listos para entrenar el modelo LSI/LDA. Pero antes que nada, como dicen los anglosajones "*el elefante en la habitación*", **¿Cuál es el número correcto de tópicos?**

LSA busca identificar un conjunto de tópicos relacionados las descripciones de los proyectos. El número de estos temas N es igual a la dimensión de la matriz de aproximación resultante de la técnica de reducción de dimensión SVD. Este número es un hiperparámetro que se debe ajustar cuidadosamente, es el resultado de la selección de los N valores singulares más grandes de la matriz del corpus tf-idf. 

En principio no hay una respuesta correcta o fácil para la pregunta inicial, depende tanto de los datos que tengamos como de la aplicación que queramos dar a estos datos. Por ejemplo, en ciertos casos puede ser útil tener un número pequeño de tópicos, de mara que se puedan interpretar y "etiquetar".



Vamos a crear una serie de modelos variando el número de tópicos y posteriormente los evaluaremos buscando el número óptimo de tópicos.


**NOTA**: Gensim puede provocar cuelgues por un uso excesivo de memoria, así que hay que tener en cuenta esta limitación cuando se indica por ejemplo el número de tópicos. Antes de entrenar su modelo, se puede obtener una estimación aproximada del uso de la memoria usando la siguiente fórmula:

</br>

<center>**8 bytes** *x* **numero_terminos** *x* **numero_topicos** *x* **3**</center>

Así pues, dadas las características de máquina con la que se realizán los cálculos vamos a indicar **120** tópicos como máximo

In [48]:
trained_models = OrderedDict()
for num_topics in range(10, 41, 10):
    print("Training LDA(k=%d)" % num_topics)
    lda = models.LdaMulticore(
        corpus_tfidf, id2word=dictionary, num_topics=num_topics, workers=4,
        passes=10, iterations=100, random_state=42, 
        eval_every=None,      # No evalúa la perplejidad del modelo, lleva demasiado tiempo.
        alpha='asymmetric',   # Demuestra ser mejor que simétrico en la mayoría de los casos
        decay=0.5, offset=64  # Mejores varlores para Hoffman paper
    )
    trained_models[num_topics] = lda

Training LDA(k=10)
Training LDA(k=20)
Training LDA(k=30)
Training LDA(k=40)


Podemos mostrar uno de los modelos creados

In [49]:
trained_models[10]

<gensim.models.ldamulticore.LdaMulticore at 0x2e403390>

### Evaluación usando la *Coherencia*

Vamos a evaluar cada uno de nuestros modelos de LDA utilizando la coherencia. La **coherencia** es una medida de cuán interpretables son los topicos para los humanos. Se basa en la representación de temas como las N palabras más probables para un topico en particular. Más específicamente, dada la matriz de *topic-term* para LDA, clasificamos cada tema de pesos más altos a más bajos y luego seleccionamos los primeros N términos.

La coherencia esencialmente mide cuán similares son estas palabras entre sí. Existen varios métodos para hacerlo, la mayoría de los cuales han sido explorados en el documento ["Exploring the Space of Topic Coherence Measures"](https://svn.aksw.org/papers/2015/WSDM_Topic_Evaluation/public.pdf). Los autores realizaron un análisis comparativo de varios métodos, correlacionándolos con juicios humanos. El método llamado coherencia "c_v" resultó ser el más altamente correlacionado. Este y varios de los otros métodos se han implementado en gensim.models.CoherenceModel. Usaremos esto para realizar nuestras evaluaciones.



Recorremos la lista de modelos y obtenemos la **coherencia** de cada uno de ellos, además llevaremos un registro para determinar cual de ellos obtiene el mejor resultado.

In [50]:
best_coherence = 0
best_coherence_key = 0
for key, value in trained_models.items():
    cm = CoherenceModel(model=value, texts=texts_from_readme, dictionary=dictionary, coherence='c_v')
    actual_coherence = cm.get_coherence()
    print("Topic number: {} - Coherence: {}".format(key,actual_coherence))
    if actual_coherence > best_coherence:
        best_coherence = actual_coherence
        best_coherence_key = key
print("\nBest model has {} topics and a coherence of {}".format(best_coherence_key,best_coherence))

Topic number: 10 - Coherence: 0.4752899907228535
Topic number: 20 - Coherence: 0.50061715339604
Topic number: 30 - Coherence: 0.5441192173565835
Topic number: 40 - Coherence: 0.5401590765285943

Best model has 30 topics and a coherence of 0.5441192173565835


La prueba nos ha dado como resultado que con **20** tópicos obtenemos los mejores resultados.

Finalmente creamos constantes para los valores seleccionados.
 * **TOTAL_LSA_TOPICS**: Limita el numero de terminos, por supuesto tiene que ver con el tamaño de la muestra, mientras más proyectos tengamos mas terminos tendremos y por tanto la reduccion seria mayor, estamos clusterizando las proyectos en TOTAL_TOPICOS_LSA clusters
 
* **SIMILARITY_THRESHOLD** Umbral de similitud que se debe superar para que dos proyectos se consideren similares (en cualquier caso, posteriormente usaremos los proyectos ordenados por similitud

In [51]:
best_coherence_key = 20
TOTAL_LSA_TOPICS = best_coherence_key
SIMILARITY_THRESHOLD = 0.4

In [52]:
TOTAL_LSA_TOPICS

20

## Definición del modelo LSA

### Funciones auxiliares

Definimos una serie de funciones auxiliares para ayudarnos en las siguientes operaciones.

**get_similarities_by_description**

Dado un documento (correspondiente a la descripción de un proyecto), nos determina la lista de proyectos que superan el umbral de similitud. Para cada proyecto que supere el umbral, almacenaremos el índice dentro de la matriz de proyectos, para localizarla posteriormente, y el grado de similitud. 

In [53]:
def get_similarities_by_description(model, dictionary, similarity_matrix, doc):
    ''' Calcula las similitudes de un documento, expresado este como una lista de palabras'''
    project_similarities = defaultdict(float)

    # Convertimos el documento al espacio LSI
    vec_bow = dictionary.doc2bow(doc)
    vec_lsi = model[vec_bow]

    similarities = similarity_matrix[vec_lsi]
    similarities = sorted(enumerate(similarities), key=lambda item: -item[1])

    for sim in similarities:
        similarity_project = int(sim[0])
        similarity_score = sim[1]
        if similarity_score > SIMILARITY_THRESHOLD:
            project_similarities[similarity_project] = similarity_score

    return (project_similarities)

**show_project_similarities**

Dada una lista de proyectos similares a uno dado, lo imprime por pantalla.

In [54]:
def show_project_similarities(projects, project_similarities):
    for project_id in sorted(project_similarities, key=project_similarities.get, reverse=True)[:10]:
         print("Project: {0}: - Similarity: {1}".format(projects[project_id]["name"], project_similarities[project_id]))

**get_library_similarities**

Dada una lista de proyectos similares a uno dado y una lista de librerías, retorna las librerías que usan esos proyectos y que no están en la lista pasada por parámetro. Además para cada librería calcula su índice de similitud, basándose en la similitud de los proyectos a los que pertenece. 

In [55]:
def get_library_similarities(projects, project_similarities, project_libraries):
    library_similarities=defaultdict(float)
    for project_id in sorted(project_similarities, key=project_similarities.get, reverse=True)[:10]:
        similarity = project_similarities[project_id]
        libraries = projects[project_id]["library"]
        for library in libraries:
            if library not in project_libraries:
                library_similarities[library] += similarity
    return library_similarities

**show_library_similarities**

Dada una lista de proyectos similares a uno dado y una lista de librerías, retorna las librerías que usan esos proyectos y que no están en la lista pasada por parámetro. Además apra cada librería calcula su índice de similitud, basándose en la similitud de los proyectos a los que pertenece. 

In [56]:
def show_library_similarities(library_similarities):
    clean_library_similarities = {k: v for k, v in library_similarities.items() if v > 0}
    for library in sorted(clean_library_similarities, key=clean_library_similarities.get, reverse=True)[:10]:
        print("Library: {0}: - Score: {1}".format(library, clean_library_similarities[library]))

### Creación del modelo

Para ello usaremos la librería **models** que nos ofrece gensim

In [57]:
model = models.LsiModel(corpus_tfidf, id2word=dictionary, num_topics=TOTAL_LSA_TOPICS)

Podemos ver como influyen las palabras en la determinación de los diferentes tópicos, por ejemplo mostramos los 3 primeros tópicos

In [58]:
for i, topic in enumerate(model.print_topics(3)):
    print('Topic {}:'.format(i))
    print(topic[1].replace(' + ', '\n'))
    print('')

Topic 0:
0.216*"django"
0.115*"file"
0.112*"test"
0.105*"py"
0.102*"instal"
0.101*"_"
0.091*"set"
0.091*"run"
0.090*"licens"
0.090*"python"

Topic 1:
0.734*"rst"
0.649*"readm"
0.176*"includ"
-0.040*"django"
0.014*"softwar"
0.013*"md"
0.013*"sphinx"
0.011*"highlight"
-0.010*"app"
-0.010*"model"

Topic 2:
-0.763*"django"
0.149*"softwar"
-0.138*"admin"
-0.108*"model"
0.101*"sublim"
-0.095*"templat"
-0.081*"manag"
0.080*"plugin"
-0.079*"_"
0.078*"file"



Usando nuestro modelo LSI construimos la matriz de similitud

In [59]:
similarity_matrix = gensim.similarities.MatrixSimilarity(model[corpus_tfidf])

### Prueba de concepto

A modo de ejemplo, como prueba de concepto, vamos a determinar los proyectos similares a uno dado. En primer lugar definimos las propiedades de nuestro proyecto **fake**.

In [60]:
poc_library = [ "logging", "time", "printer", "distutils", "scapy", "requests", "bs4", "pysnmp", "paramiko", "nmap", "unittest" ]
poc_readme_words = get_words("works on Windows and write down some installation instructions")

Calculamos la lista de proyectos similares

In [61]:
project_similarities_by_description = get_similarities_by_description(model, dictionary, similarity_matrix, poc_readme_words)

Mostramos los proyectos más similares

In [62]:
show_project_similarities(projects, project_similarities_by_description)

Project: Photini: - Similarity: 0.9474321603775024
Project: bluepass: - Similarity: 0.9416524171829224
Project: elseql: - Similarity: 0.9362103939056396
Project: cyg-apt: - Similarity: 0.9346104264259338
Project: tomate: - Similarity: 0.9343813061714172
Project: bockbuild: - Similarity: 0.9339820742607117
Project: sploitego: - Similarity: 0.9332752823829651
Project: fuglu: - Similarity: 0.9329404234886169
Project: pyadb: - Similarity: 0.9313347935676575
Project: stb-tester: - Similarity: 0.9296969175338745


El objetivo final no no es encontrar proyectos similares, sino encontrar las librerias que usan esos proyectos similares. Así pues, recorremos esos proyectos e identificamos esas librerías, descartando las que nuestro proyecto ya incluye.

Recorremos los proyectos más similares y calculamos el scoring de cada librería usada en esos proyectos

In [63]:
library_similarities_by_description = get_library_similarities(projects, project_similarities_by_description, poc_library)

Mostramos las 10 librerías más usadas por los proyectos similares

In [64]:
show_library_similarities(library_similarities_by_description)

Library: datetime: - Score: 4.678432881832123
Library: pkg_resources: - Score: 2.8136478662490845
Library: hashlib: - Score: 2.808574914932251
Library: uuid: - Score: 2.8078681230545044
Library: functools: - Score: 2.8053314089775085
Library: six: - Score: 1.8890845775604248
Library: setuptools: - Score: 1.8818134665489197
Library: gi: - Score: 1.877129077911377
Library: argparse: - Score: 1.8713493347167969
Library: signal: - Score: 1.8713493347167969


# Modelo CountVectorizer

Otro acercamiento que podemos realizar es usar como nivel de similitud las propias librerías que un proyecto usa, es decir buscaremos proyectos que usen las mismas librerías que nosotros ya estamos usando y mostraremos otras librerias que esos mismos proyectos estén usando y nuestro proyecto no.

En este caso los documentos serán muy pequeños, así que técnicas como LSI/LDA no son apropidas dado que están basados en estadísticas y con documentos pequeños no tendríamos suficiente información, se podrían usar técnicas como
[Word network topic model](https://dl.acm.org/citation.cfm?id=2974795), pero en este caso vamos a usar una aproximacion más simple y usaremos un modelo **CountVectorizer** de extracción de características.

In [65]:
import scipy as sp
from sklearn.feature_extraction.text import CountVectorizer

El modelo que construiremos necesita como entrada textos, así que transformamos nuestras listas de palabras en textos, en los que las librerías estarán separados por espacios.

In [66]:
global_texts = [" ".join(project['library']) for project in projects]

In [67]:
global_texts[:2]

['unittest logging cssutils glue pkg_resources argparse hashlib jinja2 base css time signal',
 'time']

Usaremos un objeto de **CountVectorizer**, el cual convierte una colección de documentos de texto en una matriz de conteos de tokens. 

Useremos el parámetro **min_df**, denomina comunmente como **corte**, con el valor **2**; esto hará que al construir el vocabulario, se ignoren los términos que tienen una frecuencia de documento más baja que el umbral dado

In [68]:
model_countVectorizer = CountVectorizer(min_df=2)

Usando el objeto creado, realizamos la transformación de nuestros datos

In [69]:
data = model_countVectorizer.fit_transform(global_texts)

A continuación definimos una función que usando los datos anteriores, el objeto countVectorizer y una lista de librerias, calcula la distancia coseno con cada una de las listas de librerias de los proyectos objeto de estudio. La **distancia coseno**  no es propiamente una distancia sino una medida de similaridad entre dos vectores en un espacio que tiene definido un producto interior. 

In [70]:
def get_similarities_by_library(train_data, doc, model):
    def cos_distance(v1, v2):
        return 1 - (v1 * v2.transpose()).sum() / (sp.linalg.norm(v1.toarray()) * sp.linalg.norm(v2.toarray()))
    
    new_doc_vectorized = model.transform([doc])[0]
    library_similarities = defaultdict(float)
    for i, doc_vec in enumerate(train_data):
        library_similarities[i] = 1 - cos_distance(doc_vec, new_doc_vectorized)
    return library_similarities

Vamos a realizar una prueba de concepto usando la lista de librería que ya tenemos creada, primero la convertimos en un documento tal como se ha comentado anteriormente.

In [71]:
doc_from_library = " ".join(poc_library)
doc_from_library

'logging time printer distutils scapy requests bs4 pysnmp paramiko nmap unittest'

Obtenemos los proyectos más similares en función de las librerías que comparten

In [72]:
project_similarities_by_library = get_similarities_by_library(data, doc_from_library, model_countVectorizer)

Como hicimos con el análisis por descripciones, podemos mostrar los proyectos ordenados por similitud

In [73]:
show_project_similarities(projects, project_similarities_by_library)

Project: pygerrit: - Similarity: 0.5698028822981898
Project: assertEquals: - Similarity: 0.5393598899705937
Project: mailinator: - Similarity: 0.5222329678670935
Project: python-statsd-client: - Similarity: 0.492365963917331
Project: python-webdav: - Similarity: 0.492365963917331
Project: uwsgiFouine: - Similarity: 0.4522670168666454
Project: pyreBloom: - Similarity: 0.4522670168666454
Project: i3-py: - Similarity: 0.4522670168666454
Project: logging_tree: - Similarity: 0.4522670168666454
Project: termsaver: - Similarity: 0.4522670168666454


Aunque como ya dijimos entonces, el objetivo es recomendar librerías, no proyectos. Así que obtenemos la lista a partir de nuestra lista de proyectos

In [74]:
library_similarities_by_libraries = get_library_similarities(projects, project_similarities_by_library, poc_library)

Finalmente mostramos el resultado

In [75]:
show_library_similarities(library_similarities_by_libraries)

Library: setuptools: - Score: 1.1091627722687836
Library: argparse: - Score: 1.0220698991648351
Library: datetime: - Score: 0.9446329807839764
Library: pygerrit: - Score: 0.5698028822981898
Library: statsd: - Score: 0.492365963917331
Library: functools: - Score: 0.492365963917331
Library: python_webdav: - Score: 0.492365963917331
Library: mock: - Score: 0.492365963917331
Library: redis: - Score: 0.4522670168666454
Library: logging_tree: - Score: 0.4522670168666454


.

<span style="color: #12297c; font-family: Arial; font-size: 3em;">Rendimiento del modelo</span>

Vamos a implementar un algoritmo que mida el rendimiento de los dos modelos (el LSI y el CountVectorizer). El concepto será el mismo para los dos modelos, aunque con diferentes implementaciones, lo que haremos será dividir el conjunto de datos en dos subconjuntos, con el primero entrenaremos los modelos, una vez entrenados usaremos el conjunto de test para predecir las librerías que cada proyecto debería tener. Como medida de rendimiento usaremos el número de librerias que se han predicho correctamente con respecto al total de librerías que tiene el proyecto, es decir, que porcentaje de librerias correctamente predichas.

Dividimos el conjunto de datos en dos subconjuntos, uno de **entrenamiento** con el **70%** de los datos y otro de **test** con el **30%**. Mostramos el numero total de proyectos para verificar que se distribuyen correctamente los dos subconjuntos

In [76]:
num_projects = len(projects)
print("Total data set size:",num_projects)

Total data set size: 10000


Antes de hacer la partición, los desordenamos, de otra forma los subconjuntos estarían sesgados dado que están ordenados por el **id** el cual depende de la fecha en la que se creó.

In [77]:
random.shuffle(projects)

### Conjunto de entrenamiento 

Para el conjunto de entrenamiento, nos quedamos con el 70% de los datos

In [78]:
projects_train = projects[:int(0.7*num_projects)]
print("Training data set size:",len(projects_train))

Training data set size: 7000


### Conjunto de tests 

Para el conjunto de tests, nos quedamos con el 70% de los datos

In [79]:
projects_test = projects[int(0.7*num_projects):]
print("Test data set size:",len(projects_test))

Test data set size: 3000


### Función de *Scoring*

Definimos una funcion que calcule el acierto de una predicción, se basa en el porcentaje de librerias que se han predicho con respecto al total de librerías.

In [80]:
def score(actual, predicted):
    actual_len = len(actual)
    predictec_success = set(actual).intersection(predicted)
    predictec_success_len = len(predictec_success)
    return(predictec_success_len/actual_len)

# Modelo LSI

Obtenemos la lista con las descripciones de los proyectos del conjunto de entrenamiento

In [81]:
texts_train = get_texts_from_readme(projects_train)
print(texts_train[1])

['packag', 'publish_to_sn', 'upload', 's3', 'dir', 'mktemp', 'directori', 'pip', 'instal', 'cfnlambda', 'dep', 'dir', 'cp', 'v', 'publish_to_sn', 'py', 'dir', 'zip', 'junk', 'path', 'dir', 'publish_to_sn', 'zip', 'dir', 'publish_to_sn', 'py', 'dir', 'cfnlambda', 'py', 'aw', 'profil', 'infosec', 'prod', 'region', 'us', 'west', 's3', 'cp', 'dir', 'publish_to_sn', 'zip', 's3', 'infosec', 'lambda', 'us', 'west', 'aw', 'profil', 'infosec', 'prod', 'region', 'us', 'east', 's3', 'cp', 'dir', 'publish_to_sn', 'zip', 's3', 'infosec', 'lambda', 'us', 'east', 'rm', 'rf', 'dir']


Creamos el diccionario

In [82]:
dictionary_train = corpora.Dictionary(texts_train)

In [83]:
print(dictionary_train)

Dictionary(103083 unique tokens: ['liner', 'ping13', '2ceiw1dmk6vy3tjnnttlmockers4aphjehxe4szpewsuxfsyb4frsjsa8zbwdsxyhh7', 'metdata', '_medici']...)


Por último creamos el corpus y el corpus tfidf a partir de él

In [84]:
corpus_train = create_corpus(dictionary_train, texts_train)

In [85]:
corpus_tfidf_train = create_tfidf(corpus_train)

Con los elementos creados entrenamos el modelo a evaluar

In [86]:
model_train = models.LsiModel(corpus_tfidf_train, id2word=dictionary_train, num_topics=TOTAL_LSA_TOPICS)

Creamos la matriz de similaritud

In [87]:
similarity_matrix_train = similarities.MatrixSimilarity(model_train[corpus_tfidf_train])

Por otra parte definimos otra función que obtiene la predicción para un proyecto y, usando la función anterior, calcula el score de dicha predicción.

In [88]:
def predict_libraries_from_description(model, dictionary, similarity_matrix, project):
    project_similarities = get_similarities_by_description(model, dictionary, similarity_matrix, project['readme_words'])
    library_similarities = get_library_similarities(projects, project_similarities, [])
    # Ordenar y pasar a lista, tomamos el mismo número de librerías que las que tiene el proyecto real
    num_lib = len(project['library'])
    project['library_prediction'] = sorted(library_similarities, key=library_similarities.get, reverse=True)[:num_lib]
    project['score'] = score(project['library'], project['library_prediction'])

Finalmente obtenemos la predicción para todos los proyectos del conjunto de entrenamiento, adicionalmente calculamos el score para el modelo

In [89]:
model_score = 0
projects_count = len(projects_test)
for idx, project in enumerate(projects_test):
    if (idx+1) % 250 == 0:
        print("Processing project {0} of {1}".format(idx+1, projects_count))
    predict_libraries_from_description(model_train, dictionary_train, similarity_matrix_train, project)
    model_score += project['score']
model_score = model_score/len(projects_test)

Processing project 250 of 3000
Processing project 500 of 3000
Processing project 750 of 3000
Processing project 1000 of 3000
Processing project 1250 of 3000
Processing project 1500 of 3000
Processing project 1750 of 3000
Processing project 2000 of 3000
Processing project 2250 of 3000
Processing project 2500 of 3000
Processing project 2750 of 3000
Processing project 3000 of 3000


In [90]:
print('El score obtenido es:',model_score)

El score obtenido es: 0.2956954523989923


# Modelo CountVectorizer

Como ya se comentó anteriormente, el modelo que construiremos necesita como entrada textos, así que transformamos nuestras listas de librerías en textos, en los que las librerías estarán separados por espacios, esto lo hacemos sólo para los projectos del subconjunto de entrenamiento

In [91]:
global_texts_train = [" ".join(project['library']) for project in projects_train]
global_texts_train[:2]

['ast time logging requests awsauth rgwadmin unittest',
 'lxml mechanize bugzilla sets boto argparse logging yaml pytest boto3 botocore cfnlambda dateutil']

Creamos el modelo de la misma forma que hicimos anteriormente

In [92]:
model_countVectorizer_train = CountVectorizer(min_df=2)

Entrenamos el modelo usando la lista de textos calculada

In [93]:
data_train = model_countVectorizer_train.fit_transform(global_texts_train)

Defimos la función que usando el modelo entrenado y dado un proyecto, haga la predicción de cuales librerías debería usar. Una vez realizada, calculamos el *scoring* comparado con el resultado real.

In [94]:
def predict_libraries_from_library(model, data, project):
    doc_from_library = " ".join(project['library'])
    project_similarities = get_similarities_by_library(data, doc_from_library, model)
    library_similarities = get_library_similarities(projects, project_similarities, [])
    # Ordenar y pasar a lista, tomamos el mismo número de librerías que las que tiene el proyecto real
    num_lib = len(project['library'])
    project['library_prediction'] = [library for library in sorted(library_similarities, key=library_similarities.get, reverse=True)[:num_lib]]
    project['score'] = score(project['library'], project['library_prediction'])

Finalmente, aplicamos la funció de predicción a todos los proyectos del conjunto de tests y calculamos el *scoring* global del proyecto.

In [95]:
model_score = 0
projects_count = len(projects_test)
for idx, project in enumerate(projects_test): 
    #if (idx+1) % 250 == 0:
    print("Processing project {0} of {1}".format(idx+1, projects_count))
    predict_libraries_from_library(model_countVectorizer_train, data_train, project)
    model_score += project['score']

model_score = model_score/len(projects_test)

Processing project 1 of 3000
Processing project 2 of 3000
Processing project 3 of 3000
Processing project 4 of 3000
Processing project 5 of 3000
Processing project 6 of 3000
Processing project 7 of 3000
Processing project 8 of 3000
Processing project 9 of 3000
Processing project 10 of 3000
Processing project 11 of 3000
Processing project 12 of 3000
Processing project 13 of 3000
Processing project 14 of 3000
Processing project 15 of 3000
Processing project 16 of 3000
Processing project 17 of 3000
Processing project 18 of 3000
Processing project 19 of 3000
Processing project 20 of 3000
Processing project 21 of 3000
Processing project 22 of 3000
Processing project 23 of 3000
Processing project 24 of 3000
Processing project 25 of 3000
Processing project 26 of 3000
Processing project 27 of 3000
Processing project 28 of 3000
Processing project 29 of 3000
Processing project 30 of 3000
Processing project 31 of 3000
Processing project 32 of 3000
Processing project 33 of 3000
Processing project 

Processing project 269 of 3000
Processing project 270 of 3000
Processing project 271 of 3000
Processing project 272 of 3000
Processing project 273 of 3000
Processing project 274 of 3000
Processing project 275 of 3000
Processing project 276 of 3000
Processing project 277 of 3000
Processing project 278 of 3000
Processing project 279 of 3000
Processing project 280 of 3000
Processing project 281 of 3000
Processing project 282 of 3000
Processing project 283 of 3000
Processing project 284 of 3000
Processing project 285 of 3000
Processing project 286 of 3000
Processing project 287 of 3000
Processing project 288 of 3000
Processing project 289 of 3000
Processing project 290 of 3000
Processing project 291 of 3000
Processing project 292 of 3000
Processing project 293 of 3000
Processing project 294 of 3000
Processing project 295 of 3000
Processing project 296 of 3000
Processing project 297 of 3000
Processing project 298 of 3000
Processing project 299 of 3000
Processing project 300 of 3000
Processi

Processing project 534 of 3000
Processing project 535 of 3000
Processing project 536 of 3000
Processing project 537 of 3000
Processing project 538 of 3000
Processing project 539 of 3000
Processing project 540 of 3000
Processing project 541 of 3000
Processing project 542 of 3000
Processing project 543 of 3000
Processing project 544 of 3000
Processing project 545 of 3000
Processing project 546 of 3000
Processing project 547 of 3000
Processing project 548 of 3000
Processing project 549 of 3000
Processing project 550 of 3000
Processing project 551 of 3000
Processing project 552 of 3000
Processing project 553 of 3000
Processing project 554 of 3000
Processing project 555 of 3000
Processing project 556 of 3000
Processing project 557 of 3000
Processing project 558 of 3000
Processing project 559 of 3000
Processing project 560 of 3000
Processing project 561 of 3000
Processing project 562 of 3000
Processing project 563 of 3000
Processing project 564 of 3000
Processing project 565 of 3000
Processi

Processing project 799 of 3000
Processing project 800 of 3000
Processing project 801 of 3000
Processing project 802 of 3000
Processing project 803 of 3000
Processing project 804 of 3000
Processing project 805 of 3000
Processing project 806 of 3000
Processing project 807 of 3000
Processing project 808 of 3000
Processing project 809 of 3000
Processing project 810 of 3000
Processing project 811 of 3000
Processing project 812 of 3000
Processing project 813 of 3000
Processing project 814 of 3000
Processing project 815 of 3000
Processing project 816 of 3000
Processing project 817 of 3000
Processing project 818 of 3000
Processing project 819 of 3000
Processing project 820 of 3000
Processing project 821 of 3000
Processing project 822 of 3000
Processing project 823 of 3000
Processing project 824 of 3000
Processing project 825 of 3000
Processing project 826 of 3000
Processing project 827 of 3000
Processing project 828 of 3000
Processing project 829 of 3000
Processing project 830 of 3000
Processi

Processing project 1062 of 3000
Processing project 1063 of 3000
Processing project 1064 of 3000
Processing project 1065 of 3000
Processing project 1066 of 3000
Processing project 1067 of 3000
Processing project 1068 of 3000
Processing project 1069 of 3000
Processing project 1070 of 3000
Processing project 1071 of 3000
Processing project 1072 of 3000
Processing project 1073 of 3000
Processing project 1074 of 3000
Processing project 1075 of 3000
Processing project 1076 of 3000
Processing project 1077 of 3000
Processing project 1078 of 3000
Processing project 1079 of 3000
Processing project 1080 of 3000
Processing project 1081 of 3000
Processing project 1082 of 3000
Processing project 1083 of 3000
Processing project 1084 of 3000
Processing project 1085 of 3000
Processing project 1086 of 3000
Processing project 1087 of 3000
Processing project 1088 of 3000
Processing project 1089 of 3000
Processing project 1090 of 3000
Processing project 1091 of 3000
Processing project 1092 of 3000
Processi

Processing project 1319 of 3000
Processing project 1320 of 3000
Processing project 1321 of 3000
Processing project 1322 of 3000
Processing project 1323 of 3000
Processing project 1324 of 3000
Processing project 1325 of 3000
Processing project 1326 of 3000
Processing project 1327 of 3000
Processing project 1328 of 3000
Processing project 1329 of 3000
Processing project 1330 of 3000
Processing project 1331 of 3000
Processing project 1332 of 3000
Processing project 1333 of 3000
Processing project 1334 of 3000
Processing project 1335 of 3000
Processing project 1336 of 3000
Processing project 1337 of 3000
Processing project 1338 of 3000
Processing project 1339 of 3000
Processing project 1340 of 3000
Processing project 1341 of 3000
Processing project 1342 of 3000
Processing project 1343 of 3000
Processing project 1344 of 3000
Processing project 1345 of 3000
Processing project 1346 of 3000
Processing project 1347 of 3000
Processing project 1348 of 3000
Processing project 1349 of 3000
Processi

Processing project 1576 of 3000
Processing project 1577 of 3000
Processing project 1578 of 3000
Processing project 1579 of 3000
Processing project 1580 of 3000
Processing project 1581 of 3000
Processing project 1582 of 3000
Processing project 1583 of 3000
Processing project 1584 of 3000
Processing project 1585 of 3000
Processing project 1586 of 3000
Processing project 1587 of 3000
Processing project 1588 of 3000
Processing project 1589 of 3000
Processing project 1590 of 3000
Processing project 1591 of 3000
Processing project 1592 of 3000
Processing project 1593 of 3000
Processing project 1594 of 3000
Processing project 1595 of 3000
Processing project 1596 of 3000
Processing project 1597 of 3000
Processing project 1598 of 3000
Processing project 1599 of 3000
Processing project 1600 of 3000
Processing project 1601 of 3000
Processing project 1602 of 3000
Processing project 1603 of 3000
Processing project 1604 of 3000
Processing project 1605 of 3000
Processing project 1606 of 3000
Processi

Processing project 1833 of 3000
Processing project 1834 of 3000
Processing project 1835 of 3000
Processing project 1836 of 3000
Processing project 1837 of 3000
Processing project 1838 of 3000
Processing project 1839 of 3000
Processing project 1840 of 3000
Processing project 1841 of 3000
Processing project 1842 of 3000
Processing project 1843 of 3000
Processing project 1844 of 3000
Processing project 1845 of 3000
Processing project 1846 of 3000
Processing project 1847 of 3000
Processing project 1848 of 3000
Processing project 1849 of 3000
Processing project 1850 of 3000
Processing project 1851 of 3000
Processing project 1852 of 3000
Processing project 1853 of 3000
Processing project 1854 of 3000
Processing project 1855 of 3000
Processing project 1856 of 3000
Processing project 1857 of 3000
Processing project 1858 of 3000
Processing project 1859 of 3000
Processing project 1860 of 3000
Processing project 1861 of 3000
Processing project 1862 of 3000
Processing project 1863 of 3000
Processi

Processing project 2090 of 3000
Processing project 2091 of 3000
Processing project 2092 of 3000
Processing project 2093 of 3000
Processing project 2094 of 3000
Processing project 2095 of 3000
Processing project 2096 of 3000
Processing project 2097 of 3000
Processing project 2098 of 3000
Processing project 2099 of 3000
Processing project 2100 of 3000
Processing project 2101 of 3000
Processing project 2102 of 3000
Processing project 2103 of 3000
Processing project 2104 of 3000
Processing project 2105 of 3000
Processing project 2106 of 3000
Processing project 2107 of 3000
Processing project 2108 of 3000
Processing project 2109 of 3000
Processing project 2110 of 3000
Processing project 2111 of 3000
Processing project 2112 of 3000
Processing project 2113 of 3000
Processing project 2114 of 3000
Processing project 2115 of 3000
Processing project 2116 of 3000
Processing project 2117 of 3000
Processing project 2118 of 3000
Processing project 2119 of 3000
Processing project 2120 of 3000
Processi

Processing project 2347 of 3000
Processing project 2348 of 3000
Processing project 2349 of 3000
Processing project 2350 of 3000
Processing project 2351 of 3000
Processing project 2352 of 3000
Processing project 2353 of 3000
Processing project 2354 of 3000
Processing project 2355 of 3000
Processing project 2356 of 3000
Processing project 2357 of 3000
Processing project 2358 of 3000
Processing project 2359 of 3000
Processing project 2360 of 3000
Processing project 2361 of 3000
Processing project 2362 of 3000
Processing project 2363 of 3000
Processing project 2364 of 3000
Processing project 2365 of 3000
Processing project 2366 of 3000
Processing project 2367 of 3000
Processing project 2368 of 3000
Processing project 2369 of 3000
Processing project 2370 of 3000
Processing project 2371 of 3000
Processing project 2372 of 3000
Processing project 2373 of 3000
Processing project 2374 of 3000
Processing project 2375 of 3000
Processing project 2376 of 3000
Processing project 2377 of 3000
Processi

Processing project 2604 of 3000
Processing project 2605 of 3000
Processing project 2606 of 3000
Processing project 2607 of 3000
Processing project 2608 of 3000
Processing project 2609 of 3000
Processing project 2610 of 3000
Processing project 2611 of 3000
Processing project 2612 of 3000
Processing project 2613 of 3000
Processing project 2614 of 3000
Processing project 2615 of 3000
Processing project 2616 of 3000
Processing project 2617 of 3000
Processing project 2618 of 3000
Processing project 2619 of 3000
Processing project 2620 of 3000
Processing project 2621 of 3000
Processing project 2622 of 3000
Processing project 2623 of 3000
Processing project 2624 of 3000
Processing project 2625 of 3000
Processing project 2626 of 3000
Processing project 2627 of 3000
Processing project 2628 of 3000
Processing project 2629 of 3000
Processing project 2630 of 3000
Processing project 2631 of 3000
Processing project 2632 of 3000
Processing project 2633 of 3000
Processing project 2634 of 3000
Processi

Processing project 2861 of 3000
Processing project 2862 of 3000
Processing project 2863 of 3000
Processing project 2864 of 3000
Processing project 2865 of 3000
Processing project 2866 of 3000
Processing project 2867 of 3000
Processing project 2868 of 3000
Processing project 2869 of 3000
Processing project 2870 of 3000
Processing project 2871 of 3000
Processing project 2872 of 3000
Processing project 2873 of 3000
Processing project 2874 of 3000
Processing project 2875 of 3000
Processing project 2876 of 3000
Processing project 2877 of 3000
Processing project 2878 of 3000
Processing project 2879 of 3000
Processing project 2880 of 3000
Processing project 2881 of 3000
Processing project 2882 of 3000
Processing project 2883 of 3000
Processing project 2884 of 3000
Processing project 2885 of 3000
Processing project 2886 of 3000
Processing project 2887 of 3000
Processing project 2888 of 3000
Processing project 2889 of 3000
Processing project 2890 of 3000
Processing project 2891 of 3000
Processi

In [96]:
print('El score obtenido es:',model_score)

El score obtenido es: 0.6320132330737668


.



<span style="color: #12297c; font-family: Arial; font-size: 3em;">Aplicación a un proyecto de ejemplo</span>

Para poner en práctica el sistema de recomendación vamos a usar un proyecto real almacenado en Github. En primer lugar definimos una función que dado un proyecto, lo descargue en local y aplique el mismo procesamiento que hicimos con los proyectos que componen nuestro corpus.

In [None]:
def proccess_url(git_url):
    project = dict()
    os.chdir(ROOT_PATH)
    dir_name = uuid.uuid4().hex
    path = ROOT_PATH + "/" + dir_name

    if not os.path.isdir(path):
        os.system(CLONE_COMMAND.format(git_url, dir_name))
        project['git_url'] = git_url
        project['library'] = []
        project['library_lines'] = []
        for root, dirs, files in os.walk(path):
            for file in files:
                try:
                    if file.endswith(FILE_LANGUAGE_EXTENSION):
                        process_python_file(project, os.path.join(root, file))
                    else:
                        if file.lower().startswith("readme."):
                            process_readme_file(project, os.path.join(root, file))
                except:
                    pass
        project['readme_words'] = get_words(project['readme_txt'])
        project['library'] = process_library(project['library'])
        project['pipeline_status'] = 'DONE'
    return project

Y la invocamos con nuestro projecto de ejemplo

In [None]:
#sample_project = proccess_url("https://github.com/yazquez/programmable-agents_tensorflow.git")

In [None]:
sample_project = proccess_url("https://github.com/cvzoya/visimportance.git")

Podemos ver las librerías que está usando

In [None]:
sample_project['library'][:10]

Así como su descripción (fichero **readme**)

In [None]:
sample_project['readme_txt'][:2000]

Y la descomposición de dicho fichero en sus palabras significativas

In [None]:
sample_project['readme_words'][:7]

Si recapitulamos, tenemos las siguientes funciones definidas:

- **get_similarities_by_description**: Devuelve los proyectos similares en funcíon de sus descripciones
- **get_similarities_by_library**: Devuelve los proyectos similares en funcíon de las librerías que se usa
- **get_library_similarities(project_similarities)**: Devuelve las librerías comunes usando una lista de proyectos


Las aplicamos a nuestro proyecto de ejemplo

Empezamos obteniendo los proyectos más similares al del ejemplo usando las descripciones y a partir de estos proyectos obtenemos las librerías

In [None]:
project_similarities_by_description = get_similarities_by_description(model, dictionary, similarity_matrix, sample_project['readme_words'])

In [None]:
library_similarities_by_description = get_library_similarities(projects, project_similarities_by_description, sample_project['library'])

Mostramos los 10 proyectos más similares

In [None]:
show_project_similarities(projects, project_similarities_by_library)

Hacemos lo mismo usando las librerías del proyecto como medida de similitud

In [None]:
project_similarities_by_library = get_similarities_by_library(data, " ".join(sample_project['library']), model_countVectorizer)

In [None]:
library_similarities_by_libraries = get_library_similarities(projects, project_similarities_by_library, sample_project['library'])

Mostramos los 10 proyectos más similares

In [None]:
show_project_similarities(projects, project_similarities_by_library)

## Resultados

Como punto final vamos a mostrar las librerías recomendadas usando los dos modelos implementados.

**Librerías recomendadas en función de las descripciones**

In [None]:
show_library_similarities(library_similarities_by_description)

**Librerías recomendadas en función de las librerías comunes**

In [None]:
show_library_similarities(library_similarities_by_libraries)