In [1]:
import pandas as pd
import subprocess
import numpy as np

In [2]:
_ruta_archivo='inprocedings-json.csv' #Ruta al csv generado con OpenRefine
_ruta_salida='inprocedings-preprocessed.csv' #Ruta del archivo csv de salida
_weka="C:/Program Files/Weka-3-8/weka.jar" #Ruta al jar de weka
_arff_path=_ruta_salida.replace('.csv','.arff') #Ruta al arff de salida.

# Leer el archivo

In [5]:

_df=pd.read_csv(_ruta_archivo)
_df.columns=['paper','nombre']
#Reemplazar las comillas dobles por simples en los nombres. 
_df['nombre']=_df['nombre'].str.replace('"','-')


# Reducir el dataset
Se limita el dataset a autores que tengan al menos 200 publicaciones y artículos que tengan al menos 3 de esos autores, para encontrar reglas con un soporte interesante y para sobrellevar las limitaciones de memoria


In [6]:
#Al menos 200 artículos
_paper_count=_df['nombre'].value_counts()
_df=_df[_df['nombre'].isin(_paper_count[_paper_count>=200].index)]
#al menos 3 de esos autores
_author_count=_df['paper'].value_counts()
_df=_df[_df['paper'].isin(_author_count[_author_count>=3].index)]

# Agrupar los autores por paper

In [7]:
_grouped=_df.groupby('paper')['nombre'].apply(lambda x: '|'.join(x)).reset_index() 


In [8]:
_grouped

Unnamed: 0,paper,nombre
0,http://dblp.l3s.de/d2r/resource/publications/c...,Mary_Jane_Irwin|Tao_Zhang|Yuan_Xie_0001
1,http://dblp.l3s.de/d2r/resource/publications/c...,Tao_Zhang|Yan_Chen|Yuan_Xie_0001
2,http://dblp.l3s.de/d2r/resource/publications/c...,Hanqing_Lu|Tieniu_Tan|Yan_Zhang
3,http://dblp.l3s.de/d2r/resource/publications/c...,Fatos_Xhafa|Leonard_Barolli|Makoto_Takizawa
4,http://dblp.l3s.de/d2r/resource/publications/c...,Fatos_Xhafa|Leonard_Barolli|Makoto_Takizawa
5,http://dblp.l3s.de/d2r/resource/publications/c...,Hui_Wang|Tao_Wang|Zhiyong_Feng
6,http://dblp.l3s.de/d2r/resource/publications/c...,Bo_Zhang|Xiaokang_Yang|Yi_Xu
7,http://dblp.l3s.de/d2r/resource/publications/c...,Aboul_Ella_Hassanien|Ajith_Abraham|Václav_Snásel
8,http://dblp.l3s.de/d2r/resource/publications/c...,Li_Zhang|Wei_Li|Ying_Zhang
9,http://dblp.l3s.de/d2r/resource/publications/c...,Gang_Liu|Jian_Wang|Jun_Guo


# Obtener una columna por cada autor

In [9]:
#Transforma el dataset para obtener una columna binaria por cada autor. 
#Esto puede tardar bastante tiempo, dependiendo del tamaño del dataset.
_dummies=_grouped['nombre'].str.get_dummies('|')

In [11]:
#Agregar al dataset las columnas agrupadas
_df=pd.concat([_grouped, _dummies],axis=1)

# Exportar a csv

In [12]:

_df.to_csv(_ruta_salida, index=False, encoding='utf8' )

# Generar el arff a partir del csv

In [13]:

with open(_arff_path, "w") as arff:
    p=subprocess.Popen(['java','-classpath',_weka,"weka.core.converters.CSVLoader", _ruta_salida,"-E", '"',"-S", "1-2",'-N','3-last', '-B','56000', '-L','3-last:0,1'],stdout=arff)
    p.wait()
