In [1]:
##
## Preparación
##
import pandas as pd
import numpy as np
import matplotlib 
import matplotlib.pyplot as plt
%matplotlib inline

In [None]:
## Se lee el archivo de datos
df = pd.read_csv('data/scopus.csv')

## se imprimen los nombres de las columnas para verificar
df.columns

In [None]:
##
## La columna 'Cited by' tiene registros con NaN. Estos valores se 
## convierten a 0
##
df['Cited by'] = df['Cited by'].map(lambda x: 0 if np.isnan(x) else x)

In [None]:
##
## Se ordena por las citas y luego se extraen los campos de interés.
##
most_cited = (df.sort_values(by=['Cited by'], ascending=False))[['Authors', 'Title', 'Year', 'Cited by']]

##
## Se limita el DataFrame a los 10 primeros registros.
##
most_cited = most_cited[0:10]

##
## Se construye una lista de strings con la información
## bibliográfica de interés
##
table = []
for a,b,c,d in most_cited.values.tolist():
    table += [a + b + ';' + str(c) + ',' + str(int(d))]
most_cited = table

##
## Se imprimen para verificar
##
most_cited

In [None]:
count = df.groupby('Year')['Authors'].agg(['count'])
count

In [None]:
##
## Se genera el gráfico y se salva en la carpeta docs
##
count.plot.bar();
plt.savefig('docs/numbyyear.png')

In [None]:
!cat templates/index.html

In [None]:
from jinja2 import Template

##
## Carga el template almacenado como una cadena de texto
##
template = Template(open('templates/index.html', 'rt').read())

##
## Genera el archivo index.html pasando en la variable articles 
## de la plantilla, el conteido de la variable most_cited
##
open("docs/index.html","w").write( template.render(articles = most_cited))