## Importamos las librerías necesarias

In [29]:
import pandas as pd

#librerias de visualización
import matplotlib.pyplot as plt
import seaborn as sns
from PIL.ImageColor import colormap
%matplotlib inline

from bokeh.plotting import figure, output_file, show
from bokeh.models import ColumnDataSource
from bokeh.models.tools import HoverTool
from bokeh.io import output_notebook, output_file

# Libreria base de datos
import sqlite3


## Leer y explorar datos

In [36]:
# Lectura de archivo data
data = pd.read_csv("DatosCSV/data.csv", sep=";", header=0)
data.drop('Unnamed: 0', axis=1, inplace=True)
data = data.rename(columns={'ANO':'AÑO PUBLICACION', 'AlumnoID':'ALUMNO ID'})
data.head()

Unnamed: 0,AÑO PUBLICACION,TIPO,NOMBRE UNIVERSIDAD,TIPO FINANCIAMIENTO,PROVINCIA UNIVERSIDAD,BASE DATOS INDEXADA,NOMBRE REVISTA,NOMBRE ARTICULO,CAMPO AMPLIO,CAMPO ESPECIFICO,CAMPO DETALLADO,ALUMNOID
0,2020,ARTICULO,ESCUELA POLITECNICA NACIONAL,PUBLICA,PICHINCHA,SCOPUS,ASTROPHYSICAL JOURNAL,DIFFERENCE OF INTERMITTENCY BETWEEN ELECTRIC F...,"CIENCIAS NATURALES, MATEMÁTICAS Y ESTADÍSTICAS",CIENCIAS FÍSICAS,FÍSICA,914
1,2020,ARTICULO,ESCUELA POLITECNICA NACIONAL,PUBLICA,PICHINCHA,SCOPUS,ASTROPHYSICAL JOURNAL,ON THE EFFECTS OF UV PHOTONS/X-RAYS ON THE CHE...,"CIENCIAS NATURALES, MATEMÁTICAS Y ESTADÍSTICAS",CIENCIAS FÍSICAS,FÍSICA,4065
2,2020,ARTICULO,ESCUELA POLITECNICA NACIONAL,PUBLICA,PICHINCHA,SCOPUS,EARTH AND PLANETARY SCIENCE LETTERS,EFFECTS OF ASEISMIC RIDGE SUBDUCTION ON THE GE...,"CIENCIAS NATURALES, MATEMÁTICAS Y ESTADÍSTICAS",CIENCIAS FÍSICAS,CIENCIAS DE LA TIERRA,4432
3,2020,ARTICULO,ESCUELA POLITECNICA NACIONAL,PUBLICA,PICHINCHA,SCOPUS,EARTH AND PLANETARY SCIENCE LETTERS,RAPID LOCALIZED FLANK INFLATION AND IMPLICATIO...,"CIENCIAS NATURALES, MATEMÁTICAS Y ESTADÍSTICAS",CIENCIAS FÍSICAS,CIENCIAS DE LA TIERRA,1254
4,2020,ARTICULO,ESCUELA POLITECNICA NACIONAL,PUBLICA,PICHINCHA,SCOPUS,JOURNAL OF SOUND AND VIBRATION,COMBINING STRAIN AND ACCELERATION MEASUREMENTS...,"INGENIERÍA, INDUSTRÍA Y CONSTRUCCIÓN",INGENIERÍA Y PROFESIONES AFINES,MECÁNICA Y PROFESIONES AFINES A LA METALISTERÍA,4746


In [37]:
# Lectura desde base de datos
conn = sqlite3.connect('DatosSQL/students.db')
personal_data = pd.read_sql_query('SELECT * from personal_data', conn)
conn.close()
personal_data.head()

Unnamed: 0,ALUMNOID,NOMBRE,CORREO
0,1,Itziar Torrens,itorrens@outlook.com
1,2,Patricia Durán,pduran@soho.com
2,3,Gisela Bonet,gbonet@yahoo.com
3,4,Sabina Feliu,sfeliu@gmail.com
4,5,Visitación Martin,vmartin@soho.com


In [38]:
# Unimos las dos bases de datos
df = pd.merge(data, personal_data, how='inner', on='ALUMNOID')
print(df.info())
df.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50420 entries, 0 to 50419
Data columns (total 14 columns):
 #   Column                 Non-Null Count  Dtype 
---  ------                 --------------  ----- 
 0   AÑO PUBLICACION        50420 non-null  int64 
 1   TIPO                   50420 non-null  object
 2   NOMBRE UNIVERSIDAD     50420 non-null  object
 3   TIPO FINANCIAMIENTO    50420 non-null  object
 4   PROVINCIA UNIVERSIDAD  50420 non-null  object
 5   BASE DATOS INDEXADA    50420 non-null  object
 6   NOMBRE REVISTA         50420 non-null  object
 7   NOMBRE ARTICULO        50420 non-null  object
 8   CAMPO AMPLIO           50420 non-null  object
 9   CAMPO ESPECIFICO       50420 non-null  object
 10  CAMPO DETALLADO        50420 non-null  object
 11  ALUMNOID               50420 non-null  int64 
 12  NOMBRE                 50420 non-null  object
 13  CORREO                 50420 non-null  object
dtypes: int64(2), object(12)
memory usage: 5.4+ MB
None


Unnamed: 0,AÑO PUBLICACION,TIPO,NOMBRE UNIVERSIDAD,TIPO FINANCIAMIENTO,PROVINCIA UNIVERSIDAD,BASE DATOS INDEXADA,NOMBRE REVISTA,NOMBRE ARTICULO,CAMPO AMPLIO,CAMPO ESPECIFICO,CAMPO DETALLADO,ALUMNOID,NOMBRE,CORREO
0,2020,ARTICULO,ESCUELA POLITECNICA NACIONAL,PUBLICA,PICHINCHA,SCOPUS,ASTROPHYSICAL JOURNAL,DIFFERENCE OF INTERMITTENCY BETWEEN ELECTRIC F...,"CIENCIAS NATURALES, MATEMÁTICAS Y ESTADÍSTICAS",CIENCIAS FÍSICAS,FÍSICA,914,José Mari Carranza,jcarranza@yahoo.com
1,2020,ARTICULO,ESCUELA POLITECNICA NACIONAL,PUBLICA,PICHINCHA,SCOPUS,ASTROPHYSICAL JOURNAL,ON THE EFFECTS OF UV PHOTONS/X-RAYS ON THE CHE...,"CIENCIAS NATURALES, MATEMÁTICAS Y ESTADÍSTICAS",CIENCIAS FÍSICAS,FÍSICA,4065,Jenaro Dávila,jdavila@outlook.com
2,2020,ARTICULO,ESCUELA POLITECNICA NACIONAL,PUBLICA,PICHINCHA,SCOPUS,EARTH AND PLANETARY SCIENCE LETTERS,EFFECTS OF ASEISMIC RIDGE SUBDUCTION ON THE GE...,"CIENCIAS NATURALES, MATEMÁTICAS Y ESTADÍSTICAS",CIENCIAS FÍSICAS,CIENCIAS DE LA TIERRA,4432,Candelas Arnaiz,carnaiz@outlook.com
3,2020,ARTICULO,ESCUELA POLITECNICA NACIONAL,PUBLICA,PICHINCHA,SCOPUS,EARTH AND PLANETARY SCIENCE LETTERS,RAPID LOCALIZED FLANK INFLATION AND IMPLICATIO...,"CIENCIAS NATURALES, MATEMÁTICAS Y ESTADÍSTICAS",CIENCIAS FÍSICAS,CIENCIAS DE LA TIERRA,1254,Josué Abad,jabad@hotmail.com
4,2020,ARTICULO,ESCUELA POLITECNICA NACIONAL,PUBLICA,PICHINCHA,SCOPUS,JOURNAL OF SOUND AND VIBRATION,COMBINING STRAIN AND ACCELERATION MEASUREMENTS...,"INGENIERÍA, INDUSTRÍA Y CONSTRUCCIÓN",INGENIERÍA Y PROFESIONES AFINES,MECÁNICA Y PROFESIONES AFINES A LA METALISTERÍA,4746,Santiago Lastra,slastra@outlook.com


In [None]:
# La gráfica muestra la cantidad de artículos publicados por Revistas Científicas
grafica = df.groupby(['BASE DATOS INDEXADA'])['TIPO'].count()
output_notebook()
source = ColumnDataSource(data=dict(index = grafica.index.tolist(), values = grafica.values.tolist() ))
p = figure(
    y_range=grafica.index.tolist(),
    height=500,
    width=1200,
    toolbar_location=None,
    tools=""
)
p.hbar(y='index', right='values', source=source)

p.title.text = 'Grafico de la Cantidad de articulos publicados por revistas cientificas'
p.xaxis.axis_label = 'Cantidad de Artículos'
p.yaxis.axis_label = 'Revistas'

hover = HoverTool()
hover.tooltips = [('Revistas','@index'),('Cantidad de articulos','@values')]

p.add_tools(hover)
show(p)

In [None]:
# Artículos por alumnos

In [40]:
df.to_csv('datafin.csv', sep=';')