In [19]:
import pandas as pd
import plotly.express as px
import numpy as np
import random

Gráfico de barras sobre la cantidad de artículos publicados por año

In [20]:
# Cargar los datos
tabla = pd.read_csv('../CSV final/baseDatosFinal.csv')

# Contar las fechas
fechas = tabla['Year'].value_counts().reset_index()
fechas.columns = ['Año', 'Cantidad de Artículos']  # Renombrar columnas

# Crear el gráfico de barras
fig = px.bar(fechas, x='Año', y='Cantidad de Artículos', title='Conteo de Articulos por Año', labels={'Count': 'Número de Ocurrencias', 'Year': 'Año'})

# Mostrar el gráfico
fig.show()

In [21]:
# Lista de países
paises = [
    'Estados Unidos', 'Reino Unido', 'Canadá', 'Alemania', 
    'Francia', 'Italia', 'España', 'Brasil', 'México', 
    'Australia', 'India', 'Japón', 'China', 'Rusia', 'Sudáfrica'
]

# Asignar aleatoriamente un país a cada autor
np.random.seed(0)  # Para reproducibilidad
tabla['País'] = [random.choice(paises) for _ in range(len(tabla))]

# Crear el DataFrame para el gráfico
pais_counts = tabla['País'].value_counts().reset_index()
pais_counts.columns = ['País', 'Cantidad de Autores']

Distribución de Tipo de Producto por Año

In [22]:
fig2 = px.histogram(tabla, x='Year', color='Document Type', barmode='group',
                    title='Distribución de Tipo de Producto por Año')
fig2.show()

Cantidad de autores por base de datos

In [23]:
cantidad_autores = tabla.groupby('Database')['Authors'].nunique().reset_index()
cantidad_autores.columns = ['Database', 'CantidadAutores']

# Crear el histograma con los datos agregados
fig3 = px.histogram(cantidad_autores, x='Database', y='CantidadAutores', title='Número de autores por base de datos')
fig3.update_layout(bargap=0.2)
fig3

Documentos por tipo de documento (Gráfico de Pastel)

In [24]:
# Gráfico de pastel para el tipo de documentos
fig4 = px.pie(tabla, names='Document Type', title='Distribución de tipos de documentos')
fig4

Número de artículos por base de datos (Database)

In [25]:
fig5 = px.histogram(tabla, x='Database', title='Número de Artículos por Base de Datos')
fig5.update_layout(bargap=0.2)
fig5

Número de documentos por año y tipo de documento (Gráfico de Barras Apiladas)

In [26]:
# Gráfico de barras apiladas
fig6 = px.histogram(tabla, x='Year', color='Document Type', title='Número de documentos por año y tipo')
fig6.update_layout(bargap=0.2, xaxis_title='Año', yaxis_title='Cantidad de Documentos')
fig6.show()


Publicaciones por editorial (Gráfico de Barras)

In [27]:
fig7 = px.violin(tabla, x='Publisher', y='Article Citation Count', 
                 title='Distribución de Publicaciones por Editorial (Gráfico de Violín)',
                 box=True, points="all")
fig7.update_layout(xaxis_title='Editorial', yaxis_title='Número de Citas de Artículos')
fig7.show()

Citas por Año

In [28]:
fig8 = px.scatter(tabla, x='Year', y='Article Citation Count', 
                  title='Citas de Artículos por Año')
fig8.update_layout(xaxis_title='Año', yaxis_title='Número de Citas')
fig8.show()


autores mas citados

In [None]:
tabla['Article Citation Count'] = pd.to_numeric(tabla['Article Citation Count'], errors='coerce')

# Elimina valores NaN en 'Article Citation Count' antes de agrupar
tabla = tabla.dropna(subset=['Article Citation Count'])

# Agrupa por autor y suma las citaciones para obtener los 15 autores más citados
top_authors = tabla.groupby('Authors')['Article Citation Count'].sum().nlargest(15)

# Crear el gráfico de barras para los 15 autores más citados
fig10 = px.bar(top_authors, x=top_authors.index, y=top_authors.values,
               title='Top 15 Autores más Citados',
               labels={'x': 'Autor', 'y': 'Total Citaciones'})
fig10.update_layout(xaxis_title='Autores', yaxis_title='Cantidad de Citaciones')
fig10.show()

Journal con artículos más citados

In [35]:
df_top_cited = tabla.sort_values(by='Article Citation Count', ascending=False).head(15)
fig11 = px.bar(df_top_cited, x='Publication Title', y='Article Citation Count',
              title='15 artículos más citados por Journal',
              labels={'Publication Title': 'Journal', 'Article Citation Count': 'Citas'},
              color='Authors')
fig11.show()


pais, autor

In [None]:


# Gráfico de la distribución de autores por país
fig12 = px.bar(pais_counts,
               x='País', 
               y='Cantidad de Autores', 
               title='Distribución de autores por país',
               labels={'País': 'País', 'Cantidad de Autores': 'Cantidad de Autores'})
fig12.show()

 Artículos más citados

In [None]:
top_articles = tabla.sort_values(by='Article Citation Count', ascending=False).head(15)
fig13 = px.bar(top_articles, x='Title', y='Article Citation Count',
              title='Top 15 artículos más citados',
              labels={'Title': 'Título del Artículo', 'Article Citation Count': 'Número de Citaciones'})
fig13.show()

Distribución por publisher

In [None]:
# Obtener los 15 publishers más comunes
publisher_counts = tabla['Publisher'].value_counts().head(15).reset_index()
# Renombrar las columnas
publisher_counts.columns = ['Publisher', 'Cantidad de Artículos']

# Crear el gráfico
fig14 = px.bar(publisher_counts,
               x='Publisher', 
               y='Cantidad de Artículos', 
               title='Distribución de artículos por publisher',
               labels={'Publisher': 'Publisher', 'Cantidad de Artículos': 'Cantidad de Artículos'})
fig14.show()

País y tipo de producto

In [None]:
fig15 = px.histogram(tabla, x='País', color='Document Type',
                     title='Distribución de tipos de producto por país',
                     labels={'País': 'País', 'Document Type': 'Tipo de Producto'})
fig15.show()