# Extraindo da API os dados de interesse

In [1]:
# importando bibliotecas
import urllib.request as libreq
import xmltodict
import pandas as pd
import numpy as np
from collections import OrderedDict
import regex as re
from datetime import datetime
from collections import Counter
from sqlalchemy import create_engine
import psycopg2
import matplotlib.pyplot as plt
%matplotlib inline

In [6]:
# Extraindo os dados da API
# depois de 'search_query=all:' colocar entre "" as palavras-chave que quer buscar
# na url colocar 'start' e 'max_range' para definir quantidade de periódicos
with libreq.urlopen('http://export.arxiv.org/api/query?search_query=all:"stress""epigenetic"&term="q-bio.BM""q-bio.GN""q-bio.MN""q-bio.NC"&start=0&max_results=10000') as url:
      r = url.read()

doc = xmltodict.parse(r)

# depois que funcionar tentar adicionar isso:
# term="q-bio.BM""q-bio.GN""q-bio.MN""q-bio.NC"&
# &sortBy=submittedDate&sortOrder=ascending

# Extraindo as informações da API

In [7]:
# Extraindo as informações que queremos daos dados da API
# quem preenche os campos são os próprios pesquisadores, então:
    # título, data de publicação e autores sempre aparecerão em cada artigo
    # nome da revista de publicação e universidade, não necessariamente estarão citados nos artigos

titulos = list()
resumos = list()
data_pub = list()
autores = list()
revista_pub = list()

# Apeendar titulo, resumo e data_pb nas respectivas variáveis
for i in range(len(doc['feed']['entry'])):
    titulos.append(str(doc['feed']['entry'][i]['title']).replace('\n', ''))
    resumos.append(str(doc['feed']['entry'][i]['summary']).replace('\n', ''))
    data_pub.append(doc['feed']['entry'][i]['published'])
    
# criando um lista com todos os autores de cada periódico   
    autores_paper = list()
    zona_autor = doc['feed']['entry'][i]['author']
    for i in range(len(zona_autor)):
        if len(zona_autor) > 1 and type(zona_autor) != OrderedDict:
            try:
                autores_paper.append(zona_autor[i]['name'])
            except TypeError:
                None
        else:
            autores_paper.append(zona_autor['name'])
    autores.append(autores_paper)

# Jornal que o artigo foi publicado - nem todos os pesquisadores declararam essa informação
    try:
        a = doc['feed']['entry'][i]['arxiv:journal_ref']['#text']
        revista_pub.append(a)
    except KeyError:
        revista_pub.append(np.nan)
        


# Criando um DataFrame com os dados

In [8]:
# Criando um DataFrame com as informações úteis
papers = pd.DataFrame({'titulo' : titulos, 'resumo' : resumos, 'data_pub': data_pub, 'autores' : autores,
                       'revista' : revista_pub})

# arrumando a data de publicação 
pad_data = '[0-9]+-[0-9]+-[0-9]+'
papers['data_pub'] = papers['data_pub'].map(lambda x: re.findall(pad_data, x))
papers['data_pub'] = papers['data_pub'].apply(lambda x: "".join(x))

# Arrumando a coluna revista para str
pad_revista = '[A-z ]+'
papers['revista'] = papers['revista'].map(str)
papers['revista'] = papers['revista'].map(lambda x: re.findall(pad_revista, x))
papers['revista'] = papers['revista'].apply(lambda x: "".join(x))

# Analisando os dados
- Criar um contador para quantidade de publicação por autor
- Contar as revistas
- contar publicações por ano
- dar um jeito de analisar as palavras-chave dos estudos

In [16]:
# variável 'contador_pub', com a quantidade de publicações por pesquisador
lista_autores = list()
for lista in papers['autores']:
    for autor in lista:
        lista_autores.append(autor)

contag_aut = Counter(autor for autor in lista_autores)
contador_pub = contag_aut.most_common()

# variável 'contador_rev', com a quantidade de publicações por revista
contador_rev = papers['revista'].value_counts()

# variável 'contador_pub_ano', quantidade de publicações a cada ano
pad_ano = '[0-9]+'
pub_ano = list()
for data in map(lambda x: re.findall(pad_ano, x), papers['data_pub']):
    pub_ano.append(data[0])
contag_pub_ano = Counter(ano for ano in pub_ano)
contador_pub_ano = contag_pub_ano.most_common()

# variável 'evol_pub_ano' = aumento de publicações por ano ordenados por ano crescente
df_pub_ano = pd.DataFrame({'titulo' : papers['titulo'], 'ano' : pub_ano})
df_pub_ano
evol_pub_ano = df_pub_ano.groupby(by = 'ano').count().sort_values(by = 'ano')

# fazer a contagem das palavras do títulos e ver quais termos técnicos mais apareceram
# criar lista de str para fazer a contagem
# tirar pontuação e colocar tudo em minúsculo
# analisar DF e ver se tem palavras com mesmo conceito
lt_resumo = list()
for resumo in papers['resumo']:
    palavra = resumo.split()
    lt_resumo.append(palavra)
    
lt_str = list()
for resumo in lt_resumo:
    for palavra in resumo:
        lt_str.append(palavra)
        
for i in range(len(lt_str)):
    lt_str[i] = re.sub(r'[^\w\s]', '' , lt_str[i].lower())
for i in range(len(lt_str)):
    lt_str[i] = re.sub(r'stresses', 'stress' , lt_str[i])
for i in range(len(lt_str)):
    lt_str[i] = re.sub(r'genetic', 'gene' , lt_str[i])
for i in range(len(lt_str)):
    lt_str[i] = re.sub(r'epigene', 'epigenetic' , lt_str[i])

# a variável 'df_pc' contém um DF com a contagem de TODAS as palavras
contag_pc = Counter(pc for pc in lt_str).most_common()
df_pc = pd.DataFrame(contag_pc)
df_pc = df_pc.rename(columns={0: 'palavra_chave', 1 : 'ocorrencias'})

# Defini 8 palavras-chaves que tenham relação de depedência entre elas
'''
1. stress
2. behavior
3. epigene
4. dna
5. gene
6. methylation
7. chromatin
'''

# Criar DF com os resumos e o ano de publicação
# padronizar todos os resumos com minúscula e sem pontuação
# substiruir conceitos semelhantes
df_resumo_pc = pd.DataFrame({'resumo' : resumos, 'ano' : pub_ano})

for i in range(len(df_resumo_pc['resumo'])):
    df_resumo_pc['resumo'][i] = re.sub(r'[^\w\s]', '' , df_resumo_pc['resumo'][i].lower())
for i in range(len(df_resumo_pc['resumo'])):
    df_resumo_pc['resumo'][i] = re.sub(r'stresses', 'stress' , df_resumo_pc['resumo'][i])
for i in range(len(df_resumo_pc['resumo'])):
    df_resumo_pc['resumo'][i] = re.sub(r'genetic', 'gene' , df_resumo_pc['resumo'][i])
for i in range(len(df_resumo_pc['resumo'])):
    df_resumo_pc['resumo'][i] = re.sub(r'epigene', 'epigenetic' , df_resumo_pc['resumo'][i])
    
# Criar uma coluna no DF para cada palavra_chave 
# criando coluna 'stress'
pc_1 = 'stress'
df_resumo_pc['stress'] = df_resumo_pc['resumo'].agg(lambda x: pc_1 in x)
# criando coluna 'behavior'
pc_2 = 'behavior'
df_resumo_pc['behavior'] = df_resumo_pc['resumo'].agg(lambda x: pc_2 in x)
# criando coluna 'epigene'
pc_3 = 'epigenetic'
df_resumo_pc['epigenetic'] = df_resumo_pc['resumo'].agg(lambda x: pc_3 in x)
# criando coluna 'dna'
pc_4 = 'dna'
df_resumo_pc['dna'] = df_resumo_pc['resumo'].agg(lambda x: pc_4 in x)
# criando coluna 'gene'
pc_5 = 'gene'
df_resumo_pc['gene'] = df_resumo_pc['resumo'].agg(lambda x: pc_5 in x)
# criando coluna 'methylation'
pc_6 = 'methylation'
df_resumo_pc['methylation'] = df_resumo_pc['resumo'].agg(lambda x: pc_6 in x)
# criando coluna 'chromatin'
pc_7 = 'chromatin'
df_resumo_pc['chromatin'] = df_resumo_pc['resumo'].agg(lambda x: pc_7 in x)

# dropando a coluna 'titulo'
df_resumo_pc = df_resumo_pc.drop(columns = ['resumo'])
# variável 'soma_pc_ano' = quantidade de ocorrências de cada pc por ano
soma_pc_ano = df_resumo_pc.groupby(by = 'ano').sum()
# dropando primeira e última linha - informações incompletas sobre o ano
soma_pc_ano = soma_pc_ano.reset_index()
soma_pc_ano = soma_pc_ano.drop([0, len(soma_pc_ano) - 1])

TypeError: expected string or buffer

# Exportando as tabelas para carregar no Tableau

## Listas para exportar
- contador_rev
- contador_pub
- contador_pub_ano
- evol_pub_ano
- soma_pc_ano

In [41]:
#Organizando as tabelas para exportar
contador_rev = pd.DataFrame(contador_rev)
contador_rev.transpose()

contador_pub = pd.DataFrame(contador_pub)
contador_pub = contador_pub.transpose()
contador_pub = contador_pub.rename(columns = {0 : 'Autor', 1 : 'Num. Pub.'})

evol_pub_ano = evol_pub_ano.drop('2022')

soma_pc_ano

In [57]:
# Exportar para uma pasta para carregar no Tableau
contador_rev.to_csv(r'datas/Pub_por_Revista.csv', index = True)
contador_pub.to_csv(r'datas/pub_por_pesq.csv', index = True)
evol_pub_ano.to_csv(r'datas/pub_por_ano.csv', index = True)
soma_pc_ano.to_csv(r'datas/pc_por_ano.csv', index = True)

# Subindo para o banco de dados SQL

In [61]:
engine = create_engine('postgresql+psycopg2://postgres:coringa@localhost:5432/ironhack')
# Subindo a tb_paper
papers.to_sql('tb_paper', con=engine, schema='arxiv', if_exists='replace', index_label='id_paper')
# Subindo a tb_pesquisador
autores_uniq = list(contag_aut.keys())
autores_uniq = pd.DataFrame(autores_uniq)
autores_uniq = autores_uniq.rename(columns = {0: 'nome'})
autores_uniq.to_sql('tb_pesquisador', con=engine, schema='arxiv', if_exists='replace', index_label='id_pesquisador')

# Baixando o BD do SQL para o Python

In [2]:
engine = create_engine('postgresql+psycopg2://postgres:coringa@localhost:5432/ironhack')
papers = pd.read_sql_query('SELECT * FROM arxiv.tb_paper', engine)

## Quantidade de publicações por revista por ano

In [22]:
#Arrumando a coluna data_pub
pad_data = '[0-9]+-[0-9]+-[0-9]+'
papers['data_pub'] = papers['data_pub'].map(str)
papers['data_pub'] = papers['data_pub'].map(lambda x: re.findall(pad_data, x))
papers['data_pub'] = papers['data_pub'].apply(lambda x: "".join(x))

#identificando o ano da publicação
pad_ano = '[0-9]+'
pub_ano = list()
for data in map(lambda x: re.findall(pad_ano, x), papers['data_pub']):
    pub_ano.append(data[0])
    
papers['ano_pub'] = pub_ano

#Criando DF com o ano de publicação e revistas
rev_ano = papers['ano_pub'], papers['revista']
rev_ano = pd.DataFrame(rev_ano)
rev_ano = rev_ano.transpose()

rev_ano['publicações'] = 'x'
rev_ano = rev_ano.groupby(by = ['ano_pub', 'revista'], as_index = False).count()

#tirando os 'nan'
mascara_na = rev_ano['revista'] != 'nan'
rev_ano = rev_ano[mascara_na]

In [126]:
rev_ano.to_csv(r'rev_ano.csv', index = True)

## Buscando behavior & gene dos resumos

In [96]:
# precisa rodar o código de cima para rodar esses
bg = (papers['ano_pub'], papers['resumo'])
bg = pd.DataFrame(bg)
bg = bg.transpose()

In [97]:
for i in range(len(bg['resumo'])):
    bg['resumo'][i] = re.sub(r'[^\w\s]', '' , bg['resumo'][i].lower())

In [98]:
bg['Genetic Behavior'] = bg['resumo'].agg(lambda x: ('gene' or 'genetic') and 'behavior' in x)

In [99]:
# criando e limpando o DF com as aparições de 'genetic_behavior' por ano
bg = bg.groupby(by = 'ano_pub', as_index = False).sum()
bg = bg.drop(0)
bg = bg.drop(1)
bg = bg.drop(31)
bg = bg.rename(columns={'ano_pub' : 'ano'})
bg = bg.reset_index()

In [101]:
for i in range(len(bg['ano'])):
    bg['ano'][i] = int(bg['ano'][i])

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  bg['ano'][i] = int(bg['ano'][i])


In [35]:
pc_ano = pd.read_csv('datas\pc_por_ano.csv')

In [105]:
pc_ano.drop(columns = ['index', 'Unnamed: 0'])

Unnamed: 0,ano,stress,behavior,epigenetic,dna,gene,methylation,chromatin,Genetic Behavior
0,1993,38,2,0,0,10,0,0,2
1,1994,55,3,0,0,17,0,0,3
2,1995,95,4,0,1,27,0,0,4
3,1996,93,7,0,2,32,0,0,7
4,1997,149,12,0,1,51,0,0,12
5,1998,168,22,0,0,59,0,0,22
6,1999,154,7,0,1,50,0,0,7
7,2000,217,16,2,3,68,0,0,16
8,2001,230,16,2,4,76,0,1,16
9,2002,256,36,0,3,73,0,0,36


In [103]:
pc_ano = pd.merge(pc_ano, bg, on = 'ano')

In [51]:
bg.to_csv(r'genetics_behavior_ano.csv', index = True)