Baixar datasets relacionados #26

nymarya · 2019-08-01T16:58:34Z

Adicionada a função `download_related_datasets, que recebe uma palavra-chave de interesse.

itepifanio

A mensagem de nenhum conjunto de dados dá um espaço muito grande:

Se puder deixar numa linha só mesmo

itepifanio

Tudo certo, nada errado 👍

diegodiogenes

Show de bola 👍

alvarofpp

Trocar def _levenshtein(self, str1, str2): por def _levenshtein(self, str1: list, str2: list) -> float:, para manter as boas práticas.

Não acho que foi necessário a quebra de linha na função download_datasets, visto que estava dentro da quantidade de caracteres por linha definido pelo PEP. Mas isso é frescura minha mesmo.

alvarofpp · 2019-08-01T20:17:24Z

Estava pensando em duas coisas aqui que acho que seria interessante debater.

Levenshtein

É um conjunto de duas funções, uma que realiza o cálculo (_levenshtein) e outra que aplica o filtro (_search_related_datasets). Creio que seria interessante torna isso em um mixin e implementá-lo na classe Dataset, ao invés de serem funções da dita classe. Dessa forma, podemos aplicar isso para filtrar tanto os datasets, como os grupos (fará mais sentido após a leitura do tópico a seguir).

Fluxo

Creio que poderíamos alterar essa issue para se tornar uma função que retorna uma lista com os datasets relacionados, porém não que realiza o download. Pensei nisso devido que não tenho o controle ou garantia que os datasets que estão sendo baixados serão justamente os que eu queria. E se ao invés de todos os datasets, eu querer excluir um? Não consigo fazer isso com a função. O dataset que não quero será baixado da mesma forma. Se aplicarmos uma função que retorna a lista de datasets, porém não baixa eles direto, eu tenho o poder de decidir o que será ou não baixado.

discentes_datasets = ufrn_data.related_datasets('discente')
ufrn_data.download_datasets( discentes_datasets[:-1] )

Dessa forma, poderíamos expandir isso para ter uma função que procura os grupos relacionados a sua entrada (por isso faz sentido transformar em um mixin, como disse no tópico anterior).

alvarofpp · 2019-08-01T20:17:51Z

@nymarya @itepifanio @diegodiogenes Comentem sobre o que abordei anteriormente.

nymarya · 2019-08-01T21:07:37Z

Trocar def _levenshtein(self, str1, str2): por def _levenshtein(self, str1: list, str2: list) -> float:, para manter as boas práticas.

Não acho que foi necessário a quebra de linha na função download_datasets, visto que estava dentro da quantidade de caracteres por linha definido pelo PEP. Mas isso é frescura minha mesmo.

Pelo que achei e pelo plugin que eu uso, o máximo de caracteres é 79 (https://www.python.org/dev/peps/pep-0008/#maximum-line-length)

alvarofpp · 2019-08-02T01:32:45Z

Trocar def _levenshtein(self, str1, str2): por def _levenshtein(self, str1: list, str2: list) -> float:, para manter as boas práticas.
Não acho que foi necessário a quebra de linha na função download_datasets, visto que estava dentro da quantidade de caracteres por linha definido pelo PEP. Mas isso é frescura minha mesmo.

Pelo que achei e pelo plugin que eu uso, o máximo de caracteres é 79 (https://www.python.org/dev/peps/pep-0008/#maximum-line-length)

Ah, pois show. É porque eu uso o da JetBrains, aí ele deixa uma linha marcando, mas deve ser outro limite.

itepifanio · 2019-08-02T12:30:55Z

Estava pensando em duas coisas aqui que acho que seria interessante debater.

Levenshtein

É um conjunto de duas funções, uma que realiza o cálculo (_levenshtein) e outra que aplica o filtro (_search_related_datasets). Creio que seria interessante torna isso em um mixin e implementá-lo na classe Dataset, ao invés de serem funções da dita classe. Dessa forma, podemos aplicar isso para filtrar tanto os datasets, como os grupos (fará mais sentido após a leitura do tópico a seguir).

Gostei da ideia do mixin e do fluxo levado em consideração, porém acredito que isso pode ser feito durante o desenvolvimento dessa outra issue.

Fluxo

Creio que poderíamos alterar essa issue para se tornar uma função que retorna uma lista com os datasets relacionados, porém não que realiza o download. Pensei nisso devido que não tenho o controle ou garantia que os datasets que estão sendo baixados serão justamente os que eu queria. E se ao invés de todos os datasets, eu querer excluir um? Não consigo fazer isso com a função. O dataset que não quero será baixado da mesma forma. Se aplicarmos uma função que retorna a lista de datasets, porém não baixa eles direto, eu tenho o poder de decidir o que será ou não baixado.
discentes_datasets = ufrn_data.related_datasets('discente')
ufrn_data.download_datasets( discentes_datasets[:-1] )
Dessa forma, poderíamos expandir isso para ter uma função que procura os grupos relacionados a sua entrada (por isso faz sentido transformar em um mixin, como disse no tópico anterior).

Quanto a baixar sem ter realmente um arquivo, para ser integrado mais facilmente com notebooks eu acho uma ótima ideia, quando pensei no pacote era mais para baixar os arquivos sem ter que ir clicando na interface, mas isso deixa o programador com a tarefa de recuperar os arquivos, dessa forma que tu propõe é bem interessante para protótipação e análises rápidas. Quando abrir a issue discutimos se utilizaremos flags para indicar essa nova funcionalidade ou uma função nova.

diegodiogenes · 2019-08-02T16:13:32Z

Estava pensando em duas coisas aqui que acho que seria interessante debater.

Levenshtein

É um conjunto de duas funções, uma que realiza o cálculo (_levenshtein) e outra que aplica o filtro (_search_related_datasets). Creio que seria interessante torna isso em um mixin e implementá-lo na classe Dataset, ao invés de serem funções da dita classe. Dessa forma, podemos aplicar isso para filtrar tanto os datasets, como os grupos (fará mais sentido após a leitura do tópico a seguir).

Gostei da ideia de expandir para um mixin.

Fluxo

Creio que poderíamos alterar essa issue para se tornar uma função que retorna uma lista com os datasets relacionados, porém não que realiza o download. Pensei nisso devido que não tenho o controle ou garantia que os datasets que estão sendo baixados serão justamente os que eu queria. E se ao invés de todos os datasets, eu querer excluir um? Não consigo fazer isso com a função. O dataset que não quero será baixado da mesma forma. Se aplicarmos uma função que retorna a lista de datasets, porém não baixa eles direto, eu tenho o poder de decidir o que será ou não baixado.
discentes_datasets = ufrn_data.related_datasets('discente')
ufrn_data.download_datasets( discentes_datasets[:-1] )
Dessa forma, poderíamos expandir isso para ter uma função que procura os grupos relacionados a sua entrada (por isso faz sentido transformar em um mixin, como disse no tópico anterior).

Acho que além dos datasets e grupos relacionados, isso poderia ser expandido para a lista dos próprios grupos em si, por exemplo, um cara quer o grupo de ensino, mas não quer os datasets de empréstimos da biblioteca. Então antes de realizar o download, poderíamos listar os datasets de cada grupo.

@alvarofpp @nymarya @itepifanio o que acham? Sugiro quebrarmos em novas issue também, claro.

nymarya added 3 commits July 31, 2019 15:45

fix #14 - procura palavras semelhantes usando distancia de leevnshtein

9de99d5

corrige erro

0169078

adiciona comentários

2c60cfa

nymarya requested review from itepifanio, alvarofpp and diegodiogenes August 1, 2019 16:58

baixa datasets

2833089

itepifanio requested changes Aug 1, 2019

View reviewed changes

corrige print de erro

f7fae72

nymarya requested a review from itepifanio August 1, 2019 17:19

itepifanio approved these changes Aug 1, 2019

View reviewed changes

diegodiogenes approved these changes Aug 1, 2019

View reviewed changes

alvarofpp requested changes Aug 1, 2019

View reviewed changes

nymarya added 2 commits August 1, 2019 18:09

resolve conflito

c5e6443

ajusta definicao de funcao segundo pep8

256a45b

corrige assinatura dos metodos

be3e0b9

alvarofpp approved these changes Aug 2, 2019

View reviewed changes

alvarofpp merged commit c742f60 into master Aug 2, 2019

alvarofpp deleted the issue_14-baixar_datasets_relacionados branch August 2, 2019 17:52

alvarofpp mentioned this pull request Aug 4, 2019

Alterar fluxo de baixar datasets relacionados #33

Closed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Baixar datasets relacionados #26

Baixar datasets relacionados #26

nymarya commented Aug 1, 2019

itepifanio left a comment

itepifanio left a comment

diegodiogenes left a comment

alvarofpp left a comment

alvarofpp commented Aug 1, 2019

alvarofpp commented Aug 1, 2019

nymarya commented Aug 1, 2019 •

edited

Loading

alvarofpp commented Aug 2, 2019

itepifanio commented Aug 2, 2019

Levenshtein

Fluxo

diegodiogenes commented Aug 2, 2019 •

edited

Loading

Levenshtein

Fluxo

Baixar datasets relacionados #26

Baixar datasets relacionados #26

Conversation

nymarya commented Aug 1, 2019

itepifanio left a comment

Choose a reason for hiding this comment

itepifanio left a comment

Choose a reason for hiding this comment

diegodiogenes left a comment

Choose a reason for hiding this comment

alvarofpp left a comment

Choose a reason for hiding this comment

alvarofpp commented Aug 1, 2019

Levenshtein

Fluxo

alvarofpp commented Aug 1, 2019

nymarya commented Aug 1, 2019 • edited Loading

alvarofpp commented Aug 2, 2019

itepifanio commented Aug 2, 2019

Levenshtein

Fluxo

diegodiogenes commented Aug 2, 2019 • edited Loading

Levenshtein

Fluxo

nymarya commented Aug 1, 2019 •

edited

Loading

diegodiogenes commented Aug 2, 2019 •

edited

Loading