[Silver Pipeline] - Parte 001 - Cria extratores e normalizadores de dados by pitangainnovare · Pull Request #649 · scieloorg/scms-oca

pitangainnovare · 2026-05-07T20:07:32Z

O que esse PR faz?

Adiciona a base técnica de helpers puros para o ETL: normalização de DOI, ISBN, ISSN, idioma, país, texto, listas e extração de identificadores/metadados comuns de payloads SciELO/OpenAlex.

Onde a revisão poderia começar?

etl/normalizers.py e depois etl/extractors.py.

Como este poderia ser testado manualmente?

Rodar:

docker compose -f local.yml run --rm django pytest etl/tests/test_normalizers.py etl/tests/test_extractors.py --create-db

Algum cenário de contexto que queira dar?

Este PR prepara a base para a geração do índice Silver, separando helpers puros antes da introdução de models, pipeline, OpenSearch, tasks e admin.

Screenshots

N/A.

Quais são tickets relevantes?

Relacionado a #645.

Referências

Criar app/estrutura base para geração de índice Silver (docs mesclados) #645

samuelveigarangel · 2026-05-08T14:50:05Z

    return None
+
+
+def normalize_text(text: str | None) -> str | None:


Em search_gateway.option_normalization e harvest.language_normalizer tem funções que cumprem o mesmo proposito dessas, é interessante colocar todas essas funções em um diretório unico para evitar duplicação de código.

Ótimo. Proponho mover todas as funções de normalização para o core (Algo como core/normalization.py). Há outras em indicator que posso mover pra lá tbm, em algum momento.

Ou vc entende que devemos ter outra ideia?

samuelveigarangel · 2026-05-08T14:53:37Z

        self.assertEqual(scalar_or_list(["a", "b"]), ["a", "b"])
+
+
+class LanguageNormalizerTests(SimpleTestCase):


Há casos em que o valor do idioma vem em outros idiomas, por ex: Português. É o caso de adicionar uma tradução no valor do idioma para sempre inglês depois da normalização do valor. Outros exemplos de valores: "spanish sign language", "spanish castilian", "en us"

samuelveigarangel · 2026-05-08T14:57:27Z

+    ids = doc.get("ids") if isinstance(doc.get("ids"), dict) else {}
+    biblio = doc.get("biblio") if isinstance(doc.get("biblio"), dict) else {}
+
+    for key in ("isbn", "eisbn", "isbns", "eisbns"):


Dois for que interam sobre a mesma tupla. Realizar tudo no mesmo for

samuelveigarangel · 2026-05-08T15:02:37Z

+            values.append(raw_value)
+
+    for location_key in ("primary_location", "best_oa_location"):
+        location = doc.get(location_key) if isinstance(doc.get(location_key), dict) else {}


Na extração de isbns e issns há o acesso de algumas chaves em comum, não é o caso de criar uma função que extrai os mesmo valores para os dois casos ou são acessos diferentes? Talvez modularizar essas funções

samuelveigarangel · 2026-05-08T15:04:58Z

+
+    return titles
+
+


Não é um extrator.

Esta função extrai o campo title. Mas achei outros casos que não são extratores, de fato. Vou fazer uns ajustes.

Obrigado.

samuelveigarangel · 2026-05-08T15:05:36Z

+        return value[0] if value else None
+    return value
+
+


não é extrator

Este não é de fato. Irá para um utilitário (além de outros).

pitangainnovare added 8 commits May 7, 2026 16:38

Add ETL package namespace

2023ceb

Add ETL identifier normalizers

381654d

Add ETL text and collection normalizers

33e47df

Add ETL language normalizer

40f8817

Add ETL country normalizer

2ed7894

Add ETL identifier extractors

3e74dc6

Add ETL source and text extractors

b5f6683

Declare ETL helper public APIs

73b1422

pitangainnovare self-assigned this May 7, 2026

pitangainnovare added the enhancement New feature or request label May 7, 2026

pitangainnovare requested a review from samuelveigarangel May 7, 2026 20:07

pitangainnovare linked an issue May 7, 2026 that may be closed by this pull request

Criar app/estrutura base para geração de índice Silver (docs mesclados) #645

Closed

samuelveigarangel reviewed May 8, 2026

View reviewed changes

remove definicoes __all__

dffbcb3

pitangainnovare merged commit 9f11b0f into scieloorg:main May 13, 2026
3 checks passed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[Silver Pipeline] - Parte 001 - Cria extratores e normalizadores de dados#649

[Silver Pipeline] - Parte 001 - Cria extratores e normalizadores de dados#649
pitangainnovare merged 9 commits into
scieloorg:mainfrom
pitangainnovare:scms-oca-etl-helpers

pitangainnovare commented May 7, 2026

Uh oh!

samuelveigarangel May 8, 2026

Uh oh!

pitangainnovare May 10, 2026

Uh oh!

samuelveigarangel May 8, 2026

Uh oh!

samuelveigarangel May 8, 2026

Uh oh!

samuelveigarangel May 8, 2026

Uh oh!

samuelveigarangel May 8, 2026

Uh oh!

pitangainnovare May 10, 2026

Uh oh!

samuelveigarangel May 8, 2026

Uh oh!

pitangainnovare May 10, 2026

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants

		return None


		def normalize_text(text: str \| None) -> str \| None:

		self.assertEqual(scalar_or_list(["a", "b"]), ["a", "b"])


		class LanguageNormalizerTests(SimpleTestCase):

Conversation

pitangainnovare commented May 7, 2026

O que esse PR faz?

Onde a revisão poderia começar?

Como este poderia ser testado manualmente?

Algum cenário de contexto que queira dar?

Screenshots

Quais são tickets relevantes?

Referências

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants