Skip to content

fberanizo/pra-todos-verem

Repository files navigation

#PraTodosVerem (🚧In Progress🚧)

#PraTodosVerem é um projeto para geração automatizada de legendas para imagens de redes sociais.

⚠️ Ferramentas de automação (como esta) não resolvem o problema da acessibilidade! Antes de tudo, procure a orientação de um especialista em acessibilidade.

Exemplo

#PraCegoVer #PraTodosVerem: Plano de fundo azul claro com branco. No topo da imagem, lado esquerdo, o logotipo com o brasão Cidade de São Paulo Pessoa com Deficiência. Centralizado, a frase: Você conhece? Abaixo, a ilustração de um mapa, com vários ícones de localização, que sinalizam: assistência social, esporte, saúde, educação e cultura. Mais texto, abaixo, em azul: Mapa da Rede serviços acessíveis para pessoas com deficiência.

Download dos Dados (com o DVC)

Os dados foram versionados com o DVC e utilizam o Google Drive como remote.
Solicite permissão de acesso ao administrador do projeto (fabio.beranizo@gmail.com).
A partir do diretório raiz rode o seguinte comando:

dvc pull

A pasta data/raw/ possui os dados brutos, adquiridos com a ferramenta de coleta.
O nome de cada pasta indica a data/hora que o post foi publicado (ex: 202210092332). Dentro da pasta estão as imagens, autor e descrição da publicação (sem formatação).

Data Collection

O Selenium WebDriver automatiza a coleta de dados de publicações em redes sociais (no momento, LinkedIn e Instagram). A imagem docker docker.io/fberanizo/pra-todos-verem-data-collection:1.0.0 já possui todas as dependências instaladas e é a forma mais fácil de rodar este passo.

A implementação faz uso do Geckodriver e requer a instalação do Mozilla Firefox.

export LINKEDIN_USERNAME="<seu-nome-de-usuario>"
export LINKEDIN_PASSWORD="<sua-senha-nao-faca-commit-dela>"
python -m pra_todos_verem.data_collection.collect \
    --website linkedin \
    --query PraTodosVerem \
    --output_path data/raw/ \
    --max_downloads 100

Parâmetros:

usage: collect.py [-h] [--website WEBSITE] [--query QUERY] [--output_path OUTPUT_PATH] [--headless]
                  [--max_downloads MAX_DOWNLOADS]

Ferramenta de coleta de imagens em publicações #PraTodosVerem

optional arguments:
  -h, --help            show this help message and exit
  --website WEBSITE     Website. Default: linkedin
  --query QUERY         Query de busca. Default: PraTodosVerem
  --output_path OUTPUT_PATH
                        Diretório onde salvar os dados 'raw' (imagens e textos). Default: data/raw/
  --headless            Habilita headless browsing.
  --max_downloads MAX_DOWNLOADS
                        Total de publicações visitadas. Default: 5.

Notebooks

Materiais Úteis

About

No description, website, or topics provided.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages