#PraTodosVerem é um projeto para geração automatizada de legendas para imagens de redes sociais.
⚠️ Ferramentas de automação (como esta) não resolvem o problema da acessibilidade! Antes de tudo, procure a orientação de um especialista em acessibilidade.
#PraCegoVer #PraTodosVerem: Plano de fundo azul claro com branco. No topo da imagem, lado esquerdo, o logotipo com o brasão Cidade de São Paulo Pessoa com Deficiência. Centralizado, a frase: Você conhece? Abaixo, a ilustração de um mapa, com vários ícones de localização, que sinalizam: assistência social, esporte, saúde, educação e cultura. Mais texto, abaixo, em azul: Mapa da Rede serviços acessíveis para pessoas com deficiência.
Os dados foram versionados com o DVC e utilizam o Google Drive como remote.
Solicite permissão de acesso ao administrador do projeto (fabio.beranizo@gmail.com
).
A partir do diretório raiz rode o seguinte comando:
dvc pull
A pasta data/raw/ possui os dados brutos, adquiridos com a ferramenta de coleta.
O nome de cada pasta indica a data/hora que o post foi publicado (ex: 202210092332). Dentro da pasta estão as imagens, autor e descrição da publicação (sem formatação).
O Selenium WebDriver automatiza a coleta de dados de publicações em redes sociais (no momento, LinkedIn e Instagram).
A imagem docker docker.io/fberanizo/pra-todos-verem-data-collection:1.0.0
já possui todas as dependências instaladas e é a forma mais fácil de rodar este passo.
A implementação faz uso do Geckodriver e requer a instalação do Mozilla Firefox.
export LINKEDIN_USERNAME="<seu-nome-de-usuario>"
export LINKEDIN_PASSWORD="<sua-senha-nao-faca-commit-dela>"
python -m pra_todos_verem.data_collection.collect \
--website linkedin \
--query PraTodosVerem \
--output_path data/raw/ \
--max_downloads 100
Parâmetros:
usage: collect.py [-h] [--website WEBSITE] [--query QUERY] [--output_path OUTPUT_PATH] [--headless]
[--max_downloads MAX_DOWNLOADS]
Ferramenta de coleta de imagens em publicações #PraTodosVerem
optional arguments:
-h, --help show this help message and exit
--website WEBSITE Website. Default: linkedin
--query QUERY Query de busca. Default: PraTodosVerem
--output_path OUTPUT_PATH
Diretório onde salvar os dados 'raw' (imagens e textos). Default: data/raw/
--headless Habilita headless browsing.
--max_downloads MAX_DOWNLOADS
Total de publicações visitadas. Default: 5.