Skip to content

Latest commit

 

History

History
75 lines (45 loc) · 4.73 KB

zeeschuimer.md

File metadata and controls

75 lines (45 loc) · 4.73 KB
layout keywords comments title description author micro_nav page_nav
default
false
zeeschuimer
Curso de raspagem de dados das mídias sociais
title title_url external_url description
DDoS Lab
true
Laboratório de Combate à Desinformação e ao Discurso de Ódio em Sistemas de Comunicação em Rede
false
next
content url
Raspagem de Dados
/zeeschuimer_01A

Proposta do Curso

Este é um curso de curta duração cujo principal objetivo é apresentar, em uma linguagem objetiva e instrumental, técnicas de extração e tratamento de dados obtidos a partir de diferentes plataformas digitais. A oficina não se propõe a introduzir princípios e fundamentos da linguagem R ou da ciência de dados, mas alguns desses tópicos podem ser discutidos ao longo das aulas. No geral, pretende-se trabalhar com a raspagem de dados das mídias sociais por meio de uma extensão para o navegador Mozilla Firefox desenvolvida pelo laboratório Digital Methods Initiative (DMI) da Universidade de Amsterdam. Em seguida à raspagem, será realizada a importação desses dados no software R Studio como um dataframe, e subsequente tratamento, transformação e visualização desses dados. Os alunos serão levados a exercitar essas habilidades e produzir análises exploratórias dos dados com estatísticas descritivas.

Requisitos e Funcionamento

O curso tem caráter de oficina. Serão ministradas três aulas síncronas com 4h de duração cada. Os alunos receberão material de apoio, documentação e scripts com os principais comandos executados a cada aula. É necessário ter um computador (desktop ou laptop) com acesso à internet para o curso. Solicita-se a instalação prévia dos seguintes softwares, todos opensource:

Instale sempre primeiro o software R e depois o R Studio. Usuários de Mac Os devem instalar também o X Quartz https://www.xquartz.org/. Durante o curso, outros pacotes e plugins serão instalados, conforme orientação do(a) professor(a) responsável.

Recursos da Oficina

Principais Pacotes

dplyr · # O dplyr é um dos pacotes do Tidyverse e é voltado especificamente para o trabalho de manipulação de dados. O dplyr se estrutura em torno de um conjunto de verbos, que operam como funções para a manipulação de grandes bancos de dados. Para mais detalhes, acesse: https://dplyr.tidyverse.org/

ndjson · # O ndjson é um pacote para streaming e importação de arquivos json e ndjson com grande número de registros. Para mais detalhes, acesse: https://github.com/hrbrmstr/ndjson

tidyr · # O tidyr é um dos pacotes do Tidyverse e é voltado especificamente para a arrumação de bancos de dados. Para mais detalhes, acesse: https://tidyr.tidyverse.org/

stringr · # O stringr é um dos pacotes do Tidyverse e é voltado para a manipulação de strings textuais. Para mais detalhes, acesse: https://stringr.tidyverse.org/

ggplot2 · # O ggplot2 é um sistema para criação de gráficos, baseado em uma grámática própria e em camadas estéticas. Para mais detalhes, acesse: https://ggplot2.tidyverse.org/

rwhatsapp · # O rwhatsapp é um script desenvolvido por Johannes Gruber para manipulação e parse de dados exportados a partir de chats do WhatsApp. Para mais informações, consulte: https://github.com/JBGruber/rwhatsapp

Referências Adicionais