forked from leobarone/FLS6397_2018
-
Notifications
You must be signed in to change notification settings - Fork 5
/
FLS6397 Syllabus.rmd
87 lines (61 loc) · 6.8 KB
/
FLS6397 Syllabus.rmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
---
title: 'FLS6397 - Introdução à Programação e Ferramentas Computacionais para as Ciências Sociais'
output:
html_document:
df_print: paged
geometry: margin=1.0in
---
## 1. Informações básicas
Primeiro Semestre, 2019
DCP - FFLCH - USP, Sala 18 Prédio da C. Sociais/Filosofia
Sexta-feira, 14h - 18h
Leonardo S. Barone e Jonathan Phillips
Site do curso: [https://jonnyphillips.github.io/FLS6397_2019/](https://jonnyphillips.github.io/FLS6397_2019/)
## 2. Apresentação
O curso oferece aos estudantes de pós-graduação em ciências sociais uma iniciação à lógica de programação e ao uso de ferramentas computacionais para (1) coleta (2) organização e preparação e (3) apresentação de dados para pesquisa social. O foco do curso é o desenvolvimento da habilidade de programação para solução de problemas diversos relacionados ao manejo de dados com fins de pesquisa. Note-se que não é um curso de metodologia de pesquisa, análise de dados ou de ciências sociais computacionais.
Este curso pretende preencher uma lacuna de formação comum em aluno/as de pós-graduação em ciências sociais referente à habilidade de lidar com dados e ferramentas computacionais para a condução de suas pesquisas.
O curso está dividido em duas partes. A primeira parte do curso foca na preparação do ambiente computacional, apresentação de ferramentas e "alfabetização" e nas linguagens de programação utilizadas no curso -- R, Git, Markdown, Latex etc. A segunda parte foca em aplicações das habilidades desenvolvidas a problemas de manipulação de grandes bases de dados, coleta de dados na internet e via uso de APIs de terceiros, organização de documentos para análise textual, confecção de gráficos e mapas ou demais tópicos de interesse da turma.
## 3. Estrutura do curso
### Aulas, leituras e materiais
As aulas serão compostas por breves apresentações dos tópicos e por longos laboratórios, com tutoriais para auto-aprendizado e acompanhamento dos instrutores e assistentes. Espera-se que a turma pratique exaustivamente, dentro e fora de sala de aula, as técnicas aprendidas.
### Atividades e tempo de dedicação
Ao longo do curso as participantes deverão solucionar um desafio correspondente aos tópicos. Exemplos de desafios: (1) organizar automaticamente dados eleitorais a partir do repositório de dados do TSE; (2) elaborar um mapa com dados municipais a partir do DATASUS; (3) criar um corpus de notícias da internet; (4) abrir e organizar os dados do ENEM ou Censo Populacional. Os desafios exigirão dedicação extra-classe e são parte fundamental do curso.
No final do curso as estudantes deverão elaborar um projeto individual ou em grupo.
Entre aulas, tutoriais, leituras e desafios, espera-se que cada aluna ou aluno dedique de 8h a 12h por semana à disciplina.
### Avaliação
A avaliação é composta pela entrega dos desafios, do projeto final e da participação. A atribuição de nota para os desafios e projetos entregues priorizará o esforço e engenhosidade apresentados (leia-se "código com erros, mas bem elaborado") em detrimento da finalização do desafio (leia-se "código funcionando plenamente") como forma de encorajar estudantes iniciantes.
## 4. Requisitos
Não é necessário nenhum conhecimento prévio de programação, pacotes estatísticos ou manejo de conjuntos de dados. O curso é recomendado para tanto alunas e alunos que já têm alguma noção quanto para estudantes que morrem de medo de computadores. O objetivo é criar um ambiente confortável para o aprendizado de técnicas programação, independentemente da habilidade das inscritas, e seguindo todos os passos desde a preparação do ambiente de computação até a apresentação de resultados.
É recomendado que as participantes já tenham concluído ou esteja cursando algum curso de métodos de pesquisa (de qualquer abordagem) ou de análise de dados, seja do programa ou da IPSA-USP Summer School. É um curso adequado para estudantes em qualquer etapa do mestrado ou doutorado, desde que tenham disponibilidade para realizar as atividades extra-classe.
## 5. Tópicos
1. Introdução ao curso e R Básico (22/03/2019)
2. Do básico ao intermediário (29/03/2019)
3. Abrindo e manipulando data frames (05/04/2019)
4. Primeiros passos no tidyverse (12/04/2019)
5. Visualização de dados (26/04/2019)
6. Mapas e GIS (03/05/2019)
7. Strings e Mineração de Textos (10/05/2019)
8. Funções, iteração e vetorialização (17/05/2019)
9. RMarkdown, e integração R e databases (24/05/2019)
10. Latex, Git e Pesquisa Reproduzível (31/05/2019)
11. Programação Funcional e simulações (07/06/2019)
12. Raspagem de dados na internet (14/06/2019)
## 6. Bibliografia
## Leituras obrigatórias
- Grolemund, Garrett (2014). Hands-On Programming with R. Ed: O'Reilly Media. [aqui](https://rstudio-education.github.io/hopr/)
- Wichkam, Hadley e Grolemund, Garrett (2016). R for Data Science. Ed: O'Reilly Media. Disponível gratuitamente [aqui](https://r4ds.had.co.nz/)
- Silge, Julia e Robinson, David (2017). Text Mining with R: A Tidy Approach. Ed: O'Reilly Media. Disponível gratuitamente [aqui](https://www.tidytextmining.com/)
- Wichkam, Hadley (2014). Advanced R. Ed: Chapman and Hall/CRC. Disponível gratuitamente [aqui](http://adv-r.had.co.nz/)
- Gillespie, Colin e Lovelace, Robin (2016). Efficient R programming. Ed: O'Reilly Media. Disponível gratuitamente [aqui](https://csgillespie.github.io/efficientR/)
## Leituras Complementares
- Jones, O., Maillardet, R., & Robinson, A. (2009). Introduction to Scientific Programming and Simulation Using R (1 edition). Boca Raton, FL: Chapman and Hall/CRC.
- Makhabel, B. (2015). Learning Data Mining with R. Packt Publishing Ltd.
- Munzert, S., Rubba, C., MeiBner, P., & Nyhuis, D. (2014). Automated Data Collection with R: A Practical Guide to Web Scraping and Text Mining. John Wiley & Sons.
- Nolan, D., & Lang, D. T. (2013). XML and Web Technologies for Data Sciences with R. Springer Science & Business Media.
- Teetor, P. (2011). R Cookbook: Proven Recipes for Data Analysis, Statistics, and Graphics. O’Reilly Media, Inc.
- Wickham, Hadley. ggplot2: Elegant Graphics for Data Analysis. Springer-Verlag New York, 2009.
- Zuur, A., Ieno, E. N., & Meesters, E. (2009). A Beginner’s Guide to R (2009 edition). Dordrecht.; New York: Springer.
## Ferramentas
- Barone, Leonardo Sangali, Aslan, Alexia and McDonnell, Robert Myles (2016). bRasilLegis: R Tools for Brazilian Chamber of Deputies (Camara Dos Deputados) Data. R package version 1.0. https://CRAN.R-project.org/package=bRasilLegis
- Ingo Feinerer and Kurt Hornik (2015). tm: Text Mining Package. R package version 0.6-2. https://CRAN.R-project.org/package=tm
- Duncan Temple Lang and the CRAN Team (2016). XML: Tools for Parsing and Generating XML Within R and S-Plus. R package version 3.98-1.4. https://CRAN.R-project.org/package=XML