Materials for WUT course Advanced Programming and Data Analysis with R
Switch branches/tags
Nothing to show
Clone or download
Latest commit 26bfd79 Jun 13, 2018

README.md

Programowanie i analiza danych w R dla Zaawansowanych

Zanim zaczniemy:

https://goo.gl/forms/rZPuFVsXgVECY2403

Plan spotkań MINI PW

Projekt 2

Treść projektu drugiego jest tutaj

Projekt 1

Wyniki

Projekt 1 można wykonywać w grupach do 3 osób. Celem projektu jest zebranie z różnych źródeł skryptów R od różnych autorów, a następnie wykonanie prostej analizy częstościowej na tych skryptach. Każdy zespół powinien:

  1. Z repozytoriów kodu R (takich jak GitHub, CRAN, Bioconductor inne) pobrać kody instrukcji R dla przynajmniej 10 różnych autorów (zalecana liczba to 100+ różnych autorów). Kody powinny być zbierane w postaci plików tekstowych z podziałem na dwie grupy: A) kody R dla pakietów i B) kody R dla skryptów/analiz/raportów.
  2. Po zebraniu kodów dla każdego autora/grupy należy przeprowadzić analizę dotyczącą częstości wykorzystania różnych pakietów R/funkcji R.
  3. Należy zaprezentować analizę porównawczą kodów od różnych autorów/grup.

Wśród zebranych skryptów należy mieć przynajmniej 10 autorów/źródeł których nie ma żadna inna grupa.

Punkt 3 będzie prezentowany na zajęciach. Zaliczenie tego projektu jest na podstawie zaprezentowanego raportu oraz wolumenu zebranych kodów R.

Można w analizach wykorzystywać kody zebrane przez inne zespoły (za ich zgodą), ale każdy zespół musi dostarczyć przynajmniej 10 unikatowych źródeł.

Jako ciekawe rozszerzenie projektu można potrafktować analizy związane ze sposobem nazywania zmiennych/funkcji.

Wyniki (prezentacje, skrypty scapujące dane) proszę umieścić w katalogu Projekt1 w podkatalogu z nazwą zespołu. Spakowane pozyskane skrypty R należy umieścić w portalu typu WeTransfer, Dropbox, GDrive. W ww katalogu wystarczy umieścić link do tych materiałów.

Prezentacje pakietów

Punktacja

W niewielkich grupach (jedna lub dwie osoby) proszę przygotowac krótką prezentację nt jednego wybranego pakietu dla R. Prezentacja powinna być krótka (10 min) zawierać informacje o tym: 1. jaki problem rozwiązuje dany pakiet, 2. przykład użycia danego pakietu, 3. dyskusja nt elastyczności i łatwości użycia danego pakietu.

Pakiety należy omawiać w oparciu o artykułu z JSS. Lista pakietów do wyboru znajduje się poniżej. Do jednego tematu zgłosić może się maksymalnie jedna grupa, decyduje kolejność zgłoszeń, proszę dopisać się poniżęj do tematu i przesłać zgłoszenie jako pull request.

Prezentacja powinna trwać do 10 min, ale należy przewidzieć kolejne 10 min na dyskusje / samodzielne uruchomienie pakietu przez uczestników zajęć (do prezentacji należy dołączyć kod R lub umieścić go na slajdach w prezentacji).

Tematy:

Zaliczenie

Zaliczenie jest oparte o

  • zespołowy projekt 1 (30% zaliczenia),
  • prezentacje pakietów (20% zaliczenia),
  • indywidualny projekt 2 (50% zaliczenia).

Materiały dodatkowe

Scrapping

library("BetaBit")
proton()

------

w80dni <- readLines("http://www.gutenberg.org/cache/epub/103/pg103.txt")
head(w80dni)

------

library("rvest")
premiery <- read_html("http://www.filmweb.pl/premiere")
filmy <- html_nodes(premiery, ".filmPreview__title")
html_text(filmy)