Kilka przykładowych agregacji korzystających z danych zipcodes oraz imieniny opisano w artykule Aggregation Framework Examples.
- Bełcik, Jakub. Przestępstwa uliczne.
- Białkowski, Dominik. Current Census Blocks for McKinley County.
- Brzeziński, Damian. GDELT-EventDatabase.
- Dermont, Jacek. Albumy muzyczne.
- Detlaf, Krzysztof. Bilans społeczny.
- Dępczyk, Michał. Broadband coverage.
- Dobrzycki, Wojciech. Lista osób.
- Dolata, Jędrzej.
- Domurat, Szymon. Youtube.
- Duwe, Oskar. Baza IMDB.
- Elszkowski, Adrian. Kody pocztowe.
- Gałka, Jacek.
- Głowacki, Michał.
- Gniado, Bartosz.
- Groszek, Rafał.
- Januszewski, Tomasz. UFO.
- Karczewski, Kamil. Baza filmów.
- Karwowski, Kamil. Strony internetowe.
- Kłeczek, Piotr. The Internet Movie Database.
- Kotłowski, Piotr. Lotniska.
- Koźmiński, Marcin.
- Królik, Przemysław. GetGlue IMDB.
- Kubacki, Konrad.
- Kwiatkowski, Mateusz. The Internet Movie Database.
- Lewandowska, Marta. Baby names.
- Łuczun, Rafał.
- Malinowski, Piotr.
- Małecki, Maciej.
- Matulewski, Damian. Głosowanie.
- Melzer, Grzegorz. GetGlue – TIMDB.
- Mieszała, Konrad. Bankowość.
- Motel, Mateusz. The Internet Movie Database.
- Motławski, Mateusz. Movies and tv shows Database.
- Napiórkowski, Sebastian.
- Osiński, Miłosz. Lista słów do gier.
- Ostrowski, Michał.
- Pietraszuk, Bartłomiej. Przypadki zauważenia UFO w USA.
- Paczyński, Łukasz. Lista pracowników.
- Piasecka, Aleksandra. Zestawienie.
- Pikora, Mateusz. Obserwacje UFO.
- Plichta, Oskar. The Internet Movie Database.
- Puchalski, Paweł. Lista zatrudnionych.
- Rogaszewski, Piotr.
- Rybarczyk, Karolina. Waga i wzrost.
- Sawicki, Paweł.
- Siora, Kacper. Deaths.
- Skiba, Marek. Apache Logs.
- Skowroński, Krzysztof. Pogoda w Edynburgu.
- Smykowski, Adrian. IMDB.
- Sott, Tomasz. BTS – On-Time Performance.
- Stefanowicz, Michał. Loty.
- Szygenda, Mateusz. Wypadki drogowe.
- Tomczak, Robert. The Internet Movie Database.
- Wąsowicz, Michał. GetGlue – Movies and TV Shows Database.
- Winsławski, Bartłomiej. Meritum Bank.
- Wiśniewski, Konrad. The Internet Movie Database.
- Zdunek, Kamil. Chicago Crimes.
- Żarkowski, Mateusz. PAMAP – Physical Activity Monitoring.
Provide public access to scripts, runs, and results:
- Version control all custom scripts:
- avoid writing code
- write thin scripts and use standard tools and use standard UNIX commands to chain things together.
- Avoid manual data manipulation steps:
- use a build system, for example make, and have all results produced automatically by build targets
- if it’s not automated, it’s not part of the project, i.e. have an idea for a graph or an analysis? automate its generation
- Use a markup, for example Markdown, to create reports for analysis and presentation output products.
And two more rules:
- Record all intermediate results, when possible in standardized formats.
- Connect textual statements to underlying results.
- Do automatycznego wygenerowania spisu treści w zadaniach można użyć narzędzia Table of Contents Preprocessor.
- Jak sobie radzić z nieczystymi committami?
- Stanford Large Network Dataset Collection by Jure Leskovec: Online Reviews (Amazon, Movies, Beer)
- GetGlue and Timestamped Event Data (ok. 11 GB); próbka 100 jsonów getglue101. Dane pochodzą z lat 2007–2012 – tylko filmy i przedstawienia TV. Przykładowe aggregacje: ilu jest różnych użytkowników w danych? jakie jest 10 najpopularniejszych filmów i przedstawień TV? ile jest różnych akcji?
