Skip to content

aszykula/aggregations-2

 
 

Repository files navigation

Agregacje 2

Data Wranglers

Kilka przykładowych agregacji korzystających z danych zipcodes oraz imieniny opisano w artykule Aggregation Framework Examples.

Wasze agregacje

  1. Bełcik, Jakub. Przestępstwa uliczne.
  2. Białkowski, Dominik. Current Census Blocks for McKinley County.
  3. Brzeziński, Damian. GDELT-EventDatabase.
  4. Dermont, Jacek. Albumy muzyczne.
  5. Detlaf, Krzysztof. Bilans społeczny.
  6. Dępczyk, Michał. Broadband coverage.
  7. Dobrzycki, Wojciech. Lista osób.
  8. Dolata, Jędrzej.
  9. Domurat, Szymon. Youtube.
  10. Duwe, Oskar. Baza IMDB.
  11. Elszkowski, Adrian. Kody pocztowe.
  12. Gałka, Jacek.
  13. Głowacki, Michał.
  14. Gniado, Bartosz.
  15. Groszek, Rafał.
  16. Januszewski, Tomasz. UFO.
  17. Karczewski, Kamil. Baza filmów.
  18. Karwowski, Kamil. Strony internetowe.
  19. Kłeczek, Piotr. The Internet Movie Database.
  20. Kotłowski, Piotr. Lotniska.
  21. Koźmiński, Marcin.
  22. Królik, Przemysław. GetGlue IMDB.
  23. Kubacki, Konrad.
  24. Kwiatkowski, Mateusz. The Internet Movie Database.
  25. Lewandowska, Marta. Baby names.
  26. Łuczun, Rafał.
  27. Malinowski, Piotr.
  28. Małecki, Maciej.
  29. Matulewski, Damian. Głosowanie.
  30. Melzer, Grzegorz. GetGlue – TIMDB.
  31. Mieszała, Konrad. Bankowość.
  32. Motel, Mateusz. The Internet Movie Database.
  33. Motławski, Mateusz. Movies and tv shows Database.
  34. Napiórkowski, Sebastian.
  35. Osiński, Miłosz. Lista słów do gier.
  36. Ostrowski, Michał.
  37. Pietraszuk, Bartłomiej. Przypadki zauważenia UFO w USA.
  38. Paczyński, Łukasz. Lista pracowników.
  39. Piasecka, Aleksandra. Zestawienie.
  40. Pikora, Mateusz. Obserwacje UFO.
  41. Plichta, Oskar. The Internet Movie Database.
  42. Puchalski, Paweł. Lista zatrudnionych.
  43. Rogaszewski, Piotr.
  44. Rybarczyk, Karolina. Waga i wzrost.
  45. Sawicki, Paweł.
  46. Siora, Kacper. Deaths.
  47. Skiba, Marek. Apache Logs.
  48. Skowroński, Krzysztof. Pogoda w Edynburgu.
  49. Smykowski, Adrian. IMDB.
  50. Sott, Tomasz. BTS – On-Time Performance.
  51. Stefanowicz, Michał. Loty.
  52. Szygenda, Mateusz. Wypadki drogowe.
  53. Tomczak, Robert. The Internet Movie Database.
  54. Wąsowicz, Michał. GetGlue – Movies and TV Shows Database.
  55. Winsławski, Bartłomiej. Meritum Bank.
  56. Wiśniewski, Konrad. The Internet Movie Database.
  57. Zdunek, Kamil. Chicago Crimes.
  58. Żarkowski, Mateusz. PAMAP – Physical Activity Monitoring.

Simple Rules for Reproducible Computations

Provide public access to scripts, runs, and results:

  1. Version control all custom scripts:
  • avoid writing code
  • write thin scripts and use standard tools and use standard UNIX commands to chain things together.
  1. Avoid manual data manipulation steps:
  • use a build system, for example make, and have all results produced automatically by build targets
  • if it’s not automated, it’s not part of the project, i.e. have an idea for a graph or an analysis? automate its generation
  1. Use a markup, for example Markdown, to create reports for analysis and presentation output products.

And two more rules:

  1. Record all intermediate results, when possible in standardized formats.
  2. Connect textual statements to underlying results.

Różne rzeczy

  1. Do automatycznego wygenerowania spisu treści w zadaniach można użyć narzędzia Table of Contents Preprocessor.
  2. Jak sobie radzić z nieczystymi committami?

Big Collections

  1. Stanford Large Network Dataset Collection by Jure Leskovec: Online Reviews (Amazon, Movies, Beer)
  2. GetGlue and Timestamped Event Data (ok. 11 GB); próbka 100 jsonów getglue101. Dane pochodzą z lat 2007–2012 – tylko filmy i przedstawienia TV. Przykładowe aggregacje: ilu jest różnych użytkowników w danych? jakie jest 10 najpopularniejszych filmów i przedstawień TV? ile jest różnych akcji?

About

MongoDB, CouchDB, Elasticsearch – przykładowe agregacje danych

Resources

Stars

Watchers

Forks

Packages

 
 
 

Contributors

Languages

  • JavaScript 58.6%
  • Shell 18.5%
  • Python 11.8%
  • Ruby 6.7%
  • Java 1.7%
  • C 1.5%
  • Other 1.2%