In [6]:
%%HTML
<style>
.rendered_html table, .rendered_html th, .rendered_html tr, .rendered_html td {
     font-size: 90%;
}
</style>

# Analiza i bazy danych

## Wstęp

### dr hab. inż. Jerzy Baranowski, Prof. AGH

## Informacje ogólne
- Katedra Automatyki i Robotyki, C3, p. 214
- Konsultacje 
    - Piątki 11:00-12:00
- jb@agh.edu.pl
- wykłady dostępne tutaj: https://github.com/KAIR-ISZ/public_lectures

### Organizacja przedmiotu
- Wspólny przedmiot dla 5 i 7 semestru
- Wykład:
 - 18 godzin lekcyjnych z analizy danych, 
 - 10 godzin lekcyjnych z baz danych. 
 - wykłady na żywo w H24, powtórki na Youtube,
- Zaliczenie:  
 - sprawozdania + testy z wykładów

## Wspólne laboratoria:

1. Przygotowanie środowiska analizy danych
2. TIER protocol
3. Podstawowe zapytania do bazy danych
4. Podzapytania i funkcje grupujące
5. Zapytania do danych tekstowych
6. Eksploracja danych
7. Modele liniowe


## Laboratoria dla 5 semestru

8. Szeregi czasowe
9. Klasyfikatory
10. NLP
11. Przestrzenne bazy danych
12. Projektowanie baz danych
13. Testy w analizie danych
14. Raporty i wizualizacja danych

## Co my tu robimy?
**Big data** - zbiory danych, których nie da się ogarnąć bazą danych.

W ramach tego przedmiotu zajmujemy się resztą, czyli danymi w plikach (csv, ...) lub w bazach danych. 

## Analiza danych
"Analiza danych jest interdyscyplinarną praktyką opartą na metodach z inżynierii danych, statystyki opisowej, eksploracji danych, uczenia maszynowego i analiz predykcyjnych. Podobnie jak badania operacyjne, analiza danych koncentruje się na wdrażaniu decyzji opartych na danych i zarządzaniu ich konsekwencjami" - *Practical Data Science with R* N. Zumel, J. Mount


## Podejście projektowe
![](img/lifecycle.png)
*Practical Data Science with R* - N. Zumel, J. Mount

# Najpopularniejsze narzędzie analizy danych

<img src="img/excel365.svg" alt="drawing" width="600"/>


### Analiza w excelu zgubiła 16 tys wyników testów na COVID
![](img/excel_covid.png)


## Inne ciekawe przygody w Excelu

- JPMorgan Chase - 6.5 miliarda dolarów przez kopiuj wklej
- Eastman Kodak - odprawy zawyżone o 11 milionów dolarów, konsekwencja spadek cen akcji
- US Federal National Mortgage Association - 1.136 miliarda dolarów niezgodności
- Fidelity Investment - pomyłka w znaku na 1.3 miliarda dolarów
- Human Genome Project - konieczność zmian nazw genów, w ok. 20% badań z genetyki Excel zamieniał część genów z sekwencji na daty




## Narzędzia do analizy danych

- Oprogramowanie, które zapewnia narzędzia analizy potrzebne w ramach tego kursu:
 - R + Tidyverse
 - **Python + pandas + Matplotlib + statsmodels** (+ może coś później)
- Oczywiście są inne rzeczy:
 - STATA
 - Statistica
 - SAS
 - IBM Watson  
 
ale nie będziemy o nich rozmawiać.


## Kryzys replikacji 

"Kryzys replikacji (lub kryzys odtwarzalności, eng *replication crisis*) jest ciągłym kryzysem metodologicznym, w którym stwierdzono, że wiele badań naukowych jest trudnych lub niemożliwych do odtworzenia lub odtworzenia. Kryzys replikacji ma największy wpływ na nauki społeczne i przyrodnicze." - Wikipedia, za Schooler, J. W. (2014). 
*Metascience could rescue the 'replication crisis'* . Nature


## Konsekwencja
Jeżeli nie da się powtórzyć wyników badań naukowych, które są publikowalne, to kto wie ile raportów wewnętrznych jest absolutnie niepowtarzalnych i nieodtwarzalnych?

## Project TIER

Project TIER (*Teaching Integrity in Empirical Research*) ma na celu promowanie włączenia zasad związanych z przejrzystością i powtarzalnością do szkolenia analityków danych. Wymyślony dla nauk społecznych ale stosowalny wszędzie. 

https://www.projecttier.org/

Jest to zbiór pryncypiów, określających jak powinien wyglądać proces pracy nad projektem analizy danych tak aby był on replikowalny przez innych (lub też przez autora po latach).


## Jak to działa?
TIER Protocol proponuje rozpatrywanie każdego projektu analizy danych w formie trzech etapów:
1. Przed danymi (*pre-data*)
2. Pracę z danymi (*data work*)
3. Podsumowanie (*wrap-up*)

## Pre-data
Najprostsza faza. Wymaga jedynie
1. Utworzenia struktury katalogów

2. Utworzenia pustych dokumentów.


## Struktura katalogów
![](img/TIER-folder.png)



## Puste dokumenty
Należy utworzyć
- plik readme,
- przewodnik metadanych,
- dodatek danych.

i na początek je zatytułować.

## Data work
Porządkuje przede wszystkim to co robimy przed rozpoczęciem zasadniczej analizy:
1. Udokumentowanie oryginalnych danych.
2. Przygotowanie kodu przetwarzającego dane.
3. Utworzenie załącznika danych (data appendix).
4. Przygotowanie kodu realizującego wymagane rezultaty.

## Udokumentowanie oryginalnych danych
Jest niezwykle ważne aby trzymać zawsze kopię oryginalnych danych. Podobnie kluczowe jest przechowywanie metadanych, które pozwalają zrozumieć co w danych się dzieje. Jest to niezbędne dla odtworzenia procesu decyzyjnego. 

1. Zapisać niezmienioną formę danych w folderze z oryginalnymi danymi.
2. Opisać plik danych w przewodniku metadanych (zgodnie ze specyfikacją protokołu).
3. Utworzenie importowalnego pliku i opisanie jak on powstał w pliku readme. 

## Przetwarzanie danych
Ten krok ma na celu przygotowanie danych wykorzystywanych do analizy. Tutaj podejmowane są pierwsze decyzje wpływające na wynik analizy. Obejmuje to między innymi:
- usuwanie błędów i różnic między danymi,
- usuwanie niepotrzebnych danych,
- łączenie danych z różnych źródeł,
- transpozycje,
- tworzenie nowych zmiennych,
- imputacja brakujących wartości,
- ...

## Przetwarzanie danych cd


W tym kroku należy też zdecydować się na sposób organizacji przetwarzania danych w pliki. Musi on zostać następnie opisany w pliku readme.

Kod i dane muszą być zapisane w odpowiednich katalogach.

## Data appendix
Dodatek do danych jest książką kodów i przewodnikiem użytkownika dla utworzonych plików do analizy danych. Często pomijany krok, który sprawia, że odtwarzanie pracy nie jest możliwe. Powinien powstać przed rozpoczęciem samej analizy.

Dodatek do danych powinien zawierać informacje o każdej zmiennej w plikach danych analizy, w tym definicje i kodowanie (dla wszystkich zmiennych), statystyki podsumowujące i histogramy (dla zmiennych ilościowych) oraz tabele i wykresy względnej częstotliwości (dla zmiennych kategorialnych).

Należy przygotować skrypty, które wygenerują wszystkie dane do dodatku. Kod i dokument zapisać w odpowiednich folderach.



## Zasadnicza analiza danych
Bardzo istotne jest, aby jednoznacznie zidentyfikować pliki, które wygenerują interesujące nas rezultaty. W tych plikach dane nie powinny już być przetwarzane. Jeżeli konieczne jest dalsze przetwarzanie należī zmodyfikować fazę pre processingu.

Struktura plików zależy oczywiście od skali i zakresu projektu. Niezależnie od tego, plik readme powinien opisywać w jakiej kolejności powinny być wywoływane skrypty by uzyskać rezultaty. 

## Wrap up

1. Skończyć plik readme
2. Przeczytanie i poprawianie kodu.
3. Sprawdzenie kompletności.

## Plik readme
Dotychczas sukcesywnie uzupełniany. Należy go zakończyć opisem struktury katalogów (jakie mamy pliki co one robią).

Dodatkowo czytelna instrukcja krok po kroku pozwalająca zreplikować analizę.

## Przeczytanie i poprawianie kodu
W ramach projektu powstał kod, odpowiadający za dodatek do danych, pre-processing i calą analizę. Należy upewnić się czy się on uruchamia, czy jest on zrozumiały (komentarze). To jest dobry moment na jakąś drobną optymalizację oraz usuwanie niepotrzebnych rzeczy, które powstawały w trakcie analizy. (Pamiętajmy o repozytorium!).

Należy też sprawdzić czy instrukcja z pliku readme działa, jeżeli nie trzeba poprawić ją albo kod.

## Sprawdzenie kompletności

1. Należy sprawdzić czy wszystkie pliki wymagane przez specyfikacje są we właściwych miejscach. Tu jest dobry moment by się upewnić czy raport z projektu znajduje się w katalogu z dokumentacją.
2. Sprawdzić, czy zawartość plików jest zgodna ze specyfikacją protokołu.
2. Usunąć wszystkie zbędne pliki.

# Tidy data


*Wszystkie szczęśliwe rodziny są do siebie podobne, każda nieszczęśliwa rodzina jest nieszczęśliwa na swój sposób.*
Lew Tołstoj (z książki Anna Karenina. Tom 1)

*Podobnie jak rodziny, uporządkowane zestawy danych są podobne, ale każdy nieporządny zestaw danych jest na swój sposób nieporządny* 
Hadley Wickham



## Definicja "tidy data"
Uporządkowane dane to standardowy sposób mapowania znaczenia zbioru danych na jego strukturę. Zestaw danych jest nieporządny lub uporządkowany w zależności od tego, jak wiersze, kolumny i tabele są dopasowane do obserwacji, zmiennych i typów. W uporządkowanych danych:
1. Każda zmienna tworzy kolumnę.
2. Każda obserwacja tworzy rząd.
3. Każdy typ jednostki obserwacyjnej tworzy tabelę.

## Porządkowanie danych

Podstawowe źródła nieuporządkowania

- Nagłówki kolumn to wartości, a nie nazwy zmiennych.
- Wiele zmiennych jest przechowywanych w jednej kolumnie.
- Zmienne są przechowywane zarówno w wierszach, jak i kolumnach.
- Wiele rodzajów jednostek obserwacyjnych jest przechowywanych w tej samej tabeli. 􏰟 
- Pojedyncza jednostka obserwacyjna jest przechowywana w wielu tabelach.

## Nagłówki kolumn to wartości, a nie nazwy zmiennych.

| religion                | $<$\\$10k | \\$10\-\-20k | \\$20\-\-30k | \\$30\-\-40k | \\$40\-\-50k | \\$50\-\-75k |
|-------------------------|-----------|--------------|--------------|--------------|--------------|--------------|
| Agnostic                | 27        | 34           | 60           | 81           | 76           | 137          |
| Atheist                 | 12        | 27           | 37           | 52           | 35           | 70           |
| Buddhist                | 27        | 21           | 30           | 34           | 33           | 58           |
| Catholic                | 418       | 617          | 732          | 670          | 638          | 1116         |
| Don't know/refused    | 15        | 14           | 15           | 11           | 10           | 35           |

Ten zestaw danych bada związek między dochodami a religią w Stanach Zjednoczonych. Kolumny kwantyzują przychód.

## Uporządkowanie
| religion | income             | freq |
|----------|--------------------|------|
| Agnostic | $<$\\$10k          | 27   |
| Agnostic | \\$10\-\-20k       | 34   |
| Agnostic | \\$20\-\-30k       | 60   |
| Agnostic | \\$30\-\-40k       | 81   |
| Agnostic | \\$40\-\-50k       | 76   |
| Agnostic | \\$50\-\-75k       | 137  |
| Agnostic | \\$75\-\-100k      | 122  |
| Agnostic | \\$100\-\-150k     | 109  |
| Agnostic | $>$150k            | 84   |
| Agnostic | Don't know/refused | 96   |



| year | artist         | track                      | time | date\.entered | wk1 | wk2 | wk3 |
|------|----------------|----------------------------|------|---------------|-----|-----|-----|
| 2000 | 2 Pac          | Baby Don't Cry             | 4:22 | 2000\-02\-26  | 87  | 82  | 72  |
| 2000 | 2Ge\+her       | The Hardest Part Of \.\.\. | 3:15 | 2000\-09\-02  | 91  | 87  | 92  |
| 2000 | 3 Doors Down   | Kryptonite                 | 3:53 | 2000\-04\-08  | 81  | 70  | 68  |
| 2000 | 98\\verb\|^\|0 | Give Me Just One Nig\.\.\. | 3:24 | 2000\-08\-19  | 51  | 39  | 34  |
| 2000 | A\*Teens       | Dancing Queen              | 3:44 | 2000\-07\-08  | 97  | 97  | 96  |

Notowania Billboardu. Kolumny dla każdej piosenki odpowiadają za szupływ czasu.

| year | artist       | time | track                      | date         | week | rank |
|------|--------------|------|----------------------------|--------------|------|------|
| 2000 | 2 Pac        | 4:22 | Baby Don't Cry             | 2000\-02\-26 | 1    | 87   |
| 2000 | 2 Pac        | 4:22 | Baby Don't Cry             | 2000\-03\-04 | 2    | 82   |
| 2000 | 2 Pac        | 4:22 | Baby Don't Cry             | 2000\-03\-11 | 3    | 72   |
| 2000 | 2 Pac        | 4:22 | Baby Don't Cry             | 2000\-03\-18 | 4    | 77   |
| 2000 | 2 Pac        | 4:22 | Baby Don't Cry             | 2000\-03\-25 | 5    | 87   |
| 2000 | 2 Pac        | 4:22 | Baby Don't Cry             | 2000\-04\-01 | 6    | 94   |
| 2000 | 2 Pac        | 4:22 | Baby Don't Cry             | 2000\-04\-08 | 7    | 99   |
| 2000 | 2Ge\+her     | 3:15 | The Hardest Part Of \.\.\. | 2000\-09\-02 | 1    | 91   |
| 2000 | 2Ge\+her     | 3:15 | The Hardest Part Of \.\.\. | 2000\-09\-09 | 2    | 87   |
| 2000 | 2Ge\+her     | 3:15 | The Hardest Part Of \.\.\. | 2000\-09\-16 | 3    | 92   |
| 2000 | 3 Doors Down | 3:53 | Kryptonite                 | 2000\-04\-08 | 1    | 81   |
| 2000 | 3 Doors Down | 3:53 | Kryptonite                 | 2000\-04\-15 | 2    | 70   |
| 2000 | 3 Doors Down | 3:53 | Kryptonite                 | 2000\-04\-22 | 3    | 68   |
| 2000 | 3 Doors Down | 3:53 | Kryptonite                 | 2000\-04\-29 | 4    | 67   |
| 2000 | 3 Doors Down | 3:53 | Kryptonite                 | 2000\-05\-06 | 5    | 66   |



## Wiele zmiennych jest przechowywanych w jednej kolumnie.
| country | year | m014   | m1524  | m2534  | m3544  | m4554 | m5564 | m65    | mu     | f014   |
|---------|------|--------|--------|--------|--------|-------|-------|--------|--------|--------|
| AD      | 2000 | 0      | 0      | 1      | 0      | 0     | 0     | 0      | \-\-\- | \-\-\- |
| AE      | 2000 | 2      | 4      | 4      | 6      | 5     | 12    | 10     | \-\-\- | 3      |
| AF      | 2000 | 52     | 228    | 183    | 149    | 129   | 94    | 80     | \-\-\- | 93     |
| AG      | 2000 | 0      | 0      | 0      | 0      | 0     | 0     | 1      | \-\-\- | 1      |
| AL      | 2000 | 2      | 19     | 21     | 14     | 24    | 19    | 16     | \-\-\- | 3      |
| AM      | 2000 | 2      | 152    | 130    | 131    | 63    | 26    | 21     | \-\-\- | 1      |
| AN      | 2000 | 0      | 0      | 1      | 2      | 0     | 0     | 0      | \-\-\- | 0      |
| AO      | 2000 | 186    | 999    | 1003   | 912    | 482   | 312   | 194    | \-\-\- | 247    |
| AR      | 2000 | 97     | 278    | 594    | 402    | 419   | 368   | 330    | \-\-\- | 121    |
| AS      | 2000 | \-\-\- | \-\-\- | \-\-\- | \-\-\- | 1     | 1     | \-\-\- | \-\-\- | \-\-\- |



## Melting
| country | year | column | cases |
|---------|------|--------|-------|
| AD      | 2000 | m014   | 0     |
| AD      | 2000 | m1524  | 0     |
| AD      | 2000 | m2534  | 1     |
| AD      | 2000 | m3544  | 0     |
| AD      | 2000 | m4554  | 0     |
| AD      | 2000 | m5564  | 0     |
| AD      | 2000 | m65    | 0     |
| AE      | 2000 | m014   | 2     |
| AE      | 2000 | m1524  | 4     |
| AE      | 2000 | m2534  | 4     |
| AE      | 2000 | m3544  | 6     |
| AE      | 2000 | m4554  | 5     |
| AE      | 2000 | m5564  | 12    |
| AE      | 2000 | m65    | 10    |
| AE      | 2000 | f014   | 3     |



## Tidy

| country | year | sex | age      | cases |
|---------|------|-----|----------|-------|
| AD      | 2000 | m   | 0\-\-14  | 0     |
| AD      | 2000 | m   | 15\-\-24 | 0     |
| AD      | 2000 | m   | 25\-\-34 | 1     |
| AD      | 2000 | m   | 35\-\-44 | 0     |
| AD      | 2000 | m   | 45\-\-54 | 0     |
| AD      | 2000 | m   | 55\-\-64 | 0     |
| AD      | 2000 | m   | 65\+     | 0     |
| AE      | 2000 | m   | 0\-\-14  | 2     |
| AE      | 2000 | m   | 15\-\-24 | 4     |
| AE      | 2000 | m   | 25\-\-34 | 4     |
| AE      | 2000 | m   | 35\-\-44 | 6     |
| AE      | 2000 | m   | 45\-\-54 | 5     |
| AE      | 2000 | m   | 55\-\-64 | 12    |
| AE      | 2000 | m   | 65\+     | 10    |
| AE      | 2000 | f   | 0\-\-14  | 3     |



## Zmienne są przechowywane zarówno w wierszach, jak i kolumnach.

**Przykład**:

Dzienne dane pogodowe z Global Historical Climatology Network dla jednej stacji pogodowej (MX17004) w Meksyku przez pięć miesięcy w 2010 roku. Posiada zmienne w poszczególnych kolumnach (id, rok, miesiąc), rozłożone na kolumny (dzień, d1 – d31) i w poprzek rzędy (tmin, tmax) (temperatura minimalna i maksymalna). Miesiące z mniej niż 31 dni mają strukturalne brakujące wartości dla ostatniego dnia (dni) miesiąca. Kolumna element nie jest zmienną; przechowuje nazwy zmiennych.

| id      | year | month | element | d1     | d2     | d3     | d4     | d5     | d6     | d7     | d8     |
|---------|------|-------|---------|--------|--------|--------|--------|--------|--------|--------|--------|
| MX17004 | 2010 | 1     | tmax    | \-\-\- | \-\-\- | \-\-\- | \-\-\- | \-\-\- | \-\-\- | \-\-\- | \-\-\- |
| MX17004 | 2010 | 1     | tmin    | \-\-\- | \-\-\- | \-\-\- | \-\-\- | \-\-\- | \-\-\- | \-\-\- | \-\-\- |
| MX17004 | 2010 | 2     | tmax    | \-\-\- | 27\.3  | 24\.1  | \-\-\- | \-\-\- | \-\-\- | \-\-\- | \-\-\- |
| MX17004 | 2010 | 2     | tmin    | \-\-\- | 14\.4  | 14\.4  | \-\-\- | \-\-\- | \-\-\- | \-\-\- | \-\-\- |
| MX17004 | 2010 | 3     | tmax    | \-\-\- | \-\-\- | \-\-\- | \-\-\- | 32\.1  | \-\-\- | \-\-\- | \-\-\- |
| MX17004 | 2010 | 3     | tmin    | \-\-\- | \-\-\- | \-\-\- | \-\-\- | 14\.2  | \-\-\- | \-\-\- | \-\-\- |
| MX17004 | 2010 | 4     | tmax    | \-\-\- | \-\-\- | \-\-\- | \-\-\- | \-\-\- | \-\-\- | \-\-\- | \-\-\- |
| MX17004 | 2010 | 4     | tmin    | \-\-\- | \-\-\- | \-\-\- | \-\-\- | \-\-\- | \-\-\- | \-\-\- | \-\-\- |
| MX17004 | 2010 | 5     | tmax    | \-\-\- | \-\-\- | \-\-\- | \-\-\- | \-\-\- | \-\-\- | \-\-\- | \-\-\- |
| MX17004 | 2010 | 5     | tmin    | \-\-\- | \-\-\- | \-\-\- | \-\-\- | \-\-\- | \-\-\- | \-\-\- | \-\-\- |



## Melt
| id      | date         | element | value |
|---------|--------------|---------|-------|
| MX17004 | 2010\-01\-30 | tmax    | 27\.8 |
| MX17004 | 2010\-01\-30 | tmin    | 14\.5 |
| MX17004 | 2010\-02\-02 | tmax    | 27\.3 |
| MX17004 | 2010\-02\-02 | tmin    | 14\.4 |
| MX17004 | 2010\-02\-03 | tmax    | 24\.1 |
| MX17004 | 2010\-02\-03 | tmin    | 14\.4 |
| MX17004 | 2010\-02\-11 | tmax    | 29\.7 |
| MX17004 | 2010\-02\-11 | tmin    | 13\.4 |
| MX17004 | 2010\-02\-23 | tmax    | 29\.9 |
| MX17004 | 2010\-02\-23 | tmin    | 10\.7 |



## Tidy
| id      | date         | tmax  | tmin  |
|---------|--------------|-------|-------|
| MX17004 | 2010\-01\-30 | 27\.8 | 14\.5 |
| MX17004 | 2010\-02\-02 | 27\.3 | 14\.4 |
| MX17004 | 2010\-02\-03 | 24\.1 | 14\.4 |
| MX17004 | 2010\-02\-11 | 29\.7 | 13\.4 |
| MX17004 | 2010\-02\-23 | 29\.9 | 10\.7 |
| MX17004 | 2010\-03\-05 | 32\.1 | 14\.2 |
| MX17004 | 2010\-03\-10 | 34\.5 | 16\.8 |
| MX17004 | 2010\-03\-16 | 31\.1 | 17\.6 |
| MX17004 | 2010\-04\-27 | 36\.3 | 16\.7 |
| MX17004 | 2010\-05\-27 | 33\.2 | 18\.2 |



## Wiele rodzajów jednostek obserwacyjnych jest przechowywanych w tej samej tabeli.  

Dane Billboardu - zawierają zarówno szczegółowe dane piosenek jak też i zmienne w czasie dane o ich rankingu. Dobrym pomysłem jest rozbicie ich na dwie tabele.

## Dane piosenek
| id | artist              | track                      | time |
|----|---------------------|----------------------------|------|
| 1  | 2 Pac               | Baby Don't Cry             | 4:22 |
| 2  | 2Ge\+her            | The Hardest Part Of \.\.\. | 3:15 |
| 3  | 3 Doors Down        | Kryptonite                 | 3:53 |
| 4  | 3 Doors Down        | Loser                      | 4:24 |
| 5  | 504 Boyz            | Wobble Wobble              | 3:35 |
| 6  | 98\\verb\|^\|0      | Give Me Just One Nig\.\.\. | 3:24 |
| 7  | A\*Teens            | Dancing Queen              | 3:44 |
| 8  | Aaliyah             | I Don't Wanna              | 4:15 |
| 9  | Aaliyah             | Try Again                  | 4:03 |
| 10 | Adams, Yolanda      | Open My Heart              | 5:30 |
| 11 | Adkins, Trace       | More                       | 3:05 |

## Dane rankingowe
| id | date         | rank |
|----|--------------|------|
| 1  | 2000\-02\-26 | 87   |
| 1  | 2000\-03\-04 | 82   |
| 1  | 2000\-03\-11 | 72   |
| 1  | 2000\-03\-18 | 77   |
| 1  | 2000\-03\-25 | 87   |
| 1  | 2000\-04\-01 | 94   |
| 1  | 2000\-04\-08 | 99   |
| 2  | 2000\-09\-02 | 91   |
| 2  | 2000\-09\-09 | 87   |
| 2  | 2000\-09\-16 | 92   |
| 3  | 2000\-04\-08 | 81   |
| 3  | 2000\-04\-15 | 70   |


## Jeden typ jednostek obserwacyjnych jest przechowywany w wielu tabelach.
1. Wczytaj pliki do listy tabel.
2. Dla każdej tabeli dodaj nową kolumnę, która rejestruje oryginalną nazwę pliku (ponieważ nazwa pliku jest często wartością ważnej zmiennej).
3. Połącz wszystkie tabele w jedną tabelę.

## Narzędzia
Wickham definiując Tidy data tworzył narzędzia do jego realizacji - pakiert ``dplyr`` w ``R``. Jest on częścią ``tidyverse``.

Pakietem o podobnej filozofi i funkcjonalności jest Pandas (Python Data Analysis Library)


## Data frame 
Niezależnie od środowiska podstawowym obiektem, na którym pracujemy jest data frame (lub coś w tym rodzaju). Obiekt zawierający tablicę danych i metody umożliwiające jej przetwarzanie.