In [6]:
%%HTML
<style>
.rendered_html table, .rendered_html th, .rendered_html tr, .rendered_html td {
     font-size: 90%;
}
</style>

# Analiza i bazy danych

## Wstęp

### dr hab. inż. Jerzy Baranowski, Prof. AGH

## Informacje ogólne
- Katedra Automatyki i Robotyki, C3, p. 214
- Konsultacje 
    - Poniedziałki 9:00-10:00
- jb@agh.edu.pl
- wykłady dostępne tutaj: https://github.com/KAIR-ISZ/public_lectures

### Organizacja przedmiotu
- Wykład:
 - 18 godzin lekcyjnych z analizy danych, 
 - 10 godzin lekcyjnych z baz danych. 
 - wykłady na Youtube z premierami na żywo,
- Laboratorium:
 - 3 tematy z analizy danych,
 - 3 tematy z baz danych.
 - 1 temat integracyjny
- Zaliczenie:  
 - praca na zajęciach oceniana z checklistą.

## Co my tu robimy?
**Big data** - zbiory danych, których nie da się ogarnąć bazą danych.

W ramach tego przedmiotu zajmujemy się resztą, czyli danymi w plikach (csv, ...) lub w bazach danych. 

## Analiza danych
"Analiza danych jest interdyscyplinarną praktyką opartą na metodach z inżynierii danych, statystyki opisowej, eksploracji danych, uczenia maszynowego i analiz predykcyjnych. Podobnie jak badania operacyjne, analiza danych koncentruje się na wdrażaniu decyzji opartych na danych i zarządzaniu ich konsekwencjami" - *Practical Data Science with R* N. Zumel, J. Mount


## Podejście projektowe
![](img/lifecycle.png)
*Practical Data Science with R* - N. Zumel, J. Mount

# Najpopularniejsze narzędzie analizy danych

<img src="img/excel365.svg" alt="drawing" width="600"/>


### Analiza w excelu zgubiła 16 tys wyników testów na COVID
![](img/excel_covid.png)


## Inne ciekawe przygody w Excelu

- JPMorgan Chase - 6.5 miliarda dolarów przez kopiuj wklej
- Eastman Kodak - odprawy zawyżone o 11 milionów dolarów, konsekwencja spadek cen akcji
- US Federal National Mortgage Association - 1.136 miliarda dolarów niezgodności
- Fidelity Investment - pomyłka w znaku na 1.3 miliarda dolarów
- Human Genome Project - konieczność zmian nazw genów, w ok. 20% badań z genetyki Excel zamieniał część genów z sekwencji na daty




## Narzędzia do analizy danych

- Oprogramowanie, które zapewnia narzędzia analizy potrzebne w ramach tego kursu:
 - R + Tidyverse
 - **Python + pandas + Matplotlib + statsmodels** (+ może coś później)
- Oczywiście są inne rzeczy:
 - STATA
 - Statistica
 - SAS
 - IBM Watson  
 
ale nie będziemy o nich rozmawiać.


## Kryzys replikacji 

"Kryzys replikacji (lub kryzys odtwarzalności, eng *replication crisis*) jest ciągłym kryzysem metodologicznym, w którym stwierdzono, że wiele badań naukowych jest trudnych lub niemożliwych do odtworzenia lub odtworzenia. Kryzys replikacji ma największy wpływ na nauki społeczne i przyrodnicze." - Wikipedia, za Schooler, J. W. (2014). 
*Metascience could rescue the 'replication crisis'* . Nature


## Konsekwencja
Jeżeli nie da się powtórzyć wyników badań naukowych, które są publikowalne, to kto wie ile raportów wewnętrznych jest absolutnie niepowtarzalnych i nieodtwarzalnych?

## Project TIER

Project TIER (*Teaching Integrity in Empirical Research*) ma na celu promowanie włączenia zasad związanych z przejrzystością i powtarzalnością do szkolenia analityków danych. Wymyślony dla nauk społecznych ale stosowalny wszędzie. 

https://www.projecttier.org/

Jest to zbiór pryncypiów, określających jak powinien wyglądać proces pracy nad projektem analizy danych tak aby był on replikowalny przez innych (lub też przez autora po latach).


## Jak to działa?
TIER Protocol proponuje rozpatrywanie każdego projektu analizy danych w formie trzech etapów:
1. Przed danymi (*pre-data*)
2. Pracę z danymi (*data work*)
3. Podsumowanie (*wrap-up*)

## Pre-data
Najprostsza faza. Wymaga jedynie
1. Utworzenia struktury katalogów

2. Utworzenia pustych dokumentów.


## Struktura katalogów
![](img/TIER-folder.png)



## Puste dokumenty
Należy utworzyć
- plik readme,
- przewodnik metadanych,
- dodatek danych.

i na początek je zatytułować.

## Data work
Porządkuje przede wszystkim to co robimy przed rozpoczęciem zasadniczej analizy:
1. Udokumentowanie oryginalnych danych.
2. Przygotowanie kodu przetwarzającego dane.
3. Utworzenie załącznika danych (data appendix).
4. Przygotowanie kodu realizującego wymagane rezultaty.

## Udokumentowanie oryginalnych danych
Jest niezwykle ważne aby trzymać zawsze kopię oryginalnych danych. Podobnie kluczowe jest przechowywanie metadanych, które pozwalają zrozumieć co w danych się dzieje. Jest to niezbędne dla odtworzenia procesu decyzyjnego. 

1. Zapisać niezmienioną formę danych w folderze z oryginalnymi danymi.
2. Opisać plik danych w przewodniku metadanych (zgodnie ze specyfikacją protokołu).
3. Utworzenie importowalnego pliku i opisanie jak on powstał w pliku readme. 

## Przetwarzanie danych
Ten krok ma na celu przygotowanie danych wykorzystywanych do analizy. Tutaj podejmowane są pierwsze decyzje wpływające na wynik analizy. Obejmuje to między innymi:
- usuwanie błędów i różnic między danymi,
- usuwanie niepotrzebnych danych,
- łączenie danych z różnych źródeł,
- transpozycje,
- tworzenie nowych zmiennych,
- imputacja brakujących wartości,
- ...

## Przetwarzanie danych cd


W tym kroku należy też zdecydować się na sposób organizacji przetwarzania danych w pliki. Musi on zostać następnie opisany w pliku readme.

Kod i dane muszą być zapisane w odpowiednich katalogach.

## Data appendix
Dodatek do danych jest książką kodów i przewodnikiem użytkownika dla utworzonych plików do analizy danych. Często pomijany krok, który sprawia, że odtwarzanie pracy nie jest możliwe. Powinien powstać przed rozpoczęciem samej analizy.

Dodatek do danych powinien zawierać informacje o każdej zmiennej w plikach danych analizy, w tym definicje i kodowanie (dla wszystkich zmiennych), statystyki podsumowujące i histogramy (dla zmiennych ilościowych) oraz tabele i wykresy względnej częstotliwości (dla zmiennych kategorialnych).

Należy przygotować skrypty, które wygenerują wszystkie dane do dodatku. Kod i dokument zapisać w odpowiednich folderach.



## Zasadnicza analiza danych
Bardzo istotne jest, aby jednoznacznie zidentyfikować pliki, które wygenerują interesujące nas rezultaty. W tych plikach dane nie powinny już być przetwarzane. Jeżeli konieczne jest dalsze przetwarzanie należī zmodyfikować fazę pre processingu.

Struktura plików zależy oczywiście od skali i zakresu projektu. Niezależnie od tego, plik readme powinien opisywać w jakiej kolejności powinny być wywoływane skrypty by uzyskać rezultaty. 

## Wrap up

1. Skończyć plik readme
2. Przeczytanie i poprawianie kodu.
3. Sprawdzenie kompletności.

## Plik readme
Dotychczas sukcesywnie uzupełniany. Należy go zakończyć opisem struktury katalogów (jakie mamy pliki co one robią).

Dodatkowo czytelna instrukcja krok po kroku pozwalająca zreplikować analizę.

## Przeczytanie i poprawianie kodu
W ramach projektu powstał kod, odpowiadający za dodatek do danych, pre-processing i calą analizę. Należy upewnić się czy się on uruchamia, czy jest on zrozumiały (komentarze). To jest dobry moment na jakąś drobną optymalizację oraz usuwanie niepotrzebnych rzeczy, które powstawały w trakcie analizy. (Pamiętajmy o repozytorium!).

Należy też sprawdzić czy instrukcja z pliku readme działa, jeżeli nie trzeba poprawić ją albo kod.

## Sprawdzenie kompletności

1. Należy sprawdzić czy wszystkie pliki wymagane przez specyfikacje są we właściwych miejscach. Tu jest dobry moment by się upewnić czy raport z projektu znajduje się w katalogu z dokumentacją.
2. Sprawdzić, czy zawartość plików jest zgodna ze specyfikacją protokołu.
2. Usunąć wszystkie zbędne pliki.