# <span style="color:#0f766e; font-weight:700;">Analiza Danych (Python) - Lekcja 1</span>

1. [Organizacja](#1.-Organizacja)
2. [Środowisko Python (venv)](#2.-Środowisko-Python-(venv))
3. [GitHub i GitKraken](#3.-GitHub-i-GitKraken)
4. [Import danych](#4.-Import-danych)
5. [Zadania](#5.-Zadania)


# <span style="color:#0f766e; font-weight:700;">1. Organizacja</span>

## <span style="color:#0f766e; font-weight:700;">Kiedy i gdzie?</span>

- Grupa 1: wtorek 16:15-17:30 albo 16:15-19:15.
- Grupa 3: czwartek 18:00-19:15 albo 18:00-21:00.
- Sala: 3.13, Wydział Psychologii, ul. Banacha 2D.
- Jestem w w sali od 16:00/17:45 by odpowiedać na pytania indywidualne.
- Muszę wyjechać od 6 do 17 Maja
- Grupa wtorkowa traci jedne zajęcia 1.5 godziny (odrabiamy w czasie przerw 7 * 15 minut)
- Grupa czwartkowa traci dwa zajęcia 4.5 godziny (odrabiamy w czasie przerw 7 * 15 minut + 2 * dodatkowa godzina)

## <span style="color:#0f766e; font-weight:700;">Co robimy na kursie?</span>

Celem kursu jest praktyczne opanowanie pełnego cyklu pracy z danymi:

- import i kontrola jakości danych,
- czyszczenie i transformacje w `pandas`,
- analiza eksploracyjna i wizualizacja,
- podstawowe wnioskowanie statystyczne,
- raportowanie wyników,
- praca z repozytorium `Git`/`GitHub`.

## <span style="color:#0f766e; font-weight:700;">Ocena</span>

1. Obecność: 10% (14/15 zajęć).
2. Notebooki cząstkowe: 60% (`10` notebooków).
3. Projekt końcowy: 30% (ostatnie `3-4` zajęcia).

Zasady punktacji notebooków:
- oddanie na zajęciach lub w dniu zajęć: `100%`,
- oddanie przed kolejnymi zajęciami: `80%`,
- oddanie po kolejnych zajęciach: `60%`.


Arkusz ocen:
https://docs.google.com/spreadsheets/d/1NjFtT8-8L3MlNzHIgDx2wJ9gp1hj3xp_lqWp7Xd7Spw/edit?usp=sharing


Skala ocen:

<50% - 2

50%-59% - 3

60%-69% - 3.5

70%-79% - 4

80%-89% - 4.5

90-95% - 5

95%< - 5!

## <span style="color:#0f766e; font-weight:700;">Co przygotować przed kolejnymi zajęciami?</span>

- działającego Pythona 3.11+,
- działające środowisko `.venv`,
- konto GitHub (najlepiej uczelniane),
- sklonowane repozytorium kursu.

## <span style="color:#0f766e; font-weight:700;">Literatura</span>

Podstawowa:
- Wes McKinney, *Python for Data Analysis*.
- Jake VanderPlas, *Python Data Science Handbook*.
- Allen Downey, *Think Stats*.

Uzupełniająca:
- Peter Bruce, Andrew Bruce, Peter Gedeck, *Practical Statistics for Data Scientists*.
- Claus O. Wilke, *Fundamentals of Data Visualization*.
- Dokumentacja: `pandas`, `matplotlib`, `seaborn`, `statsmodels`, `git`, `GitHub`.


# <span style="color:#0f766e; font-weight:700;">2. Środowisko Python (venv)</span>

## <span style="color:#0f766e; font-weight:700;">Utworzenie środowiska (tylko raz)</span>

macOS/Linux:
```bash
cd sciezka/do/projektu
python3 -m venv .venv
```

Windows (PowerShell):
```powershell
cd sciezka\do\projektu
py -m venv .venv
```

## <span style="color:#0f766e; font-weight:700;">Aktywacja środowiska (zawsze przed pracą)</span>

macOS/Linux:
```bash
source .venv/bin/activate
```

Windows (PowerShell):
```powershell
.\.venv\Scripts\Activate.ps1
```

## <span style="color:#0f766e; font-weight:700;">Instalacja bibliotek</span>

```bash
pip install pandas numpy matplotlib seaborn jupyter openpyxl
```


## <span style="color:#0f766e; font-weight:700;">Najczęstsze błędy</span>

- `python`/`pip` z innego środowiska niż `.venv`,
- brak aktywacji środowiska przed uruchomieniem Jupyter,
- problem z uprawnieniami PowerShell (`Set-ExecutionPolicy -Scope CurrentUser RemoteSigned`),
- literówka w ścieżce do projektu.

## <span style="color:#0f766e; font-weight:700;">Kernel Jupyter z Twojego środowiska</span>

Po aktywacji `.venv` wykonaj:

```bash
python -m pip install ipykernel
python -m ipykernel install --user --name analiza-venv --display-name "Python (analiza-venv)"
```

## <span style="color:#0f766e; font-weight:700;">Start notebooka</span>

```bash
jupyter notebook
```

Następnie w Jupyter Notebook wybierz:
`Kernel` -> `Change kernel` -> `Python (analiza-venv)`

Sprawdzenie dostępnych kerneli:

```bash
jupyter kernelspec list
```

Usunięcie kernela (opcjonalnie):

```bash
jupyter kernelspec uninstall analiza-venv
```



# <span style="color:#0f766e; font-weight:700;">3. GitHub i GitKraken</span>

## <span style="color:#0f766e; font-weight:700;">Git vs GitHub</span>

- `Git`: system kontroli wersji (lokalna historia zmian).
- `GitHub`: platforma do hostowania repozytoriów Git i współpracy.

## <span style="color:#0f766e; font-weight:700;">Kluczowe pojęcia</span>

- repozytorium,
- commit,
- branch,
- clone,
- push / pull.

## <span style="color:#0f766e; font-weight:700;">Minimalny workflow na zajęcia</span>

1. Tworzysz repozytorium na GitHub.
2. Klonujesz je lokalnie.
3. Edytujesz plik.
4. Robisz commit z czytelnym opisem.
5. Wysyłasz zmiany (`push`).

## <span style="color:#0f766e; font-weight:700;">Zadanie 1</span>

1. Załóż konto GitHub (mail uczelniany).
2. Aktywuj GitHub Student Developer Pack: https://education.github.com/pack
3. Zainstaluj GitKraken i zaloguj się kontem GitHub.
4. Sklonuj repozytorium: https://github.com/ArtuDitu/AnalizaDanychPythonKurs



# <span style="color:#0f766e; font-weight:700;">4. Import danych</span>

## <span style="color:#0f766e; font-weight:700;">Dlaczego to ważne?</span>

- Błędy importu propagują się na całą analizę (`garbage in, garbage out`).
- Import to nie tylko odczyt pliku, ale też decyzje o typach, brakach danych i kodowaniu.
- Jawne parametry importu zwiększają powtarzalność analizy.

## <span style="color:#0f766e; font-weight:700;">Co trzeba kontrolować przy imporcie?</span>

- separator (`sep`),
- kodowanie (`encoding`),
- typy kolumn (`dtype`),
- daty (`parse_dates`),
- oznaczenia braków danych (`na_values`),
- wybór arkusza/kolumn/wierszy.

## <span style="color:#0f766e; font-weight:700;">Najczęstsze problemy</span>

- liczby wczytane jako tekst,
- daty jako `object`,
- zły separator (`;` vs `,`),
- błędne kodowanie znaków,
- niestandardowe oznaczenia braków (`999`, `.`, `-`).

## <span style="color:#0f766e; font-weight:700;">Formaty, które poznajemy</span>

| Format | Zastosowanie |
|---|---|
| CSV | uniwersalne dane tabelaryczne |
| Excel (`.xlsx`) | dane przekazywane przez zespoły i organizacje |
| JSON | dane z API i struktury zagnieżdżone |
| SQL | dane relacyjne |

Import danych to kontrolowany proces translacji danych z pliku do struktury w pamięci (`DataFrame`) z jawnie opisanym schematem.


# <span style="color:#0f766e; font-weight:700;">5. Zadania</span>

## <span style="color:#0f766e; font-weight:700;">Pliki do ćwiczeń</span>

Pliki wejściowe znajdują się w folderze `dane_lekcja1/`:

- `students.csv`
- `data_semicolon.csv`
- `missing_values.csv`
- `experiment.xlsx`
- `data.json`
- `data_nested.json`

## <span style="color:#0f766e; font-weight:700;">Zadanie 2</span>

Cel: zrozumienie różnicy między domyślną inferencją typów a jawnym schematem.

Instrukcja:
1. Wczytaj `students.csv`.
2. Sprawdź typy kolumn.
3. Wczytaj plik ponownie, jawnie definiując:
- kolumny numeryczne jako `float64`,
- kolumnę kategoryczną jako `category`,
- kolumnę daty przez `parse_dates` (wynikowo `datetime64[ns]`).
4. Porównaj `df.info()` dla obu wersji.

Wymagane funkcje:
- import pandas as pd
- `pd.read_csv()`
- `DataFrame.info()`
- parametr `dtype`
- parametr `parse_dates`

Kryterium zaliczenia:
- w drugim imporcie kolumna daty ma typ `datetime64[ns]`,
- co najmniej jedna kolumna ma typ `category`.

Checkpoint:
- pokaż prowadzącemu wynik `df.info()` dla obu wersji.

Dokumentacja:
- https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html
- https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.info.html


In [None]:
# tutaj dodaj swój kod

## <span style="color:#0f766e; font-weight:700;">Zadanie 3</span>

Cel: diagnostyka błędów parsowania.

Instrukcja:
1. Spróbuj wczytać `data_semicolon.csv` domyślnie.
2. Zidentyfikuj problem.
3. Ustaw poprawny separator.
4. W razie potrzeby ustaw `encoding='utf-8'` lub `encoding='latin1'`.
5. Zweryfikuj poprawność nagłówków.

Wymagane funkcje:
- `pd.read_csv()`
- parametr `sep`
- parametr `encoding`
- `DataFrame.columns`

Kryterium zaliczenia:
- kolumny są rozdzielone poprawnie,
- nagłówki nie zawierają artefaktów kodowania.

Checkpoint:
- pokaż `df.head()` i `df.columns`.

Dokumentacja:
- https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html


In [None]:
# tutaj dodaj swój kod

## <span style="color:#0f766e; font-weight:700;">Zadanie 4</span>

Cel: zrozumienie, jak parser interpretuje wartości brakujące.

Instrukcja:
1. Wczytaj `missing_values.csv`.
2. Ustaw własne oznaczenia NA: `.` oraz `999`.
3. Sprawdź liczbę braków w każdej kolumnie.

Wymagane funkcje:
- `pd.read_csv()`
- parametr `na_values`
- `DataFrame.isna()`
- `DataFrame.sum()`

Kryterium zaliczenia:
- `.` i `999` są liczone jako braki danych.

Checkpoint:
- pokaż wynik `df.isna().sum()`.

Dokumentacja:
- https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html
- https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.isna.html


In [None]:
# tutaj dodaj swój kod

## <span style="color:#0f766e; font-weight:700;">Zadanie 5</span>

Cel: zrozumienie struktury pliku Excel jako kontenera wielu arkuszy.

Instrukcja:
1. Wczytaj `experiment.xlsx`.
2. Załaduj:
- jeden arkusz,
- wszystkie arkusze jako słownik.
3. Sprawdź strukturę zwróconego obiektu.

Wymagane funkcje:
- `pd.read_excel()`
- parametr `sheet_name`

Kryterium zaliczenia:
- poprawnie odczytujesz pojedynczy arkusz oraz słownik arkuszy.

Checkpoint:
- pokaż typ obiektu dla `sheet_name=None` i nazwy kluczy.

Dokumentacja:
- https://pandas.pydata.org/docs/reference/api/pandas.read_excel.html


In [None]:
# tutaj dodaj swój kod

## <span style="color:#0f766e; font-weight:700;">Zadanie 6</span>

Cel: ograniczenie importu do wybranych kolumn i wierszy.

Instrukcja:
1. Wczytaj z `experiment.xlsx` tylko wybrane kolumny.
2. Pomiń pierwsze dwa wiersze.
3. Ustaw własne nazwy kolumn.

Wymagane funkcje:
- `pd.read_excel()`
- parametr `usecols`
- parametr `skiprows`
- parametr `names`
- parametr `header` (ustaw `header=None`, jeśli ręcznie podajesz `names`)

Kryterium zaliczenia:
- wynikowa tabela ma dokładnie wskazane kolumny i nazwy.

Checkpoint:
- pokaż `df.head()` oraz `df.columns`.

Dokumentacja:
- https://pandas.pydata.org/docs/reference/api/pandas.read_excel.html


In [None]:
# tutaj dodaj swój kod

## <span style="color:#0f766e; font-weight:700;">Zadanie 7</span>

Cel: zrozumienie różnicy między strukturą tabelaryczną a JSON.

Instrukcja:
1. Wczytaj `data.json`.
2. Sprawdź strukturę danych.
3. Przekonwertuj dane do `DataFrame`.

Wymagane funkcje:
- `pd.read_json()`
- `pd.DataFrame()`

Kryterium zaliczenia:
- poprawnie uzyskany `DataFrame` z oczekiwaną liczbą wierszy i kolumn.

Checkpoint:
- pokaż `df.head()` i `df.shape`.

Dokumentacja:
- https://pandas.pydata.org/docs/reference/api/pandas.read_json.html


In [None]:
# tutaj dodaj swój kod

## <span style="color:#0f766e; font-weight:700;">Zadanie 8</span>

Cel: normalizacja struktury zagnieżdżonej.

Instrukcja:
1. Wczytaj `data_nested.json`.
2. Zidentyfikuj pola zawierające słowniki/listy.
3. Spłaszcz strukturę do postaci tabelarycznej.

Wymagane funkcje:
- `pd.read_json()`
- `pd.json_normalize()`

Kryterium zaliczenia:
- kolumny z danych zagnieżdżonych są poprawnie wypłaszczone.

Checkpoint:
- pokaż listę kolumn i `head()` po normalizacji.

Dokumentacja:
- https://pandas.pydata.org/docs/reference/api/pandas.json_normalize.html


In [None]:
# tutaj dodaj swój kod