# Analiza Danych (Python) - Lekcja 1

1. [Organizacja](#1.-Organizacja)
2. [Środowisko Python (venv)](#2.-Środowisko-Python-(venv))
3. [GitHub i GitKraken](#3.-GitHub-i-GitKraken)
4. [Import danych](#4.-Import-danych)
5. [Zadania](#5.-Zadania)


In [19]:
from google.colab import drive
drive.mount('/content/drive')
%cd /content/drive/MyDrive/Colab Notebooks/Analiza danych


Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).
/content/drive/MyDrive/Colab Notebooks/Analiza danych


# 1. Organizacja

## Kiedy i gdzie?

- Grupa 2: środa 17:45-19:15 albo do 21:00 (ojej)
- Sala: 3.13, Wydział Psychologii, ul. Banacha 2D.
- Łatwo można mnie znaleźć i zasadniczo się nie ukrywam, ale nie dam rady być przed zajęciami (wykład) ani po zajęciach (to jest jednak przesada). Jeśli będą potrzebne dodatkowe konsultacje, to można do mnie pisać mailowo albo na Discordzie: `PanBartosz`.

## Co robimy na kursie?

Celem kursu jest praktyczne opanowanie pełnego cyklu pracy z danymi:

- import i kontrola jakości danych,
- czyszczenie i transformacje w `pandas`,
- analiza eksploracyjna i wizualizacja,
- podstawowe wnioskowanie statystyczne,
- raportowanie wyników,
- praca z repozytorium `Git`/`GitHub`.

## Ocena

1. Obecność: 10% (14/15 zajęć).
2. Notebooki cząstkowe: 60% (`10` notebooków).
3. Projekt końcowy: 30% (ostatnie `3-4` zajęcia).

Zasady punktacji notebooków:

- oddanie na zajęciach lub w dniu zajęć: `100%`,
- oddanie przed kolejnymi zajęciami: `80%`,
- oddanie po kolejnych zajęciach: `60%`.

Arkusz ocen: jeszcze nie wiem jak to zorganizuję, ale jeśli tylko to zorganizuję, to się pojawi tutaj.

Skala ocen:

- `<50%` - 2
- `50%-59%` - 3
- `60%-69%` - 3.5
- `70%-79%` - 4
- `80%-89%` - 4.5
- `90-95%` - 5
- `95%<` - 5!

## Co przygotować przed kolejnymi zajęciami?

- działającego Pythona 3.11+,
- działające środowisko `.venv`,
- konto GitHub (najlepiej uczelniane),
- sforkowane repozytorium kursu.

## Literatura

Podstawowa:

- Wes McKinney, *Python for Data Analysis*.
- Jake VanderPlas, *Python Data Science Handbook*.
- Allen Downey, *Think Stats*.

Uzupełniająca:

- Peter Bruce, Andrew Bruce, Peter Gedeck, *Practical Statistics for Data Scientists*.
- Claus O. Wilke, *Fundamentals of Data Visualization*.
- Dokumentacja: `pandas`, `matplotlib`, `seaborn`, `statsmodels`, `git`, `GitHub`.


# 2. Środowisko Python (venv)

## Utworzenie środowiska (tylko raz)

macOS/Linux:

```bash
cd sciezka/do/projektu
python3 -m venv .venv
```

Windows (PowerShell):

```powershell
cd sciezka\do\projektu
py -m venv .venv
```

## Aktywacja środowiska (zawsze przed pracą)

macOS/Linux:

```bash
source .venv/bin/activate
```

Windows (PowerShell):

```powershell
.\.venv\Scripts\Activate.ps1
```

## Instalacja bibliotek

```bash
pip install pandas numpy matplotlib seaborn jupyter openpyxl
```

## Najczęstsze błędy

- `python`/`pip` z innego środowiska niż `.venv`,
- brak aktywacji środowiska przed uruchomieniem Jupyter,
- problem z uprawnieniami PowerShell (`Set-ExecutionPolicy -Scope CurrentUser RemoteSigned`),
- literówka w ścieżce do projektu.

## Kernel Jupyter z Twojego środowiska

Po aktywacji `.venv` wykonaj:

```bash
python -m pip install ipykernel
python -m ipykernel install --user --name analiza-venv --display-name "Python (analiza-venv)"
```

## Start notebooka

```bash
jupyter notebook
```

Następnie w Jupyter Notebook wybierz:
`Kernel` -> `Change kernel` -> `Python (analiza-venv)`

Sprawdzenie dostępnych kerneli:

```bash
jupyter kernelspec list
```

Usunięcie kernela (opcjonalnie):

```bash
jupyter kernelspec uninstall analiza-venv
```

## Nowoczesny tooling: `uv`

`uv` to nowoczesny manager środowisk i zależności dla Pythona. W praktyce jest szybszy i bardziej przewidywalny niż ręczne `pip install` bez lockfile.

### Zalety `uv`

- bardzo szybkie tworzenie/synchronizacja środowiska,
- jedna komenda do odtworzenia środowiska (`uv sync`),
- lockfile (`uv.lock`) zapewnia powtarzalność wersji,
- wygodne uruchamianie narzędzi we właściwym środowisku (`uv run ...`).

### Podstawowe komendy `uv` w tym repo

```bash
uv sync
uv run jupyter notebook
uv run jupyter lab
uv run python -c "import pandas as pd; print(pd.__version__)"
uv add nazwa_pakietu
uv remove nazwa_pakietu
uv lock
```

### Kiedy używać `venv + pip`, a kiedy `uv`?

- `venv + pip`: dobre do nauki podstaw i zrozumienia mechaniki środowiska.
- `uv`: lepsze do codziennej pracy projektowej, gdy liczy się szybkość i odtwarzalność.

## Alternatywy dla `jupyter` i `jupyter_lab`

Format `.ipynb` można wygodnie obsługiwać nie tylko w klasycznym Jupyter Notebook/JupyterLab.

### Edytory i IDE z obsługą notebooków

- **VS Code** (`Jupyter` extension): bardzo wygodna praca z notebookami i Git w jednym miejscu.
- **PyCharm Professional**: pełna obsługa `.ipynb`, debugowanie i integracja z interpreterami.
- **Cursor** / inne edytory oparte o VS Code: zwykle dziedziczą wsparcie dla notebooków przez rozszerzenia.

### Środowiska chmurowe

- **Google Colab**: szybki start bez lokalnej instalacji, dobre do krótkich eksperymentów.
- **Kaggle Notebooks**: gotowe środowisko pod analizę danych i ML.
- **Databricks Notebooks**: środowisko zespołowe i produkcyjne dla większych projektów danych.

### Na co uważać przy alternatywach

- zgodność wersji bibliotek z lokalnym projektem,
- dostęp do lokalnych plików danych (`dane_lekcja1/`, `dane_lekcja2/`),
- ustawienie właściwego kernela/interpretera, żeby uniknąć błędów importu.


# 3. GitHub i GitKraken

## Git vs GitHub

- `Git`: system kontroli wersji (lokalna historia zmian).
- `GitHub`: platforma do hostowania repozytoriów Git i współpracy.

## Kluczowe pojęcia

- repozytorium,
- commit,
- branch,
- clone,
- push / pull.

## Minimalny workflow na zajęcia

1. Forkujesz repozytorium tego kursu na GitHub.
2. Klonujesz je lokalnie.
3. Edytujesz plik.
4. Robisz commit z czytelnym opisem.
5. Wysyłasz zmiany (`push`).

## Alternatywy dla GitKrakena

GitKraken to tylko jedno z wielu narzędzi GUI do Git. Możesz używać tego, co najlepiej pasuje do Twojego workflow.

### Wszystkie systemy

- **CLI (`git` w terminalu)**: najbardziej uniwersalne i przewidywalne podejście.
- **VS Code (Source Control)**: wbudowana obsługa Git + commit/push/branch bez wychodzenia z edytora.
- **JetBrains (PyCharm/IntelliJ)**: pełna integracja Git (log, konflikty, cherry-pick, rebase).

### Windows

- **GitHub Desktop**: prosty start, dobre dla początkujących.
- **SourceTree**: rozbudowany GUI dla Git.
- **Fork**: szybki i przejrzysty klient Git.

### macOS

- **Tower**: dopracowane GUI dla Git na Maca.
- **Fork**: lekki i wygodny klient Git.
- **SourceTree**: klasyczny, darmowy klient GUI.

### Linux

- **Git Cola**: prosty klient GUI, często dostępny w repozytoriach systemowych.
- **gitg**: lekki klient dla środowisk GNOME.
- **VS Code / JetBrains + terminal**: najczęstszy praktyczny zestaw.

### Rozsądna strategia na kurs

- Na początku: GUI + podstawowe komendy CLI.
- Docelowo: swobodne przechodzenie między GUI i terminalem.

## Zadanie 1

1. Załóż konto GitHub (mail uczelniany).
2. Aktywuj GitHub Student Developer Pack: https://education.github.com/pack
3. Wybierz i zainstaluj narzędzie do pracy z Git (`GitKraken`, `GitHub Desktop`, `SourceTree`, `Fork` lub sam terminal + IDE).
4. Sklonuj repozytorium: https://github.com/ArtuDitu/AnalizaDanychPythonKurs


# 4. Import danych

## Dlaczego to ważne?

- Błędy importu propagują się na całą analizę (`garbage in, garbage out`).
- Import to nie tylko odczyt pliku, ale też decyzje o typach, brakach danych i kodowaniu.
- Jawne parametry importu zwiększają powtarzalność analizy.

## Co trzeba kontrolować przy imporcie?

- separator (`sep`),
- kodowanie (`encoding`),
- typy kolumn (`dtype`),
- daty (`parse_dates`),
- oznaczenia braków danych (`na_values`),
- wybór arkusza/kolumn/wierszy.

## Najczęstsze problemy

- liczby wczytane jako tekst,
- daty jako `object`,
- zły separator (`;` vs `,`),
- błędne kodowanie znaków,
- niestandardowe oznaczenia braków (`999`, `.`, `-`).

## Formaty, które poznajemy

| Format | Zastosowanie |
| --- | --- |
| CSV | uniwersalne dane tabelaryczne |
| Excel (`.xlsx`) | dane przekazywane przez zespoły i organizacje |
| JSON | dane z API i struktury zagnieżdżone |
| SQL | dane relacyjne |

Import danych to kontrolowany proces translacji danych z pliku do struktury w pamięci (`DataFrame`) z jawnie opisanym schematem.


# 5. Zadania

## Pliki do ćwiczeń

Pliki wejściowe znajdują się w folderze `dane_lekcja1/`:

- `students.csv`
- `data_semicolon.csv`
- `missing_values.csv`
- `experiment.xlsx`
- `data.json`
- `data_nested.json`

## Zadanie 2

Cel: zrozumienie różnicy między domyślną inferencją typów a jawnym schematem.

Instrukcja:

1. Wczytaj `students.csv`.
2. Sprawdź typy kolumn.
3. Wczytaj plik ponownie, jawnie definiując:
   - kolumny numeryczne jako `float64`,
   - kolumnę kategoryczną jako `category`,
   - kolumnę daty przez `parse_dates` (wynikowo `datetime64[ns]`).
4. Porównaj `df.info()` dla obu wersji.

Wymagane funkcje:

- `pd.read_csv()`
- `DataFrame.info()`
- parametr `dtype`
- parametr `parse_dates`

Kryterium zaliczenia:

- w drugim imporcie kolumna daty ma typ `datetime64[ns]`,
- co najmniej jedna kolumna ma typ `category`.

Checkpoint:

- pokaż prowadzącemu wynik `df.info()` dla obu wersji.

Dokumentacja:

- https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html
- https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.info.html


In [None]:
# Miejsce na Twoje rozwiązanie.
import pandas as pd

df = pd.read_csv('dane_lekcja1/students.csv')

display(df.head())
df.info()

Unnamed: 0,id,imie,wiek,wynik,kategoria,data_pomiaru
0,1,Daniel,19,74.5,A,2025-11-17
1,2,Daniel,27,66.0,A,2025-11-07
2,3,Nikodem,19,83.3,C,2025-11-08
3,4,Alicja,27,76.6,A,2025-11-15
4,5,Szymon,25,78.0,A,2025-11-18


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 400 entries, 0 to 399
Data columns (total 6 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   id            400 non-null    int64  
 1   imie          400 non-null    object 
 2   wiek          400 non-null    int64  
 3   wynik         400 non-null    float64
 4   kategoria     400 non-null    object 
 5   data_pomiaru  400 non-null    object 
dtypes: float64(1), int64(2), object(3)
memory usage: 18.9+ KB


In [None]:
import pandas as pd


df = pd.read_csv(
    'dane_lekcja1/students.csv',
    dtype={
        'wynik': 'float64',
        'kategoria': 'category'
    },
    parse_dates=['data_pomiaru']
)

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 400 entries, 0 to 399
Data columns (total 6 columns):
 #   Column        Non-Null Count  Dtype         
---  ------        --------------  -----         
 0   id            400 non-null    int64         
 1   imie          400 non-null    object        
 2   wiek          400 non-null    int64         
 3   wynik         400 non-null    float64       
 4   kategoria     400 non-null    category      
 5   data_pomiaru  400 non-null    datetime64[ns]
dtypes: category(1), datetime64[ns](1), float64(1), int64(2), object(1)
memory usage: 16.3+ KB


## Zadanie 3

Cel: diagnostyka błędów parsowania.

Instrukcja:

1. Spróbuj wczytać `data_semicolon.csv` domyślnie.
2. Zidentyfikuj problem.
3. Ustaw poprawny separator.
4. W razie potrzeby ustaw `encoding='utf-8'` lub `encoding='latin1'`.
5. Zweryfikuj poprawność nagłówków.

Wymagane funkcje:

- `pd.read_csv()`
- parametr `sep`
- parametr `encoding`
- `DataFrame.columns`

Kryterium zaliczenia:

- kolumny są rozdzielone poprawnie,
- nagłówki nie zawierają artefaktów kodowania.

Checkpoint:

- pokaż `df.head()` i `df.columns`.

Dokumentacja:

- https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html


In [7]:
import pandas as pd
df = pd.read_csv("dane_lekcja1/data_semicolon.csv",sep = ";")

df

Unnamed: 0,id,miasto,temperatura
0,1,Lodz,19.7
1,2,Krakow,15.3
2,3,Poznan,28.0
3,4,Gdansk,21.3
4,5,Gdansk,24.4
...,...,...,...
495,496,Warszawa,-3.3
496,497,Szczecin,-4.4
497,498,Gdansk,11.3
498,499,Warszawa,31.7


## Zadanie 4

Cel: zrozumienie, jak parser interpretuje wartości brakujące.

Instrukcja:

1. Wczytaj `missing_values.csv`.
2. Ustaw własne oznaczenia NA: `.` oraz `999`.
3. Sprawdź liczbę braków w każdej kolumnie.

Wymagane funkcje:

- `pd.read_csv()`
- parametr `na_values`
- `DataFrame.isna()`
- `DataFrame.sum()`

Kryterium zaliczenia:

- `.` i `999` są liczone jako braki danych.

Checkpoint:

- pokaż wynik `df.isna().sum()`.

Dokumentacja:

- https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html
- https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.isna.html


In [13]:
df = pd.read_csv("dane_lekcja1/missing_values.csv", na_values = (".",999))
df

Unnamed: 0,id,pomiar_1,pomiar_2,grupa
0,1,17.64,17.49,C
1,2,,1.65,B
2,3,3.31,6.11,C
3,4,8.58,,C
4,5,,2.65,A
...,...,...,...,...
445,446,14.49,0.79,C
446,447,5.89,3.80,C
447,448,6.47,17.35,A
448,449,11.09,,C


In [17]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 450 entries, 0 to 449
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   id        450 non-null    int64  
 1   pomiar_1  379 non-null    float64
 2   pomiar_2  375 non-null    float64
 3   grupa     450 non-null    object 
dtypes: float64(2), int64(1), object(1)
memory usage: 14.2+ KB


## Zadanie 5

Cel: zrozumienie struktury pliku Excel jako kontenera wielu arkuszy.

Instrukcja:

1. Wczytaj `experiment.xlsx`.
2. Załaduj:
   - jeden arkusz,
   - wszystkie arkusze jako słownik.
3. Sprawdź strukturę zwróconego obiektu.

Wymagane funkcje:

- `pd.read_excel()`
- parametr `sheet_name`

Kryterium zaliczenia:

- poprawnie odczytujesz pojedynczy arkusz oraz słownik arkuszy.

Checkpoint:

- pokaż typ obiektu dla `sheet_name=None` i nazwy kluczy.

Dokumentacja:

- https://pandas.pydata.org/docs/reference/api/pandas.read_excel.html


In [23]:
experiment = pd.read_excel("dane_lekcja1/experiment.xlsx", sheet_name=None)
experiment["participants"].iloc[0:6]

Unnamed: 0,participant_id,wiek,plec,grupa
0,1,19,K,eksperymentalna
1,2,34,K,kontrolna
2,3,28,M,kontrolna
3,4,26,K,kontrolna
4,5,27,K,eksperymentalna
5,6,31,K,eksperymentalna


## Zadanie 6

Cel: ograniczenie importu do wybranych kolumn i wierszy.

Instrukcja:

1. Wczytaj z `experiment.xlsx` tylko wybrane kolumny.
2. Pomiń pierwsze dwa wiersze.
3. Ustaw własne nazwy kolumn.

Wymagane funkcje:

- `pd.read_excel()`
- parametr `usecols`
- parametr `skiprows`
- parametr `names`
- parametr `header` (ustaw `header=None`, jeśli ręcznie podajesz `names`)

Kryterium zaliczenia:

- wynikowa tabela ma dokładnie wskazane kolumny i nazwy.

Checkpoint:

- pokaż `df.head()` oraz `df.columns`.

Dokumentacja:

- https://pandas.pydata.org/docs/reference/api/pandas.read_excel.html


In [30]:
# Miejsce na Twoje rozwiązanie.
experiment = pd.read_excel("dane_lekcja1/experiment.xlsx", sheet_name="trials", usecols = "A:C", skiprows = 4, names = ("Kolumna1","Kolumna2","Kolumna3"), header=None)
experiment

Unnamed: 0,Kolumna1,Kolumna2,Kolumna3
0,4,70,B
1,5,286,A
2,6,60,B
3,7,160,B
4,8,149,B
...,...,...,...
1192,1196,171,B
1193,1197,26,A
1194,1198,81,B
1195,1199,83,B


## Zadanie 7

Cel: zrozumienie różnicy między strukturą tabelaryczną a JSON.

Instrukcja:

1. Wczytaj `data.json`.
2. Sprawdź strukturę danych.
3. Przekonwertuj dane do `DataFrame`.

Wymagane funkcje:

- `pd.read_json()`
- `pd.DataFrame()`

Kryterium zaliczenia:

- poprawnie uzyskany `DataFrame` z oczekiwaną liczbą wierszy i kolumn.

Checkpoint:

- pokaż `df.head()` i `df.shape`.

Dokumentacja:

- https://pandas.pydata.org/docs/reference/api/pandas.read_json.html


In [None]:
# Miejsce na Twoje rozwiązanie.


## Zadanie 8

Cel: normalizacja struktury zagnieżdżonej.

Instrukcja:

1. Wczytaj `data_nested.json`.
2. Zidentyfikuj pola zawierające słowniki/listy.
3. Spłaszcz strukturę do postaci tabelarycznej.

Wymagane funkcje:

- `pd.read_json()`
- `pd.json_normalize()`

Kryterium zaliczenia:

- kolumny z danych zagnieżdżonych są poprawnie wypłaszczone.

Checkpoint:

- pokaż listę kolumn i `head()` po normalizacji.

Dokumentacja:

- https://pandas.pydata.org/docs/reference/api/pandas.json_normalize.html


In [None]:
# Miejsce na Twoje rozwiązanie.
