---
title: "Wprowadzenie do fakultetu i narzędzi"
format:
  html:
    code-tools: true
    code-copy: true
    code-line-numbers: true
    highlight-style: github
---

## Cel zajęć

Witaj na zajęciach z praktycznego wykorzystania bibliotek Pythona w analizie danych i uczeniu maszynowym! W tym rozdziale zapoznasz się z programem przedmiotu, wymaganiami oraz podstawowymi narzędziami, z których będziemy korzystać.

## Program przedmiotu

Kurs podzielony jest na 5 głównych części:

1. **Wprowadzenie do Pythona** (rozdziały 1-3)
2. **NumPy - obliczenia numeryczne** (rozdziały 4-5)
3. **Pandas - analiza danych** (rozdziały 6-10)
4. **Wizualizacja danych** (rozdziały 11-13)
5. **Wprowadzenie do uczenia maszynowego** (rozdziały 14-17)

## Zasady zaliczenia:

Zaliczenie przedmiotu opiera się na realizacji projektu końcowego, który obejmuje analizę danych i modelowanie z wykorzystaniem poznanych narzędzi i technik.

### Projekt końcowy
- **Forma**: Indywidualny lub w zespołach (maks. 3 osoby)
- **Temat**: Dowolny, związany z analizą danych/uczeniem maszynowym
- **Źródło danych**: Własne lub z dostępnych repozytoriów (np. Kaggle)

### Kamienie milowe
1. Wybór tematu i zespołu (do 4. tygodnia)
2. Przesłanie wstępnej analizy danych (po rozdziałach z Pandas)
3. Przesłanie wizualizacji danych (po rozdziałach z wizualizacją)
4. Złożenie projektu końcowego

### Konsultacje
- Po każdym kamieniu milowym przewidziany jest czas na konsultacje
- Możliwość prezentacji postępów dla chętnych
- Aktywna komunikacja przez maila

### Kryteria oceny (100% oceny końcowej):
- **Jakość i złożoność rozwiązania** (40%)
- **Dokumentacja kodu i wyników** (30%)
- **Jakość kodu i zastosowane praktyki** (30%)

### Ważne terminy
- Ostateczny termin złożenia projektu: Na ostatnich zajęciach



## Wprowadzenie do analizy danych i uczenia maszynowego

### Czym jest analiza danych?
Analiza danych to proces badania, czyszczenia, przekształcania i modelowania danych w celu odkrycia użytecznych informacji, wyciągania wniosków i wspomagania podejmowania decyzji. Jest to dziedzina z natury interdyscyplinarna, łącząca w sobie:

- **Umiejętności statystyczne** - do analizy i interpretacji danych
- **Kompetencje programistyczne** - do efektywnego przetwarzania danych
- **Wiedzę merytoryczną** - z konkretnej dziedziny, której dane dotyczą

Dzięki temu podejściu analityk danych może nie tylko przetwarzać dane, ale także odpowiednio je interpretować i wyciągać wartościowe wnioski dla danej dziedziny - czy to będzie medycyna, finanse, marketing, czy badania naukowe.

### Czym jest uczenie maszynowe?
Uczenie maszynowe to dziedzina sztucznej inteligencji, która pozwala systemom uczyć się na podstawie danych, identyfikować wzorce i podejmować decyzje przy minimalnej interwencji człowieka. W przeciwieństwie do tradycyjnego programowania, gdzie człowiek musi dokładnie określić reguły działania systemu, w uczeniu maszynowym algorytmy same znajdują optymalne rozwiązania na bazie danych im dostarczonym.

Uczenie maszynowe znajduje zastosowanie w wielu dziedzinach, takich jak:
- Rozpoznawanie mowy i obrazów
- Systemy rekomendacyjne
- Przetwarzanie języka naturalnego
- Prognozowanie szeregów czasowych
- Automatyzacja procesów decyzyjnych

### Dlaczego Python w analizie danych i uczeniu maszynowym?

Python stał się dominującym językiem w dziedzinie analizy danych i uczenia maszynowego, mimo że nie został pierwotnie zaprojektowany do tych celów. Jego sukces wynika z kilku kluczowych czynników:

1. **Bogaty ekosystem bibliotek**
   - **NumPy** - wydajne obliczenia numeryczne na dużych tablicach
   - **Pandas** - zaawansowana analiza i manipulacja danymi
   - **Matplotlib/Seaborn** - tworzenie zaawansowanych wizualizacji danych
   - **Scikit-learn** - gotowe implementacje algorytmów uczenia maszynowego
   - **TensorFlow/PyTorch** - głębokie uczenie maszynowe
   - **Jupyter** - interaktywne środowisko do analizy danych i współpracy

2. **Uniwersalność zastosowań**
   - Możliwość zastosowania w różnych dziedzinach - od analizy finansowej po badania naukowe
   - Integracja z innymi językami i narzędziami
   - Bogata dokumentacja i wsparcie społeczności

3. **Łatwość nauki i czytelność**
   - Prosta i intuicyjna składnia, zbliżona do języka naturalnego
   - Duża społeczność i bogate zasoby edukacyjne
   - Uniwersalność - od prostych skryptów po zaawansowane systemy produkcyjne

4. **Narzędzia do pracy z danymi**
   - **Jupyter Notebook** - interaktywne środowisko łączące kod, wyniki i dokumentację
   - **Google Colab** - darmowy dostęp do mocy obliczeniowej w chmurze
   - **Anaconda** - kompleksowe środowisko do zarządzania pakietami i środowiskami

### Czym jest Jupyter i dlaczego jest tak popularny w analizie danych?

Jupyter Notebook (nazwa pochodzi od języków Julia, Python, R) to interaktywne środowisko programistyczne, które pozwala na łączenie kodu, wyników, wizualizacji i tekstu w jednym dokumencie. Jego główne zalety to:

- **Interaktywność** - możliwość wykonywania kodu krok po kroku, co jest nieocenione podczas eksploracyjnej analizy danych
- **Integracja kodu i dokumentacji** - możliwość łączenia kodu, wyników, wizualizacji i tekstu w jednym dokumencie
- **Wielojęzyczność** - obsługa ponad 40 języków programowania
- **Łatwe debugowanie** - możliwość testowania pojedynczych komórek kodu i natychmiastowego sprawdzania wyników
- **Powtarzalność badań** - możliwość odtworzenia całej analizy od początku do końca
- **Współpraca** - łatwe udostępnianie i współdzielenie notatników
- **Rozszerzalność** - bogaty ekosystem rozszerzeń i wtyczek

#### IPython - serce Jupytera

Jupyter wyewoluował z IPythona (Interactive Python), który został stworzony przez Fernando Pereza w 2001 roku. IPython to rozszerzona powłoka Pythona, która oferuje:
- Zaawansowane funkcje interaktywne
- Wbudowaną dokumentację i podpowiedzi
- Magiczne komendy (ang. magic commands) ułatwiające pracę z kodem
- Integrację z systemem plików
- Historię komend i dostęp do wcześniejszych wyników
- Zawansowane opcje wyświetlania obiektów

W naszym kursie będziemy często korzystać z Jupyter Notebook, ponieważ doskonale sprawdza się on w procesie eksploracyjnej analizy danych, prototypowania rozwiązań i prezentacji wyników. Jego interaktywna natura pozwala na szybsze zrozumienie danych i eksperymentowanie z różnymi podejściami.

### Instalacja środowiska

#### 1. Instalacja Pythona
Zalecana wersja: Python 3.8+

#### 2. Tworzenie środowiska wirtualnego polecane
Instrukcje dla systemów linuxowych
```bash
# Tworzenie środowiska
python -m venv .venv

# Aktywacja (Linux/Mac)
source .venv/bin/activate

# Aktywacja (Windows)
.\\.venv\\Scripts\\activate
```

#### 3. Instalacja wymaganych pakietów
```bash
pip install jupyter pandas numpy matplotlib seaborn scikit-learn
```
Jeżeli masz wymagane paczki w pliku requirements.txt to może je zainstalować za pomocą
```bash
pip install -r /path/to/requirements.txt
```

## Pierwszy notatnik Jupyter

### Uruchomienie Jupyter notebook
```bash
jupyter notebook
```

### Podstawowe operacje w Jupyter:
- **Nowy notatnik**: File -> New -> Notebook
- **Uruchomienie komórki**: Shift + Enter
- **Dodanie nowej komórki**: A (powyżej), B (poniżej)
- **Usunięcie komórki**: D, D (dwukrotnie)
- **Zmiana typu komórki**: M (markdown), Y (code)


### Najważniejsze funkcje IPython w Jupyter:

1. **Wbudowana dokumentacja**

In [None]:
# Wyświetlenie dokumentacji funkcji
?len  # Wyświetla dokumentację

In [None]:
??len  # Pokazuje kod źródłowy (jeśli dostępny)

In [None]:
def f(a):
   return 2*a

In [None]:
?f # Wyświetla dokumentację

In [None]:
??f # Pokazuje kod źródłowy (jeśli dostępny)

2. **Magiczne komendy**

In [None]:
# Czas wykonania komórki
%timeit [x**2 for x in range(1000)]

   ```python
   # Pomiar czasu całej komórki
   %%time
   result = []
   for i in range(1000):
       result.append(i**2)
   
   ```


4. **Używanie shella w notebooku**

In [None]:
# Listowanie plików
!pip list

5. **Debugowanie**
   ```python
   # Tryb debugowania
   %debug  # Po wystąpieniu wyjątku
   ```
   odpala ipbd debuggera

   # Profilowanie kodu

In [None]:
def suma(a):
   temp = 0
   for i in a:
      temp+=i
   return temp

In [None]:
%prun suma([ i for i in range(1,1_000_000)])  # Profilowanie czasu wykonania

   ```python
   %memit suma([ i for i in range(1,1_000_000)])  # Profilowanie zużycia pamięci
   ```



## Materiały dodatkowe

1. [Dokumentacja Jupyter](https://jupyter.org/documentation)


## Podsumowanie

W tym rozdziale poznałeś podstawowe informacje o przedmiocie, zainstalowałeś niezbędne narzędzia i wykonałeś pierwsze operacje w Pythonie. W następnym rozdziale zagłębimy się w podstawy programowania w Pythonie ze szczególnym uwzględnieniem typów danych i struktur.