# Pipeline analityczny — od pytania do decyzji

**Programowanie w Pythonie II** | Wykład 2

## Pytanie biznesowe
**Który dzień tygodnia przynosi największe napiwki?**

Szef restauracji chce wiedzieć, kiedy zatrudnić więcej kelnerów.

## Krok 1: Pozyskaj dane

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

df = pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/tips.csv')

## Krok 2: Poznaj dane

In [None]:
print(f"Rozmiar: {df.shape[0]} wierszy, {df.shape[1]} kolumn")
print(f"Kolumny: {list(df.columns)}")

In [None]:
df.head()

## Krok 3: Statystyki opisowe

In [None]:
df.describe()

## Krok 4: Odpowiedz na pytanie

In [None]:
wynik = df.groupby('day')['tip'].mean().sort_values(ascending=False)
print(wynik)
print(f"\nOdpowiedź: {wynik.index[0]} — średni napiwek {wynik.iloc[0]:.2f} $")

## Krok 5: Wizualizacja

In [None]:
fig, axes = plt.subplots(1, 2, figsize=(12, 5))

df.groupby('day')['tip'].mean().plot(kind='bar', ax=axes[0], title='Średni napiwek wg dnia')
axes[0].set_ylabel('USD')

df.plot.scatter(x='total_bill', y='tip', alpha=0.5, ax=axes[1], title='Rachunek vs napiwek')
axes[1].set_xlabel('Rachunek ($)')
axes[1].set_ylabel('Napiwek ($)')

plt.tight_layout()
plt.show()

## Krok 6: Decyzja

**Wniosek:** Niedziela przynosi największe napiwki (śr. 3.26 $). Sobota na drugim miejscu.

**Rekomendacja dla szefa:** W weekendy (niedziela, sobota) zatrudnić dodatkowych kelnerów — wyższe napiwki oznaczają większy ruch i większe rachunki.

---

## Bonus: Typy danych w DataFrame

In [None]:
print(df.dtypes)
print(f"\nPamięć: {df.memory_usage(deep=True).sum() / 1024:.1f} KB")

## Bonus: Dlaczego potrzebujemy NumPy?

In [None]:
import numpy as np
import time

lista = list(range(1_000_000))
tablica = np.array(lista)

start = time.perf_counter()
wynik_lista = [x * 2 for x in lista]
czas_lista = time.perf_counter() - start

start = time.perf_counter()
wynik_numpy = tablica * 2
czas_numpy = time.perf_counter() - start

print(f"Lista:  {czas_lista*1000:.1f} ms")
print(f"NumPy:  {czas_numpy*1000:.1f} ms")
print(f"NumPy jest {czas_lista/czas_numpy:.0f}× szybszy!")