# Kompleksowy przewodnik po bibliotece Pandas w Pythonie

Ten notatnik pokazuje szeroki zakres funkcjonalności biblioteki `pandas`, od podstawowych operacji po zaawansowane techniki analizy danych. Każda sekcja zawiera szczegółowe wyjaśnienia i przykłady kodu.

## 1. Wprowadzenie do Pandas

`Pandas` to potężna biblioteka do analizy danych w Pythonie. Pozwala na manipulowanie danymi w formie tabel (DataFrame) oraz serii (Series).

In [None]:
import pandas as pd
import numpy as np

## 2. Tworzenie DataFrame

DataFrame to dwuwymiarowa struktura danych, podobna do tabeli w bazie danych. Można go tworzyć na różne sposoby.

In [None]:
# Tworzenie DataFrame z słownika
data = {'Imie': ['Anna', 'Jan', 'Katarzyna'], 'Wiek': [25, 30, 22], 'Plec': ['K', 'M', 'K']}
df = pd.DataFrame(data)
print("DataFrame z słownika:\n", df)

# Tworzenie DataFrame z listy list
data = [['Anna', 25, 'K'], ['Jan', 30, 'M'], ['Katarzyna', 22, 'K']]
df = pd.DataFrame(data, columns=['Imie', 'Wiek', 'Plec'])
print("\nDataFrame z listy list:\n", df)

# Tworzenie DataFrame z pliku CSV
# df = pd.read_csv('dane.csv')

## 3. Podstawowe operacje na DataFrame

Pandas oferuje wiele funkcji do przeglądania i manipulowania danymi.

In [None]:
# Podgląd pierwszych i ostatnich wierszy
print("Pierwsze 2 wiersze:\n", df.head(2))
print("\nOstatnie 2 wiersze:\n", df.tail(2))

# Informacje o DataFrame
print("\nInformacje o DataFrame:")
df.info()

# Statystyki opisowe
print("\nStatystyki opisowe:\n", df.describe())

# Wybór kolumn
print("\nKolumna 'Imie':\n", df['Imie'])

# Wybór wierszy
print("\nPierwszy wiersz:\n", df.iloc[0])

# Filtrowanie danych
print("\nOsoby starsze niż 25 lat:\n", df[df['Wiek'] > 25])

## 4. Operacje na danych

Pandas umożliwia wykonywanie różnych operacji na danych, takich jak sortowanie, grupowanie i agregacja.

In [None]:
# Sortowanie danych
print("Sortowanie według wieku:\n", df.sort_values('Wiek'))

# Grupowanie danych
print("\nŚredni wiek według płci:\n", df.groupby('Plec')['Wiek'].mean())

# Dodawanie nowej kolumny
df['Czy_Pelnoletni'] = df['Wiek'] >= 18
print("\nDataFrame z nową kolumną:\n", df)

# Usuwanie kolumny
df = df.drop(columns=['Czy_Pelnoletni'])
print("\nDataFrame po usunięciu kolumny:\n", df)

## 5. Praca z brakującymi danymi

Pandas oferuje narzędzia do radzenia sobie z brakującymi danymi.

In [None]:
# Tworzenie DataFrame z brakującymi danymi
data = {'Imie': ['Anna', 'Jan', None], 'Wiek': [25, None, 22], 'Plec': ['K', 'M', None]}
df_missing = pd.DataFrame(data)
print("DataFrame z brakującymi danymi:\n", df_missing)

# Sprawdzanie brakujących danych
print("\nBrakujące dane:\n", df_missing.isnull())

# Usuwanie wierszy z brakującymi danymi
df_cleaned = df_missing.dropna()
print("\nDataFrame po usunięciu brakujących danych:\n", df_cleaned)

# Wypełnianie brakujących danych
df_filled = df_missing.fillna({'Imie': 'Nieznane', 'Wiek': 0, 'Plec': 'N/A'})
print("\nDataFrame po wypełnieniu brakujących danych:\n", df_filled)

## 6. Operacje na kolumnach

Można łatwo modyfikować i przetwarzać kolumny w DataFrame.

In [None]:
# Zmiana nazw kolumn
df.columns = ['Name', 'Age', 'Gender']
print("DataFrame po zmianie nazw kolumn:\n", df)

# Resetowanie nazw kolumn
df.columns = ['Imie', 'Wiek', 'Plec']
print("\nDataFrame po resetowaniu nazw kolumn:\n", df)

# Stosowanie funkcji do kolumn
df['Wiek'] = df['Wiek'].apply(lambda x: x + 1)
print("\nDataFrame po zwiększeniu wieku o 1:\n", df)

## 7. Łączenie DataFrame

Pandas umożliwia łączenie wielu DataFrame na różne sposoby.

In [None]:
# Tworzenie dwóch DataFrame
df1 = pd.DataFrame({'Imie': ['Anna', 'Jan'], 'Wiek': [25, 30]})
df2 = pd.DataFrame({'Imie': ['Katarzyna', 'Piotr'], 'Wiek': [22, 35]})

# Łączenie wierszami (concat)
df_concat = pd.concat([df1, df2], ignore_index=True)
print("Połączenie wierszami:\n", df_concat)

# Łączenie kolumnami (merge)
df3 = pd.DataFrame({'Imie': ['Anna', 'Jan'], 'Zawod': ['Lekarz', 'Inżynier']})
df_merge = pd.merge(df1, df3, on='Imie')
print("\nPołączenie kolumnami:\n", df_merge)

## 8. Zaawansowane funkcje

Pandas oferuje wiele zaawansowanych funkcji, takich jak pivotowanie, praca z czasem i wiele innych.

In [None]:
# Pivotowanie danych
df_pivot = df.pivot_table(index='Plec', values='Wiek', aggfunc='mean')
print("Tabela przestawna:\n", df_pivot)

# Praca z czasem
df_time = pd.DataFrame({'Data': pd.date_range(start='2023-01-01', periods=5, freq='D'), 'Wartosc': [10, 20, 30, 40, 50]})
print("\nDataFrame z danymi czasowymi:\n", df_time)

# Wyciąganie informacji o dacie
df_time['Rok'] = df_time['Data'].dt.year
df_time['Miesiac'] = df_time['Data'].dt.month
print("\nDataFrame z dodatkowymi kolumnami czasowymi:\n", df_time)

## 9. Eksport danych

Pandas umożliwia łatwe eksportowanie danych do różnych formatów.

In [None]:
# Eksport do CSV
df.to_csv('output.csv', index=False)

# Eksport do Excel
df.to_excel('output.xlsx', index=False)

## 10. Wizualizacja danych za pomocą matplotlib

Poniżej przedstawiono przykłady różnych typów wykresów, które można wykorzystać do analizy danych.

In [None]:
# Wczytanie niezbędnych bibliotek
import pandas as pd
import matplotlib.pyplot as plt

# Pobranie danych z pliku CSV z internetu (np. z Kaggle)
# Przykładowy zbiór danych: "Titanic: Machine Learning from Disaster"
url = 'https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv'
data = pd.read_csv(url)

# Wyświetlenie pierwszych kilku wierszy danych
print(data.head())

### Histogram wieku
* Histogram służy do przedstawienia rozkładu wartości numerycznej (np. wieku) w postaci przedziałów (binów).
* Pozwala zobaczyć, jak często występują różne przedziały wartości.

In [None]:
# 1. Histogram wieku pasażerów
plt.hist(data['Age'].dropna(), bins=20, color='teal', edgecolor='black')
plt.title('Rozkład wieku pasażerów')
plt.xlabel('Wiek')
plt.ylabel('Liczba pasażerów')
plt.show()
# Interpretacja: Wykres pokazuje rozkład wieku pasażerów na Titanicu.

### Wykres słupkowy:
* Służy do porównywania częstości występowania różnych kategorii (np. liczby dzieci).
* Na osi X znajdują się kategorie, a na osi Y liczba obserwacji.
* Przykład: Możemy zobaczyć, ile osób ma 0, 1, 2 dzieci itd.

In [None]:
# 2. Wykres słupkowy płci klientów
data['sex'].value_counts().plot(kind='bar', color=['pink', 'lightblue'])
plt.title('Rozkład płci klientów')
plt.xlabel('Płeć')
plt.ylabel('Liczba klientów')
plt.show()
# Interpretacja: Wykres pokazuje, ilu klientów to mężczyźni, a ile kobiety.

### Wykres pudełkowy:
* Służy do przedstawienia rozkładu danych numerycznych, w tym wartości odstających.
* Pokazuje medianę, kwartyle oraz zakres danych.
* Przykład: Możemy zobaczyć, jakie są typowe dochody oraz czy istnieją wartości odstające.

In [None]:
# 3. Wykres pudełkowy napiwków
plt.boxplot(data['tip'])
plt.title('Rozkład napiwków')
plt.ylabel('Napiwek')
plt.show()
# Interpretacja: Wykres pokazuje medianę, kwartyle oraz wartości odstające w danych dotyczących napiwków.

### Wykres punktowy:
* Służy do pokazania zależności między dwiema zmiennymi numerycznymi (np. wiekiem a dochodem).
* Każdy punkt reprezentuje jedną obserwację.
* Przykład: Możemy zobaczyć, czy starsze osoby zarabiają więcej.

In [None]:
# 4. Wykres punktowy: Kwota rachunku vs Napiwek
plt.scatter(data['total_bill'], data['tip'], color='green')
plt.title('Kwota rachunku vs Napiwek')
plt.xlabel('Kwota rachunku')
plt.ylabel('Napiwek')
plt.show()

### Wykres kołowy:
* Służy do pokazania proporcji różnych kategorii (np. płci) w postaci procentowej.
* Każdy wycinek koła reprezentuje udział danej kategorii w całości.
* Przykład: Możemy zobaczyć, jaki procent osób to kobiety, a jaki mężczyźni.

In [None]:
# 5. Wykres kołowy dni tygodnia
data['day'].value_counts().plot(kind='pie', autopct='%1.1f%%', colors=['gold', 'lightcoral', 'lightgreen', 'lightblue'])
plt.title('Rozkład dni tygodnia')
plt.show()
# Interpretacja: Wykres pokazuje, jaki procent rachunków został wystawiony w poszczególne dni tygodnia.

## 11. Podsumowanie

W tym notatniku omówiliśmy:
- Tworzenie i podstawowe operacje na DataFrame.
- Pracę z brakującymi danymi.
- Łączenie i modyfikowanie DataFrame.
- Zaawansowane funkcje, takie jak pivotowanie i praca z czasem.
- Eksport danych do różnych formatów.
- Wizualizację danych.

Zachęcam do eksperymentowania z kodem i odkrywania kolejnych funkcjonalności biblioteki `pandas`!