### I. Wprowadzenie do pandas (30 minut)

#### 1.1. Wstęp do pandas: Co to jest i dlaczego jest używane

**Co to jest pandas?**
- Pandas to biblioteka open-source w języku Python, która jest używana do manipulacji i analizy danych.
- Została zaprojektowana z myślą o szybkości, elastyczności i łatwości użycia.
- Pandas oferuje struktury danych i operacje niezbędne do manipulowania tabelami i czasami szeregowymi, analogiczne do baz danych SQL i arkuszy kalkulacyjnych Excel.

**Dlaczego używamy pandas?**
- Ułatwia importowanie danych z różnych źródeł (CSV, Excel, SQL, JSON itp.).
- Posiada bogate funkcje do czyszczenia i przygotowywania danych (usuwanie brakujących danych, duplikatów, itp.).
- Umożliwia wydajną manipulację dużymi zbiorami danych.
- Oferuje narzędzia do agregacji, grupowania i analizy danych.
- Jest zintegrowana z innymi popularnymi bibliotekami Pythona, takimi jak NumPy, Matplotlib i SciPy, co umożliwia tworzenie kompleksowych analiz i wizualizacji.

#### 1.2. Instalacja i konfiguracja środowiska

**Instalacja pandas:**
1. **Z użyciem pip:**
   ```bash
   pip install pandas
   ```
2. **Z użyciem conda (dla użytkowników Anaconda):**
   ```bash
   conda install pandas
   ```

**Konfiguracja środowiska:**
1. **Utworzenie wirtualnego środowiska (zalecane):**
   ```bash
   python -m venv myenv
   source myenv/bin/activate   # dla systemów Unix/macOS
   myenv\Scripts\activate      # dla systemu Windows
   ```
   Następnie zainstaluj pandas w wirtualnym środowisku:
   ```bash
   pip install pandas
   ```

2. **Sprawdzenie instalacji:**
   Po zainstalowaniu pandas, możesz sprawdzić instalację, uruchamiając Python i importując bibliotekę:
   ```python
   import pandas as pd
   print(pd.__version__)
   ```

**Użycie Jupyter Notebook:**
- Jupyter Notebook jest popularnym narzędziem do pracy z pandas, umożliwiającym interaktywne pisanie i uruchamianie kodu.
- Instalacja Jupyter Notebook:
  ```bash
  pip install jupyterlab
  ```
- Uruchomienie Jupyter Notebook:
  ```bash
  jupyter lab
  ```

#### 1.3. Podstawowe struktury danych: Series i DataFrame

**Series:**
- Series to jednowymiarowa tablica oznaczona, która może przechowywać dowolny typ danych (liczby całkowite, liczby zmiennoprzecinkowe, łańcuchy znaków itp.).
- Jest podobna do kolumny w tabeli lub do wektora w R.

**Przykład tworzenia Series:**
```python
import pandas as pd

# Tworzenie Series z listy
data = [1, 2, 3, 4, 5]
series = pd.Series(data)
print(series)

# Tworzenie Series ze słownika
data = {'a': 1, 'b': 2, 'c': 3}
series = pd.Series(data)
print(series)
```

**DataFrame:**
- DataFrame to dwuwymiarowa, oznaczona tablica, podobna do tabeli w bazie danych lub arkusza kalkulacyjnego Excel.
- Każda kolumna w DataFrame jest obiektem Series.

**Przykład tworzenia DataFrame:**
```python
# Tworzenie DataFrame z listy słowników
data = [
    {'Name': 'John', 'Age': 28, 'City': 'New York'},
    {'Name': 'Anna', 'Age': 22, 'City': 'London'},
    {'Name': 'Mike', 'Age': 32, 'City': 'San Francisco'}
]
df = pd.DataFrame(data)
print(df)

# Tworzenie DataFrame ze słownika list
data = {
    'Name': ['John', 'Anna', 'Mike'],
    'Age': [28, 22, 32],
    'City': ['New York', 'London', 'San Francisco']
}
df = pd.DataFrame(data)
print(df)
```

**Podstawowe operacje na DataFrame:**
- Wyświetlanie pierwszych kilku wierszy:
  ```python
  print(df.head())
  ```
- Wyświetlanie informacji o DataFrame:
  ```python
  print(df.info())
  ```
- Opisanie statystyk dla DataFrame:
  ```python
  print(df.describe())
  ```

#### Materiały pomocnicze:
- [Oficjalna dokumentacja pandas](https://pandas.pydata.org/pandas-docs/stable/)
- [Wprowadzenie do pandas na Kaggle](https://www.kaggle.com/learn/pandas)

Czy potrzebujesz dodatkowych informacji lub wyjaśnień? Jeśli tak, proszę o konkretne pytania.

### II. Tworzenie i Odczytywanie Zbiorów Danych (30 minut)

#### 2.1. Tworzenie DataFrame z różnych źródeł danych (słowniki, listy)

**Tworzenie DataFrame z list:**
```python
import pandas as pd

# Tworzenie DataFrame z listy list
data = [
    ['John', 28, 'New York'],
    ['Anna', 22, 'London'],
    ['Mike', 32, 'San Francisco']
]
df = pd.DataFrame(data, columns=['Name', 'Age', 'City'])
print(df)
```

**Tworzenie DataFrame ze słowników:**
```python
# Tworzenie DataFrame z listy słowników
data = [
    {'Name': 'John', 'Age': 28, 'City': 'New York'},
    {'Name': 'Anna', 'Age': 22, 'City': 'London'},
    {'Name': 'Mike', 'Age': 32, 'City': 'San Francisco'}
]
df = pd.DataFrame(data)
print(df)

# Tworzenie DataFrame ze słownika list
data = {
    'Name': ['John', 'Anna', 'Mike'],
    'Age': [28, 22, 32],
    'City': ['New York', 'London', 'San Francisco']
}
df = pd.DataFrame(data)
print(df)
```

**Tworzenie DataFrame z serii:**
```python
# Tworzenie DataFrame z Series
data = {
    'Name': pd.Series(['John', 'Anna', 'Mike']),
    'Age': pd.Series([28, 22, 32]),
    'City': pd.Series(['New York', 'London', 'San Francisco'])
}
df = pd.DataFrame(data)
print(df)
```

#### 2.2. Odczytywanie danych z plików CSV, Excel, JSON

**Odczytywanie danych z pliku CSV:**
```python
# Odczytywanie danych z pliku CSV
df_csv = pd.read_csv('path/to/your/file.csv')
print(df_csv.head())
```

**Odczytywanie danych z pliku Excel:**
```python
# Odczytywanie danych z pliku Excel
df_excel = pd.read_excel('path/to/your/file.xlsx', sheet_name='Sheet1')
print(df_excel.head())
```

**Odczytywanie danych z pliku JSON:**
```python
# Odczytywanie danych z pliku JSON
df_json = pd.read_json('path/to/your/file.json')
print(df_json.head())
```

**Odczytywanie danych z innych źródeł:**
Pandas wspiera również odczyt danych z baz danych SQL, XML, HTML, itd.
- **Odczytywanie danych z bazy SQL:**
  ```python
  from sqlalchemy import create_engine

  engine = create_engine('sqlite:///path/to/database.db')
  df_sql = pd.read_sql('SELECT * FROM table_name', engine)
  print(df_sql.head())
  ```
- **Odczytywanie danych z pliku XML:**
  ```python
  df_xml = pd.read_xml('path/to/your/file.xml')
  print(df_xml.head())
  ```
- **Odczytywanie danych z pliku HTML:**
  ```python
  url = 'http://example.com/table.html'
  df_html = pd.read_html(url)[0]  # assuming the table is the first one on the page
  print(df_html.head())
  ```

#### 2.3. Konwersje między różnymi formatami plików

**Zapisywanie DataFrame do pliku CSV:**
```python
# Zapisywanie DataFrame do pliku CSV
df.to_csv('path/to/save/file.csv', index=False)
```

**Zapisywanie DataFrame do pliku Excel:**
```python
# Zapisywanie DataFrame do pliku Excel
df.to_excel('path/to/save/file.xlsx', index=False, sheet_name='Sheet1')
```

**Zapisywanie DataFrame do pliku JSON:**
```python
# Zapisywanie DataFrame do pliku JSON
df.to_json('path/to/save/file.json')
```

**Inne konwersje:**
- **Zapisywanie do bazy SQL:**
  ```python
  df.to_sql('table_name', engine, index=False)
  ```
- **Zapisywanie do pliku XML:**
  ```python
  df.to_xml('path/to/save/file.xml')
  ```
- **Zapisywanie do pliku HTML:**
  ```python
  df.to_html('path/to/save/file.html')
  ```

#### Przykładowe ćwiczenia:

1. **Ćwiczenie 1:**
   - Utwórz DataFrame z listy słowników zawierających informacje o kilku osobach (np. imię, wiek, miasto).
   - Wyświetl pierwszy wiersz DataFrame.

2. **Ćwiczenie 2:**
   - Odczytaj dane z pliku CSV do DataFrame.
   - Wyświetl podstawowe informacje o DataFrame za pomocą metody `info()`.

3. **Ćwiczenie 3:**
   - Zapisz DataFrame z ćwiczenia 1 do pliku Excel.
   - Odczytaj dane z tego pliku i wyświetl je.

#### Materiały pomocnicze:
- [Oficjalna dokumentacja pandas](https://pandas.pydata.org/pandas-docs/stable/)
- [Wprowadzenie do pandas na Kaggle](https://www.kaggle.com/learn/pandas)

Czy potrzebujesz dodatkowych informacji lub wyjaśnień? Jeśli tak, proszę o konkretne pytania.

In [15]:
import pandas as pd
from sqlalchemy import create_engine

# 2.1. Tworzenie DataFrame z różnych źródeł danych (słowniki, listy)

# Tworzenie DataFrame z listy list
data_list = [
    ['John', 28, 'New York'],
    ['Anna', 22, 'London'],
    ['Mike', 32, 'San Francisco']
]
df_list = pd.DataFrame(data_list, columns=['Name', 'Age', 'City'])
print("DataFrame z listy list:")
print(df_list)

# Tworzenie DataFrame z listy słowników
data_dict_list = [
    {'Name': 'John', 'Age': 28, 'City': 'New York'},
    {'Name': 'Anna', 'Age': 22, 'City': 'London'},
    {'Name': 'Mike', 'Age': 32, 'City': 'San Francisco'}
]
df_dict_list = pd.DataFrame(data_dict_list)
print("\nDataFrame z listy słowników:")
print(df_dict_list)

# Tworzenie DataFrame ze słownika list
data_dict = {
    'Name': ['John', 'Anna', 'Mike'],
    'Age': [28, 22, 32],
    'City': ['New York', 'London', 'San Francisco']
}
df_dict = pd.DataFrame(data_dict)
print("\nDataFrame ze słownika list:")
print(df_dict)

# Tworzenie DataFrame z Series
data_series = {
    'Name': pd.Series(['John', 'Anna', 'Mike']),
    'Age': pd.Series([28, 22, 32]),
    'City': pd.Series(['New York', 'London', 'San Francisco'])
}
df_series = pd.DataFrame(data_series)
print("\nDataFrame z Series:")
print(df_series)

# 2.2. Odczytywanie danych z plików CSV, Excel, JSON

# Tworzenie przykładowych plików do odczytu

# Tworzenie pliku CSV
df_list.to_csv('example.csv', index=False)
# Odczytywanie danych z pliku CSV
df_csv = pd.read_csv('example.csv')
print("\nDataFrame z pliku CSV:")
print(df_csv.head())

# Tworzenie pliku Excel
df_list.to_excel('example.xlsx', index=False, sheet_name='Sheet1')
# Odczytywanie danych z pliku Excel
df_excel = pd.read_excel('example.xlsx', sheet_name='Sheet1')
print("\nDataFrame z pliku Excel:")
print(df_excel.head())

# Tworzenie pliku JSON
df_list.to_json('example.json')
# Odczytywanie danych z pliku JSON
df_json = pd.read_json('example.json')
print("\nDataFrame z pliku JSON:")
print(df_json.head())

# Tworzenie przykładowej bazy danych SQLite
engine = create_engine('sqlite:///example.db')
df_list.to_sql('example_table', engine, index=False, if_exists='replace')
# Odczytywanie danych z bazy SQL
df_sql = pd.read_sql('example_table', engine)
print("\nDataFrame z bazy SQL:")
print(df_sql.head())

# Tworzenie pliku XML
df_list.to_xml('example.xml')
# Odczytywanie danych z pliku XML
df_xml = pd.read_xml('example.xml')
print("\nDataFrame z pliku XML:")
print(df_xml.head())

# Tworzenie pliku HTML
df_list.to_html('example.html')
# Odczytywanie danych z pliku HTML
df_html = pd.read_html('example.html')[0]  # assuming the table is the first one on the page
print("\nDataFrame z pliku HTML:")
print(df_html.head())

# 2.3. Konwersje między różnymi formatami plików

# Zapisywanie DataFrame do pliku CSV
df_list.to_csv('output.csv', index=False)

# Zapisywanie DataFrame do pliku Excel
df_list.to_excel('output.xlsx', index=False, sheet_name='Sheet1')

# Zapisywanie DataFrame do pliku JSON
df_list.to_json('output.json')

# Zapisywanie do bazy SQL
df_list.to_sql('output_table', engine, index=False, if_exists='replace')

# Zapisywanie DataFrame do pliku XML
df_list.to_xml('output.xml')

# Zapisywanie DataFrame do pliku HTML
df_list.to_html('output.html')

# Ćwiczenia

# Ćwiczenie 1: Utwórz DataFrame z listy słowników zawierających informacje o kilku osobach (np. imię, wiek, miasto).
data_exercise1 = [
    {'Name': 'Alice', 'Age': 30, 'City': 'Paris'},
    {'Name': 'Bob', 'Age': 25, 'City': 'Berlin'},
    {'Name': 'Charlie', 'Age': 35, 'City': 'Tokyo'}
]
df_exercise1 = pd.DataFrame(data_exercise1)
print("\nĆwiczenie 1 - DataFrame z listy słowników:")
print(df_exercise1)

# Ćwiczenie 2: Odczytaj dane z pliku CSV do DataFrame i wyświetl podstawowe informacje o DataFrame za pomocą metody info().
df_exercise2 = pd.read_csv('example.csv')
print("\nĆwiczenie 2 - Info o DataFrame z pliku CSV:")
print(df_exercise2.info())

# Ćwiczenie 3: Zapisz DataFrame z ćwiczenia 1 do pliku Excel i odczytaj dane z tego pliku, a następnie wyświetl je.
df_exercise1.to_excel('exercise1.xlsx', index=False, sheet_name='Sheet1')
df_exercise3 = pd.read_excel('exercise1.xlsx', sheet_name='Sheet1')
print("\nĆwiczenie 3 - DataFrame z pliku Excel:")
print(df_exercise3)


DataFrame z listy list:
   Name  Age           City
0  John   28       New York
1  Anna   22         London
2  Mike   32  San Francisco

DataFrame z listy słowników:
   Name  Age           City
0  John   28       New York
1  Anna   22         London
2  Mike   32  San Francisco

DataFrame ze słownika list:
   Name  Age           City
0  John   28       New York
1  Anna   22         London
2  Mike   32  San Francisco

DataFrame z Series:
   Name  Age           City
0  John   28       New York
1  Anna   22         London
2  Mike   32  San Francisco

DataFrame z pliku CSV:
   Name  Age           City
0  John   28       New York
1  Anna   22         London
2  Mike   32  San Francisco

DataFrame z pliku Excel:
   Name  Age           City
0  John   28       New York
1  Anna   22         London
2  Mike   32  San Francisco

DataFrame z pliku JSON:
   Name  Age           City
0  John   28       New York
1  Anna   22         London
2  Mike   32  San Francisco

DataFrame z bazy SQL:
   Name  Age  

### III. Wstępne Przeglądanie i Analiza Danych (30 minut)

#### 3.1. Podstawowe operacje na danych: head(), tail(), describe()

**Załaduj przykładowe dane:**
Najpierw załadujmy przykładowy DataFrame, który będziemy używać do ćwiczeń:

```python
import pandas as pd

# Tworzenie przykładowego DataFrame
data = {
    'Name': ['John', 'Anna', 'Mike', 'Sara', 'David'],
    'Age': [28, 22, 32, 24, 35],
    'City': ['New York', 'London', 'San Francisco', 'Paris', 'Berlin'],
    'Salary': [70000, 80000, 120000, 90000, 110000]
}
df = pd.DataFrame(data)
print("Przykładowy DataFrame:")
print(df)
```

**Podstawowe operacje na danych:**

1. **head()** - wyświetla pierwsze n wierszy (domyślnie 5):

    ```python
    print("\nPierwsze 5 wierszy DataFrame:")
    print(df.head())
    ```

2. **tail()** - wyświetla ostatnie n wierszy (domyślnie 5):

    ```python
    print("\nOstatnie 5 wierszy DataFrame:")
    print(df.tail())
    ```

3. **describe()** - wyświetla podstawowe statystyki dla danych liczbowych:

    ```python
    print("\nPodstawowe statystyki opisowe:")
    print(df.describe())
    ```

#### 3.2. Selekcja danych: wybieranie wierszy i kolumn, filtrowanie danych

**Wybieranie kolumn:**

1. Wybieranie jednej kolumny:
    ```python
    print("\nWybieranie jednej kolumny (Name):")
    print(df['Name'])
    ```

2. Wybieranie wielu kolumn:
    ```python
    print("\nWybieranie wielu kolumn (Name, Age):")
    print(df[['Name', 'Age']])
    ```

**Wybieranie wierszy:**

1. Wybieranie wierszy za pomocą indeksów:
    ```python
    print("\nWybieranie wierszy za pomocą indeksów (iloc):")
    print(df.iloc[0:3])  # pierwsze trzy wiersze
    ```

2. Wybieranie wierszy za pomocą etykiet:
    ```python
    print("\nWybieranie wierszy za pomocą etykiet (loc):")
    print(df.loc[0:2])  # pierwsze trzy wiersze (indeksy 0, 1, 2)
    ```

**Filtrowanie danych:**

1. Filtrowanie danych na podstawie jednej kolumny:
    ```python
    print("\nFiltrowanie danych (Age > 25):")
    print(df[df['Age'] > 25])
    ```

2. Filtrowanie danych na podstawie wielu warunków:
    ```python
    print("\nFiltrowanie danych (Age > 25 i Salary > 80000):")
    print(df[(df['Age'] > 25) & (df['Salary'] > 80000)])
    ```

#### 3.3. Indeksowanie i sortowanie danych

**Indeksowanie danych:**

1. Ustawianie kolumny jako indeks:
    ```python
    df_indexed = df.set_index('Name')
    print("\nDataFrame z Name jako indeks:")
    print(df_indexed)
    ```

2. Resetowanie indeksu:
    ```python
    df_reset = df_indexed.reset_index()
    print("\nDataFrame po resetowaniu indeksu:")
    print(df_reset)
    ```

**Sortowanie danych:**

1. Sortowanie według jednej kolumny:
    ```python
    print("\nSortowanie według kolumny Age:")
    print(df.sort_values(by='Age'))
    ```

2. Sortowanie według wielu kolumn:
    ```python
    print("\nSortowanie według kolumn Age i Salary:")
    print(df.sort_values(by=['Age', 'Salary'], ascending=[True, False]))
    ```

#### Przykładowe ćwiczenia:

1. **Ćwiczenie 1:**
    - Załaduj przykładowy DataFrame z danymi o kilku produktach (np. nazwa, cena, kategoria, ilość w magazynie).
    - Wyświetl pierwsze 5 wierszy DataFrame.

2. **Ćwiczenie 2:**
    - Wybierz wszystkie produkty z kategorii "Elektronika" o cenie większej niż 500.
    - Posortuj wynik według ceny malejąco.

3. **Ćwiczenie 3:**
    - Ustaw kolumnę "nazwa" jako indeks DataFrame.
    - Zresetuj indeks z powrotem do domyślnego.

#### Materiały pomocnicze:
- [Oficjalna dokumentacja pandas](https://pandas.pydata.org/pandas-docs/stable/)
- [Wprowadzenie do pandas na Kaggle](https://www.kaggle.com/learn/pandas)

Oto pełny kod, który możesz wprowadzić do Jupyter Notebook:

```python
import pandas as pd

# Tworzenie przykładowego DataFrame
data = {
    'Name': ['John', 'Anna', 'Mike', 'Sara', 'David'],
    'Age': [28, 22, 32, 24, 35],
    'City': ['New York', 'London', 'San Francisco', 'Paris', 'Berlin'],
    'Salary': [70000, 80000, 120000, 90000, 110000]
}
df = pd.DataFrame(data)
print("Przykładowy DataFrame:")
print(df)

# 3.1. Podstawowe operacje na danych: head(), tail(), describe()
print("\nPierwsze 5 wierszy DataFrame:")
print(df.head())

print("\nOstatnie 5 wierszy DataFrame:")
print(df.tail())

print("\nPodstawowe statystyki opisowe:")
print(df.describe())

# 3.2. Selekcja danych: wybieranie wierszy i kolumn, filtrowanie danych
print("\nWybieranie jednej kolumny (Name):")
print(df['Name'])

print("\nWybieranie wielu kolumn (Name, Age):")
print(df[['Name', 'Age']])

print("\nWybieranie wierszy za pomocą indeksów (iloc):")
print(df.iloc[0:3])  # pierwsze trzy wiersze

print("\nWybieranie wierszy za pomocą etykiet (loc):")
print(df.loc[0:2])  # pierwsze trzy wiersze (indeksy 0, 1, 2)

print("\nFiltrowanie danych (Age > 25):")
print(df[df['Age'] > 25])

print("\nFiltrowanie danych (Age > 25 i Salary > 80000):")
print(df[(df['Age'] > 25) & (df['Salary'] > 80000)])

# 3.3. Indeksowanie i sortowanie danych
df_indexed = df.set_index('Name')
print("\nDataFrame z Name jako indeks:")
print(df_indexed)

df_reset = df_indexed.reset_index()
print("\nDataFrame po resetowaniu indeksu:")
print(df_reset)

print("\nSortowanie według kolumny Age:")
print(df.sort_values(by='Age'))

print("\nSortowanie według kolumn Age i Salary:")
print(df.sort_values(by=['Age', 'Salary'], ascending=[True, False]))

# Ćwiczenia
# Ćwiczenie 1: Załaduj przykładowy DataFrame z danymi o kilku produktach (np. nazwa, cena, kategoria, ilość w magazynie).
data_exercise1 = {
    'Product': ['Laptop', 'Tablet', 'Smartphone', 'Monitor', 'Keyboard'],
    'Price': [1200, 300, 800, 200, 50],
    'Category': ['Electronics', 'Electronics', 'Electronics', 'Electronics', 'Accessories'],
    'Stock': [50, 150, 100, 75, 300]
}
df_exercise1 = pd.DataFrame(data_exercise1)
print("\nĆwiczenie 1 - Przykładowy DataFrame z produktami:")
print(df_exercise1)

# Ćwiczenie 2: Wybierz wszystkie produkty z kategorii "Elektronika" o cenie większej niż 500 i posortuj wynik według ceny malejąco.
print("\nĆwiczenie 2 - Produkty z kategorii 'Elektronika' o cenie większej niż 500:")
filtered_df = df_exercise1[(df_exercise1['Category'] == 'Electronics') & (df_exercise1['Price'] > 500)]
print(filtered_df.sort_values(by='Price', ascending=False))

# Ćwiczenie 3: Ustaw kolumnę "Product" jako indeks DataFrame, a następnie zresetuj indeks z powrotem do domyślnego.
df_exercise1_indexed = df_ex

ercise1.set_index('Product')
print("\nĆwiczenie 3 - DataFrame z 'Product' jako indeks:")
print(df_exercise1_indexed)

df_exercise1_reset = df_exercise1_indexed.reset_index()
print("\nĆwiczenie 3 - DataFrame po resetowaniu indeksu:")
print(df_exercise1_reset)
```

Ten kod obejmuje wszystkie omówione operacje i ćwiczenia. Uruchomienie tego kodu w Jupyter Notebook pozwoli na zapoznanie się z podstawowymi operacjami na danych w pandas.

In [18]:
import pandas as pd

# Tworzenie przykładowego DataFrame
data = {
    'Name': ['John', 'Anna', 'Mike', 'Sara', 'David'],
    'Age': [28, 22, 32, 24, 35],
    'City': ['New York', 'London', 'San Francisco', 'Paris', 'Berlin'],
    'Salary': [70000, 80000, 120000, 90000, 110000]
}
df = pd.DataFrame(data)
print("Przykładowy DataFrame:")
print(df)

Przykładowy DataFrame:
    Name  Age           City  Salary
0   John   28       New York   70000
1   Anna   22         London   80000
2   Mike   32  San Francisco  120000
3   Sara   24          Paris   90000
4  David   35         Berlin  110000


In [19]:
# 3.1. Podstawowe operacje na danych: head(), tail(), describe()
print("\nPierwsze 5 wierszy DataFrame:")
print(df.head())


Pierwsze 5 wierszy DataFrame:
    Name  Age           City  Salary
0   John   28       New York   70000
1   Anna   22         London   80000
2   Mike   32  San Francisco  120000
3   Sara   24          Paris   90000
4  David   35         Berlin  110000


In [20]:
print("\nOstatnie 5 wierszy DataFrame:")
print(df.tail())


Ostatnie 5 wierszy DataFrame:
    Name  Age           City  Salary
0   John   28       New York   70000
1   Anna   22         London   80000
2   Mike   32  San Francisco  120000
3   Sara   24          Paris   90000
4  David   35         Berlin  110000


In [21]:
print("\nPodstawowe statystyki opisowe:")
print(df.describe())


Podstawowe statystyki opisowe:
             Age         Salary
count   5.000000       5.000000
mean   28.200000   94000.000000
std     5.403702   20736.441353
min    22.000000   70000.000000
25%    24.000000   80000.000000
50%    28.000000   90000.000000
75%    32.000000  110000.000000
max    35.000000  120000.000000


In [22]:
# 3.2. Selekcja danych: wybieranie wierszy i kolumn, filtrowanie danych
print("\nWybieranie jednej kolumny (Name):")
print(df['Name'])


Wybieranie jednej kolumny (Name):
0     John
1     Anna
2     Mike
3     Sara
4    David
Name: Name, dtype: object


In [23]:
print("\nWybieranie wielu kolumn (Name, Age):")
print(df[['Name', 'Age']])


Wybieranie wielu kolumn (Name, Age):
    Name  Age
0   John   28
1   Anna   22
2   Mike   32
3   Sara   24
4  David   35


In [24]:
print("\nWybieranie wierszy za pomocą indeksów (iloc):")
print(df.iloc[0:3])  # pierwsze trzy wiersze


Wybieranie wierszy za pomocą indeksów (iloc):
   Name  Age           City  Salary
0  John   28       New York   70000
1  Anna   22         London   80000
2  Mike   32  San Francisco  120000


In [25]:
print("\nWybieranie wierszy za pomocą etykiet (loc):")
print(df.loc[0:2])  # pierwsze trzy wiersze (indeksy 0, 1, 2)


Wybieranie wierszy za pomocą etykiet (loc):
   Name  Age           City  Salary
0  John   28       New York   70000
1  Anna   22         London   80000
2  Mike   32  San Francisco  120000


In [26]:
print("\nFiltrowanie danych (Age > 25):")
print(df[df['Age'] > 25])


Filtrowanie danych (Age > 25):
    Name  Age           City  Salary
0   John   28       New York   70000
2   Mike   32  San Francisco  120000
4  David   35         Berlin  110000


In [27]:
print("\nFiltrowanie danych (Age > 25 i Salary > 80000):")
print(df[(df['Age'] > 25) & (df['Salary'] > 80000)])


Filtrowanie danych (Age > 25 i Salary > 80000):
    Name  Age           City  Salary
2   Mike   32  San Francisco  120000
4  David   35         Berlin  110000


In [28]:
# 3.3. Indeksowanie i sortowanie danych
df_indexed = df.set_index('Name')
print("\nDataFrame z Name jako indeks:")
print(df_indexed)


DataFrame z Name jako indeks:
       Age           City  Salary
Name                             
John    28       New York   70000
Anna    22         London   80000
Mike    32  San Francisco  120000
Sara    24          Paris   90000
David   35         Berlin  110000


In [29]:
df_reset = df_indexed.reset_index()
print("\nDataFrame po resetowaniu indeksu:")
print(df_reset)


DataFrame po resetowaniu indeksu:
    Name  Age           City  Salary
0   John   28       New York   70000
1   Anna   22         London   80000
2   Mike   32  San Francisco  120000
3   Sara   24          Paris   90000
4  David   35         Berlin  110000


In [30]:
print("\nSortowanie według kolumny Age:")
print(df.sort_values(by='Age'))


Sortowanie według kolumny Age:
    Name  Age           City  Salary
1   Anna   22         London   80000
3   Sara   24          Paris   90000
0   John   28       New York   70000
2   Mike   32  San Francisco  120000
4  David   35         Berlin  110000


In [31]:
print("\nSortowanie według kolumn Age i Salary:")
print(df.sort_values(by=['Age', 'Salary'], ascending=[True, False]))


Sortowanie według kolumn Age i Salary:
    Name  Age           City  Salary
1   Anna   22         London   80000
3   Sara   24          Paris   90000
0   John   28       New York   70000
2   Mike   32  San Francisco  120000
4  David   35         Berlin  110000


In [32]:
# Ćwiczenia
# Ćwiczenie 1: Załaduj przykładowy DataFrame z danymi o kilku produktach (np. nazwa, cena, kategoria, ilość w magazynie).
data_exercise1 = {
    'Product': ['Laptop', 'Tablet', 'Smartphone', 'Monitor', 'Keyboard'],
    'Price': [1200, 300, 800, 200, 50],
    'Category': ['Electronics', 'Electronics', 'Electronics', 'Electronics', 'Accessories'],
    'Stock': [50, 150, 100, 75, 300]
}
df_exercise1 = pd.DataFrame(data_exercise1)
print("\nĆwiczenie 1 - Przykładowy DataFrame z produktami:")
print(df_exercise1)


Ćwiczenie 1 - Przykładowy DataFrame z produktami:
      Product  Price     Category  Stock
0      Laptop   1200  Electronics     50
1      Tablet    300  Electronics    150
2  Smartphone    800  Electronics    100
3     Monitor    200  Electronics     75
4    Keyboard     50  Accessories    300


In [33]:
# Ćwiczenie 2: Wybierz wszystkie produkty z kategorii "Elektronika" o cenie większej niż 500 i posortuj wynik według ceny malejąco.
print("\nĆwiczenie 2 - Produkty z kategorii 'Elektronika' o cenie większej niż 500:")
filtered_df = df_exercise1[(df_exercise1['Category'] == 'Electronics') & (df_exercise1['Price'] > 500)]
print(filtered_df.sort_values(by='Price', ascending=False))


Ćwiczenie 2 - Produkty z kategorii 'Elektronika' o cenie większej niż 500:
      Product  Price     Category  Stock
0      Laptop   1200  Electronics     50
2  Smartphone    800  Electronics    100


In [34]:
# Ćwiczenie 3: Ustaw kolumnę "Product" jako indeks DataFrame, a następnie zresetuj indeks z powrotem do domyślnego.
df_exercise1_indexed = df_exercise1.set_index('Product')
print("\nĆwiczenie 3 - DataFrame z 'Product' jako indeks:")
print(df_exercise1_indexed)


Ćwiczenie 3 - DataFrame z 'Product' jako indeks:
            Price     Category  Stock
Product                              
Laptop       1200  Electronics     50
Tablet        300  Electronics    150
Smartphone    800  Electronics    100
Monitor       200  Electronics     75
Keyboard       50  Accessories    300


In [35]:
df_exercise1_reset = df_exercise1_indexed.reset_index()
print("\nĆwiczenie 3 - DataFrame po resetowaniu indeksu:")
print(df_exercise1_reset)


Ćwiczenie 3 - DataFrame po resetowaniu indeksu:
      Product  Price     Category  Stock
0      Laptop   1200  Electronics     50
1      Tablet    300  Electronics    150
2  Smartphone    800  Electronics    100
3     Monitor    200  Electronics     75
4    Keyboard     50  Accessories    300


### IV. Czyszczenie i Przygotowanie Danych (45 minut)

#### 4.1. Usuwanie duplikatów

**Załaduj przykładowe dane:**
Najpierw załadujmy przykładowy DataFrame z duplikatami:

```python
import pandas as pd

# Tworzenie przykładowego DataFrame z duplikatami
data = {
    'Name': ['John', 'Anna', 'Mike', 'Anna', 'John', 'Mike', 'Sara', 'David'],
    'Age': [28, 22, 32, 22, 28, 32, 24, 35],
    'City': ['New York', 'London', 'San Francisco', 'London', 'New York', 'San Francisco', 'Paris', 'Berlin'],
    'Salary': [70000, 80000, 120000, 80000, 70000, 120000, 90000, 110000]
}
df = pd.DataFrame(data)
print("Przykładowy DataFrame z duplikatami:")
print(df)

# Usuwanie duplikatów
df_no_duplicates = df.drop_duplicates()
print("\nDataFrame po usunięciu duplikatów:")
print(df_no_duplicates)
```

#### 4.2. Obsługa brakujących wartości: uzupełnianie, usuwanie

**Załaduj przykładowe dane z brakującymi wartościami:**

```python
# Tworzenie przykładowego DataFrame z brakującymi wartościami
data_with_nan = {
    'Name': ['John', 'Anna', 'Mike', 'Sara', 'David'],
    'Age': [28, None, 32, 24, 35],
    'City': ['New York', 'London', None, 'Paris', 'Berlin'],
    'Salary': [70000, 80000, None, 90000, 110000]
}
df_with_nan = pd.DataFrame(data_with_nan)
print("\nPrzykładowy DataFrame z brakującymi wartościami:")
print(df_with_nan)

# Usuwanie wierszy z brakującymi wartościami
df_dropped_nan = df_with_nan.dropna()
print("\nDataFrame po usunięciu wierszy z brakującymi wartościami:")
print(df_dropped_nan)

# Uzupełnianie brakujących wartości
df_filled_nan = df_with_nan.fillna({
    'Age': df_with_nan['Age'].mean(),
    'City': 'Unknown',
    'Salary': df_with_nan['Salary'].median()
})
print("\nDataFrame po uzupełnieniu brakujących wartości:")
print(df_filled_nan)
```

#### 4.3. Transformacja danych: zmiana typów danych, operacje na stringach

**Załaduj przykładowe dane:**

```python
# Tworzenie przykładowego DataFrame do transformacji danych
data_transformation = {
    'Name': ['John', 'Anna', 'Mike', 'Sara', 'David'],
    'Age': ['28', '22', '32', '24', '35'],
    'Salary': ['70000', '80000', '120000', '90000', '110000']
}
df_transformation = pd.DataFrame(data_transformation)
print("\nPrzykładowy DataFrame do transformacji danych:")
print(df_transformation)

# Zmiana typów danych
df_transformation['Age'] = df_transformation['Age'].astype(int)
df_transformation['Salary'] = df_transformation['Salary'].astype(float)
print("\nDataFrame po zmianie typów danych:")
print(df_transformation.dtypes)

# Operacje na stringach
df_transformation['Name_Upper'] = df_transformation['Name'].str.upper()
print("\nDataFrame po operacjach na stringach:")
print(df_transformation)
```

#### 4.4. Praca z datami

**Załaduj przykładowe dane z datami:**

```python
# Tworzenie przykładowego DataFrame z datami
data_dates = {
    'Name': ['John', 'Anna', 'Mike', 'Sara', 'David'],
    'Birthdate': ['1990-01-01', '1995-05-15', '1988-10-30', '1992-07-20', '1985-12-25']
}
df_dates = pd.DataFrame(data_dates)
print("\nPrzykładowy DataFrame z datami:")
print(df_dates)

# Konwersja kolumny do typu daty
df_dates['Birthdate'] = pd.to_datetime(df_dates['Birthdate'])
print("\nDataFrame po konwersji kolumny Birthdate do typu daty:")
print(df_dates.dtypes)

# Dodawanie nowych kolumn związanych z datami
df_dates['Year'] = df_dates['Birthdate'].dt.year
df_dates['Month'] = df_dates['Birthdate'].dt.month
df_dates['Day'] = df_dates['Birthdate'].dt.day
print("\nDataFrame po dodaniu nowych kolumn związanych z datami:")
print(df_dates)
```

Oto pełny kod, który możesz wprowadzić do Jupyter Notebook:


In [39]:
import pandas as pd

# Tworzenie przykładowego DataFrame z duplikatami
data = {
    'Name': ['John', 'Anna', 'Mike', 'Anna', 'John', 'Mike', 'Sara', 'David'],
    'Age': [28, 22, 32, 22, 28, 32, 24, 35],
    'City': ['New York', 'London', 'San Francisco', 'London', 'New York', 'San Francisco', 'Paris', 'Berlin'],
    'Salary': [70000, 80000, 120000, 80000, 70000, 120000, 90000, 110000]
}
df = pd.DataFrame(data)
print("Przykładowy DataFrame z duplikatami:")
print(df)

Przykładowy DataFrame z duplikatami:
    Name  Age           City  Salary
0   John   28       New York   70000
1   Anna   22         London   80000
2   Mike   32  San Francisco  120000
3   Anna   22         London   80000
4   John   28       New York   70000
5   Mike   32  San Francisco  120000
6   Sara   24          Paris   90000
7  David   35         Berlin  110000


In [40]:
# Usuwanie duplikatów
df_no_duplicates = df.drop_duplicates()
print("\nDataFrame po usunięciu duplikatów:")
print(df_no_duplicates)


DataFrame po usunięciu duplikatów:
    Name  Age           City  Salary
0   John   28       New York   70000
1   Anna   22         London   80000
2   Mike   32  San Francisco  120000
6   Sara   24          Paris   90000
7  David   35         Berlin  110000


In [41]:
# Tworzenie przykładowego DataFrame z brakującymi wartościami
data_with_nan = {
    'Name': ['John', 'Anna', 'Mike', 'Sara', 'David'],
    'Age': [28, None, 32, 24, 35],
    'City': ['New York', 'London', None, 'Paris', 'Berlin'],
    'Salary': [70000, 80000, None, 90000, 110000]
}
df_with_nan = pd.DataFrame(data_with_nan)
print("\nPrzykładowy DataFrame z brakującymi wartościami:")
print(df_with_nan)


Przykładowy DataFrame z brakującymi wartościami:
    Name   Age      City    Salary
0   John  28.0  New York   70000.0
1   Anna   NaN    London   80000.0
2   Mike  32.0      None       NaN
3   Sara  24.0     Paris   90000.0
4  David  35.0    Berlin  110000.0


In [42]:
# Usuwanie wierszy z brakującymi wartościami
df_dropped_nan = df_with_nan.dropna()
print("\nDataFrame po usunięciu wierszy z brakującymi wartościami:")
print(df_dropped_nan)


DataFrame po usunięciu wierszy z brakującymi wartościami:
    Name   Age      City    Salary
0   John  28.0  New York   70000.0
3   Sara  24.0     Paris   90000.0
4  David  35.0    Berlin  110000.0


In [43]:
# Uzupełnianie brakujących wartości
df_filled_nan = df_with_nan.fillna({
    'Age': df_with_nan['Age'].mean(),
    'City': 'Unknown',
    'Salary': df_with_nan['Salary'].median()
})
print("\nDataFrame po uzupełnieniu brakujących wartości:")
print(df_filled_nan)


DataFrame po uzupełnieniu brakujących wartości:
    Name    Age      City    Salary
0   John  28.00  New York   70000.0
1   Anna  29.75    London   80000.0
2   Mike  32.00   Unknown   85000.0
3   Sara  24.00     Paris   90000.0
4  David  35.00    Berlin  110000.0


In [44]:
# Tworzenie przykładowego DataFrame do transformacji danych
data_transformation = {
    'Name': ['John', 'Anna', 'Mike', 'Sara', 'David'],
    'Age': ['28', '22', '32', '24', '35'],
    'Salary': ['70000', '80000', '120000', '90000', '110000']
}
df_transformation = pd.DataFrame(data_transformation)
print("\nPrzykładowy DataFrame do transformacji danych:")
print(df_transformation)


Przykładowy DataFrame do transformacji danych:
    Name Age  Salary
0   John  28   70000
1   Anna  22   80000
2   Mike  32  120000
3   Sara  24   90000
4  David  35  110000


In [45]:
# Zmiana typów danych
df_transformation['Age'] = df_transformation['Age'].astype(int)
df_transformation['Salary'] = df_transformation['Salary'].astype(float)
print("\nDataFrame po zmianie typów danych:")
print(df_transformation.dtypes)


DataFrame po zmianie typów danych:
Name       object
Age         int64
Salary    float64
dtype: object


In [46]:
# Operacje na stringach
df_transformation['Name_Upper'] = df_transformation['Name'].str.upper()
print("\nDataFrame po operacjach na stringach:")
print(df_transformation)


DataFrame po operacjach na stringach:
    Name  Age    Salary Name_Upper
0   John   28   70000.0       JOHN
1   Anna   22   80000.0       ANNA
2   Mike   32  120000.0       MIKE
3   Sara   24   90000.0       SARA
4  David   35  110000.0      DAVID


In [47]:
# Tworzenie przykładowego DataFrame z datami
data_dates = {
    'Name': ['John', 'Anna', 'Mike', 'Sara', 'David'],
    'Birthdate': ['1990-01-01', '1995-05-15', '1988-10-30', '1992-07-20', '1985-12-25']
}
df_dates = pd.DataFrame(data_dates)
print("\nPrzykładowy DataFrame z datami:")
print(df_dates)


Przykładowy DataFrame z datami:
    Name   Birthdate
0   John  1990-01-01
1   Anna  1995-05-15
2   Mike  1988-10-30
3   Sara  1992-07-20
4  David  1985-12-25


In [48]:
# Konwersja kolumny do typu daty
df_dates['Birthdate'] = pd.to_datetime(df_dates['Birthdate'])
print("\nDataFrame po konwersji kolumny Birthdate do typu daty:")
print(df_dates.dtypes)


DataFrame po konwersji kolumny Birthdate do typu daty:
Name                 object
Birthdate    datetime64[ns]
dtype: object


In [49]:
# Dodawanie nowych kolumn związanych z datami
df_dates['Year'] = df_dates['Birthdate'].dt.year
df_dates['Month'] = df_dates['Birthdate'].dt.month
df_dates['Day'] = df_dates['Birthdate'].dt.day
print("\nDataFrame po dodaniu nowych kolumn związanych z datami:")
print(df_dates)


DataFrame po dodaniu nowych kolumn związanych z datami:
    Name  Birthdate  Year  Month  Day
0   John 1990-01-01  1990      1    1
1   Anna 1995-05-15  1995      5   15
2   Mike 1988-10-30  1988     10   30
3   Sara 1992-07-20  1992      7   20
4  David 1985-12-25  1985     12   25


### V. Optymalizacja Pamięci (30 minut)

#### 5.1. Dostosowanie typów danych do optymalizacji pamięci

**Załaduj zbiór danych Titanic:**

```python
import pandas as pd

# Załaduj zbiór danych Titanic
url = 'https://web.stanford.edu/class/archive/cs/cs109/cs109.1166/stuff/titanic.csv'
titanic_df = pd.read_csv(url)
print("Pierwsze kilka wierszy zbioru danych Titanic:")
print(titanic_df.head())
```

**Dostosowanie typów danych:**

```python
# Sprawdzenie domyślnych typów danych
print("\nDomyślne typy danych:")
print(titanic_df.dtypes)

# Optymalizacja typów danych
titanic_df['Pclass'] = titanic_df['Pclass'].astype('int8')
titanic_df['Age'] = pd.to_numeric(titanic_df['Age'], downcast='float')
titanic_df['SibSp'] = titanic_df['SibSp'].astype('int8')
titanic_df['Parch'] = titanic_df['Parch'].astype('int8')
titanic_df['Fare'] = pd.to_numeric(titanic_df['Fare'], downcast='float')

print("\nTypy danych po optymalizacji:")
print(titanic_df.dtypes)
```

#### 5.2. Sprawdzenie użycia pamięci przez DataFrame

**Przed i po optymalizacji:**

```python
# Sprawdzenie użycia pamięci przed optymalizacją
memory_before = titanic_df.memory_usage(deep=True).sum()
print("\nUżycie pamięci przed optymalizacją (w bajtach):")
print(memory_before)

# Konwersja kolumn typu object na kategorie
titanic_df['Name'] = titanic_df['Name'].astype('category')
titanic_df['Sex'] = titanic_df['Sex'].astype('category')
titanic_df['Ticket'] = titanic_df['Ticket'].astype('category')
titanic_df['Cabin'] = titanic_df['Cabin'].astype('category')
titanic_df['Embarked'] = titanic_df['Embarked'].astype('category')

# Sprawdzenie użycia pamięci po optymalizacji
memory_after = titanic_df.memory_usage(deep=True).sum()
print("\nUżycie pamięci po optymalizacji (w bajtach):")
print(memory_after)

# Różnica w użyciu pamięci
memory_saved = memory_before - memory_after
print("\nZaoszczędzona pamięć (w bajtach):")
print(memory_saved)
```

#### 5.3. Przykłady optymalizacji na zbiorze Titanic

**Przykłady dodatkowych optymalizacji:**

```python
# Optymalizacja kolumn typu string do kategorii (zrobione wcześniej)
# Optymalizacja całego DataFrame

# Funkcja do automatycznej optymalizacji DataFrame
def optimize_dataframe(df):
    df_optimized = df.copy()
    
    # Konwersja kolumn numerycznych
    for col in df_optimized.select_dtypes(include=['int']).columns:
        df_optimized[col] = pd.to_numeric(df_optimized[col], downcast='unsigned')
        
    for col in df_optimized.select_dtypes(include=['float']).columns:
        df_optimized[col] = pd.to_numeric(df_optimized[col], downcast='float')
    
    # Konwersja kolumn typu object na kategorie
    for col in df_optimized.select_dtypes(include=['object']).columns:
        df_optimized[col] = df_optimized[col].astype('category')
    
    return df_optimized

# Przed optymalizacją
print("\nRozmiar DataFrame przed optymalizacją:")
print(titanic_df.info(memory_usage='deep'))

# Optymalizacja DataFrame
titanic_df_optimized = optimize_dataframe(titanic_df)

# Po optymalizacji
print("\nRozmiar DataFrame po optymalizacji:")
print(titanic_df_optimized.info(memory_usage='deep'))
```

Oto pełny kod, który możesz skopiować i wkleić do Jupyter Notebook:



In [63]:
import pandas as pd

# Załaduj zbiór danych Titanic
url = 'https://web.stanford.edu/class/archive/cs/cs109/cs109.1166/stuff/titanic.csv'
titanic_df = pd.read_csv(url)
print("Pierwsze kilka wierszy zbioru danych Titanic:")
titanic_df.head()

Pierwsze kilka wierszy zbioru danych Titanic:


Unnamed: 0,Survived,Pclass,Name,Sex,Age,Siblings/Spouses Aboard,Parents/Children Aboard,Fare
0,0,3,Mr. Owen Harris Braund,male,22.0,1,0,7.25
1,1,1,Mrs. John Bradley (Florence Briggs Thayer) Cum...,female,38.0,1,0,71.2833
2,1,3,Miss. Laina Heikkinen,female,26.0,0,0,7.925
3,1,1,Mrs. Jacques Heath (Lily May Peel) Futrelle,female,35.0,1,0,53.1
4,0,3,Mr. William Henry Allen,male,35.0,0,0,8.05


In [65]:
# Sprawdzenie domyślnych typów danych
print("\nDomyślne typy danych:")
titanic_df.dtypes


Domyślne typy danych:


Survived                     int64
Pclass                       int64
Name                        object
Sex                         object
Age                        float64
Siblings/Spouses Aboard      int64
Parents/Children Aboard      int64
Fare                       float64
dtype: object

In [66]:
# Optymalizacja typów danych
titanic_df['Pclass'] = titanic_df['Pclass'].astype('int8')
titanic_df['Age'] = pd.to_numeric(titanic_df['Age'], downcast='float')
titanic_df['Siblings/Spouses Aboard'] = titanic_df['Siblings/Spouses Aboard'].astype('int8')
titanic_df['Parents/Children Aboard'] = titanic_df['Parents/Children Aboard'].astype('int8')
titanic_df['Fare'] = pd.to_numeric(titanic_df['Fare'], downcast='float')

print("\nTypy danych po optymalizacji:")
titanic_df.dtypes


Typy danych po optymalizacji:


Survived                     int64
Pclass                        int8
Name                        object
Sex                         object
Age                        float32
Siblings/Spouses Aboard       int8
Parents/Children Aboard       int8
Fare                       float32
dtype: object

In [67]:
# Sprawdzenie użycia pamięci przed optymalizacją
memory_before = titanic_df.memory_usage(deep=True).sum()
print("\nUżycie pamięci przed optymalizacją (w bajtach):")
memory_before


Użycie pamięci przed optymalizacją (w bajtach):


144736

In [56]:
titanic_df

Unnamed: 0,Survived,Pclass,Name,Sex,Age,Siblings/Spouses Aboard,Parents/Children Aboard,Fare
0,0,3,Mr. Owen Harris Braund,male,22.0,1,0,7.2500
1,1,1,Mrs. John Bradley (Florence Briggs Thayer) Cum...,female,38.0,1,0,71.2833
2,1,3,Miss. Laina Heikkinen,female,26.0,0,0,7.9250
3,1,1,Mrs. Jacques Heath (Lily May Peel) Futrelle,female,35.0,1,0,53.1000
4,0,3,Mr. William Henry Allen,male,35.0,0,0,8.0500
...,...,...,...,...,...,...,...,...
882,0,2,Rev. Juozas Montvila,male,27.0,0,0,13.0000
883,1,1,Miss. Margaret Edith Graham,female,19.0,0,0,30.0000
884,0,3,Miss. Catherine Helen Johnston,female,7.0,1,2,23.4500
885,1,1,Mr. Karl Howell Behr,male,26.0,0,0,30.0000


In [71]:
# Konwersja kolumn typu object na kategorie
titanic_df['Name'] = titanic_df['Name'].astype('category')
titanic_df['Sex'] = titanic_df['Sex'].astype('category')
titanic_df['Fare'] = titanic_df['Fare'].astype('category')
titanic_df


Unnamed: 0,Survived,Pclass,Name,Sex,Age,Siblings/Spouses Aboard,Parents/Children Aboard,Fare
0,0,3,Mr. Owen Harris Braund,male,22.0,1,0,7.250000
1,1,1,Mrs. John Bradley (Florence Briggs Thayer) Cum...,female,38.0,1,0,71.283302
2,1,3,Miss. Laina Heikkinen,female,26.0,0,0,7.925000
3,1,1,Mrs. Jacques Heath (Lily May Peel) Futrelle,female,35.0,1,0,53.099998
4,0,3,Mr. William Henry Allen,male,35.0,0,0,8.050000
...,...,...,...,...,...,...,...,...
882,0,2,Rev. Juozas Montvila,male,27.0,0,0,13.000000
883,1,1,Miss. Margaret Edith Graham,female,19.0,0,0,30.000000
884,0,3,Miss. Catherine Helen Johnston,female,7.0,1,2,23.450001
885,1,1,Mr. Karl Howell Behr,male,26.0,0,0,30.000000


In [72]:
# Sprawdzenie użycia pamięci po optymalizacji
memory_after = titanic_df.memory_usage(deep=True).sum()
print("\nUżycie pamięci po optymalizacji (w bajtach):")
memory_after


Użycie pamięci po optymalizacji (w bajtach):


134464

In [73]:
# Różnica w użyciu pamięci
memory_saved = memory_before - memory_after
print("\nZaoszczędzona pamięć (w bajtach):")
memory_saved


Zaoszczędzona pamięć (w bajtach):


10272

In [74]:
# Optymalizacja kolumn typu string do kategorii (zrobione wcześniej)
# Optymalizacja całego DataFrame

# Funkcja do automatycznej optymalizacji DataFrame
def optimize_dataframe(df):
    df_optimized = df.copy()
    
    # Konwersja kolumn numerycznych
    for col in df_optimized.select_dtypes(include=['int']).columns:
        df_optimized[col] = pd.to_numeric(df_optimized[col], downcast='unsigned')
        
    for col in df_optimized.select_dtypes(include=['float']).columns:
        df_optimized[col] = pd.to_numeric(df_optimized[col], downcast='float')
    
    # Konwersja kolumn typu object na kategorie
    for col in df_optimized.select_dtypes(include=['object']).columns:
        df_optimized[col] = df_optimized[col].astype('category')
    
    return df_optimized

In [75]:
# Przed optymalizacją
print("\nRozmiar DataFrame przed optymalizacją:")
titanic_df.info(memory_usage='deep')


Rozmiar DataFrame przed optymalizacją:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 887 entries, 0 to 886
Data columns (total 8 columns):
 #   Column                   Non-Null Count  Dtype   
---  ------                   --------------  -----   
 0   Survived                 887 non-null    int64   
 1   Pclass                   887 non-null    int8    
 2   Name                     887 non-null    category
 3   Sex                      887 non-null    category
 4   Age                      887 non-null    float32 
 5   Siblings/Spouses Aboard  887 non-null    int8    
 6   Parents/Children Aboard  887 non-null    int8    
 7   Fare                     887 non-null    category
dtypes: category(3), float32(1), int64(1), int8(3)
memory usage: 131.3 KB


In [76]:
# Optymalizacja DataFrame
titanic_df_optimized = optimize_dataframe(titanic_df)

In [77]:
# Po optymalizacji
print("\nRozmiar DataFrame po optymalizacji:")
titanic_df_optimized.info(memory_usage='deep')


Rozmiar DataFrame po optymalizacji:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 887 entries, 0 to 886
Data columns (total 8 columns):
 #   Column                   Non-Null Count  Dtype   
---  ------                   --------------  -----   
 0   Survived                 887 non-null    uint8   
 1   Pclass                   887 non-null    int8    
 2   Name                     887 non-null    category
 3   Sex                      887 non-null    category
 4   Age                      887 non-null    float32 
 5   Siblings/Spouses Aboard  887 non-null    int8    
 6   Parents/Children Aboard  887 non-null    int8    
 7   Fare                     887 non-null    category
dtypes: category(3), float32(1), int8(3), uint8(1)
memory usage: 125.2 KB


### VI. Manipulacja Danymi (45 minut)

#### 6.1. Dodawanie i modyfikowanie kolumn

```python
import pandas as pd

# Załaduj zbiór danych Titanic
url = 'https://web.stanford.edu/class/archive/cs/cs109/cs109.1166/stuff/titanic.csv'
titanic_df = pd.read_csv(url)

# Wyświetl kolumny
print("Kolumny w zbiorze danych:")
print(titanic_df.columns)

# Dodanie nowej kolumny 'FamilySize' (łączna liczba rodzeństwa/małżonków oraz rodziców/dzieci na pokładzie)
titanic_df['FamilySize'] = titanic_df['Siblings/Spouses Aboard'] + titanic_df['Parents/Children Aboard'] + 1
print("\nDataFrame z nową kolumną 'FamilySize':")
print(titanic_df[['Siblings/Spouses Aboard', 'Parents/Children Aboard', 'FamilySize']].head())

# Modyfikacja istniejącej kolumny, np. 'Fare' na 'Fare_per_person'
titanic_df['Fare_per_person'] = titanic_df['Fare'] / titanic_df['FamilySize']
print("\nDataFrame z zmodyfikowaną kolumną 'Fare_per_person':")
print(titanic_df[['Fare', 'FamilySize', 'Fare_per_person']].head())
```

#### 6.2. Grupowanie danych i agregacja

```python
# Grupowanie danych wg klasy (Pclass) i agregacja średniej opłaty (Fare) oraz wieku (Age)
grouped_df = titanic_df.groupby('Pclass').agg({
    'Fare': 'mean',
    'Age': 'mean'
}).reset_index()
print("\nŚrednia opłata i wiek w zależności od klasy (Pclass):")
print(grouped_df)
```

#### 6.3. Łączenie zbiorów danych: merge, join, concat

```python
# Tworzenie przykładowych DataFrame
left_df = pd.DataFrame({
    'key': ['A', 'B', 'C', 'D'],
    'value_left': [1, 2, 3, 4]
})
right_df = pd.DataFrame({
    'key': ['A', 'B', 'E', 'F'],
    'value_right': [5, 6, 7, 8]
})

print("\nLeft DataFrame:")
print(left_df)

print("\nRight DataFrame:")
print(right_df)

# Łączenie (merge) DataFrame
merged_df = pd.merge(left_df, right_df, on='key', how='inner')
print("\nMerged DataFrame (inner join):")
print(merged_df)

# Złączenie (join) DataFrame
left_df.set_index('key', inplace=True)
right_df.set_index('key', inplace=True)
joined_df = left_df.join(right_df, how='outer')
print("\nJoined DataFrame (outer join):")
print(joined_df.reset_index())

# Konkatenacja (concat) DataFrame
concat_df = pd.concat([left_df, right_df], axis=0, ignore_index=True)
print("\nConcatenated DataFrame (axis=0):")
print(concat_df)

Oto pełny kod, który możesz skopiować i wkleić do Jupyter Notebook:

In [96]:
import pandas as pd

# Załaduj zbiór danych Titanic
url = 'https://web.stanford.edu/class/archive/cs/cs109/cs109.1166/stuff/titanic.csv'
titanic_df = pd.read_csv(url)

# Wyświetl kolumny
print("Kolumny w zbiorze danych:")
print(titanic_df.columns)

# Dodanie nowej kolumny 'FamilySize' (łączna liczba rodzeństwa/małżonków oraz rodziców/dzieci na pokładzie)
titanic_df['FamilySize'] = titanic_df['Siblings/Spouses Aboard'] + titanic_df['Parents/Children Aboard'] + 1
print("\nDataFrame z nową kolumną 'FamilySize':")
print(titanic_df[['Siblings/Spouses Aboard', 'Parents/Children Aboard', 'FamilySize']].head())

# Modyfikacja istniejącej kolumny, np. 'Fare' na 'Fare_per_person'
titanic_df['Fare_per_person'] = titanic_df['Fare'] / titanic_df['FamilySize']
print("\nDataFrame z zmodyfikowaną kolumną 'Fare_per_person':")
print(titanic_df[['Fare', 'FamilySize', 'Fare_per_person']].head())

# Grupowanie danych wg klasy (Pclass) i agregacja średniej opłaty (Fare) oraz wieku (Age)
grouped_df = titanic_df.groupby('Pclass').agg({
    'Fare': 'mean',
    'Age': 'mean'
}).reset_index()
print("\nŚrednia opłata i wiek w zależności od klasy (Pclass):")
print(grouped_df)

# Tworzenie przykładowych DataFrame
left_df = pd.DataFrame({
    'key': ['A', 'B', 'C', 'D'],
    'value_left': [1, 2, 3, 4]
})
right_df = pd.DataFrame({
    'key': ['A', 'B', 'E', 'F'],
    'value_right': [5, 6, 7, 8]
})

print("\nLeft DataFrame:")
print(left_df)

print("\nRight DataFrame:")
print(right_df)

# Łączenie (merge) DataFrame
merged_df = pd.merge(left_df, right_df, on='key', how='inner')
print("\nMerged DataFrame (inner join):")
print(merged_df)

# Złączenie (join) DataFrame
left_df.set_index('key', inplace=True)
right_df.set_index('key', inplace=True)
joined_df = left_df.join(right_df, how='outer')
print("\nJoined DataFrame (outer join):")
print(joined_df.reset_index())

# Konkatenacja (concat) DataFrame
concat_df = pd.concat([left_df, right_df], axis=0, ignore_index=True)
print("\nConcatenated DataFrame (axis=0):")
print(concat_df)


Kolumny w zbiorze danych:
Index(['Survived', 'Pclass', 'Name', 'Sex', 'Age', 'Siblings/Spouses Aboard',
       'Parents/Children Aboard', 'Fare'],
      dtype='object')

DataFrame z nową kolumną 'FamilySize':
   Siblings/Spouses Aboard  Parents/Children Aboard  FamilySize
0                        1                        0           2
1                        1                        0           2
2                        0                        0           1
3                        1                        0           2
4                        0                        0           1

DataFrame z zmodyfikowaną kolumną 'Fare_per_person':
      Fare  FamilySize  Fare_per_person
0   7.2500           2          3.62500
1  71.2833           2         35.64165
2   7.9250           1          7.92500
3  53.1000           2         26.55000
4   8.0500           1          8.05000

Średnia opłata i wiek w zależności od klasy (Pclass):
   Pclass       Fare        Age
0       1  84.154687  38.7

### VII. Pobieranie Danych z Różnych Źródeł (30 minut)

#### 7.1. Pobieranie danych z API

```python
import pandas as pd
import requests

# Pobieranie danych z API
url = 'https://jsonplaceholder.typicode.com/posts'
response = requests.get(url)
data = response.json()

# Konwersja danych z API na DataFrame
api_df = pd.DataFrame(data)
print("\nDataFrame z danych API:")
print(api_df.head())
```

#### 7.2. Ładowanie danych z baz danych SQL

```python
import pandas as pd
import sqlite3

# Tworzenie przykładowej bazy danych SQLite i tabeli
conn = sqlite3.connect('example.db')
c = conn.cursor()
c.execute('''
CREATE TABLE IF NOT EXISTS users (
    id INTEGER PRIMARY KEY,
    name TEXT,
    age INTEGER
)
''')
c.execute('INSERT INTO users (name, age) VALUES (?, ?)', ('Alice', 30))
c.execute('INSERT INTO users (name, age) VALUES (?, ?)', ('Bob', 25))
conn.commit()

# Pobieranie danych z bazy danych SQL
sql_query = 'SELECT * FROM users'
sql_df = pd.read_sql_query(sql_query, conn)
print("\nDataFrame z bazy danych SQL:")
print(sql_df)

# Zamknięcie połączenia z bazą danych
conn.close()
```

#### 7.3. Przetwarzanie danych z plików XML i HTML

**Przetwarzanie danych z plików XML:**

```python
import pandas as pd
import xml.etree.ElementTree as ET

# Tworzenie przykładowego pliku XML
xml_data = '''<?xml version="1.0"?>
<data>
    <item>
        <name>Alice</name>
        <age>30</age>
    </item>
    <item>
        <name>Bob</name>
        <age>25</age>
    </item>
</data>'''

# Zapisywanie do pliku XML
with open('data.xml', 'w') as file:
    file.write(xml_data)

# Parsowanie pliku XML
tree = ET.parse('data.xml')
root = tree.getroot()

# Konwersja danych XML na DataFrame
xml_list = []
for item in root.findall('item'):
    name = item.find('name').text
    age = item.find('age').text
    xml_list.append({'name': name, 'age': age})

xml_df = pd.DataFrame(xml_list)
print("\nDataFrame z danych XML:")
print(xml_df)
```

**Przetwarzanie danych z plików HTML:**

```python
import pandas as pd

# Tworzenie przykładowego pliku HTML
html_data = '''
<table>
    <tr>
        <th>Name</th>
        <th>Age</th>
    </tr>
    <tr>
        <td>Alice</td>
        <td>30</td>
    </tr>
    <tr>
        <td>Bob</td>
        <td>25</td>
    </tr>
</table>
'''

# Zapisywanie do pliku HTML
with open('data.html', 'w') as file:
    file.write(html_data)

# Parsowanie pliku HTML i konwersja do DataFrame
html_df = pd.read_html('data.html')[0]
print("\nDataFrame z danych HTML:")
print(html_df)
```

Oto pełny kod, który możesz skopiować i wkleić do Jupyter Notebook:

```python

In [1]:
import pandas as pd
import requests
import sqlite3
import xml.etree.ElementTree as ET

In [2]:
# Pobieranie danych z API
url = 'https://jsonplaceholder.typicode.com/posts'
response = requests.get(url)
data = response.json()
api_df = pd.DataFrame(data)
print("\nDataFrame z danych API:")
print(api_df.head())


DataFrame z danych API:
   userId  id                                              title  \
0       1   1  sunt aut facere repellat provident occaecati e...   
1       1   2                                       qui est esse   
2       1   3  ea molestias quasi exercitationem repellat qui...   
3       1   4                               eum et est occaecati   
4       1   5                                 nesciunt quas odio   

                                                body  
0  quia et suscipit\nsuscipit recusandae consequu...  
1  est rerum tempore vitae\nsequi sint nihil repr...  
2  et iusto sed quo iure\nvoluptatem occaecati om...  
3  ullam et saepe reiciendis voluptatem adipisci\...  
4  repudiandae veniam quaerat sunt sed\nalias aut...  


In [None]:
# Tworzenie przykładowej bazy danych SQLite i tabeli
conn = sqlite3.connect('example.db')
c = conn.cursor()
c.execute('''
CREATE TABLE IF NOT EXISTS users (
    id INTEGER PRIMARY KEY,
    name TEXT,
    age INTEGER
)
''')
c.execute('INSERT INTO users (name, age) VALUES (?, ?)', ('Alice', 30))
c.execute('INSERT INTO users (name, age) VALUES (?, ?)', ('Bob', 25))
conn.commit()

In [None]:
# Pobieranie danych z bazy danych SQL
sql_query = 'SELECT * FROM users'
sql_df = pd.read_sql_query(sql_query, conn)
print("\nDataFrame z bazy danych SQL:")
print(sql_df)

In [None]:
# Zamknięcie połączenia z bazą danych
conn.close()

In [None]:
# Tworzenie przykładowego pliku XML
xml_data = '''<?xml version="1.0"?>
<data>
    <item>
        <name>Alice</name>
        <age>30</age>
    </item>
    <item>
        <name>Bob</name>
        <age>25</age>
    </item>
</data>'''

# Zapisywanie do pliku XML
with open('data.xml', 'w') as file:
    file.write(xml_data)

# Parsowanie pliku XML
tree = ET.parse('data.xml')
root = tree.getroot()

# Konwersja danych XML na DataFrame
xml_list = []
for item in root.findall('item'):
    name = item.find('name').text
    age = item.find('age').text
    xml_list.append({'name': name, 'age': age})

xml_df = pd.DataFrame(xml_list)
print("\nDataFrame z danych XML:")
print(xml_df)

# Tworzenie przykładowego pliku HTML
html_data = '''
<table>
    <tr>
        <th>Name</th>
        <th>Age</th>
    </tr>
    <tr>
        <td>Alice</td>
        <td>30</td>
    </tr>
    <tr>
        <td>Bob</td>
        <td>25</td>
    </tr>
</table>
'''

In [88]:
# Zapisywanie do pliku HTML
with open('data.html', 'w') as file:
    file.write(html_data)

# Parsowanie pliku HTML i konwersja do DataFrame
html_df = pd.read_html('data.html')[0]
print("\nDataFrame z danych HTML:")
print(html_df)


DataFrame z danych HTML:
    Name  Age
0  Alice   30
1    Bob   25


### VIII. Praktyczne Ćwiczenia i Case Study (40 minut)

#### 8.1. Ćwiczenia praktyczne na zbiorze danych Titanic

In [89]:
import pandas as pd

# Załaduj zbiór danych Titanic
url = 'https://web.stanford.edu/class/archive/cs/cs109/cs109.1166/stuff/titanic.csv'
titanic_df = pd.read_csv(url)

# Wyświetl pierwsze 5 wierszy danych
print("Pierwsze 5 wierszy danych:")
print(titanic_df.head())

# 1. Sprawdź rozkład wiekowy pasażerów
age_distribution = titanic_df['Age'].describe()
print("\nRozkład wiekowy pasażerów:")
print(age_distribution)

# 2. Sprawdź liczbę pasażerów w każdej klasie
pclass_distribution = titanic_df['Pclass'].value_counts()
print("\nLiczba pasażerów w każdej klasie:")
print(pclass_distribution)

# 3. Sprawdź średnią opłatę za bilet dla każdej klasy
average_fare_per_class = titanic_df.groupby('Pclass')['Fare'].mean()
print("\nŚrednia opłata za bilet dla każdej klasy:")
print(average_fare_per_class)
```

SyntaxError: invalid syntax (2645928965.py, line 25)

In [90]:
#### 8.2. Case Study: Kompleksowa analiza danych pasażerów Titanica

```python
# Załaduj zbiór danych Titanic
url = 'https://web.stanford.edu/class/archive/cs/cs109/cs109.1166/stuff/titanic.csv'
titanic_df = pd.read_csv(url)

# 1. Czyszczenie danych: uzupełnianie brakujących wartości
titanic_df['Age'].fillna(titanic_df['Age'].median(), inplace=True)
titanic_df['Fare'].fillna(titanic_df['Fare'].median(), inplace=True)

# 2. Dodanie nowej kolumny 'FamilySize'
titanic_df['FamilySize'] = titanic_df['Siblings/Spouses Aboard'] + titanic_df['Parents/Children Aboard'] + 1

# 3. Grupowanie danych wg klasy (Pclass) i przetrwanie (Survived)
survival_rate_per_class = titanic_df.groupby('Pclass')['Survived'].mean()
print("\nPrzeżywalność w zależności od klasy (Pclass):")
print(survival_rate_per_class)

# 4. Analiza przetrwania w zależności od płci
survival_rate_per_sex = titanic_df.groupby('Sex')['Survived'].mean()
print("\nPrzeżywalność w zależności od płci:")
print(survival_rate_per_sex)

# 5. Przeżywalność w zależności od wielkości rodziny
survival_rate_per_family_size = titanic_df.groupby('FamilySize')['Survived'].mean()
print("\nPrzeżywalność w zależności od wielkości rodziny:")
print(survival_rate_per_family_size)
```

SyntaxError: invalid syntax (2274560217.py, line 3)

#### 8.3. Dyskusja i pytania uczestników

Po wykonaniu powyższych ćwiczeń i case study, zachęć uczestników do zadawania pytań i dyskusji na temat wyników oraz metod analizy. Możesz poruszyć następujące tematy:

- Jakie dodatkowe analizy można by przeprowadzić na zbiorze danych Titanic?
- Jakie inne źródła danych można by uwzględnić, aby uzyskać pełniejszy obraz sytuacji?
- Jakie techniki wizualizacji danych można by zastosować, aby lepiej przedstawić wyniki?

Poniżej znajduje się pełny kod, który można skopiować i wkleić do Jupyter Notebook:

In [95]:
import pandas as pd

# Załaduj zbiór danych Titanic
url = 'https://web.stanford.edu/class/archive/cs/cs109/cs109.1166/stuff/titanic.csv'
titanic_df = pd.read_csv(url)

# Wyświetl pierwsze 5 wierszy danych
print("Pierwsze 5 wierszy danych:")
print(titanic_df.head())

# 1. Sprawdź rozkład wiekowy pasażerów
age_distribution = titanic_df['Age'].describe()
print("\nRozkład wiekowy pasażerów:")
print(age_distribution)

# 2. Sprawdź liczbę pasażerów w każdej klasie
pclass_distribution = titanic_df['Pclass'].value_counts()
print("\nLiczba pasażerów w każdej klasie:")
print(pclass_distribution)

# 3. Sprawdź średnią opłatę za bilet dla każdej klasy
average_fare_per_class = titanic_df.groupby('Pclass')['Fare'].mean()
print("\nŚrednia opłata za bilet dla każdej klasy:")
print(average_fare_per_class)

# 1. Czyszczenie danych: uzupełnianie brakujących wartości
titanic_df['Age'].fillna(titanic_df['Age'].median(), inplace=True)
titanic_df['Fare'].fillna(titanic_df['Fare'].median(), inplace=True)

# 2. Dodanie nowej kolumny 'FamilySize'
titanic_df['FamilySize'] = titanic_df['Siblings/Spouses Aboard'] + titanic_df['Parents/Children Aboard'] + 1

# 3. Grupowanie danych wg klasy (Pclass) i przetrwanie (Survived)
survival_rate_per_class = titanic_df.groupby('Pclass')['Survived'].mean()
print("\nPrzeżywalność w zależności od klasy (Pclass):")
print(survival_rate_per_class)

# 4. Analiza przetrwania w zależności od płci
survival_rate_per_sex = titanic_df.groupby('Sex')['Survived'].mean()
print("\nPrzeżywalność w zależności od płci:")
print(survival_rate_per_sex)

# 5. Przeżywalność w zależności od wielkości rodziny
survival_rate_per_family_size = titanic_df.groupby('FamilySize')['Survived'].mean()
print("\nPrzeżywalność w zależności od wielkości rodziny:")
print(survival_rate_per_family_size)

Pierwsze 5 wierszy danych:
   Survived  Pclass                                               Name  \
0         0       3                             Mr. Owen Harris Braund   
1         1       1  Mrs. John Bradley (Florence Briggs Thayer) Cum...   
2         1       3                              Miss. Laina Heikkinen   
3         1       1        Mrs. Jacques Heath (Lily May Peel) Futrelle   
4         0       3                            Mr. William Henry Allen   

      Sex   Age  Siblings/Spouses Aboard  Parents/Children Aboard     Fare  
0    male  22.0                        1                        0   7.2500  
1  female  38.0                        1                        0  71.2833  
2  female  26.0                        0                        0   7.9250  
3  female  35.0                        1                        0  53.1000  
4    male  35.0                        0                        0   8.0500  

Rozkład wiekowy pasażerów:
count    887.000000
mean      29.47144

Po wykonaniu tego ćwiczenia i case study uczestnicy będą mieli solidne podstawy do dalszej analizy danych i rozwiązywania bardziej skomplikowanych problemów przy użyciu biblioteki pandas.