# Zajęcia 22: Wprowadzenie do Pandas

## Instalacja i importowanie Pandas

In [None]:
!pip install pandas

In [None]:
import pandas as pd

# Series - podstawowy typ danych w Pandas
Series to jednowymiarowa struktura danych, przypominająca listę lub słownik.

In [None]:
# Tworzenie Series z domyślnym indeksem
data = [10, 20, 30, 40]
series = pd.Series(data)
print(series)

# Tworzenie Series z własnym indeksem
index = ['a', 'b', 'c', 'd']
series_custom = pd.Series(data, index=index)
print(series_custom)

### Ćwiczenie: 
Stwórz własny obiekt Series z pięcioma wartościami (możesz użyć `range`) i niestandardowym indeksem.

## DataFrame - dwuwymiarowa tabela podobna do Excela 

In [None]:
data = {
    'Imię': ['Jan', 'Anna', 'Tomasz'],
    'Wiek': [25, 30, 35],
    'Miasto': ['Warszawa', 'Kraków', 'Gdańsk']
}

df = pd.DataFrame(data) # Łatwo tworzone ze słowników

# Różnica między print a display
print(df)
display(df)

# Wywoływanie indeksów i kolumn
print(df.columns)
print(df.index)

In [None]:
data_bez_imie = {
    'Wiek': [25, 30, 35],
    'Miasto': ['Warszawa', 'Kraków', 'Gdańsk']
}

# Używanie indeksu innego niż domyślny
df = pd.DataFrame(data_bez_imie, index = ['Jan', 'Anna', 'Tomasz'])
display(df)
print(df.index)

In [None]:
# Alternatywne ustawienie indeksu innego niż domyślny
df = pd.DataFrame(data).set_index('Imię')
display(df)
print(df.index)

# Powrót indeksu do kolumny
df = df.reset_index(drop = False)
display(df)

## Importowanie danych

In [None]:
# Importowanie danych z pliku CSV

# Jeżeli nie działa, podaj swoją lokalizację pliku
df_titanic = pd.read_csv('../input/titanic/train.csv') 

df_titanic.info()

display(df_titanic.describe()) # dla kolumn liczbowych

# Alternatywne wyjścia dla ustawienia indeksu
df_titanic = df_titanic.set_index('PassengerId')
df_titanic = pd.read_csv('../input/titanic/train.csv', index_col= "PassengerId") 

display(df_titanic.head())  # Podgląd pierwszych 5 wierszy
display(df_titanic.tail(10))  # Podgląd ostatnich 10 wierszy

In [None]:
# Importowanie danych z pliku Excel
df_tdf = pd.read_excel('../input/tour_de_france/tour_de_france.xlsx', sheet_name='Stats', index_col='Year')
display(df_tdf.head())

### Ćwiczenie:
1. Zaczytaj plik z lokacji `../input/titanic/test.csv` 
2. ustaw index `PassengerId`
3. Wyświetl pierwszych 10 wierszy

In [None]:
df_titanic_test = ...

## Exportowanie danych

In [None]:
# Zapis to csv
df_titanic.to_csv('../output/titanic_kopia.csv', index=False)

# Różnica w uwzględnianiu indeksu
df_titanic.to_csv('../output/titanic_kopia2.csv', index=True)

# Zapis do xlsx
df_tdf.to_excel('../output/tour_de_france_kopia.xlsx', index=True, sheet_name="Nazwa")

## Selekcja danych

In [None]:
# Pobieranie jednej kolumny
slice_series = df_titanic['Name']
display(slice_series)
print(type(slice_series))

# Pobieranie jednej kolumny jako DataFrame
slice_df = df_titanic[['Name']]
display(slice_df)  
print(type(slice_df))


In [None]:
# Pobranie kilku kolumn
slice_2 = df_titanic[['Name', 'Age']]
display(slice_2)  
print(type(slice_2))

In [None]:
# Selekcja wierszy
display(df_titanic[:5])  # Pierwsze 5 wierszy
display(df_titanic[-5:])  # Ostatnie 5 wierszy
display(df_titanic[100:105])  # Wiersze od 100 do 104

## Selekcja danych `.loc` i `.iloc`

In [None]:
# Selekcja danych .loc (wybór według etykiet)
# Istotne są etykiety!!!
# display(df_titanic.loc[0, 'Name'])  # Nie działa!!!

display(df_titanic.loc[1, 'Name'])  # Pobranie wartości z pierwszego wiersza, kolumna 'Name'
display(df_titanic.loc[1:5, ['Name', 'Age']])  # Pobranie 6 pierwszych wierszy dla kolumn 'Name' i 'Age'
display(df_titanic.loc[:, ['Name', 'Age']])  # Pobranie wszystkich wierszy dla kolumn 'Name' i 'Age'

display(df_titanic.loc[10:20, :])  # Wiersze od 10 do 20, wszystkie kolumny
display(df_titanic.loc[::10, :])  # Co 10. wiersz

In [None]:
# Selekcja danych .iloc (wybór według indeksów)
display(df_titanic.iloc[0, 1])  # Pobranie wartości z pierwszego wiersza, drugiej kolumny
display(df_titanic.iloc[:3, :2])  # Pierwsze 3 wiersze i 2 pierwsze kolumny
display(df_titanic.iloc[5:15, 1:-1])  # Wiersze od 5 do 14, kolumny od 1 do przedostatniej
display(df_titanic.iloc[::5, :])  # Co 5. wiersz, wszystkie kolumny

### Ćwiczenie: 
Wybierz imię i wiek dziesiątej osoby z df_titanic za pomocą loc i iloc.

## Łączenie DataFrame'ów

In [None]:
# Merge - łączenie dwóch DataFrame'ów na podstawie wspólnej kolumny
employees = pd.DataFrame({'ID': [1, 2, 3, 4], 'Name': ['Jan', 'Anna', 'Tomasz', 'Jakub']})
display(employees)
salaries = pd.DataFrame({'ID': [1, 2, 3, 5], 'Salary': [4000, 5000, 6000, 7000]})
display(salaries)
merged_df = employees.merge(salaries, on='ID')
display(merged_df)


In [None]:
# Różnica między left, right, inner, outer
def merge_display(df1, df2, on, how):
    display(df1.merge(df2, on = on, how = how))

merge_display(employees, salaries, on = 'ID', how = 'left')
merge_display(employees, salaries, on = 'ID', how = 'right')
merge_display(employees, salaries, on = 'ID', how = 'inner')
merge_display(employees, salaries, on = 'ID', how = 'outer')

In [None]:
# Join - łączenie DataFrame'ów na podstawie indeksu
left = pd.DataFrame({'A': [1, 2, 3]}, index=['a', 'b', 'c'])
display(left)
right = pd.DataFrame({'B': [4, 5, 6]}, index=['a', 'b', 'c'])
display(right)

joined_df = left.join(right, how='inner')
display(joined_df)

In [None]:
# Concat - łączenie DataFrame'ów wierszami
concat_df = pd.concat([left, right], axis=1)
display(concat_df)

# Concat - łączenie DataFrame'ów kolumnami
df_titanic_all = pd.concat([df_titanic, df_titanic_test], axis=0)
display(df_titanic_all)

### Ćwiczenie: 
Połącz dwa DataFrame'y zawierające różne informacje o pasażerach Titanica.