Wojciech Łaguna  
[wojtek@laguna.pm](mailto:wojtek@laguna.pm)

Mateusz Rogowski

# Pandas - Wstęp, ładowanie i zapisywanie plików CSV, przeglądanie danych

![alt](https://cdn.shortpixel.ai/spai/w_300+q_lossy+ret_img+to_webp/https://www.numfocus.org/wp-content/uploads/2016/07/pandas-logo-300.png)

----
Sites:  
http://pandas.pydata.org/  
  
https://www.datacamp.com/community/tutorials/pandas-tutorial-dataframe-python


**Kaggle Titanic**  
https://www.kaggle.com/c/titanic  
https://www.dataquest.io/course/kaggle-competitions

In [1]:
import pandas as pd
import numpy as np

In [2]:
df = pd.read_csv('./data/titanic_train.csv')

In [3]:
df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


In [None]:
df.head(2)

In [None]:
df.tail(1)

In [None]:
df.sample(4, random_state=2022)

### Cechy (Features)  

- **PassengerId** - Wartość numeryczna id przypisana fo każdego pasażera.
- **Survived** - pasażer przeżył (1), lub nie przeżył (0). Klasa celu.
- **Pclass** - Klasa (1st = najwyższa, 2nd = średnia, 3rd = najniższa)
- **Name** - Imię i nzawisko pazażera
- **Sex** - Płeć
- **Age** - Wiek
- **SibSp** - Ilość krewnych podróżujących z pasażerem (rodzeństwo, żona, mąż, bez rodziców i dzieci)	
- **Parch** - Ilość rodziców lub dzieci podróżujących z pasażerem
- **Ticket** - Numer biletu
- **Fare** - Koszt bilet
- **Cabin** - Numer kajuty
- **Embarked** - Miejsce wejścia na pokład  (C = Cherbourg, Q = Queenstown, S = Southampton)

# Podstawowe informacje o zbiorze

In [None]:
df.shape

In [None]:
df.info()

In [None]:
df.describe().round(2)

In [None]:
df['Survived'].value_counts()

In [None]:
df['Survived'].value_counts(normalize=True)

In [None]:
df.columns

In [None]:
df.dtypes

# Wybieranie kolumn i wierszy

## Wybieranie kolumn

In [None]:
df.head(1)

In [None]:
df['Pclass']

In [None]:
df.Pclass

In [None]:
df[['Cabin', 'Pclass']]

In [None]:
df[['Pclass']]

## Wybieranie zakresu wierszy

In [None]:
df[:2]

In [None]:
df[3:6]

In [None]:
df[:6:2]

## Wybieranie po nazwach kolumn i indeksie - loc[]
---

http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-label

In [None]:
df.head()

In [None]:
df.loc[2]

In [None]:
row = df.loc[2]

In [None]:
row

In [None]:
row['Name']

In [None]:
df.loc[5:10]

In [None]:
df.loc[9, 'Name']

In [None]:
df.loc[5:10, 'Name']

In [None]:
# Gdy chcemy podejrzeć nazwy kolumn
df.columns

In [None]:
df.loc[5:10, :'Pclass']

In [None]:
df.loc[5:10, ['Survived', 'Name', 'Pclass']]

## Wybieranie na podstawie kolejności (pozycji, a nie indeksu) - iloc[]
---

http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-integer

In [None]:
df.head()

In [None]:
temp = df.sort_values('Pclass')
temp.head()

In [None]:
temp.loc[:3]

In [None]:
temp2 = temp.iloc[:3]
temp2

In [None]:
df.head(6)

In [None]:
df.iloc[5]

In [None]:
df.iloc[5:10]

In [None]:
df.iloc[5, 'Name']  # Nie zadziała, można podawać tylko indeksy

In [None]:
df.iloc[5, 3]

In [None]:
df.iloc[5:10, 3]

In [None]:
df.loc[5:10, :'Name']

In [None]:
df.iloc[5:10, :4]

In [None]:
df.iloc[range(0, 50, 5), [1, 3]]

In [None]:
df.iloc[:50:5, [1, 3]]

In [None]:
df.iloc[-10:]

Znajdywanie pozycji kolumny

In [None]:
df.columns

In [None]:
df.columns.get_slice_bound('Name', 'right')

In [None]:
df.iloc[:5, :df.columns.get_slice_bound('Name', 'left')]

# Tworzenie nowego zbioru z wybranymi kolumnami i wierszami

In [None]:
df_v2 = df[['Name', 'PassengerId', 'Survived']]

In [None]:
df_v2

In [None]:
df_v2 = df_v2[:20]

print("df_v2.shape", df_v2.shape)

df_v2

## Zapisywanie danych jako CSV

In [None]:
df_v2

In [None]:
df_v2.to_csv('./data/df_v2.csv', header=True, index=True)

## Odczyt danych z csv

In [None]:
df_from_file = pd.read_csv('./data/df_v2.csv', index_col=0)
df_from_file

# Ćwiczenia

### Załaduj plik `'titanic_train.csv'` do zmiennej `titanic`. Przypisz do nowej zmiennej (`titanic_2`) zbiór z kolumnami _PassengerId, Ticket, Fare_

### Wybierz ostatnie 20 wierszy z zbioru `titanic_2` i ponownie zapisz je w tej samej zmiennej

### Sprawdź podstawowe statystyki zbioru `titanic_2` (info, describe)

### Zapisz zbiór `titanic_2` jako plik CSV `titanic_2.csv`