<p style="font-size:2.5em; font-weight:bold;">Pandas</p>

<img src="http://pandas.pydata.org/_static/pandas_logo.png" style="width: 500px;" />

----
*pandas* to biblioteka z licencją BSD o otwartym kodzie źródłowym, zapewniająca wydajne, łatwe w użyciu struktury danych i analizę danych dla języka Python.

*pandas* to sponsorowany przez [NUMFocus](http://www.numfocus.org/open-source-projects.html) projekt. Pomoże to zapewnić pomyślny rozwój pand jako światowej klasy projektu o otwartym kodzie źródłowym.

---
Strony:  
http://pandas.pydata.org/  
  
https://www.datacamp.com/community/tutorials/pandas-tutorial-dataframe-python

**Kaggle Titanic**  
https://www.kaggle.com/c/titanic  
https://www.dataquest.io/course/kaggle-competitions

In [None]:
import pandas as pd  # konwencja
import numpy as np   
import os

In [None]:
!ls

In [None]:
folder_path = './files_pandas_21_01_2017/'

# Basics

## Loading data

 

Interfejs I/O (we/wy) API pandas to zestaw wysoko poziomowanych funkcji czytających, takich jak pd.read_csv (), które zwykle zwracają obiekt pandas.

    * read_csv
    * read_excel
    * read_hdf
    * read_sql
    * read_json
    * read_msgpack (experimental)
    * read_html
    * read_gbq (experimental)
    * read_stata
    * read_sas
    * read_clipboard
    * read_pickle

Analogicznie Pandas oferuje zestaw funkcji zapisujących do różnych formatów

    * to_csv
    * to_excel
    * to_hdf
    * to_sql
    * to_json
    * to_msgpack (experimental)
    * to_html
    * to_gbq (experimental)
    * to_stata
    * to_clipboard
    * to_pickle

### CSV 

(Comma separater values) - popularny format danych tabelarycznych
https://pl.wikipedia.org/wiki/CSV_(format_pliku)

In [None]:
data = pd.read_csv(os.path.join(folder_path, 'titanic_train.csv'))

In [None]:
data

In [None]:
data.head()

In [None]:
data.tail()

### Zipped CSV

In [None]:
data = pd.read_csv(os.path.join(folder_path, 'titanic_train.csv.zip'))
data.head()

### XLSX (Excel format)

In [None]:
!pip install xlrd

In [None]:
data2 = pd.read_excel(os.path.join(folder_path, 'titanic_train.xlsx'))
data2.head()

In [None]:
data2.to_pickle(os.path.join(folder_path, 'titanic_train.pickle'))

### Pickle

https://docs.python.org/3/library/pickle.html


In [None]:
data3 = pd.read_pickle(os.path.join(folder_path, 'titanic_train.pickle'))
data3.head()

## Writing to file

### CSV
---
    data.to_csv(path_or_buf=None, sep=',', na_rep='', float_format=None, columns=None, 
                header=True, index=True, index_label=None, mode='w', encoding=None, 
                compression=None, quoting=None, quotechar='"', line_terminator='\n', 
                chunksize=None, tupleize_cols=False, date_format=None, doublequote=True, 
                escapechar=None, decimal='.', **kwds)

In [None]:
data.to_csv(os.path.join(folder_path, 'titanic_train_test_save.csv'))

In [None]:
data.to_csv(os.path.join(folder_path, 'titanic_train_test_save.csv'), index=False)

### XLSX
---
    data.to_excel(excel_writer, sheet_name='Sheet1', na_rep='', float_format=None, columns=None, 
                  header=True, index=True, index_label=None, startrow=0, startcol=0, engine=None, 
                  merge_cells=True, encoding=None, inf_rep='inf', verbose=True)

In [None]:
# !pip install openpyxl

In [None]:
data.to_excel(os.path.join(folder_path, 'titanic_train_test_save.xlsx'))

### Pickle
---
    data.to_pickle(path)

In [None]:
data.to_pickle(os.path.join(folder_path, 'titanic_train_test_save.pickle'))

## Basic informations

### shape

In [None]:
data.shape

### info()

In [None]:
data.info()

In [None]:
data.info?

In [None]:
data.info(memory_usage=True)

### describe()

In [None]:
data.describe()

### columns

In [None]:
data.columns

### dtypes

In [None]:
data.dtypes

### Value Counts

In [None]:
data['Pclass'].value_counts()

In [None]:
data.Pclass.value_counts()

## Podstawowe operacja

### wybieranie kolumn

In [None]:
data['Name']

In [None]:
data['Name', 'Survived']

jeśli chcemy wybrać większą ilość kolumn, to podajemy ją jako listę - index staje się tu listą 

In [None]:
data[['Name', 'Survived']]

In [None]:
data.Survived

In [None]:
data[['Survived']]

### Wybieranie wierszy

In [None]:
data[5:10]

### Wybieranie przez labele- loc[]
---
Ta funkcja wybiera bazując na labelkach **Index** i **Column**
**.loc[row, column]**

http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-label

In [None]:
data.loc[5]

In [None]:
data.loc[5:10]  # wybieramy wiersze

In [None]:
data.loc[5, 'Name']   # z wiersza wybieram wartość dla kolumny|

In [None]:
data.loc[5:10, 'Name']  # z zakresu wierszy - wartość

In [None]:
data.columns     # sprawdzamy Index kolumn

In [None]:
data.loc[5:10, :'Pclass']

In [None]:
data.loc[5:10, 'Pclass':'Age']

In [None]:
data.loc[5:10, ['Name', 'Pclass', 'Survived']]

### Wybieranie przez pozycje - iloc[]
---
 
**.iloc[row, column]**

http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-integer

In [None]:
data.iloc[5]

In [None]:
data.iloc[5:10]

In [None]:
# data.iloc[5, 'Name']  # Won't work as it selects only based on location

In [None]:
data.iloc[5, 3]

In [None]:
data.iloc[5:10, 3]

In [None]:
data.iloc[5:10, :3]

Możemy też użyć np jakiegoś generatora - jak range - poniżej  wybór co piątego wiersza z zakresu 0-50

In [None]:
data.iloc[range(0, 50, 5), [1, 3]]

równoważny zapis to np:

In [None]:
data.iloc[:50:5, [1, 3]]

można odliczać od końca:

In [None]:
data.iloc[-10:]

Jeśli nie znamy pozycji a znamy labelkę, to możemy użyć funkcji `get_slice_bound`

In [None]:
data.columns.get_slice_bound?

In [None]:
data.columns.get_slice_bound('Name', 'right', 'ix')

In [None]:
data.iloc[:5, :data.columns.get_slice_bound('Name', 'right', 'ix')]

## Exercises

### Load `'titanic_train.csv'` CSV file and save last 5 rows in Excel format

In [None]:
df = pd.read_csv(os.path.join(folder_path, 'titanic_train.csv'))


In [None]:
df[-5:].to_excel(os.path.join(folder_path, 'titanic_last_5.xlsx'))

### Load Excel file from previous exercise and save it again with only first four columns

In [None]:
df = pd.read_excel(os.path.join(folder_path, 'titanic_last_5.xlsx'))

In [None]:
df.iloc[:,:4].to_excel(os.path.join(folder_path, 'titanic_last_5_4_cols.xlsx'))

### Test how **loc** and **iloc** works (be creative :) )

In [None]:
df.loc[:,"Pclass"]

In [None]:
df.loc[1:1]

In [None]:
df.iloc[1:1]

In [None]:
df.iloc[1]

In [None]:
df.loc[887]

# Loading CSV file

In [None]:
data = pd.read_csv(os.path.join(folder_path, 'titanic_train.csv'))

In [None]:
data.head()

In [None]:
data.Survived.value_counts()

In [None]:
data.dtypes

In [None]:
data.info(memory_usage='deep')  # (memory_usage='deep')

## Zmiana typów danych w czasie odczytu

In [None]:
data = pd.read_csv(os.path.join(folder_path, 'titanic_train.csv'), dtype={'Survived': np.bool})

In [None]:
data.info(memory_usage='deep')

zauważmy delikatny zysk pamięci

### Dane kategoryczne
---
Kategorie są typem danych Pandas, które odpowiadają kategorycznym zmiennym w statystykach: 
Zmienna kategoryczna - to zmienna, która może przyjmować tylko ograniczoną i zwykle stałą liczbę możliwych wartości (kategorie, poziomy w R).
Przykładami są płeć, klasa społeczna, typy krwi, przynależność do kraju, czas obserwacji lub oceny za pomocą skali Likerta.

In [None]:
data = pd.read_csv(os.path.join(folder_path, 'titanic_train.csv'), dtype={'Survived': np.bool})

In [None]:

data['Sex'] = data['Sex'].astype("category")

In [None]:
data.loc[0, "Sex"]

In [None]:
data.Sex

In [None]:
data.Sex = data.Sex.cat.add_categories("unknow")

In [None]:
data.Sex

In [None]:
data.loc[0, 'Sex'] = 'unknow'

In [None]:
data.info(memory_usage='deep')

### Mniejszy dtype

In [None]:
data.Pclass.max()

In [None]:
#data = pd.read_csv(os.path.join(folder_path, 'titanic_train.csv'), dtype={'Survived': np.bool, 'Sex': 'category', 'Pclass': np.int8})
data = pd.read_csv(os.path.join(folder_path, 'titanic_train.csv'), dtype={'Survived': np.bool,  'Pclass': np.int8})

In [None]:
data.info(memory_usage='deep')

In [None]:
data.PassengerId.max()

In [None]:
data = pd.read_csv(os.path.join(folder_path, 'titanic_train.csv'), dtype={'Survived': np.bool, 'Sex': 'category', 'Pclass': np.int8, 'PassengerId': np.int16})

In [None]:
data.info(memory_usage='deep')

In [None]:
data.to_pickle(os.path.join(folder_path, 'titanic_train.pickle'))

## Limit rows

Reading first 100 rows

In [None]:
data = pd.read_csv(os.path.join(folder_path, 'titanic_train.csv'), nrows=100)
data.shape

## Definiowanie nazwa kolumn (header)

```
names : array-like, default None
    List of column names to use. If file contains no header row, then you
    should explicitly pass header=None. Duplicates in this list are not
    allowed unless mangle_dupe_cols=True, which is the default.
```

In [None]:
data = pd.read_csv(os.path.join(folder_path, 'titanic_train.csv'), skiprows=1)
data.head()

In [None]:
data = pd.read_csv(os.path.join(folder_path, 'titanic_train.csv'), skiprows=1, names=['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp', 
                                                                                     'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'])
data.head()

## ustawianie indexu (wiersz)

```
index_col : int or sequence or False, default None
    Column to use as the row labels of the DataFrame. If a sequence is given, a
    MultiIndex is used. If you have a malformed file with delimiters at the end
    of each line, you might consider index_col=False to force pandas to _not_
    use the first column as the index (row names)
```

In [None]:
data = pd.read_csv(os.path.join(folder_path, 'titanic_train.csv'), index_col='PassengerId')
data.head()

## Wypełnianie wartościami NaN

```
.fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None, **kwargs)
```

In [None]:
data = pd.read_csv(os.path.join(folder_path, 'titanic_train.csv'))
data.head()

In [None]:
data.Cabin.fillna('Deck')   # wypełniamy NaN jako "Deck"

In [None]:
data.head()

In [None]:
data.Cabin.fillna('Deck', inplace=True)

In [None]:
data.head()

In [None]:
data.Embarked.value_counts()

In [None]:
data.info()

## Exercises (opcjonalnie)

### Fill *NaN* values in *Age* column with mean value of this column.

### Fill *NaN* values in *Embarked* with most common location.

# Tworzenie DataFrame i Series

## DataFrame
---
```
class pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)[source]
```
Dwuwymiarowa, potencjalnie heterogeniczna, tabelaryczna struktura danych ze znakowanymi osiami (wiersze i kolumny).
Operacje arytmetyczne są wyrównane na etykietach zarówno wiersza, jak i kolumny. 
Można go traktować jako kontener podobny do słownika list obiektów .
Podstawowa struktura danych Pandas
  
http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.html

In [None]:
d = {'col1': [1,2], 'col2': [3,4]}

In [None]:
df = pd.DataFrame(d)

In [None]:
df

In [None]:
df2 = pd.DataFrame([[1,2], [3,4]])
df2

In [None]:
df3 = pd.DataFrame([[1,2], [3,4]], columns=['A', 'B'])
df3

In [None]:
df4 = pd.DataFrame([[1,2], [3,4]], columns=['A', 'B'], index=[5,10])
df4

## Series
---
```
class pandas.Series(data=None, index=None, dtype=None, name=None, copy=False, fastpath=False)
```
Jednowymiarowy ndarray z etykietami osi (w tym szeregami czasowymi).

Etykiety nie muszą być unikatowe, ale muszą być dowolnymi znanymi typami. Obiekt obsługuje zarówno indeksowanie oparte na liczbach całkowitych jak i etykietach i udostępnia wiele metod wykonywania operacji obejmujących indeks.
Metody statystyczne z ndarray zostały nadpisane, aby automatycznie wykluczyć brakujące dane (obecnie reprezentowane jako NaN)

Operacje między wyrównaniem szeregów (+, -, /,, *) w oparciu o powiązane z nimi wartości indeksu - nie muszą mieć tej samej długości. Indeks wyników będzie uporządkowanym połączeniem dwóch indeksów.

http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.html

In [None]:
s1 = pd.Series(np.arange(10))
s1

In [None]:
s2 = pd.Series(np.arange(10), index=np.arange(10,20))
s2

In [None]:
s3 = pd.Series({'idx1':2, 'idx2':4, 'idx3':6})
s3

### Creating DataFrame from Series

In [None]:
s3.to_frame()  # name

In [None]:
s1 = pd.Series(np.arange(10), index=np.arange(10,20))
s2 = pd.Series(np.arange(30, 40), index=np.arange(10,20))

In [None]:
pd.DataFrame({'col1':s1, 'col2':s2})

In [None]:
s1 = pd.Series(np.arange(10), index=np.arange(10,20))
s2 = pd.Series(np.arange(30, 40), index=np.arange(19,9,-1))

In [None]:
pd.DataFrame({'col1':s1, 'col2':s2})

# Indeksowanie i ustawianie danych

## Simple selection

In [None]:
data['Cabin'] == 'Deck'

In [None]:
data.loc[data['Cabin'] == 'Deck']

In [None]:
data[data['Cabin'] == 'Deck']

## Multiple conditions

In [None]:
data[(data['Cabin'] == 'Deck') & (data['Pclass']==2)]

## Negation
---
**~**

In [None]:
data[~(data['Cabin'] == 'Deck')]

## Str

In [None]:
data[(data['Cabin'].str.startswith('C'))]

## List
---
**isin([])**

In [None]:
data[data['Cabin'].isin(['C85', 'C123'])]

## Exercises

### Create 3 *Series* with different indexes that overlap a bit (i.e. 1-10, 5-15, 10-20). Create DataFrame from them and see what happens.

### Display passengers with *Age* above 50

### Display passengers that *Embarked* at location *S* and are *female*

### Display passengers that paid for ticket more than 50 and are not in first class

### Display all passengers with *Names* that contain *'Johnson'* (it's a surname)

# Loading ARFF file (Weka format)

In [None]:
from scipy.io import arff

In [None]:
with open(os.path.join(folder_path, 'iris.arff'), 'rt') as f:
    data = arff.loadarff(f)

In [None]:
pd.DataFrame(data[0])

# Dodatkowe ćwiczenia

Korzystając z pliku `matches.csv` zawierającego dane o rozgrywkach piłkarskich:

1. Znajdź wszystkie mecze pomiędzy dwoma wybranymi drużynami w latach 2010-2015.

In [None]:
data = pd.read_csv('../../data/matches.csv', parse_dates=['date'])
data[
    ((data.home_team == 'Legia Warszawa') | (data.away_team == 'Legia Warszawa')) & 
    ((data.home_team == 'Lech Poznań') | (data.away_team == 'Lech Poznań')) & 
    (data.date.dt.year.isin([2010, 2011, 2011, 2013, 2014, 2015]))
]

2. Znajdź 10 meczów z największą różnicą bramek.

In [None]:
data['goals_diff'] = abs(data['home_team_goal'] - data['away_team_goal'])
data.sort_values('goals_diff', ascending=False)[:10]

3. Policz liczbę zdobytych i straconych bramek na sezon dla wybranej drużyny. Narysuj wykres obrazujący uzyskane wyniki.

In [None]:
team = 'Legia Warszawa'

In [None]:
team_matches = data[(data['home_team'] == 'Legia Warszawa') | (data['away_team'] == 'Legia Warszawa')]
team_matches

In [None]:
team_matches = team_matches.reset_index()
team_matches

In [None]:
team_matches['team_goals'] = team_matches.apply(lambda x: x.home_team_goal if x.home_team == team else x.away_team_goal, axis=1)

In [None]:
goals_per_season = team_matches.groupby('season').aggregate({'team_goals': sum, 'opponent_goals': sum})

In [None]:
%matplotlib inline

In [None]:

goals_per_season.plot(kind='bar', stacked=True)

4. Policz średnią liczbę bramek przypadającą na jeden mecz w każdej lidze. Narysuj wykres obrazujący uzyskane wyniki.

In [None]:
data['total_goals'] = data.home_team_goal + data.away_team_goal

In [None]:
goals_per_country = data.groupby('country').agg({'total_goals': sum})

In [None]:
matches_per_country = data['country'].value_counts()

In [None]:
goals_per_match = goals_per_country.total_goals / matches_per_country

In [None]:
goals_per_match.sort_values(ascending=False).plot(
    kind='bar', 
    title='Goals per match (top leagues in Europe)', 
    figsize=(10,5),
)