#  Analiza Danych w Pythonie: `pandas`

### 10 grudnia 2022

### `pandas`
Biblioteka `pandas` jest podstawowym narzędziem w ekosystemie Pythona do analizy danych:
 * dostarcza dwa podstawowe typy danych: 
   * `Series` (szereg, 1D)
   * `DataFrame` (ramka danych, 2D)
 * operacje na tych obiektach: obsługa brakujących wartości, łączenie danych;
 * obsługuje dane różnego typu, np. szeregi czasowe;
 * biblioteka bazuje na `numpy` -- bibliotece do obliczeń numerycznych;
 * pozwala też na prostą wizualizację danych;
 * ETL: extract, transform, load.

Żeby zaimportowąc bibliotekę `pandas` wystarczy:

In [17]:
import pandas as pd

#### __Zadanie 0__: sprawdź, czy masz zainstalowaną bibliotekę `pandas`.

### [Szeregi](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html) (`pd.Series`)

 Szereg reprezentuje jednorodne dane jednowymiarowe - jest odpowiednikiem wektora w R.
  * Szeregi możemy tworzyć na różne sposoby (więcej za chwilę), np. z obiektów tj. listy i słowniki.
  * Dane muszą być jednorodne. W przeciwnym przypadku nastąpi automatyczna konwersja.
  * Podczas tworzenia szeregu musimy podać jeden obowiązkowy argument `data` - dane.
  * Ponadto możemy podać też indeks (`index`), typ danych (`dtype`) lub nazwę (`name`).
  
  
  ```
  class pandas.Series(data=None, index=None, dtype=None, name=None)
  ```

Podczas tworzenie szeregu mozemy podać dane w formacie listy lub słownika.

Poniżej jest przykład przedstawiający tworzenie szeregu z danych, które są zawarte w liście:

In [None]:

data = [211819, 682758, 737011, 779511, 673790, 673790, 444177, 136791]

s = pd.Series(data)

s

W przypadku, gdy dane pochodzą z listy i nie podaliśmy indeksu, pandas doda automatyczny indeks liczbowy zaczynający się od 0.

W przypadku przekazania słownika jako danych do szeregu, pandas wykorzysta klucze do stworzenia indeksu:

In [None]:
members = {'April': 211819,'May': 682758, 'June': 737011, 'July': 779511}

s = pd.Series(members)

s

Podczas tworzenia szeregu możemy zdefiniować indeks, jak i nazwę szeregu:

In [None]:
months = ['April', 'May', 'June', 'July']

data = [211819, 682758, 737011, 779511]

s = pd.Series(data=data, index=months, dtype=float, name='Rides')

s

Odwołanie się do poszczególnego elementu odbywa się przy pomocy klucza z indeksu.

In [None]:
members = {'April': 211819,'May': 682758, 'June': 737011, 'July': 779511}

s = pd.Series(members)

print(s['April'])

s['August'] = 673790
s

Dodanie elementu do szeregu odbywa się poprzez definiowanie nowego klucza:

In [None]:
members = {'April': 211819,'May': 682758, 'June': 737011, 'July': 779511}

s = pd.Series(members)

s['August'] = 673790

s

Więcej nt. indeksowania w szeregach w dalszej części kursu.

Podstawowa cechą szeregu jest wykonywanie operacji w sposób wektorowy. Działa to w następujący sposób:
 * gdy w obu szeregach jest zawarty ten sam klucz, to są sumowane ich wartości;
 * w przeciwnym przypadku wartość klucza w wynikowym szeregu to `pd.NaN`.  
 * Równoważnie możemy wykorzystać metodę `pandas.Series.add`. W tym przypadku możemy podać domyślną wartość w przypadku braku klucza.

In [None]:
members = pd.Series({'May': 682758, 'June': 737011,  'August': 673790, 'July': 779511,
'September': 673790, 'October': 444177})

occasionals = pd.Series({'May': 147898, 'June': 171494, 'July': 194316, 'August': 206809,
'September': 140492})

all_data = members + occasionals
# Równoważnie
all_data = members.add(occasionals)
all_data

Możemy wykonać operacje arytmetyczne na szeregu: 

In [None]:
members = pd.Series({'May': 682758, 'June': 737011, 'July': 779511, 'August': 673790,
'September': 673790, 'October': 444177})

members += 1000

members

### Podsumowanie
 * Szeregi działają podobnie do słowników, z tą różnicą, że wartości muszą być jednorodne (tego samego typu).
 * Odwołanie do poszczególnych elementów odbywa się poprzez nawiasy `[]` i podanie klucza.
 * W przeciwieństwie do słowników, możemy w prosty sposób wykonywać operacje arytmetyczne.

### Zadanie 1
 * Stwórz szereg `n`, który będzie zawierać liczby od 0 do 10 (włącznie).
 * Stwórz szereg `n2`, który będzie zawierać kwadraty liczb od 0 do 10 (włącznie).
 * Następnie stwórz szereg `trojkatne`, który będzie sumą powyższych szeregów podzieloną przez 2.

### [Ramka danych](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html) (`pd.DataFrame`)

Ramka danych jest podstawową strukturą danych w bibliotece `pandas`, która pozwala na trzymanie i reprezentowanie danych tabelarycznych (dwuwymiarowych).
 * Posiada kolumny (cechy) i wiersze (obserwacje, przykłady).
 * Możemy też patrzeć na nią jak na słownik, którego wartościami są szeregi.

```
class pandas.DataFrame(data=None, index=None, columns=None, dtype=None)
```
 

Ramkę danych możemy stworzyć na różne sposoby.

Pierwszy z nich ("kolumnowy") polega na zdefiniowaniu ramki poprzez podanie szeregów jako kolumn:

In [None]:
members = pd.Series({'May': 682758, 'June': 737011, 'July': 779511})
occasionals = pd.Series({'May': 147898, 'June': 171494, 'July': 194316})

df = pd.DataFrame({'members': members, 'occasionals': occasionals})
df

Drugim popularnym sposobem jest przekazanie listy słowników. Wtedy `pandas` zinterpretuje to jako listę przykładów:

In [None]:
data = [
    {'members': 682758, 'occasionals': 147898},
    {'occasionals': 171494,'members': 737011},
    {'members': 779511, 'occasionals': 194316},
]

df = pd.DataFrame(data)

df

Możemy też wykorzystać metodę `from_dict` ([doc](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.from_dict.html)), która pozwala zdefiniować czy podane dane są w podane w postaci kolumnowej lub wierszowej:

In [None]:
data = {
    'May': {'members': 682758, 'occasionals': 147898},
    'June': {'members': 737011, 'occasionals': 171494},
    'July': {'members': 779511, 'occasionals': 194316}
}

df = pd.DataFrame.from_dict(data, orient='index')
print('index\n', df)
print()
df = pd.DataFrame.from_dict(data, orient='columns')
print('columns\n', df)


### Wczytywanie danych

Biblioteka `pandas` pozwala na wczytanie i zapis danych z różnych formatów:
 * formaty tekstowe, np. `csv`, `json`
 * pliki arkuszy kalkulacyjnych: Excel (xls, xlsx)
 * bazy danych
 * inne: `sas` `spss`


Efektem wczytania danych jest odpowiednio stworzona ramka danych (`DataFrame`).

Jednym z najprostszych formatów danych jest format `csv`, gdzie kolejne wartości są rozdzielone przecinkiem.

Żeby wczytać dane w takim formacie należy użyć funkcji `pandas.read_csv`.

Pandas pozwala na ustawienie wielu parametrów (np. separator, cudzysłowy). Więcej na ten temat w [dokumentacji](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html).

In [None]:
df = pd.read_csv('gapminder.csv')

df

In [None]:
df = pd.read_csv('./titanic_train.tsv', delimiter='\t', index_col=0, nrows=5)
df

Do wczytania danych z arkusza kalkulacyjnego służy funkcja `pandas.read_excel`. Do otworzenia pliku `xlsx` może być koniecnze ustawienie parametru: `engine='openpyxl`. Więcej opcji w [dokumentacji](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html).

In [None]:
df = pd.read_excel('./bikes.xlsx', engine='openpyxl', nrows=5)
df

Innym ważnym źródłem informacji są bazy danych. Pandas potrafi komunikować się z bazą danych za pomocą biblioteki [SQLAlchemy](https://pypi.org/project/SQLAlchemy/) i dostarcza odpowiedną funkcję:
 * `pandas.read_sql` - wczytanie całej tabeli lub zapytania do bazy danych

In [None]:
df = pd.read_sql('Album', con='sqlite:///Chinook.sqlite', index_col='AlbumId')

df

In [None]:
import sqlalchemy

engine = sqlalchemy.create_engine('sqlite:///Chinook.sqlite', echo=True)
connection  = engine.raw_connection()

df = pd.read_sql('SELECT * FROM Album', con='sqlite:///Chinook.sqlite', index_col='AlbumId')
df

Biblioteka `pandas` potrafi także automatycznie pobrać dane, które znajdują się w Internecie. Dzięki temu możemy zaciągnąć dane z Google spreadsheets:

In [None]:
url = "https://docs.google.com/spreadsheets/d/1ycvVWmVJ2MTn3_1NRVmVrySoHEHdWlwi4-Kr1W0Nv28/export?format=csv&gid=848662053"
df = pd.read_csv(url)

df

#### Podsumowanie


 * Biblioteka `pandas` wspiera pobieranie danych z różnych formatów i źródeł.
 * Każda funkcja ma listę argumentów, które pozwalają na ustawić poszczególne  parametry (np. [read_csv](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html#pandas.read_csv)).

### Zapis i eksport danych

In [None]:
Pandas pozwala w prosty sposób na zapisywanie ramki danych do pliku. 

In [None]:
members = pd.Series({'May': 682758, 'June': 737011, 'July': 779511})
occasionals = pd.Series({'May': 147898, 'June': 171494, 'July': 194316})

df = pd.DataFrame({'members': members, 'occasionals': occasionals})


In [None]:
# zapis do formatu CSV
df.to_csv('tmp.csv')
# zapis do arkusza kalkulacyjnego 
df.to_excel('tmp.xlsx')

Ponadto możemy przekonwertować ramkę danych do JSONa lub Pythonowego słownika:

In [None]:
print(df.to_json())

In [None]:
print(df.to_dict())


Lub przekopiować dane do schowka:

In [None]:
df.to_clipboard()

### Zadanie



 

 * Przekonwertuj tabele `Customer` z bazy `Chinook.sqlite` do arkusza kalkulacyjnego. Plik wynikowy nazwij `customers.xlsx`.
 * Tabela `Employee` zawiera informacje o pracownikach firmy Chinook. Wyswietl dane na ekranie i podaj miasta, w których mieszkają pracownicy.
 * Tabela `Invoice` zawiera informacje o fakturach. Przekonwertuj kolumnę `BillingCountry` do pythonowego słownika, a następnie podaj najcześciej występującą wartość. Ile razy pojawiła się?


### Ramka danych - podstawy

#### Kolumny

Na ramkę danych możemy patrzeć jak na swego rodzaju słownik, którego wartościami są szeregi. Pozwoli to na uzyskanie lepszej intuicji.



In [None]:
df = pd.read_csv('./gapminder.csv', index_col='Country', nrows=8, usecols=['Country', 'gdp', 'population','life_expectancy'])

df

Dostęp do poszczególnej kolumny możemy uzystać na dwa sposoby:

In [None]:
# notacja z kropką
df.population

In [None]:
# Operator []
df['population']

Do operatora `[]` możemy też podać listę nazw kolumn:

In [None]:
df[['gdp','population']]

Listę kolumn możemy pobrać za pomocą:

In [None]:
df.columns

In [None]:
df.columns = ['PKB', 'Populacja', 'ODŻ']

df

Żeby odwołać się do poszczególnych wierszy należy wykorzystać metodę `loc`:

In [None]:
df.loc['Argentina']

Metoda `loc` również może przyjąć listę wierszy: 

In [None]:
df.loc[['Albania', 'Angola']]

Możemy również podać drugi parametr: nazwy kolumn:

In [None]:
df2 = df.loc[['Albania', 'Angola'], ['PKB', 'Populacja']]

df2

Albo wykorzystać tzw. _slicing_, cyzli operator `:`:

In [None]:
df.loc['Albania': 'Angola', 'PKB': 'ODŻ']

Żeby odwołać się do pojedyńczej wartości możemy użyć metody `at`:

In [None]:
df.at['Angola', 'PKB']

Dostęp do indeksu:

In [None]:
df.index

#### Podstawowe metody `pd.Series` i `pd.DataFrame`

In [None]:
members = pd.Series({'May': 682758, 'June': 737011, 'July': 779511, 'August': 673790,
'September': 673790, 'October': 444177})

occasionals = pd.Series({'May': 147898, 'June': 171494, 'July': 194316, 'August': 206809,
'September': 140492, 'October': 53596})

df = pd.DataFrame({'members': members, 'occasionals': occasionals})

df

Metoda `head` pozwala tworzy nową ramkę danych z pierwszymi 5 przykładami:

In [None]:
df.head()

Metoda `tail` robi to samo, ale z 5 ostatnymi przykładami:

In [None]:
df.tail()

Metoda `sample` pozwala na stworzenie nowej ramki danych z wylosowanymi `n` przykładami:

In [None]:
df.sample(3)

Metoda `describe` zwraca podstawowe statystyki m.in.: liczebność, średnią, wartości skrajne: 

In [None]:
df.describe()

Metoda `info` zwraca informacje techniczne o kolumnach: np. typ danych:

In [None]:
df.info()

Podstawową informacją o ramce danych to liczba przykładów w ramce danych. Możemy wykorzystać to tego funkcję `len`:

In [None]:
len(df)

Natomiast atrybut `shape` zwraca nam krotkę z liczbą przykładów i liczbą kolumn:

In [None]:
df.shape

#### Operacja arytmetyczne

 * `max`, `idxmax`
 * `min`, `idxmin`
 * `mean`
 * `count`

In [None]:
df.mean()

Zbiór wartości i zliczanie wartości:

In [None]:
dane = pd.Series([1, 3, 2, 3, 1, 1, 2, 3, 2, 3])

print(dane.unique())

dane = pd.Series([1, 3, 2, 3, 1, 1, 2, 3, 2, 3])

print(dane.value_counts())

Sprawdzanie czy brakuje danych:

In [None]:
df = pd.read_csv('./titanic_train.tsv', sep='\t', index_col='PassengerId')
df.Age.isnull()


### Dodawanie i modyfikowanie danych

In [None]:
df = pd.read_csv('./gapminder.csv', index_col='Country', nrows=5)

df

In [None]:
conts = pd.Series({
    'Afghanistan': 'Asia', 'Albania': 'Europe', 'Algeria':' Africa', 'Angola': 'Africa', 'Antigua and Barbuda': 'Americas'})

df['continent'] = conts

df['tmp'] = 1

df

In [None]:
df.loc['Argentina'] = {
    'female_BMI': 27.46523,
    'male_BMI': 27.5017,
    'gdp': 14646.0,
    'population': 40381860.0,
    'under5mortality': 15.4,
    'life_expectancy': 75.4,
    'fertility': 2.24
}
df

In [None]:
df.drop('gdp', axis='columns')


### Filtrowanie danych

Biblioteka pandas posiada 2 sposoby na filtrowanie danych zawartych w ramce danych:
 * operator `[]` -- najbardziej rozpowszechniony;
 * metoda `query()`.
Oba sposoby mają różną składnię.
 

In [None]:
df = pd.read_csv('./titanic_train.tsv', sep='\t', index_col='PassengerId')

df.head()

In [None]:
df['Survived']

In [None]:
df['Survived'] == 1

In [None]:
df[df['Pclass'] == 1]

#### Operatory

* `&` - koniukcja (i)
* `|` - alternatywa (lub)
* `~` - negacja (nie)
* `()` - jeżeli mamy kilka warunków to warto je uporządkować w nawiasy

In [None]:
pierwsza_klasa = df['Pclass'] == 1
kobiety = df['Sex'] == 'female'

df[pierwsza_klasa & kobiety]


In [None]:

df[df['SibSp'] > df['Parch']]

#### `pd.DataFrame.query`

Innym sposobem na filtrowanie danych jest metoda `query`, która jako argument przyjmuje wyrażenie:

In [None]:
df.query('Pclass == 1').head()

In [None]:
df.query('(Pclass == 1) and (Sex == "female")').head()

In [None]:
df.query('SibSp > Parch')

In [None]:
young = 18
df.query('Age < @young').shape

### Zadanie

#### Operacje na wierszach i kolumnach

In [None]:
df = pd.read_csv('./gapminder.csv', index_col='Country', nrows=5)

df

Iterowanie po ramce danych oznacza oznacza przejście po nazwach kolumn:

In [None]:
for column_name in df:
    print(column_name)

In [None]:
for col_name, series in df.items():
    print(col_name, series)
    break

In [None]:
for idx, row in df.iterrows():
    print(idx, '\n', row)
    break

In [None]:
def bmi_level(bmi):
    if bmi <= 18.5:
        level =  'underweight'
    elif bmi < 25:
        level =  'normal'
    elif bmi < 30:
        level =  'overweight'
    else:
        level = 'obese'
    return level

s = df['male_BMI'].map(bmi_level)
    
s

In [None]:
def bmi_level(row_data):
    bmi = row_data['male_BMI']
    if bmi <= 18.5:
        return 'underweight'
    elif bmi < 25:
        return 'normal'
    elif bmi < 30:
        return 'overweight'
    return  'obese'

df.apply(bmi_level, axis=1)

In [None]:
df.transpose()

### Grupowanie (`groupby`)

Często zdarza się, gdy potrzebujemy podzielić dane ze względu na wartości w zadanej kolumnie, a następnie obliczenie zebranie danych w każdej z grup. Do tego służy metody `groupby`.

In [None]:
df = pd.read_csv('./titanic_train.tsv', sep='\t', index_col='PassengerId')

df.head()

_Przykład_: chcemy obliczyć średnią dla każdej z kolumn z podziałem na płeć pasażera, która jest zawarta w kolumnie `Sex`. Stąd jako parametr do metody `groupby` podajemy nazwę kolumny `Sex`, a następnie wywołujemy metodę `mean`:

In [None]:
df.groupby('Sex').mean()

Możemy też podać listę nazw kolumn. Wtedy wartości zostaną obliczone dla każdej z wytworzonych grup:

In [None]:
df.groupby(['Sex', 'Pclass']).mean()

### Pivot
Metoda `pivot` pozwala na stworzenie nowej ramki danych, gdzie indeks i nazwy kolumn są wartościami początkowej ranki danych. 

_Przykład_: zobaczmy na poniższą ramkę danych, która zawiera informacje o jakości tłumaczenia dla pary językowej hausa-angielski. Kolumna `system` zawiera nazwę systemu, kolumna `metric` - nazwę metryki, zaś kolumna `score`- wartość metryki. Chcemy przedstawić te dane w następujący sposób: jako klucz chcemy mieć nazwę systemu, zaś jako kolumny -  metryki. Możemy wykorzystać do tego metodę `pivot`, gdzie musimy podać 3 argumenty:
 * `index`: nazwę kolumny, na podstawie której zostanie stworzony indeks;
 * `columns`: nazwa kolumny, które zawiera nazwy kolumn dla nowej ramki danych;
 * `values`: nazwa kolumny, która zawiera interesujące nas dane.

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/wmt-conference/wmt21-news-systems/main/scores/automatic-scores.tsv', sep='\t')
df[df.pair == 'ha-en']

In [None]:
df[df.pair == 'ha-en'].pivot(index='system', columns='metric', values='score')

## Dane tekstowe

`pandas` posiada udogodnienia do pracy z wartościami tekstowymi:
 * dostęp następuje przez atrybut `str`;
 * funkcje:
    * formatujące: `lower()`, `upper()`;
    * wyrażenia regularne: `contains()`, `match()`;
    * inne: `split()`

In [None]:
df = pd.read_csv('./titanic_train.tsv', sep='\t', index_col='PassengerId')

df.head()

In [None]:
df.Name.str.upper()

In [None]:
print(df.Name.head())
df.Name.str.contains('Miss|Mrs').head()

In [None]:
df.Name.str.split('\t', expand=True)

In [None]:

df.Name.str.split('\t')

In [None]:
df.Name.str.split('\t').str[1]

In [None]:
df.Name.str.split('\t').str[1].str.strip().str.split(' ').str[0]

In [None]:
dane.hist()