# Pandas

Pandas to biblioteka pozwalająca na pracę z danymi tabelarycznymi. Oferuje bogaty zestaw narzędzi pozwalających na wczytywanie, transformowanie oraz analizę danych.

Głowne struktury danych w Pandas to Serie oraz DataFrame'y. Serie to jednowymiarowe, indeksowane wektory danych o ustalonym typie. DataFrame'y to dwuwymiarowe struktury danych (tabele), gdzie każda kolumna zawiera dane pewnego typu. O DataFrame'ach można myśleć jak o słownikach zawierających Serie. W DataFrame'ach wiersze odpowiadają obserwacjom a kolumny zmiennym (cechom) tych obserwacji.

In [None]:
%matplotlib inline
import pandas as pd
import numpy as np

## Serie

http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.html

Jednowymiarowe, indeksowane wektory danych pozwalające na przechowywanie dowolnych danych o ustalonym typie (Int, String itd).

**Sposoby tworzenia serii:**

- **na podstawie listy**

In [None]:
# do konstrukcji serii wymagane są jedynie dane
pd.Series([1, 2, 3, 4, 5])

In [None]:
# w razie potrzeby można również podać własny index
pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e'])

In [None]:
# index musi być tej samej długości co dane
pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd'])

- **na podstawie 1D array**

In [None]:
s = pd.Series(np.random.randn(5), index=['a', 'b', 'c', 'd', 'e'])
s

In [None]:
# seria pozwala na podejrzenie indeksu
s.index

In [None]:
# jak również samych wartości
s.values

- **na podstawie słownika**

In [None]:
d = {"a" : 2, "b" : 0, "c" : 1, "d" : 8}

In [None]:
# klucze słownika stają się indeksem
pd.Series(d)

In [None]:
# podając index można kontrolować porządek wynikowej serii
pd.Series(d, index=['d', 'c', 'b', 'a'])

In [None]:
# jeśli lista przekazana jako index zawiera wartość która nie występuje w słowniku pojawi się NaN
pd.Series(d, index=['a', 'b', 'c', 'd', 'e'])

- **na podstawie pojedynczej wartości**

In [None]:
pd.Series(3)

In [None]:
# podenie indeksu spowoduje powstanie serii zawierającej podaną wartość powtórzoną len(index) razy
pd.Series(3, index=[0, 1, 2, 3])

**Operacje na seriach**

In [None]:
s = pd.Series(np.random.randn(5), index=['a', 'b', 'c', 'd', 'e'])
s

In [None]:
# indeksowanie "porządkowe"
s[0]

In [None]:
s[0] = 3.14

In [None]:
s[:3]

In [None]:
# filtrowanie wartości spełniających zadany warunek
s[s > 0]

In [None]:
# wykorzystywanie indeksów
s["a"]

In [None]:
s["a"] = -0.40010191843751564

In [None]:
s[["a", "c"]]

In [None]:
s.c

In [None]:
"b" in s

In [None]:
# większość funkcji z numpy akceptuje serie jako argumenty
np.exp(s)

In [None]:
s + s

In [None]:
s * 2.5

In [None]:
# dopasowywanie indeksów
s + pd.Series(np.random.randn(5), index=['a', 'c', 'd', 'e', "f"])

### ZADANIA
1. Utwórz 10 elementową serię `S` zawierającą losowe integery z przedziału od 1 do 10
2. Podmień oryginalny index w serii `S` na index składający się z 10 ostatnich liter alfabetu (zaczynając od Z)
3. Pod indeksy V i S w serii `S` wstaw wartości 0 i 11
4. Oblicz kwadrat serii `S`

## DataFrame

http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.html

Dwuwymiarowa struktura danych (tabela), gdzie każda kolumna zawiera dane ustalonego typu. O DataFrame'ach można myśleć jak o słownikach zawierających Serie. W DataFrame'ach wiersze odpowiadają obserwacjom a kolumny zmiennym (cechom) tych obserwacji.

**Sposoby tworzenia DF:**

- **na podstawie słownika list / 1D array**

In [None]:
d = {"col1" : [1, 2, 3], "col2" : ["a", "b", "c"]}
d1 = {"col1" : np.random.randn(3), "col2" : np.random.randn(3)}

In [None]:
# klucze stają się nazwami kolumn
pd.DataFrame(d)

In [None]:
pd.DataFrame(d1)

In [None]:
# możliwe jest również podanie własnego indeksu
pd.DataFrame(d, index=["x", "y", "z"])

In [None]:
# podanie argumentu kolumns pozwala na ustalenie porządku kolumn powstałych ze słownika
pd.DataFrame(d1, index=["x", "y", "z"], columns=["col2", "col1"])

In [None]:
# podanie nazwy która nie występuje wśród kluczy słownika spowoduje powstanie kolumny z NaN
pd.DataFrame(d, index=["x", "y", "z"], columns=["col2", "col1", "col0"])

In [None]:
# listy/ndarray'e będące wartościami w słowniku muszą być tej samej długości
pd.DataFrame({"col1" : [1, 2, 3], "col2" : ["a", "b", "c", "d"]})

- **na podstawie słownika serii**

In [None]:
d = {'c1' : pd.Series([1., 2., 3.], index=['a', 'b', 'c']), 
     'c2' : pd.Series([1., 2., 3., 4.], index=['a', 'b', 'c', 'd'])}

In [None]:
# tworząc DF na podstawie serii serie nie muszą być jednakowej długości
# brakujące indeksy w seriach uzupełnione zostaną brakami wartości
pd.DataFrame(d)

In [None]:
# podanie indeksu spowoduje ustalenie kolejności wierszy
# index który nie występuje w seriach zostanie zapełniony brakami wartości
# wartości które nie odpowiadają podanym indeksom zostaną odrzucone
pd.DataFrame(d, index=["x", "a", "b", "c"])

- **na podstawie słownika słowników**

In [None]:
d = {'c1' : {"a" : 1, "b" : 2, "c" : 3}, 
     'c2' : {"a" : 5, "b" : 6, "c" : 7, "d" : 8}}

In [None]:
# tworzenie DF na podstawie słownika słowników działa analogicznie do tworzenia na podstawie słownika serii
df = pd.DataFrame(d)
df

In [None]:
# DF pozwala na podejrzenie indeksu
df.index

In [None]:
# jak również kolumn
df.columns

In [None]:
# kolumny to serie
type(df["c1"])

- **na podstawie 2D array / listy list**

In [None]:
x = np.array([[1, 2, 3], [4, 5, 6]], np.int32)
x1 = [[1, 2, 3], [4, 5, 6]]

In [None]:
pd.DataFrame(x)

In [None]:
pd.DataFrame(x1)

In [None]:
pd.DataFrame(x, index=["x", "y"])

In [None]:
pd.DataFrame(x1, index=["x", "y"], columns=["c1", "c2", "c3"])

- **na podstawie listy słowników**

In [None]:
d = [{'a': 1, 'b': 2}, {'a': 4, 'b': 5, 'c': 6}]

In [None]:
# klucze z list stają się nazwami kolumn
pd.DataFrame(d)

In [None]:
pd.DataFrame(d, index=[7, 8])

In [None]:
pd.DataFrame(d, columns=["c", "b", "d"])

- **na podstawie serii**

In [None]:
s = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e'])

In [None]:
pd.DataFrame(s, index=["d", "c", "b"])

In [None]:
pd.DataFrame(s, columns=["x"])

- **na podstawie plików**

rodzina funkcji pd.read_*

In [None]:
pd.read_csv("flag.data")

In [None]:
flag_df = pd.read_csv("flag.data", sep=",", header=None)
flag_df.head()

### ZADANIA
1. Utwórz DataFrame `df` o następującej postaci:

| a | b | c |
|----|----|----|
| 11.0 | 21.0 | 31.0 |
| 12.0 | 22.0 | NaN |
| 13.0 | NaN | NaN |

2. Podmień oryginalny index w `df` na index składający się z 3 pierwszych (małych) liter alfabetu
3. Oblicz kwadrat DataFrame'u `df`

### Operacje na DataFrame'ach

Zbiór danych `flag.data` pochodzi z https://archive.ics.uci.edu/ml/datasets/Flags

Zawiera następujące zmienne:

1. name:	Name of the country concerned 
2. landmass:	1=N.America, 2=S.America, 3=Europe, 4=Africa, 5=Asia, 6=Oceania 
3. zone:	Geographic quadrant, based on Greenwich and the Equator; 1=NE, 2=SE, 3=SW, 4=NW 
4. area:	in thousands of square km 
5. population:	in round millions 
6. language: 1=English, 2=Spanish, 3=French, 4=German, 5=Slavic, 6=Other Indo-European, 7=Chinese, 8=Arabic, 9=Japanese/Turkish/Finnish/Magyar, 10=Others 
7. religion: 0=Catholic, 1=Other Christian, 2=Muslim, 3=Buddhist, 4=Hindu, 5=Ethnic, 6=Marxist, 7=Others 
8. bars: Number of vertical bars in the flag 
9. stripes: Number of horizontal stripes in the flag 
10. colours: Number of different colours in the flag 
11. red: 0 if red absent, 1 if red present in the flag 
12. green: same for green 
13. blue: same for blue 
14. gold: same for gold (also yellow) 
15. white: same for white 
16. black: same for black 
17. orange: same for orange (also brown) 
18. mainhue: predominant colour in the flag (tie-breaks decided by taking the topmost hue, if that fails then the most central hue, and if that fails the leftmost hue) 
19. circles: Number of circles in the flag 
20. crosses: Number of (upright) crosses 
21. saltires: Number of diagonal crosses 
22. quarters: Number of quartered sections 
23. sunstars: Number of sun or star symbols 
24. crescent: 1 if a crescent moon symbol present, else 0 
25. triangle: 1 if any triangles present, 0 otherwise 
26. icon: 1 if an inanimate image present (e.g., a boat), otherwise 0 
27. animate: 1 if an animate image (e.g., an eagle, a tree, a human hand) present, 0 otherwise 
28. text: 1 if any letters or writing on the flag (e.g., a motto or slogan), 0 otherwise 
29. topleft: colour in the top-left corner (moving right to decide tie-breaks) 
30. botright: Colour in the bottom-left corner (moving left to decide tie-breaks)

In [None]:
flag_df = pd.read_csv("flag.data", sep=",", header=None)

In [None]:
col_names = ["name", "landmass", "zone", "area", "population", "language", "religion", "bars", "stripes",
             "colours", "red",  "green", "blue", "gold", "white", "black", "orange", "mainhue", "circles",
             "crosses", "saltires", "quarters", "sunstars", "crescent", "triangle", "icon", "animate",
             "text", "topleft", "botright"]

In [None]:
# zmiana nazw kolumn
flag_df.columns = col_names

*Podstawowe informacje o danych*

In [None]:
flag_df.head()

In [None]:
# wymiary DF
flag_df.shape

In [None]:
flag_df.info()

In [None]:
# zmiana typu kolumny
flag_df['red'] = flag_df['red'].astype('bool')

In [None]:
flag_df.info()

In [None]:
flag_df['red'] = flag_df['red'].astype('int64')

In [None]:
# podstawowe statystyki zmiennych numerycznych
flag_df.describe()

In [None]:
# podstawowe statystyki zmiennych kategorycznych
flag_df.describe(include=['object'])

In [None]:
flag_df['mainhue'].value_counts()

In [None]:
flag_df['mainhue'].value_counts(normalize=True)

#### Praca z danymi

*Działania na kolumnach (seriach)*

In [None]:
flag_df["area"].mean()

In [None]:
flag_df["area"].max()

In [None]:
flag_df["area"].rank()

In [None]:
flag_df["area"].unique()

In [None]:
flag_df["area"].hist()

*Filtrowanie danych*

In [None]:
# filtrowanie wierszy
flag_df[flag_df["landmass"] == 3].mean()

In [None]:
flag_df[flag_df["landmass"] == 3]["area"].mean()

In [None]:
# złożone filtry
flag_df[(flag_df["landmass"] == 3) & (flag_df["language"] == 5)].mean()

In [None]:
flag_df.head()

In [None]:
# indeksowanie po nazwach wierszy i kolumn
flag_df.loc[0:5, "name":"zone"]

In [None]:
flag_df.loc[0:5, ["name","zone"]]

In [None]:
# indeksowanie po numerach wierszy i kolumn
flag_df.iloc[:5, :3]

*Tworzenie i usuwanie kolumn*

In [None]:
# tworzenie nowej kolumny
flag_df["temp"] = flag_df["area"] * flag_df["population"]
flag_df.head()

In [None]:
# usuwanie kolumny
del flag_df["temp"]
flag_df.head()

In [None]:
flag_df["temp"] = flag_df["area"] > 100
flag_df.head()

In [None]:
flag_df.pop("temp")

In [None]:
flag_df.head()

In [None]:
flag_df["temp"] = 42
flag_df.head()

In [None]:
flag_df.drop(["temp"], axis=1, inplace=True) 
flag_df.head()

### ZADANIA
1. Utwórz kolumnę `lines` będącą sumą kolumn `bars` i `stripes`
2. Utwórz kolumnę `rgb` zawierającą elementy typu string (object) powstałe poprzez konkatenację wartości kolumn `red`, `green` i `blue`
3. Usuń kolumny `lines` oraz `rgb`

#### Stosowanie funkcji

In [None]:
# apply
flag_df.apply(np.max)

In [None]:
flag_df["name"].apply(lambda x: x[0] == "Z")

In [None]:
flag_df["mainhue"].apply(lambda x: x + " " + x)

In [None]:
flag_df[flag_df["name"].apply(lambda x: x[0] == "Z")].head()

In [None]:
# map
flag_df["mainhue"].map({"white" : "wh", "blue" : "bl"})

In [None]:
short_names = {x : x[:2] for x in flag_df["mainhue"].unique()}
short_names

In [None]:
flag_df["mainhue"].map(short_names)

In [None]:
# replace
flag_df.replace({"mainhue": short_names, "topleft": short_names}).loc[:, ["mainhue", "topleft"]].head()

### ZADANIA
1. Utwórz kolumnę `landmass_name` poprzez zmapowanie nazw do wartości w kolumnie `landmass`(mapowanie znajduje się w opisie zbioru)
2. Utwórz kolumnę `temp` na podstawie kolumny `landmass` poprzez przemnożenie liczb parzystych przez 4 a nieparzystych przez 3
3. Usuń kolumnę `temp`

#### Grupowanie

In [None]:
flag_df.groupby(["mainhue"])["area"].mean()

In [None]:
flag_df.groupby(["mainhue"])["area", "population"].describe()

In [None]:
flag_df.groupby(["mainhue"])["area", "population"].agg([np.mean, np.std, np.min, np.max])

In [None]:
flag_df.groupby(["mainhue", "colours"])["area", "population"].max()

In [None]:
flag_df.groupby(flag_df["name"].apply(lambda x: x[0]))["name"].count()

In [None]:
flag_df.groupby(["landmass"]).agg({"area" : ["max","min"]})

### ZADANIA
1. Pogrupuj dane ze względu na to czy liczba kolorów na fladze jest parzysta, następnie oblicz maksymalną powierzchnię krajów w tak powstałych grupach
2. Pogrupuj dane ze względu na kontynent oraz język, następnie oblicz lizbę krajów, maksymalną powierzchnię oraz średnią liczbę symboli gwiazd lub słońc

=====================================================================================================================

=====================================================================================================================

#### ★★ Hierarchiczne indeksy

https://pandas.pydata.org/pandas-docs/stable/advanced.html

In [None]:
test_df = flag_df.groupby(["mainhue", "colours"])["area", "population"].agg([np.min, np.max])
test_df

In [None]:
test_df.index

In [None]:
test_df.columns

In [None]:
# kolumny
test_df["area"]

In [None]:
test_df["area"]["amin"]

In [None]:
test_df["amin"]

In [None]:
# index
test_df.loc["black",]

In [None]:
test_df.loc[("black", 2),]

In [None]:
# kolumny + index
test_df.loc["black", "area"]

In [None]:
test_df.loc[("black", 2), "area"]

### ZADANIA

1. Dostań się na 3 różne sposoby do maksymalnej wartości populacji dla krajów o flagach z mainhue = gold oraz colours = 3
2. Dwukrotnie zwiększ wartości maksymalnej powierzchni dla krajów o dwukolorowych flagach

=====================================================================================================================

=====================================================================================================================

#### Tabele kontyngencji i pivoty

In [None]:
# tabela kontyngencji
pd.crosstab(flag_df["landmass"], flag_df["language"])

In [None]:
pd.crosstab(flag_df["landmass"], flag_df["language"], normalize=True)

In [None]:
pd.crosstab([flag_df["landmass"], flag_df["zone"]], flag_df["language"])

In [None]:
pd.crosstab([flag_df["landmass"], flag_df["zone"]], [flag_df["language"], flag_df["religion"]])

In [None]:
# pivot
flag_df.pivot_table(["bars", "stripes", "colours"], ["landmass"], aggfunc='mean')

In [None]:
flag_df.pivot_table(["area"], ["landmass_name"], aggfunc="sum")

In [None]:
dummy_df = pd.DataFrame({"id" : ["a", "b"], "1" : [4,5], "2" : [5,6], "3" : [6,7]})
dummy_df

In [None]:
# unpivot
pd.melt(dummy_df, id_vars=["id"], value_vars=["1", "2", "3"])

### ZADANIA

1. Stwórz tabelę kontyngencji pierwsza litera nazwy kraju x kontynent
2. Stwórz pivot gdzie osią będą pierwsze litery nazw karajów a wartościami średnia wielkość populacji oraz średnia liczba kolorów

++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

### Nowe dane

Popularne wskaźniki dotyczące krajów.

Opisy wskaźników znajdują się w pliku `6b411fa3-2348-4a1e-808d-080fcf97ca1a_Definition and Source.csv`

Źródło danych:

http://databank.worldbank.org/data/indicator/NY.GDP.MKTP.CD/1ff4a498/Popular-Indicators#

In [None]:
indicators_df = pd.read_csv("Popular Indicators/6b411fa3-2348-4a1e-808d-080fcf97ca1a_Data.csv", sep=",")
indicators_df.head()

*Porządki*

In [None]:
indicators_df["Series Name"].unique()

In [None]:
indicators_df.tail()

In [None]:
indicators_df = indicators_df.dropna(axis=0, how="any", subset=["Series Code"])
indicators_df.tail()

In [None]:
indicators_df.info()

In [None]:
indicators_df.columns = [x[:4] if x[0] == "2" else x for x in indicators_df.columns]

In [None]:
indicators_df.info()

In [None]:
year_cols = [str(x) for x in range(2000,2016)]
year_cols

In [None]:
indicators_df[year_cols].apply(lambda x: pd.to_numeric(x, errors="coerce"))

In [None]:
indicators_df[year_cols] = indicators_df[year_cols].apply(lambda x: pd.to_numeric(x, errors="coerce"))

In [None]:
indicators_df.info()

++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

#### Łączenie DataFrame'ów

In [None]:
df1 = flag_df[flag_df["landmass_name"] == "Europe"]
df2 = flag_df[flag_df["landmass_name"] == "Asia"]
df3 = indicators_df[indicators_df["Series Name"] == "GDP per capita (current US$)"]

In [None]:
print("wymiary df1: ", df1.shape)
print("wymiary df2: ", df2.shape)
print("wymiary df3: ", df3.shape)

In [None]:
# dołączanie wierszowe
pd.concat([df1, df2])

In [None]:
pd.concat([df1, df2], ignore_index=True)

In [None]:
df1.append(df2)

In [None]:
df1.append(df2, ignore_index=True)

In [None]:
# DFy nie muszą mieć wszystkich kolumn
pd.concat([df1[["name", "zone"]], df2], ignore_index=True, sort=False)

In [None]:
df1[["name", "zone"]].append(df2, ignore_index=True, sort=False)

In [None]:
# łączenie kolumnowe
pd.concat([df1[["name", "zone"]], df2[["landmass", "area"]]], axis=1, sort=False)

In [None]:
pd.concat([df1[["name", "zone"]].reset_index(drop=True), 
           df2[["landmass", "area"]].reset_index(drop=True)], 
          axis=1, sort=False)

In [None]:
pd.concat([df1[["name", "zone", "landmass"]].reset_index(drop=True), 
           df2[["landmass", "area"]].reset_index(drop=True)], 
          axis=1, sort=False)

In [None]:
# joiny
pd.merge(left=df3, right=df2, how="inner", left_on="Country Name", right_on="name")

In [None]:
pd.merge(left=df3, right=df2, how="outer", left_on="Country Name", right_on="name")

In [None]:
pd.merge(left=df3, right=df2, how="left", left_on="Country Name", right_on="name")

In [None]:
pd.merge(left=df3, right=df2, how="right", left_on="Country Name", right_on="name")

### ZADANIA

1. Wykorzystując zbiór `flag_df` oblicz procentowy udział powierzchni oraz populacji danego kraju w powierzchni i populcji kontynentu na którym się znajduje
2. Wykorzystując zbiór `indicators_df` oblicz procentowe zalesienie poszczególnych krajów w roku 2000 oraz 2015