# Načtení, základní zpracování, filtrování a třídění dat pomocí Pandas

Pandas se tradičně importuje jako `pd`, je to už konvence takže to většinou není matoucí.

In [2]:
import pandas as pd

Pandas umí načíst spoustu formátů tabulek s daty, nejčastěji .csv nebo Excel. Všechny metody pro načítání začínají `read_`. Pokud chceš tedy zjistit, jestli pandas umí pracovat s tvým formáte stačí napsat `pd.read_` a stisknout `Tab`, Jupyter zobrazí nápovědu, ve které snad najdeš co potřebuješ.

Načteme si data ze dvou souborů ale vyrobíme si i jednodušší datovou strukturu, na které si ukážeme některé postupy.

In [3]:
# df jako DataFrame
# pd.read_
pokemon_df = pd.read_csv("../data/Pokemon.csv")

Pro načítání a zapisování do excelu je třeba modul `xlrd` a `xlwt`. Díky magic je můžeme naistalovat přímo z Jupteru.

In [4]:
!python -m pip install xlwt
!python -m pip install xlrd



Excel pak načteme jednoduše

In [5]:
napoje_df = pd.read_excel("../data/lb_data.xlsx")

Dataframe můžeme udělat i z Pythonních datových struktur jako je slovník nebo seznam.

In [6]:
hraci = [{"jméno": "Robot", "příjmení": "Marvin", "číslo": -42 , "tým": "FC Cadia"},
         {"jméno": "Leman", "příjmení": "Russ", "číslo": 40001, "tým": "FC Cadia" },
         {"jméno": "Zafod", "příjmení": "Biblbrox", "číslo": 42, "tým": "FC Cadia" },
         {"jméno": "Rick", "příjmení": "Sanchez", "číslo": 8, "tým": "FC Terra"},
         {"jméno": "Morty", "příjmení": "Sanchez", "číslo": 0, "tým": "FC Terra"}
]

In [7]:
hraci_df = pd.DataFrame(hraci)

DataFrame můžeme vypsat tak, že napíšeme jeho jméno na poslední řádek buňky, tím se z něj stane její výstup a vypíše se.

In [8]:
pokemon_df

Unnamed: 0,id,name,height,weight,color,shape,is baby,type 1,type 2,hp,...,defense,sp. attack,sp. defense,speed,total,generation,evolves from,evolution group,fm gender ratio,has_gender_differences
0,1,bulbasaur,0.7,6.9,green,quadruped,False,Grass,Poison,45,...,49,65,65,45,318,1,,1,1:7,0
1,2,ivysaur,1.0,13.0,green,quadruped,False,Grass,Poison,60,...,63,80,80,60,405,1,1.0,1,1:7,0
2,3,venusaur,2.0,100.0,green,quadruped,False,Grass,Poison,80,...,83,100,100,80,525,1,2.0,1,1:7,1
3,4,charmander,0.6,8.5,red,upright,False,Fire,,39,...,43,60,50,65,309,1,,2,1:7,0
4,5,charmeleon,1.1,19.0,red,upright,False,Fire,,58,...,58,80,65,80,405,1,4.0,2,1:7,0
5,6,charizard,1.7,90.5,red,upright,False,Fire,Flying,78,...,78,109,85,100,534,1,5.0,2,1:7,0
6,7,squirtle,0.5,9.0,blue,upright,False,Water,,44,...,65,50,64,43,314,1,,3,1:7,0
7,8,wartortle,1.0,22.5,blue,upright,False,Water,,59,...,80,65,80,58,405,1,7.0,3,1:7,0
8,9,blastoise,1.6,85.5,blue,upright,False,Water,,79,...,100,85,105,78,530,1,8.0,3,1:7,0
9,10,caterpie,0.3,2.9,green,armor,False,Bug,,45,...,35,20,20,45,195,1,,4,1:1,0


## Přístup k datům - indexování 1

In [9]:
hraci_df

Unnamed: 0,jméno,příjmení,tým,číslo
0,Robot,Marvin,FC Cadia,-42
1,Leman,Russ,FC Cadia,40001
2,Zafod,Biblbrox,FC Cadia,42
3,Rick,Sanchez,FC Terra,8
4,Morty,Sanchez,FC Terra,0


Do hranatých závorek napíšeme jméno sloupce, který nás zajímá, DataFrame nám ho vrátí jako Series

In [10]:
hraci_df["číslo"]

0      -42
1    40001
2       42
3        8
4        0
Name: číslo, dtype: int64

Když chceme více sloupců musíme použít list, proto dvojíté hranaté závorky

In [11]:
hraci_df[["příjmení" , "číslo"]]

Unnamed: 0,příjmení,číslo
0,Marvin,-42
1,Russ,40001
2,Biblbrox,42
3,Sanchez,8
4,Sanchez,0


Pomocí `.loc` můžeme vybírat řádky stejně jako položky ze seznamu

In [12]:
hraci_df.loc[1:3]

Unnamed: 0,jméno,příjmení,tým,číslo
1,Leman,Russ,FC Cadia,40001
2,Zafod,Biblbrox,FC Cadia,42
3,Rick,Sanchez,FC Terra,8


In [13]:
hraci_df

Unnamed: 0,jméno,příjmení,tým,číslo
0,Robot,Marvin,FC Cadia,-42
1,Leman,Russ,FC Cadia,40001
2,Zafod,Biblbrox,FC Cadia,42
3,Rick,Sanchez,FC Terra,8
4,Morty,Sanchez,FC Terra,0


Dostanem opět DataFrame, takže z něj můžeme opět vybrat sloupce.

In [14]:
hraci_df.loc[:3][["příjmení", "číslo"]]

Unnamed: 0,příjmení,číslo
0,Marvin,-42
1,Russ,40001
2,Biblbrox,42
3,Sanchez,8


Kvůli implementaci je lepší to dělat najednou.

In [15]:
hraci_df.loc[:3, ["příjmení" , "číslo"]]

Unnamed: 0,příjmení,číslo
0,Marvin,-42
1,Russ,40001
2,Biblbrox,42
3,Sanchez,8


I na sloupce se dají použít rozsahy.

In [16]:
hraci_df.loc[:, "jméno" : "tým"]

Unnamed: 0,jméno,příjmení,tým
0,Robot,Marvin,FC Cadia
1,Leman,Russ,FC Cadia
2,Zafod,Biblbrox,FC Cadia
3,Rick,Sanchez,FC Terra
4,Morty,Sanchez,FC Terra


In [17]:
pokemon_df.head()

Unnamed: 0,id,name,height,weight,color,shape,is baby,type 1,type 2,hp,...,defense,sp. attack,sp. defense,speed,total,generation,evolves from,evolution group,fm gender ratio,has_gender_differences
0,1,bulbasaur,0.7,6.9,green,quadruped,False,Grass,Poison,45,...,49,65,65,45,318,1,,1,1:7,0
1,2,ivysaur,1.0,13.0,green,quadruped,False,Grass,Poison,60,...,63,80,80,60,405,1,1.0,1,1:7,0
2,3,venusaur,2.0,100.0,green,quadruped,False,Grass,Poison,80,...,83,100,100,80,525,1,2.0,1,1:7,1
3,4,charmander,0.6,8.5,red,upright,False,Fire,,39,...,43,60,50,65,309,1,,2,1:7,0
4,5,charmeleon,1.1,19.0,red,upright,False,Fire,,58,...,58,80,65,80,405,1,4.0,2,1:7,0


In [18]:
pokemon_df.loc[:, "hp" : "total"]

Unnamed: 0,hp,attack,defense,sp. attack,sp. defense,speed,total
0,45,49,49,65,65,45,318
1,60,62,63,80,80,60,405
2,80,82,83,100,100,80,525
3,39,52,43,60,50,65,309
4,58,64,58,80,65,80,405
5,78,84,78,109,85,100,534
6,44,48,65,50,64,43,314
7,59,63,80,65,80,58,405
8,79,83,100,85,105,78,530
9,45,30,35,20,20,45,195


## Přísup k datům - indexování 2

Někdy jsou ale data rozbitá a jména sloupců ani čísla řádek nedávají smysl.

In [19]:
napoje_df

Unnamed: 0.1,Unnamed: 0,Unnamed: 1,Číslo,Název,něco,něco.1,Kód,Reference,Unnamed: 8,Unnamed: 9,Unnamed: 10,Kód.1,TYP
0,,,000758453,Pepsi 1,,,PEP,PEP758453AR,,,,PEP,AR
1,,,000758454,Mirinda 453,,,MIR,MIR758454AR,,,,COL,BR
2,,,000758455,Cola 87,,,COL,,,,,H2O,BR
3,,,000758458,Pepsi 152,,,PEP,,,,,MIR,AR
4,,,00085691,Pepsi 462,,,PEP,,,,,,
5,,,00085692,Cola 50,,,COL,,,,,,
6,,,00085693,Mirinda 400,,,MIR,,,,,,
7,,,00085694,Voda H2O,,,H2O,,,,,,
8,,,000758456,Voda 007,,,H2O,,,,,,
9,,,000758457,,,,,,,,,,


Pomocí .iloc můžeme indexovat všechno čísly...

In [20]:
napoje_df.iloc[0:4, 11:13]

Unnamed: 0,Kód.1,TYP
0,PEP,AR
1,COL,BR
2,H2O,BR
3,MIR,AR


... a napříkald oříznout data, tak abychom se v nich vyznali.

In [21]:
kod_typ = napoje_df.iloc[0:4, 11:13]

napoje_cut_df = napoje_df.iloc[0:9, 2:8].reset_index(drop=True)
napoje_cut_df

Unnamed: 0,Číslo,Název,něco,něco.1,Kód,Reference
0,758453,Pepsi 1,,,PEP,PEP758453AR
1,758454,Mirinda 453,,,MIR,MIR758454AR
2,758455,Cola 87,,,COL,
3,758458,Pepsi 152,,,PEP,
4,85691,Pepsi 462,,,PEP,
5,85692,Cola 50,,,COL,
6,85693,Mirinda 400,,,MIR,
7,85694,Voda H2O,,,H2O,
8,758456,Voda 007,,,H2O,


## Filtrování dat - masky

Často je nutné vybírat data podle obsahu ne pozice v tabulce.

In [None]:
hraci_df

Maska je pole True nebo False hondnot, které vznikne nejčastěji na základě "porovnávacích operátorů."

In [None]:
maska = hraci_df["tým"] == "FC Cadia"
maska

Pokud ji použijeme v hranatých závorkách slouží jako filtr řádků, kde je True řádek nám zůstane, kde je False vypadne. Výsledek se vrací, s původním DataFramem se nic neděje.

In [None]:
hraci_df[maska]

Můžeme ji použít i v .loc, pochopitelně tam, kde bychom vybrali řádky.

In [None]:
hraci_df.loc[maska, ["příjmení" , "číslo"]]

Není třeba si ji ukládat do proměnné, pak je rovnou vidět jaké řádky jsme vybírali.

In [None]:
hraci_df[hraci_df["tým"] == "FC Cadia"]

Logické operace se provádí pomocí:
* & odpovídá and
* | odpovídá or 
* ~ odpovídá not

Je nutné uzávorkování, protože logické operátory mají větší prioritu než "porovnávací".

In [None]:
hraci_df[(hraci_df["tým"] == "FC Terra") & (hraci_df["číslo"] > 0) ]

Občas potřebujeme s obsahem sloupce pracovat jako se stringem, k tomu slouží atribut str.

In [None]:
hraci_df[(hraci_df["tým"] != "FC Terra") | (hraci_df["jméno"].str[0]=="R") ]

In [None]:
hraci_df[(hraci_df["tým"] != "FC Terra") & (hraci_df["jméno"].str[0]=="R") ]

Pokud chceme kontrolovat, jeslti je hodnta v seznamu můžee použít metodu issin()

In [None]:
hraci_df[hraci_df['příjmení'].isin(['Sanchez', 'Russ'])]

Na hodnoty můžeme použít i funkce.

In [None]:
hraci_df[abs(hraci_df["číslo"]) == 42]

In [None]:
postavy_prijmeni = ["Prefect", "Dent", "Marvin", 
                    "Biblbrox", "von Vogon"]

In [None]:
hraci_df[hraci_df["příjmení"].isin(postavy_prijmeni)]

## Čištění

Už umíme všelijak vybrat data, která nás zajímají ale i ta která nás nezajímají, jak z DataFramu odstranit?

In [None]:
pokemon_df.head()

Pomocí metody drop můžme zahodit třeba sloupce, parametr inplace, zajistí, že se DataFrame upraví, místo toho aby bl jen vrácen nový.

In [None]:
pokemon_df.drop(columns=["has_gender_differences"], inplace=True)

Obdobně s rename, předáváme slovník, ve kterém je původní jméno : nové jméno

In [None]:
pokemon_df.rename(columns={"is baby": "is_baby"}, inplace=True)

In [None]:
pokemon_df["evolves from"].head()

Někdy se potřebujeme zbavit nepohodlných NaN hodnot. Následující příkaz je nahradí nulou.

In [None]:
pokemon_df["evolves from"] = pokemon_df["evolves from"].fillna(0).astype(int)


## Řazení

In [None]:
top5 = pokemon_df.sort_values(by='name', ascending=False)[:5]


In [None]:
top5

In [None]:
pokemon_df.head()

# Přidávání sloupců

Sloupce se přidávají jednoduše, jako položky do slovníku, jen musíme dát pozor, abychom přidávali stejný počet hodnot jako je v DataFramu. Pokud používáme sloupce z DataFramu je to triviální.

In [None]:
pokemon_df["BMI"] = pokemon_df["weight"] / pokemon_df["height"]**2

Pokud chceme všem řádkům přiřadit stejnou hodnotu (inicializovat je) není třeba vytvářet speciální pole, stačí...

In [24]:
pokemon_df["is_real"] = "No"

In [109]:
pokemon_df.head()

Unnamed: 0,id,name,height,weight,color,shape,is_baby,type 1,type 2,hp,...,sp. attack,sp. defense,speed,total,generation,evolves from,evolution group,fm gender ratio,has_gender_differences,BMI
717,718,zygarde,5.0,305.0,green,squiggle,False,Dragon,Ground,108,...,81,95,95,600,6,0,370,0:0,0,12.2
633,634,zweilous,1.4,50.0,blue,quadruped,False,Dark,Dragon,72,...,65,70,58,420,5,633,323,1:1,0,25.510204
40,41,zubat,0.8,7.5,purple,wings,False,Poison,Flying,40,...,30,40,55,245,1,0,17,1:1,1,11.71875
569,570,zorua,0.7,12.5,gray,quadruped,False,Dark,,40,...,80,40,65,330,5,0,291,1:7,0,25.510204
570,571,zoroark,1.6,81.1,gray,upright,False,Dark,,60,...,120,60,105,510,5,570,291,1:7,0,31.679687


# Výstup

In [110]:
pokemon_df.to_excel("data/pokemon_bmi.xls")

## Řešení cvičení

In [149]:
heaviest_babe = pokemon_df[pokemon_df.is_baby].sort_values(by="weight", ascending=False).iloc[0]
heaviest_babe

id                             446
name                      munchlax
height                         0.6
weight                         105
color                        black
shape                     humanoid
is_baby                       True
type 1                      Normal
type 2                         NaN
hp                             135
attack                          85
defense                         40
sp. attack                      40
sp. defense                     85
speed                            5
total                          390
generation                       4
evolves from                     0
evolution group                 72
fm gender ratio                1:7
has_gender_differences           0
BMI                        291.667
Name: 445, dtype: object

In [150]:
baby_wght = heaviest_babe["weight"]

In [151]:
lighter_poks = pokemon_df[
    (~pokemon_df.is_baby) & 
    (pokemon_df["weight"] < baby_wght)]
lighter_poks

Unnamed: 0,id,name,height,weight,color,shape,is_baby,type 1,type 2,hp,...,sp. attack,sp. defense,speed,total,generation,evolves from,evolution group,fm gender ratio,has_gender_differences,BMI
633,634,zweilous,1.4,50.0,blue,quadruped,False,Dark,Dragon,72,...,65,70,58,420,5,633,323,1:1,0,25.510204
40,41,zubat,0.8,7.5,purple,wings,False,Poison,Flying,40,...,30,40,55,245,1,0,17,1:1,1,11.718750
569,570,zorua,0.7,12.5,gray,quadruped,False,Dark,,40,...,80,40,65,330,5,0,291,1:7,0,25.510204
570,571,zoroark,1.6,81.1,gray,upright,False,Dark,,60,...,120,60,105,510,5,570,291,1:7,0,31.679687
262,263,zigzagoon,0.4,17.5,brown,quadruped,False,Normal,,38,...,30,41,60,240,3,0,134,1:1,0,109.375000
806,807,zeraora,1.5,44.5,yellow,humanoid,False,Electric,,88,...,102,80,143,600,7,0,427,0:0,0,19.777778
522,523,zebstrika,1.6,79.5,black,quadruped,False,Electric,,75,...,80,63,116,497,5,522,267,1:1,0,31.054687
144,145,zapdos,1.6,52.6,yellow,wings,False,Electric,Flying,90,...,125,90,100,580,1,0,74,0:0,0,20.546875
334,335,zangoose,1.3,40.3,white,upright,False,Normal,,73,...,60,60,90,458,3,0,169,1:1,0,23.846154
733,734,yungoos,0.4,6.0,brown,quadruped,False,Normal,,48,...,30,30,45,253,7,0,378,1:1,0,37.500000


In [139]:
len(lighter_poks)

671

In [155]:
pokemon_df[pokemon_df["is_baby"]].sort_values(
    by="weight", ascending=False).iloc[:5]

Unnamed: 0,id,name,height,weight,color,shape,is_baby,type 1,type 2,hp,...,sp. attack,sp. defense,speed,total,generation,evolves from,evolution group,fm gender ratio,has_gender_differences,BMI
445,446,munchlax,0.6,105.0,black,humanoid,True,Normal,,135,...,40,85,5,390,4,0,72,1:7,0,291.666667
457,458,mantyke,1.0,65.0,blue,wings,True,Water,Flying,45,...,60,120,50,345,4,0,116,1:1,0,65.0
439,440,happiny,0.6,24.4,pink,humanoid,True,Normal,,100,...,15,65,30,220,4,0,51,1:0,0,67.777778
238,239,elekid,0.6,23.5,yellow,humanoid,True,Electric,,45,...,65,55,95,360,2,0,60,1:3,0,65.277778
239,240,magby,0.7,21.4,red,upright,True,Fire,,45,...,70,55,83,365,2,0,61,1:3,0,43.673469


In [160]:
pokemon_df.min()

id                                1
name                      abomasnow
height                          0.1
weight                          0.1
color                         black
shape                         armor
is_baby                       False
type 1                          Bug
hp                                1
attack                            5
defense                           5
sp. attack                       10
sp. defense                      20
speed                             5
total                           175
generation                        1
evolves from                      0
evolution group                   1
fm gender ratio                 0:0
has_gender_differences            0
BMI                       0.0390625
dtype: object