# Týden 2. Balíček Pandas.

## Instalace

Pandas lze nainstalovat pomocí pip nebo conda. Pokud jste instalovali Python pomocí Anaconda Distribution - je velice pravděpodbné, že již máte Pandas nainstalované ve vychozím prostředí.

### Pip
Pokud používáte pip, můžete Pandas nainstalovat pomocí terminálu:

```
pip install pandas
```

### Conda

Pokud používáte conda, můžete NumPy nainstalovat z výchozího nastavení:
```
conda install pandas
```

## Import

Chcete-li začít používat `pandas`, importujte jej spolu s `numpy`, protože často jdou ruku v ruce:

In [1]:
import pandas as pd
import numpy as np

## Datové struktury Pandas

### Série (Series):
Série Pandas je jednorozměrné označené pole, které může obsahovat libovolný datový typ (celá čísla, řetězce, reálná čísla, objekty Pythonu atd.). Označení os se nazývají indexy.

In [2]:
s = pd.Series([1, 2, 3, 4, 5])
print(s)

0    1
1    2
2    3
3    4
4    5
dtype: int64


Nejpozoruhodnějším znakem řady je její index. Vnáší do dat více významu, díky čemuž jsou data srozumitelnější a přístupnější.

In [5]:
s = pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])
print(s['a'])

1


Série může obsahovat data různých typů v různých prvcích, což u polí NumPy není obvyklé.

In [6]:
s = pd.Series([1, 'a', 2.5, True])

### DataFrame
DataFrame je dvourozměrná označená datová struktura, podobná tabulce tabulce v Excelu. DataFrame lze vytvořit z různých zdrojů dat, např. ze slovníku polí numpy, seznamů nebo sérií:

In [3]:
data = {
    'Name': ['John', 'Anna', 'Lucy'],
    'Age': [28, 22, 19],
    'City': ['New York', 'Paris', 'London']
}

df = pd.DataFrame(data)
print(df)

   Name  Age      City
0  John   28  New York
1  Anna   22     Paris
2  Lucy   19    London


Ze seznamu slovníků:

In [8]:
data = [
    {'Name': 'John', 'Age': 28, 'City': 'New York'},
    {'Name': 'Anna', 'Age': 22, 'City': 'Paris'},
    {'Name': 'Lucy', 'Age': 19, 'City': 'London'}
]

df = pd.DataFrame(data)
print(df)

   Name  Age      City
0  John   28  New York
1  Anna   22     Paris
2  Lucy   19    London


Ze souboru (např. CSV, Excel, databáze SQL):

In [11]:
df = pd.read_csv('users.csv')
print(df)

   Name  Age      City Profession
0  Anna   28  New York   Engineer
1  John   22     Paris     Artist
2  Lucy   19    London    Student
3  Ella   32    Sydney     Doctor
4  Mike   25     Tokyo   Designer


Každý sloupec v DataFrame může mít jiný datový typ, např. číselný, řetězcový, logický atd. 
Každý řádek a sloupec v DataFrame má svůj index. Index řádku poskytuje popisek pro každý řádek a index sloupce poskytuje popisek pro každý sloupec.

## Základní operace

Jakmile získáte DataFrame (obvykle zkráceně df), můžete provádět řadu operací. Tady použijeme dataset realit v Spojených Státech z [Kaggle](https://www.kaggle.com/datasets/ahmedshahriarsakib/usa-real-estate-dataset?resource=download).

In [13]:
df = pd.read_csv('realtor-data.csv')

### Základní prozkoumání

Zobrazení horních řádků (ve výchozím nastavení zobrazí prvních 5 řádků):

In [14]:
df.head()

Unnamed: 0,status,price,bed,bath,acre_lot,full_address,street,city,state,zip_code,house_size,sold_date
0,for_sale,105000.0,3.0,2.0,0.12,"Sector Yahuecas Titulo # V84, Adjuntas, PR, 00601",Sector Yahuecas Titulo # V84,Adjuntas,Puerto Rico,601.0,920.0,
1,for_sale,80000.0,4.0,2.0,0.08,"Km 78 9 Carr # 135, Adjuntas, PR, 00601",Km 78 9 Carr # 135,Adjuntas,Puerto Rico,601.0,1527.0,
2,for_sale,67000.0,2.0,1.0,0.15,"556G 556-G 16 St, Juana Diaz, PR, 00795",556G 556-G 16 St,Juana Diaz,Puerto Rico,795.0,748.0,
3,for_sale,145000.0,4.0,2.0,0.1,"R5 Comunidad El Paraso Calle De Oro R-5 Ponce,...",R5 Comunidad El Paraso Calle De Oro R-5 Ponce,Ponce,Puerto Rico,731.0,1800.0,
4,for_sale,65000.0,6.0,2.0,0.05,"14 Navarro, Mayaguez, PR, 00680",14 Navarro,Mayaguez,Puerto Rico,680.0,,


Zobrazení spodních řádků (ve výchozím nastavení zobrazuje posledních 5 řádků):

In [15]:
df.tail()

Unnamed: 0,status,price,bed,bath,acre_lot,full_address,street,city,state,zip_code,house_size,sold_date
733154,for_sale,748000.0,4.0,3.0,0.14,"8 Lewis Dr, Bridgewater Twp, NJ, 08807",8 Lewis Dr,Bridgewater Twp,New Jersey,8807.0,,2002-05-16
733155,for_sale,649000.0,4.0,3.0,1.04,"11 Buttonwood Ct, Montgomery Twp, NJ, 08502",11 Buttonwood Ct,Montgomery Twp,New Jersey,8502.0,,1993-11-12
733156,for_sale,300000.0,2.0,2.0,0.02,"387 Rittenhouse Ct, North Brunswick, NJ, 08902",387 Rittenhouse Ct,North Brunswick,New Jersey,8902.0,,2009-07-01
733157,for_sale,499900.0,3.0,3.0,0.28,"21 Tripplet Rd, Franklin Twp, NJ, 08873",21 Tripplet Rd,Franklin Twp,New Jersey,8873.0,2016.0,2005-10-17
733158,for_sale,389000.0,4.0,1.0,0.13,"110 Thompson Ave, Bound Brook, NJ, 08805",110 Thompson Ave,Bound Brook,New Jersey,8805.0,,2018-10-15


Získání tvaru (řádky, sloupce):

In [16]:
df.shape

(733159, 12)

Informace o DataFrame (datové typy, nenulové hodnoty, využití paměti):

In [17]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 733159 entries, 0 to 733158
Data columns (total 12 columns):
 #   Column        Non-Null Count   Dtype  
---  ------        --------------   -----  
 0   status        733159 non-null  object 
 1   price         733088 non-null  float64
 2   bed           617177 non-null  float64
 3   bath          621407 non-null  float64
 4   acre_lot      572378 non-null  float64
 5   full_address  733159 non-null  object 
 6   street        732069 non-null  object 
 7   city          733087 non-null  object 
 8   state         733159 non-null  object 
 9   zip_code      732957 non-null  float64
 10  house_size    520772 non-null  float64
 11  sold_date     347237 non-null  object 
dtypes: float64(6), object(6)
memory usage: 67.1+ MB


### Popisná statistika

Základní statistiky pro číselné sloupce:

In [18]:
df.describe()

Unnamed: 0,price,bed,bath,acre_lot,zip_code,house_size
count,733088.0,617177.0,621407.0,572378.0,732957.0,520772.0
mean,725701.7,3.422041,2.540473,19.058585,5736.101623,2192.527
std,1768769.0,2.028735,2.002442,1022.007111,3764.935565,3141.461
min,0.0,1.0,1.0,0.0,601.0,100.0
25%,237500.0,2.0,2.0,0.14,2492.0,1195.0
50%,419000.0,3.0,2.0,0.35,6001.0,1714.0
75%,725000.0,4.0,3.0,1.38,7928.0,2547.25
max,875000000.0,123.0,198.0,100000.0,99999.0,1450112.0


Počet četností pro sloupec:

In [19]:
df['bed'].value_counts()

3.0      211745
2.0      130139
4.0      129622
5.0       46944
1.0       43736
6.0       27264
7.0        9123
8.0        7467
9.0        4486
10.0       2051
12.0       1550
11.0       1007
15.0        307
13.0        295
14.0        266
18.0        183
16.0        164
20.0        160
19.0        123
24.0         99
17.0         96
22.0         58
28.0         53
42.0         29
21.0         28
60.0         27
99.0         23
32.0         21
86.0         21
31.0         20
27.0         13
33.0         11
46.0         10
49.0          8
30.0          8
25.0          4
40.0          3
29.0          3
23.0          3
47.0          3
68.0          2
36.0          1
123.0         1
Name: bed, dtype: int64

Jedinečné hodnoty v daném sloupci:

In [20]:
df['zip_code'].unique()

array([  601.,   795.,   731., ..., 18947., 18933., 18920.])

### Výběr dat

Vyběr jednoho sloupce:

In [21]:
df['full_address']

0         Sector Yahuecas Titulo # V84, Adjuntas, PR, 00601
1                   Km 78 9 Carr # 135, Adjuntas, PR, 00601
2                   556G 556-G 16 St, Juana Diaz, PR, 00795
3         R5 Comunidad El Paraso Calle De Oro R-5 Ponce,...
4                           14 Navarro, Mayaguez, PR, 00680
                                ...                        
733154               8 Lewis Dr, Bridgewater Twp, NJ, 08807
733155          11 Buttonwood Ct, Montgomery Twp, NJ, 08502
733156       387 Rittenhouse Ct, North Brunswick, NJ, 08902
733157              21 Tripplet Rd, Franklin Twp, NJ, 08873
733158             110 Thompson Ave, Bound Brook, NJ, 08805
Name: full_address, Length: 733159, dtype: object

Výběr více sloupců

In [22]:
df[['full_address', 'zip_code']]

Unnamed: 0,full_address,zip_code
0,"Sector Yahuecas Titulo # V84, Adjuntas, PR, 00601",601.0
1,"Km 78 9 Carr # 135, Adjuntas, PR, 00601",601.0
2,"556G 556-G 16 St, Juana Diaz, PR, 00795",795.0
3,"R5 Comunidad El Paraso Calle De Oro R-5 Ponce,...",731.0
4,"14 Navarro, Mayaguez, PR, 00680",680.0
...,...,...
733154,"8 Lewis Dr, Bridgewater Twp, NJ, 08807",8807.0
733155,"11 Buttonwood Ct, Montgomery Twp, NJ, 08502",8502.0
733156,"387 Rittenhouse Ct, North Brunswick, NJ, 08902",8902.0
733157,"21 Tripplet Rd, Franklin Twp, NJ, 08873",8873.0


Výběr řádků podle pozice

In [23]:
df.iloc[0:5] 

Unnamed: 0,status,price,bed,bath,acre_lot,full_address,street,city,state,zip_code,house_size,sold_date
0,for_sale,105000.0,3.0,2.0,0.12,"Sector Yahuecas Titulo # V84, Adjuntas, PR, 00601",Sector Yahuecas Titulo # V84,Adjuntas,Puerto Rico,601.0,920.0,
1,for_sale,80000.0,4.0,2.0,0.08,"Km 78 9 Carr # 135, Adjuntas, PR, 00601",Km 78 9 Carr # 135,Adjuntas,Puerto Rico,601.0,1527.0,
2,for_sale,67000.0,2.0,1.0,0.15,"556G 556-G 16 St, Juana Diaz, PR, 00795",556G 556-G 16 St,Juana Diaz,Puerto Rico,795.0,748.0,
3,for_sale,145000.0,4.0,2.0,0.1,"R5 Comunidad El Paraso Calle De Oro R-5 Ponce,...",R5 Comunidad El Paraso Calle De Oro R-5 Ponce,Ponce,Puerto Rico,731.0,1800.0,
4,for_sale,65000.0,6.0,2.0,0.05,"14 Navarro, Mayaguez, PR, 00680",14 Navarro,Mayaguez,Puerto Rico,680.0,,


Výběr řádků podle podmínky:

In [25]:
df[df['bed'] <= 3]

Unnamed: 0,status,price,bed,bath,acre_lot,full_address,street,city,state,zip_code,house_size,sold_date
0,for_sale,105000.0,3.0,2.0,0.12,"Sector Yahuecas Titulo # V84, Adjuntas, PR, 00601",Sector Yahuecas Titulo # V84,Adjuntas,Puerto Rico,601.0,920.0,
2,for_sale,67000.0,2.0,1.0,0.15,"556G 556-G 16 St, Juana Diaz, PR, 00795",556G 556-G 16 St,Juana Diaz,Puerto Rico,795.0,748.0,
6,for_sale,50000.0,3.0,1.0,0.20,"49.1 140, Ciales, PR, 00639",49.1 140,Ciales,Puerto Rico,639.0,2040.0,
7,for_sale,71600.0,3.0,2.0,0.08,"3467 St, Ponce, PR, 00731",3467 St,Ponce,Puerto Rico,731.0,1050.0,
8,for_sale,100000.0,2.0,1.0,0.09,"230 Rio De Vida, Ponce, PR, 00730",230 Rio De Vida,Ponce,Puerto Rico,730.0,1092.0,
...,...,...,...,...,...,...,...,...,...,...,...,...
733151,for_sale,634900.0,3.0,3.0,0.21,"2 Wakeman Cir, Hillsborough Twp, NJ, 08844",2 Wakeman Cir,Hillsborough Twp,New Jersey,8844.0,,1998-03-12
733152,for_sale,299900.0,2.0,2.0,,"21 Chelsea Way, Bridgewater Twp, NJ, 08807",21 Chelsea Way,Bridgewater Twp,New Jersey,8807.0,1440.0,1987-06-07
733153,for_sale,459000.0,3.0,3.0,0.20,"576 Greenbrook Rd, North Plainfield, NJ, 07063",576 Greenbrook Rd,North Plainfield,New Jersey,7063.0,,2021-01-29
733156,for_sale,300000.0,2.0,2.0,0.02,"387 Rittenhouse Ct, North Brunswick, NJ, 08902",387 Rittenhouse Ct,North Brunswick,New Jersey,8902.0,,2009-07-01


### Manipulace s daty:
Přidání nového sloupce (například z existujících sloupců):

In [40]:
df['m2_lot'] = df['acre_lot'] * 4046.86
df.head()

Unnamed: 0,status,price,bed,bath,acre_lot,full_address,street,city,state,zip_code,house_size,sold_date,m2_lot
0,for_sale,105000.0,3.0,2.0,0.12,"Sector Yahuecas Titulo # V84, Adjuntas, PR, 00601",Sector Yahuecas Titulo # V84,Adjuntas,Puerto Rico,601.0,920.0,,485.6232
1,for_sale,80000.0,4.0,2.0,0.08,"Km 78 9 Carr # 135, Adjuntas, PR, 00601",Km 78 9 Carr # 135,Adjuntas,Puerto Rico,601.0,1527.0,,323.7488
2,for_sale,67000.0,2.0,1.0,0.15,"556G 556-G 16 St, Juana Diaz, PR, 00795",556G 556-G 16 St,Juana Diaz,Puerto Rico,795.0,748.0,,607.029
3,for_sale,145000.0,4.0,2.0,0.1,"R5 Comunidad El Paraso Calle De Oro R-5 Ponce,...",R5 Comunidad El Paraso Calle De Oro R-5 Ponce,Ponce,Puerto Rico,731.0,1800.0,,404.686
4,for_sale,65000.0,6.0,2.0,0.05,"14 Navarro, Mayaguez, PR, 00680",14 Navarro,Mayaguez,Puerto Rico,680.0,,,202.343


Přejmenování sloupců

In [41]:
df.rename(columns={'m2_lot': 'area_m2'}, inplace=True)
df.head()

Unnamed: 0,status,price,bed,bath,acre_lot,full_address,street,city,state,zip_code,house_size,sold_date,area_m2
0,for_sale,105000.0,3.0,2.0,0.12,"Sector Yahuecas Titulo # V84, Adjuntas, PR, 00601",Sector Yahuecas Titulo # V84,Adjuntas,Puerto Rico,601.0,920.0,,485.6232
1,for_sale,80000.0,4.0,2.0,0.08,"Km 78 9 Carr # 135, Adjuntas, PR, 00601",Km 78 9 Carr # 135,Adjuntas,Puerto Rico,601.0,1527.0,,323.7488
2,for_sale,67000.0,2.0,1.0,0.15,"556G 556-G 16 St, Juana Diaz, PR, 00795",556G 556-G 16 St,Juana Diaz,Puerto Rico,795.0,748.0,,607.029
3,for_sale,145000.0,4.0,2.0,0.1,"R5 Comunidad El Paraso Calle De Oro R-5 Ponce,...",R5 Comunidad El Paraso Calle De Oro R-5 Ponce,Ponce,Puerto Rico,731.0,1800.0,,404.686
4,for_sale,65000.0,6.0,2.0,0.05,"14 Navarro, Mayaguez, PR, 00680",14 Navarro,Mayaguez,Puerto Rico,680.0,,,202.343


Vynechání sloupce

In [42]:
df.drop(columns=['area_m2'], inplace=True)
df.head()

Unnamed: 0,status,price,bed,bath,acre_lot,full_address,street,city,state,zip_code,house_size,sold_date
0,for_sale,105000.0,3.0,2.0,0.12,"Sector Yahuecas Titulo # V84, Adjuntas, PR, 00601",Sector Yahuecas Titulo # V84,Adjuntas,Puerto Rico,601.0,920.0,
1,for_sale,80000.0,4.0,2.0,0.08,"Km 78 9 Carr # 135, Adjuntas, PR, 00601",Km 78 9 Carr # 135,Adjuntas,Puerto Rico,601.0,1527.0,
2,for_sale,67000.0,2.0,1.0,0.15,"556G 556-G 16 St, Juana Diaz, PR, 00795",556G 556-G 16 St,Juana Diaz,Puerto Rico,795.0,748.0,
3,for_sale,145000.0,4.0,2.0,0.1,"R5 Comunidad El Paraso Calle De Oro R-5 Ponce,...",R5 Comunidad El Paraso Calle De Oro R-5 Ponce,Ponce,Puerto Rico,731.0,1800.0,
4,for_sale,65000.0,6.0,2.0,0.05,"14 Navarro, Mayaguez, PR, 00680",14 Navarro,Mayaguez,Puerto Rico,680.0,,


Třídění

In [44]:
df.sort_values(by='price', ascending=False)

Unnamed: 0,status,price,bed,bath,acre_lot,full_address,street,city,state,zip_code,house_size,sold_date
572886,for_sale,875000000.0,9.0,2.0,,"952 E 223 St Units 4858 & 66, Bronx, NY, 10458",952 E 223 St Units 4858 & 66,Bronx,New York,10458.0,2440.0,2002-12-30
536923,for_sale,120000000.0,123.0,123.0,,"421 W 250th St, New York City, NY, 10471",421 W 250th St,New York City,New York,10471.0,,2012-06-29
463025,for_sale,100000000.0,10.0,10.0,60.92,"19 Great Is, Darien, CT, 06820",19 Great Is,Darien,Connecticut,6820.0,13107.0,
463024,for_sale,100000000.0,10.0,10.0,60.92,"Great Is, Darien, CT, 06820",Great Is,Darien,Connecticut,6820.0,13107.0,
459320,for_sale,100000000.0,10.0,10.0,60.92,"19 Great Is, Darien, CT, 06820",19 Great Is,Darien,Connecticut,6820.0,13107.0,
...,...,...,...,...,...,...,...,...,...,...,...,...
685698,ready_to_build,,5.0,,,"1219 Pimpernell Path, Middletown, DE, 19709",1219 Pimpernell Path,Middletown,Delaware,19709.0,2511.0,
685699,ready_to_build,,5.0,,,"1219 Pimpernell Path, Middletown, DE, 19709",1219 Pimpernell Path,Middletown,Delaware,19709.0,2814.0,
701728,ready_to_build,,3.0,,,"Levis Drive & S Martin Ave, Mount Holly, NJ, 0...",Levis Drive & S Martin Ave,Mount Holly,New Jersey,8060.0,2208.0,
702663,ready_to_build,,4.0,,,"141 Hartford Road, Medford, NJ, 08055",141 Hartford Road,Medford,New Jersey,8055.0,2244.0,


### Zpracování chybějících údajů

Zkontrolujte, zda nechybí hodnoty pomocí sloupcový součtu chybějících hodnot:

In [46]:
df.isnull().sum()

status               0
price               71
bed             115982
bath            111752
acre_lot        160781
full_address         0
street            1090
city                72
state                0
zip_code           202
house_size      212387
sold_date       385922
dtype: int64

Zahoďte řádky s chybějícími hodnotami:

In [48]:
df_clean = df.dropna(inplace=False)
df_clean.head()

Unnamed: 0,status,price,bed,bath,acre_lot,full_address,street,city,state,zip_code,house_size,sold_date
829,for_sale,110000.0,7.0,3.0,0.09,"B-2 Monte Elena, Dorado, PR, 00949",B-2 Monte Elena,Dorado,Puerto Rico,949.0,1192.0,2019-06-28
3380,for_sale,110000.0,7.0,3.0,0.09,"B-2 Monte Elena, Dorado, PR, 00949",B-2 Monte Elena,Dorado,Puerto Rico,949.0,1192.0,2019-06-28
5083,for_sale,110000.0,7.0,3.0,0.09,"B-2 Monte Elena, Dorado, PR, 00949",B-2 Monte Elena,Dorado,Puerto Rico,949.0,1192.0,2019-06-28
5387,for_sale,110000.0,7.0,3.0,0.09,"B-2 Monte Elena, Dorado, PR, 00949",B-2 Monte Elena,Dorado,Puerto Rico,949.0,1192.0,2019-06-28
9053,for_sale,110000.0,7.0,3.0,0.09,"B-2 Monte Elena, Dorado, PR, 00949",B-2 Monte Elena,Dorado,Puerto Rico,949.0,1192.0,2019-06-28


Doplňte chybějící hodnoty:

In [51]:
df['acre_lot'].fillna(value=0, inplace=True)

### Agregace dat

Seskupení podle sloupce a následný výpočet průměru pro každou skupinu.

In [53]:
df.groupby('state').mean()

  df.groupby('state').mean()


Unnamed: 0_level_0,price,bed,bath,acre_lot,zip_code,house_size
state,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Connecticut,454129.9,3.50095,2.525905,36.497251,6335.490966,2065.023499
Delaware,345206.6,3.210782,2.343058,1.806314,19764.400468,2015.18256
Georgia,492703.6,5.0,3.5,0.0364,30251.56,3388.5
Maine,420010.0,3.486499,2.343023,17.166819,4449.086576,2141.072729
Massachusetts,975750.5,3.52564,2.683854,3.020712,1892.065427,2282.311193
New Hampshire,480767.9,3.168851,2.502738,8.952977,3470.399502,2257.391891
New Jersey,600162.0,3.458701,2.609557,20.647476,7918.199895,2370.924979
New York,1640817.0,2.899452,2.288654,12.602756,10767.822874,1892.634498
Pennsylvania,424569.4,3.234971,2.232116,0.474666,19038.263575,1811.954135
Puerto Rico,437137.0,3.617857,2.290573,7.238456,850.634949,1941.929972


### Datum a čas
Pokud pracujete se sloupci s datem, pandas poskytuje vynikající nástroje. Převod sloupce na datum:

In [54]:
df['sold_date'] = pd.to_datetime(df['sold_date'])

Nyní můžeme extrahovat části data:

In [56]:
df['Year'] = df['sold_date'].dt.year
df.tail()

Unnamed: 0,status,price,bed,bath,acre_lot,full_address,street,city,state,zip_code,house_size,sold_date,Year
733154,for_sale,748000.0,4.0,3.0,0.14,"8 Lewis Dr, Bridgewater Twp, NJ, 08807",8 Lewis Dr,Bridgewater Twp,New Jersey,8807.0,,2002-05-16,2002.0
733155,for_sale,649000.0,4.0,3.0,1.04,"11 Buttonwood Ct, Montgomery Twp, NJ, 08502",11 Buttonwood Ct,Montgomery Twp,New Jersey,8502.0,,1993-11-12,1993.0
733156,for_sale,300000.0,2.0,2.0,0.02,"387 Rittenhouse Ct, North Brunswick, NJ, 08902",387 Rittenhouse Ct,North Brunswick,New Jersey,8902.0,,2009-07-01,2009.0
733157,for_sale,499900.0,3.0,3.0,0.28,"21 Tripplet Rd, Franklin Twp, NJ, 08873",21 Tripplet Rd,Franklin Twp,New Jersey,8873.0,2016.0,2005-10-17,2005.0
733158,for_sale,389000.0,4.0,1.0,0.13,"110 Thompson Ave, Bound Brook, NJ, 08805",110 Thompson Ave,Bound Brook,New Jersey,8805.0,,2018-10-15,2018.0


### Aplikování funkce
Pro použití funkce v řádcích nebo sloupcích:

In [58]:
df['size_m2'] = df['house_size'].apply(lambda x: 0.092903 * x)
df.head()

Unnamed: 0,status,price,bed,bath,acre_lot,full_address,street,city,state,zip_code,house_size,sold_date,Year,size_m2
0,for_sale,105000.0,3.0,2.0,0.12,"Sector Yahuecas Titulo # V84, Adjuntas, PR, 00601",Sector Yahuecas Titulo # V84,Adjuntas,Puerto Rico,601.0,920.0,NaT,,85.47076
1,for_sale,80000.0,4.0,2.0,0.08,"Km 78 9 Carr # 135, Adjuntas, PR, 00601",Km 78 9 Carr # 135,Adjuntas,Puerto Rico,601.0,1527.0,NaT,,141.862881
2,for_sale,67000.0,2.0,1.0,0.15,"556G 556-G 16 St, Juana Diaz, PR, 00795",556G 556-G 16 St,Juana Diaz,Puerto Rico,795.0,748.0,NaT,,69.491444
3,for_sale,145000.0,4.0,2.0,0.1,"R5 Comunidad El Paraso Calle De Oro R-5 Ponce,...",R5 Comunidad El Paraso Calle De Oro R-5 Ponce,Ponce,Puerto Rico,731.0,1800.0,NaT,,167.2254
4,for_sale,65000.0,6.0,2.0,0.05,"14 Navarro, Mayaguez, PR, 00680",14 Navarro,Mayaguez,Puerto Rico,680.0,,NaT,,


### Slučování, spojování a připojování

V `pandas` se ke spojení DataFrames používají funkce `concat`, `merge` a `join`, které však slouží k různým účelům a používají se v různých scénářích:

1. `concat`:
   - Účel: Používá se ke spojení DataFrames podél určité osy (buď řádků, nebo sloupců).
   - Obvyklý případ použití: Když máte DataFramy se stejnými sloupci a chcete je spojit vertikálně (jeden pod druhým) nebo DataFramy se stejnými řádky a chcete je spojit horizontálně.
   - Klíčové parametry:
     - `objs`: Seznam nebo dict DataFrames, které se mají spojit.
     - `axis`: Zda se mají spojit podél řádků (`0`) nebo sloupců (`1`).
     - `keys`: Posloupnost použitá k určení výsledné úrovně osy, pokud je při spojování více úrovní.
   - Příklad:


In [86]:
df1 = pd.DataFrame({"A": [1, 2], "B": [3, 4]})
df2 = pd.DataFrame({'A': [5, 6], 'B': [7, 8]})
pd.concat([df1, df2])

Unnamed: 0,A,B
0,1,3
1,2,4
0,5,7
1,6,8


2. `merge`:
   - Účel: Používá se ke spojování DataFrames na základě společných sloupců (podobně jako operace SQL JOIN).
   - Obvyklý případ použití: Když máte dva DataFramy s jedním nebo více společnými sloupci a chcete je na základě těchto sloupců spojit.
   - Klíčové parametry:
     - `left` a `right`: DataFrame, které se mají sloučit.
     - `on`: Sloupec(ce), které se mají použít pro sloučení. Musí být přítomen v obou DataFrame.
     - `how`: Typ sloučení, které se má provést (`left`, `right`, `outer`, `inner`).
     - `left_on` a `right_on`: Sloupce, které se použijí z levého a pravého DataFrames pro sloučení.
   - Příklad:

In [88]:
df1 = pd.DataFrame({'key': ['A', 'B', 'C'], 'value1': [1, 2, 3]})
df2 = pd.DataFrame({'key': ['A', 'B', 'D'], 'value2': [4, 5, 6]})
df1.merge(df2, on='key', how='inner')

Unnamed: 0,key,value1,value2
0,A,1,4
1,B,2,5


3. `join`:
   - Účel: Slouží ke spojení dvou DataFrames na základě jejich indexů nebo klíčového sloupce.
   - Obvyklý případ použití: Když máte dva DataFramy a chcete je spojit na základě jejich indexů.
   - Klíčové parametry:
     - `other`: DataFrame, který chcete spojit.
     - `on`: Název sloupce, který se má použít z volajícího DataFrame pro zarovnání s indexem druhého DataFrame.
     - `how`: Typ spojení (`left`, `right`, `outer`, `inner`).
   - Poznámka: Pod `join` se skrývá funkce `merge`, ale je to vhodná metoda, když chcete spojovat podle indexu.
   - Příklad:

In [89]:
df1 = pd.DataFrame({'A': [1, 2, 3]}, index=['a', 'b', 'c'])
df2 = pd.DataFrame({'B': [4, 5, 6]}, index=['a', 'b', 'd'])
df1.join(df2, how="outer")

Unnamed: 0,A,B
a,1.0,4.0
b,2.0,5.0
c,3.0,
d,,6.0


Shrnutí:
- Pro jednoduché skládání DataFrames podél řádků nebo sloupců použijte `concat`.
- Pokud chcete DataFramy kombinovat na základě hodnot sloupců, použijte `merge`.
- `join` použijte, chcete-li kombinovat DataFramy na základě jejich indexů.



Představme si, že chceme sloučit dvě různé sady dat. Třeba dodáme data z dálšího datasetu z [Kaggle](https://www.kaggle.com/datasets/austinreese/usa-housing-listings).

In [80]:
df_2 = pd.read_csv('RealEstate_California.csv')
df_2.head()

Unnamed: 0.1,Unnamed: 0,id,stateId,countyId,cityId,country,datePostedString,is_bankOwned,is_forAuction,event,...,parking,garageSpaces,hasGarage,levels,pool,spa,isNewConstruction,hasPetsAllowed,homeType,county
0,0,95717-2087851113,9,77,24895,USA,2021-01-13,0,0,Listed for sale,...,0,0.0,0,0,0,0,0,0,LOT,Placer County
1,1,94564-18496265,9,189,36958,USA,2021-07-12,0,0,Listed for sale,...,1,2.0,1,One Story,0,0,0,0,SINGLE_FAMILY,Contra Costa County
2,2,94564-18484475,9,190,36958,USA,2021-07-08,0,0,Listed for sale,...,1,2.0,1,One Story,0,0,0,0,SINGLE_FAMILY,Contra Costa County
3,3,94564-18494835,9,191,36958,USA,2021-07-07,0,0,Listed for sale,...,1,1.0,1,Two Story,0,1,0,0,SINGLE_FAMILY,Contra Costa County
4,4,94564-2069722747,9,192,36958,USA,2021-07-07,0,0,Listed for sale,...,0,0.0,0,0,0,0,0,0,LOT,Contra Costa County


`pandas.concat` vezme seznam nebo slovník homogenních typů objektů a spojí je s určitou konfigurovatelnou volbou "co dělat s ostatními osami":

In [81]:
df_new = pd.concat([df, df_2], axis=0)
df_new.head()

Unnamed: 0,status,price,bed,bath,acre_lot,full_address,street,city,state,zip_code,...,parking,garageSpaces,hasGarage,levels,pool,spa,isNewConstruction,hasPetsAllowed,homeType,county
0,for_sale,105000.0,3.0,2.0,0.12,"Sector Yahuecas Titulo # V84, Adjuntas, PR, 00601",Sector Yahuecas Titulo # V84,Adjuntas,Puerto Rico,601.0,...,,,,,,,,,,
1,for_sale,80000.0,4.0,2.0,0.08,"Km 78 9 Carr # 135, Adjuntas, PR, 00601",Km 78 9 Carr # 135,Adjuntas,Puerto Rico,601.0,...,,,,,,,,,,
2,for_sale,67000.0,2.0,1.0,0.15,"556G 556-G 16 St, Juana Diaz, PR, 00795",556G 556-G 16 St,Juana Diaz,Puerto Rico,795.0,...,,,,,,,,,,
3,for_sale,145000.0,4.0,2.0,0.1,"R5 Comunidad El Paraso Calle De Oro R-5 Ponce,...",R5 Comunidad El Paraso Calle De Oro R-5 Ponce,Ponce,Puerto Rico,731.0,...,,,,,,,,,,
4,for_sale,65000.0,6.0,2.0,0.05,"14 Navarro, Mayaguez, PR, 00680",14 Navarro,Mayaguez,Puerto Rico,680.0,...,,,,,,,,,,


Vidíme, že u neexistujících sloupců v jednom z DataFrame byla chybějící data vyplněna hodnotou "NaN". Pokud chceme, aby ve vysledný DataFrame obsahoval jenom sloupce přitomné v obou datasetech, změníme vychozí nastavení parametru `join` na z `outer` na `inner`:

In [82]:
df_new = pd.concat([df, df_2], axis=0, join='inner')
df_new.head()

Unnamed: 0,price,city,state
0,105000.0,Adjuntas,Puerto Rico
1,80000.0,Adjuntas,Puerto Rico
2,67000.0,Juana Diaz,Puerto Rico
3,145000.0,Ponce,Puerto Rico
4,65000.0,Mayaguez,Puerto Rico


Musíme zkontrolovat, aby sloupce se stejnými daty se jmenovaly stejně.

In [83]:
print(df.columns)
print(df_2.columns)

Index(['status', 'price', 'bed', 'bath', 'acre_lot', 'full_address', 'street',
       'city', 'state', 'zip_code', 'house_size', 'sold_date', 'Year',
       'size_m2'],
      dtype='object')
Index(['Unnamed: 0', 'id', 'stateId', 'countyId', 'cityId', 'country',
       'datePostedString', 'is_bankOwned', 'is_forAuction', 'event', 'time',
       'price', 'pricePerSquareFoot', 'city', 'state', 'yearBuilt',
       'streetAddress', 'zipcode', 'longitude', 'latitude', 'hasBadGeocode',
       'description', 'currency', 'livingArea', 'livingAreaValue',
       'lotAreaUnits', 'bathrooms', 'bedrooms', 'buildingArea', 'parking',
       'garageSpaces', 'hasGarage', 'levels', 'pool', 'spa',
       'isNewConstruction', 'hasPetsAllowed', 'homeType', 'county'],
      dtype='object')


### Cvičení
Změňte názvy sloupců druhého DataFrame tak, aby odpovídaly prvnímu DataFrame. Pak datasety sjednoťte (s `inner`).

### Řešení

In [85]:
df_2.rename(columns={'bedrooms': 'bed', 
                    'bathrooms': 'bath', 
                    'streetAddress': 'street',
                    'zipcode': 'zip_code',
                    'buildingArea': 'house_size'}, inplace=True)

df_new = pd.concat([df, df_2], axis=0, join='inner')
df_new.head()

Unnamed: 0,price,bed,bath,street,city,state,zip_code,house_size
0,105000.0,3.0,2.0,Sector Yahuecas Titulo # V84,Adjuntas,Puerto Rico,601.0,920.0
1,80000.0,4.0,2.0,Km 78 9 Carr # 135,Adjuntas,Puerto Rico,601.0,1527.0
2,67000.0,2.0,1.0,556G 556-G 16 St,Juana Diaz,Puerto Rico,795.0,748.0
3,145000.0,4.0,2.0,R5 Comunidad El Paraso Calle De Oro R-5 Ponce,Ponce,Puerto Rico,731.0,1800.0
4,65000.0,6.0,2.0,14 Navarro,Mayaguez,Puerto Rico,680.0,
