In [1]:
import pandas as pd

### Tworzenie objectów

podstawowymi strukturami danych w pandas jest `DataFrame` i `Series`

Tworzenie `Series`:

In [3]:
s = pd.Series(['Apple', 'Pineapple', 'Banana'])
s

0        Apple
1    Pineapple
2       Banana
dtype: object

Tworzenie `DataFrame`:

In [134]:
suppliers = ['supplier1', 'supplier2', 'supplier2']

df = pd.DataFrame({'fruit': ['Apple', 'Pineapple', 'Banana'], 
                  'price': [2, 4, 3],
                  'supplier name': suppliers})

df

Unnamed: 0,fruit,price,supplier name
0,Apple,2,supplier1
1,Pineapple,4,supplier2
2,Banana,3,supplier2


### Indeksowanie i wyciąganie danych

`pandas` posiada przynajmniej 3 sposoby na wuciąganie danych.

* pythonowy
* iloc (pandasowy)
* loc (pandasowy)

##### Sposób 1

`DataFrame` implementuje pythonowy sposób odwoływania się do danych (czyli odłowujemy się jak do `dict`'a z `list`)
możemy to zrobić na 2 sposoby: 
* syntaksys `[]`
* syntaksys `df.column_name`

In [21]:
df['fruit']

0        Apple
1    Pineapple
2       Banana
Name: fruit, dtype: object

In [22]:
df.price

0    2
1    4
2    3
Name: price, dtype: int64

In [23]:
df.price[0]

2

In [None]:
pd#?? what should we use to get supplier name's

##### Sposób 2

`DataFrame` posiada swój, specyficzny dla pandas operator dostępu `iloc`. Odróźnia się od 'pythonowego' tym że traktuje `DataFrame` jak macierz czyli pierwszym indeksem wstazujemy numer wiersza a potem wybieramy z której kolumny wartość nas interesuje 

In [33]:
df.iloc[0:2, [0, 2]]

Unnamed: 0,fruit,supplier name
0,Apple,supplier1
1,Pineapple,supplier2


Zauważmy że iloc zwraca nam `Series` lub `DataFrame` w zależności od sposobu wybierania elementów (jeśli mamy tylko jeden wiersz dostajemy `Series` jeśli kila to `DataFrame`)

In [46]:
df.iloc[0:2]['fruit']

0        Apple
1    Pineapple
Name: fruit, dtype: object

In [48]:
df.iloc[1].price

4

##### Sposób 3

`DataFrame` posiada swój, specyficzny dla pandas operator dostępu `loc`. Jest to **label-based selection**, kreteria selekcji są wartości wpisane w kolumnie `index` i nazwy poszczególnych kolumn

In [93]:
df.loc[1:2, ['fruit', 'supplier name']]

Unnamed: 0,fruit,supplier name
1,Pineapple,supplier2
2,Banana,supplier2


##### Róźnica między `iloc` i `loc`

Oprócz oczewistej róźnicy między `iloc` i `loc` czyli możliwość wskazywania nazwy kolumny zamiast jej numeru. Jest jeszcze jedna ważna róźnica której nie zauważymy póki nie wejdziemy glębiej w patameter `index`.

In [49]:
df2 = df.copy()

In [98]:
df2_new_index = df2.set_index('supplier name')
df2_new_index

Unnamed: 0_level_0,fruit,price
supplier name,Unnamed: 1_level_1,Unnamed: 2_level_1
supplier1,Apple,2
supplier2,Pineapple,4
supplier2,Banana,3


In [103]:
df2_new_index.loc['supplier2']

Unnamed: 0_level_0,fruit,price
supplier name,Unnamed: 1_level_1,Unnamed: 2_level_1
supplier2,Pineapple,4
supplier2,Banana,3


In [106]:
df2_new_index.iloc[1]

fruit    Pineapple
price            4
Name: supplier2, dtype: object

### Sklejanie DataFrame

do 'sklejania' 2 `DataFrame` możemy użyć jedną z trzech funkcji:
* concat
* join
* merge

najbardziej użyteczną funkcją jest `concat` potrafi skleić wartości z `DataFrame`'ów według wskazanej osi (najczęściej doklejamy 2 datasety z tymi samymi kolumnami)

`join` potrafi połączyć elementy z jednakowymi indeksami, w tym przypadku do nazw kolumn lewego i prawego `DataFrame` dodawene są prefixy lub sufiksy

In [228]:
df2 = pd.DataFrame({'fruit': ['Apple', 'Pineapple', 'Banana'], 
                  'price': [12, 14, 13],
                  'supplier name': suppliers})

pd.concat([df, df2])

Unnamed: 0,fruit,price,supplier name
0,Apple,2,supplier1
1,Pineapple,4,supplier2
2,Banana,3,supplier2
3,Banana,4,supplier1
0,Apple,12,supplier1
1,Pineapple,14,supplier2
2,Banana,13,supplier2


### Index

pandas używa nieco innej konwencji co do indexu, tzn. nie powinien on być unikalny (jak właśnie to widać w poprzednim przykładzie).

Też wprowadzany jest tak zwany [multy index](https://pandas.pydata.org/pandas-docs/stable/user_guide/advanced.html), czyli każdy element jest identyfikowany przez kilka wartości stanowiące jego index (dziala to w przypadku `loc`) i tym nie zajmiemy się w najbliższym czasie bo nie będziemy tego potrzebowali w tym kursie (ale macie link do dokumentacji z przykładami :) )

In [151]:
df

Unnamed: 0,fruit,price,supplier name
0,Apple,2,supplier1
1,Pineapple,4,supplier2
2,Banana,3,supplier2
3,Banana,4,supplier1


In [149]:
df.index

RangeIndex(start=0, stop=4, step=1)

In [137]:
df_multi_index = df.set_index(['supplier name', 'fruit'])
df_multi_index

Unnamed: 0_level_0,Unnamed: 1_level_0,price
supplier name,fruit,Unnamed: 2_level_1
supplier1,Apple,2
supplier2,Pineapple,4
supplier2,Banana,3
supplier1,Banana,4


In [150]:
df_multi_index.index

MultiIndex([('supplier1',     'Apple'),
            ('supplier2', 'Pineapple'),
            ('supplier2',    'Banana'),
            ('supplier1',    'Banana')],
           names=['supplier name', 'fruit'])

In [147]:
df_multi_index.loc[('supplier2', 'Banana')]

price    3
Name: (supplier2, Banana), dtype: int64

In [146]:
df_multi_index.reset_index()

Unnamed: 0,supplier name,fruit,price
0,supplier1,Apple,2
1,supplier2,Pineapple,4
2,supplier2,Banana,3
3,supplier1,Banana,4


## Użyteczny `pandas`

W tym punkcie popatrzymy na funkcji które będziecie najczęściej używali pracując z `pandas`:

* czytanie csv(tsv), plików .xlsx, ...
* przetwarzanie danych w DataFrame
* grupowanie, sortowanie
* summary functions

In [174]:
housing_california = pd.read_csv('housing.csv')
housing_california

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity
0,-122.23,37.88,41.0,880.0,129.0,322.0,126.0,8.3252,452600.0,NEAR BAY
1,-122.22,37.86,21.0,7099.0,1106.0,2401.0,1138.0,8.3014,358500.0,NEAR BAY
2,-122.24,37.85,52.0,1467.0,190.0,496.0,177.0,7.2574,352100.0,NEAR BAY
3,-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,5.6431,341300.0,NEAR BAY
4,-122.25,37.85,52.0,1627.0,280.0,565.0,259.0,3.8462,342200.0,NEAR BAY
...,...,...,...,...,...,...,...,...,...,...
20635,-121.09,39.48,25.0,1665.0,374.0,845.0,330.0,1.5603,78100.0,INLAND
20636,-121.21,39.49,18.0,697.0,150.0,356.0,114.0,2.5568,77100.0,INLAND
20637,-121.22,39.43,17.0,2254.0,485.0,1007.0,433.0,1.7000,92300.0,INLAND
20638,-121.32,39.43,18.0,1860.0,409.0,741.0,349.0,1.8672,84700.0,INLAND


#### Funkcja `map`

Jest to metoda należąca do `Series`, czyli używamy jej kiedy chcemy powtórzyć operację na określonej kolumnie danych

In [175]:
income_scale = 10000

In [176]:
housing_california.median_income = \
housing_california.median_income.map(lambda i: i * income_scale)

housing_california

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity
0,-122.23,37.88,41.0,880.0,129.0,322.0,126.0,83252.0,452600.0,NEAR BAY
1,-122.22,37.86,21.0,7099.0,1106.0,2401.0,1138.0,83014.0,358500.0,NEAR BAY
2,-122.24,37.85,52.0,1467.0,190.0,496.0,177.0,72574.0,352100.0,NEAR BAY
3,-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,56431.0,341300.0,NEAR BAY
4,-122.25,37.85,52.0,1627.0,280.0,565.0,259.0,38462.0,342200.0,NEAR BAY
...,...,...,...,...,...,...,...,...,...,...
20635,-121.09,39.48,25.0,1665.0,374.0,845.0,330.0,15603.0,78100.0,INLAND
20636,-121.21,39.49,18.0,697.0,150.0,356.0,114.0,25568.0,77100.0,INLAND
20637,-121.22,39.43,17.0,2254.0,485.0,1007.0,433.0,17000.0,92300.0,INLAND
20638,-121.32,39.43,18.0,1860.0,409.0,741.0,349.0,18672.0,84700.0,INLAND


#### funkcja `describe`

funkcja opisuje dane :)
najlepiej sie nadaje do danych numerycznych, ale też potrafi zmienić swoje zachowanie dla innyh typów (więcej w dokumentacji)

In [177]:
housing_california.describe()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
count,20640.0,20640.0,20640.0,20640.0,20433.0,20640.0,20640.0,20640.0,20640.0
mean,-119.569704,35.631861,28.639486,2635.763081,537.870553,1425.476744,499.53968,38706.710029,206855.816909
std,2.003532,2.135952,12.585558,2181.615252,421.38507,1132.462122,382.329753,18998.217179,115395.615874
min,-124.35,32.54,1.0,2.0,1.0,3.0,1.0,4999.0,14999.0
25%,-121.8,33.93,18.0,1447.75,296.0,787.0,280.0,25634.0,119600.0
50%,-118.49,34.26,29.0,2127.0,435.0,1166.0,409.0,35348.0,179700.0
75%,-118.01,37.71,37.0,3148.0,647.0,1725.0,605.0,47432.5,264725.0
max,-114.31,41.95,52.0,39320.0,6445.0,35682.0,6082.0,150001.0,500001.0


#### Inne funkcji `unique`, `mean`, `max`, `min`, ect

In [180]:
housing_california.ocean_proximity.unique()

array(['NEAR BAY', '<1H OCEAN', 'INLAND', 'NEAR OCEAN', 'ISLAND'],
      dtype=object)

In [181]:
housing_california.housing_median_age.mean()

28.639486434108527

##### Funkcja `apply`

Jest analogiczna do funkcji `map` tylko należy do `DataFrame` czyli móżemy jej użyć na wszystkich wierszach/columnach


In [193]:
def add_total_guest_bedrooms(row):
    num_families = row.households / 3
    allocated_rooms = int(num_families*2)
    
    total_guest_bedrooms = max(0, 
                        row['total_bedrooms'] - allocated_rooms)
    
    s = pd.Series([total_guest_bedrooms], 
                  index=['total_guest_bedrooms'])
    
    
    return row.append(s)

In [194]:
housing_california.apply(add_total_guest_bedrooms, axis='columns')

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity,total_guest_bedrooms
0,-122.23,37.88,41.0,880.0,129.0,322.0,126.0,83252.0,452600.0,NEAR BAY,45.0
1,-122.22,37.86,21.0,7099.0,1106.0,2401.0,1138.0,83014.0,358500.0,NEAR BAY,348.0
2,-122.24,37.85,52.0,1467.0,190.0,496.0,177.0,72574.0,352100.0,NEAR BAY,72.0
3,-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,56431.0,341300.0,NEAR BAY,89.0
4,-122.25,37.85,52.0,1627.0,280.0,565.0,259.0,38462.0,342200.0,NEAR BAY,108.0
...,...,...,...,...,...,...,...,...,...,...,...
20635,-121.09,39.48,25.0,1665.0,374.0,845.0,330.0,15603.0,78100.0,INLAND,154.0
20636,-121.21,39.49,18.0,697.0,150.0,356.0,114.0,25568.0,77100.0,INLAND,74.0
20637,-121.22,39.43,17.0,2254.0,485.0,1007.0,433.0,17000.0,92300.0,INLAND,197.0
20638,-121.32,39.43,18.0,1860.0,409.0,741.0,349.0,18672.0,84700.0,INLAND,177.0


##### integracja z numpy

In [210]:
import numpy as np
# przyklad trochę bez sensu ale cóź 🤷‍
housing_california.iloc[:, :-1].apply(np.sum, axis='columns') 

0        537265.65
1        453194.64
2        426971.61
3        399984.60
4        383360.60
           ...    
20635     96860.39
20636    103921.28
20637    113414.21
20638    106667.11
20639    118538.13
Length: 20640, dtype: float64

In [204]:
description = housing_california.groupby('ocean_proximity')\
              .median_house_value.describe()
description

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
ocean_proximity,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
<1H OCEAN,9136.0,240084.285464,106124.292213,17500.0,164100.0,214850.0,289100.0,500001.0
INLAND,6551.0,124805.392001,70007.908494,14999.0,77500.0,108500.0,148950.0,500001.0
ISLAND,5.0,380440.0,80559.561816,287500.0,300000.0,414700.0,450000.0,450000.0
NEAR BAY,2290.0,259212.31179,122818.537064,22500.0,162500.0,233800.0,345700.0,500001.0
NEAR OCEAN,2658.0,249433.977427,122477.145927,22500.0,150000.0,229450.0,322750.0,500001.0


In [203]:
description.sort_values(by='mean', ascending=False)

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
ocean_proximity,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
ISLAND,5.0,380440.0,80559.561816,287500.0,300000.0,414700.0,450000.0,450000.0
NEAR BAY,2290.0,259212.31179,122818.537064,22500.0,162500.0,233800.0,345700.0,500001.0
NEAR OCEAN,2658.0,249433.977427,122477.145927,22500.0,150000.0,229450.0,322750.0,500001.0
<1H OCEAN,9136.0,240084.285464,106124.292213,17500.0,164100.0,214850.0,289100.0,500001.0
INLAND,6551.0,124805.392001,70007.908494,14999.0,77500.0,108500.0,148950.0,500001.0


### Operacje arytmetyczne i przypisania

operację te dzialają podobnie do `numpy` czyli potrawią broadcastować się w zależności od rozmiaru danych 

In [211]:
housing_california.population >= housing_california.population.mean()

0        False
1         True
2        False
3        False
4        False
         ...  
20635    False
20636    False
20637    False
20638    False
20639    False
Name: population, Length: 20640, dtype: bool

In [212]:
housing_california.population + 20

0         342.0
1        2421.0
2         516.0
3         578.0
4         585.0
          ...  
20635     865.0
20636     376.0
20637    1027.0
20638     761.0
20639    1407.0
Name: population, Length: 20640, dtype: float64

In [215]:
housing_california.population.head(5)

0     322.0
1    2401.0
2     496.0
3     558.0
4     565.0
Name: population, dtype: float64

### Selekcja na podstawie wartości

In [227]:
housing_california.loc[((housing_california.population <= housing_california.population.mean()) | 
                        housing_california.median_house_value <= 162500) &
                       housing_california.ocean_proximity.str.contains('NEAR BAY')]

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity
0,-122.23,37.88,41.0,880.0,129.0,322.0,126.0,83252.0,452600.0,NEAR BAY
1,-122.22,37.86,21.0,7099.0,1106.0,2401.0,1138.0,83014.0,358500.0,NEAR BAY
2,-122.24,37.85,52.0,1467.0,190.0,496.0,177.0,72574.0,352100.0,NEAR BAY
3,-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,56431.0,341300.0,NEAR BAY
4,-122.25,37.85,52.0,1627.0,280.0,565.0,259.0,38462.0,342200.0,NEAR BAY
...,...,...,...,...,...,...,...,...,...,...
19067,-122.45,38.28,20.0,3306.0,503.0,1374.0,460.0,57984.0,297600.0,NEAR BAY
19068,-122.47,38.29,14.0,3732.0,846.0,1277.0,775.0,25658.0,208000.0,NEAR BAY
19069,-122.45,38.27,25.0,5024.0,881.0,1994.0,838.0,42237.0,262300.0,NEAR BAY
19077,-122.49,38.27,8.0,5092.0,988.0,1657.0,936.0,35625.0,213200.0,NEAR BAY


#### materiały dodatkowe

gorąco polecam kurs na kaggle.com: https://www.kaggle.com/learn/pandas
także polecam googlowanie :) 