# Pandas


Pandas jest podstawowym pakietem pythona do przechowywania i obsługi zbiorów danych. Pandas jest szybki i bardzo, bardzo rozbudowany. Liczba funkcji pandas jest tak duża, że nie sposób opisać ich wszystkich w ramach niniejszego kursu. Naszym celem będzie, więc przybliżenie możliwości tego pakietu, zapoznanie się w stopniu umożliwiającym dalsze samodzielne zgłębianie jego możliwości. 

W tym notatniku wprowadzimy sobie jedynie podstawy pandas, żeby się z nim wstępnie zapoznać. Lepiej poznajemy jego możliwości w następnych notatnikach na przykładowych zbiorach danych. 


Tutoriale pozwalające poznać pandas lepiej:
* https://pandas.pydata.org/pandas-docs/stable/getting_started/tutorials.html
* [i oczywiście dokumentacja](https://pandas.pydata.org/pandas-docs/stable/index.html)


W tej lekcji, na potrzeby wprowadzenia wykorzystamy proste zbiory danych dostępne w pakiecie statsmodel (jeżeli nastepna komórka nei wywołuje się poprawnie, prawdopodobnie brakuje nam pakietu statsmodels i powinniśmy go zaintalować).

https://www.statsmodels.org/stable/install.html


In [3]:
pip install statsmodels

Collecting statsmodels
  Downloading statsmodels-0.14.0-cp310-cp310-macosx_10_9_x86_64.whl (9.9 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m9.9/9.9 MB[0m [31m1.4 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
[?25hCollecting patsy>=0.5.2
  Downloading patsy-0.5.3-py2.py3-none-any.whl (233 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m233.8/233.8 kB[0m [31m1.3 MB/s[0m eta [36m0:00:00[0ma [36m0:00:01[0m
Installing collected packages: patsy, statsmodels
Successfully installed patsy-0.5.3 statsmodels-0.14.0

[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip available: [0m[31;49m22.2.2[0m[39;49m -> [0m[32;49m23.3.1[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip3 install --upgrade pip[0m
Note: you may need to restart the kernel to use updated packages.


In [4]:
import pandas as pd
import numpy as np
import statsmodels.api as sm

## Pandas Series
Podstawowe typy danych to DataFrame, które składa się z Series. W czym różni się Series od NumPy arrays? To index, którego możemy dowolnie definiować

In [5]:
data = pd.Series([0.25, 0.5, 0.75, 1.0])

In [6]:
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

In [7]:
print(data.values)
print(data.index)

[0.25 0.5  0.75 1.  ]
RangeIndex(start=0, stop=4, step=1)


In [8]:
#pd.Series(data, index=index)

data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=[2, 5, 3, 7])
data

2    0.25
5    0.50
3    0.75
7    1.00
dtype: float64

In [9]:
data[3]

0.75

In [10]:
data.keys()

Int64Index([2, 5, 3, 7], dtype='int64')

In [11]:
data['a']=1.5

In [12]:
data

2    0.25
5    0.50
3    0.75
7    1.00
a    1.50
dtype: float64

#### Series z słownika

In [13]:
population_dict = {'California': 38332521, 'Texas': 26448193, 'New York': 19651127, 
                   'Florida': 19552860, 'Illinois': 12882135}

population = pd.Series(population_dict)

population

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

In [14]:
population['Florida']

19552860

In [15]:
population.shape

(5,)

## Pandas DataFrame

### Tworzenie dataframe'ów

Najbezpiecznieszym sposobem tworzenia obiektów DataFrame jest słownik. Wiemy, co przypisujemy do której kolumny, wszystko jest w jednym poleceniu. Metod jest jednak znacznie więcej.

In [16]:
df=pd.DataFrame()

In [17]:
df.shape

(0, 0)

In [18]:
df=pd.DataFrame([{'a': 1, 'b': 2, 'c':1}, {'a':2, 'b': 3, 'c': 4}])

In [19]:
df

Unnamed: 0,a,b,c
0,1,2,1
1,2,3,4


In [20]:
df.shape

(2, 3)

In [None]:
#df[0]

In [21]:
pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}])

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,4.0


In [22]:
rng = np.random.default_rng(1)  # seed
random_integers = rng.integers(5, size=100)
random_floats = rng.uniform(size=100)
random_cars = rng.choice(['ferrari', 'mercedes', 'alfa romeo', 'renault'], size=100)

In [23]:
random_cars

array(['ferrari', 'renault', 'mercedes', 'mercedes', 'alfa romeo',
       'mercedes', 'alfa romeo', 'renault', 'renault', 'ferrari',
       'renault', 'alfa romeo', 'alfa romeo', 'ferrari', 'renault',
       'mercedes', 'renault', 'ferrari', 'ferrari', 'renault',
       'alfa romeo', 'mercedes', 'renault', 'renault', 'ferrari',
       'alfa romeo', 'renault', 'alfa romeo', 'alfa romeo', 'alfa romeo',
       'alfa romeo', 'mercedes', 'ferrari', 'mercedes', 'alfa romeo',
       'renault', 'renault', 'ferrari', 'ferrari', 'renault',
       'alfa romeo', 'renault', 'renault', 'mercedes', 'renault',
       'alfa romeo', 'alfa romeo', 'mercedes', 'mercedes', 'mercedes',
       'alfa romeo', 'alfa romeo', 'ferrari', 'ferrari', 'ferrari',
       'mercedes', 'alfa romeo', 'renault', 'renault', 'mercedes',
       'alfa romeo', 'alfa romeo', 'renault', 'mercedes', 'alfa romeo',
       'ferrari', 'mercedes', 'renault', 'mercedes', 'ferrari', 'renault',
       'mercedes', 'mercedes', 'renault', 'me

In [24]:
df = pd.DataFrame({'ints': random_integers, 'floats': random_floats, 'car': random_cars})

In [25]:
df

Unnamed: 0,ints,floats,car
0,2,0.683287,ferrari
1,2,0.787097,renault
2,3,0.191616,mercedes
3,4,0.802364,mercedes
4,0,0.191324,alfa romeo
...,...,...,...
95,3,0.785085,mercedes
96,0,0.295006,renault
97,0,0.768772,ferrari
98,2,0.525630,mercedes


In [None]:
df2 = pd.DataFrame([random_integers, random_floats, random_cars]).T
df2.columns = ['ints', 'floats', 'car']
df3 = pd.DataFrame([random_integers, random_floats, random_cars], index=['ints', 'floats', 'car']).T
df4 = pd.DataFrame(zip(random_integers, random_floats, random_cars), columns=['ints', 'floats', 'car'])

In [None]:
pd.DataFrame([random_integers, random_floats, random_cars], index=['ints', 'floats', 'car']).T

### Zadanie

Stwórz dataframe na podstawie trzech poniższych list. 

Nazwij kolumny odpowiednio: 'liczby 10-100', 'samochody', 'liczby małe'.




In [26]:
lista1=list(range(10, 110, 10))
lista2=list(rng.choice(['ferrari', 'mercedes', 'alfa romeo', 'renault'], size=10))
lista3=list(rng.uniform(size=10))

In [27]:
df = pd.DataFrame({'liczby 10-100' : lista1, 'samochody' : lista2, 'liczby małe' : lista3})

In [28]:
df

Unnamed: 0,liczby 10-100,samochody,liczby małe
0,10,ferrari,0.732361
1,20,alfa romeo,0.601823
2,30,ferrari,0.287616
3,40,mercedes,0.78276
4,50,alfa romeo,0.251268
5,60,renault,0.075211
6,70,alfa romeo,0.962865
7,80,alfa romeo,0.540011
8,90,mercedes,0.773894
9,100,renault,0.529223


### Indeks oraz indeksowanie elementów


Istnieją dwa podstawowe sposoby adresowania elementów w pandas. Na podstawie pozycji (.iloc) oraz etykietu indeksu (.loc)

In [29]:
df = pd.DataFrame({'ints': random_integers, 'floats': random_floats, 'car': random_cars}, index=range(2,102))

In [30]:
df

Unnamed: 0,ints,floats,car
2,2,0.683287,ferrari
3,2,0.787097,renault
4,3,0.191616,mercedes
5,4,0.802364,mercedes
6,0,0.191324,alfa romeo
...,...,...,...
97,3,0.785085,mercedes
98,0,0.295006,renault
99,0,0.768772,ferrari
100,2,0.525630,mercedes


In [None]:
df.head()

In [None]:
df.tail()

In [31]:
df.columns

Index(['ints', 'floats', 'car'], dtype='object')

In [32]:
df['ints']

2      2
3      2
4      3
5      4
6      0
      ..
97     3
98     0
99     0
100    2
101    4
Name: ints, Length: 100, dtype: int64

In [None]:
df

In [None]:
df.head()

In [33]:
df.iloc[2] ##to jest 2. row

ints             3
floats    0.191616
car       mercedes
Name: 4, dtype: object

In [34]:
df.loc[2] ## to jest row z indeksem 2

ints             2
floats    0.683287
car        ferrari
Name: 2, dtype: object

In [35]:
df.iloc[3:5] # rows 3. i 4.

Unnamed: 0,ints,floats,car
5,4,0.802364,mercedes
6,0,0.191324,alfa romeo


In [36]:
df.loc[3:5] #rows z indeksem 3, 4 oraz 5

Unnamed: 0,ints,floats,car
3,2,0.787097,renault
4,3,0.191616,mercedes
5,4,0.802364,mercedes


Częstym przypadkiem jest, że musimy indeks "zresesotować" - czyli wrócić do numeracji od 0

In [37]:
df

Unnamed: 0,ints,floats,car
2,2,0.683287,ferrari
3,2,0.787097,renault
4,3,0.191616,mercedes
5,4,0.802364,mercedes
6,0,0.191324,alfa romeo
...,...,...,...
97,3,0.785085,mercedes
98,0,0.295006,renault
99,0,0.768772,ferrari
100,2,0.525630,mercedes


In [38]:
df.reset_index()

Unnamed: 0,index,ints,floats,car
0,2,2,0.683287,ferrari
1,3,2,0.787097,renault
2,4,3,0.191616,mercedes
3,5,4,0.802364,mercedes
4,6,0,0.191324,alfa romeo
...,...,...,...,...
95,97,3,0.785085,mercedes
96,98,0,0.295006,renault
97,99,0,0.768772,ferrari
98,100,2,0.525630,mercedes


In [39]:
df.reset_index(drop=True, inplace=True)

In [40]:
df

Unnamed: 0,ints,floats,car
0,2,0.683287,ferrari
1,2,0.787097,renault
2,3,0.191616,mercedes
3,4,0.802364,mercedes
4,0,0.191324,alfa romeo
...,...,...,...
95,3,0.785085,mercedes
96,0,0.295006,renault
97,0,0.768772,ferrari
98,2,0.525630,mercedes


In [None]:
df=df.reset_index(drop=True)

In [None]:
df

In [None]:
df = pd.DataFrame({'ints': random_integers, 'floats': random_floats, 'car': random_cars}, index=range(2,102))

### Zadanie
1. Wyświetl 99. wiersz 
2. Wyświetl wiersz z indeksem 99
3. Wyświetl wiersze na pozycji 96-99
4. Wyświetl wiersze z indeksem 96-99

### Wyświetlanie DataFrame

In [41]:
data = sm.datasets.fair.load_pandas()
data.keys()
df=data.data

In [42]:
data.keys()

dict_keys(['data', 'names', 'endog', 'exog', 'endog_name', 'exog_name', 'raw_data'])

In [43]:
df=data.data

In [44]:
df.head()

Unnamed: 0,rate_marriage,age,yrs_married,children,religious,educ,occupation,occupation_husb,affairs
0,3.0,32.0,9.0,3.0,3.0,17.0,2.0,5.0,0.111111
1,3.0,27.0,13.0,3.0,1.0,14.0,3.0,4.0,3.230769
2,4.0,22.0,2.5,0.0,1.0,16.0,3.0,5.0,1.4
3,4.0,37.0,16.5,4.0,3.0,16.0,5.0,5.0,0.727273
4,5.0,27.0,9.0,1.0,1.0,14.0,3.0,4.0,4.666666


In [45]:
df[:10]

Unnamed: 0,rate_marriage,age,yrs_married,children,religious,educ,occupation,occupation_husb,affairs
0,3.0,32.0,9.0,3.0,3.0,17.0,2.0,5.0,0.111111
1,3.0,27.0,13.0,3.0,1.0,14.0,3.0,4.0,3.230769
2,4.0,22.0,2.5,0.0,1.0,16.0,3.0,5.0,1.4
3,4.0,37.0,16.5,4.0,3.0,16.0,5.0,5.0,0.727273
4,5.0,27.0,9.0,1.0,1.0,14.0,3.0,4.0,4.666666
5,4.0,27.0,9.0,0.0,2.0,14.0,3.0,4.0,4.666666
6,5.0,37.0,23.0,5.5,2.0,12.0,5.0,4.0,0.852174
7,5.0,37.0,23.0,5.5,2.0,12.0,2.0,3.0,1.826086
8,3.0,22.0,2.5,0.0,2.0,12.0,3.0,3.0,4.799999
9,3.0,27.0,6.0,0.0,1.0,16.0,3.0,5.0,1.333333


In [None]:
print (df.dtypes)

In [None]:
print(df)

Jak widać kiedy uzyjemy funkcji print, output w notebooku nie wygląda najlepiej. Tymczasem, jeżeli notebook użyje swojej domyślnej funkcji tabela jest ładnie sformatowana. Nie zawsze jednak będziemy chcieli przyglądać się naszej tabelki w ostatnim wierszu komórki. Zamiast Pythonowego print, możemy wykorzystać notebookowy display.

In [None]:
display(df)

In [None]:
print(df['age'].head())
print(df.age.head())
print(df.age.values[0:5])
print(type(df.age.values))

In [None]:
df['age']  #pandas series

In [None]:
df[['age']]  #pandas dataframe

In [None]:
df[['age', 'rate_marriage']]  #wybrane kolumny

Korzystając z nazw kolumn możemy łatwo tworzyć nowe widoki istniejącego DataFrame'a lub tworzyć częściowe kopie. Niestety nie zawsze jest to oczywiste, czy nowa zmienna będzie kopią czy tylko referencją. W większości przypadków będzie to jednak kopia.

In [None]:
# Utworzenie kopii.
fExo = df['age'].copy()
fExo2 = df['age']



In [None]:
df['age'].head()

In [None]:

print('czy fExo jest tylko referencją: ', fExo._is_view)
fExo[0]=2

print('po zmianie wartości w fExo')
print(df['age'])

print('czy fExo2 jest tylko referencją:', fExo2._is_view)
fExo2[0]=3
print('po zmianie wartości w fExo2')
print(df['age'])


Zwykle pierwszym krokiem jest wstępna analiza posiadanych danych. Oczywiście możemy sobie narysować histogram (na wykresach skupimy się w innej części kursu), ale możemy również wyświetlić numeryczny opis danych. Wszystkie funkcje, które są zaimplementowane w numpy są również dostępne w pandas.
* Lista funkcji opisowych: http://pandas.pydata.org/pandas-docs/stable/api.html#api-dataframe-stats

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.describe.html

In [None]:
print("Podstawowe charakterystki: \n", df.age.describe())

In [None]:
df.loc[16:20]

In [None]:
df['age'].loc[16:20]

In [None]:
df['age'].loc[16:20].values

#### Zadanie

1. Wyświetl wiersze w df z indeksem 3-6
2. Wyświetl kolumny df: age, yrs_married, occupation
3. Wyświetl wartośći kolumny 'rate_marriage', wiersze 16-20 

### Modyfikowanie zawartości
Zawartość naszej serii lub df możemy modyfikować na wiele sposobów. Zacznijmy od utworzenia nowej kolumny z kwadratem wieku. Wszystkie podane poniżej sposoby pozwolą uzyskać ten sam efekt. Zwróćmy uwagę, że przy przypisaniu wartości do kolumny df musimy korzystać z operatora nazwy kolumny (nie nazwy po kropce).

In [None]:
df["age2"] = df["age"]*df["age"]
df["age2"] = df["age"]**2
df["age2"] = df["age"].apply(lambda x: x**2)
df["age2"] = np.power(df["age"].values, 2)
df["age2"] = [x**2 for x in df["age"].values]
df.head(3)

In [None]:
np.power(df["age"].values, 2)

#### Zadanie

1. Stwórz nową kolumną z "children": niech nowe wartości = (children X 2 - 5)
2.  Stwórz nową kolumną z "children" oraz "age": niech nowe wartości = (children X age)


### Indeksowanie elementów

In [None]:
import random
rainbow = ['red', 'orange', 'yellow', 'green', 'blue', 'indigo', 'violet']
df["favColor"] = [random.choice(rainbow) for x in df.index.values]
df.head(5)

In [None]:
print(df.shape)
print("Zachowywanie indeksów czerwonych wierszy.")
redRows = df.favColor=="red"

In [None]:
redRows

In [None]:
print(df.loc[redRows].shape)
print(df.loc[df['favColor']=="red"].shape)
print(df.loc[df.favColor=="red"].shape)

In [None]:
df.loc[redRows]

In [None]:
display(df.loc[df.favColor.isin(['red','orange'])].head(5))


In [None]:
display(df.loc[(df['favColor']=='red') | (df['favColor']=='orange')]) ##LUB

https://stackoverflow.com/questions/48409128/what-is-the-difference-between-using-loc-and-using-just-square-brackets-to-filte

In [None]:
print("Wybieranie wierszy czerwoncyh lub pomarańczowych")
display(df.loc[df.favColor.isin(['red','orange'])].head(5))

print("Wybieranie młodych czerwonych wierszy")
display(df.loc[(df.favColor=="red") & (df.age<=25)].head(5))
display(df[(df.favColor=="red") & (df.age<=25)].head(5))
%timeit df.loc[(df.favColor=="red") & (df.age<=25)]
%timeit df[(df.favColor=="red") & (df.age<=25)]

### Indeksowanie z modyfikacją
Jak widać na ostatnim z powyższych przykładóœ, .loc nie jest niezbędne. Kiedy wybieramy wiersze w celu ich wyświetlenia. Jednak kiedy będziemy chcieli zmienić zawartość df, ta metoda jest jest konieczna.

In [None]:
df.loc[df.favColor=="blue"]

In [None]:
df.loc[df.favColor=="red", "favColor"]="reddish"
df.head(20)
# Ten kod nie zadziała:
# df[df.favColor=="red", "favColor"]="reddish"

In [None]:
#poniższy kod wykona się, efekt będzie zgodny z oczekiwaniem, ale pandas wyrzuci ostrzeżenie.
df.favColor.loc[df.favColor=="reddish"]="red"
df.head(10)

#### Zadanie

1.  Wybierz wiersze z df, w którym kolor = violet
2. Wybierz wiersze z df, w którym kolor to violet oraz occupation >3
3. Wybierz wiersze z df, w którym kolor = green LUB kolor = blue




### Grupowanie
Grupowanie, o czym świadczyć może popularnośc tabel krzyżowych w excelu, przydaje się bardzo często. Przyjrzyjmy się przykładom.

In [None]:
df

In [None]:
df.groupby(['favColor'])['age'].count()

In [None]:
#Pogrupowane wiersze możemy zapisać jako osobną zmienną.
colorGroups = df.groupby(['favColor'])
# Możemy wyświetlić lub wykorzystać w całości jedną z grup.
display(colorGroups.get_group("blue").head(5))
display(colorGroups.get_group("blue")['educ'].head(5))
# Możemy policzyć dowolną funkcję na pogrupowanych wartościach.
display(colorGroups.count())
display(colorGroups.mean())
display(df.groupby(['favColor'])['rate_marriage'].count())

In [None]:
display(df.groupby(['favColor'])['rate_marriage'].count())

In [None]:
display(colorGroups['rate_marriage'].count())

Wykorzystując funkcję agg() możemy mieć nad naszymi tabelami zdecydowanie większą kontrolę. Możemy dowolnie ustalać to na jakich kolumnach chcemy dokonywać obliczeń i jakich funkcji użyć.

In [None]:
print("Podstawowe agregowanie")
display(colorGroups.agg({'educ':'sum', 'yrs_married': 'mean'}))

print("Agregowanie z wykorzystaniem funkcji numpy lub lambda")
display(colorGroups.agg({'educ':np.mean, 'yrs_married': lambda x: np.sqrt(x).sum()}))

print("Agregowanie z wieloma statystykami dla jednej kolumny")
df.groupby(['favColor']).agg({'educ':[np.mean, 'sum', np.std], 'yrs_married': 'mean'})

#### Zadanie

1. Policz liczbę obserwacji dla każdej grupy wiekowej (age)
2. Wyświetl liczbę obserwacji oraz średnią dla yrs_married dla każdej grupy wiekowej (age)




## Łączenie DataFrame'ów
O łączeniu datafram'ów ze sobą można w skrócie powiedzieć, że pandas obsługuje wszystkie możliwe łączenia. Na tym etapie kursu spojrzymy na proste łączenia w pionie i poziomie, a do bardziej zaawansowanych joinów wskażemy wyłącznie dokumentację. Wrócimy do nich w dalszej części kursu na innych zbiorach danych.
* http://pandas.pydata.org/pandas-docs/stable/merging.html

In [None]:
df = pd.DataFrame(columns=['A','B'])
df["A"] = np.arange(4)
df["B"] = np.arange(4)
display(df)
print("Sklejanie w poziomie")
display(pd.concat((df, df), axis=1))
print("Sklejanie w pionie")
display(pd.concat((df, df), axis=0))
print("Sklejanie w pionie z reindeksowaniem:")
display(pd.concat((df, df), axis=0, ignore_index=True))