# Programowanie w Python
Autor dr Aneta Polewko-Klim

## Pandas wstęp
Homepage -http://pandas.pydata.org/  
DataCamp web https://www.datacamp.com/community/tutorials/pandas-tutorial-dataframe-python 

**Additional tutorials**

http://www.shanelynn.ie/summarising-aggregation-and-grouping-data-in-python-pandas/  


### Import niezbędnych bibliotek

In [1]:
import pandas as pd  # biblioteka do obsługi danych w formie tabelarycznej/ramek danych
import numpy as np   # biblioteka do obsługi danych w macierzy, wektorów, tablic
import os  # biblioteka do obsługi plików i folderów


In [None]:
from google.colab import drive
drive.mount('/content/drive')    # podłączenie zasobów z dysku Google

In [None]:
import os
import pandas as pd
folder_path = '/content/drive/MyDrive/Colab Notebooks/dataset/'
data = pd.read_excel(os.path.join(folder_path, 'titanic_train.xlsx'))
data.shape

###  Tworzenie ramek danych

In [1]:
dr = pd.date_range('1/6/2019', periods=6)  # wektor/kolumna, generowanie wektora z dat, przedział = liczba miesięcy 
dr

NameError: name 'pd' is not defined

In [3]:
s = pd.Series(np.random.randn(5), index=['A', 'B', 'C', 'D', 'E'])  # kolumna + nazwy wierszy (wartości są losowane)
s

A    1.572351
B    1.428593
C   -1.093230
D   -0.596045
E   -0.554090
dtype: float64

In [4]:
# tworzymy ramkę danych na podstawie zmiennej dr, zwróć uwagę na rozmiary
df = pd.DataFrame(np.random.randn(6, 3), index=dr, columns=['A', 'B', 'C'])   
df

Unnamed: 0,A,B,C
2019-01-06,1.203399,-1.115429,0.928734
2019-01-07,-1.593107,0.658366,-0.044566
2019-01-08,-2.456299,1.48017,-1.09451
2019-01-09,-0.759152,0.400919,1.39001
2019-01-10,0.131881,0.059754,0.343362
2019-01-11,-1.18257,0.336029,0.58349


In [5]:
# tworzymy ramkę danych na podstawie zmiennej dr, zwróć uwagę na rozmiary
zawartosc = np.random.randn(6, 3)
df2 = pd.DataFrame(zawartosc, index=dr, columns=['A', 'B', 'C'])   
df2

Unnamed: 0,A,B,C
2019-01-06,-0.709943,-0.077546,0.311425
2019-01-07,0.735457,1.272386,-0.204665
2019-01-08,1.096554,-0.769206,-0.175039
2019-01-09,-0.35579,0.960885,0.347111
2019-01-10,1.47872,-0.222571,2.311598
2019-01-11,-0.067699,-1.03299,1.239945


In [6]:

# tworzenie wielowymiarowych ramek danych tu "kostka 3D o wymiarach 2x5x4"

import xarray as xr
ds = xr.Dataset({"foo": (("x", "y"), np.random.randn(2, 3))},
                coords={
                    "x": [10, 20],
                    "y": ["a", "b", "c"], 
                    "along_x": ("x", np.random.randn(2)),
                    "scalar": 123,
},)

df = ds.to_dataframe()
df
# print(pd.__version__)
# print(np.__version__)

Unnamed: 0_level_0,Unnamed: 1_level_0,foo,along_x,scalar
x,y,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
10,a,-0.318198,0.645284,123
10,b,1.53277,0.645284,123
10,c,-0.815312,0.645284,123
20,a,-0.55871,0.890856,123
20,b,-0.99663,0.890856,123
20,c,-0.0825,0.890856,123


### Tworzymy przykładową ramkę danych

In [7]:
dictionary = {'one':[1,10,100,1000,10000],
     'two':[2,20,200,2000,2000],
     'price':['prod1','prod3','prod2','prod1','prod2']}  # wykorzystamy słownik do utworzenia odpowiedniej struktury
dictionary

{'one': [1, 10, 100, 1000, 10000],
 'price': ['prod1', 'prod3', 'prod2', 'prod1', 'prod2'],
 'two': [2, 20, 200, 2000, 2000]}

In [39]:
dfs = pd.DataFrame(dictionary)   # tworzymy ramkę danych wg. nazwaObietu = nazwaBiblioteki.nazwaFunkcji(argumentMetody)
dfs

Unnamed: 0,one,two,price
0,1,2,prod1
1,10,20,prod3
2,100,200,prod2
3,1000,2000,prod1
4,10000,2000,prod2


In [40]:
type(dfs)  # informacje o obiekcie

pandas.core.frame.DataFrame

In [10]:
dfs.head(2)  # pokazuje 2 pierwsze wiersze tabeli

Unnamed: 0,one,two,price
0,1,2,prod1
1,10,20,prod3


In [41]:
dfs.head

<bound method NDFrame.head of      one   two  price
0      1     2  prod1
1     10    20  prod3
2    100   200  prod2
3   1000  2000  prod1
4  10000  2000  prod2>

In [12]:
dfs.tail(3)  # pokazuje 3 końcowe wiersze tabeli

Unnamed: 0,one,two,price
2,100,200,prod2
3,1000,2000,prod1
4,10000,2000,prod2


In [13]:
dfs.info() # podstawowe informacje o danych

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   one     5 non-null      int64 
 1   two     5 non-null      int64 
 2   price   5 non-null      object
dtypes: int64(2), object(1)
memory usage: 248.0+ bytes


In [14]:
dfs.shape  # liczba wierszy i liczba kolumn

(5, 3)

In [15]:
dfs.columns # wyswietla nazwy kolumn tabeli

Index(['one', 'two', 'price'], dtype='object')

In [16]:
dfs['price'].value_counts()  # zliczamy ilość elementów o tych samych wartościach z kolumny 'price'

prod1    2
prod2    2
prod3    1
Name: price, dtype: int64

In [17]:
z = dfs['price']
z
#z.value_counts()

0    prod1
1    prod3
2    prod2
3    prod1
4    prod2
Name: price, dtype: object

In [18]:
dfs[['price', 'one']] # ograniczenie zbioru do wybranych nazw kolumn 'price', 'one' z tabeli

Unnamed: 0,price,one
0,prod1,1
1,prod3,10
2,prod2,100
3,prod1,1000
4,prod2,10000


In [19]:
dfs[0:3] # selekcja wybranych wierszy tabeli data np: 0,1,2

Unnamed: 0,one,two,price
0,1,2,prod1
1,10,20,prod3
2,100,200,prod2


## Metoda: groupby
##### metoda grupuje dane tabelaryczne względem kolumny, na wyodrębnionych w ten sposób podgrupach/podzbiorach wykonuje rónocześnie zadeklarowaną operację

In [42]:
dfPrice = dfs.groupby('price')  # grupujemy dane po kolumnie z nagłówkiem 'price'

In [43]:
dfPrice.ngroups  # sprawdzenie liczby utworzonych podzbiorów <=> liczba kategorii w kolumnie 'price'

3

In [44]:
dfPrice.groups  # podstawowe informacje o typach danych wewnątrz ramki danych

{'prod1': [0, 3], 'prod2': [2, 4], 'prod3': [1]}

In [23]:
dfPrice.get_group('prod1') # wydzielenie podzbioru danych 'prod1'

Unnamed: 0,one,two,price
0,1,2,prod1
3,1000,2000,prod1


In [24]:
dfPrice.describe()  # tabela podstawowych statystych dla poszczególnych podzbiorów

Unnamed: 0_level_0,one,one,one,one,one,one,one,one,two,two,two,two,two,two,two,two
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,std,min,25%,50%,75%,max
price,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2
prod1,2.0,500.5,706.399674,1.0,250.75,500.5,750.25,1000.0,2.0,1001.0,1412.799349,2.0,501.5,1001.0,1500.5,2000.0
prod2,2.0,5050.0,7000.357134,100.0,2575.0,5050.0,7525.0,10000.0,2.0,1100.0,1272.792206,200.0,650.0,1100.0,1550.0,2000.0
prod3,1.0,10.0,,10.0,10.0,10.0,10.0,10.0,1.0,20.0,,20.0,20.0,20.0,20.0,20.0


In [25]:
dfPrice.sum()   # sumowanie wartości obiektów po kolumnach dla poszczególnych podzbiorów

Unnamed: 0_level_0,one,two
price,Unnamed: 1_level_1,Unnamed: 2_level_1
prod1,1001,2002
prod2,10100,2200
prod3,10,20


In [26]:
dfPrice.mean()  # srednia z kolumn

Unnamed: 0_level_0,one,two
price,Unnamed: 1_level_1,Unnamed: 2_level_1
prod1,500.5,1001.0
prod2,5050.0,1100.0
prod3,10.0,20.0


### Przykłady grupowania danych po wielu kolumnach

In [27]:
grouped = dfs.groupby(['price', 'one'])

In [28]:
print(grouped.get_group)

<bound method BaseGroupBy.get_group of <pandas.core.groupby.generic.DataFrameGroupBy object at 0x7fa85c72b850>>


In [29]:
print(grouped.sum())

              two
price one        
prod1 1         2
      1000   2000
prod2 100     200
      10000  2000
prod3 10       20


In [30]:
print(grouped.sum().index)

MultiIndex([('prod1',     1),
            ('prod1',  1000),
            ('prod2',   100),
            ('prod2', 10000),
            ('prod3',    10)],
           names=['price', 'one'])


### Praca na danych z pliku: zapis danych do pliku


The pandas I/O API is a set of top level reader functions accessed like pd.read_csv() that generally return a pandas object.

* read_csv
* read_excel
* read_hdf
* read_sql
* read_json
* read_msgpack (experimental)
* read_html
* read_gbq (experimental)
* read_stata
* read_sas
* read_clipboard
* read_pickle
The corresponding writer functions are object methods that are accessed like df.to_csv()

* to_csv
* to_excel
* to_hdf
* to_sql
* to_json
* to_msgpack (experimental)
* to_html
* to_gbq (experimental)
* to_stata
* to_clipboard
* to_pickle###  Praca na danych z pliku: odczyt danych z pliku

Sposób 1: wczytanie danych jeśli pracujesz z danymi na dysku google

In [4]:
from google.colab import drive
drive.mount('/content/drive')    # podłączenie zasobów z dysku Google

ModuleNotFoundError: No module named 'google'

In [1]:
import os
import pandas as pd

data = pd.read_excel('titanic_train.xlsx')
data.shape

(891, 12)

In [None]:
Sposób 1: wczytanie danych jeśli lokalnie

In [31]:
#os.path.join(folder_path, 'titanic_train.xlsx')
#e:/DYDAKTYKA/Python/laboratorium/titanic_train.xlsx

#data = pd.read_excel('titanic_train.xlsx')  # tak wczytujemy dane z pliku jeśli jest w folderze roboczym
#data = pd.read_csv( 'movies.csv')

In [32]:
data.head()  # metoda .head wyświetla dla wszystkich kolumn 5 pierwszych wierszy

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


### Praca na danych z pliku: zapis danych do pliku

In [33]:
############# składnia funkcji dla plików z rozszerzeniem *.csv
# data.to_csv(path_or_buf=None, sep=',', na_rep='', float_format=None, columns=None, 
#            header=True, index=True, index_label=None, mode='w', encoding=None, 
#            compression=None, quoting=None, quotechar='"', line_terminator='\n', 
#            chunksize=None, tupleize_cols=False, date_format=None, doublequote=True, 
#            escapechar=None, decimal='.', **kwds)

In [34]:
############## składnia funkcji dla plików z rozszerzeniem *.xlsx
# data.to_excel(excel_writer, sheet_name='Sheet1', na_rep='', float_format=None, columns=None, 
#              header=True, index=True, index_label=None, startrow=0, startcol=0, engine=None, 
#              merge_cells=True, encoding=None, inf_rep='inf', verbose=True)

In [35]:
dataTitanic = data
folder_path = ''
data.to_excel(os.path.join(folder_path, 'titanic_copy.xlsx')) # zapis do pliku *.xlsx
data.to_csv(os.path.join(folder_path, 'titanic_copy.csv'), index=False)    # zapis do pliku *.csv

### Zadanie 1
#### a) wypisz: pierwsze 3 kolumny, wiersze od 4 do 9, 
#### b) wyznacz średnią wieku pasażerów statku
#### c) określ ile osób przeżyło katastrofę statku
#### d) określ statystyki podstawowe dla 2 grup/klas: male i female
#### e) ilu pasażerów podróżowało klasą 1 ilu 3

In [None]:
#a)
df.iloc[3:9, :3]

In [None]:
#b)
df['Age'].mean()

In [None]:
#c) 0 przezyl 1 nie przezyl XD
df_alive = df[df['Survived'] == 0 ]
len(df_alive)

In [None]:
#d)
df_gender = df.groupby('Sex')
df_gender.describe()

In [None]:
#e)
len(df[df['Pclass'] == 1])

In [None]:
len(df[df['Pclass'] == 3])

In [36]:

data.columns

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

In [37]:
meanAge = data[['Age']].mean()  # nazwa zmiennej w Camel meanAge
mean_age = data[['Age']].mean()  # nazwa zmiennej w sneake mean_age

In [38]:
statisticSex = data[['Sex']].describe()
statisticSexdfs.groupby(['price'])

NameError: ignored

In [None]:
dataSex = data.groupby(['Sex'])

In [None]:
dataSex.describe()

## Metody .loc i .iloc - służą do selekcji danych
#### składnia:  nazwaObiektu.loc[numbersRows, nameColumns]      oraz   nazwaObiektu.iloc[numbersRows, numbersColumns]

#### Zadanie 2 Zapoznaj się z przykładami działania metod .loc oraz .iloc

In [None]:
# print(data.loc[5])  # wyświetl dane 6 wiersz i wszystkie kolumny
# print(data.loc[5:10]) # wyświetl 6,...,9 wiersze i wszystkie kolumny
# print(data.loc[5, 'Name']) # wyświetl 6 wiersz z kolumny 'Name'
# print(data.loc[5:10, 'Name'])  # wyświetl 6,...,9 wiersze z kolumny 'Name'
# print(data.columns)
# print(data.loc[5:10, :'Pclass']) # wyświetl 6,...,10 wiersze i wszystkie kolumny poprzedzające kolumne 'Pclass'
# print(data.loc[5:10, ['Name', 'Pclass', 'Survived']]) # wyświetl 6,...,10 wiersze i kolumny 'Name', 'Pclass', 'Survived'

In [None]:
#print(data.loc[5])  # wyświetl dane 6 wiersz i wszystkie kolumny
#print(data.loc[5:10]) # wyświetl 6,...,9 wiersze i wszystkie kolumny
# print(data.loc[5, 'Name']) # wyświetl 6 wiersz z kolumny 'Name'
# print(data.loc[5:10, 'Name'])  # wyświetl 6,...,9 wiersze z kolumny 'Name'
# print(data.columns)
# print(data.loc[5:10, :'Pclass']) # wyświetl 6,...,10 wiersze i wszystkie kolumny poprzedzające kolumne 'Pclass'
# print(data.loc[5:10, ['Name', 'Pclass', 'Survived']]) # wyświetl 6,...,10 wiersze i kolumny 'Name', 'Pclass', 'Survived'

In [None]:
# print(data.iloc[1])
# print(data.iloc[5:10])
# print(data.iloc[5, 3])  # dane: 5 wiersz 3 kolumna
# print(data.iloc[5:10, 3])
# print(data.iloc[5:10, :3])
# print(data.iloc[range(0, 50, 5), [1, 3]]) # dane: wiersze od 0 do 50 z krokiem 5, kolumny: 1, 3
# print(data.iloc[:50:5, [1, 3]]) # analog do formuły powyżej
# print(data.iloc[-10:]) # minus oznacza liczenie od końca tu wyświetl od 10 wiersza od końca
# print(data.Pclass.max()) # Wartość max i min dla kolumny Pclass
# print(data.Pclass.min())
# print(data.Pclass.sum()) # Wartość sumy dla kolumny Pclass
# print(data['Cabin'])
#print(data.Cabin.fillna(0)) # wstaw 0 w rekordy w których brakuje danych czyli jest NaN w kolumnie Cabin

In [None]:
mean_age

#### Zadanie 3
#### a) Podaj wiek najmłodszego pasażera statku
#### b) imputacja danych: podstaw wartość średnią za NaN w kolumnie Age
#### c) wyświetl wiersze 2,4,30 i tylko 3 kolumny Age Name Sex

In [None]:
#a)
df.iloc[df['Age'].idxmin()]['Age']

In [None]:
#c)
df.loc[[1, 3, 29],['Age', 'Name', 'Sex']]

In [None]:
#b)
df['Age'] = df['Age'].fillna(df['Age'].mean())
df

#### Zadanie 4  Zapoznaj się z warunkową selekcją zmiennych

In [47]:
# print(data['Pclass'] == 3) # określa które rekordy/wiersze kolumny Pclass mają bilet klasy 3
#print(data.loc[data['Pclass'] == 3]) # wyświetla tylko te wiersze dla których w kolumnie Pclass jest bilet klasy 3
#print(data[data['Pclass'] == 3]) # analog powyższej formuły
#print(data[data['Cabin'].isin(['C85', 'C123'])])  # szukanie w kolumnie 'Cabin' konkretnych elementów/wartości tj.'C85', 'C123'
#print(data[(data['Cabin'] == 'C123') & (data['Pclass']==1)]) # wiele warunków równocześnie  & => odpowiednik and

print(data[(data['Pclass'] == 1) & (data['Sex'] == 'female')].shape)
#print(data['Pclass'] == 1)


(94, 12)


In [None]:
#print(data)
print(data.columns)

In [None]:
print(data[data['Pclass'] == 1].shape)

In [None]:
from pandas.core.groupby.groupby import get_groupby
from numpy.core.fromnumeric import shape
from pandas.core.groupby.groupby import get_groupby
from pandas.core.groupby import groupby

dane_sel = data.groupby(['Sex'])
dane_sel.describe()
#data_female = dane_sel.get_group('female')

#data_female.shape

In [None]:
#### Zadanie 5
#### a) wyswietl dane pasażerów którzy mają wiek poniżej 25 lat i bilet klasy 2 zapisz uzyskane do pliku na dysk
#### b) wyświetl ile osób podróżowało statkiem, podaj w/w dane z podziałem na kategorie np.: płeć, klasa biletu, wiek (grupy co 10 lat)
#### c) określ ile osób przeżyło katastrofę statku

In [None]:
#a)
data = df[(df['Age'] < 25) & (df['Pclass'] == 2)]
data.to_excel('titanic_ex5_a.xlsx')
print(data.head())

In [None]:
#b)
print(df.shape[0])
bins = range(0, 101, 10)
labels = [f'{i}-{i+9}' for i in bins[:-1]]
df['AgeGroup'] = pd.cut(df['Age'], bins=bins, labels=labels, right=False)
grouped = df.groupby(['Sex', 'AgeGroup', 'Pclass'])
grouped.describe().head()

In [None]:
#c)
df_alive = df[df['Survived'] == 0 ]
len(df_alive)

In [None]:
#### Zadanie 6 
#### a) korzystając z data2 = pd.read_csv(os.path.join(folder_path, 'movies.csv'))      odczytaj dane movies.csv
#### b) określ ile filmów nakręcono w każdym roku
#### c) określ który film miał najwięcej lajków na facebook-u
#### d) podziel zbiór ze względu na kategorię country lub color i określ dla każdej kategorii liczbę filmów o budżecie > 240mln
#### e) jaki film wykonany w kolorze miał największy budżet?
#### f) Czy w zbiorze znajdują się dane dla filmu Piraci z karaibów? Jeśli tak to ile kosztował ten film i kto był jego reżyserem
#### g) Jaki film miał największy budżet

In [3]:
data2 = pd.read_csv('movies.csv')
data2.head()

Unnamed: 0,movie_title,title_year,budget,gross,genres,language,country,movie_facebook_likes,imdb_score,num_voted_users,...,actor_3_name,actor_3_facebook_likes,cast_total_facebook_likes,color,duration,plot_keywords,content_rating,aspect_ratio,facenumber_in_poster,movie_imdb_link
0,Avatar,2009.0,237000000.0,760505847.0,Action|Adventure|Fantasy|Sci-Fi,English,USA,33000,7.9,886204,...,Wes Studi,855.0,4834,Color,178.0,avatar|future|marine|native|paraplegic,PG-13,1.78,0.0,http://www.imdb.com/title/tt0499549/?ref_=fn_t...
1,Pirates of the Caribbean: At World's End,2007.0,300000000.0,309404152.0,Action|Adventure|Fantasy,English,USA,0,7.1,471220,...,Jack Davenport,1000.0,48350,Color,169.0,goddess|marriage ceremony|marriage proposal|pi...,PG-13,2.35,0.0,http://www.imdb.com/title/tt0449088/?ref_=fn_t...
2,Spectre,2015.0,245000000.0,200074175.0,Action|Adventure|Thriller,English,UK,85000,6.8,275868,...,Stephanie Sigman,161.0,11700,Color,148.0,bomb|espionage|sequel|spy|terrorist,PG-13,2.35,1.0,http://www.imdb.com/title/tt2379713/?ref_=fn_t...
3,The Dark Knight Rises,2012.0,250000000.0,448130642.0,Action|Thriller,English,USA,164000,8.5,1144337,...,Joseph Gordon-Levitt,23000.0,106759,Color,164.0,deception|imprisonment|lawlessness|police offi...,PG-13,2.35,0.0,http://www.imdb.com/title/tt1345836/?ref_=fn_t...
4,Star Wars: Episode VII - The Force Awakens,,,,Documentary,,,0,7.1,8,...,,,143,,,,,,0.0,http://www.imdb.com/title/tt5289954/?ref_=fn_t...


In [None]:
for year in data2['title_year'].head():
  print(f'year {year}: ',len(data2[data2['title_year'] == year]))

In [None]:
data2.iloc[data2['movie_facebook_likes'].idxmax()]

In [None]:
data2_240  = data2[data2['budget'] > 240000000]
data2_by_country = data2_240.groupby('country')
data2_by_color = data2_240.groupby('color')
print("Liczba filmów o budżecie > 240 mln według Country:")
print(data2_by_country.size())
print("\nLiczba filmów o budżecie > 240 mln według Color:")
print(data2_by_color.size())

In [18]:
data2_colored = data2[data2['color'] == 'Color']
data2_colored.iloc[data2_colored['budget'].idxmax()]

movie_title                                         E.T. the Extra-Terrestrial
title_year                                                              1982.0
budget                                                              10500000.0
gross                                                              434949459.0
genres                                                           Family|Sci-Fi
language                                                               English
country                                                                    USA
movie_facebook_likes                                                     34000
imdb_score                                                                 7.9
num_voted_users                                                         281842
num_critic_for_reviews                                                   215.0
num_user_for_reviews                                                     515.0
director_name                                       

In [25]:
pirates = data2[data2['movie_title'].isin(['Pirates of the Caribbean'])]
if not pirates.empty:
    print(pirates['budget'])
    print(pirates['director_name'])
else:
    print('NIe ma')

NIe ma


In [19]:
data2.iloc[data2['budget'].idxmax()]

movie_title                                                           The Host
title_year                                                              2006.0
budget                                                           12215500000.0
gross                                                                2201412.0
genres                                              Comedy|Drama|Horror|Sci-Fi
language                                                                Korean
country                                                            South Korea
movie_facebook_likes                                                      7000
imdb_score                                                                 7.0
num_voted_users                                                          68883
num_critic_for_reviews                                                   363.0
num_user_for_reviews                                                     279.0
director_name                                       

### Łączenie danych tabelarycznych (concatenate)
funkcja concat() - domyślnie względem wierszy

pd.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False,
          keys=None, levels=None, names=None, verify_integrity=False,
          copy=True)


In [None]:
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                     'B': ['B0', 'B1', 'B2', 'B3'],
                     'C': ['C0', 'C1', 'C2', 'C3'],
                     'D': ['D0', 'D1', 'D2', 'D3']},
                     index=[0, 1, 2, 3])

df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                     'B': ['B4', 'B5', 'B6', 'B7'],
                     'C': ['C4', 'C5', 'C6', 'C7'],
                     'D': ['D4', 'D5', 'D6', 'D7']},
                      index=[4, 5, 6, 7])

df3 = pd.DataFrame({'A': ['A8', 'A9', 'A10', 'A11'],
                     'B': ['B8', 'B9', 'B10', 'B11'],
                     'C': ['C8', 'C9', 'C10', 'C11'],
                     'D': ['D8', 'D9', 'D10', 'D11']},
                     index=[8, 9, 10, 11])

frame = [df1, df2, df3]

In [None]:
pd.concat(frame)

In [None]:
df4 = pd.DataFrame({'B': ['B2', 'B3', 'B6', 'B7'],
                  'D': ['D2', 'D3', 'D6', 'D7'],
                  'F': ['F2', 'F3', 'F6', 'F7']},
                 index=[2, 3, 6, 7])


In [None]:
pd.concat([df1, df4], axis=1)   # łączenie ze wskazaniem pozycji w tabeli

In [None]:
pd.concat([df1, df4], axis=1, join='inner')

Funkcja merge() - względem kolumn, indeksów
merge(right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=False, suffixes=('_x', '_y'), copy=True, indicator=False)



In [None]:
 left = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                      'A': ['A0', 'A1', 'A2', 'A3'],
                      'B': ['B0', 'B1', 'B2', 'B3']})

right = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                       'C': ['C0', 'C1', 'C2', 'C3'],
                       'D': ['D0', 'D1', 'D2', 'D3']})

In [None]:
# kluczowy argument to how który określa sposób łącznie danych, mamy warianty:
#left,           right, outer, inner
pd.merge(left, right, on='key')   