### Урок 3. Библиотека Pandas

### Анализ данных с помощью библиотеки Pandas

<img width = '700px' src="images/lesson_3/1_ltQN5rQ5tI0fcQz7fMqsww.png">

**Pandas** это высокоуровневая Python библиотека для анализа данных, построена она поверх более низкоуровневой библиотеки NumPy (написана на Си), что является большим плюсом в производительности. В экосистеме Python, pandas является наиболее продвинутой и быстроразвивающейся библиотекой для обработки и анализа данных. 

Основными структурами данных в Pandas являются классы **Series** и **DataFrame**.

### Pandas Series

Структура/объект Series представляет из себя объект, похожий на одномерный массив (питоновский список, например), но отличительной его чертой является наличие ассоциированных меток, т.н. индексов, вдоль каждого элемента из списка. Такая особенность превращает его в ассоциативный массив или словарь в Python.

In [58]:
import pandas as pd
import numpy as np
my_series = pd.Series([5, 6, 7, 8, 9, 10])
my_series

0     5
1     6
2     7
3     8
4     9
5    10
dtype: int64

In [2]:
my_series.index

RangeIndex(start=0, stop=6, step=1)

In [3]:
my_series.values

array([ 5,  6,  7,  8,  9, 10], dtype=int64)

In [4]:
my_series2 = pd.Series([5, 6, 7, 8, 9, 10], index=['a', 'b', 'c', 'd', 'e', 'f'])
my_series2

a     5
b     6
c     7
d     8
e     9
f    10
dtype: int64

In [5]:
my_series2.index

Index(['a', 'b', 'c', 'd', 'e', 'f'], dtype='object')

In [6]:
my_series[[4]]

4    9
dtype: int64

In [7]:
my_series2[['a']]

a    5
dtype: int64

In [13]:
my_series2[['a', 'b', 'f']] = 0
my_series2

a    0
b    0
c    7
d    8
e    9
f    0
dtype: int64

In [14]:
my_series2[(my_series2 > 0)]

c    7
d    8
e    9
dtype: int64

In [15]:
my_series3 = pd.Series({'a': 5, 'b': 6, 'c': 7, 'd': 8})
my_series3

a    5
b    6
c    7
d    8
dtype: int64

In [16]:
my_series3.name = 'numbers'
my_series3.index.name = 'letters'
my_series3

letters
a    5
b    6
c    7
d    8
Name: numbers, dtype: int64

### Pandas DataFrame

Объект DataFrame лучше всего представлять себе в виде обычной таблицы и это правильно, ведь DataFrame является табличной структурой данных. В любой таблице всегда присутствуют строки и столбцы. Столбцами в объекте DataFrame выступают объекты Series, строки которых являются их непосредственными элементами.

In [19]:
df = pd.DataFrame({
    'country': ['Kazakhstan', 'Russia', 'Belarus', 'Ukraine'],
    'population': [17.04, 143.5, 9.5, 45.5],
    'square': [2724902, 17125191, 207600, 603628]
})
df

Unnamed: 0,country,population,square
0,Kazakhstan,17.04,2724902
1,Russia,143.5,17125191
2,Belarus,9.5,207600
3,Ukraine,45.5,603628


In [21]:
df.population

0     17.04
1    143.50
2      9.50
3     45.50
Name: population, dtype: float64

In [20]:
type(df.population)

pandas.core.series.Series

In [22]:
df.index = ['KZ', 'RU', 'BY', 'UA']
df

Unnamed: 0,country,population,square
KZ,Kazakhstan,17.04,2724902
RU,Russia,143.5,17125191
BY,Belarus,9.5,207600
UA,Ukraine,45.5,603628


**Импорт данных**

In [23]:
# pd.read_csv('filename')
# pd.read_excel('filename')
# pd.read_sql(query,connection_object) 
# pd.read_table(filename)
# pd.read_json(json_string)
# pd.read_html(url) 
# pd.read_clipboard()
# pd.DataFrame(dict)

In [29]:
ml = pd.read_csv('files/lesson_3/meteorite-landings.csv', sep = ',')
ml.tail()

Unnamed: 0,name,id,nametype,recclass,mass,fall,year,reclat,reclong,GeoLocation
45711,Zillah 002,31356,Valid,Eucrite,172.0,Found,1990.0,29.037,17.0185,"(29.037000, 17.018500)"
45712,Zinder,30409,Valid,"Pallasite, ungrouped",46.0,Found,1999.0,13.78333,8.96667,"(13.783330, 8.966670)"
45713,Zlin,30410,Valid,H4,3.3,Found,1939.0,49.25,17.66667,"(49.250000, 17.666670)"
45714,Zubkovsky,31357,Valid,L6,2167.0,Found,2003.0,49.78917,41.5046,"(49.789170, 41.504600)"
45715,Zulu Queen,30414,Valid,L3.7,200.0,Found,1976.0,33.98333,-115.68333,"(33.983330, -115.683330)"


In [24]:
mailru = pd.read_html('https://mail.ru/')  

Отдельно стоит упомянуть про возможность работы в Pandas с большими файлами, которые могут не помещаться в оперативную память компьютера. Для этого мы можем читать файл небольшими чанками.

In [88]:
c_size = 10000 

for gm_chunk in pd.read_csv('files/lesson_3/meteorite-landings.csv', sep = ',',chunksize=c_size):
    print(gm_chunk.shape)

(10000, 10)
(10000, 10)
(10000, 10)
(10000, 10)
(5716, 10)


**Экспорт данных**

In [30]:
# df.to_csv(filename) 
# df.to_excel(filename) 
# df.to_sql(table_name, connection_object)
# df.to_json(filename)
# df.to_html(filename)
# df.to_clipboard()

**Доступ к данным**

Доступ к строкам по индексу возможен несколькими способами:

- .loc - используется для доступа по строковой метке
- .iloc - используется для доступа по числовому значению (начиная от 0)

In [31]:
df.loc['KZ']

country       Kazakhstan
population         17.04
square           2724902
Name: KZ, dtype: object

In [32]:
df.iloc[0]

country       Kazakhstan
population         17.04
square           2724902
Name: KZ, dtype: object

In [34]:
#индекс + колонки
df.loc[['KZ', 'RU'], 'population']

KZ     17.04
RU    143.50
Name: population, dtype: float64

В .loc и .iloc запомнить, что первая часть относится к строкам, вторая - к столбцам.

In [35]:
df.iloc[[0,1],[1]]

Unnamed: 0,population
KZ,17.04
RU,143.5


In [35]:
df[df.population > 10][['country', 'square']]

Unnamed: 0,country,square
KZ,Kazakhstan,2724902
RU,Russia,17125191
UA,Ukraine,603628


In [59]:
#более сложное условие
df[(df.square > 70000) & (df.country == 'Russia')][['country','square']]

Unnamed: 0,country,square
1,Russia,17125191


In [37]:
# Или так
filters = (df.country == 'Russia')
df[filters]

Unnamed: 0,country,population,square
RU,Russia,143.5,17125191


In [61]:
# Создаем новую колонку 
df['density'] = df['population'] / df['square'] * 1000000
df

Unnamed: 0,country,population,square,density
0,Kazakhstan,17.04,2724902,6.253436
1,Russia,143.5,17125191,8.379469
2,Belarus,9.5,207600,45.761079
3,Ukraine,45.5,603628,75.37755


In [63]:
# Обратить внимание, что при дропе колонок необходимо в том или ином виде перезаписывать данные в исходном датафрейме
df.drop(['density'], axis=1)
# df.drop(['density'], axis='columns',inplace =True)

Unnamed: 0,country,population,square
0,Kazakhstan,17.04,2724902
1,Russia,143.5,17125191
2,Belarus,9.5,207600
3,Ukraine,45.5,603628


In [65]:
df = df.drop(['density'], axis=1)
df

Unnamed: 0,country,population,square
0,Kazakhstan,17.04,2724902
1,Russia,143.5,17125191
2,Belarus,9.5,207600
3,Ukraine,45.5,603628


In [39]:
df = df.rename(columns={'Country Code': 'country_code'})
df

Unnamed: 0,country,population,square,density
KZ,Kazakhstan,17.04,2724902,6.253436
RU,Russia,143.5,17125191,8.379469
BY,Belarus,9.5,207600,45.761079
UA,Ukraine,45.5,603628,75.37755


In [31]:
# вытаскивает n самых больших показателей из колонки - нет нужды в сортировке
df.nlargest(3,'population')

Unnamed: 0,country,population,square
RU,Russia,143.5,17125191
UA,Ukraine,45.5,603628
KZ,Kazakhstan,17.04,2724902


In [32]:
df.nsmallest(3,'square')

Unnamed: 0,country,population,square
BY,Belarus,9.5,207600
UA,Ukraine,45.5,603628
KZ,Kazakhstan,17.04,2724902


### Работа с данными с помощью Pandas

Источник данных - https://www.kaggle.com/nasa/meteorite-landings.

1).Загрузим исходные данные.

In [99]:
df = pd.read_csv('files/lesson_3/meteorite-landings.csv', sep = ',')
# df.to_csv('files/lesson_2/meteorite-landings-output.csv', index = False)

2).Посмотрим на первые 5 строк файла.

In [100]:
df.head()
# df.tail(10)

Unnamed: 0,name,id,nametype,recclass,mass,fall,year,reclat,reclong,GeoLocation
0,Aachen,1,Valid,L5,21.0,Fell,1880.0,50.775,6.083,"(50.775000, 6.083330)"
1,Aarhus,2,Valid,H6,720.0,Fell,1951.0,56.183,10.233,"(56.183330, 10.233330)"
2,Abee,6,Valid,EH4,107000.0,Fell,1952.0,54.217,-113.0,"(54.216670, -113.000000)"
3,Acapulco,10,Valid,Acapulcoite,1914.0,Fell,1976.0,16.883,-99.9,"(16.883330, -99.900000)"
4,Achiras,370,Valid,L6,780.0,Fell,1902.0,-33.167,-64.95,"(-33.166670, -64.950000)"


По умолчанию выводится 20 столбцов и 60 строк.
Можно изменить, воспользовавшись следующей командой:

In [101]:
pd.set_option('display.max_columns', 100)
pd.set_option('display.max_rows', 100)

In [102]:
# Еще очень полезная опция
pd.set_option('display.precision',3)

3).Посмотрим на размер данных, названия признаков и их типы.

In [103]:
#45716 наблюдений и 10 колонок
df.shape

(45716, 10)

In [104]:
df.shape[0]

45716

In [105]:
df.columns

Index(['name', 'id', 'nametype', 'recclass', 'mass', 'fall', 'year', 'reclat',
       'reclong', 'GeoLocation'],
      dtype='object')

4).Посмотрим общую информацию по датафрейму.

Для просмотра числовых статистик можно воспользоваться методом *describe*: 

In [106]:
df.describe()

Unnamed: 0,id,mass,year,reclat,reclong
count,45716.0,45580.0,45428.0,38401.0,38401.0
mean,26889.735,13280.0,1991.772,-39.123,61.074
std,16860.683,575000.0,27.181,46.379,80.647
min,1.0,0.0,301.0,-87.367,-165.433
25%,12688.75,7.2,1987.0,-76.714,0.0
50%,24261.5,32.6,1998.0,-71.5,35.667
75%,40656.75,202.6,2003.0,0.0,157.167
max,57458.0,60000000.0,2501.0,81.167,354.473


In [107]:
df.describe(include=['object'])

Unnamed: 0,name,nametype,recclass,fall,GeoLocation
count,45716,45716,45716,45716,38401
unique,45716,2,466,2,17100
top,Allan Hills A77062,Valid,L6,Found,"(0.000000, 0.000000)"
freq,1,45641,8285,44609,6214


Также по нечисловым признакам можно изучить распределение:

In [108]:
df.recclass.value_counts()[:5]

L6    8285
H5    7142
L5    4796
H6    4528
H4    4211
Name: recclass, dtype: int64

Информация о колонках датафрейма:

In [109]:
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 45716 entries, 0 to 45715
Data columns (total 10 columns):
name           45716 non-null object
id             45716 non-null int64
nametype       45716 non-null object
recclass       45716 non-null object
mass           45585 non-null float64
fall           45716 non-null object
year           45428 non-null float64
reclat         38401 non-null float64
reclong        38401 non-null float64
GeoLocation    38401 non-null object
dtypes: float64(4), int64(1), object(5)
memory usage: 3.5+ MB
None


В случае работы с большими датасетами занимаемая память - критичной фактор:

In [110]:
for dtype in ['float','int','object']:
    selected_dtype = df.select_dtypes(include=[dtype])
    mean_usage_b = selected_dtype.memory_usage(deep=True).mean()
    mean_usage_mb = mean_usage_b / 1024 ** 2
    print("Average memory usage for {} columns: {:03.2f} MB".format(dtype,mean_usage_mb))

Average memory usage for float columns: 0.28 MB
Average memory usage for int columns: 0.00 MB
Average memory usage for object columns: 2.41 MB


Не забываем, что мы можем закодировать колонки типа object в числовые эквиваленты, например с помощью pd.factorize.

5).Изменим тип колонок в том случае, если это необходимо.

In [111]:
df['mass'] = df['mass'].astype('float32')

In [112]:
#Обратить внимание, как изменился размер занимаемой памяти
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 45716 entries, 0 to 45715
Data columns (total 10 columns):
name           45716 non-null object
id             45716 non-null int64
nametype       45716 non-null object
recclass       45716 non-null object
mass           45585 non-null float32
fall           45716 non-null object
year           45428 non-null float64
reclat         38401 non-null float64
reclong        38401 non-null float64
GeoLocation    38401 non-null object
dtypes: float32(1), float64(3), int64(1), object(5)
memory usage: 3.3+ MB
None


**Тип данных КАТЕГОРИЯ**

Отдельный тип данных в Pandas, которому стоит уделить внимание, так как он позволяет более эффективно работать с категориальными признаками.

Что такое категориальные признаки?

In [93]:
unique_counts = pd.DataFrame.from_records([(col, df[col].nunique()) for col in df.columns],
                          columns=['Column_Name', 'Num_Unique']).sort_values(by=['Num_Unique'])
unique_counts

Unnamed: 0,Column_Name,Num_Unique
2,nametype,2
5,fall,2
10,status,2
6,year,268
3,recclass,466
4,mass,12576
7,reclat,12738
8,reclong,14640
9,GeoLocation,17100
0,name,45716


Класс метеорита (recclass) - отличный кандидат для категориального признака. 

In [113]:
df_with_cat = df.copy()

In [114]:
df_with_cat['recclass'] = df_with_cat['recclass'].astype('category')

Зачем нужны категориальные признаки в Pandas:
    - позволяют более эффективно обрабатывать категориальные признаки;
    - многие питоновские библиотеки меют встроенные методы по работе с категориальными признаками;
    - такие признаки закнимают меньше места и также положительно сказываются на производительности.

In [115]:
print(df_with_cat.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 45716 entries, 0 to 45715
Data columns (total 10 columns):
name           45716 non-null object
id             45716 non-null int64
nametype       45716 non-null object
recclass       45716 non-null category
mass           45585 non-null float32
fall           45716 non-null object
year           45428 non-null float64
reclat         38401 non-null float64
reclong        38401 non-null float64
GeoLocation    38401 non-null object
dtypes: category(1), float32(1), float64(3), int64(1), object(4)
memory usage: 3.1+ MB
None


In [116]:
%%timeit
df_with_cat.groupby('recclass')['mass'].mean().to_frame()

1.22 ms ± 30.5 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


In [117]:
%%timeit
df.groupby('recclass')['mass'].mean().to_frame()

2.57 ms ± 29.3 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


Заметный прирост производительности!

Используйте данный тип с осторожностью, всегда выполняется необходимую предобработку данных.

6).Применить к данным требуемые операции.

In [53]:
#Сортировка
df.sort_values(by=['recclass', 'mass'], ascending=[True, False]).head(2)

Unnamed: 0,name,id,nametype,recclass,mass,fall,year,reclat,reclong,GeoLocation
27673,Northwest Africa 2656,32485,Valid,Acapulcoite,7500.0,Found,2003.0,,,
30353,Northwest Africa 725,17807,Valid,Acapulcoite,3824.0,Found,,30.6,-5.05,"(30.600000, -5.050000)"


In [54]:
#Извлечение данных
df.loc[0:5,:]

Unnamed: 0,name,id,nametype,recclass,mass,fall,year,reclat,reclong,GeoLocation
0,Aachen,1,Valid,L5,21.0,Fell,1880.0,50.775,6.083,"(50.775000, 6.083330)"
1,Aarhus,2,Valid,H6,720.0,Fell,1951.0,56.183,10.233,"(56.183330, 10.233330)"
2,Abee,6,Valid,EH4,107000.0,Fell,1952.0,54.217,-113.0,"(54.216670, -113.000000)"
3,Acapulco,10,Valid,Acapulcoite,1914.0,Fell,1976.0,16.883,-99.9,"(16.883330, -99.900000)"
4,Achiras,370,Valid,L6,780.0,Fell,1902.0,-33.167,-64.95,"(-33.166670, -64.950000)"
5,Adhi Kot,379,Valid,EH4,4239.0,Fell,1919.0,32.1,71.8,"(32.100000, 71.800000)"


In [55]:
df[df['name'] == 'Abee']['mass'].mean()

107000.0

In [56]:
df.fall.value_counts()

Found    44609
Fell      1107
Name: fall, dtype: int64

In [59]:
#Применение функции к каждому столбцу/строке
df[['mass', 'id']].apply(np.max)

mass    6.000e+07
id      5.746e+04
dtype: float64

In [60]:
#Замена значений в колонке
d = {'Found' : 1, 'Fell' : 0}
df['status'] = df['fall'].map(d)
df.tail(2)

Unnamed: 0,name,id,nametype,recclass,mass,fall,year,reclat,reclong,GeoLocation,status
45714,Zubkovsky,31357,Valid,L6,2167.0,Found,2003.0,49.789,41.505,"(49.789170, 41.504600)",1
45715,Zulu Queen,30414,Valid,L3.7,200.0,Found,1976.0,33.983,-115.683,"(33.983330, -115.683330)",1


In [61]:
#Группировка данных
#df.groupby(by=grouping_columns)[columns_to_show].function()

df.groupby(by = 'fall')['mass'].max()

fall
Fell     2.300e+07
Found    6.000e+07
Name: mass, dtype: float32

In [62]:
df.groupby(by = 'fall')['mass'].agg([np.mean, np.std, np.min, np.max])

Unnamed: 0_level_0,mean,std,amin,amax
fall,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Fell,47070.715,717067.125,0.1,23000000.0
Found,12461.923,571105.75,0.0,60000000.0


In [63]:
#Cводные таблицы
pd.crosstab(df['fall'], df['nametype'])

nametype,Relict,Valid
fall,Unnamed: 1_level_1,Unnamed: 2_level_1
Fell,0,1107
Found,75,44534


In [64]:
pd.crosstab(df['fall'], df['nametype'], normalize = True)

nametype,Relict,Valid
fall,Unnamed: 1_level_1,Unnamed: 2_level_1
Fell,0.0,0.024
Found,0.002,0.974


### Merge, join, and concatenate

Классическая статья из документации Pandas - http://pandas.pydata.org/pandas-docs/stable/merging.html

In [65]:
raw_data = {
        'subject_id': ['1', '2', '3', '4', '5'],
        'first_name': ['Alex', 'Amy', 'Allen', 'Alice', 'Ayoung'], 
        'last_name': ['Anderson', 'Ackerman', 'Ali', 'Aoni', 'Atiches']}
df_a = pd.DataFrame(raw_data, columns = ['subject_id', 'first_name', 'last_name'])
df_a.index = [0,1,2,3,4]
df_a

Unnamed: 0,subject_id,first_name,last_name
0,1,Alex,Anderson
1,2,Amy,Ackerman
2,3,Allen,Ali
3,4,Alice,Aoni
4,5,Ayoung,Atiches


In [66]:
raw_data = {
        'subject_id': ['4', '5', '6', '7', '8'],
        'first_name': ['Billy', 'Brian', 'Bran', 'Bryce', 'Betty'], 
        'last_name': ['Bonder', 'Black', 'Balwner', 'Brice', 'Btisan']}
df_b = pd.DataFrame(raw_data, columns = ['subject_id', 'first_name', 'last_name'])
df_b.index = [2,3,4,5,6]
df_b

Unnamed: 0,subject_id,first_name,last_name
2,4,Billy,Bonder
3,5,Brian,Black
4,6,Bran,Balwner
5,7,Bryce,Brice
6,8,Betty,Btisan


In [67]:
raw_data = {
        'subject_id': ['1', '2', '3', '4', '5', '7', '8', '9', '10', '11'],
        'test_id': [51, 15, 15, 61, 16, 14, 15, 1, 61, 16]}
df_n = pd.DataFrame(raw_data, columns = ['subject_id','test_id'])
df_n

Unnamed: 0,subject_id,test_id
0,1,51
1,2,15
2,3,15
3,4,61
4,5,16
5,7,14
6,8,15
7,9,1
8,10,61
9,11,16


**Concat** как правило используется для объединения таблиц по вертикальной или горизонтальной оси.

In [68]:
df_new = pd.concat([df_a, df_b])
df_new

Unnamed: 0,subject_id,first_name,last_name
0,1,Alex,Anderson
1,2,Amy,Ackerman
2,3,Allen,Ali
3,4,Alice,Aoni
4,5,Ayoung,Atiches
2,4,Billy,Bonder
3,5,Brian,Black
4,6,Bran,Balwner
5,7,Bryce,Brice
6,8,Betty,Btisan


<img width = '400px' src="images/lesson_3/merging_concat_basic.png">

In [69]:
df_new_ = pd.concat([df_a, df_b],axis = 1)
df_new_

Unnamed: 0,subject_id,first_name,last_name,subject_id.1,first_name.1,last_name.1
0,1.0,Alex,Anderson,,,
1,2.0,Amy,Ackerman,,,
2,3.0,Allen,Ali,4.0,Billy,Bonder
3,4.0,Alice,Aoni,5.0,Brian,Black
4,5.0,Ayoung,Atiches,6.0,Bran,Balwner
5,,,,7.0,Bryce,Brice
6,,,,8.0,Betty,Btisan


<img width = '800px' src="images/lesson_3/merging_concat_axis1.png">

<img width = '800px' src="images/lesson_3/join-types-merge-names.jpg">

In [70]:
#Concat, но только с помощью атрибута "inner"
df_new_ = pd.concat([df_a, df_b],axis = 1,join='inner')
df_new_

Unnamed: 0,subject_id,first_name,last_name,subject_id.1,first_name.1,last_name.1
2,3,Allen,Ali,4,Billy,Bonder
3,4,Alice,Aoni,5,Brian,Black
4,5,Ayoung,Atiches,6,Bran,Balwner


<img width = '800px' src="images/lesson_3/merging_concat_axis1_inner.png">

**Append** - частный случай метода **Concat** с параметрами (axis=0, join='outer').

In [71]:
df_a.append(df_b)

Unnamed: 0,subject_id,first_name,last_name
0,1,Alex,Anderson
1,2,Amy,Ackerman
2,3,Allen,Ali
3,4,Alice,Aoni
4,5,Ayoung,Atiches
2,4,Billy,Bonder
3,5,Brian,Black
4,6,Bran,Balwner
5,7,Bryce,Brice
6,8,Betty,Btisan


Метод **Join** основан на объединении таблиц через индексы (способ объединения указывается с помощью параметра how = ['left','right','inner','couter']).

In [73]:
# df_a.join(df_b,how = 'left')
df_a.join(df_b,rsuffix='_right_table',how = 'left')

Unnamed: 0,subject_id,first_name,last_name,subject_id_right_table,first_name_right_table,last_name_right_table
0,1,Alex,Anderson,,,
1,2,Amy,Ackerman,,,
2,3,Allen,Ali,4.0,Billy,Bonder
3,4,Alice,Aoni,5.0,Brian,Black
4,5,Ayoung,Atiches,6.0,Bran,Balwner


<img width = '800px' src="images/lesson_3/merging_join.png">

**Merge** используется для объединения таблиц по любым колонкам с помощью методов left_on и right_on.

In [74]:
df_new

Unnamed: 0,subject_id,first_name,last_name
0,1,Alex,Anderson
1,2,Amy,Ackerman
2,3,Allen,Ali
3,4,Alice,Aoni
4,5,Ayoung,Atiches
2,4,Billy,Bonder
3,5,Brian,Black
4,6,Bran,Balwner
5,7,Bryce,Brice
6,8,Betty,Btisan


In [75]:
#Стоит обратить внимание, что колонка subject_id не дублируется в новой таблице
pd.merge(df_new, df_n, on='subject_id')

Unnamed: 0,subject_id,first_name,last_name,test_id
0,1,Alex,Anderson,51
1,2,Amy,Ackerman,15
2,3,Allen,Ali,15
3,4,Alice,Aoni,61
4,4,Billy,Bonder,61
5,5,Ayoung,Atiches,16
6,5,Brian,Black,16
7,7,Bryce,Brice,14
8,8,Betty,Btisan,15


In [76]:
pd.merge(df_new, df_n, left_on='subject_id', right_on='subject_id')

Unnamed: 0,subject_id,first_name,last_name,test_id
0,1,Alex,Anderson,51
1,2,Amy,Ackerman,15
2,3,Allen,Ali,15
3,4,Alice,Aoni,61
4,4,Billy,Bonder,61
5,5,Ayoung,Atiches,16
6,5,Brian,Black,16
7,7,Bryce,Brice,14
8,8,Betty,Btisan,15


In [77]:
pd.merge(df_a, df_b, on='subject_id', how='left')

Unnamed: 0,subject_id,first_name_x,last_name_x,first_name_y,last_name_y
0,1,Alex,Anderson,,
1,2,Amy,Ackerman,,
2,3,Allen,Ali,,
3,4,Alice,Aoni,Billy,Bonder
4,5,Ayoung,Atiches,Brian,Black


<img width = '800px' src="images/lesson_3/merging_merge_on_key_left.png">

In [78]:
pd.merge(df_a, df_b, on='subject_id', how='right')

Unnamed: 0,subject_id,first_name_x,last_name_x,first_name_y,last_name_y
0,4,Alice,Aoni,Billy,Bonder
1,5,Ayoung,Atiches,Brian,Black
2,6,,,Bran,Balwner
3,7,,,Bryce,Brice
4,8,,,Betty,Btisan


<img width = '800px' src="images/lesson_3/merging_merge_on_key_right.png">

In [79]:
pd.merge(df_a, df_b, right_index=True, left_index=True)

Unnamed: 0,subject_id_x,first_name_x,last_name_x,subject_id_y,first_name_y,last_name_y
2,3,Allen,Ali,4,Billy,Bonder
3,4,Alice,Aoni,5,Brian,Black
4,5,Ayoung,Atiches,6,Bran,Balwner
