# Урок 2. Библиотеки Numpy и Pandas

### Numpy

Numpy - пакет для векторизованных вычислений, добавляющий поддержку больших многомерных массивов и матриц, вместе с большой библиотекой высокоуровневых математических функций для операций с этими массивами.

### Numpy ndarray

Одна из ключевых особенностей NumPy - объект ndarray для представления N-мерного массива; это быстрый и гибкий контейнер для хранения больших наборов данных в Python. ndarray - это обобщенный многомерный контейнер для однородных данных, т. е. в нем могут храниться только элементы одного типа. Под «многомерностью» массива мы понимаем то, что у него может быть несколько измерений или осей. 

Наиболее важные атрибуты объектов ndarray:

**ndarray.ndim** — число осей (измерений) массива.

**ndarray.shape** — размеры массива, его форма. Это кортеж натуральных чисел, показывающий длину массива по каждой оси. Для матрицы из n строк и m столбов, shape будет (n,m). Число элементов кортежа shape равно рангу массива, то есть ndim.

**ndarray.size** — число всех элементов массива. Равно произведению всех элементов атрибута shape.

**ndarray.dtype** — объект, описывающий тип элементов массива. Можно определить dtype, используя стандартные типы данных Python. NumPy здесь предоставляет целый букет возможностей, например: bool_, character, int_, int8, int16, int32, int64, float_, float8, float16, float32, float64, complex_, complex64, object_.

**ndarray.itemsize** — размер каждого элемента массива в байтах. Например, для массива из элементов типа float64 значение itemsize равно 8 (=64/8), а для complex32 этот атрибут равен 4 (=32/8).

**ndarray.data** — буфер, содержащий фактические элементы массива. Обычно нам не будет нужно использовать этот атрибут, потому как мы будем обращаться к элементам массива с помощью индексов.


In [3]:
import numpy as np

In [4]:
#создание массива
datal = [ 6, 7., 5, 8, 0, 1]
arrl = np.array(datal) 
arrl

array([6., 7., 5., 8., 0., 1.])

In [5]:
arrl.shape

(6,)

In [6]:
arrl.dtype

dtype('float64')

In [7]:
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [8]:
np.ones((2,2))

array([[1., 1.],
       [1., 1.]])

<img width = '500px' src="images/lesson_2/elsp_0105.png">

In [9]:
np.arange(15) 

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [10]:
np.linspace(0, 1, 25)

array([0.        , 0.04166667, 0.08333333, 0.125     , 0.16666667,
       0.20833333, 0.25      , 0.29166667, 0.33333333, 0.375     ,
       0.41666667, 0.45833333, 0.5       , 0.54166667, 0.58333333,
       0.625     , 0.66666667, 0.70833333, 0.75      , 0.79166667,
       0.83333333, 0.875     , 0.91666667, 0.95833333, 1.        ])

In [11]:
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

Можно явно преобразовать, или привести массив одного типа к другому, воспользовавшись методом as type: 

In [12]:
numeric_strings = np.array(['1.25', '-9.6', '42'], dtype=np.string_) 
numeric_strings.astype(float) 

array([ 1.25, -9.6 , 42.  ])

### Операции между массивами и скалярами

In [15]:
arr = np.array([[1., 2., 3.], [4., 5., 6.]]) 

In [16]:
arr*arr

array([[  1.,   4.,   9.],
       [ 16.,  25.,  36.]])

In [17]:
arr-arr

array([[ 0.,  0.,  0.],
       [ 0.,  0.,  0.]])

In [18]:
1/arr

array([[ 1.        ,  0.5       ,  0.33333333],
       [ 0.25      ,  0.2       ,  0.16666667]])

### Случайные массивы

In [41]:
np.random.rand(3,2)

array([[ 0.11827858,  0.97855246],
       [ 0.06646494,  0.68015866],
       [ 0.72887069,  0.80308005]])

In [42]:
np.random.randn(3,2)

array([[-0.18720367, -0.1614092 ],
       [ 0.93597597,  0.48477531],
       [-0.14593546, -0.16380737]])

In [43]:
np.random.randint(0, 1000, 4)

array([188, 491, 429, 901])

### Индексирование

Схоже с индексированием списков.

<img width = '500px' src="images/lesson_2/Screen-Shot-2017-10-28-at-10.40.10-PM-768x405.png">

In [19]:
np.arange(15)[8:12]

array([ 8,  9, 10, 11])

In [20]:
#многомерные массивы
arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
arr2d[2]

array([7, 8, 9])

In [22]:
arr2d[0, 2] 

3

In [24]:
arr2d[0][2] 

3

In [29]:
arr3d = np.array([[[1,2,3],[4,5,6]],[[7,8,9],[10,11,12]]]) 
arr3d[1,1][2]

12

In [31]:
arr3d[:1,:1,1:]

array([[[2, 3]]])

In [40]:
#булевое индексирование
names = np.array(['Bob', 'Joe', 'Will', 'Воb', 'Will', 'Joe', 'Joe'])
names == 'Воb'

array([False, False, False,  True, False, False, False], dtype=bool)

In [45]:
mask = (names == 'ВоЬ') | (names == 'Will') 
mask

array([False, False,  True, False,  True, False, False], dtype=bool)

In [46]:
names[mask]

array(['Will', 'Will'],
      dtype='<U4')

### Транспонирование массивов

In [47]:
arr3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [48]:
arr3d.shape

(2, 2, 3)

In [49]:
arr3d.T

array([[[ 1,  7],
        [ 4, 10]],

       [[ 2,  8],
        [ 5, 11]],

       [[ 3,  9],
        [ 6, 12]]])

### Поэлементные операции над массивами

Это векторные обертки вокруг простых функций, которые принимают одно или несколько скалярных значений и порождают один или несколько скалярных результатов.

In [51]:
np.sqrt(arr3d)

array([[[ 1.        ,  1.41421356,  1.73205081],
        [ 2.        ,  2.23606798,  2.44948974]],

       [[ 2.64575131,  2.82842712,  3.        ],
        [ 3.16227766,  3.31662479,  3.46410162]]])

In [52]:
np.exp(arr3d)

array([[[  2.71828183e+00,   7.38905610e+00,   2.00855369e+01],
        [  5.45981500e+01,   1.48413159e+02,   4.03428793e+02]],

       [[  1.09663316e+03,   2.98095799e+03,   8.10308393e+03],
        [  2.20264658e+04,   5.98741417e+04,   1.62754791e+05]]])

### Запись логических условий в виде операций с массивами 

In [64]:
xarr =  np.array ( [ 1., 1, 1.2, 1., 3, 1.4, 1.5]) 
aarr =  np.array ( [ 2., 3, 4.2, 1., 2, 4.4, 5.5]) 
cond =  np.array ( [ True, False, False, True, True, False, False])

In [66]:
result = [(х if с else у) for х, у, с in zip(xarr, aarr, cond)] 
result

[1.0, 3.0, 4.2000000000000002, 1.0, 3.0, 4.4000000000000004, 5.5]

In [68]:
result = np.where(cond, xarr, aarr) 
result

array([ 1. ,  3. ,  4.2,  1. ,  3. ,  4.4,  5.5])

### Математические и статистические операции

In [75]:
arr = np.random.randn(5, 4) 
arr

array([[-0.73174703, -0.69414237,  0.2959389 , -0.69792069],
       [ 1.6852899 ,  0.21483256, -2.36752878,  0.95644636],
       [ 1.59323528, -0.0491784 ,  1.05365596,  0.62718197],
       [ 1.72018652,  0.53819322, -0.66929765, -1.55787294],
       [ 0.24985631,  0.21305607,  0.87617438,  0.30024313]])

In [76]:
arr.shape

(5, 4)

In [70]:
arr.mean()

-0.030892063827806772

In [71]:
arr.sum()

-0.61784127655613541

In [72]:
np.max(arr)

2.4083898226260931

In [73]:
arr.mean(axis = 1)

array([-0.58465628, -0.01135694,  0.46870427,  0.39405431, -0.42120568])

In [78]:
arr = np.array([[0, 1, 2], [3, 4, 5], [6, 7, 8]]) 

In [79]:
arr.cumsum(axis = 0)

array([[ 0,  1,  2],
       [ 3,  5,  7],
       [ 9, 12, 15]], dtype=int32)

In [81]:
arr.cumprod(axis = 0)

array([[ 0,  1,  2],
       [ 0,  4, 10],
       [ 0, 28, 80]], dtype=int32)

### Сортировка

In [85]:
arr = np.random.randn(8) 
arr

array([-0.27439736,  0.26697044,  0.32017069,  1.53151931, -1.14770277,
       -4.11956977, -1.30756937, -0.4531785 ])

In [86]:
arr.sort()
arr

array([-4.11956977, -1.30756937, -1.14770277, -0.4531785 , -0.27439736,
        0.26697044,  0.32017069,  1.53151931])

In [89]:
arr = np.random.randn(5,3) 
arr

array([[ 1.15072813,  0.61900039, -0.01698113],
       [-0.78514144,  1.11580339, -0.91514206],
       [ 0.33299778, -0.06609006, -1.31261989],
       [ 0.64185006, -0.09790767, -0.56040281],
       [ 1.52138729,  0.44028181,  0.52599802]])

In [90]:
arr.sort(0)
arr

array([[-0.78514144, -0.09790767, -1.31261989],
       [ 0.33299778, -0.06609006, -0.91514206],
       [ 0.64185006,  0.44028181, -0.56040281],
       [ 1.15072813,  0.61900039, -0.01698113],
       [ 1.52138729,  1.11580339,  0.52599802]])

In [91]:
arr.sort(1) 
arr

array([[-1.31261989, -0.78514144, -0.09790767],
       [-0.91514206, -0.06609006,  0.33299778],
       [-0.56040281,  0.44028181,  0.64185006],
       [-0.01698113,  0.61900039,  1.15072813],
       [ 0.52599802,  1.11580339,  1.52138729]])

In [94]:
#возвращает копию
arr = np.random.randn(5,3) 
np.sort(arr)

array([[-0.80545956, -0.44904512, -0.16760849],
       [-1.14064002, -0.72901415,  0.21421095],
       [ 1.23601922,  1.84726602,  1.85983296],
       [-1.98854601, -0.05941295,  2.37730797],
       [-1.13094827, -0.13513543,  1.34517991]])

In [95]:
arr

array([[-0.44904512, -0.16760849, -0.80545956],
       [-0.72901415,  0.21421095, -1.14064002],
       [ 1.84726602,  1.85983296,  1.23601922],
       [ 2.37730797, -0.05941295, -1.98854601],
       [-1.13094827,  1.34517991, -0.13513543]])

### Хранение массивов на диске в двоичном формате 

*np.save* и *np.load* - основные функции для эффективного сохранения и загрузки данных с диска. По умолчанию массивы хранятся в несжатом двоичном формате в файле с расширением *.npy*. 

In [96]:
arr = np.arange(10)

In [99]:
np.save('some_array', arr) 

In [100]:
np.load( 'some_array.npy') 

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

Можно сохранить несколько массивов в ziр-архиве с помощью функции np. savez, которой массивы передаются в виде именованных аргументов: 

In [101]:
np.savez('array_archive.npz', a=arr, b=arr) 

In [102]:
arch = np.load('array_archive.npz') 

In [103]:
arch['b']

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

### Линейная алгебра с Numpy

Подробная инструкция - https://docs.scipy.org/doc/numpy/reference/routines.linalg.html

In [111]:
a = np.arange(27).reshape((3,3,3))

In [112]:
a

array([[[ 0,  1,  2],
        [ 3,  4,  5],
        [ 6,  7,  8]],

       [[ 9, 10, 11],
        [12, 13, 14],
        [15, 16, 17]],

       [[18, 19, 20],
        [21, 22, 23],
        [24, 25, 26]]])

In [113]:
np.linalg.det(a)

array([  0.00000000e+00,   4.99600361e-15,   0.00000000e+00])

### Анализ данных с помощью библиотеки Pandas

<img width = '700px' src="images/lesson_2/1_ltQN5rQ5tI0fcQz7fMqsww.png">

**Pandas** это высокоуровневая Python библиотека для анализа данных, построена она поверх более низкоуровневой библиотеки NumPy (написана на Си), что является большим плюсом в производительности. В экосистеме Python, pandas является наиболее продвинутой и быстроразвивающейся библиотекой для обработки и анализа данных. 

Основными структурами данных в Pandas являются классы **Series** и **DataFrame**.

### Pandas Series

Структура/объект Series представляет из себя объект, похожий на одномерный массив (питоновский список, например), но отличительной его чертой является наличие ассоциированных меток, т.н. индексов, вдоль каждого элемента из списка. Такая особенность превращает его в ассоциативный массив или словарь в Python.

In [15]:
import pandas as pd
my_series = pd.Series([5, 6, 7, 8, 9, 10])
my_series

0     5
1     6
2     7
3     8
4     9
5    10
dtype: int64

In [4]:
my_series.index

RangeIndex(start=0, stop=6, step=1)

In [6]:
my_series.values

array([ 5,  6,  7,  8,  9, 10], dtype=int64)

In [8]:
my_series2 = pd.Series([5, 6, 7, 8, 9, 10], index=['a', 'b', 'c', 'd', 'e', 'f'])
my_series2

a     5
b     6
c     7
d     8
e     9
f    10
dtype: int64

In [17]:
my_series[[4]]

4    9
dtype: int64

In [16]:
my_series2[['a']]

a    5
dtype: int64

In [18]:
my_series2[['a', 'b', 'f']] = 0
my_series2

a    0
b    0
c    7
d    8
e    9
f    0
dtype: int64

In [19]:
my_series2[my_series2 > 0]

c    7
d    8
e    9
dtype: int64

In [20]:
my_series3 = pd.Series({'a': 5, 'b': 6, 'c': 7, 'd': 8})
my_series3

a    5
b    6
c    7
d    8
dtype: int64

In [21]:
my_series3.name = 'numbers'
my_series3.index.name = 'letters'
my_series3

letters
a    5
b    6
c    7
d    8
Name: numbers, dtype: int64

### Pandas DataFrame

Объект DataFrame лучше всего представлять себе в виде обычной таблицы и это правильно, ведь DataFrame является табличной структурой данных. В любой таблице всегда присутствуют строки и столбцы. Столбцами в объекте DataFrame выступают объекты Series, строки которых являются их непосредственными элементами.

In [23]:
df = pd.DataFrame({
    'country': ['Kazakhstan', 'Russia', 'Belarus', 'Ukraine'],
    'population': [17.04, 143.5, 9.5, 45.5],
    'square': [2724902, 17125191, 207600, 603628]
})
df

Unnamed: 0,country,population,square
0,Kazakhstan,17.04,2724902
1,Russia,143.5,17125191
2,Belarus,9.5,207600
3,Ukraine,45.5,603628


In [24]:
df.population

0     17.04
1    143.50
2      9.50
3     45.50
Name: population, dtype: float64

In [25]:
df.index = ['KZ', 'RU', 'BY', 'UA']
df

Unnamed: 0,country,population,square
KZ,Kazakhstan,17.04,2724902
RU,Russia,143.5,17125191
BY,Belarus,9.5,207600
UA,Ukraine,45.5,603628


Доступ к строкам по индексу возможен несколькими способами:

- .loc - используется для доступа по строковой метке
- .iloc - используется для доступа по числовому значению (начиная от 0)

In [31]:
df.loc['KZ']

country       Kazakhstan
population         17.04
square           2724902
Name: KZ, dtype: object

In [32]:
df.iloc[0]

country       Kazakhstan
population         17.04
square           2724902
Name: KZ, dtype: object

In [34]:
#индекс + колонки
df.loc[['KZ', 'RU'], 'population']

KZ     17.04
RU    143.50
Name: population, dtype: float64

In [35]:
df[df.population > 10][['country', 'square']]

Unnamed: 0,country,square
KZ,Kazakhstan,2724902
RU,Russia,17125191
UA,Ukraine,603628


In [26]:
#более сложное условие
df[(df.square > 70000) & (df.country == 'Russia')][['country', 'square']]

Unnamed: 0,country,square
RU,Russia,17125191


In [37]:
df['density'] = df['population'] / df['square'] * 1000000
df

Unnamed: 0,country,population,square,density
KZ,Kazakhstan,17.04,2724902,6.253436
RU,Russia,143.5,17125191,8.379469
BY,Belarus,9.5,207600,45.761079
UA,Ukraine,45.5,603628,75.37755


In [1]:
df.drop(['density'], axis='columns')
# df.drop(['density'], axis='columns',inplace =True)

NameError: name 'df' is not defined

In [39]:
df = df.rename(columns={'Country Code': 'country_code'})
df

Unnamed: 0,country,population,square,density
KZ,Kazakhstan,17.04,2724902,6.253436
RU,Russia,143.5,17125191,8.379469
BY,Belarus,9.5,207600,45.761079
UA,Ukraine,45.5,603628,75.37755


### Работа с данными с помощью Pandas

Источник данных - https://www.kaggle.com/nasa/meteorite-landings.

1).Загрузим исходные данные.

In [16]:
df = pd.read_csv('files/lesson_2/meteorite-landings.csv', sep = ',')
# df.to_csv('files/lesson_2/meteorite-landings-output.csv', index = False)

2).Посмотрим на первые 5 строк файла.

In [17]:
df.head()
# df.tail(10)

Unnamed: 0,name,id,nametype,recclass,mass,fall,year,reclat,reclong,GeoLocation
0,Aachen,1,Valid,L5,21.0,Fell,1880.0,50.775,6.08333,"(50.775000, 6.083330)"
1,Aarhus,2,Valid,H6,720.0,Fell,1951.0,56.18333,10.23333,"(56.183330, 10.233330)"
2,Abee,6,Valid,EH4,107000.0,Fell,1952.0,54.21667,-113.0,"(54.216670, -113.000000)"
3,Acapulco,10,Valid,Acapulcoite,1914.0,Fell,1976.0,16.88333,-99.9,"(16.883330, -99.900000)"
4,Achiras,370,Valid,L6,780.0,Fell,1902.0,-33.16667,-64.95,"(-33.166670, -64.950000)"


По умолчанию выводится 20 столбцов и 60 строк.
Можно изменить, воспользовавшись следующей командой:

In [54]:
pd.set_option('display.max_columns', 100)
pd.set_option('display.max_rows', 100)

3).Посмотрим на размер данных, названия признаков и их типы.

In [18]:
#45716 наблюдений и 10 колонок
df.shape

(45716, 10)

In [20]:
df.shape[0]

45716

In [56]:
df.columns

Index(['name', 'id', 'nametype', 'recclass', 'mass', 'fall', 'year', 'reclat',
       'reclong', 'GeoLocation'],
      dtype='object')

4).Посмотрим общую информацию по датафрейму.

In [58]:
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 45716 entries, 0 to 45715
Data columns (total 10 columns):
name           45716 non-null object
id             45716 non-null int64
nametype       45716 non-null object
recclass       45716 non-null object
mass           45585 non-null float64
fall           45716 non-null object
year           45428 non-null float64
reclat         38401 non-null float64
reclong        38401 non-null float64
GeoLocation    38401 non-null object
dtypes: float64(4), int64(1), object(5)
memory usage: 3.5+ MB
None


Для просмотра числовых статистик можно воспользоваться методом *describe*: 

In [59]:
df.describe()

Unnamed: 0,id,mass,year,reclat,reclong
count,45716.0,45585.0,45428.0,38401.0,38401.0
mean,26889.735104,13278.08,1991.772189,-39.12258,61.074319
std,16860.68303,574988.9,27.181247,46.378511,80.647298
min,1.0,0.0,301.0,-87.36667,-165.43333
25%,12688.75,7.2,1987.0,-76.71424,0.0
50%,24261.5,32.6,1998.0,-71.5,35.66667
75%,40656.75,202.6,2003.0,0.0,157.16667
max,57458.0,60000000.0,2501.0,81.16667,354.47333


In [67]:
df.describe(include=['object'])

Unnamed: 0,name,nametype,recclass,fall,GeoLocation
count,45716,45716,45716,45716,38401
unique,45716,2,466,2,17100
top,Elephant Moraine 90116,Valid,L6,Found,"(0.000000, 0.000000)"
freq,1,45641,8285,44609,6214


Также по нечисловым признакам можно изучить распределение:

In [69]:
df.recclass.value_counts()[:5]

L6    8285
H5    7142
L5    4796
H6    4528
H4    4211
Name: recclass, dtype: int64

5).Изменим тип колонок в том случае, если это необходимо.

In [61]:
df['mass'] = df['mass'].astype('float32')

In [62]:
#Обратить внимание, как изменился размер занимаемой памяти
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 45716 entries, 0 to 45715
Data columns (total 10 columns):
name           45716 non-null object
id             45716 non-null int64
nametype       45716 non-null object
recclass       45716 non-null object
mass           45585 non-null float32
fall           45716 non-null object
year           45428 non-null float64
reclat         38401 non-null float64
reclong        38401 non-null float64
GeoLocation    38401 non-null object
dtypes: float32(1), float64(3), int64(1), object(5)
memory usage: 3.3+ MB
None


6).Применить к данным требуемые операции.

In [70]:
#Сортировка
df.sort_values(by=['recclass', 'mass'], ascending=[True, False]).head(2)

Unnamed: 0,name,id,nametype,recclass,mass,fall,year,reclat,reclong,GeoLocation
27673,Northwest Africa 2656,32485,Valid,Acapulcoite,7500.0,Found,2003.0,,,
30353,Northwest Africa 725,17807,Valid,Acapulcoite,3824.0,Found,,30.6,-5.05,"(30.600000, -5.050000)"


In [71]:
#Извлечение данных
df.loc[0:5,:]

Unnamed: 0,name,id,nametype,recclass,mass,fall,year,reclat,reclong,GeoLocation
0,Aachen,1,Valid,L5,21.0,Fell,1880.0,50.775,6.08333,"(50.775000, 6.083330)"
1,Aarhus,2,Valid,H6,720.0,Fell,1951.0,56.18333,10.23333,"(56.183330, 10.233330)"
2,Abee,6,Valid,EH4,107000.0,Fell,1952.0,54.21667,-113.0,"(54.216670, -113.000000)"
3,Acapulco,10,Valid,Acapulcoite,1914.0,Fell,1976.0,16.88333,-99.9,"(16.883330, -99.900000)"
4,Achiras,370,Valid,L6,780.0,Fell,1902.0,-33.16667,-64.95,"(-33.166670, -64.950000)"
5,Adhi Kot,379,Valid,EH4,4239.0,Fell,1919.0,32.1,71.8,"(32.100000, 71.800000)"


In [72]:
df[df['name'] == 'Abee']['mass'].mean()

107000.0

In [77]:
df.fall.value_counts()

Found    44609
Fell      1107
Name: fall, dtype: int64

In [76]:
#Применение функции к каждому столбцу/строке
df[['mass', 'id']].apply(np.max)

mass    60000000.0
id         57458.0
dtype: float64

In [82]:
#Замена значений в колонке
d = {'Found' : 1, 'Fell' : 0}
df['status'] = df['fall'].map(d)
df.tail(2)

Unnamed: 0,name,id,nametype,recclass,mass,fall,year,reclat,reclong,GeoLocation,status
45714,Zubkovsky,31357,Valid,L6,2167.0,Found,2003.0,49.78917,41.5046,"(49.789170, 41.504600)",1
45715,Zulu Queen,30414,Valid,L3.7,200.0,Found,1976.0,33.98333,-115.68333,"(33.983330, -115.683330)",1


In [88]:
#Группировка данных
#df.groupby(by=grouping_columns)[columns_to_show].function()

df.groupby(by = 'fall')['mass'].max()

fall
Fell     23000000.0
Found    60000000.0
Name: mass, dtype: float32

In [90]:
df.groupby(by = 'fall')['mass'].agg([np.mean, np.std, np.min, np.max])

Unnamed: 0_level_0,mean,std,amin,amax
fall,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Fell,47070.714844,717067.125,0.1,23000000.0
Found,12461.922852,571105.75,0.0,60000000.0


In [93]:
#Cводные таблицы
pd.crosstab(df['fall'], df['nametype'])

nametype,Relict,Valid
fall,Unnamed: 1_level_1,Unnamed: 2_level_1
Fell,0,1107
Found,75,44534


In [94]:
pd.crosstab(df['fall'], df['nametype'], normalize = True)

nametype,Relict,Valid
fall,Unnamed: 1_level_1,Unnamed: 2_level_1
Fell,0.0,0.024215
Found,0.001641,0.974145


### Merge, join, and concatenate

Классическая статья из документации Pandas - http://pandas.pydata.org/pandas-docs/stable/merging.html

In [60]:
raw_data = {
        'subject_id': ['1', '2', '3', '4', '5'],
        'first_name': ['Alex', 'Amy', 'Allen', 'Alice', 'Ayoung'], 
        'last_name': ['Anderson', 'Ackerman', 'Ali', 'Aoni', 'Atiches']}
df_a = pd.DataFrame(raw_data, columns = ['subject_id', 'first_name', 'last_name'])
df_a.index = [0,1,2,3,4]
df_a

Unnamed: 0,subject_id,first_name,last_name
0,1,Alex,Anderson
1,2,Amy,Ackerman
2,3,Allen,Ali
3,4,Alice,Aoni
4,5,Ayoung,Atiches


In [61]:
raw_data = {
        'subject_id': ['4', '5', '6', '7', '8'],
        'first_name': ['Billy', 'Brian', 'Bran', 'Bryce', 'Betty'], 
        'last_name': ['Bonder', 'Black', 'Balwner', 'Brice', 'Btisan']}
df_b = pd.DataFrame(raw_data, columns = ['subject_id', 'first_name', 'last_name'])
df_b.index = [2,3,4,5,6]
df_b

Unnamed: 0,subject_id,first_name,last_name
2,4,Billy,Bonder
3,5,Brian,Black
4,6,Bran,Balwner
5,7,Bryce,Brice
6,8,Betty,Btisan


In [62]:
raw_data = {
        'subject_id': ['1', '2', '3', '4', '5', '7', '8', '9', '10', '11'],
        'test_id': [51, 15, 15, 61, 16, 14, 15, 1, 61, 16]}
df_n = pd.DataFrame(raw_data, columns = ['subject_id','test_id'])
df_n

Unnamed: 0,subject_id,test_id
0,1,51
1,2,15
2,3,15
3,4,61
4,5,16
5,7,14
6,8,15
7,9,1
8,10,61
9,11,16


**Concat** как правило используется для объединения таблиц по вертикальной или горизонтальной оси.

In [63]:
df_new = pd.concat([df_a, df_b])
df_new

Unnamed: 0,subject_id,first_name,last_name
0,1,Alex,Anderson
1,2,Amy,Ackerman
2,3,Allen,Ali
3,4,Alice,Aoni
4,5,Ayoung,Atiches
2,4,Billy,Bonder
3,5,Brian,Black
4,6,Bran,Balwner
5,7,Bryce,Brice
6,8,Betty,Btisan


<img width = '400px' src="images/lesson_2/merging_concat_basic.png">

In [64]:
df_new_ = pd.concat([df_a, df_b],axis = 1)
df_new_

Unnamed: 0,subject_id,first_name,last_name,subject_id.1,first_name.1,last_name.1
0,1.0,Alex,Anderson,,,
1,2.0,Amy,Ackerman,,,
2,3.0,Allen,Ali,4.0,Billy,Bonder
3,4.0,Alice,Aoni,5.0,Brian,Black
4,5.0,Ayoung,Atiches,6.0,Bran,Balwner
5,,,,7.0,Bryce,Brice
6,,,,8.0,Betty,Btisan


<img width = '800px' src="images/lesson_2/merging_concat_axis1.png">

<img width = '800px' src="images/lesson_2/join-types-merge-names.jpg">

In [65]:
#Concat, но только с помощью атрибута "inner"
df_new_ = pd.concat([df_a, df_b],axis = 1,join='inner')
df_new_

Unnamed: 0,subject_id,first_name,last_name,subject_id.1,first_name.1,last_name.1
2,3,Allen,Ali,4,Billy,Bonder
3,4,Alice,Aoni,5,Brian,Black
4,5,Ayoung,Atiches,6,Bran,Balwner


<img width = '800px' src="images/lesson_2/merging_concat_axis1_inner.png">

**Append** - частный случай метода **Concat** с параметрами (axis=0, join='outer').

In [48]:
df_a.append(df_b)

Unnamed: 0,subject_id,first_name,last_name
0,1,Alex,Anderson
1,2,Amy,Ackerman
2,3,Allen,Ali
3,4,Alice,Aoni
4,5,Ayoung,Atiches
2,4,Billy,Bonder
3,5,Brian,Black
4,6,Bran,Balwner
5,7,Bryce,Brice
6,8,Betty,Btisan


Метод **Join** основан на объединении таблиц через индексы (способ объединения указывается с помощью параметра how = ['left','right','inner','couter']).

In [55]:
# df_a.join(df_b,how = 'left')
df_a.join(df_b,rsuffix='_right_table',how = 'left')

Unnamed: 0,subject_id,first_name,last_name,subject_id_right_table,first_name_right_table,last_name_right_table
0,1,Alex,Anderson,,,
1,2,Amy,Ackerman,,,
2,3,Allen,Ali,4.0,Billy,Bonder
3,4,Alice,Aoni,5.0,Brian,Black
4,5,Ayoung,Atiches,6.0,Bran,Balwner


<img width = '800px' src="images/lesson_2/merging_join.png">

**Merge** используется для объединения таблиц по любым колонкам с помощью методов left_on и right_on.

In [59]:
df_new

Unnamed: 0,subject_id,first_name,last_name,subject_id.1,first_name.1,last_name.1
2,3,Allen,Ali,4,Billy,Bonder
3,4,Alice,Aoni,5,Brian,Black
4,5,Ayoung,Atiches,6,Bran,Balwner


In [67]:
#Стоит обратить внимание, что колонка subject_id не дублируется в новой таблице
pd.merge(df_new, df_n, on='subject_id')

Unnamed: 0,subject_id,first_name,last_name,test_id
0,1,Alex,Anderson,51
1,2,Amy,Ackerman,15
2,3,Allen,Ali,15
3,4,Alice,Aoni,61
4,4,Billy,Bonder,61
5,5,Ayoung,Atiches,16
6,5,Brian,Black,16
7,7,Bryce,Brice,14
8,8,Betty,Btisan,15


In [68]:
pd.merge(df_new, df_n, left_on='subject_id', right_on='subject_id')

Unnamed: 0,subject_id,first_name,last_name,test_id
0,1,Alex,Anderson,51
1,2,Amy,Ackerman,15
2,3,Allen,Ali,15
3,4,Alice,Aoni,61
4,4,Billy,Bonder,61
5,5,Ayoung,Atiches,16
6,5,Brian,Black,16
7,7,Bryce,Brice,14
8,8,Betty,Btisan,15


In [71]:
pd.merge(df_a, df_b, on='subject_id', how='left')

Unnamed: 0,subject_id,first_name_x,last_name_x,first_name_y,last_name_y
0,1,Alex,Anderson,,
1,2,Amy,Ackerman,,
2,3,Allen,Ali,,
3,4,Alice,Aoni,Billy,Bonder
4,5,Ayoung,Atiches,Brian,Black


<img width = '800px' src="images/lesson_2/merging_merge_on_key_left.png">

In [72]:
pd.merge(df_a, df_b, on='subject_id', how='right')

Unnamed: 0,subject_id,first_name_x,last_name_x,first_name_y,last_name_y
0,4,Alice,Aoni,Billy,Bonder
1,5,Ayoung,Atiches,Brian,Black
2,6,,,Bran,Balwner
3,7,,,Bryce,Brice
4,8,,,Betty,Btisan


<img width = '800px' src="images/lesson_2/merging_merge_on_key_right.png">

In [73]:
pd.merge(df_a, df_b, right_index=True, left_index=True)

Unnamed: 0,subject_id_x,first_name_x,last_name_x,subject_id_y,first_name_y,last_name_y
2,3,Allen,Ali,4,Billy,Bonder
3,4,Alice,Aoni,5,Brian,Black
4,5,Ayoung,Atiches,6,Bran,Balwner
