In [1]:
import pandas as pd
import numpy as np

#### Вычисление статистических показателей

In [70]:
df = pd.DataFrame(np.random.randint(1, 101, 35).reshape(7, 5), ['a', 'b', 'c', 'd', 'e', 'f', 'g'], 
                  ['France', 'Spain', 'Italy', 'Germany', 'Great Britain'])

In [71]:
df

Unnamed: 0,France,Spain,Italy,Germany,Great Britain
a,15,79,85,12,49
b,98,88,53,45,87
c,47,61,95,98,84
d,14,38,46,15,29
e,58,65,96,61,76
f,51,79,82,45,8
g,59,79,32,95,23


In [72]:
df['France'].max()

98

In [73]:
df['France'].min()

14

In [74]:
df['France'].sum()

342

In [75]:
df['France'].mean()

48.857142857142854

In [76]:
df['France'].count()

7

In [77]:
df.max()

France           98
Spain            88
Italy            96
Germany          98
Great Britain    87
dtype: int32

In [78]:
df.describe()

Unnamed: 0,France,Spain,Italy,Germany,Great Britain
count,7.0,7.0,7.0,7.0,7.0
mean,48.857143,69.857143,69.857143,53.0,50.857143
std,28.783262,16.816942,25.75156,34.414144,31.965755
min,14.0,38.0,32.0,12.0,8.0
25%,31.0,63.0,49.5,30.0,26.0
50%,51.0,79.0,82.0,45.0,49.0
75%,58.5,79.0,90.0,78.0,80.0
max,98.0,88.0,96.0,98.0,87.0


In [79]:
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
France,7.0,48.857143,28.783262,14.0,31.0,51.0,58.5,98.0
Spain,7.0,69.857143,16.816942,38.0,63.0,79.0,79.0,88.0
Italy,7.0,69.857143,25.75156,32.0,49.5,82.0,90.0,96.0
Germany,7.0,53.0,34.414144,12.0,30.0,45.0,78.0,98.0
Great Britain,7.0,50.857143,31.965755,8.0,26.0,49.0,80.0,87.0


#### Нахождение уникальных значений

In [80]:
df.loc['a','France'] = 98

In [81]:
df

Unnamed: 0,France,Spain,Italy,Germany,Great Britain
a,98,79,85,12,49
b,98,88,53,45,87
c,47,61,95,98,84
d,14,38,46,15,29
e,58,65,96,61,76
f,51,79,82,45,8
g,59,79,32,95,23


In [82]:
df['France'].unique()

array([98, 47, 14, 58, 51, 59])

In [83]:
# Количество уникальных значений
df['France'].nunique()

6

In [84]:
# Показать количества появлений 
df['France'].value_counts()

France
98    2
47    1
14    1
58    1
51    1
59    1
Name: count, dtype: int64

#### Отбор пропущенных значений

В библиотеке pandas для обозначения пропущенных значений используется значение NaN библиотеки NumPy (от англ. Not a Number — не число). 

In [85]:
df.loc['a', 'France'] = np.NaN

In [86]:
df

Unnamed: 0,France,Spain,Italy,Germany,Great Britain
a,,79,85,12,49
b,98.0,88,53,45,87
c,47.0,61,95,98,84
d,14.0,38,46,15,29
e,58.0,65,96,61,76
f,51.0,79,82,45,8
g,59.0,79,32,95,23


In [87]:
# Выбрать пропущенные значения
df[df['France'].isnull()].head()

Unnamed: 0,France,Spain,Italy,Germany,Great Britain
a,,79,85,12,49


In [88]:
df.dropna()

Unnamed: 0,France,Spain,Italy,Germany,Great Britain
b,98.0,88,53,45,87
c,47.0,61,95,98,84
d,14.0,38,46,15,29
e,58.0,65,96,61,76
f,51.0,79,82,45,8
g,59.0,79,32,95,23


In [89]:
df.dropna(axis=1)

Unnamed: 0,Spain,Italy,Germany,Great Britain
a,79,85,12,49
b,88,53,45,87
c,61,95,98,84
d,38,46,15,29
e,65,96,61,76
f,79,82,45,8
g,79,32,95,23


In [90]:
df.fillna(value='Something')

Unnamed: 0,France,Spain,Italy,Germany,Great Britain
a,Something,79,85,12,49
b,98.0,88,53,45,87
c,47.0,61,95,98,84
d,14.0,38,46,15,29
e,58.0,65,96,61,76
f,51.0,79,82,45,8
g,59.0,79,32,95,23


In [91]:
df['France'].fillna(value=df['France'].mean())

a    54.5
b    98.0
c    47.0
d    14.0
e    58.0
f    51.0
g    59.0
Name: France, dtype: float64

In [92]:
df

Unnamed: 0,France,Spain,Italy,Germany,Great Britain
a,,79,85,12,49
b,98.0,88,53,45,87
c,47.0,61,95,98,84
d,14.0,38,46,15,29
e,58.0,65,96,61,76
f,51.0,79,82,45,8
g,59.0,79,32,95,23


####  Группирование строк по значениям

In [25]:
dict = {'Company':['COMP1', 'COMP1', 'COMP2', 'COMP2', 'COMP3', 'COMP3'], 'Month':['JAN', 'FEB', 'MAR', 'APR', 'May','JUN'], 
       'Salary':[2000, 1500, 3000, 5000, 2500, 3500]}

In [26]:
df = pd.DataFrame(dict)

In [27]:
df

Unnamed: 0,Company,Month,Salary
0,COMP1,JAN,2000
1,COMP1,FEB,1500
2,COMP2,MAR,3000
3,COMP2,APR,5000
4,COMP3,May,2500
5,COMP3,JUN,3500


In [28]:
df.groupby('Company').agg({'Salary': ['sum'], 'Month':['count']})

Unnamed: 0_level_0,Salary,Month
Unnamed: 0_level_1,sum,count
Company,Unnamed: 1_level_2,Unnamed: 2_level_2
COMP1,3500,2
COMP2,8000,2
COMP3,6000,2


In [29]:
df.groupby(by='Company').count()

Unnamed: 0_level_0,Month,Salary
Company,Unnamed: 1_level_1,Unnamed: 2_level_1
COMP1,2,2
COMP2,2,2
COMP3,2,2


In [30]:
groupby_comp = df.groupby('Company')

In [31]:
groupby_comp.count()

Unnamed: 0_level_0,Month,Salary
Company,Unnamed: 1_level_1,Unnamed: 2_level_1
COMP1,2,2
COMP2,2,2
COMP3,2,2


In [32]:
groupby_comp.sum()

Unnamed: 0_level_0,Month,Salary
Company,Unnamed: 1_level_1,Unnamed: 2_level_1
COMP1,JANFEB,3500
COMP2,MARAPR,8000
COMP3,MayJUN,6000


In [33]:
groupby_comp['Salary'].sum()

Company
COMP1    3500
COMP2    8000
COMP3    6000
Name: Salary, dtype: int64

In [34]:
groupby_comp.sum().loc['COMP3']

Month     MayJUN
Salary      6000
Name: COMP3, dtype: object

In [35]:
groupby_comp.count()

Unnamed: 0_level_0,Month,Salary
Company,Unnamed: 1_level_1,Unnamed: 2_level_1
COMP1,2,2
COMP2,2,2
COMP3,2,2


In [36]:
groupby_comp.max()

Unnamed: 0_level_0,Month,Salary
Company,Unnamed: 1_level_1,Unnamed: 2_level_1
COMP1,JAN,2000
COMP2,MAR,5000
COMP3,May,3500


In [37]:
groupby_comp.min()

Unnamed: 0_level_0,Month,Salary
Company,Unnamed: 1_level_1,Unnamed: 2_level_1
COMP1,FEB,1500
COMP2,APR,3000
COMP3,JUN,2500


In [38]:
df.groupby('Company').describe()

Unnamed: 0_level_0,Salary,Salary,Salary,Salary,Salary,Salary,Salary,Salary
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
Company,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
COMP1,2.0,1750.0,353.553391,1500.0,1625.0,1750.0,1875.0,2000.0
COMP2,2.0,4000.0,1414.213562,3000.0,3500.0,4000.0,4500.0,5000.0
COMP3,2.0,3000.0,707.106781,2500.0,2750.0,3000.0,3250.0,3500.0


In [39]:
comp3 = df.groupby('Company').describe().transpose()['COMP3']

In [40]:
comp3

Salary  count       2.000000
        mean     3000.000000
        std       707.106781
        min      2500.000000
        25%      2750.000000
        50%      3000.000000
        75%      3250.000000
        max      3500.000000
Name: COMP3, dtype: float64

#### Обход столбца в цикле

In [41]:
for x in df['Company'].loc[:2]:
    print(x)

COMP1
COMP1
COMP2


In [42]:
df['Company'].loc[:2]

0    COMP1
1    COMP1
2    COMP2
Name: Company, dtype: object

#### Применение функции ко всем элементам в столбце

Для применения встроенной или заданной пользователем функции к каждому элементу в столбце использовать метод apply.

In [43]:
def times3(x):
    return x * 3

In [44]:
df['Salary'].apply(times3)

0     6000
1     4500
2     9000
3    15000
4     7500
5    10500
Name: Salary, dtype: int64

In [45]:
df['Salary'].apply(times3).sum()

52500

In [46]:
df['Salary'].apply(lambda x: x * 3)

0     6000
1     4500
2     9000
3    15000
4     7500
5    10500
Name: Salary, dtype: int64

In [47]:
# Сгруппировать строки, применить функцию к группам 
df.groupby('Company').apply(lambda x : x.count())

  df.groupby('Company').apply(lambda x : x.count())


Unnamed: 0_level_0,Company,Month,Salary
Company,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
COMP1,2,2,2
COMP2,2,2,2
COMP3,2,2,2


In [48]:
df.groupby('Company')[['Month', 'Salary']].apply(lambda x : x.count())

Unnamed: 0_level_0,Month,Salary
Company,Unnamed: 1_level_1,Unnamed: 2_level_1
COMP1,2,2
COMP2,2,2
COMP3,2,2


#### Конкатенация фреймов данныx

In [49]:
# Создать фрейм данных
data_a = {'id': ['1', '2', '3'], 'first': ['Alex', 'Amy', 'Allen'], 'last': ['Anderson', 'Ackerman', 'Ali']} 
df_a = pd.DataFrame(data_a, columns = ['id', 'first', 'last'])

In [50]:
# Создать фрейм данных
data_b = {'id': ['4', '5', '6'], 'first': ['Billy', 'Brian', 'Bran'], 'last': ['Bonder', 'Black', 'Balwner']} 
df_b = pd.DataFrame(data_b, columns = ['id', 'first', 'last'])

In [51]:
df_a

Unnamed: 0,id,first,last
0,1,Alex,Anderson
1,2,Amy,Ackerman
2,3,Allen,Ali


In [52]:
df_b

Unnamed: 0,id,first,last
0,4,Billy,Bonder
1,5,Brian,Black
2,6,Bran,Balwner


In [53]:
# Конкатенировать фреймы данных по строкам 
pd.concat([df_a, df_b], axis=0)

Unnamed: 0,id,first,last
0,1,Alex,Anderson
1,2,Amy,Ackerman
2,3,Allen,Ali
0,4,Billy,Bonder
1,5,Brian,Black
2,6,Bran,Balwner


In [54]:
# Конкатенировать фреймы данных по столбцам 
pd.concat([df_a, df_b], axis=1)

Unnamed: 0,id,first,last,id.1,first.1,last.1
0,1,Alex,Anderson,4,Billy,Bonder
1,2,Amy,Ackerman,5,Brian,Black
2,3,Allen,Ali,6,Bran,Balwner


####  Слияние фреймов данных

Для того чтобы применить внутреннее соединение, использовать метод merge с параметром on, задающим столбец, по которому происходит слияние

In [55]:
# Создать фрейм данных
employee_data = {'employee_id': ['1', ' 2', '3', '4'], 'name': ['Amy Jones', 'Allen Keys', 'Alice Bees','Tim Horton']}
dataframe_employees = pd.DataFrame(employee_data, columns = ['employee_id', 'name'])

In [56]:
dataframe_employees

Unnamed: 0,employee_id,name
0,1,Amy Jones
1,2,Allen Keys
2,3,Alice Bees
3,4,Tim Horton


In [57]:
# Создать фрейм данных
sales_data = {'employee_id': ['3', '4', '5', '6'], 'total_sales':[23456, 2512, 2345, 1455]}
dataframe_sales = pd.DataFrame(sales_data, columns = ['employee_id','total_sales'])

In [58]:
dataframe_sales

Unnamed: 0,employee_id,total_sales
0,3,23456
1,4,2512
2,5,2345
3,6,1455


In [59]:
# Выполнить слияние фреймов данных
pd.merge(dataframe_employees, dataframe_sales, on='employee_id')

Unnamed: 0,employee_id,name,total_sales
0,3,Alice Bees,23456
1,4,Tim Horton,2512


Метод merge по умолчанию выполняет операцию внутреннего соединения. Если необходимо сделать внешнее соединение, можно указать это при помощи параметра how

In [60]:
# Выполнить слияние фреймов данных 
pd.merge(dataframe_employees, dataframe_sales, on='employee_id', how='outer')

Unnamed: 0,employee_id,name,total_sales
0,2,Allen Keys,
1,1,Amy Jones,
2,3,Alice Bees,23456.0
3,4,Tim Horton,2512.0
4,5,,2345.0
5,6,,1455.0


Этот же параметр можно использовать для указания левого и правого соединений

In [61]:
# Выполнить слияние фреймов данных 
pd.merge(dataframe_employees, dataframe_sales, on='employee_id', how='left')

Unnamed: 0,employee_id,name,total_sales
0,1,Amy Jones,
1,2,Allen Keys,
2,3,Alice Bees,23456.0
3,4,Tim Horton,2512.0


In [62]:
# Выполнить слияние фреймов данных 
pd.merge(dataframe_employees, dataframe_sales, left_on='employee_id', right_on='employee_id')

Unnamed: 0,employee_id,name,total_sales
0,3,Alice Bees,23456
1,4,Tim Horton,2512


Метод merge поддерживает четыре основных типа соединений:

♦ внутреннее — вернуть только те строки, которые совпадают в обоих фреймах (например, вернуть любую строку, в которой значение employee id появляется одновременно В dataframe_employees И В dataframe_sales);

♦ внешнее— вернуть все строки в обоих фреймах; если строка существует в одном фрейме, но отсутствует в другом, то пропущенные значения заполнить значениями NaN (например, вернуть все строки И В employee_id, И В dataframe_sales);

♦ левое — вернуть все строки из левого фрейма, но только те строки из правого фрейма, которые совпали с левым фреймом; пропущенные значения заполнить значениями NaN (например, вернуть все строки ИЗ dataframe_employees, но только те строки из dataframe saies, которые имеют значение для employee id, появляющееся В dataframe_employees);

♦ правое — вернуть все строки из правого фрейма, но только те строки из левого фрейма, которые совпали с правым фреймом; пропущенные значения заполнить значениями NaN (например, вернуть все строки из dataframe saies, но только те
строки из dataframe_empioyees, которые имеют значение для empioyee_id, появляющееся В dataframe_sales).

In [63]:
df1 = pd.DataFrame({
                     'user_name': ['James Brown', 'Jack White',
                                   'Jane Green'],
                     'country': ['USA', 'USA', 
                                    'France']},
                  index=['ind1', 'ind2', 'ind3'])

df2 = pd.DataFrame({'order_id': [114, 235, 432],
                     'user_id': [2, 4, 3],
                     'order_date': ['2020-02-11', '2020-02-11', 
                                    '2020-02-15'],
                     'OS': ['Android', 'iOS', 'Android']},
                    index=['ind1', 'ind4', 'ind3'])

In [64]:
df1

Unnamed: 0,user_name,country
ind1,James Brown,USA
ind2,Jack White,USA
ind3,Jane Green,France


In [65]:
df2

Unnamed: 0,order_id,user_id,order_date,OS
ind1,114,2,2020-02-11,Android
ind4,235,4,2020-02-11,iOS
ind3,432,3,2020-02-15,Android


In [66]:
df1.join(df2)

Unnamed: 0,user_name,country,order_id,user_id,order_date,OS
ind1,James Brown,USA,114.0,2.0,2020-02-11,Android
ind2,Jack White,USA,,,,
ind3,Jane Green,France,432.0,3.0,2020-02-15,Android


In [67]:
df2.join(df1)

Unnamed: 0,order_id,user_id,order_date,OS,user_name,country
ind1,114,2,2020-02-11,Android,James Brown,USA
ind4,235,4,2020-02-11,iOS,,
ind3,432,3,2020-02-15,Android,Jane Green,France
