In [1]:
import pandas as pd
import numpy as np

#### Вычисление статистических показателей

In [3]:
df = pd.DataFrame(np.random.randint(1, 101, 35).reshape(7, 5), ['a', 'b', 'c', 'd', 'e', 'f', 'g'], 
                  ['France', 'Spain', 'Italy', 'Germany', 'Great Britain'])

In [4]:
df

Unnamed: 0,France,Spain,Italy,Germany,Great Britain
a,100,2,8,33,50
b,92,79,44,93,15
c,93,24,72,6,72
d,66,3,40,81,52
e,55,97,82,29,67
f,83,57,45,41,82
g,89,47,15,65,60


In [12]:
df['France'].max()

99

In [13]:
df['France'].min()

10

In [14]:
df['France'].sum()

392

In [15]:
df['France'].mean()

56.0

In [16]:
df['France'].count()

7

In [17]:
df.max()

France            99
Spain             98
Italy             96
Germany          100
Great Britain     99
dtype: int32

In [5]:
df.describe()

Unnamed: 0,France,Spain,Italy,Germany,Great Britain
count,7.0,7.0,7.0,7.0,7.0
mean,82.571429,44.142857,43.714286,49.714286,56.857143
std,16.215807,36.644366,27.022918,31.041447,21.590342
min,55.0,2.0,8.0,6.0,15.0
25%,74.5,13.5,27.5,31.0,51.0
50%,89.0,47.0,44.0,41.0,60.0
75%,92.5,68.0,58.5,73.0,69.5
max,100.0,97.0,82.0,93.0,82.0


In [6]:
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
France,7.0,82.571429,16.215807,55.0,74.5,89.0,92.5,100.0
Spain,7.0,44.142857,36.644366,2.0,13.5,47.0,68.0,97.0
Italy,7.0,43.714286,27.022918,8.0,27.5,44.0,58.5,82.0
Germany,7.0,49.714286,31.041447,6.0,31.0,41.0,73.0,93.0
Great Britain,7.0,56.857143,21.590342,15.0,51.0,60.0,69.5,82.0


#### Нахождение уникальных значений

In [44]:
df['France'].loc['a'] = 99

In [41]:
df['France'].unique()

array([99, 91, 89, 69, 33, 82, 26])

In [43]:
# Количество уникальных значений
df['France'].nunique()

7

In [45]:
# Показать количества появлений 
df['France'].value_counts()

99    1
91    1
89    1
69    1
33    1
82    1
26    1
Name: France, dtype: int64

#### Отбор пропущенных значений

В библиотеке pandas для обозначения пропущенных значений используется значение NaN библиотеки NumPy (от англ. Not a Number — не число). 

In [46]:
df['France'].loc['a'] = np.NaN

In [52]:
df

Unnamed: 0,France,Spain,Italy,Germany,Great Britain
a,,8,21,98,81
b,91.0,75,78,3,95
c,89.0,49,85,39,82
d,69.0,81,19,11,30
e,33.0,6,35,69,25
f,82.0,100,81,89,97
g,26.0,76,81,29,59


In [48]:
# Выбрать пропущенные значения
df[df['France'].isnull()].head()

Unnamed: 0,France,Spain,Italy,Germany,Great Britain
a,,8,21,98,81


In [53]:
df.dropna()

Unnamed: 0,France,Spain,Italy,Germany,Great Britain
b,91.0,75,78,3,95
c,89.0,49,85,39,82
d,69.0,81,19,11,30
e,33.0,6,35,69,25
f,82.0,100,81,89,97
g,26.0,76,81,29,59


In [54]:
df.dropna(axis=1)

Unnamed: 0,Spain,Italy,Germany,Great Britain
a,8,21,98,81
b,75,78,3,95
c,49,85,39,82
d,81,19,11,30
e,6,35,69,25
f,100,81,89,97
g,76,81,29,59


In [55]:
df.fillna(value='Something')

Unnamed: 0,France,Spain,Italy,Germany,Great Britain
a,Something,8,21,98,81
b,91.0,75,78,3,95
c,89.0,49,85,39,82
d,69.0,81,19,11,30
e,33.0,6,35,69,25
f,82.0,100,81,89,97
g,26.0,76,81,29,59


In [56]:
df['France'].fillna(value=df['France'].mean())

a    65.0
b    91.0
c    89.0
d    69.0
e    33.0
f    82.0
g    26.0
Name: France, dtype: float64

####  Группирование строк по значениям

In [8]:
dict = {'Company':['COMP1', 'COMP1', 'COMP2', 'COMP2', 'COMP3', 'COMP3'], 'Month':['JAN', 'FEB', 'MAR', 'APR', 'May','JUN'], 
       'Salary':[2000, 1500, 3000, 5000, 2500, 3500]}

In [9]:
df = pd.DataFrame(dict)

In [10]:
df

Unnamed: 0,Company,Month,Salary
0,COMP1,JAN,2000
1,COMP1,FEB,1500
2,COMP2,MAR,3000
3,COMP2,APR,5000
4,COMP3,May,2500
5,COMP3,JUN,3500


In [11]:
df.groupby('Company').mean()

Unnamed: 0_level_0,Salary
Company,Unnamed: 1_level_1
COMP1,1750.0
COMP2,4000.0
COMP3,3000.0


In [12]:
groupby_comp = df.groupby('Company')

In [13]:
groupby_comp.mean()

Unnamed: 0_level_0,Salary
Company,Unnamed: 1_level_1
COMP1,1750.0
COMP2,4000.0
COMP3,3000.0


In [14]:
groupby_comp.sum()

Unnamed: 0_level_0,Salary
Company,Unnamed: 1_level_1
COMP1,3500
COMP2,8000
COMP3,6000


In [15]:
groupby_comp.sum().loc['COMP3']

Salary    6000
Name: COMP3, dtype: int64

In [16]:
groupby_comp.count()

Unnamed: 0_level_0,Month,Salary
Company,Unnamed: 1_level_1,Unnamed: 2_level_1
COMP1,2,2
COMP2,2,2
COMP3,2,2


In [17]:
groupby_comp.max()

Unnamed: 0_level_0,Month,Salary
Company,Unnamed: 1_level_1,Unnamed: 2_level_1
COMP1,JAN,2000
COMP2,MAR,5000
COMP3,May,3500


In [18]:
groupby_comp.min()

Unnamed: 0_level_0,Month,Salary
Company,Unnamed: 1_level_1,Unnamed: 2_level_1
COMP1,FEB,1500
COMP2,APR,3000
COMP3,JUN,2500


In [19]:
df.groupby('Company').describe()

Unnamed: 0_level_0,Salary,Salary,Salary,Salary,Salary,Salary,Salary,Salary
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
Company,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
COMP1,2.0,1750.0,353.553391,1500.0,1625.0,1750.0,1875.0,2000.0
COMP2,2.0,4000.0,1414.213562,3000.0,3500.0,4000.0,4500.0,5000.0
COMP3,2.0,3000.0,707.106781,2500.0,2750.0,3000.0,3250.0,3500.0


In [20]:
comp3 = df.groupby('Company').describe().transpose()['COMP3']

In [21]:
comp3

Salary  count       2.000000
        mean     3000.000000
        std       707.106781
        min      2500.000000
        25%      2750.000000
        50%      3000.000000
        75%      3250.000000
        max      3500.000000
Name: COMP3, dtype: float64

#### Обход столбца в цикле

In [22]:
for x in df['Company'].loc[:2]:
    print(x)

COMP1
COMP1
COMP2


In [23]:
df['Company'].loc[:2]

0    COMP1
1    COMP1
2    COMP2
Name: Company, dtype: object

#### Применение функции ко всем элементам в столбце

Для применения встроенной или заданной пользователем функции к каждому элементу в столбце использовать метод apply.

In [78]:
def times3(x):
    return x * 3

In [79]:
df['Salary'].apply(times3)

0     6000
1     4500
2     9000
3    15000
4     7500
5    10500
Name: Salary, dtype: int64

In [81]:
df['Salary'].apply(times3).sum()

52500

In [82]:
df['Salary'].apply(lambda x: x * 3)

0     6000
1     4500
2     9000
3    15000
4     7500
5    10500
Name: Salary, dtype: int64

In [83]:
# Сгруппировать строки, применить функцию к группам 
df.groupby('Company').apply(lambda x : x.count())

Unnamed: 0_level_0,Company,Month,Salary
Company,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
COMP1,2,2,2
COMP2,2,2,2
COMP3,2,2,2


#### Конкатенация фреймов данныx

In [10]:
# Создать фрейм данных
data_a = {'id': ['1', '2', '3'], 'first': ['Alex', 'Amy', 'Allen'], 'last': ['Anderson', 'Ackerman', 'Ali']} 
df_a = pd.DataFrame(data_a, columns = ['4d', 'first', 'last'])

In [11]:
# Создать фрейм данных
data_b = {'id': ['4', '5', '6'], 'first': ['Billy', 'Brian', 'Bran'], 'last': ['Bonder', 'Black', 'Balwner']} 
df_b = pd.DataFrame(data_b, columns = ['id', 'first', 'last'])

In [12]:
df_a

Unnamed: 0,4d,first,last
0,,Alex,Anderson
1,,Amy,Ackerman
2,,Allen,Ali


In [13]:
df_b

Unnamed: 0,id,first,last
0,4,Billy,Bonder
1,5,Brian,Black
2,6,Bran,Balwner


In [14]:
# Конкатенировать фреймы данных по строкам 
pd.concat([df_a, df_b], axis=0)

Unnamed: 0,4d,first,last,id
0,,Alex,Anderson,
1,,Amy,Ackerman,
2,,Allen,Ali,
0,,Billy,Bonder,4.0
1,,Brian,Black,5.0
2,,Bran,Balwner,6.0


In [89]:
# Конкатенировать фреймы данных по столбцам 
pd.concat([df_a, df_b], axis=1)

Unnamed: 0,id,first,last,id.1,first.1,last.1
0,1,Alex,Anderson,4,Billy,Bonder
1,2,Amy,Ackerman,5,Brian,Black
2,3,Allen,Ali,6,Bran,Balwner


Добавление новой строки во фрейм данных можно с помощью метода append()

In [90]:
# Создать строку
row = pd.Series([10, 'Chris', 'Chillon'], index=['id', 'first', 'last'])

In [91]:
# Добавить строку в конец
df_a.append(row, ignore_index=True)

Unnamed: 0,id,first,last
0,1,Alex,Anderson
1,2,Amy,Ackerman
2,3,Allen,Ali
3,10,Chris,Chillon


####  Слияние фреймов данных

Для того чтобы применить внутреннее соединение, использовать метод merge с параметром on, задающим столбец, по которому происходит слияние

In [93]:
# Создать фрейм данных
employee_data = {'employee_id': ['1', ' 2', '3', '4'], 'name': ['Amy Jones', 'Allen Keys', 'Alice Bees','Tim Horton']}
dataframe_employees = pd.DataFrame(employee_data, columns = ['employee_id', 'name'])

In [94]:
dataframe_employees

Unnamed: 0,employee_id,name
0,1,Amy Jones
1,2,Allen Keys
2,3,Alice Bees
3,4,Tim Horton


In [98]:
# Создать фрейм данных
sales_data = {'employee_id': ['3', '4', '5', '6'], 'total_sales':[23456, 2512, 2345, 1455]}
dataframe_sales = pd.DataFrame(sales_data, columns = ['employee_id','total_sales'])

In [99]:
dataframe_sales

Unnamed: 0,employee_id,total_sales
0,3,23456
1,4,2512
2,5,2345
3,6,1455


In [100]:
# Выполнить слияние фреймов данных
pd.merge(dataframe_employees, dataframe_sales, on='employee_id')

Unnamed: 0,employee_id,name,total_sales
0,3,Alice Bees,23456
1,4,Tim Horton,2512


Метод merge по умолчанию выполняет операцию внутреннего соединения. Если необходимо сделать внешнее соединение, можно указать это при помощи параметра how

In [101]:
# Выполнить слияние фреймов данных 
pd.merge(dataframe_employees, dataframe_sales, on='employee_id', how='outer')

Unnamed: 0,employee_id,name,total_sales
0,1,Amy Jones,
1,2,Allen Keys,
2,3,Alice Bees,23456.0
3,4,Tim Horton,2512.0
4,5,,2345.0
5,6,,1455.0


Этот же параметр можно использовать для указания левого и правого соединений

In [102]:
# Выполнить слияние фреймов данных 
pd.merge(dataframe_employees, dataframe_sales, on='employee_id', how='left')

Unnamed: 0,employee_id,name,total_sales
0,1,Amy Jones,
1,2,Allen Keys,
2,3,Alice Bees,23456.0
3,4,Tim Horton,2512.0


In [103]:
# Выполнить слияние фреймов данных 
pd.merge(dataframe_employees, dataframe_sales, left_on='employee_id', right_on='employee_id')

Unnamed: 0,employee_id,name,total_sales
0,3,Alice Bees,23456
1,4,Tim Horton,2512


Метод merge поддерживает четыре основных типа соединений:

♦ внутреннее — вернуть только те строки, которые совпадают в обоих фреймах (например, вернуть любую строку, в которой значение employee id появляется одновременно В dataframe_employees И В dataframe_sales);

♦ внешнее— вернуть все строки в обоих фреймах; если строка существует в одном фрейме, но отсутствует в другом, то пропущенные значения заполнить значениями NaN (например, вернуть все строки И В employee_id, И В dataframe_sales);

♦ левое — вернуть все строки из левого фрейма, но только те строки из правого фрейма, которые совпали с левым фреймом; пропущенные значения заполнить значениями NaN (например, вернуть все строки ИЗ dataframe_employees, но только те строки из dataframe saies, которые имеют значение для employee id, появляющееся В dataframe_employees);

♦ правое — вернуть все строки из правого фрейма, но только те строки из левого фрейма, которые совпали с правым фреймом; пропущенные значения заполнить значениями NaN (например, вернуть все строки из dataframe saies, но только те
строки из dataframe_empioyees, которые имеют значение для empioyee_id, появляющееся В dataframe_sales).

In [104]:
df1 = pd.DataFrame({
                     'user_name': ['James Brown', 'Jack White',
                                   'Jane Green'],
                     'country': ['USA', 'USA', 
                                    'France']},
                  index=['ind1', 'ind2', 'ind3'])

df2 = pd.DataFrame({'order_id': [114, 235, 432],
                     'user_id': [2, 4, 3],
                     'order_date': ['2020-02-11', '2020-02-11', 
                                    '2020-02-15'],
                     'OS': ['Android', 'iOS', 'Android']},
                    index=['ind1', 'ind4', 'ind3'])

In [105]:
df1.join(df2)

Unnamed: 0,user_name,country,order_id,user_id,order_date,OS
ind1,James Brown,USA,114.0,2.0,2020-02-11,Android
ind2,Jack White,USA,,,,
ind3,Jane Green,France,432.0,3.0,2020-02-15,Android


In [106]:
df2.join(df1)

Unnamed: 0,order_id,user_id,order_date,OS,user_name,country
ind1,114,2,2020-02-11,Android,James Brown,USA
ind4,235,4,2020-02-11,iOS,,
ind3,432,3,2020-02-15,Android,Jane Green,France
