# 1. Операции с данными

## 1.1 Очистка пустых значений

Сначала мы создадим объект типа Series содержащий ошибки и пропуски в данных

In [2]:
import pandas as pd
import numpy as np

In [14]:
trash = pd.Series(['1', '2', None, '4', np.nan])
trash

0       1
1       2
2    None
3       4
4     NaN
dtype: object

In [15]:
trash.isnull()

0    False
1    False
2     True
3    False
4     True
dtype: bool

Для удаления пропущенных значений чаще всего используют команду dropna() из состава Pandas

In [12]:
trash.dropna()

0    1
1    2
3    4
dtype: object

Давайте теперь посмотрим как это работает с DataFrame

In [35]:
df = pd.read_csv('marketing_eng.csv')
df.shape

(15223, 13)

In [32]:
df.dropna()

Unnamed: 0,TARGET,AGE,SOCSTATUS_WORK_FL,SOCSTATUS_PENS_FL,GENDER,EDUCATION,MARITAL_STATUS,ORG_TP_STATE,JOB_DIR,PERSONAL_INCOME,OWN_AUTO,WORK_TIME,LOAN_MAX_DLQ_AMT
0,0,49,1,0,1,Среднее специальное,Состою в браке,Частная компания,Вспомогательный техперсонал,5000.0,0,18.0,1580.00
1,0,32,1,0,1,Среднее,Состою в браке,Индивидуальный предприниматель,Участие в основ. деятельности,12000.0,0,97.0,4020.00
2,0,52,1,0,1,Неполное среднее,Состою в браке,Государственная комп./учреж.,Участие в основ. деятельности,9000.0,0,84.0,0.00
3,0,39,1,0,1,Высшее,Состою в браке,Государственная комп./учреж.,Участие в основ. деятельности,25000.0,0,168.0,1590.00
4,0,30,1,0,0,Среднее,Состою в браке,Государственная комп./учреж.,Участие в основ. деятельности,12000.0,0,101.0,2230.00
5,0,29,1,0,0,Среднее,Гражданский брак,Частная компания,Адм-хоз. и трансп. службы,12000.0,1,40.0,0.00
6,0,35,1,0,0,Высшее,Разведен(а),Государственная комп./учреж.,Участие в основ. деятельности,15000.0,0,6.0,0.00
7,0,41,1,0,1,Среднее,Состою в браке,Частная компания,Участие в основ. деятельности,6000.0,0,6.0,0.00
8,0,53,1,0,0,Высшее,Состою в браке,Частная компания,Участие в основ. деятельности,100000.0,0,156.0,0.00
9,0,43,1,0,1,Среднее специальное,Состою в браке,Государственная комп./учреж.,Участие в основ. деятельности,7000.0,0,72.0,0.00


Следует помнить, что выполнение операции не приведет к его изменению если вы его не перезапишите в память 

In [33]:
df.shape

(15223, 13)

In [34]:
df = df.dropna()
df.shape

(13855, 13)

Можно удалять как колонки так и строки. По умолчанию - удаляются строки. Задав параметр axis - можно удаляить колонку

In [37]:
df.dropna(axis='columns')

Unnamed: 0,TARGET,AGE,SOCSTATUS_WORK_FL,SOCSTATUS_PENS_FL,GENDER,EDUCATION,MARITAL_STATUS,PERSONAL_INCOME,OWN_AUTO,LOAN_MAX_DLQ_AMT
0,0,49,1,0,1,Среднее специальное,Состою в браке,5000.0,0,1580.00
1,0,32,1,0,1,Среднее,Состою в браке,12000.0,0,4020.00
2,0,52,1,0,1,Неполное среднее,Состою в браке,9000.0,0,0.00
3,0,39,1,0,1,Высшее,Состою в браке,25000.0,0,1590.00
4,0,30,1,0,0,Среднее,Состою в браке,12000.0,0,2230.00
5,0,29,1,0,0,Среднее,Гражданский брак,12000.0,1,0.00
6,0,35,1,0,0,Высшее,Разведен(а),15000.0,0,0.00
7,0,41,1,0,1,Среднее,Состою в браке,6000.0,0,0.00
8,0,53,1,0,0,Высшее,Состою в браке,100000.0,0,0.00
9,0,43,1,0,1,Среднее специальное,Состою в браке,7000.0,0,0.00


Можно управлять режимом удаления и удалять например ТОЛЬКО те строки или столбцы где все элементы - пустые. Это делает how='all'

In [41]:
df.dropna(how='all')

Unnamed: 0,TARGET,AGE,SOCSTATUS_WORK_FL,SOCSTATUS_PENS_FL,GENDER,EDUCATION,MARITAL_STATUS,ORG_TP_STATE,JOB_DIR,PERSONAL_INCOME,OWN_AUTO,WORK_TIME,LOAN_MAX_DLQ_AMT
0,0,49,1,0,1,Среднее специальное,Состою в браке,Частная компания,Вспомогательный техперсонал,5000.0,0,18.0,1580.00
1,0,32,1,0,1,Среднее,Состою в браке,Индивидуальный предприниматель,Участие в основ. деятельности,12000.0,0,97.0,4020.00
2,0,52,1,0,1,Неполное среднее,Состою в браке,Государственная комп./учреж.,Участие в основ. деятельности,9000.0,0,84.0,0.00
3,0,39,1,0,1,Высшее,Состою в браке,Государственная комп./учреж.,Участие в основ. деятельности,25000.0,0,168.0,1590.00
4,0,30,1,0,0,Среднее,Состою в браке,Государственная комп./учреж.,Участие в основ. деятельности,12000.0,0,101.0,2230.00
5,0,29,1,0,0,Среднее,Гражданский брак,Частная компания,Адм-хоз. и трансп. службы,12000.0,1,40.0,0.00
6,0,35,1,0,0,Высшее,Разведен(а),Государственная комп./учреж.,Участие в основ. деятельности,15000.0,0,6.0,0.00
7,0,41,1,0,1,Среднее,Состою в браке,Частная компания,Участие в основ. деятельности,6000.0,0,6.0,0.00
8,0,53,1,0,0,Высшее,Состою в браке,Частная компания,Участие в основ. деятельности,100000.0,0,156.0,0.00
9,0,43,1,0,1,Среднее специальное,Состою в браке,Государственная комп./учреж.,Участие в основ. деятельности,7000.0,0,72.0,0.00


## 1.2 Заполнение пустых значений

In [44]:
trash = pd.Series(['1', '2', None, '4', np.nan])
trash

0       1
1       2
2    None
3       4
4     NaN
dtype: object

Для заполнения пустых значений чаще всего используют метод fillna() - он позволяет как заменить каким-то одним значением, так и обработать по алгоритму какие-то пустые значения

In [46]:
trash = trash.fillna(0)
trash

0    1
1    2
2    0
3    4
4    0
dtype: object

In [48]:
df = pd.read_csv('marketing_eng.csv')
df

Unnamed: 0,TARGET,AGE,SOCSTATUS_WORK_FL,SOCSTATUS_PENS_FL,GENDER,EDUCATION,MARITAL_STATUS,ORG_TP_STATE,JOB_DIR,PERSONAL_INCOME,OWN_AUTO,WORK_TIME,LOAN_MAX_DLQ_AMT
0,0,49,1,0,1,Среднее специальное,Состою в браке,Частная компания,Вспомогательный техперсонал,5000.0,0,18.0,1580.00
1,0,32,1,0,1,Среднее,Состою в браке,Индивидуальный предприниматель,Участие в основ. деятельности,12000.0,0,97.0,4020.00
2,0,52,1,0,1,Неполное среднее,Состою в браке,Государственная комп./учреж.,Участие в основ. деятельности,9000.0,0,84.0,0.00
3,0,39,1,0,1,Высшее,Состою в браке,Государственная комп./учреж.,Участие в основ. деятельности,25000.0,0,168.0,1590.00
4,0,30,1,0,0,Среднее,Состою в браке,Государственная комп./учреж.,Участие в основ. деятельности,12000.0,0,101.0,2230.00
5,0,29,1,0,0,Среднее,Гражданский брак,Частная компания,Адм-хоз. и трансп. службы,12000.0,1,40.0,0.00
6,0,35,1,0,0,Высшее,Разведен(а),Государственная комп./учреж.,Участие в основ. деятельности,15000.0,0,6.0,0.00
7,0,41,1,0,1,Среднее,Состою в браке,Частная компания,Участие в основ. деятельности,6000.0,0,6.0,0.00
8,0,53,1,0,0,Высшее,Состою в браке,Частная компания,Участие в основ. деятельности,100000.0,0,156.0,0.00
9,0,43,1,0,1,Среднее специальное,Состою в браке,Государственная комп./учреж.,Участие в основ. деятельности,7000.0,0,72.0,0.00


Также можно заполнять пропуски в конкретной колонке с использованием своего типа заполняителя для каждой колонки.
Для этого служит конструкция ниже

In [51]:
df.fillna({'JOB_DIR': 'страдаю фигней'})

Unnamed: 0,TARGET,AGE,SOCSTATUS_WORK_FL,SOCSTATUS_PENS_FL,GENDER,EDUCATION,MARITAL_STATUS,ORG_TP_STATE,JOB_DIR,PERSONAL_INCOME,OWN_AUTO,WORK_TIME,LOAN_MAX_DLQ_AMT
0,0,49,1,0,1,Среднее специальное,Состою в браке,Частная компания,Вспомогательный техперсонал,5000.0,0,18.0,1580.00
1,0,32,1,0,1,Среднее,Состою в браке,Индивидуальный предприниматель,Участие в основ. деятельности,12000.0,0,97.0,4020.00
2,0,52,1,0,1,Неполное среднее,Состою в браке,Государственная комп./учреж.,Участие в основ. деятельности,9000.0,0,84.0,0.00
3,0,39,1,0,1,Высшее,Состою в браке,Государственная комп./учреж.,Участие в основ. деятельности,25000.0,0,168.0,1590.00
4,0,30,1,0,0,Среднее,Состою в браке,Государственная комп./учреж.,Участие в основ. деятельности,12000.0,0,101.0,2230.00
5,0,29,1,0,0,Среднее,Гражданский брак,Частная компания,Адм-хоз. и трансп. службы,12000.0,1,40.0,0.00
6,0,35,1,0,0,Высшее,Разведен(а),Государственная комп./учреж.,Участие в основ. деятельности,15000.0,0,6.0,0.00
7,0,41,1,0,1,Среднее,Состою в браке,Частная компания,Участие в основ. деятельности,6000.0,0,6.0,0.00
8,0,53,1,0,0,Высшее,Состою в браке,Частная компания,Участие в основ. деятельности,100000.0,0,156.0,0.00
9,0,43,1,0,1,Среднее специальное,Состою в браке,Государственная комп./учреж.,Участие в основ. деятельности,7000.0,0,72.0,0.00


In [61]:
trash = pd.Series([1, 2, np.nan, 4, np.nan])

Таже можно заполнять используя функции аггрегации (например, среднее)

In [65]:
trash.fillna(trash.mean())

0    1.000000
1    2.000000
2    2.333333
3    4.000000
4    2.333333
dtype: float64

In [66]:
df.fillna({'JOB_DIR': df.PERSONAL_INCOME.mean()})

Unnamed: 0,TARGET,AGE,SOCSTATUS_WORK_FL,SOCSTATUS_PENS_FL,GENDER,EDUCATION,MARITAL_STATUS,ORG_TP_STATE,JOB_DIR,PERSONAL_INCOME,OWN_AUTO,WORK_TIME,LOAN_MAX_DLQ_AMT
0,0,49,1,0,1,Среднее специальное,Состою в браке,Частная компания,Вспомогательный техперсонал,5000.0,0,18.0,1580.00
1,0,32,1,0,1,Среднее,Состою в браке,Индивидуальный предприниматель,Участие в основ. деятельности,12000.0,0,97.0,4020.00
2,0,52,1,0,1,Неполное среднее,Состою в браке,Государственная комп./учреж.,Участие в основ. деятельности,9000.0,0,84.0,0.00
3,0,39,1,0,1,Высшее,Состою в браке,Государственная комп./учреж.,Участие в основ. деятельности,25000.0,0,168.0,1590.00
4,0,30,1,0,0,Среднее,Состою в браке,Государственная комп./учреж.,Участие в основ. деятельности,12000.0,0,101.0,2230.00
5,0,29,1,0,0,Среднее,Гражданский брак,Частная компания,Адм-хоз. и трансп. службы,12000.0,1,40.0,0.00
6,0,35,1,0,0,Высшее,Разведен(а),Государственная комп./учреж.,Участие в основ. деятельности,15000.0,0,6.0,0.00
7,0,41,1,0,1,Среднее,Состою в браке,Частная компания,Участие в основ. деятельности,6000.0,0,6.0,0.00
8,0,53,1,0,0,Высшее,Состою в браке,Частная компания,Участие в основ. деятельности,100000.0,0,156.0,0.00
9,0,43,1,0,1,Среднее специальное,Состою в браке,Государственная комп./учреж.,Участие в основ. деятельности,7000.0,0,72.0,0.00


In [68]:
df.fillna({'JOB_DIR': df.PERSONAL_INCOME.mean()})

Unnamed: 0,TARGET,AGE,SOCSTATUS_WORK_FL,SOCSTATUS_PENS_FL,GENDER,EDUCATION,MARITAL_STATUS,ORG_TP_STATE,JOB_DIR,PERSONAL_INCOME,OWN_AUTO,WORK_TIME,LOAN_MAX_DLQ_AMT
0,0,49,1,0,1,Среднее специальное,Состою в браке,Частная компания,Вспомогательный техперсонал,5000.0,0,18.0,1580.00
1,0,32,1,0,1,Среднее,Состою в браке,Индивидуальный предприниматель,Участие в основ. деятельности,12000.0,0,97.0,4020.00
2,0,52,1,0,1,Неполное среднее,Состою в браке,Государственная комп./учреж.,Участие в основ. деятельности,9000.0,0,84.0,0.00
3,0,39,1,0,1,Высшее,Состою в браке,Государственная комп./учреж.,Участие в основ. деятельности,25000.0,0,168.0,1590.00
4,0,30,1,0,0,Среднее,Состою в браке,Государственная комп./учреж.,Участие в основ. деятельности,12000.0,0,101.0,2230.00
5,0,29,1,0,0,Среднее,Гражданский брак,Частная компания,Адм-хоз. и трансп. службы,12000.0,1,40.0,0.00
6,0,35,1,0,0,Высшее,Разведен(а),Государственная комп./учреж.,Участие в основ. деятельности,15000.0,0,6.0,0.00
7,0,41,1,0,1,Среднее,Состою в браке,Частная компания,Участие в основ. деятельности,6000.0,0,6.0,0.00
8,0,53,1,0,0,Высшее,Состою в браке,Частная компания,Участие в основ. деятельности,100000.0,0,156.0,0.00
9,0,43,1,0,1,Среднее специальное,Состою в браке,Государственная комп./учреж.,Участие в основ. деятельности,7000.0,0,72.0,0.00


In [3]:
trash = pd.Series([1, 2, np.nan, 4, 5])
trash

0    1.0
1    2.0
2    NaN
3    4.0
4    5.0
dtype: float64

In [4]:
trash.interpolate()

0    1.0
1    2.0
2    3.0
3    4.0
4    5.0
dtype: float64

## 1.3 Преобразования данных

### Удаление дубликатов

In [77]:
duble = pd.Series(['первый', 'второй', 'третий', 'первый', 'третий'])
duble

0    первый
1    второй
2    третий
3    первый
4    третий
dtype: object

In [78]:
duble.drop_duplicates()

0    первый
1    второй
2    третий
dtype: object

In [79]:
df = pd.read_csv('marketing_eng.csv')

In [86]:
df.drop_duplicates('MARITAL_STATUS')

Unnamed: 0,TARGET,AGE,SOCSTATUS_WORK_FL,SOCSTATUS_PENS_FL,GENDER,EDUCATION,MARITAL_STATUS,ORG_TP_STATE,JOB_DIR,PERSONAL_INCOME,OWN_AUTO,WORK_TIME,LOAN_MAX_DLQ_AMT
0,0,49,1,0,1,Среднее специальное,Состою в браке,Частная компания,Вспомогательный техперсонал,5000.0,0,18.0,1580.0
5,0,29,1,0,0,Среднее,Гражданский брак,Частная компания,Адм-хоз. и трансп. службы,12000.0,1,40.0,0.0
6,0,35,1,0,0,Высшее,Разведен(а),Государственная комп./учреж.,Участие в основ. деятельности,15000.0,0,6.0,0.0
10,0,54,1,0,1,Среднее специальное,Не состоял в браке,Государственная комп./учреж.,Пр-техн. обесп. и телеком.,19000.0,0,120.0,0.0
47,0,48,1,0,1,Высшее,Вдовец/Вдова,Государственная комп./учреж.,Участие в основ. деятельности,15000.0,0,132.0,0.0


In [87]:
df.drop_duplicates(subset={'MARITAL_STATUS', 'ORG_TP_STATE'})

Unnamed: 0,TARGET,AGE,SOCSTATUS_WORK_FL,SOCSTATUS_PENS_FL,GENDER,EDUCATION,MARITAL_STATUS,ORG_TP_STATE,JOB_DIR,PERSONAL_INCOME,OWN_AUTO,WORK_TIME,LOAN_MAX_DLQ_AMT
0,0,49,1,0,1,Среднее специальное,Состою в браке,Частная компания,Вспомогательный техперсонал,5000.0,0,18.0,1580.0
1,0,32,1,0,1,Среднее,Состою в браке,Индивидуальный предприниматель,Участие в основ. деятельности,12000.0,0,97.0,4020.0
2,0,52,1,0,1,Неполное среднее,Состою в браке,Государственная комп./учреж.,Участие в основ. деятельности,9000.0,0,84.0,0.0
5,0,29,1,0,0,Среднее,Гражданский брак,Частная компания,Адм-хоз. и трансп. службы,12000.0,1,40.0,0.0
6,0,35,1,0,0,Высшее,Разведен(а),Государственная комп./учреж.,Участие в основ. деятельности,15000.0,0,6.0,0.0
10,0,54,1,0,1,Среднее специальное,Не состоял в браке,Государственная комп./учреж.,Пр-техн. обесп. и телеком.,19000.0,0,120.0,0.0
15,1,41,1,0,1,Высшее,Разведен(а),Индивидуальный предприниматель,Участие в основ. деятельности,60000.0,0,168.0,0.0
16,0,65,0,1,1,Среднее специальное,Состою в браке,,,10000.0,0,,0.0
19,0,28,1,0,1,Высшее,Не состоял в браке,Частная компания,Участие в основ. деятельности,15000.0,0,60.0,0.0
25,0,38,1,0,1,Среднее специальное,Не состоял в браке,Индивидуальный предприниматель,Участие в основ. деятельности,13000.0,0,18.0,2742.25


### Замена значений

In [88]:
df = pd.read_csv('marketing_eng.csv')

In [89]:
df.replace('Среднее специальное', 'UNDERGRADUATE')

Unnamed: 0,TARGET,AGE,SOCSTATUS_WORK_FL,SOCSTATUS_PENS_FL,GENDER,EDUCATION,MARITAL_STATUS,ORG_TP_STATE,JOB_DIR,PERSONAL_INCOME,OWN_AUTO,WORK_TIME,LOAN_MAX_DLQ_AMT
0,0,49,1,0,1,UNDERGRADUATE,Состою в браке,Частная компания,Вспомогательный техперсонал,5000.0,0,18.0,1580.00
1,0,32,1,0,1,Среднее,Состою в браке,Индивидуальный предприниматель,Участие в основ. деятельности,12000.0,0,97.0,4020.00
2,0,52,1,0,1,Неполное среднее,Состою в браке,Государственная комп./учреж.,Участие в основ. деятельности,9000.0,0,84.0,0.00
3,0,39,1,0,1,Высшее,Состою в браке,Государственная комп./учреж.,Участие в основ. деятельности,25000.0,0,168.0,1590.00
4,0,30,1,0,0,Среднее,Состою в браке,Государственная комп./учреж.,Участие в основ. деятельности,12000.0,0,101.0,2230.00
5,0,29,1,0,0,Среднее,Гражданский брак,Частная компания,Адм-хоз. и трансп. службы,12000.0,1,40.0,0.00
6,0,35,1,0,0,Высшее,Разведен(а),Государственная комп./учреж.,Участие в основ. деятельности,15000.0,0,6.0,0.00
7,0,41,1,0,1,Среднее,Состою в браке,Частная компания,Участие в основ. деятельности,6000.0,0,6.0,0.00
8,0,53,1,0,0,Высшее,Состою в браке,Частная компания,Участие в основ. деятельности,100000.0,0,156.0,0.00
9,0,43,1,0,1,UNDERGRADUATE,Состою в браке,Государственная комп./учреж.,Участие в основ. деятельности,7000.0,0,72.0,0.00


In [96]:
df.GENDER = df.GENDER.replace({0: 'male', 1: 'female'})
df

### Дискретизация

In [6]:
df = pd.read_csv('marketing_eng.csv')

Для разбиения данных количественных (или подвергающихся счету) в Pandas существует метод cut. Он разделяет количественную переменную на т.н. bin's - интеравалы некой заданной длинны, которые представляю собой категориальные переменные

In [99]:
df.AGE.describe()

count    15223.000000
mean        40.406096
std         11.601068
min         21.000000
25%         30.000000
50%         39.000000
75%         50.000000
max         67.000000
Name: AGE, dtype: float64

Давайте разобъем данную переменную на заданные интервалы 

In [100]:
pd.cut(df.AGE, [20,30,40,50,60,70,80,90])

0        (40, 50]
1        (30, 40]
2        (50, 60]
3        (30, 40]
4        (20, 30]
5        (20, 30]
6        (30, 40]
7        (40, 50]
8        (50, 60]
9        (40, 50]
10       (50, 60]
11       (20, 30]
12       (60, 70]
13       (40, 50]
14       (30, 40]
15       (40, 50]
16       (60, 70]
17       (20, 30]
18       (30, 40]
19       (20, 30]
20       (30, 40]
21       (40, 50]
22       (40, 50]
23       (30, 40]
24       (30, 40]
25       (30, 40]
26       (20, 30]
27       (30, 40]
28       (30, 40]
29       (60, 70]
           ...   
15193    (30, 40]
15194    (40, 50]
15195    (50, 60]
15196    (60, 70]
15197    (60, 70]
15198    (40, 50]
15199    (20, 30]
15200    (30, 40]
15201    (50, 60]
15202    (30, 40]
15203    (30, 40]
15204    (40, 50]
15205    (30, 40]
15206    (50, 60]
15207    (20, 30]
15208    (30, 40]
15209    (40, 50]
15210    (20, 30]
15211    (30, 40]
15212    (50, 60]
15213    (30, 40]
15214    (30, 40]
15215    (30, 40]
15216    (60, 70]
15217    (

In [108]:
df.AGE = pd.cut(df.AGE, [20,40,60,80,90], labels=['молодые','зрелые','старые','древние как мамонт'])

In [7]:
df

Unnamed: 0,TARGET,AGE,SOCSTATUS_WORK_FL,SOCSTATUS_PENS_FL,GENDER,EDUCATION,MARITAL_STATUS,ORG_TP_STATE,JOB_DIR,PERSONAL_INCOME,OWN_AUTO,WORK_TIME,LOAN_MAX_DLQ_AMT
0,0,49,1,0,1,Среднее специальное,Состою в браке,Частная компания,Вспомогательный техперсонал,5000.0,0,18.0,1580.00
1,0,32,1,0,1,Среднее,Состою в браке,Индивидуальный предприниматель,Участие в основ. деятельности,12000.0,0,97.0,4020.00
2,0,52,1,0,1,Неполное среднее,Состою в браке,Государственная комп./учреж.,Участие в основ. деятельности,9000.0,0,84.0,0.00
3,0,39,1,0,1,Высшее,Состою в браке,Государственная комп./учреж.,Участие в основ. деятельности,25000.0,0,168.0,1590.00
4,0,30,1,0,0,Среднее,Состою в браке,Государственная комп./учреж.,Участие в основ. деятельности,12000.0,0,101.0,2230.00
5,0,29,1,0,0,Среднее,Гражданский брак,Частная компания,Адм-хоз. и трансп. службы,12000.0,1,40.0,0.00
6,0,35,1,0,0,Высшее,Разведен(а),Государственная комп./учреж.,Участие в основ. деятельности,15000.0,0,6.0,0.00
7,0,41,1,0,1,Среднее,Состою в браке,Частная компания,Участие в основ. деятельности,6000.0,0,6.0,0.00
8,0,53,1,0,0,Высшее,Состою в браке,Частная компания,Участие в основ. деятельности,100000.0,0,156.0,0.00
9,0,43,1,0,1,Среднее специальное,Состою в браке,Государственная комп./учреж.,Участие в основ. деятельности,7000.0,0,72.0,0.00


Недостатком cut является необходимость задавать bin's в явном виде. От этого недостатка избавлен ее аналог - функция qcut.
Она использует эмпирические квантили, чтобы разделить данные. Если, например, мы хотим, чтобы данные разбились на  квартили - (0-25%), (25-50%], (50-70%], (75-100%) - мы можем просто указать 4 интервала

In [14]:
df = pd.read_csv('marketing_eng.csv')

In [None]:
df2 = pd.DataFrame()

In [17]:
df2['newage'] = pd.qcut(df.AGE, 4

Unnamed: 0,newage
0,"(39.0, 50.0]"
1,"(30.0, 39.0]"
2,"(50.0, 67.0]"
3,"(30.0, 39.0]"
4,"(20.999, 30.0]"
5,"(20.999, 30.0]"
6,"(30.0, 39.0]"
7,"(39.0, 50.0]"
8,"(50.0, 67.0]"
9,"(39.0, 50.0]"


In [21]:
df3 = pd.concat([df, df2], axis=1)

In [26]:
df4 = pd.get_dummies(df2)

In [27]:
df5 = pd.concat([df, df4], axis=1)

In [28]:
df5

Unnamed: 0,TARGET,AGE,SOCSTATUS_WORK_FL,SOCSTATUS_PENS_FL,GENDER,EDUCATION,MARITAL_STATUS,ORG_TP_STATE,JOB_DIR,PERSONAL_INCOME,OWN_AUTO,WORK_TIME,LOAN_MAX_DLQ_AMT,"newage_(20.999, 30.0]","newage_(30.0, 39.0]","newage_(39.0, 50.0]","newage_(50.0, 67.0]"
0,0,49,1,0,1,Среднее специальное,Состою в браке,Частная компания,Вспомогательный техперсонал,5000.0,0,18.0,1580.00,0,0,1,0
1,0,32,1,0,1,Среднее,Состою в браке,Индивидуальный предприниматель,Участие в основ. деятельности,12000.0,0,97.0,4020.00,0,1,0,0
2,0,52,1,0,1,Неполное среднее,Состою в браке,Государственная комп./учреж.,Участие в основ. деятельности,9000.0,0,84.0,0.00,0,0,0,1
3,0,39,1,0,1,Высшее,Состою в браке,Государственная комп./учреж.,Участие в основ. деятельности,25000.0,0,168.0,1590.00,0,1,0,0
4,0,30,1,0,0,Среднее,Состою в браке,Государственная комп./учреж.,Участие в основ. деятельности,12000.0,0,101.0,2230.00,1,0,0,0
5,0,29,1,0,0,Среднее,Гражданский брак,Частная компания,Адм-хоз. и трансп. службы,12000.0,1,40.0,0.00,1,0,0,0
6,0,35,1,0,0,Высшее,Разведен(а),Государственная комп./учреж.,Участие в основ. деятельности,15000.0,0,6.0,0.00,0,1,0,0
7,0,41,1,0,1,Среднее,Состою в браке,Частная компания,Участие в основ. деятельности,6000.0,0,6.0,0.00,0,0,1,0
8,0,53,1,0,0,Высшее,Состою в браке,Частная компания,Участие в основ. деятельности,100000.0,0,156.0,0.00,0,0,0,1
9,0,43,1,0,1,Среднее специальное,Состою в браке,Государственная комп./учреж.,Участие в основ. деятельности,7000.0,0,72.0,0.00,0,0,1,0


### Выборка данных

Для выборки данных служит команда sample

In [131]:
df = pd.read_csv('marketing_eng.csv')

In [138]:
# n - сколько объектов вернуть в штуках

sample = df.sample(n=5)
sample

Unnamed: 0,TARGET,AGE,SOCSTATUS_WORK_FL,SOCSTATUS_PENS_FL,GENDER,EDUCATION,MARITAL_STATUS,ORG_TP_STATE,JOB_DIR,PERSONAL_INCOME,OWN_AUTO,WORK_TIME,LOAN_MAX_DLQ_AMT
8131,0,46,1,0,1,Среднее,Состою в браке,Государственная комп./учреж.,Вспомогательный техперсонал,5500.0,0,180.0,1420.0
14748,0,25,1,0,1,Высшее,Не состоял в браке,Частная компания,Участие в основ. деятельности,20000.0,0,16.0,0.0
673,0,39,1,0,1,Среднее специальное,Состою в браке,Индивидуальный предприниматель,Участие в основ. деятельности,18000.0,0,180.0,0.0
11991,0,49,1,0,1,Высшее,Состою в браке,Частная компания,Участие в основ. деятельности,16000.0,0,60.0,0.0
1628,0,35,1,0,1,Среднее специальное,Состою в браке,Государственная комп./учреж.,Участие в основ. деятельности,7000.0,0,156.0,0.0


In [137]:
# frac - сколько объектов вернуть в % (0.1 = 10%)

sample = df.sample(frac=0.1)
sample

Unnamed: 0,TARGET,AGE,SOCSTATUS_WORK_FL,SOCSTATUS_PENS_FL,GENDER,EDUCATION,MARITAL_STATUS,ORG_TP_STATE,JOB_DIR,PERSONAL_INCOME,OWN_AUTO,WORK_TIME,LOAN_MAX_DLQ_AMT
6136,0,55,1,1,0,Среднее специальное,Состою в браке,Государственная комп./учреж.,Участие в основ. деятельности,14000.0,1,96.0,0.0
4546,0,57,0,1,1,Среднее,Не состоял в браке,,,5400.0,0,,0.0
8515,0,41,1,0,0,Среднее специальное,Разведен(а),Государственная комп./учреж.,Пр-техн. обесп. и телеком.,11000.0,0,204.0,0.0
12080,0,45,1,0,0,Высшее,Состою в браке,Государственная комп./учреж.,Участие в основ. деятельности,20000.0,0,7.0,0.0
559,0,35,1,0,0,Среднее специальное,Разведен(а),Некоммерческая организация,Участие в основ. деятельности,20000.0,0,41.0,0.0
3668,0,52,1,0,0,Среднее,Состою в браке,Государственная комп./учреж.,Участие в основ. деятельности,7000.0,0,76.0,0.0
3456,0,40,1,0,1,Среднее специальное,Состою в браке,Частная компания,Вспомогательный техперсонал,8000.0,1,18.0,0.0
13819,0,27,1,0,0,Высшее,Состою в браке,Частная компания,Бухгалтерия. финансы. планир.,40000.0,0,60.0,0.0
13002,0,26,1,0,1,Среднее специальное,Состою в браке,Частная компания,Участие в основ. деятельности,12000.0,0,48.0,0.0
4996,0,46,1,0,1,Среднее специальное,Состою в браке,Государственная комп./учреж.,Участие в основ. деятельности,17000.0,0,324.0,0.0


In [139]:
original  = pd.Series([1,2,3,4,5])

In [144]:
original_sample = original.sample(n=10)
original_sample

ValueError: Cannot take a larger sample than population when 'replace=False'

In [145]:
original_sample = original.sample(n=10, replace=True)
original_sample

2    3
2    3
0    1
3    4
3    4
2    3
3    4
3    4
0    1
4    5
dtype: int64