# 1. Примеры типов данных

In [1]:
#Строковые (str)
x = "Hello World"
#вывод переменной
x

'Hello World'

In [2]:
#Целочисленные (int)
x = 5
#вывод переменной
x

5

In [6]:
#С точкой (float)
x = 36.6
#вывод переменной
x

36.6

In [28]:
#Списки (list)
x = ["яблоки", "бананы", "апельсины"]
#вывод переменной
x

['яблоки', 'бананы', 'апельсины']

In [30]:
#обращение к элементу списка
x[0]

'яблоки'

In [35]:
#словари (dict)
x = {"name":"Evgeny", "age":33}
#вывод переменной
x

{'name': 'Evgeny', 'age': 33}

In [43]:
#можно получить конкретное значение по имени поля
x["name"]

'Evgeny'

In [44]:
#или так
x.get("name")

'Evgeny'

In [33]:
#булевы (bool)
x = True
#вывод переменной
x

True

# 2. Работа с Pandas

Pandas — это библиотека Python, предназначенная для быстрой загрузки и операций в первую очередь с т.н. панельными данными (многмерные временые ряды).

Но помимо этого она используется аналитиками и просто в качестве "Excel на стероидах".

Основнное достинство библиотеки - простая работа с файлами в форматах .csv,  .tsv или .xls

Основными структурами данных в Pandas являются классы Series и DataFrame. 

Первый из них представляет собой одномерный индексированный массив данных некоторого фиксированного типа.

Второй - это двухмерная структура данных, представляющая собой таблицу, каждый столбец которой содержит данные одного типа. 

## 2.1 Основные методы в Pandas

In [5]:
# импорт библиотек
import numpy as np
import pandas as pd

### 2.1.1 Чтение данных

Часто, в проектах по анализу данных используют выгруженные из внешних источников данные, которые представлены в формате csv.
В случае английской локализации, эти файлы отличаются тем, что:
1)	Разделитель – запятая, а не точа запятой
2)	Разделитель числа – точка а не запятая
3)	Формат кодировки – UTF-8

Давайте  попробуем загрузить файл marketing_eng.csv в нашу систему.


In [19]:
df = pd.read_csv('../resources/lab1_3/marketing_eng.csv')

В данном случае, мы загружаем содержимое файла scoring_eng.csv в переменную df. 
Поскольку по умолчанию Jupyter настроен на работу с именно английской локалью, нам нет необходимости использовать 
дополнительные аргументы для метода.

Давайте посмотрим, что же загрузилось в переменную?

Для этого напишем в следующем блоке название переменной – df.head 

Данная команда возвращает первые 5 записей

In [9]:
df.head()

Unnamed: 0,TARGET,AGE,SOCSTATUS_WORK_FL,SOCSTATUS_PENS_FL,GENDER,EDUCATION,MARITAL_STATUS,ORG_TP_STATE,JOB_DIR,PERSONAL_INCOME,OWN_AUTO,WORK_TIME,LOAN_MAX_DLQ_AMT
0,0,49,1,0,1,Среднее специальное,Состою в браке,Частная компания,Вспомогательный техперсонал,5000.0,0,18.0,1580.0
1,0,32,1,0,1,Среднее,Состою в браке,Индивидуальный предприниматель,Участие в основ. деятельности,12000.0,0,97.0,4020.0
2,0,52,1,0,1,Неполное среднее,Состою в браке,Государственная комп./учреж.,Участие в основ. деятельности,9000.0,0,84.0,0.0
3,0,39,1,0,1,Высшее,Состою в браке,Государственная комп./учреж.,Участие в основ. деятельности,25000.0,0,168.0,1590.0
4,0,30,1,0,0,Среднее,Состою в браке,Государственная комп./учреж.,Участие в основ. деятельности,12000.0,0,101.0,2230.0


В данном случае, мы загружаем содержимое файла scoring_eng.csv в переменную data. 
Поскольку по умолчанию Jupyter настроен на работу с именно английской локалью, нам нет необходимости использовать дополнительные аргументы для метода.

### 2.1.2 Загрузка данных в русской локали

Ключевые отличия российской локализации csv файлов заключаются в:
1)	Разделитель – точка запятой
2)	Разделитель числа – запятая
3)	Формат кодировки – чаще всего - ANSI


Давайте посмотрим, что получится если нничего не менять в свойствах метода

In [10]:
df = pd.read_csv('../resources/lab1_3/marketing_rus.csv')

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd1 in position 164: invalid continuation byte

Для того чтобы загрузить русские версии файлов необходимо задать соответствующие параметры загрузки:

Аргументы:
Sep – задает формат разделителя колонок
Encoding – кодировку
Decimal – десятичный разделитель разрядов


In [23]:
df = pd.read_csv('../resources/lab1_3/marketing_rus.csv', sep=';', encoding='cp1251', decimal=',')

### 2.1.3 Загрузка Excel  в русской локализации

In [16]:
excel = pd.read_excel('../resources/lab1_3/marketing.xls', sheet_name=0)

## 2.2 Операции с данными

### 2.2.1 Посмотрим на размер данных, названия признаков и их типы

In [17]:
print(df.shape)

(15223, 13)


Видим, что в таблице 15 223 pfgbcb и 13 колонок (переменных). Выведем названия столбцов:

In [20]:
print(df.columns)

Index(['TARGET', 'AGE', 'SOCSTATUS_WORK_FL', 'SOCSTATUS_PENS_FL', 'GENDER',
       'EDUCATION', 'MARITAL_STATUS', 'ORG_TP_STATE', 'JOB_DIR',
       'PERSONAL_INCOME', 'OWN_AUTO', 'WORK_TIME', 'LOAN_MAX_DLQ_AMT'],
      dtype='object')


Чтобы узнать информацию по DataFrame и всем признакам (тип данных и т.п.), используют info:

In [21]:
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15223 entries, 0 to 15222
Data columns (total 13 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   TARGET             15223 non-null  int64  
 1   AGE                15223 non-null  int64  
 2   SOCSTATUS_WORK_FL  15223 non-null  int64  
 3   SOCSTATUS_PENS_FL  15223 non-null  int64  
 4   GENDER             15223 non-null  int64  
 5   EDUCATION          15223 non-null  object 
 6   MARITAL_STATUS     15223 non-null  object 
 7   ORG_TP_STATE       13856 non-null  object 
 8   JOB_DIR            13856 non-null  object 
 9   PERSONAL_INCOME    15223 non-null  float64
 10  OWN_AUTO           15223 non-null  int64  
 11  WORK_TIME          13855 non-null  float64
 12  LOAN_MAX_DLQ_AMT   15223 non-null  float64
dtypes: float64(3), int64(6), object(4)
memory usage: 1.5+ MB
None


In [22]:
df.head()

Unnamed: 0,TARGET,AGE,SOCSTATUS_WORK_FL,SOCSTATUS_PENS_FL,GENDER,EDUCATION,MARITAL_STATUS,ORG_TP_STATE,JOB_DIR,PERSONAL_INCOME,OWN_AUTO,WORK_TIME,LOAN_MAX_DLQ_AMT
0,0,49,1,0,1,Среднее специальное,Состою в браке,Частная компания,Вспомогательный техперсонал,5000.0,0,18.0,1580.0
1,0,32,1,0,1,Среднее,Состою в браке,Индивидуальный предприниматель,Участие в основ. деятельности,12000.0,0,97.0,4020.0
2,0,52,1,0,1,Неполное среднее,Состою в браке,Государственная комп./учреж.,Участие в основ. деятельности,9000.0,0,84.0,0.0
3,0,39,1,0,1,Высшее,Состою в браке,Государственная комп./учреж.,Участие в основ. деятельности,25000.0,0,168.0,1590.0
4,0,30,1,0,0,Среднее,Состою в браке,Государственная комп./учреж.,Участие в основ. деятельности,12000.0,0,101.0,2230.0


Изменить тип колонки можно с помощью метода astype. Применим этот метод к признаку AGE и переведём его в float64:

In [13]:
df['AGE'] = df['AGE'].astype('float64')

С помощью команды df.head() мы видим, что тип данных изменился

In [24]:
df.head()

Unnamed: 0,TARGET,AGE,SOCSTATUS_WORK_FL,SOCSTATUS_PENS_FL,GENDER,EDUCATION,MARITAL_STATUS,ORG_TP_STATE,JOB_DIR,PERSONAL_INCOME,OWN_AUTO,WORK_TIME,LOAN_MAX_DLQ_AMT
0,0,49,1,0,1,Среднее специальное,Состою в браке,Частная компания,Вспомогательный техперсонал,5000.0,0,18.0,1580.0
1,0,32,1,0,1,Среднее,Состою в браке,Индивидуальный предприниматель,Участие в основ. деятельности,12000.0,0,97.0,4020.0
2,0,52,1,0,1,Неполное среднее,Состою в браке,Государственная комп./учреж.,Участие в основ. деятельности,9000.0,0,84.0,0.0
3,0,39,1,0,1,Высшее,Состою в браке,Государственная комп./учреж.,Участие в основ. деятельности,25000.0,0,168.0,1590.0
4,0,30,1,0,0,Среднее,Состою в браке,Государственная комп./учреж.,Участие в основ. деятельности,12000.0,0,101.0,2230.0


#### Описательная статистика

Метод describe показывает основные статистические характеристики данных по каждому #числовому признаку 
(типы int64 и  float64): 
    1) число непропущенных значений, 
    2) среднее, 
    3) стандартное отклонение, 
    4) диапазон, 
    5) медиану

In [6]:
df.describe()

Unnamed: 0,TARGET,AGE,SOCSTATUS_WORK_FL,SOCSTATUS_PENS_FL,GENDER,PERSONAL_INCOME,OWN_AUTO,WORK_TIME,LOAN_MAX_DLQ_AMT
count,15223.0,15223.0,15223.0,15223.0,15223.0,15223.0,15223.0,13855.0,15223.0
mean,0.11903,40.406096,0.90961,0.134468,0.654536,13853.836323,0.116337,292.212,243.021626
std,0.323835,11.601068,0.286748,0.341165,0.475535,9015.467617,0.320844,24364.83,836.100116
min,0.0,21.0,0.0,0.0,0.0,24.0,0.0,1.0,0.0
25%,0.0,30.0,1.0,0.0,0.0,8000.0,0.0,24.0,0.0
50%,0.0,39.0,1.0,0.0,1.0,12000.0,0.0,48.0,0.0
75%,0.0,50.0,1.0,0.0,1.0,17000.0,0.0,110.0,0.0
max,1.0,67.0,1.0,1.0,1.0,250000.0,2.0,2867959.0,28012.2


Чтобы посмотреть статистику по нечисловым признакам, нужно явно указать интересующие нас типы в параметре include. 
Можно также задать include='all', чтоб вывести статистику по всем имеющимся признакам.

In [16]:
df.describe(include=['object', 'bool'])

Unnamed: 0,EDUCATION,MARITAL_STATUS,ORG_TP_STATE,JOB_DIR
count,15223,15223,13856,13856
unique,7,5,5,10
top,Среднее специальное,Состою в браке,Частная компания,Участие в основ. деятельности
freq,6518,9416,6523,11452


In [18]:
df.describe(include='all')

Unnamed: 0,TARGET,AGE,SOCSTATUS_WORK_FL,SOCSTATUS_PENS_FL,GENDER,EDUCATION,MARITAL_STATUS,ORG_TP_STATE,JOB_DIR,PERSONAL_INCOME,OWN_AUTO,WORK_TIME,LOAN_MAX_DLQ_AMT
count,15223.0,15223.0,15223.0,15223.0,15223.0,15223,15223,13856,13856,15223.0,15223.0,13855.0,15223.0
unique,,,,,,7,5,5,10,,,,
top,,,,,,Среднее специальное,Состою в браке,Частная компания,Участие в основ. деятельности,,,,
freq,,,,,,6518,9416,6523,11452,,,,
mean,0.11903,40.406096,0.90961,0.134468,0.654536,,,,,13853.836323,0.116337,292.212,243.021626
std,0.323835,11.601068,0.286748,0.341165,0.475535,,,,,9015.467617,0.320844,24364.83,836.100116
min,0.0,21.0,0.0,0.0,0.0,,,,,24.0,0.0,1.0,0.0
25%,0.0,30.0,1.0,0.0,0.0,,,,,8000.0,0.0,24.0,0.0
50%,0.0,39.0,1.0,0.0,1.0,,,,,12000.0,0.0,48.0,0.0
75%,0.0,50.0,1.0,0.0,1.0,,,,,17000.0,0.0,110.0,0.0


Для категориальных (тип object) и булевых (тип bool) признаков можно воспользоваться методом value_counts. 
Посмотрим на распределение нашей целевой переменной — EDUCATION:

In [19]:
df['EDUCATION'].value_counts()

Среднее специальное               6518
Среднее                           4679
Высшее                            3133
Неоконченное высшее                532
Неполное среднее                   340
Два и более высших образования      20
Ученая степень                       1
Name: EDUCATION, dtype: int64

Укажем значение параметра normalize=True, чтобы посмотреть не абсолютные частоты, а относительные.
Например, доли лиц с разным семейным статусом

In [20]:
df['MARITAL_STATUS'].value_counts(normalize=True)

Состою в браке        0.618538
Не состоял в браке    0.237929
Разведен(а)           0.081784
Вдовец/Вдова          0.038626
Гражданский брак      0.023123
Name: MARITAL_STATUS, dtype: float64

## 2.3 Сортировка данных

DataFrame можно отсортировать по значению какого-нибудь из признаков. 
В нашем случае, например, по WORK_TIME (ascending=False для сортировки по убыванию):

In [21]:
df.sort_values(by='WORK_TIME', ascending=False).head()

Unnamed: 0,TARGET,AGE,SOCSTATUS_WORK_FL,SOCSTATUS_PENS_FL,GENDER,EDUCATION,MARITAL_STATUS,ORG_TP_STATE,JOB_DIR,PERSONAL_INCOME,OWN_AUTO,WORK_TIME,LOAN_MAX_DLQ_AMT
8984,0,25.0,1,0,1,Среднее специальное,Не состоял в браке,Государственная комп./учреж.,Участие в основ. деятельности,9000.0,0,2867959.0,0.0
4296,0,50.0,1,0,1,Среднее,Состою в браке,Государственная комп./учреж.,Участие в основ. деятельности,10000.0,0,10000.0,0.0
2532,0,58.0,1,0,1,Среднее специальное,Вдовец/Вдова,Частная компания,Участие в основ. деятельности,20000.0,0,4320.0,0.0
5375,0,64.0,1,1,1,Среднее специальное,Состою в браке,Частная компания,Вспомогательный техперсонал,18000.0,0,3500.0,0.0
9852,0,38.0,1,1,1,Среднее,Состою в браке,Частная компания,Участие в основ. деятельности,8000.0,0,1500.0,2020.0


Сортировать можно и по группе столбцов:

In [27]:
df.sort_values(by=['WORK_TIME', 'PERSONAL_INCOME'], ascending=[False, False]).head()

Unnamed: 0,TARGET,AGE,SOCSTATUS_WORK_FL,SOCSTATUS_PENS_FL,GENDER,EDUCATION,MARITAL_STATUS,ORG_TP_STATE,JOB_DIR,PERSONAL_INCOME,OWN_AUTO,WORK_TIME,LOAN_MAX_DLQ_AMT
8984,0,25.0,1,0,1,Среднее специальное,Не состоял в браке,Государственная комп./учреж.,Участие в основ. деятельности,9000.0,0,2867959.0,0.0
4296,0,50.0,1,0,1,Среднее,Состою в браке,Государственная комп./учреж.,Участие в основ. деятельности,10000.0,0,10000.0,0.0
2532,0,58.0,1,0,1,Среднее специальное,Вдовец/Вдова,Частная компания,Участие в основ. деятельности,20000.0,0,4320.0,0.0
5375,0,64.0,1,1,1,Среднее специальное,Состою в браке,Частная компания,Вспомогательный техперсонал,18000.0,0,3500.0,0.0
9852,0,38.0,1,1,1,Среднее,Состою в браке,Частная компания,Участие в основ. деятельности,8000.0,0,1500.0,2020.0


## 2.4 Индексация и извлечение данных

Для извлечения отдельного столбца можно использовать конструкцию вида DataFrame['Name']. Воспользуемся этим для ответа на вопрос: какова доля владельцев авто в нашем датафрейме?

In [28]:
df['OWN_AUTO'].mean()

0.11633712146094725

В Pandas есть возможность управлять отбором с помощью логических условий - давайте посмотрим - каковы средние характеристики 
владельцев автомобилей?

In [29]:
df[df['OWN_AUTO'] == 1].mean()

TARGET                   0.137931
AGE                     38.585076
SOCSTATUS_WORK_FL        0.967213
SOCSTATUS_PENS_FL        0.059921
GENDER                   0.304127
PERSONAL_INCOME      18301.039005
OWN_AUTO                 1.000000
WORK_TIME               80.890251
LOAN_MAX_DLQ_AMT       284.343929
dtype: float64

In [None]:
Также можно комбинировать указанные выше подходы

In [31]:
df[df['TARGET'] == 1]['PERSONAL_INCOME'].mean()

13540.436160614421

## 2.5 Группировка данных

В общем случае группировка данных в Pandas выглядит следующим образом:

df.groupby(by=grouping_columns)[columns_to_show].function()
   1) К датафрейму применяется метод groupby, который разделяет данные по grouping_columns – признаку или набору признаков.
   2)  Индексируем по нужным нам столбцам (columns_to_show).
   3)  К полученным группам применяется функция или несколько функций.

In [32]:
df.groupby(['TARGET'])['AGE', 'WORK_TIME', 'PERSONAL_INCOME'].agg([np.mean, np.std, np.min, np.max])

Unnamed: 0_level_0,AGE,AGE,AGE,AGE,WORK_TIME,WORK_TIME,WORK_TIME,WORK_TIME,PERSONAL_INCOME,PERSONAL_INCOME,PERSONAL_INCOME,PERSONAL_INCOME
Unnamed: 0_level_1,mean,std,amin,amax,mean,std,amin,amax,mean,std,amin,amax
TARGET,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2
0,40.849005,11.697037,21.0,67.0,325.42413,26079.479331,1.0,2867959.0,13540.436161,8794.221229,24.0,250000.0
1,37.128035,10.290703,21.0,65.0,64.26958,75.522526,1.0,864.0,16173.378035,10217.147092,3000.0,150000.0


## 2.6 Сводные таблицы 

Допустим, мы хотим посмотреть, как наблюдения в нашей выборке распределены в контексте двух признаков — GENDER и MARITAL_STATUS. 
Для этого мы можем построить таблицу сопряженности, воспользовавшись методом crosstab:

In [33]:
pd.crosstab(df['GENDER'], df['EDUCATION'])

EDUCATION,Высшее,Два и более высших образования,Неоконченное высшее,Неполное среднее,Среднее,Среднее специальное,Ученая степень
GENDER,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
0,978,10,186,133,1710,2242,0
1,2155,10,346,207,2969,4276,1


In [34]:
pd.crosstab(df['GENDER'], df['EDUCATION'], normalize=True)

EDUCATION,Высшее,Два и более высших образования,Неоконченное высшее,Неполное среднее,Среднее,Среднее специальное,Ученая степень
GENDER,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
0,0.064245,0.000657,0.012218,0.008737,0.11233,0.147277,0.0
1,0.141562,0.000657,0.022729,0.013598,0.195034,0.280891,6.6e-05


Продвинутые пользователи Excel наверняка вспомнят о такой фиче, как сводные таблицы (pivot tables). 

В Pandas за сводные таблицы отвечает метод pivot_table, который принимает в качестве параметров:

values – список переменных, по которым требуется рассчитать нужные статистики,

index – список переменных, по которым нужно сгруппировать данные,

aggfunc — то, что нам, собственно, нужно посчитать по группам — сумму, среднее, максимум, минимум или что-то ещё.

In [40]:
df.pivot_table(['AGE','WORK_TIME','PERSONAL_INCOME'], ['OWN_AUTO', 'GENDER'], aggfunc='mean')

Unnamed: 0_level_0,Unnamed: 1_level_0,AGE,PERSONAL_INCOME,WORK_TIME
OWN_AUTO,GENDER,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,0,38.116216,16110.229739,72.451647
0,1,41.728093,12055.115339,435.543015
1,0,38.194963,19095.190089,76.089925
1,1,39.477695,16483.938662,92.150391
2,0,22.0,15000.0,36.0


## 2.7 Индексация

Датафреймы можно индексировать как по названию столбца или строки, так и по порядковому номеру. 

Для индексации **по названию** используется метод **loc***, по **номеру** — **iloc.**

В первом случае мы говорим *«передай нам значения для id строк от 0 до 5 и для столбцов от GENDER до ORG_TP_STATE»*, а во втором — *«передай нам значения первых пяти строк в столбцах с 4 по 7 (не вкдючая 7)»*.

В случае iloc срез работает как обычно, однако в случае loc учитываются и начало, и конец среза. Да, неудобно, да, вызывает путаницу.

In [7]:
df.loc[0:5, 'GENDER':'ORG_TP_STATE']

Unnamed: 0,GENDER,EDUCATION,MARITAL_STATUS,ORG_TP_STATE
0,1,Среднее специальное,Состою в браке,Частная компания
1,1,Среднее,Состою в браке,Индивидуальный предприниматель
2,1,Неполное среднее,Состою в браке,Государственная комп./учреж.
3,1,Высшее,Состою в браке,Государственная комп./учреж.
4,0,Среднее,Состою в браке,Государственная комп./учреж.
5,0,Среднее,Гражданский брак,Частная компания


In [10]:
df.iloc[0:5, 4:7]

Unnamed: 0,GENDER,EDUCATION,MARITAL_STATUS
0,1,Среднее специальное,Состою в браке
1,1,Среднее,Состою в браке
2,1,Неполное среднее,Состою в браке
3,1,Высшее,Состою в браке
4,0,Среднее,Состою в браке


Если нам нужна первая или последняя строчка датафрейма, пользуемся конструкцией df[:1] или df[-1:]:

In [19]:
df[-1:]

Unnamed: 0,TARGET,AGE,SOCSTATUS_WORK_FL,SOCSTATUS_PENS_FL,GENDER,EDUCATION,MARITAL_STATUS,ORG_TP_STATE,JOB_DIR,PERSONAL_INCOME,OWN_AUTO,WORK_TIME,LOAN_MAX_DLQ_AMT
15222,0,37,1,0,0,Среднее,Состою в браке,Частная компания,Участие в основ. деятельности,20000.0,0,36.0,0.0


In [17]:
df[:1]

Unnamed: 0,TARGET,AGE,SOCSTATUS_WORK_FL,SOCSTATUS_PENS_FL,GENDER,EDUCATION,MARITAL_STATUS,ORG_TP_STATE,JOB_DIR,PERSONAL_INCOME,OWN_AUTO,WORK_TIME,LOAN_MAX_DLQ_AMT
0,0,49,1,0,1,Среднее специальное,Состою в браке,Частная компания,Вспомогательный техперсонал,5000.0,0,18.0,1580.0


## 2.8 Применение функций: apply, map и др.

#### Применение функции к каждому столбцу:

In [25]:
new_df = df.loc[:, 'PERSONAL_INCOME':'LOAN_MAX_DLQ_AMT']

In [26]:
new_df.apply(np.max, axis=0)

PERSONAL_INCOME      250000.0
OWN_AUTO                  2.0
WORK_TIME           2867959.0
LOAN_MAX_DLQ_AMT      28012.2
dtype: float64

Метод apply можно использовать и для того, чтобы применить функцию к каждой строке. Для этого нужно указать axis=1.

In [27]:
new_df.apply(np.max, axis=1)

0          5000.0
1         12000.0
2          9000.0
3         25000.0
4         12000.0
5         12000.0
6         15000.0
7          6000.0
8        100000.0
9          7000.0
10        19000.0
11        18000.0
12         7000.0
13        12000.0
14        20000.0
15        60000.0
16        10000.0
17         5200.0
18        35000.0
19        15000.0
20        10000.0
21        10000.0
22        14000.0
23        10000.0
24         8000.0
25        13000.0
26        12500.0
27        12000.0
28        20000.0
29         5000.0
           ...   
15193     12000.0
15194     10000.0
15195     10000.0
15196      8000.0
15197     11000.0
15198      7000.0
15199     10000.0
15200      8000.0
15201     25000.0
15202     10000.0
15203     12000.0
15204      7000.0
15205     12000.0
15206     14500.0
15207     12000.0
15208      8000.0
15209      7000.0
15210     10000.0
15211     10000.0
15212     10000.0
15213     15000.0
15214      8100.0
15215      9500.0
15216     13000.0
15217     


#### Применение функции к каждой ячейке столбца

Допустим, нас интересуют все люди - у которых их вид образования начинается с буквы В. 

В данному случае это можно сделать по-разному, но наибольшую свободу дает связка apply-lambda – применение функции ко всем значениям в столбце.

In [33]:
df[df['EDUCATION'].apply(lambda state: state[0] == 'В')].head()

Unnamed: 0,TARGET,AGE,SOCSTATUS_WORK_FL,SOCSTATUS_PENS_FL,GENDER,EDUCATION,MARITAL_STATUS,ORG_TP_STATE,JOB_DIR,PERSONAL_INCOME,OWN_AUTO,WORK_TIME,LOAN_MAX_DLQ_AMT
3,0,39,1,0,1,Высшее,Состою в браке,Государственная комп./учреж.,Участие в основ. деятельности,25000.0,0,168.0,1590.0
6,0,35,1,0,0,Высшее,Разведен(а),Государственная комп./учреж.,Участие в основ. деятельности,15000.0,0,6.0,0.0
8,0,53,1,0,0,Высшее,Состою в браке,Частная компания,Участие в основ. деятельности,100000.0,0,156.0,0.0
14,0,38,1,0,1,Высшее,Состою в браке,Государственная комп./учреж.,Участие в основ. деятельности,20000.0,0,120.0,0.0
15,1,41,1,0,1,Высшее,Разведен(а),Индивидуальный предприниматель,Участие в основ. деятельности,60000.0,0,168.0,0.0


Для замены используют команду replace

In [37]:
df = df.replace({'Высшее': 'High'})
df.head()

Unnamed: 0,TARGET,AGE,SOCSTATUS_WORK_FL,SOCSTATUS_PENS_FL,GENDER,EDUCATION,MARITAL_STATUS,ORG_TP_STATE,JOB_DIR,PERSONAL_INCOME,OWN_AUTO,WORK_TIME,LOAN_MAX_DLQ_AMT
0,0,49,1,0,1,Среднее специальное,Состою в браке,Частная компания,Вспомогательный техперсонал,5000.0,0,18.0,1580.0
1,0,32,1,0,1,Среднее,Состою в браке,Индивидуальный предприниматель,Участие в основ. деятельности,12000.0,0,97.0,4020.0
2,0,52,1,0,1,Неполное среднее,Состою в браке,Государственная комп./учреж.,Участие в основ. деятельности,9000.0,0,84.0,0.0
3,0,39,1,0,1,High,Состою в браке,Государственная комп./учреж.,Участие в основ. деятельности,25000.0,0,168.0,1590.0
4,0,30,1,0,0,Среднее,Состою в браке,Государственная комп./учреж.,Участие в основ. деятельности,12000.0,0,101.0,2230.0


#### Преобразование датафреймов

In [42]:
df['Долговая нагрузка'] = df['LOAN_MAX_DLQ_AMT'] / df['PERSONAL_INCOME']
df.head()

Unnamed: 0,TARGET,AGE,SOCSTATUS_WORK_FL,SOCSTATUS_PENS_FL,GENDER,EDUCATION,MARITAL_STATUS,ORG_TP_STATE,JOB_DIR,PERSONAL_INCOME,OWN_AUTO,WORK_TIME,LOAN_MAX_DLQ_AMT,Долговая нагрузка
0,0,49,1,0,1,Среднее специальное,Состою в браке,Частная компания,Вспомогательный техперсонал,5000.0,0,18.0,1580.0,0.316
1,0,32,1,0,1,Среднее,Состою в браке,Индивидуальный предприниматель,Участие в основ. деятельности,12000.0,0,97.0,4020.0,0.335
2,0,52,1,0,1,Неполное среднее,Состою в браке,Государственная комп./учреж.,Участие в основ. деятельности,9000.0,0,84.0,0.0,0.0
3,0,39,1,0,1,High,Состою в браке,Государственная комп./учреж.,Участие в основ. деятельности,25000.0,0,168.0,1590.0,0.0636
4,0,30,1,0,0,Среднее,Состою в браке,Государственная комп./учреж.,Участие в основ. деятельности,12000.0,0,101.0,2230.0,0.185833


Чтобы удалить столбцы или строки, воспользуйтесь методом drop, передавая в качестве аргумента нужные индексы и требуемое значение параметра axis (1, если удаляете столбцы, и ничего или 0, если удаляете строки):

In [43]:
# избавляемся от созданных только что столбцов
df = df.drop(['Долговая нагрузка'], axis=1) 


# а вот так можно удалить строчки
df.drop([1, 2]).head()

Unnamed: 0,TARGET,AGE,SOCSTATUS_WORK_FL,SOCSTATUS_PENS_FL,GENDER,EDUCATION,MARITAL_STATUS,ORG_TP_STATE,JOB_DIR,PERSONAL_INCOME,OWN_AUTO,WORK_TIME,LOAN_MAX_DLQ_AMT
0,0,49,1,0,1,Среднее специальное,Состою в браке,Частная компания,Вспомогательный техперсонал,5000.0,0,18.0,1580.0
3,0,39,1,0,1,High,Состою в браке,Государственная комп./учреж.,Участие в основ. деятельности,25000.0,0,168.0,1590.0
4,0,30,1,0,0,Среднее,Состою в браке,Государственная комп./учреж.,Участие в основ. деятельности,12000.0,0,101.0,2230.0
5,0,29,1,0,0,Среднее,Гражданский брак,Частная компания,Адм-хоз. и трансп. службы,12000.0,1,40.0,0.0
6,0,35,1,0,0,High,Разведен(а),Государственная комп./учреж.,Участие в основ. деятельности,15000.0,0,6.0,0.0
