In [1]:
import numpy as np
import pandas as pd

In [2]:
data = pd.read_csv('Data/Churn.csv', sep=';')

In [3]:
# выводим информацию о количестве строк (наблюдений) 
# и количестве столбцов (переменных)
data.shape

(11, 10)

In [4]:
# выводим первые 5 наблюдений
data.head()

Unnamed: 0,region,tenure,age,address,income,employ,retire,gender,reside,churn
0,REGION 2,13,44,9,64,5,N,M,2,1
1,REGION 3,11,33,7,136,5,N,M,6,1
2,REGION 3,68,52,24,116,29,N,F,2,0
3,REGION 2,33,33,12,33,0,N,F,1,1
4,REGION 2,23,30,9,30,2,N,M,4,0


In [5]:
# с помощью метода .tail() выводим 
# последние 5 наблюдений
data.tail()

Unnamed: 0,region,tenure,age,address,income,employ,retire,gender,reside,churn
6,REGION 3,45,22,2,19,4,N,F,5,1
7,REGION 2,38,35,5,76,10,N,M,3,0
8,REGION 3,45,59,7,166,31,N,M,5,0
9,REGION 1,68,41,21,72,22,N,M,3,0
10,REGION 2,5,33,10,125,5,N,F,1,1


In [6]:
# отбираем столбец с индексом 2, поскольку 
# в R индексация с 0, будут выведены 
# значения столбца age
data.iloc[:, 2]

0     44
1     33
2     52
3     33
4     30
5     39
6     22
7     35
8     59
9     41
10    33
Name: age, dtype: int64

In [7]:
# а еще можно было отобрать по имени
data.loc[:, 'age']

0     44
1     33
2     52
3     33
4     30
5     39
6     22
7     35
8     59
9     41
10    33
Name: age, dtype: int64

In [8]:
# наконец, можно воспользоваться методом .filter()
data.filter(items=['age'])

Unnamed: 0,age
0,44
1,33
2,52
3,33
4,30
5,39
6,22
7,35
8,59
9,41


In [9]:
# отбираем столбцы с age по employ
data.loc[:, 'age':'employ']

Unnamed: 0,age,address,income,employ
0,44,9,64,5
1,33,7,136,5
2,52,24,116,29
3,33,12,33,0
4,30,9,30,2
5,39,17,78,16
6,22,2,19,4
7,35,5,76,10
8,59,7,166,31
9,41,21,72,22


In [10]:
# отбираем те же столбцы по индексу 
# (вновь обратите внимание, индексация
# начинается с 0 и последнее значение
# диапазона в него не входит)
data.iloc[:, 2:6]

Unnamed: 0,age,address,income,employ
0,44,9,64,5
1,33,7,136,5
2,52,24,116,29
3,33,12,33,0
4,30,9,30,2
5,39,17,78,16
6,22,2,19,4
7,35,5,76,10
8,59,7,166,31
9,41,21,72,22


In [11]:
# отбираем столбцы, в названии которых встречается паттерн ge
data.filter(like='ge')

Unnamed: 0,age,gender
0,44,M
1,33,M
2,52,F
3,33,F
4,30,M
5,39,F
6,22,F
7,35,M
8,59,M
9,41,M


In [12]:
# отбираем все столбцы, за исключением 
# столбца churn
data.loc[:, data.columns != 'churn']

Unnamed: 0,region,tenure,age,address,income,employ,retire,gender,reside
0,REGION 2,13,44,9,64,5,N,M,2
1,REGION 3,11,33,7,136,5,N,M,6
2,REGION 3,68,52,24,116,29,N,F,2
3,REGION 2,33,33,12,33,0,N,F,1
4,REGION 2,23,30,9,30,2,N,M,4
5,REGION 2,41,39,17,78,16,N,F,1
6,REGION 3,45,22,2,19,4,N,F,5
7,REGION 2,38,35,5,76,10,N,M,3
8,REGION 3,45,59,7,166,31,N,M,5
9,REGION 1,68,41,21,72,22,N,M,3


In [13]:
# еще можно так
data[data.columns.difference(['churn'])]

Unnamed: 0,address,age,employ,gender,income,region,reside,retire,tenure
0,9,44,5,M,64,REGION 2,2,N,13
1,7,33,5,M,136,REGION 3,6,N,11
2,24,52,29,F,116,REGION 3,2,N,68
3,12,33,0,F,33,REGION 2,1,N,33
4,9,30,2,M,30,REGION 2,4,N,23
5,17,39,16,F,78,REGION 2,1,N,41
6,2,22,4,F,19,REGION 3,5,N,45
7,5,35,10,M,76,REGION 2,3,N,38
8,7,59,31,M,166,REGION 3,5,N,45
9,21,41,22,M,72,REGION 1,3,N,68


In [14]:
# отбираем столбцы типа integer
data.select_dtypes(include=['int'])

Unnamed: 0,tenure,age,address,income,employ,reside,churn
0,13,44,9,64,5,2,1
1,11,33,7,136,5,6,1
2,68,52,24,116,29,2,0
3,33,33,12,33,0,1,1
4,23,30,9,30,2,4,0
5,41,39,17,78,16,1,0
6,45,22,2,19,4,5,1
7,38,35,5,76,10,3,0
8,45,59,7,166,31,5,0
9,68,41,21,72,22,3,0


In [15]:
# отбираем строку с индексом 5 при помощи метода .filter(), 
# фактически 6-ю строку, потому что индексация с 0
data.filter(items=[5], axis=0)

Unnamed: 0,region,tenure,age,address,income,employ,retire,gender,reside,churn
5,REGION 2,41,39,17,78,16,N,F,1,0


In [16]:
# отбираем первые 5 строк 
data[:5]

Unnamed: 0,region,tenure,age,address,income,employ,retire,gender,reside,churn
0,REGION 2,13,44,9,64,5,N,M,2,1
1,REGION 3,11,33,7,136,5,N,M,6,1
2,REGION 3,68,52,24,116,29,N,F,2,0
3,REGION 2,33,33,12,33,0,N,F,1,1
4,REGION 2,23,30,9,30,2,N,M,4,0


In [17]:
# отбираем первые 5 строк с помощью свойства .iloc,
# .iloc ищет по целочисленной позиции
data.iloc[:5]

Unnamed: 0,region,tenure,age,address,income,employ,retire,gender,reside,churn
0,REGION 2,13,44,9,64,5,N,M,2,1
1,REGION 3,11,33,7,136,5,N,M,6,1
2,REGION 3,68,52,24,116,29,N,F,2,0
3,REGION 2,33,33,12,33,0,N,F,1,1
4,REGION 2,23,30,9,30,2,N,M,4,0


In [18]:
# отбираем первые 5 строк с помощью свойства .iloc,
# .loc ищет по метке
data.loc[:4]

Unnamed: 0,region,tenure,age,address,income,employ,retire,gender,reside,churn
0,REGION 2,13,44,9,64,5,N,M,2,1
1,REGION 3,11,33,7,136,5,N,M,6,1
2,REGION 3,68,52,24,116,29,N,F,2,0
3,REGION 2,33,33,12,33,0,N,F,1,1
4,REGION 2,23,30,9,30,2,N,M,4,0


In [19]:
# отбираем строки с 6-й по 8-ю, т.е. с индексом с 5-го по 7-й включительно
# (задаем 5:8, т.к. последний элемент диапазона не входит)
data[5:8]

Unnamed: 0,region,tenure,age,address,income,employ,retire,gender,reside,churn
5,REGION 2,41,39,17,78,16,N,F,1,0
6,REGION 3,45,22,2,19,4,N,F,5,1
7,REGION 2,38,35,5,76,10,N,M,3,0


In [20]:
# отбираем строки с 6-й по 8-ю, т.е. с индексом с 5-го по 7-й
# включительно с помощью свойства .iloc
# (задаем 5:8, т.к. последний элемент диапазона не входит)
data.iloc[5:8]

Unnamed: 0,region,tenure,age,address,income,employ,retire,gender,reside,churn
5,REGION 2,41,39,17,78,16,N,F,1,0
6,REGION 3,45,22,2,19,4,N,F,5,1
7,REGION 2,38,35,5,76,10,N,M,3,0
