In [1]:
import numpy as np
import pandas as pd

In [2]:
data = pd.read_csv('Data/Example.csv', sep=';')

In [3]:
# выводим информацию о количестве строк (наблюдений) 
# и количестве столбцов (переменных)
data.shape

(11, 10)

In [4]:
# выводим первые 5 наблюдений
data.head()

Unnamed: 0,region,tenure,age,address,income,employ,retire,gender,reside,churn
0,Region 2,13.0,44.0,9.0,64.0,5.0,no,f,2.0,1
1,Region 3,11.0,33.0,7.0,136.0,5.0,no,f,6.0,1
2,Region 3,68.0,52.0,24.0,116.0,29.0,no,,,0
3,Region 2,,33.0,12.0,,,no,,1.0,1
4,Region 2,23.0,30.0,9.0,30.0,2.0,no,f,4.0,0


In [5]:
# с помощью метода .tail() выводим 
# последние 5 наблюдений
data.tail()

Unnamed: 0,region,tenure,age,address,income,employ,retire,gender,reside,churn
6,Region 3,45.0,22.0,,19.0,,no,,5.0,1
7,Region 2,38.0,35.0,5.0,76.0,10.0,,f,3.0,0
8,Region 3,45.0,,7.0,,31.0,,f,5.0,0
9,Region 1,68.0,41.0,21.0,,22.0,,f,,0
10,Region 2,5.0,33.0,10.0,,5.0,,m,,1


In [6]:
# отбираем столбец с индексом 2, поскольку 
# в R индексация с 0, будут выведены 
# значения столбца age
data.iloc[:, 2]

0     44.0
1     33.0
2     52.0
3     33.0
4     30.0
5      NaN
6     22.0
7     35.0
8      NaN
9     41.0
10    33.0
Name: age, dtype: float64

In [7]:
# а еще можно было отобрать по имени
data.loc[:, 'age']

0     44.0
1     33.0
2     52.0
3     33.0
4     30.0
5      NaN
6     22.0
7     35.0
8      NaN
9     41.0
10    33.0
Name: age, dtype: float64

In [8]:
# наконец, можно воспользоваться методом .filter()
data.filter(items=['age'])

Unnamed: 0,age
0,44.0
1,33.0
2,52.0
3,33.0
4,30.0
5,
6,22.0
7,35.0
8,
9,41.0


In [9]:
# отбираем столбцы с age по employ
data.loc[:, 'age':'employ']

Unnamed: 0,age,address,income,employ
0,44.0,9.0,64.0,5.0
1,33.0,7.0,136.0,5.0
2,52.0,24.0,116.0,29.0
3,33.0,12.0,,
4,30.0,9.0,30.0,2.0
5,,17.0,78.0,16.0
6,22.0,,19.0,
7,35.0,5.0,76.0,10.0
8,,7.0,,31.0
9,41.0,21.0,,22.0


In [10]:
# отбираем те же столбцы по индексу 
# (вновь обратите внимание, индексация
# начинается с 0 и последнее значение
# диапазона в него не входит)
data.iloc[:, 2:6]

Unnamed: 0,age,address,income,employ
0,44.0,9.0,64.0,5.0
1,33.0,7.0,136.0,5.0
2,52.0,24.0,116.0,29.0
3,33.0,12.0,,
4,30.0,9.0,30.0,2.0
5,,17.0,78.0,16.0
6,22.0,,19.0,
7,35.0,5.0,76.0,10.0
8,,7.0,,31.0
9,41.0,21.0,,22.0


In [11]:
# отбираем столбцы, в названии которых встречается паттерн ge
data.filter(like='ge')

Unnamed: 0,age,gender
0,44.0,f
1,33.0,f
2,52.0,
3,33.0,
4,30.0,f
5,,m
6,22.0,
7,35.0,f
8,,f
9,41.0,f


In [12]:
# отбираем все столбцы, за исключением 
# столбца churn
data.loc[:, data.columns != 'churn']

Unnamed: 0,region,tenure,age,address,income,employ,retire,gender,reside
0,Region 2,13.0,44.0,9.0,64.0,5.0,no,f,2.0
1,Region 3,11.0,33.0,7.0,136.0,5.0,no,f,6.0
2,Region 3,68.0,52.0,24.0,116.0,29.0,no,,
3,Region 2,,33.0,12.0,,,no,,1.0
4,Region 2,23.0,30.0,9.0,30.0,2.0,no,f,4.0
5,Region 2,41.0,,17.0,78.0,16.0,no,m,1.0
6,Region 3,45.0,22.0,,19.0,,no,,5.0
7,Region 2,38.0,35.0,5.0,76.0,10.0,,f,3.0
8,Region 3,45.0,,7.0,,31.0,,f,5.0
9,Region 1,68.0,41.0,21.0,,22.0,,f,


In [13]:
# еще можно так
data[data.columns.difference(['churn'])]

Unnamed: 0,address,age,employ,gender,income,region,reside,retire,tenure
0,9.0,44.0,5.0,f,64.0,Region 2,2.0,no,13.0
1,7.0,33.0,5.0,f,136.0,Region 3,6.0,no,11.0
2,24.0,52.0,29.0,,116.0,Region 3,,no,68.0
3,12.0,33.0,,,,Region 2,1.0,no,
4,9.0,30.0,2.0,f,30.0,Region 2,4.0,no,23.0
5,17.0,,16.0,m,78.0,Region 2,1.0,no,41.0
6,,22.0,,,19.0,Region 3,5.0,no,45.0
7,5.0,35.0,10.0,f,76.0,Region 2,3.0,,38.0
8,7.0,,31.0,f,,Region 3,5.0,,45.0
9,21.0,41.0,22.0,f,,Region 1,,,68.0


In [14]:
# отбираем столбцы типа integer
data.select_dtypes(include=['int'])

Unnamed: 0,churn
0,1
1,1
2,0
3,1
4,0
5,0
6,1
7,0
8,0
9,0


In [15]:
# отбираем строку с индексом 5 при помощи метода .filter(), 
# фактически 6-ю строку, потому что индексация с 0
data.filter(items=[5], axis=0)

Unnamed: 0,region,tenure,age,address,income,employ,retire,gender,reside,churn
5,Region 2,41.0,,17.0,78.0,16.0,no,m,1.0,0


In [16]:
# отбираем первые 5 строк 
data[:5]

Unnamed: 0,region,tenure,age,address,income,employ,retire,gender,reside,churn
0,Region 2,13.0,44.0,9.0,64.0,5.0,no,f,2.0,1
1,Region 3,11.0,33.0,7.0,136.0,5.0,no,f,6.0,1
2,Region 3,68.0,52.0,24.0,116.0,29.0,no,,,0
3,Region 2,,33.0,12.0,,,no,,1.0,1
4,Region 2,23.0,30.0,9.0,30.0,2.0,no,f,4.0,0


In [17]:
# отбираем первые 5 строк с помощью свойства .iloc,
# .iloc ищет по целочисленной позиции
data.iloc[:5]

Unnamed: 0,region,tenure,age,address,income,employ,retire,gender,reside,churn
0,Region 2,13.0,44.0,9.0,64.0,5.0,no,f,2.0,1
1,Region 3,11.0,33.0,7.0,136.0,5.0,no,f,6.0,1
2,Region 3,68.0,52.0,24.0,116.0,29.0,no,,,0
3,Region 2,,33.0,12.0,,,no,,1.0,1
4,Region 2,23.0,30.0,9.0,30.0,2.0,no,f,4.0,0


In [18]:
# отбираем первые 5 строк с помощью свойства .iloc,
# .loc ищет по метке
data.loc[:4]

Unnamed: 0,region,tenure,age,address,income,employ,retire,gender,reside,churn
0,Region 2,13.0,44.0,9.0,64.0,5.0,no,f,2.0,1
1,Region 3,11.0,33.0,7.0,136.0,5.0,no,f,6.0,1
2,Region 3,68.0,52.0,24.0,116.0,29.0,no,,,0
3,Region 2,,33.0,12.0,,,no,,1.0,1
4,Region 2,23.0,30.0,9.0,30.0,2.0,no,f,4.0,0


In [19]:
# отбираем строки с 6-й по 8-ю, т.е. с индексом с 5-го по 7-й включительно
# (задаем 5:8, т.к. последний элемент диапазона не входит)
data[5:8]

Unnamed: 0,region,tenure,age,address,income,employ,retire,gender,reside,churn
5,Region 2,41.0,,17.0,78.0,16.0,no,m,1.0,0
6,Region 3,45.0,22.0,,19.0,,no,,5.0,1
7,Region 2,38.0,35.0,5.0,76.0,10.0,,f,3.0,0


In [20]:
# отбираем строки с 6-й по 8-ю, т.е. с индексом с 5-го по 7-й
# включительно с помощью свойства .iloc
# (задаем 5:8, т.к. последний элемент диапазона не входит)
data.iloc[5:8]

Unnamed: 0,region,tenure,age,address,income,employ,retire,gender,reside,churn
5,Region 2,41.0,,17.0,78.0,16.0,no,m,1.0,0
6,Region 3,45.0,22.0,,19.0,,no,,5.0,1
7,Region 2,38.0,35.0,5.0,76.0,10.0,,f,3.0,0
