In [1]:
# урок - https://www.shanelynn.ie/select-pandas-dataframe-rows-and-columns-using-iloc-loc-and-ix

import numpy as np
import pandas as pd
import random

data = pd.read_csv('Data_folder/uk-500.csv', index_col=False)
# index_col - выбор столбца csv файла который будет использован как индекс
# по умолчанию index_col=False, т.е. никакой столбец не выбран, и pandas
# создаст индексы сам (от 0). Сейчас как раз такой случай, и данный аргумент
# можно вообще не задавать. Однако если в csv УЖЕ ЕСТЬ столбец индексов, то
# index_col=номер_столбца нужен для выбора именно этого столбца в качестве индексов фрейма

# еще мы можем сами создавать csv из фреймов/сериес с помошью DataFrame.to_csv()
# как использовать этот метод - читай документацию

data.head()

FileNotFoundError: [Errno 2] File b'Data_folder/uk-500.csv' does not exist: b'Data_folder/uk-500.csv'

### .iloc - выбор по номеру
(неизменяемому, номер - это не индекс, его нельзя поменять)

### индекс же меняется через .set_index()

Полный вызов: data.iloc[<row selection>, <column selection>]

In [18]:
# Single selections using iloc and DataFrame
# Rows:
data.iloc[0] # first row of data frame (Aleshia Tomkiewicz) - Note a Series data type output.
data.iloc[1] # second row of data frame (Evan Zigomalas)
data.iloc[-1] # last row of data frame (Mi Richan)

# Columns:
data.iloc[:,0] # first column of data frame (first_name)
data.iloc[:,1] # second column of data frame (last_name)
data.iloc[:,-1] # last column of data frame (id)

0              http://www.alandrosenburgcpapc.co.uk
1                 http://www.capgeminiamerica.co.uk
2                  http://www.elliottjohnwesq.co.uk
3                      http://www.mcmahanbenl.co.uk
4                    http://www.champagneroom.co.uk
5              http://www.thompsonmichaelcesq.co.uk
6          http://www.wranglehillautoauctslvg.co.uk
7              http://www.incommunicationsinc.co.uk
8                    http://www.bizerbausainc.co.uk
9                         http://www.maxvideo.co.uk
10                 http://www.krassociatesinc.co.uk
11                    http://www.cainjohnmesq.co.uk
12                 http://www.soundvisioncorp.co.uk
13            http://www.rowleyhansellpetetin.co.uk
14     http://www.industrialengineeringassocs.co.uk
15                 http://www.weissspirtguyer.co.uk
16               http://www.crowankennethwesq.co.uk
17              http://www.rittenhousemotorco.co.uk
18              http://www.modernplasticscorp.co.uk
19          

In [19]:
# Multiple row and column selections using iloc and DataFrame

data.iloc[0:5] # first five rows of dataframe
data.iloc[:, 0:2] # first two columns of data frame with all rows
data.iloc[[0,3,6,24], [0,5,6]] # 1st, 4th, 7th, 25th row + 1st 6th 7th columns.
data.iloc[0:5, 5:8] # first 5 rows and 5th, 6th, 7th columns of data frame (county -> phone1).

# важный момент - при выборе через string (строку) .iloc[100] возвращает Series
# а при выборе через list (список) .iloc[[100]] возвращает DataFrame
# аналогично со столбцами - .iloc[1:2, 3] - Series, .iloc[1:2, [3]] - DataFrame
# и последнее, .iloc[1:5] - вернет 1, 2, 3, 4; БЕЗ 5й строки

Unnamed: 0,county,postal,phone1
0,Kent,CT2 7PP,01835-703597
1,Buckinghamshire,HP11 2AX,01937-864715
2,Bournemouth,BH6 3BE,01347-368222
3,Lincolnshire,DN36 5RP,01912-771311
4,West Midlands,B70 9DT,01547-429341


# .loc  - выбор по названию/индексу или

# по булевым/логическим условиям

полный вызов - data.loc[<row selection>, <column selection>]
(такой же как у .loc[])

In [20]:
# присвоим новые индексы - фамилии людей
data.set_index("last_name", inplace=True)
data.head()

Unnamed: 0_level_0,first_name,company_name,address,city,county,postal,phone1,phone2,email,web
last_name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
Tomkiewicz,Aleshia,Alan D Rosenburg Cpa Pc,14 Taylor St,St. Stephens Ward,Kent,CT2 7PP,01835-703597,01944-369967,atomkiewicz@hotmail.com,http://www.alandrosenburgcpapc.co.uk
Zigomalas,Evan,Cap Gemini America,5 Binney St,Abbey Ward,Buckinghamshire,HP11 2AX,01937-864715,01714-737668,evan.zigomalas@gmail.com,http://www.capgeminiamerica.co.uk
Andrade,France,"Elliott, John W Esq",8 Moor Place,East Southbourne and Tuckton W,Bournemouth,BH6 3BE,01347-368222,01935-821636,france.andrade@hotmail.com,http://www.elliottjohnwesq.co.uk
Mcwalters,Ulysses,"Mcmahan, Ben L",505 Exeter Rd,Hawerby cum Beesby,Lincolnshire,DN36 5RP,01912-771311,01302-601380,ulysses@hotmail.com,http://www.mcmahanbenl.co.uk
Veness,Tyisha,Champagne Room,5396 Forth Street,Greets Green and Lyng Ward,West Midlands,B70 9DT,01547-429341,01290-367248,tyisha.veness@hotmail.com,http://www.champagneroom.co.uk


In [21]:
data.loc['Andrade'] # выбор строки по фамилии
data.loc[['Andrade', 'Veness']] # выбор по нескольким фамилиям (две скобки,
                                # т.к. мы задает список фамилий)

# выбор по строкам и столбцам (опять же задаем "выборку" списками)
data.loc[['Andrade', 'Veness'], ['first_name', 'city']]

# выбор от-до (задается именами а НЕ списком)
data.loc[['Andrade', 'Veness'], 'city':'email']
data.loc['Andrade':'Veness', ['first_name', 'city']]

Unnamed: 0_level_0,first_name,city
last_name,Unnamed: 1_level_1,Unnamed: 2_level_1
Andrade,France,East Southbourne and Tuckton W
Mcwalters,Ulysses,Hawerby cum Beesby
Veness,Tyisha,Greets Green and Lyng Ward


In [22]:
# выбор по булевым/логическим условиям
# если строка/столбец дает True при нашем условии, то она/он выбирается
# data.first_name и data['first_name'] - одно и то же (выбор столбца first_name) можно использовать любое из них, однако
# квадратные скобки, хоть и "нагружают" код, всё же делают его более читаемым, т.к. data.first_name можно случайно прочитать как
# "метод first_name фрейма data". Что будет ошибкой.

data.loc[data['first_name'] == 'Antonio']
# обрати внимание на вызов: data.loc[data[условие]]

data.loc[data['first_name'] == 'Erasmo', ['company_name', 'email']]

# выбор всех строк с мылом оканчивающимчся на hotmail.com
data.loc[data['email'].str.endswith("hotmail.com")]

# выбор по соответсвию имен указанному list
data.loc[data['first_name'].isin(['France', 'Tyisha', 'Eric'])]

# выбрать только тех у кого gmail и имя ==  Antonio
data.loc[data['email'].str.endswith("gmail.com") & (data['first_name'] == 'Antonio')]

# выбрать тех кто живет в Abbey Ward и Central Ward и имеет имя Antonio
data.loc[(data['city'].isin(['Abbey Ward', 'Central Ward'])) & (data['first_name'] == 'Antonio')]
# обрати внимание на то что мы используем .isin для выбора и Abbey Ward и Central Ward, а не конструкцию типа:
# data['city'] == 'Abbey Ward' | 'Central Ward', которая является неправильной

Unnamed: 0_level_0,first_name,company_name,address,city,county,postal,phone1,phone2,email,web
last_name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1


In [60]:
# еще .loc[] позволяет вносить изменения в DataFrame (именно изменять исходный фрейм)

data.loc[data['first_name'] == 'Antonio', 'first_name'] = 'John'
data.loc[data['first_name'] == 'Antonio']
# пусто, потому что мы переименовали всех Антонов в Джонов

Unnamed: 0_level_0,first_name,company_name,address,city,county,postal,phone1,phone2,email,web
last_name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
