# Pandas

In [39]:
import pandas as pd
import numpy as np
import os

## Создание объектов

In [2]:
arr = [1, 2, 3, 4]
print(arr)
print("type(arr): {}".format(type(arr)))

[1, 2, 3, 4]
type(arr): <class 'list'>


Для создания одномерного массива в Pandas существует объект `Series`. Чтобы его создать, надо вызвать конструктор `pandas.Series()` и передать ему `list` Python.

In [3]:
s = pd.Series([1, 2, 3, 4])
print(s)

0    1
1    2
2    3
3    4
dtype: int64


In [4]:
s = pd.Series([1, 2, "hello", np.nan, 4]) # Series может состоять из разнородных объектов
print(s)

0        1
1        2
2    hello
3      NaN
4        4
dtype: object


Для двумерных матриц существует объект `DataFrame`. Он имеет функционал таблицы - в выводе вы увидите индексы и названия колонок (пока цифры, по умолчанию).

In [5]:
df = pd.DataFrame([[50, 4, 30], [48, 10, 26], [61, 8, 24]])
df

Unnamed: 0,0,1,2
0,50,4,30
1,48,10,26
2,61,8,24


Особенность Jupyter - не стоит использовать print(df), вывод будет не таким красивым.

In [6]:
print(df)

    0   1   2
0  50   4  30
1  48  10  26
2  61   8  24


`list` Python и массив NumPy такими свойствами не обладают.

In [7]:
simple_arr = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]
numpy_arr = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print(simple_arr)
print(numpy_arr)

[[1, 2, 3], [4, 5, 6], [7, 8, 9]]
[[1 2 3]
 [4 5 6]
 [7 8 9]]


Чтобы добавить свои индексы и названия колонок, используйте параметры `index` и `columns` соответственно.

In [8]:
s = pd.DataFrame([[45, 2, 33], [34, 4, 16], [28, 10, 19]], index=[2016, 2017, 2018], columns=['Cars', 'Trucks', 'Bikes'])
s

Unnamed: 0,Cars,Trucks,Bikes
2016,45,2,33
2017,34,4,16
2018,28,10,19


Если передать неправильные размерности, `DataFrame` создать не получится.

In [9]:
a = np.random.randn(5, 6) # размерность матрицы случайных чисел - 5х6
df = pd.DataFrame(a, index=[2016, 2017, 2018], columns=['A', 'B', 'C']) # длина списка индексов и названий колонок - 3
# получаем закономерную ошибку

ValueError: Shape of passed values is (6, 5), indices imply (3, 3)

In [10]:
df = pd.DataFrame(a, index=[2014, 2015, 2016, 2017, 2018], columns=['A', 'B', 'C', 'D', 'E', 'F'])
df

Unnamed: 0,A,B,C,D,E,F
2014,1.351245,-1.489038,-0.104793,-0.389835,-1.451194,-1.036896
2015,-0.199577,-0.702948,-0.56138,-1.327328,0.094882,2.381116
2016,-0.044627,1.532459,-1.231081,2.301169,0.121137,0.232053
2017,0.433935,0.209316,-0.90969,0.211275,0.04341,-0.157719
2018,-1.245258,0.001816,-1.24512,1.091275,2.902465,-0.736312


Создадим более осмысленную таблицу - данные магазина книг. В ней будет содержаться сумма, потраченной клиентом за прошлый год (в долларах), его фамилия и шанс того, что он вернётся за покупками ещё раз (от 0 до 1).

In [11]:
a = [
    [100, 'Brown', 0.483],
    [220, 'Smith', 0.564],
    [66, 'Noll', 0.181]
]
df = pd.DataFrame(a, columns=['Items bought', 'Last name', 'More purchases chance'])
df

Unnamed: 0,Items bought,Last name,More purchases chance
0,100,Brown,0.483
1,220,Smith,0.564
2,66,Noll,0.181


## Визуализация и первичная обработка

Расширим таблицу - теперь DataFrame содержит сумму, потраченной клиентом за прошлый год (в долларах), его фамилию, пол, возраст и шанс того, что он вернётся за покупками ещё раз (от 0 до 1).

In [12]:
a = [
    [100, 'Brown', 'm', 45, 0.483],
    [220, 'Smith', 'f', 30, 0.564],
    [66, 'Noll', 'm', 58, 0.181],
    [156, 'Johnson', 'm', 18, 0.503],
    [0, 'Krakovsky', 'f', 50, 0.9],
    [300, 'Brann', 'm', 55, 0.862],
    [42, 'Alba', 'f', 32, 0.455],
    [105, 'Perrez', 'f', 24, 0.381]
]
df = pd.DataFrame(a, columns=['Sum spent', 'Last name', 'Gender', 'Age', 'Later purchases chance'])
df

Unnamed: 0,Sum spent,Last name,Gender,Age,Later purchases chance
0,100,Brown,m,45,0.483
1,220,Smith,f,30,0.564
2,66,Noll,m,58,0.181
3,156,Johnson,m,18,0.503
4,0,Krakovsky,f,50,0.9
5,300,Brann,m,55,0.862
6,42,Alba,f,32,0.455
7,105,Perrez,f,24,0.381


Чтобы вывести первые пять рядов, воспользуйтесь функцией `DataFrame.head()`.

In [13]:
df.head()

Unnamed: 0,Sum spent,Last name,Gender,Age,Later purchases chance
0,100,Brown,m,45,0.483
1,220,Smith,f,30,0.564
2,66,Noll,m,58,0.181
3,156,Johnson,m,18,0.503
4,0,Krakovsky,f,50,0.9


Чтобы вывести последние пять рядов, воспользуйтесь функцией `DataFrame.tail()`.

In [14]:
df.tail()

Unnamed: 0,Sum spent,Last name,Gender,Age,Later purchases chance
3,156,Johnson,m,18,0.503
4,0,Krakovsky,f,50,0.9
5,300,Brann,m,55,0.862
6,42,Alba,f,32,0.455
7,105,Perrez,f,24,0.381


Чтобы вывести определённое количество (`n`) рядов, воспользуйтесь функцией `DataFrame.head(n)` или `DataFrame.tail(n)`.

In [15]:
df.head(3)

Unnamed: 0,Sum spent,Last name,Gender,Age,Later purchases chance
0,100,Brown,m,45,0.483
1,220,Smith,f,30,0.564
2,66,Noll,m,58,0.181


In [16]:
df.tail(2)

Unnamed: 0,Sum spent,Last name,Gender,Age,Later purchases chance
6,42,Alba,f,32,0.455
7,105,Perrez,f,24,0.381


Чтобы узнать размерность `DataFrame`, используйте свойство `DataFrmame.shape` (как в NumPy).

In [17]:
df.shape

(8, 5)

Чтобы получить список названий колонок, используйте свойство `DataFrame.columns`.

In [18]:
df.columns

Index(['Sum spent', 'Last name', 'Gender', 'Age', 'Later purchases chance'], dtype='object')

Чтобы получить список индексов, используйте свойство `DataFrame.index`.

In [19]:
df.index

RangeIndex(start=0, stop=8, step=1)

Для первичного анализа таблицы используйте метод `DataFrame.describe()`

In [20]:
df.describe()

Unnamed: 0,Sum spent,Age,Later purchases chance
count,8.0,8.0,8.0
mean,123.625,39.0,0.541125
std,98.282301,14.976172,0.239002
min,0.0,18.0,0.181
25%,60.0,28.5,0.4365
50%,102.5,38.5,0.493
75%,172.0,51.25,0.6385
max,300.0,58.0,0.9


In [21]:
df.T # транспонирование матрицы - не очень популярный для DataFrame метод

Unnamed: 0,0,1,2,3,4,5,6,7
Sum spent,100,220,66,156,0,300,42,105
Last name,Brown,Smith,Noll,Johnson,Krakovsky,Brann,Alba,Perrez
Gender,m,f,m,m,f,m,f,f
Age,45,30,58,18,50,55,32,24
Later purchases chance,0.483,0.564,0.181,0.503,0.9,0.862,0.455,0.381


Для сортировки используйте метод `DataFrame.sort_values(by='column_name')`, где `column_name` - имя столбца, по которому будет проходить сортировка.

In [22]:
df.sort_values(by='Age')

Unnamed: 0,Sum spent,Last name,Gender,Age,Later purchases chance
3,156,Johnson,m,18,0.503
7,105,Perrez,f,24,0.381
1,220,Smith,f,30,0.564
6,42,Alba,f,32,0.455
0,100,Brown,m,45,0.483
4,0,Krakovsky,f,50,0.9
5,300,Brann,m,55,0.862
2,66,Noll,m,58,0.181


Для сортировки по убыванию установите параметр `ascending` в значение `False`.

In [23]:
df.sort_values(by='Age', ascending=False)

Unnamed: 0,Sum spent,Last name,Gender,Age,Later purchases chance
2,66,Noll,m,58,0.181
5,300,Brann,m,55,0.862
4,0,Krakovsky,f,50,0.9
0,100,Brown,m,45,0.483
6,42,Alba,f,32,0.455
1,220,Smith,f,30,0.564
7,105,Perrez,f,24,0.381
3,156,Johnson,m,18,0.503


## Выбор данных из DataFrame

Создадим заново расширенную таблицу магазина книг.

In [24]:
a = [
    [100, 'Brown', 'm', 45, 48.3],
    [220, 'Smith', 'f', 30, 56.4],
    [66, 'Noll', 'm', 58, 18.1],
    [156, 'Johnson', 'm', 18, 50.3],
    [0, 'Krakovsky', 'f', 50, 9.0],
    [300, 'Brann', 'm', 55, 86.2],
    [42, 'Alba', 'f', 32, 45.5],
    [105, 'Perrez', 'f', 24, 38.1]
]
df = pd.DataFrame(a, columns=['Sum spent', 'Last name', 'Gender', 'Age', 'Later purchases chance'])
df

Unnamed: 0,Sum spent,Last name,Gender,Age,Later purchases chance
0,100,Brown,m,45,48.3
1,220,Smith,f,30,56.4
2,66,Noll,m,58,18.1
3,156,Johnson,m,18,50.3
4,0,Krakovsky,f,50,9.0
5,300,Brann,m,55,86.2
6,42,Alba,f,32,45.5
7,105,Perrez,f,24,38.1


Чтобы получить отдельный столбец, укажите его имя в квадратных скобках.

In [25]:
df['Gender']

0    m
1    f
2    m
3    m
4    f
5    m
6    f
7    f
Name: Gender, dtype: object

Чтобы выбрать несколько колонок, передайте их списком Python.

In [26]:
df['Gender', 'Age'] # так не получится - Pandas требует единую сущность как индекс

KeyError: ('Gender', 'Age')

In [27]:
df[['Gender', 'Age']] # так получится, так как ['Gender', 'Age'] - единая сущность

Unnamed: 0,Gender,Age
0,m,45
1,f,30
2,m,58
3,m,18
4,f,50
5,m,55
6,f,32
7,f,24


Для выбора строки необходимо использовать метод `DataFrame.iloc[n]`, где `n` - порядковый номер ряда (начиная с 0), не название индексаю

In [28]:
df[0] # так не работает

KeyError: 0

In [29]:
df.iloc[0] # так работает

Sum spent                   100
Last name                 Brown
Gender                        m
Age                          45
Later purchases chance     48.3
Name: 0, dtype: object

In [30]:
df.iloc[0:4] # выбор рядов с индексами 0, 1, 2, 3

Unnamed: 0,Sum spent,Last name,Gender,Age,Later purchases chance
0,100,Brown,m,45,48.3
1,220,Smith,f,30,56.4
2,66,Noll,m,58,18.1
3,156,Johnson,m,18,50.3


Существует также функция `DataFrame.loc[n]`, которая принимает названия индексов, а не их порядковый номер.

In [31]:
temp_df = pd.DataFrame([[1, 2], [2, 3], [3, 4]], index=[2016, 2017, 2018])
# temp_df.iloc[2017] - не сработает 
temp_df.loc[2017] # аналогично temp_df.iloc[1]

0    2
1    3
Name: 2017, dtype: int64

Методы можно комбинировать в любом порядке.

In [32]:
df[['Last name', 'Gender']].loc[[0, 1, 2]]

Unnamed: 0,Last name,Gender
0,Brown,m
1,Smith,f
2,Noll,m


In [33]:
df.loc[[0, 1, 2]][['Last name', 'Gender']]

Unnamed: 0,Last name,Gender
0,Brown,m
1,Smith,f
2,Noll,m


Чтобы выбрать из `DataFrame` только ряды, удовлетворяющие логическому выражению (например, только клиенты женского пола), передайте в квадратные скобки это логическое выражение (в данном случае - стоит ли в колонке `'Age'` буква `'f'`.

In [34]:
df[df['Gender'] == 'f']

Unnamed: 0,Sum spent,Last name,Gender,Age,Later purchases chance
1,220,Smith,f,30,56.4
4,0,Krakovsky,f,50,9.0
6,42,Alba,f,32,45.5
7,105,Perrez,f,24,38.1


In [35]:
df[df['Age'] > 30] # клиенты старше 30 лет

Unnamed: 0,Sum spent,Last name,Gender,Age,Later purchases chance
0,100,Brown,m,45,48.3
2,66,Noll,m,58,18.1
4,0,Krakovsky,f,50,9.0
5,300,Brann,m,55,86.2
6,42,Alba,f,32,45.5


In [36]:
df[df['Age'] <= 30] # клиенты не старше 30 лет

Unnamed: 0,Sum spent,Last name,Gender,Age,Later purchases chance
1,220,Smith,f,30,56.4
3,156,Johnson,m,18,50.3
7,105,Perrez,f,24,38.1


## Сохранение данных

Чтобы загрузить `.csv` файл в `DataFrame`, используйте функцию `pandas.read_csv('file_name.csv')`

In [65]:
df = pd.read_csv('./data/iris.csv')
df.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


Чтобы сохранить `DataFrame` в файл, используйте метод `pandas.to_csv('file_name.csv')`

In [None]:
df.to_csv('test_file.csv')

# Pandas

In [None]:
import pandas as pd
import numpy as np

## Создание объектов

In [None]:
arr = [1, 2, 3, 4]
print(arr)
print("type(arr): {}".format(type(arr)))

Для создания одномерного массива в Pandas существует объект `Series`. Чтобы его создать, надо вызвать конструктор `pandas.Series()` и передать ему `list` Python.

In [None]:
s = pd.Series([1, 2, 3, 4])
print(s)

In [None]:
s = pd.Series([1, 2, "hello", np.nan, 4]) # Series может состоять из разнородных объектов
print(s)

Для двумерных матриц существует объект `DataFrame`. Он имеет функционал таблицы - в выводе вы увидите индексы и названия колонок (пока цифры, по умолчанию).

In [None]:
df = pd.DataFrame([[50, 4, 30], [48, 10, 26], [61, 8, 24]])
df

Особенность Jupyter - не стоит использовать print(df), вывод будет не таким красивым.

In [None]:
print(df)

`list` Python и массив NumPy такими свойствами не обладают.

In [None]:
simple_arr = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]
numpy_arr = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print(simple_arr)
print(numpy_arr)

Чтобы добавить свои индексы и названия колонок, используйте параметры `index` и `columns` соответственно.

In [None]:
s = pd.DataFrame([[45, 2, 33], [34, 4, 16], [28, 10, 19]], index=[2016, 2017, 2018], columns=['Cars', 'Trucks', 'Bikes'])
s

Если передать неправильные размерности, `DataFrame` создать не получится.

In [None]:
a = np.random.randn(5, 6) # размерность матрицы случайных чисел - 5х6
df = pd.DataFrame(a, index=[2016, 2017, 2018], columns=['A', 'B', 'C']) # длина списка индексов и названий колонок - 3
# получаем закономерную ошибку

In [None]:
df = pd.DataFrame(a, index=[2014, 2015, 2016, 2017, 2018], columns=['A', 'B', 'C', 'D', 'E', 'F'])
df

Создадим более осмысленную таблицу - данные магазина книг. В ней будет содержаться сумма, потраченной клиентом за прошлый год (в долларах), его фамилия и шанс того, что он вернётся за покупками ещё раз (от 0 до 1).

In [None]:
a = [
    [100, 'Brown', 0.483],
    [220, 'Smith', 0.564],
    [66, 'Noll', 0.181]
]
df = pd.DataFrame(a, columns=['Items bought', 'Last name', 'More purchases chance'])
df

## Визуализация и первичная обработка

Расширим таблицу - теперь DataFrame содержит сумму, потраченной клиентом за прошлый год (в долларах), его фамилию, пол, возраст и шанс того, что он вернётся за покупками ещё раз (от 0 до 1).

In [39]:
a = [
    [100, 'Brown', 'm', 45, 0.483],
    [220, 'Smith', 'f', 30, 0.564],
    [66, 'Noll', 'm', 58, 0.181],
    [156, 'Johnson', 'm', 18, 0.503],
    [0, 'Krakovsky', 'f', 50, 0.9],
    [300, 'Brann', 'm', 55, 0.862],
    [42, 'Alba', 'f', 32, 0.455],
    [105, 'Perrez', 'f', 24, 0.381]
]
df = pd.DataFrame(a, columns=['Sum spent', 'Last name', 'Gender', 'Age', 'Later purchases chance'])
df

Unnamed: 0,Sum spent,Last name,Gender,Age,Later purchases chance
0,100,Brown,m,45,0.483
1,220,Smith,f,30,0.564
2,66,Noll,m,58,0.181
3,156,Johnson,m,18,0.503
4,0,Krakovsky,f,50,0.9
5,300,Brann,m,55,0.862
6,42,Alba,f,32,0.455
7,105,Perrez,f,24,0.381


Чтобы вывести первые пять рядов, воспользуйтесь функцией `DataFrame.head()`.

In [40]:
df.head()

Unnamed: 0,Sum spent,Last name,Gender,Age,Later purchases chance
0,100,Brown,m,45,0.483
1,220,Smith,f,30,0.564
2,66,Noll,m,58,0.181
3,156,Johnson,m,18,0.503
4,0,Krakovsky,f,50,0.9


Чтобы вывести последние пять рядов, воспользуйтесь функцией `DataFrame.tail()`.

In [41]:
df.tail()

Unnamed: 0,Sum spent,Last name,Gender,Age,Later purchases chance
3,156,Johnson,m,18,0.503
4,0,Krakovsky,f,50,0.9
5,300,Brann,m,55,0.862
6,42,Alba,f,32,0.455
7,105,Perrez,f,24,0.381


Чтобы вывести определённое количество (`n`) рядов, воспользуйтесь функцией `DataFrame.head(n)` или `DataFrame.tail(n)`.

In [42]:
df.head(3)

Unnamed: 0,Sum spent,Last name,Gender,Age,Later purchases chance
0,100,Brown,m,45,0.483
1,220,Smith,f,30,0.564
2,66,Noll,m,58,0.181


In [43]:
df.tail(2)

Unnamed: 0,Sum spent,Last name,Gender,Age,Later purchases chance
6,42,Alba,f,32,0.455
7,105,Perrez,f,24,0.381


Чтобы узнать размерность `DataFrame`, используйте свойство `DataFrmame.shape` (как в NumPy).

In [44]:
df.shape

(8, 5)

Чтобы получить список названий колонок, используйте свойство `DataFrame.columns`.

In [45]:
df.columns

Index(['Sum spent', 'Last name', 'Gender', 'Age', 'Later purchases chance'], dtype='object')

Чтобы получить список индексов, используйте свойство `DataFrame.index`.

In [46]:
df.index

RangeIndex(start=0, stop=8, step=1)

Для первичного анализа таблицы используйте метод `DataFrame.describe()`

In [47]:
df.describe()

Unnamed: 0,Sum spent,Age,Later purchases chance
count,8.0,8.0,8.0
mean,123.625,39.0,0.541125
std,98.282301,14.976172,0.239002
min,0.0,18.0,0.181
25%,60.0,28.5,0.4365
50%,102.5,38.5,0.493
75%,172.0,51.25,0.6385
max,300.0,58.0,0.9


In [51]:
df.T # транспонирование матрицы - не очень популярный для DataFrame метод

Unnamed: 0,0,1,2,3,4,5,6,7
Sum spent,100,220,66,156,0,300,42,105
Last name,Brown,Smith,Noll,Johnson,Krakovsky,Brann,Alba,Perrez
Gender,m,f,m,m,f,m,f,f
Age,45,30,58,18,50,55,32,24
Later purchases chance,0.483,0.564,0.181,0.503,0.9,0.862,0.455,0.381


Для сортировки используйте метод `DataFrame.sort_values(by='column_name')`, где `column_name` - имя столбца, по которому будет проходить сортировка.

In [49]:
df.sort_values(by='Age')

Unnamed: 0,Sum spent,Last name,Gender,Age,Later purchases chance
3,156,Johnson,m,18,0.503
7,105,Perrez,f,24,0.381
1,220,Smith,f,30,0.564
6,42,Alba,f,32,0.455
0,100,Brown,m,45,0.483
4,0,Krakovsky,f,50,0.9
5,300,Brann,m,55,0.862
2,66,Noll,m,58,0.181


Для сортировки по убыванию установите параметр `ascending` в значение `False`.

In [50]:
df.sort_values(by='Age', ascending=False)

Unnamed: 0,Sum spent,Last name,Gender,Age,Later purchases chance
2,66,Noll,m,58,0.181
5,300,Brann,m,55,0.862
4,0,Krakovsky,f,50,0.9
0,100,Brown,m,45,0.483
6,42,Alba,f,32,0.455
1,220,Smith,f,30,0.564
7,105,Perrez,f,24,0.381
3,156,Johnson,m,18,0.503


## Выбор данных из DataFrame

Создадим заново расширенную таблицу магазина книг.

In [52]:
a = [
    [100, 'Brown', 'm', 45, 48.3],
    [220, 'Smith', 'f', 30, 56.4],
    [66, 'Noll', 'm', 58, 18.1],
    [156, 'Johnson', 'm', 18, 50.3],
    [0, 'Krakovsky', 'f', 50, 9.0],
    [300, 'Brann', 'm', 55, 86.2],
    [42, 'Alba', 'f', 32, 45.5],
    [105, 'Perrez', 'f', 24, 38.1]
]
df = pd.DataFrame(a, columns=['Sum spent', 'Last name', 'Gender', 'Age', 'Later purchases chance'])
df

Unnamed: 0,Sum spent,Last name,Gender,Age,Later purchases chance
0,100,Brown,m,45,48.3
1,220,Smith,f,30,56.4
2,66,Noll,m,58,18.1
3,156,Johnson,m,18,50.3
4,0,Krakovsky,f,50,9.0
5,300,Brann,m,55,86.2
6,42,Alba,f,32,45.5
7,105,Perrez,f,24,38.1


Чтобы получить отдельный столбец, укажите его имя в квадратных скобках.

In [53]:
df['Gender']

0    m
1    f
2    m
3    m
4    f
5    m
6    f
7    f
Name: Gender, dtype: object

Чтобы выбрать несколько колонок, передайте их списком Python.

In [54]:
df['Gender', 'Age'] # так не получится - Pandas требует единую сущность как индекс

KeyError: ('Gender', 'Age')

In [55]:
df[['Gender', 'Age']] # так получится, так как ['Gender', 'Age'] - единая сущность

Unnamed: 0,Gender,Age
0,m,45
1,f,30
2,m,58
3,m,18
4,f,50
5,m,55
6,f,32
7,f,24


Для выбора строки необходимо использовать метод `DataFrame.iloc[n]`, где `n` - порядковый номер ряда (начиная с 0), не название индексаю

In [56]:
df[0] # так не работает

KeyError: 0

In [57]:
df.iloc[0] # так работает

Sum spent                   100
Last name                 Brown
Gender                        m
Age                          45
Later purchases chance     48.3
Name: 0, dtype: object

In [58]:
df.iloc[0:4] # выбор рядов с индексами 0, 1, 2, 3

Unnamed: 0,Sum spent,Last name,Gender,Age,Later purchases chance
0,100,Brown,m,45,48.3
1,220,Smith,f,30,56.4
2,66,Noll,m,58,18.1
3,156,Johnson,m,18,50.3


Существует также функция `DataFrame.loc[n]`, которая принимает названия индексов, а не их порядковый номер.

In [None]:
temp_df = pd.DataFrame([[1, 2], [2, 3], [3, 4]], index=[2016, 2017, 2018])
# temp_df.iloc[2017] - не сработает 
temp_df.loc[2017] # аналогично temp_df.iloc[1]

Методы можно комбинировать в любом порядке.

In [59]:
df[['Last name', 'Gender']].loc[[0, 1, 2]]

Unnamed: 0,Last name,Gender
0,Brown,m
1,Smith,f
2,Noll,m


In [60]:
df.loc[[0, 1, 2]][['Last name', 'Gender']]

Unnamed: 0,Last name,Gender
0,Brown,m
1,Smith,f
2,Noll,m


Чтобы выбрать из `DataFrame` только ряды, удовлетворяющие логическому выражению (например, только клиенты женского пола), передайте в квадратные скобки это логическое выражение (в данном случае - стоит ли в колонке `'Age'` буква `'f'`.

In [61]:
df[df['Gender'] == 'f']

Unnamed: 0,Sum spent,Last name,Gender,Age,Later purchases chance
1,220,Smith,f,30,56.4
4,0,Krakovsky,f,50,9.0
6,42,Alba,f,32,45.5
7,105,Perrez,f,24,38.1


In [62]:
df[df['Age'] > 30] # клиенты старше 30 лет

Unnamed: 0,Sum spent,Last name,Gender,Age,Later purchases chance
0,100,Brown,m,45,48.3
2,66,Noll,m,58,18.1
4,0,Krakovsky,f,50,9.0
5,300,Brann,m,55,86.2
6,42,Alba,f,32,45.5


In [63]:
df[df['Age'] <= 30] # клиенты не старше 30 лет

Unnamed: 0,Sum spent,Last name,Gender,Age,Later purchases chance
1,220,Smith,f,30,56.4
3,156,Johnson,m,18,50.3
7,105,Perrez,f,24,38.1


## Сохранение данных

Чтобы загрузить `.csv` файл в `DataFrame`, используйте функцию `pandas.read_csv('file_name.csv')`

In [40]:
DATA_DIR = "data"

In [41]:
df = pd.read_csv(os.path.join(DATA_DIR, 'iris.csv'))
df.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


Чтобы сохранить `DataFrame` в файл, используйте метод `pandas.to_csv('file_name.csv')`

In [42]:
df.to_csv(os.path.join(DATA_DIR, 'iris.csv'))