<a href="https://colab.research.google.com/github/VorobyvEgor/Seminar_Sber/blob/main/Seminars/%D0%A1%D0%B5%D0%BC%D0%B8%D0%BD%D0%B0%D1%80_3_1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Семинар 3.1: Углубленное знакомство с библиотекой pandas и первичный анализ данных.


*   [Полный User Guide по библиотеке pandas](https://pandas.pydata.org/docs/user_guide/index.html)
*   [Куча полезных рецептов и хороших практик](https://pandas.pydata.org/docs/user_guide/cookbook.html)


In [1]:
import pandas as pd
import numpy as np

## Pandas
В pandas существует два основных объекта: pandas Series и pandas DataFrame. Первая это по сути асбтракция над одномерным массивом данных с дополнительными метаданными, а вторая абстракция это по сути "таблица", состоящая из наборов pandas Series.

### Создание объектов


#### pd.Series

Начнем с pd.Series. Также, как и для numpy массива мы можем задать тип данных. Доступны все те же типы данных, что и в numpy + есть возможность конвертировать одни типы данных в другие с помощью astype + можно указывать [свои функции](https://pbpython.com/pandas_dtypes.html) для преобразования.

In [2]:
s = pd.Series([1,2,3], dtype=np.int32, name='numbers') # pd.Series
s

0    1
1    2
2    3
Name: numbers, dtype: int32

In [3]:
# Здесь создадим еще парочку объектов

pd.Series((1, 3.1, 2))

0    1.0
1    3.1
2    2.0
dtype: float64

Обратите внимание на колонку слева, это индекс, и если не указано обратное, он создается автоматически. Индексы мы будем встречать как для pd.Series, так и для pd.DataFrame. Что же он дает? Аналогия здесь такая же, что с телефонным справочником. Индексы позволяют более логично категоризовать информацию, а также более оптимально делать некоторые операции над сериями (pd.Series) и датафреймами (pd.DataFrame). Вкратце, можно отметить, что индексы
1. Идентифицируют данные (т.е. предоставляют метаданные) с помощью известных индикаторов, важных для анализа, визуализации и отображения в интерактивной консоли
2. Включают автоматическое и явное выравнивание данных.
3. Позволяют интуитивно получать и настраивать подмножества набора данных.

Помимо этого обратите внимание, что у серии также есть имя. Это полезно, когда нам нужно вставить новую колонку в DataFrame без явного указания имени.

Следующим образом мы можем задать произвольный индекс, теперь наши записи идентифицируют буквы a b c

In [6]:
# Следующим образом мы можем задать произвольный индекс
# Например сделаем так, чтобы наши записи идентифицируют буквы a b c

s = pd.Series([1,2,3], dtype=np.int32, name='numbers', index=['a', 'b', 'c'])
s

a    1
b    2
c    3
Name: numbers, dtype: int32

In [7]:
# Здесь попробуем также другие индексы

s = pd.Series([1,2,3], dtype=np.int32, name='numbers', index=[(1, 2), (3, 4), (5, 6)])
s

(1, 2)    1
(3, 4)    2
(5, 6)    3
Name: numbers, dtype: int32

Помимо индекса (свойства s.index) также сохраняется сквозняется целочисленная индексация.

Ниже выборка просто по целочисленному индексу (сквозному), как будто мы работаем с обычным списком

In [10]:
# Вызовим метод .index
print(s.index)

# Обратимся по буквенному индексу
print(s[(1, 2)])

# Обратимся по нумерному индексу
print(s.iloc[1])

Index([(1, 2), (3, 4), (5, 6)], dtype='object')
1
2


In [None]:
# Метод доступа .loc позволяет делать выборку именно по индексу.
# Обратите внимание, что здесь используются именно квадратные скобки. 
# Скорее всего так сделано, чтобы такая выборка была похоже на выборку из обычного списка.

print(...)

#### pd.DataFrame

Создадим pandas DataFrame из случайной numpy матрицы

In [12]:
m = np.random.rand(10,3)
m

array([[0.22036009, 0.4010929 , 0.46876733],
       [0.50903788, 0.87200013, 0.30768823],
       [0.58462195, 0.59333651, 0.80665982],
       [0.99931015, 0.52374177, 0.45301371],
       [0.17536998, 0.36894774, 0.03442308],
       [0.0060571 , 0.19679698, 0.41898746],
       [0.04494627, 0.40111398, 0.93246411],
       [0.07246278, 0.31270012, 0.42135666],
       [0.91412221, 0.27517884, 0.89491545],
       [0.96354729, 0.02138361, 0.61749866]])

In [13]:
df = pd.DataFrame(m)
df

Unnamed: 0,0,1,2
0,0.22036,0.401093,0.468767
1,0.509038,0.872,0.307688
2,0.584622,0.593337,0.80666
3,0.99931,0.523742,0.453014
4,0.17537,0.368948,0.034423
5,0.006057,0.196797,0.418987
6,0.044946,0.401114,0.932464
7,0.072463,0.3127,0.421357
8,0.914122,0.275179,0.894915
9,0.963547,0.021384,0.617499


Мы видим строковый индекс, который был создан автоматически, а также колоночный (или просто колонки), которые также были заданы автоматически. У нас получился не совсем привычный вид таблицы, давайте зададим колонкам более понятные имена.

In [14]:
df = pd.DataFrame(data=m, columns=['first', 'second', 'third'],)
df

Unnamed: 0,first,second,third
0,0.22036,0.401093,0.468767
1,0.509038,0.872,0.307688
2,0.584622,0.593337,0.80666
3,0.99931,0.523742,0.453014
4,0.17537,0.368948,0.034423
5,0.006057,0.196797,0.418987
6,0.044946,0.401114,0.932464
7,0.072463,0.3127,0.421357
8,0.914122,0.275179,0.894915
9,0.963547,0.021384,0.617499


In [15]:
# В pandas DataFrame выборка квадратными скобками происходит по колонкам

df['first']

0    0.220360
1    0.509038
2    0.584622
3    0.999310
4    0.175370
5    0.006057
6    0.044946
7    0.072463
8    0.914122
9    0.963547
Name: first, dtype: float64

In [16]:
# Посмотрим какой тип имеет колонка DataFrame

print(type(df['first']))

<class 'pandas.core.series.Series'>


In [None]:
# Попытаемся обратиться к колонке по номеру

df[0]

Но ВНЕЗАПНО, если мы попробуем применить слайсинг как в обычных массивах numpy или списках, выборка будет происходить по строкам. Эта та особенность, которую мы вынуждены просто запомнить. Выборка при этом происходит по целочисленной сквозной индексации (0,1,2,3,4,...).

In [23]:
df['first']

0    0.220360
1    0.509038
2    0.584622
3    0.999310
4    0.175370
5    0.006057
6    0.044946
7    0.072463
8    0.914122
9    0.963547
Name: first, dtype: float64

In [20]:
df[2:6]

Unnamed: 0,first,second,third
2,0.584622,0.593337,0.80666
3,0.99931,0.523742,0.453014
4,0.17537,0.368948,0.034423
5,0.006057,0.196797,0.418987


In [25]:
df.iloc[:2, 0:3]

Unnamed: 0,first,second,third
0,0.22036,0.401093,0.468767
1,0.509038,0.872,0.307688


#### Полезные методы DataFrame для получения представления о том, какие данные находятся в нем

In [26]:
# .head()

df.head()

Unnamed: 0,first,second,third
0,0.22036,0.401093,0.468767
1,0.509038,0.872,0.307688
2,0.584622,0.593337,0.80666
3,0.99931,0.523742,0.453014
4,0.17537,0.368948,0.034423


In [27]:
# .tail()

df.tail()

Unnamed: 0,first,second,third
5,0.006057,0.196797,0.418987
6,0.044946,0.401114,0.932464
7,0.072463,0.3127,0.421357
8,0.914122,0.275179,0.894915
9,0.963547,0.021384,0.617499


In [28]:
# .info()

df.info()

# В методе info мы можем сразу проверить наличие пропусков (графа Non-Null Count),
# а также посмотреть какой объем памяти занимает наша табличка (чем меньше, тем, конечно, лучше).

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   first   10 non-null     float64
 1   second  10 non-null     float64
 2   third   10 non-null     float64
dtypes: float64(3)
memory usage: 368.0 bytes


In [30]:
# .sample()

df.sample(5)

Unnamed: 0,first,second,third
6,0.044946,0.401114,0.932464
2,0.584622,0.593337,0.80666
4,0.17537,0.368948,0.034423
7,0.072463,0.3127,0.421357
1,0.509038,0.872,0.307688


In [31]:
# .describe()

df.describe()

# Метод .describe() выводит нам дескриптивную статистику по нашему датафрейму.

Unnamed: 0,first,second,third
count,10.0,10.0,10.0
mean,0.448984,0.396629,0.535577
std,0.399211,0.231941,0.280446
min,0.006057,0.021384,0.034423
25%,0.09819,0.284559,0.41958
50%,0.364699,0.38502,0.460891
75%,0.831747,0.493085,0.75937
max,0.99931,0.872,0.932464


NOTE: Есть удобный способ инициализировать новый DataFrame с помощью словаря. Ключи станут названиями колонок, а значения по ключам столбцами.

In [32]:
# pd.DataFrame через словарь
d = {
    'Name': ['Anton', 'Elizaveta', 'Vladimir'],
    'Age': [20, 20, 20]
}

pd.DataFrame(d, index=['Man 1', 'Man 2', 'Man 3'])

Unnamed: 0,Name,Age
Man 1,Anton,20
Man 2,Elizaveta,20
Man 3,Vladimir,20


### Просмотр мета-информации

In [33]:
# Узнать какие индексы находтся в нашем DataFrame

df.index

RangeIndex(start=0, stop=10, step=1)

In [35]:
# Узнать какие столбцы находтся в нашем DataFrame

df.columns

Index(['first', 'second', 'third'], dtype='object')

In [36]:
# Узнать форму нашей таблицы

df.shape

(10, 3)

In [37]:
# Посмотреть типы данных

df.dtypes

first     float64
second    float64
third     float64
dtype: object

Мы можем менять типы с помощью метода astype. Обратите внимание, что мы можем передать целый словарь в котором ключи это названия колонок, а значения по ключу это тип данных к которому мы хотим преобразовать соответствующую колонку.

In [38]:
df.astype({'first': np.float32}).dtypes

first     float32
second    float64
third     float64
dtype: object

In [39]:
df.dtypes

first     float64
second    float64
third     float64
dtype: object

Мы можем отказаться от всех метаданных и перейти к numpy матрице, чтобы работать с ней с помощью методов из библиотеки numpy

In [40]:
df.to_numpy()

array([[0.22036009, 0.4010929 , 0.46876733],
       [0.50903788, 0.87200013, 0.30768823],
       [0.58462195, 0.59333651, 0.80665982],
       [0.99931015, 0.52374177, 0.45301371],
       [0.17536998, 0.36894774, 0.03442308],
       [0.0060571 , 0.19679698, 0.41898746],
       [0.04494627, 0.40111398, 0.93246411],
       [0.07246278, 0.31270012, 0.42135666],
       [0.91412221, 0.27517884, 0.89491545],
       [0.96354729, 0.02138361, 0.61749866]])

In [42]:
df.values

array([[0.22036009, 0.4010929 , 0.46876733],
       [0.50903788, 0.87200013, 0.30768823],
       [0.58462195, 0.59333651, 0.80665982],
       [0.99931015, 0.52374177, 0.45301371],
       [0.17536998, 0.36894774, 0.03442308],
       [0.0060571 , 0.19679698, 0.41898746],
       [0.04494627, 0.40111398, 0.93246411],
       [0.07246278, 0.31270012, 0.42135666],
       [0.91412221, 0.27517884, 0.89491545],
       [0.96354729, 0.02138361, 0.61749866]])

#### Оси и индексы DataFrame

По большому счету колонки это тот же индекс, только по горизонтальной оси (axis = 1). Строковый и столбцовый индексы могут заменять друг друга, давайте продемонстрируем это с помощью операции транспонирования.

Кстати, ниже напоминание об осях из прошлой лекции.

![axes](https://railsware.com/blog/wp-content/uploads/2018/11/data-frame-axes.png)

![axes](https://i.stack.imgur.com/FzimB.png)

In [44]:
# Для удобства перезапишем в df первые 10 строчек df

df = df[:10]

In [45]:
# Транспонируем наш DataFrame

df.T

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
first,0.22036,0.509038,0.584622,0.99931,0.17537,0.006057,0.044946,0.072463,0.914122,0.963547
second,0.401093,0.872,0.593337,0.523742,0.368948,0.196797,0.401114,0.3127,0.275179,0.021384
third,0.468767,0.307688,0.80666,0.453014,0.034423,0.418987,0.932464,0.421357,0.894915,0.617499


Мы можем сортировать строки таблицы по значениям колонок. Обратите внимание, что индекс остался прежним.

In [48]:
# .sort_values() для сортировки

df.sort_values(by='first')

Unnamed: 0,first,second,third
5,0.006057,0.196797,0.418987
6,0.044946,0.401114,0.932464
7,0.072463,0.3127,0.421357
4,0.17537,0.368948,0.034423
0,0.22036,0.401093,0.468767
1,0.509038,0.872,0.307688
2,0.584622,0.593337,0.80666
8,0.914122,0.275179,0.894915
9,0.963547,0.021384,0.617499
3,0.99931,0.523742,0.453014


In [49]:
# .sort_values() для сортировки по нескольким ключам

df.sort_values(by=['first', 'second'])

Unnamed: 0,first,second,third
5,0.006057,0.196797,0.418987
6,0.044946,0.401114,0.932464
7,0.072463,0.3127,0.421357
4,0.17537,0.368948,0.034423
0,0.22036,0.401093,0.468767
1,0.509038,0.872,0.307688
2,0.584622,0.593337,0.80666
8,0.914122,0.275179,0.894915
9,0.963547,0.021384,0.617499
3,0.99931,0.523742,0.453014


А можем сортировать именно индекс.

In [50]:
df_T = df.T

In [51]:
df_T

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
first,0.22036,0.509038,0.584622,0.99931,0.17537,0.006057,0.044946,0.072463,0.914122,0.963547
second,0.401093,0.872,0.593337,0.523742,0.368948,0.196797,0.401114,0.3127,0.275179,0.021384
third,0.468767,0.307688,0.80666,0.453014,0.034423,0.418987,0.932464,0.421357,0.894915,0.617499


In [52]:
df_T.sort_index(axis=0)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
first,0.22036,0.509038,0.584622,0.99931,0.17537,0.006057,0.044946,0.072463,0.914122,0.963547
second,0.401093,0.872,0.593337,0.523742,0.368948,0.196797,0.401114,0.3127,0.275179,0.021384
third,0.468767,0.307688,0.80666,0.453014,0.034423,0.418987,0.932464,0.421357,0.894915,0.617499


In [53]:
df.T.sort_index(axis=1, ascending=False)

Unnamed: 0,9,8,7,6,5,4,3,2,1,0
first,0.963547,0.914122,0.072463,0.044946,0.006057,0.17537,0.99931,0.584622,0.509038,0.22036
second,0.021384,0.275179,0.3127,0.401114,0.196797,0.368948,0.523742,0.593337,0.872,0.401093
third,0.617499,0.894915,0.421357,0.932464,0.418987,0.034423,0.453014,0.80666,0.307688,0.468767


##### Использования колонки в качестве индекса

In [54]:
df1 = pd.DataFrame({
    'date' : ['2020-01-01', '2020-02-01', '2020-03-01'],
    'usd' : [1, 2, 3],
    'rur' : [4, 8, 12]
})

df1

Unnamed: 0,date,usd,rur
0,2020-01-01,1,4
1,2020-02-01,2,8
2,2020-03-01,3,12


In [55]:
df1 = df1.astype({'date':np.datetime64})

In [56]:
df1

Unnamed: 0,date,usd,rur
0,2020-01-01,1,4
1,2020-02-01,2,8
2,2020-03-01,3,12


In [57]:
df1.dtypes

date    datetime64[ns]
usd              int64
rur              int64
dtype: object

In [58]:
df1.set_index('date', inplace=True)

In [59]:
df1

Unnamed: 0_level_0,usd,rur
date,Unnamed: 1_level_1,Unnamed: 2_level_1
2020-01-01,1,4
2020-02-01,2,8
2020-03-01,3,12


### Выборка
Подробная информация по выборкам данных представлена [тут](https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html).

#### Квадратные скобки
Как уже отмечалось выше, для датафреймов выборка происходит по столбцам.

In [60]:
df['third']

0    0.468767
1    0.307688
2    0.806660
3    0.453014
4    0.034423
5    0.418987
6    0.932464
7    0.421357
8    0.894915
9    0.617499
Name: third, dtype: float64

In [61]:
df[['third', 'first']]

Unnamed: 0,third,first
0,0.468767,0.22036
1,0.307688,0.509038
2,0.80666,0.584622
3,0.453014,0.99931
4,0.034423,0.17537
5,0.418987,0.006057
6,0.932464,0.044946
7,0.421357,0.072463
8,0.894915,0.914122
9,0.617499,0.963547


In [62]:
df[1:4] # слайсинг по сквозному целочисленному индексу как в массиве

Unnamed: 0,first,second,third
1,0.509038,0.872,0.307688
2,0.584622,0.593337,0.80666
3,0.99931,0.523742,0.453014


#### Выборка по метке (лейблу)
Добавим новый столбец в нашу таблицу и сделаем его новым индексом с помощью метода .set_index()

In [63]:
df = pd.DataFrame(np.random.rand(5, 3))
df

Unnamed: 0,0,1,2
0,0.423762,0.325198,0.413215
1,0.028491,0.65732,0.29069
2,0.145243,0.045722,0.445246
3,0.990343,0.14292,0.758467
4,0.7769,0.119069,0.256854


In [64]:
df['new_index'] = pd.Series(['a', 'b', 'e', 'c', 'g'])
df

Unnamed: 0,0,1,2,new_index
0,0.423762,0.325198,0.413215,a
1,0.028491,0.65732,0.29069,b
2,0.145243,0.045722,0.445246,e
3,0.990343,0.14292,0.758467,c
4,0.7769,0.119069,0.256854,g


In [None]:
# Кроме того, в столбцах могут храниться и более сложные типы, например списки

# df['test_col'] = [[round(np.random.rand(), 3) for i in range(3)] for i in range(df.shape[0])]
# df

In [65]:
df = df.set_index('new_index')
df

Unnamed: 0_level_0,0,1,2
new_index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
a,0.423762,0.325198,0.413215
b,0.028491,0.65732,0.29069
e,0.145243,0.045722,0.445246
c,0.990343,0.14292,0.758467
g,0.7769,0.119069,0.256854


Теперь с помощью .loc мы можем производить навигацию по этому индексу

In [66]:
df.loc['b']

0    0.028491
1    0.657320
2    0.290690
Name: b, dtype: float64

И даже использовать диапазоны (слайсы) по индексу

In [67]:
df.loc['b':'c']

Unnamed: 0_level_0,0,1,2
new_index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
b,0.028491,0.65732,0.29069
e,0.145243,0.045722,0.445246
c,0.990343,0.14292,0.758467


Через запятую мы можем указать также и фильтр по столбцам

In [68]:
df

Unnamed: 0_level_0,0,1,2
new_index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
a,0.423762,0.325198,0.413215
b,0.028491,0.65732,0.29069
e,0.145243,0.045722,0.445246
c,0.990343,0.14292,0.758467
g,0.7769,0.119069,0.256854


In [69]:
df.columns = ['first', 'second', 'third']

In [70]:
df[['first', 'second']]

Unnamed: 0_level_0,first,second
new_index,Unnamed: 1_level_1,Unnamed: 2_level_1
a,0.423762,0.325198
b,0.028491,0.65732
e,0.145243,0.045722
c,0.990343,0.14292
g,0.7769,0.119069


In [71]:
# Кроме того, мы можем комбинировать

df.loc[:'e', ['second', 'third']]

Unnamed: 0_level_0,second,third
new_index,Unnamed: 1_level_1,Unnamed: 2_level_1
a,0.325198,0.413215
b,0.65732,0.29069
e,0.045722,0.445246


In [None]:
# Место для ответов на вопросы

...

#### Выборка по позиции в таблице
Сохраняется сквозная целочисленная индексация, и она доступна с помощью метода .iloc. Скобки также квадратные

In [72]:
df

Unnamed: 0_level_0,first,second,third
new_index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
a,0.423762,0.325198,0.413215
b,0.028491,0.65732,0.29069
e,0.145243,0.045722,0.445246
c,0.990343,0.14292,0.758467
g,0.7769,0.119069,0.256854


In [73]:
# Попытаемся использовать loc() для выбора строк по нумерации

df.loc[1:3]

TypeError: ignored

In [74]:
df.iloc[1:3]

Unnamed: 0_level_0,first,second,third
new_index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
b,0.028491,0.65732,0.29069
e,0.145243,0.045722,0.445246


Происходит выборка именно по **номеру** строки и **номеру** столбца (начиная с нуля)

In [None]:
df.iloc[1:3, [0, 2]]

### Чтение и запись данных

В pandas присутствует огромное кол-во возможностей для чтения записи данных.

Например, в методе pd.read_csv доступны специфичные опции для формата (например, разделитель колонок sep), но и также можно, например, дополнить список значений, которые pandas по умолчанию считает пропусками, задав явно параметр na_values.

Более подробную информацию про чтение запись данных можно найти [здесь](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html)

Далее мы будем использовать данные iris.csv ([скачать](https://drive.google.com/file/d/1fjyopp9FZ-g6KIsIE8vPX2r62A43h2XI/view?usp=sharing))


In [75]:
!wget https://www.dropbox.com/s/pb6lb2s6fe15wri/iris.csv

--2022-01-24 16:54:55--  https://www.dropbox.com/s/pb6lb2s6fe15wri/iris.csv
Resolving www.dropbox.com (www.dropbox.com)... 162.125.5.18, 2620:100:601d:18::a27d:512
Connecting to www.dropbox.com (www.dropbox.com)|162.125.5.18|:443... connected.
HTTP request sent, awaiting response... 301 Moved Permanently
Location: /s/raw/pb6lb2s6fe15wri/iris.csv [following]
--2022-01-24 16:54:56--  https://www.dropbox.com/s/raw/pb6lb2s6fe15wri/iris.csv
Reusing existing connection to www.dropbox.com:443.
HTTP request sent, awaiting response... 302 Found
Location: https://uc82d07f44b6b2f30d20fa28fca1.dl.dropboxusercontent.com/cd/0/inline/BeaIKqdIbCS7wxyH5VrUe2Q1iQrmQCthqP_jocmD_mmeAnNzbnk-2YM3cBWr69M_1Wl2RdTIJ7jf2OrqZNDTr08APX8Xh7Ue2Sm_76U4pE3ijXQQqazx7sMdgnE_mKQHLlBJkcNaQWi8gdO3oK3oLkhF/file# [following]
--2022-01-24 16:54:56--  https://uc82d07f44b6b2f30d20fa28fca1.dl.dropboxusercontent.com/cd/0/inline/BeaIKqdIbCS7wxyH5VrUe2Q1iQrmQCthqP_jocmD_mmeAnNzbnk-2YM3cBWr69M_1Wl2RdTIJ7jf2OrqZNDTr08APX8Xh7Ue2Sm_76

In [76]:
iris = pd.read_csv('iris.csv')

In [77]:
iris

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Virginica
146,6.3,2.5,5.0,1.9,Virginica
147,6.5,3.0,5.2,2.0,Virginica
148,6.2,3.4,5.4,2.3,Virginica


In [78]:
iris = pd.read_csv('iris.csv', header='infer', sep=',')
iris

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Virginica
146,6.3,2.5,5.0,1.9,Virginica
147,6.5,3.0,5.2,2.0,Virginica
148,6.2,3.4,5.4,2.3,Virginica


In [None]:
pd.read_ # доступно очень большое кол-во форматов для чтения

In [None]:
# запись to_csv() и другие

In [79]:
iris.to_csv('iris_test.csv', header=True, index=False) # сохраняем в качестве первой строки список колонок, первой колонкой индекс НЕ пишем

In [80]:
!ls

iris.csv  iris_test.csv  sample_data


In [81]:
iris.to_excel('iris_test.xlsx', header=True, index=False) # сохраняем в качестве первой строки список колонок, первой колонкой индекс НЕ пишем

In [82]:
!ls

iris.csv  iris_test.csv  iris_test.xlsx  sample_data


Загрузим набор данных iris.csv, и потренируемся делать выборки на нем.

In [84]:
import numpy as np
import pandas as pd

iris = pd.read_csv('iris.csv', header='infer')
iris.sample(5)

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
66,5.6,3.0,4.5,1.5,Versicolor
122,7.7,2.8,6.7,2.0,Virginica
105,7.6,3.0,6.6,2.1,Virginica
114,5.8,2.8,5.1,2.4,Virginica
44,5.1,3.8,1.9,0.4,Setosa


In [85]:
iris.shape

(150, 5)

##### Задачи на выборку данных
1. выведите первые 4 строки и первые 2 столбца с помощью метода .iloc
2. выведите только колонки sepal.length и petal.length с помощью loc и/или квадратных скобок
3. сделайте индексом колонку variety с помощью метода .set_index(), и выберите с помощью .loc только вид 'Setosa'

In [86]:
iris.iloc[:4, :2]

Unnamed: 0,sepal.length,sepal.width
0,5.1,3.5
1,4.9,3.0
2,4.7,3.2
3,4.6,3.1


In [87]:
iris.loc[:, ['sepal.length', 'petal.length']]

Unnamed: 0,sepal.length,petal.length
0,5.1,1.4
1,4.9,1.4
2,4.7,1.3
3,4.6,1.5
4,5.0,1.4
...,...,...
145,6.7,5.2
146,6.3,5.0
147,6.5,5.2
148,6.2,5.4


#### Выборка по маске
Также как и в numpy присутствует возможность делать выборки по маске. Но здесь механизм несколько отличается. Если в numpy мы получали матрицу из True и False, и у каждому элементу было сопоставлено значение True (брать в выборку) или False (не брать в выборку), то в pandas маска это pandas Series **с такой же индексацией** что и исходный датафрейм или серия, состоящий из значений True или False. Т.е мы указываем какие строчки идут в результирующую выборку, а какие нет.

In [88]:
iris[(iris['sepal.length'] > 5.0) | (iris['sepal.width'] <= 3.0)]

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
5,5.4,3.9,1.7,0.4,Setosa
8,4.4,2.9,1.4,0.2,Setosa
10,5.4,3.7,1.5,0.2,Setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Virginica
146,6.3,2.5,5.0,1.9,Virginica
147,6.5,3.0,5.2,2.0,Virginica
148,6.2,3.4,5.4,2.3,Virginica


In [89]:
iris['sepal.width'] <= 3.0

0      False
1       True
2      False
3      False
4      False
       ...  
145     True
146     True
147     True
148    False
149     True
Name: sepal.width, Length: 150, dtype: bool

In [90]:
(iris['sepal.length'] > 5.0) & (iris['sepal.width'] <= 3.0)

0      False
1      False
2      False
3      False
4      False
       ...  
145     True
146     True
147     True
148    False
149     True
Length: 150, dtype: bool

In [91]:
# получаем маску в которой у каждого индекса (!!!) указано оставлять его в наборе данных или нет
(iris['sepal.length'] > 5.0) & (iris['sepal.width'] <= 3.0)

0      False
1      False
2      False
3      False
4      False
       ...  
145     True
146     True
147     True
148    False
149     True
Length: 150, dtype: bool

Конечно, мы можем выстраивать условия в логические цепочки

In [92]:
iris[(iris['sepal.length'] > 5.0) & (iris['sepal.width'] <= 3.0)]

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
53,5.5,2.3,4.0,1.3,Versicolor
54,6.5,2.8,4.6,1.5,Versicolor
55,5.7,2.8,4.5,1.3,Versicolor
58,6.6,2.9,4.6,1.3,Versicolor
59,5.2,2.7,3.9,1.4,Versicolor
...,...,...,...,...,...
142,5.8,2.7,5.1,1.9,Virginica
145,6.7,3.0,5.2,2.3,Virginica
146,6.3,2.5,5.0,1.9,Virginica
147,6.5,3.0,5.2,2.0,Virginica


Мы можем даже перемешать значения, но выборка все равно останется той же за счет соответствия по индексу!

In [93]:
A = iris.sort_values('sepal.length')[(iris['sepal.length'] > 5.0) & (iris['sepal.width'] <= 3.0)]

  """Entry point for launching an IPython kernel.


In [94]:
A.shape

(71, 5)

In [95]:
A

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
98,5.1,2.5,3.0,1.1,Versicolor
59,5.2,2.7,3.9,1.4,Versicolor
84,5.4,3.0,4.5,1.5,Versicolor
90,5.5,2.6,4.4,1.2,Versicolor
53,5.5,2.3,4.0,1.3,Versicolor
...,...,...,...,...,...
130,7.4,2.8,6.1,1.9,Virginica
105,7.6,3.0,6.6,2.1,Virginica
122,7.7,2.8,6.7,2.0,Virginica
118,7.7,2.6,6.9,2.3,Virginica


In [96]:
A.reset_index(inplace=True, drop=True)

In [97]:
A

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
0,5.1,2.5,3.0,1.1,Versicolor
1,5.2,2.7,3.9,1.4,Versicolor
2,5.4,3.0,4.5,1.5,Versicolor
3,5.5,2.6,4.4,1.2,Versicolor
4,5.5,2.3,4.0,1.3,Versicolor
...,...,...,...,...,...
66,7.4,2.8,6.1,1.9,Virginica
67,7.6,3.0,6.6,2.1,Virginica
68,7.7,2.8,6.7,2.0,Virginica
69,7.7,2.6,6.9,2.3,Virginica


In [98]:
# получим уникальные значения индексов в каждой выборке
# если множество ключей в первом случае совпадает со множеством во втором случае, то 
# в обоих случаях мы сделали одинаковую выборку

set(iris[(iris['sepal.length'] > 5.0) & (iris['sepal.width'] <= 3.0)].index) \
 - set(iris.sort_values('sepal.length')[(iris['sepal.length'] > 5.0) & (iris['sepal.width'] <= 3.0)].index)

  """


set()

Для того, чтобы сделать фильтрацию по значениям в колонке, используйте метод .isin()

In [99]:
iris['variety'].isin(['Setosa', 'Virginica']) # проверка по множеству

0      True
1      True
2      True
3      True
4      True
       ... 
145    True
146    True
147    True
148    True
149    True
Name: variety, Length: 150, dtype: bool

In [100]:
iris[iris['variety'].isin(['Setosa', 'Virginica'])]

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Virginica
146,6.3,2.5,5.0,1.9,Virginica
147,6.5,3.0,5.2,2.0,Virginica
148,6.2,3.4,5.4,2.3,Virginica


#### Вставка значений
Вставку значений можно производить методами доступа .loc и .iloc, а также методом .at. Разница в том, что .loc и .iloc чуть более универсальны, и позволяют изменить сразу целый диапазон, при этом важно соблюсти размерности вставляемых данных. .at в свою очередь дает нам точечную вставку "на место", и лучше подходит с точки зрения чтения кода.

In [101]:
df = pd.DataFrame(np.random.rand(6,3), 
                  index=['a','b','c','d','e','f'], 
                  columns=['first', 'second', 'third'])
df

Unnamed: 0,first,second,third
a,0.327489,0.226652,0.403682
b,0.284074,0.500423,0.845519
c,0.610659,0.184858,0.637243
d,0.860994,0.975783,0.707862
e,0.42124,0.915852,0.543047
f,0.191031,0.765014,0.844932


In [102]:
df.loc['b','first'] = 1.0
df

Unnamed: 0,first,second,third
a,0.327489,0.226652,0.403682
b,1.0,0.500423,0.845519
c,0.610659,0.184858,0.637243
d,0.860994,0.975783,0.707862
e,0.42124,0.915852,0.543047
f,0.191031,0.765014,0.844932


In [103]:
df.loc['a':'c', 'first'] = [0.5, 1.5, 2.0]
df

Unnamed: 0,first,second,third
a,0.5,0.226652,0.403682
b,1.5,0.500423,0.845519
c,2.0,0.184858,0.637243
d,0.860994,0.975783,0.707862
e,0.42124,0.915852,0.543047
f,0.191031,0.765014,0.844932


In [105]:
df.loc['d', ['first', 'second', 'third']] = 30000
df

Unnamed: 0,first,second,third
a,0.5,0.226652,0.403682
b,1.5,0.500423,0.845519
c,2.0,0.184858,0.637243
d,30000.0,30000.0,30000.0
e,0.42124,0.915852,0.543047
f,0.191031,0.765014,0.844932


In [111]:
df.loc['d', 0:3] = 30000
df.drop([0, 1, 2], axis=1)

  """Entry point for launching an IPython kernel.


Unnamed: 0,first,second,third
a,0.5,0.226652,0.403682
b,1.5,0.500423,0.845519
c,2.0,0.184858,0.637243
d,30000.0,30000.0,30000.0
e,0.42124,0.915852,0.543047
f,0.191031,0.765014,0.844932


In [117]:
# df.drop([0, 1, 2], axis=1, inplace=True)
df.iloc[3, :3] = 30000
df

Unnamed: 0,first,second,third
a,0.5,0.226652,0.403682
b,1.5,0.500423,0.845519
c,2.0,0.184858,0.637243
d,30000.0,30000.0,30000.0
e,0.42124,0.915852,0.543047
f,0.191031,0.765014,0.844932


In [118]:
df.at['e', 'second'] = 100
df

Unnamed: 0,first,second,third
a,0.5,0.226652,0.403682
b,1.5,0.500423,0.845519
c,2.0,0.184858,0.637243
d,30000.0,30000.0,30000.0
e,0.42124,100.0,0.543047
f,0.191031,0.765014,0.844932


In [119]:
df.at['a':'c', 'first'] = [500, 1500, 2000]
df

Unnamed: 0,first,second,third
a,500.0,0.226652,0.403682
b,1500.0,0.500423,0.845519
c,2000.0,0.184858,0.637243
d,30000.0,30000.0,30000.0
e,0.42124,100.0,0.543047
f,0.191031,0.765014,0.844932


In [120]:
df.at['a', ['first', 'third', 'second']] = [500, 1500, 2000]
df

Unnamed: 0,first,second,third
a,500.0,2000.0,1500.0
b,1500.0,0.500423,0.845519
c,2000.0,0.184858,0.637243
d,30000.0,30000.0,30000.0
e,0.42124,100.0,0.543047
f,0.191031,0.765014,0.844932


### Пропущенные значения
По умолчанию не участвуют в вычислениях, и чаще всего на месте пропусков можно встретить значение np.nan (Not a Number), либо None (для нечисловых типов)

In [121]:
df

Unnamed: 0,first,second,third
a,500.0,2000.0,1500.0
b,1500.0,0.500423,0.845519
c,2000.0,0.184858,0.637243
d,30000.0,30000.0,30000.0
e,0.42124,100.0,0.543047
f,0.191031,0.765014,0.844932


In [122]:
# сделаем специально несколько пропущенных значений
df.at['e', 'second'] = np.nan
df.at['e', 'third'] = np.nan
df

Unnamed: 0,first,second,third
a,500.0,2000.0,1500.0
b,1500.0,0.500423,0.845519
c,2000.0,0.184858,0.637243
d,30000.0,30000.0,30000.0
e,0.42124,,
f,0.191031,0.765014,0.844932


Метод .isna() возвращает нам карту с пропусками. Пропуск там, где значение True.

In [123]:
df.isna()

Unnamed: 0,first,second,third
a,False,False,False
b,False,False,False
c,False,False,False
d,False,False,False
e,False,True,True
f,False,False,False


Напоминаю, что в принципе количественную информацию о пропусках можно получить с помощью метода .info()

In [124]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 6 entries, a to f
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   first   6 non-null      float64
 1   second  5 non-null      float64
 2   third   5 non-null      float64
dtypes: float64(3)
memory usage: 352.0+ bytes


Для удаления пропусков используется метод .dropna().

По умолчанию .dropna() удалит те строки в которых есть хотя бы один пропуск в строке.

In [125]:
df.dropna()

Unnamed: 0,first,second,third
a,500.0,2000.0,1500.0
b,1500.0,0.500423,0.845519
c,2000.0,0.184858,0.637243
d,30000.0,30000.0,30000.0
f,0.191031,0.765014,0.844932


А с помощью транспонирования можно удалять целые столбцы

In [126]:
df.T.dropna().T

Unnamed: 0,first
a,500.0
b,1500.0
c,2000.0
d,30000.0
e,0.42124
f,0.191031


Или использовать параметр axis=1

In [127]:
df.dropna(axis=1)

Unnamed: 0,first
a,500.0
b,1500.0
c,2000.0
d,30000.0
e,0.42124
f,0.191031


In [128]:
df.dropna(axis=0)

Unnamed: 0,first,second,third
a,500.0,2000.0,1500.0
b,1500.0,0.500423,0.845519
c,2000.0,0.184858,0.637243
d,30000.0,30000.0,30000.0
f,0.191031,0.765014,0.844932


Но все же часто нам все-таки интересны данные с пропусками. Для работы с ними можно использовать метод .fillna()

Вот так мы заполним все пропуски одним и тем же значением

In [129]:
df.fillna(0)

Unnamed: 0,first,second,third
a,500.0,2000.0,1500.0
b,1500.0,0.500423,0.845519
c,2000.0,0.184858,0.637243
d,30000.0,30000.0,30000.0
e,0.42124,0.0,0.0
f,0.191031,0.765014,0.844932


Но обычно мы все же хотим заполнять разные столбцы разными значениями

In [130]:
df.fillna({'second': 0, 'third': 1000})

Unnamed: 0,first,second,third
a,500.0,2000.0,1500.0
b,1500.0,0.500423,0.845519
c,2000.0,0.184858,0.637243
d,30000.0,30000.0,30000.0
e,0.42124,0.0,1000.0
f,0.191031,0.765014,0.844932


Есть и более продвинутые методы заполнения, сделаем несколько пропусков подряд

In [131]:
df.at['d', 'second'] = np.nan
df.at['d', 'third'] = np.nan
df

Unnamed: 0,first,second,third
a,500.0,2000.0,1500.0
b,1500.0,0.500423,0.845519
c,2000.0,0.184858,0.637243
d,30000.0,,
e,0.42124,,
f,0.191031,0.765014,0.844932


Метод bfill заполняет серию пропусков последним корректным (non Null) значением, итерируясь по таблице с конца.

In [132]:
df.fillna(method='bfill')

Unnamed: 0,first,second,third
a,500.0,2000.0,1500.0
b,1500.0,0.500423,0.845519
c,2000.0,0.184858,0.637243
d,30000.0,0.765014,0.844932
e,0.42124,0.765014,0.844932
f,0.191031,0.765014,0.844932


Метод ffill делает то же самое, но итерация происходит с начала таблицы

In [133]:
df.fillna(method='ffill')

Unnamed: 0,first,second,third
a,500.0,2000.0,1500.0
b,1500.0,0.500423,0.845519
c,2000.0,0.184858,0.637243
d,30000.0,0.184858,0.637243
e,0.42124,0.184858,0.637243
f,0.191031,0.765014,0.844932


In [134]:
df

Unnamed: 0,first,second,third
a,500.0,2000.0,1500.0
b,1500.0,0.500423,0.845519
c,2000.0,0.184858,0.637243
d,30000.0,,
e,0.42124,,
f,0.191031,0.765014,0.844932


In [None]:
# df['second'] = df['second'].fillna(0) # работает медленно

In [135]:
df.fillna({'second': 0})

Unnamed: 0,first,second,third
a,500.0,2000.0,1500.0
b,1500.0,0.500423,0.845519
c,2000.0,0.184858,0.637243
d,30000.0,0.0,
e,0.42124,0.0,
f,0.191031,0.765014,0.844932


bfill и ffill особенно полезны при заполнении пропусков во временном ряду. Более подробно данный функционал описан [здесь](https://pandas.pydata.org/pandas-docs/stable/user_guide/missing_data.html).




### Статистики
Конечно, в pandas реализовано куча методов для подсчета различных статистик. 
Полный список методов можно посмотреть [здесь](https://pandas.pydata.org/pandas-docs/stable/reference/frame.html#computations-descriptive-stats) 

Вот так мы можем посчитать средние значения для всех колонок сразу

In [136]:
df.mean()

first     5666.768712
second     500.362574
third      375.581923
dtype: float64

А так посчитать среднее лишь для одной колонки

In [137]:
df['first'].mean()

5666.768711790869

То же для [стандартного отклонения](https://berg.com.ua/indicators-overlays/stdev/#:~:text=%D0%A1%D1%82%D0%B0%D0%BD%D0%B4%D0%B0%D1%80%D1%82%D0%BD%D0%BE%D0%B5%20%D0%BE%D1%82%D0%BA%D0%BB%D0%BE%D0%BD%D0%B5%D0%BD%D0%B8%D0%B5%20%D0%BC%D0%BE%D0%B6%D0%BD%D0%BE%20%D0%B2%D1%8B%D1%80%D0%B0%D0%B7%D0%B8%D1%82%D1%8C%20%D1%84%D0%BE%D1%80%D0%BC%D1%83%D0%BB%D0%BE%D0%B9,%D0%BD%D0%B0%20%D0%BA%D0%BE%D0%BB%D0%B8%D1%87%D0%B5%D1%81%D1%82%D0%B2%D0%BE%20%D1%8D%D0%BB%D0%B5%D0%BC%D0%B5%D0%BD%D1%82%D0%BE%D0%B2%20%D0%B2%20%D0%B2%D1%8B%D0%B1%D0%BE%D1%80%D0%BA%D0%B5.)

In [138]:
df.std() # стандартное

first     11948.442530
second      999.758312
third       749.612057
dtype: float64

Или [дисперсии](https://ru.qwe.wiki/wiki/Variance)

In [139]:
df.var() # дисперсию

first     1.427653e+08
second    9.995167e+05
third     5.619182e+05
dtype: float64

А с помощью .value_counts() можно посчитать кол-во вхождений уникальных значений

In [140]:
df

Unnamed: 0,first,second,third
a,500.0,2000.0,1500.0
b,1500.0,0.500423,0.845519
c,2000.0,0.184858,0.637243
d,30000.0,,
e,0.42124,,
f,0.191031,0.765014,0.844932


In [141]:
df.loc['b', 'second'] = 2000
df

Unnamed: 0,first,second,third
a,500.0,2000.0,1500.0
b,1500.0,2000.0,0.845519
c,2000.0,0.184858,0.637243
d,30000.0,,
e,0.42124,,
f,0.191031,0.765014,0.844932


In [142]:
df['second'].value_counts()

2000.000000    2
0.184858       1
0.765014       1
Name: second, dtype: int64

In [143]:
df['second'].count()

4

In [144]:
df['second'].isna().sum()

2

In [145]:
df['second'].sum()

4000.949871756003

### Применение функций к данным (apply)
И все же иногда в pandas требуются новые функции со своей логикой обработки. Тогда на помощью приходит метод .apply

Он работает следующим образом. Мы передаем первым аргументом функцию, которая отвечает за логику, а вторым передаем axis, т.е мы указываем производить обработку по колонкам или по строкам.

В самой функции, задающей логику, нужно не забыть вернуть строку или столбец обратно в таблицу (return).

Полное описание функции доступно [тут](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.apply.html)

In [146]:
df.iloc[0, :].to_frame().T

Unnamed: 0,first,second,third
a,500.0,2000.0,1500.0


In [147]:
df.iloc[0, :]

first      500.0
second    2000.0
third     1500.0
Name: a, dtype: float64

In [152]:
df['test'] = [[1, 2, 3], [4, 5, 6], [7, 8], [9], [10, 11, 12], [3, 2]]
df

Unnamed: 0,first,second,third,test
a,250000.0,1999.0,1500.0,"[1, 2, 3]"
b,2250000.0,1999.0,0.845519,"[4, 5, 6]"
c,4000000.0,-0.815142,0.637243,"[7, 8]"
d,900000000.0,,,[9]
e,0.1774428,,,"[10, 11, 12]"
f,0.03649291,-0.234986,0.844932,"[3, 2]"


In [153]:
df['test'].apply(lambda x: sum(x))

a     6
b    15
c    15
d     9
e    33
f     5
Name: test, dtype: int64

In [154]:
def my_function(r): 
  r['first'] = r['first']**2
  r['second'] = r['second'] - 1
  return r

print("begin")
df.apply(my_function, axis=1) # тогда в my_function будут отправляться строки, в параметр r
# for *итерация по строчкам*
#.  применить к строке функцию my_function и перезаписать строчку

begin


Unnamed: 0,first,second,third,test
a,62500000000.0,1998.0,1500.0,"[1, 2, 3]"
b,5062500000000.0,1998.0,0.845519,"[4, 5, 6]"
c,16000000000000.0,-1.815142,0.637243,"[7, 8]"
d,8.1e+17,,,[9]
e,0.03148594,,,"[10, 11, 12]"
f,0.001331732,-1.234986,0.844932,"[3, 2]"


In [155]:
df.second

a    1999.000000
b    1999.000000
c      -0.815142
d            NaN
e            NaN
f      -0.234986
Name: second, dtype: float64

In [157]:
df.rename(columns={'second':'second column'})['second column']

Unnamed: 0,first,second column,third,test
a,250000.0,1999.0,1500.0,"[1, 2, 3]"
b,2250000.0,1999.0,0.845519,"[4, 5, 6]"
c,4000000.0,-0.815142,0.637243,"[7, 8]"
d,900000000.0,,,[9]
e,0.1774428,,,"[10, 11, 12]"
f,0.03649291,-0.234986,0.844932,"[3, 2]"


In [158]:
df['first'].name

'first'

In [159]:
def my_function(c):
  if c.name == 'first':
    c = c**2
  if c.name == 'second':
    c = c - 1
  return c

print("begin")
df.apply(my_function, axis=0) # тогда в my_function будут отправляться столбцы, в параметр c
# for *итерация по колонкам*
#.  применить к колонке функцию my_function и перезаписать колонку

begin


Unnamed: 0,first,second,third,test
a,62500000000.0,1998.0,1500.0,"[1, 2, 3]"
b,5062500000000.0,1998.0,0.845519,"[4, 5, 6]"
c,16000000000000.0,-1.815142,0.637243,"[7, 8]"
d,8.1e+17,,,[9]
e,0.03148594,,,"[10, 11, 12]"
f,0.001331732,-1.234986,0.844932,"[3, 2]"


#### Полезный бонус: groupby

In [161]:
iris.head()

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa


In [164]:
# groupby
df.groupby('first').agg('first')


Unnamed: 0_level_0,second,third,test
first,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0.03649291,-0.234986,0.844932,"[3, 2]"
0.1774428,,,"[10, 11, 12]"
250000.0,1999.0,1500.0,"[1, 2, 3]"
2250000.0,1999.0,0.845519,"[4, 5, 6]"
4000000.0,-0.815142,0.637243,"[7, 8]"
900000000.0,,,[9]
