# Неделя 4
*   [Полный User Guide по библиотеке pandas](https://pandas.pydata.org/docs/user_guide/index.html)
*   [Куча полезных рецептов и хороших практик](https://pandas.pydata.org/docs/user_guide/cookbook.html)

Данные iris.csv можно скачать отсюда https://drive.google.com/file/d/1fjyopp9FZ-g6KIsIE8vPX2r62A43h2XI/view?usp=sharing

In [None]:
from google.colab import files
uploaded = files.upload()

Saving iris.csv to iris.csv


In [None]:
import pandas as pd
import numpy as np

## Pandas
В pandas существует два основных объекта: pandas Series и pandas DataFrame. Первая это по сути асбтракция над одномерным массивом данных с дополнительными метаданными, а вторая абстракция это по сути "таблица", состоящая из наборов pandas Series.

### Создание объекта
Начнем с pd.Series. Также, как и для numpy массива мы можем задать тип данных. Доступны все те же типы данных, что и в numpy + есть возможность конвертировать одни типы данных в другие с помощью astype + можно указывать [свои функции](https://pbpython.com/pandas_dtypes.html) для преобразования.

In [None]:
# teacher
s = pd.Series([1,2,3], dtype=np.int32, name='numbers')
s

0    1
1    2
2    3
Name: numbers, dtype: int32

Обратите внимание на колонку слева, это индекс, и если не указано обратное, он создается автоматически. Индексы мы будем встречать как для pd.Series, так и для pd.DataFrame. Что же он дает? Аналогия здесь такая же, что с телефонным справочником. Индексы позволяют более логично категоризовать информацию, а также более оптимально делать некоторые операции над сериями (pd.Series) и датафреймами (pd.DataFrame). Вкратце, можно отметить, что индексы
1. Идентифицируют данные (т.е. предоставляют метаданные) с помощью известных индикаторов, важных для анализа, визуализации и отображения в интерактивной консоли
2. Включают автоматическое и явное выравнивание данных.
3. Позволяют интуитивно получать и настраивать подмножества набора данных.

Помимо этого обратите внимание, что у серии также есть имя. Это полезно, когда нам нужно вставить новую колонку в DataFrame без явного указания имени.

Следующим образом мы можем задать произвольный индекс, теперь наши записи идентифицируют буквы a b c

In [None]:
# teacher
s = pd.Series([1,2,3], dtype=np.int32, name='numbers', index=['a', 'b', 'c'])
s

a    1
b    2
c    3
Name: numbers, dtype: int32

Помимо индекса (свойства s.index) также сохраняется сквозняется целочисленная индексация.

Ниже выборка просто по целочисленному индексу (сквозному), как будто мы работаем с обычным списком

In [None]:
s.index

Index(['a', 'b', 'c'], dtype='object')

In [None]:
# teacher
s[1]

2

Метод доступа .loc позволяет делать выборку именно по индексу.
Обратите внимание, что здесь используются именно квадратные скобки. Скорее всего так сделано, чтобы такая выборка была похоже на выборку из обычного списка.

In [None]:
# teacher
s.loc['c']

3

Посмотреть отдельно на индекс можно с помощью свойства .index

In [None]:
# teacher
s.index

Index(['a', 'b', 'c'], dtype='object')

Создадим pandas DataFrame из случайной numpy матрицы

In [None]:
# teacher
m = np.random.rand(5,3)
df = pd.DataFrame(m)
df

Unnamed: 0,0,1,2
0,0.512499,0.18101,0.852557
1,0.704411,0.966322,0.543383
2,0.028905,0.912492,0.370214
3,0.900219,0.997853,0.983675
4,0.75278,0.669283,0.304397


Мы видим строковый индекс, который был создан автоматически, а также колоночный (или просто колонки), которые также были заданы автоматически. У нас получился не совсем привычный вид таблицы, давайте зададим колонкам более понятные имена.

In [None]:
# teacher
df = pd.DataFrame(m, columns=['first', 'second', 'third'])
df

Unnamed: 0,first,second,third
0,0.512499,0.18101,0.852557
1,0.704411,0.966322,0.543383
2,0.028905,0.912492,0.370214
3,0.900219,0.997853,0.983675
4,0.75278,0.669283,0.304397


В pandas DataFrame выборка квадратными скобками происходит по колонкам

In [None]:
# teacher
df['first']

0    0.512499
1    0.704411
2    0.028905
3    0.900219
4    0.752780
Name: first, dtype: float64

In [None]:
df[0] # такой колонки нет, будет ошибка

KeyError: ignored

Но ВНЕЗАПНО, если мы попробуем применить слайсинг как в обычных массивах numpy или списках, выборка будет происходить по строкам. Эта та особенность, которую мы вынуждены просто запомнить. Выборка при этом происходит по целочисленной сквозной индексации (0,1,2,3,4,...).

In [None]:
# teacher
df[:2]

Unnamed: 0,first,second,third
0,0.512499,0.18101,0.852557
1,0.704411,0.966322,0.543383


Есть удобный способ инициализировать новый DataFrame с помощью словаря. Ключи станут названиями колонок, а значения по ключам столбцами.

In [None]:
# pd.DataFrame через словарь
# teacher
d = {
    'name': ['Dmitry', 'Alexey', 'Vladimir', 'Elena'],
    'age': [24, 25, 30, 40]
}
pd.DataFrame(d)

Unnamed: 0,name,age
0,Dmitry,24
1,Alexey,25
2,Vladimir,30
3,Elena,40


### Просмотр 

По умолчанию colab notebook (или jupyter notebook) будет "обрезать" отображение табличек, так как если там много строк, они могут занимать много места, и привести ваш браузер в замешательство, а компьютер в полный аут.

In [None]:
df

Unnamed: 0,first,second,third
0,0.512499,0.18101,0.852557
1,0.704411,0.966322,0.543383
2,0.028905,0.912492,0.370214
3,0.900219,0.997853,0.983675
4,0.75278,0.669283,0.304397


In [None]:
pd.DataFrame(np.random.rand(100,2)) # так будет пропущено несколько строчек в целях экономии места

Unnamed: 0,0,1
0,0.836750,0.485584
1,0.336508,0.704829
2,0.586327,0.699664
3,0.344681,0.435990
4,0.190171,0.506364
...,...,...
95,0.340749,0.569996
96,0.834302,0.827717
97,0.929227,0.849191
98,0.797011,0.257855


Впрочем, вряд ли вам понадобится отсматривать, скажем, 100000 строк какой-нибудь таблицы вручную. Как правило, нам достаточно посмотреть первые несколько строк таблицы, чтобы понять что там находится, и правильно ли мы прочитали нашу таблицу из файла.

In [None]:
# покажем первые две строки датафрейма
# teacher
df.head(2)

Unnamed: 0,first,second,third
0,0.512499,0.18101,0.852557
1,0.704411,0.966322,0.543383


In [None]:
# последние две строчки с конца
# teacher
df.tail(2)

Unnamed: 0,first,second,third
3,0.900219,0.997853,0.983675
4,0.75278,0.669283,0.304397


Мы можем отдельно посмотреть строковый индекс и колонки с помощью соответствующих свойств объекта

In [None]:
# teacher
df.index

RangeIndex(start=0, stop=5, step=1)

In [None]:
# teacher
df.columns

Index(['first', 'second', 'third'], dtype='object')

In [None]:
# teacher
df.columns[1]

'second'

In [None]:
df.index[2]

2

Узнать форму нашей таблицы

In [None]:
# teacher
df.shape

(5, 3)

In [None]:
# teacher
df.shape[0]

5

In [None]:
# teacher
df.shape[1]

3

Посмотреть типы данных

In [None]:
# teacher
df.dtypes

first     float64
second    float64
third     float64
dtype: object

И менять их с помощью метода astype. Обратите внимание, что мы можем передать целый словарь в котором ключи это названия колонок, а значения по ключу это тип данных к которому мы хотим преобразовать соответствующую колонку.

In [None]:
# teacher
df.astype({'first': np.float32}).dtypes

first     float32
second    float64
third     float64
dtype: object

Мы можем отказаться от всех метаданных и перейти к numpy матрице, чтобы работать с ней с помощью методов из библиотеки numpy

In [None]:
df.to_numpy()

array([[0.51249887, 0.18101011, 0.85255705],
       [0.70441097, 0.96632162, 0.54338271],
       [0.02890461, 0.91249185, 0.37021405],
       [0.90021858, 0.99785294, 0.9836748 ],
       [0.75278012, 0.6692833 , 0.30439666]])

Крайне полезен метод .describe(), который выводит нам дескриптивную статистику по нашему датафрейму.

In [None]:
# teacher
df.describe()

Unnamed: 0,first,second,third
count,5.0,5.0,5.0
mean,0.579763,0.745392,0.610845
std,0.337688,0.340877,0.297402
min,0.028905,0.18101,0.304397
25%,0.512499,0.669283,0.370214
50%,0.704411,0.912492,0.543383
75%,0.75278,0.966322,0.852557
max,0.900219,0.997853,0.983675


А в методе info мы можем сразу проверить наличие пропусков (графа Non-Null Count), а также посмотреть какой объем памяти занимает наша табличка (чем меньше, тем, конечно, лучше).

In [None]:
# teacher
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   first   5 non-null      float64
 1   second  5 non-null      float64
 2   third   5 non-null      float64
dtypes: float64(3)
memory usage: 248.0 bytes


In [None]:
# teacher
df.astype({'first': np.float32}).info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   first   5 non-null      float32
 1   second  5 non-null      float64
 2   third   5 non-null      float64
dtypes: float32(1), float64(2)
memory usage: 228.0 bytes


In [None]:
20 / 248

0.08064516129032258

По большому счету колонки это тот же индекс, только по горизонтальной оси (axis = 1). Строковый и столбцовый индексы могут заменять друг друга, давайте продемонстрируем это с помощью операции транспонирования.

Кстати, ниже напоминание об осях из прошлой лекции.

![axes](https://railsware.com/blog/wp-content/uploads/2018/11/data-frame-axes.png)

![axes](https://i.stack.imgur.com/FzimB.png)

In [None]:
df.T

Unnamed: 0,0,1,2,3,4
first,0.512499,0.704411,0.028905,0.900219,0.75278
second,0.18101,0.966322,0.912492,0.997853,0.669283
third,0.852557,0.543383,0.370214,0.983675,0.304397


Мы можем сортировать строки таблицы по значениям колонок. Обратите внимание, что индекс остался прежним.

In [None]:
# ascending=False по убыванию
# teacher
df.sort_values('first', ascending=False) # ascending=False -- по убыванию

Unnamed: 0,first,second,third
3,0.900219,0.997853,0.983675
4,0.75278,0.669283,0.304397
1,0.704411,0.966322,0.543383
0,0.512499,0.18101,0.852557
2,0.028905,0.912492,0.370214


А можем сортировать именно индекс.

In [None]:
# teacher
df.T.sort_index(axis=0, ascending=False)

Unnamed: 0,0,1,2,3,4
third,0.852557,0.543383,0.370214,0.983675,0.304397
second,0.18101,0.966322,0.912492,0.997853,0.669283
first,0.512499,0.704411,0.028905,0.900219,0.75278


In [None]:
df.T.sort_index(axis=1, ascending=False)

Unnamed: 0,4,3,2,1,0
first,0.75278,0.900219,0.028905,0.704411,0.512499
second,0.669283,0.997853,0.912492,0.966322,0.18101
third,0.304397,0.983675,0.370214,0.543383,0.852557


### Выборка
Подробная информация по выборкам данных представлена [тут](https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html).

#### Квадратные скобки
Как уже отмечалось выше, для датафреймов выборка происходит по столбцам.

In [None]:
# teacher
df['third']

0    0.852557
1    0.543383
2    0.370214
3    0.983675
4    0.304397
Name: third, dtype: float64

In [None]:
# teacher
df[['third', 'first']]

Unnamed: 0,third,first
0,0.852557,0.512499
1,0.543383,0.704411
2,0.370214,0.028905
3,0.983675,0.900219
4,0.304397,0.75278


In [None]:
# слайсинг по сквозному целочисленному индексу как в массиве
# teacher
df[1:4]

Unnamed: 0,first,second,third
1,0.704411,0.966322,0.543383
2,0.028905,0.912492,0.370214
3,0.900219,0.997853,0.983675


#### Выборка по метке (лейблу)
Добавим новый столбец в нашу таблицу и сделаем его новым индексом с помощью метода .set_index()

In [None]:
df['new_index'] = pd.Series(['a', 'b', 'e', 'c', 'g'])
df

Unnamed: 0,first,second,third,new_index
0,0.512499,0.18101,0.852557,a
1,0.704411,0.966322,0.543383,b
2,0.028905,0.912492,0.370214,e
3,0.900219,0.997853,0.983675,c
4,0.75278,0.669283,0.304397,g


In [None]:
# teacher
df = df.set_index('new_index')
df

Unnamed: 0_level_0,first,second,third
new_index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
a,0.512499,0.18101,0.852557
b,0.704411,0.966322,0.543383
e,0.028905,0.912492,0.370214
c,0.900219,0.997853,0.983675
g,0.75278,0.669283,0.304397


Теперь с помощью .loc мы можем производить навигацию по этому индексу

In [None]:
# teacher
df.loc['b']

first     0.704411
second    0.966322
third     0.543383
Name: b, dtype: float64

И даже использовать диапазоны (слайсы) по индексу

In [None]:
# teacher
df.loc['b':'c']

Unnamed: 0_level_0,first,second,third
new_index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
b,0.704411,0.966322,0.543383
e,0.028905,0.912492,0.370214
c,0.900219,0.997853,0.983675


Через запятую мы можем указать также и фильтр по столбцам

In [None]:
# teacher
df.loc['b':'c', ['second', 'third']]

Unnamed: 0_level_0,second,third
new_index,Unnamed: 1_level_1,Unnamed: 2_level_1
b,0.966322,0.543383
e,0.912492,0.370214
c,0.997853,0.983675


#### Выборка по позиции в таблице
Сохраняется сквозная целочисленная индексация, и она доступна с помощью метода .iloc. Скобки также квадратные

In [None]:
df

Unnamed: 0_level_0,first,second,third
new_index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
a,0.512499,0.18101,0.852557
b,0.704411,0.966322,0.543383
e,0.028905,0.912492,0.370214
c,0.900219,0.997853,0.983675
g,0.75278,0.669283,0.304397


In [None]:
# teacher
df.iloc[1:3]

Unnamed: 0_level_0,first,second,third
new_index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
b,0.704411,0.966322,0.543383
e,0.028905,0.912492,0.370214


Происходит выборка именно по **номеру** строки и **номеру** столбца (начиная с нуля)

In [None]:
# teacher
df.iloc[1:3, [0,2]]

Unnamed: 0_level_0,first,third
new_index,Unnamed: 1_level_1,Unnamed: 2_level_1
b,0.704411,0.543383
e,0.028905,0.370214


In [None]:
df.iloc[1:3][['first', 'third']]

Unnamed: 0_level_0,first,third
new_index,Unnamed: 1_level_1,Unnamed: 2_level_1
b,0.704411,0.543383
e,0.028905,0.370214


### Чтение и запись данных

В pandas присутствует огромное кол-во возможностей для чтения записи данных.

Например, в методе pd.read_csv доступны специфичные опции для формата (например, разделитель колонок sep), но и также можно, например, дополнить список значений, которые pandas по умолчанию считает пропусками, задав явно параметр na_values.

Более подробную информацию про чтение запись данных можно найти [здесь](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html)

In [None]:
# teacher
iris = pd.read_csv('iris.csv', header='infer', sep=',')
iris

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Virginica
146,6.3,2.5,5.0,1.9,Virginica
147,6.5,3.0,5.2,2.0,Virginica
148,6.2,3.4,5.4,2.3,Virginica


In [None]:
pd.read_ # доступно очень большое кол-во форматов для чтения

In [None]:
# запись to_csv() и другие

In [None]:
# сохраняем в качестве первой строки список колонок, первой колонкой индекс НЕ пишем
# teacher
iris.to_csv('iris_test.csv', header=True, index=False) # сохраняем в качестве первой строки список колонок, первой колонкой индекс НЕ пишем

In [None]:
!ls

iris.csv  iris_test.csv  sample_data


In [None]:
iris.to_

Загрузим набор данных iris.csv, и потренируемся делать выборки на нем.

In [None]:
import numpy as np
import pandas as pd

iris = pd.read_csv('iris.csv', header='infer')
iris.head(5)

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa


##### Задачи на выборку данных
1. выведите первые 4 строки и первые 2 столбца с помощью метода .iloc
2. выведите только колонки sepal.length и petal.length с помощью loc и/или квадратных скобок
3. сделайте индексом колонку variety с помощью метода .set_index(), и выберите с помощью .loc только вид 'Setosa'

In [None]:
iris

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Virginica
146,6.3,2.5,5.0,1.9,Virginica
147,6.5,3.0,5.2,2.0,Virginica
148,6.2,3.4,5.4,2.3,Virginica


In [None]:
# 1.
iris.iloc[:4, :2]

Unnamed: 0,sepal.length,sepal.width
0,5.1,3.5
1,4.9,3.0
2,4.7,3.2
3,4.6,3.1


In [None]:
# 2.
iris[['sepal.length', 'petal.length']]

Unnamed: 0,sepal.length,petal.length
0,5.1,1.4
1,4.9,1.4
2,4.7,1.3
3,4.6,1.5
4,5.0,1.4
...,...,...
145,6.7,5.2
146,6.3,5.0
147,6.5,5.2
148,6.2,5.4


In [None]:
iris.loc[:, ['sepal.length', 'petal.length']]

Unnamed: 0,sepal.length,petal.length
0,5.1,1.4
1,4.9,1.4
2,4.7,1.3
3,4.6,1.5
4,5.0,1.4
...,...,...
145,6.7,5.2
146,6.3,5.0
147,6.5,5.2
148,6.2,5.4


In [None]:
# 3. 
iris.set_index('variety').loc['Setosa']

Unnamed: 0_level_0,sepal.length,sepal.width,petal.length,petal.width
variety,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Setosa,5.1,3.5,1.4,0.2
Setosa,4.9,3.0,1.4,0.2
Setosa,4.7,3.2,1.3,0.2
Setosa,4.6,3.1,1.5,0.2
Setosa,5.0,3.6,1.4,0.2
Setosa,5.4,3.9,1.7,0.4
Setosa,4.6,3.4,1.4,0.3
Setosa,5.0,3.4,1.5,0.2
Setosa,4.4,2.9,1.4,0.2
Setosa,4.9,3.1,1.5,0.1


#### Выборка по маске
Также как и в numpy присутствует возможность делать выборки по маске. Но здесь механизм несколько отличается. Если в numpy мы получали матрицу из True и False, и у каждому элементу было сопоставлено значение True (брать в выборку) или False (не брать в выборку), то в pandas маска это pandas Series **с такой же индексацией** что и исходный датафрейм или серия, состоящий из значений True или False. Т.е мы указываем какие строчки идут в результирующую выборку, а какие нет.

In [None]:
# получаем маску в которой у каждого индекса (!!!) указано оставлять его в наборе данных или нет
# teacher
(iris['sepal.length'] > 5.0) & (iris['sepal.width'] <= 3.0)

0      False
1      False
2      False
3      False
4      False
       ...  
145     True
146     True
147     True
148    False
149     True
Length: 150, dtype: bool

In [None]:
mask = (iris['sepal.length'] > 5.0) & (iris['sepal.width'] <= 3.0)
mask

0      False
1      False
2      False
3      False
4      False
       ...  
145     True
146     True
147     True
148    False
149     True
Length: 150, dtype: bool

In [None]:
sl_mask_lower_limit = iris['sepal.length'] > 5.0
sw_mask_upper_limit = iris['sepal.width'] <= 3.0
mask = sl_mask_lower_limit & sw_mask_upper_limit

In [None]:
mask

0      False
1      False
2      False
3      False
4      False
       ...  
145     True
146     True
147     True
148    False
149     True
Length: 150, dtype: bool

Конечно, мы можем выстраивать условия в логические цепочки

In [None]:
# teacher
iris[mask]

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
53,5.5,2.3,4.0,1.3,Versicolor
54,6.5,2.8,4.6,1.5,Versicolor
55,5.7,2.8,4.5,1.3,Versicolor
58,6.6,2.9,4.6,1.3,Versicolor
59,5.2,2.7,3.9,1.4,Versicolor
...,...,...,...,...,...
142,5.8,2.7,5.1,1.9,Virginica
145,6.7,3.0,5.2,2.3,Virginica
146,6.3,2.5,5.0,1.9,Virginica
147,6.5,3.0,5.2,2.0,Virginica


Мы можем даже перемешать значения, но выборка все равно останется той же за счет соответствия по индексу!

In [None]:
# teacher
iris.sort_values('sepal.length')[mask]

  


Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
98,5.1,2.5,3.0,1.1,Versicolor
59,5.2,2.7,3.9,1.4,Versicolor
84,5.4,3.0,4.5,1.5,Versicolor
90,5.5,2.6,4.4,1.2,Versicolor
53,5.5,2.3,4.0,1.3,Versicolor
...,...,...,...,...,...
130,7.4,2.8,6.1,1.9,Virginica
105,7.6,3.0,6.6,2.1,Virginica
122,7.7,2.8,6.7,2.0,Virginica
118,7.7,2.6,6.9,2.3,Virginica


In [None]:
# получим уникальные значения индексов в каждой выборке
# если множество ключей в первом случае совпадает со множеством во втором случае, то 
# в обоих случаях мы сделали одинаковую выборку
# teacher
set(iris[mask].index) - set(iris.sort_values('sepal.length')[mask].index)

  """


set()

In [None]:
iris

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Virginica
146,6.3,2.5,5.0,1.9,Virginica
147,6.5,3.0,5.2,2.0,Virginica
148,6.2,3.4,5.4,2.3,Virginica


In [None]:
mask

0      False
1      False
2      False
3      False
4      False
       ...  
145     True
146     True
147     True
148    False
149     True
Length: 150, dtype: bool

In [None]:
iris[mask]

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
53,5.5,2.3,4.0,1.3,Versicolor
54,6.5,2.8,4.6,1.5,Versicolor
55,5.7,2.8,4.5,1.3,Versicolor
58,6.6,2.9,4.6,1.3,Versicolor
59,5.2,2.7,3.9,1.4,Versicolor
...,...,...,...,...,...
142,5.8,2.7,5.1,1.9,Virginica
145,6.7,3.0,5.2,2.3,Virginica
146,6.3,2.5,5.0,1.9,Virginica
147,6.5,3.0,5.2,2.0,Virginica


Для того, чтобы сделать фильтрацию по значениям в колонке, используйте метод .isin()

In [None]:
# проверка по множеству
# teacher
iris[iris['variety'].isin(['Setosa', 'Virginica'])]

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Virginica
146,6.3,2.5,5.0,1.9,Virginica
147,6.5,3.0,5.2,2.0,Virginica
148,6.2,3.4,5.4,2.3,Virginica


In [None]:
iris.query("`variety` == 'Setosa'")

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa
5,5.4,3.9,1.7,0.4,Setosa
6,4.6,3.4,1.4,0.3,Setosa
7,5.0,3.4,1.5,0.2,Setosa
8,4.4,2.9,1.4,0.2,Setosa
9,4.9,3.1,1.5,0.1,Setosa


#### Вставка значений
Вставку значений можно производить методами доступа .loc и .iloc, а также методом .at. Разница в том, что .loc и .iloc чуть более универсальны, и позволяют изменить сразу целый диапазон, при этом важно соблюсти размерности вставляемых данных. .at в свою очередь дает нам точечную вставку "на место", и лучше подходит с точки зрения чтения кода.

In [None]:
df = pd.DataFrame(np.random.rand(6,3), 
                  index=['a','b','c','d','e','f'], 
                  columns=['first', 'second', 'third'])
df

Unnamed: 0,first,second,third
a,0.430852,0.826674,0.201501
b,0.570537,0.230334,0.961212
c,0.110269,0.341812,0.968368
d,0.515099,0.830107,0.410631
e,0.257482,0.276331,0.457688
f,0.033155,0.288257,0.381194


In [None]:
# teacher
df.loc['b', 'first'] = 1.0
df

Unnamed: 0,first,second,third
a,0.430852,0.826674,0.201501
b,1.0,0.230334,0.961212
c,0.110269,0.341812,0.968368
d,0.515099,0.830107,0.410631
e,0.257482,0.276331,0.457688
f,0.033155,0.288257,0.381194


In [None]:
# вставка диапазона
# teacher
df.loc['a':'c', 'first'] = [0.5, 1.5, 2.0]
df

Unnamed: 0,first,second,third
a,0.5,0.826674,0.201501
b,1.5,0.230334,0.961212
c,2.0,0.341812,0.968368
d,0.515099,0.830107,0.410631
e,0.257482,0.276331,0.457688
f,0.033155,0.288257,0.381194


In [None]:
# at
# teacher
df.at['e', 'second'] = 100
df

Unnamed: 0,first,second,third
a,0.5,0.826674,0.201501
b,1.5,0.230334,0.961212
c,2.0,0.341812,0.968368
d,0.515099,0.830107,0.410631
e,0.257482,100.0,0.457688
f,0.033155,0.288257,0.381194


In [None]:
s = pd.Series([99, 88, 77], index=['a', 'e', 'f'])
s

a    99
e    88
f    77
dtype: int64

In [None]:
df['third'] = s
df

Unnamed: 0,first,second,third
a,0.5,0.826674,99.0
b,1.5,0.230334,
c,2.0,0.341812,
d,0.515099,0.830107,
e,0.257482,100.0,88.0
f,0.033155,0.288257,77.0


In [None]:
df['fourth'] = s
df

Unnamed: 0,first,second,third,fourth
a,0.5,0.826674,99.0,99.0
b,1.5,0.230334,,
c,2.0,0.341812,,
d,0.515099,0.830107,,
e,0.257482,100.0,88.0,88.0
f,0.033155,0.288257,77.0,77.0


In [None]:
s2 = pd.Series([200,300,400,500,11,22,33,44,55], index=['a', 'b', 'c', 'd', 'e', 'f', 'k', 'm', 's'])
s2

a    200
b    300
c    400
d    500
e     11
f     22
k     33
m     44
s     55
dtype: int64

In [None]:
df

Unnamed: 0,first,second,third,fourth
a,0.5,0.826674,99.0,99.0
b,1.5,0.230334,,
c,2.0,0.341812,,
d,0.515099,0.830107,,
e,0.257482,100.0,88.0,88.0
f,0.033155,0.288257,77.0,77.0


In [None]:
df['third'] = s2
df

Unnamed: 0,first,second,third,fourth
a,0.5,0.826674,200,99.0
b,1.5,0.230334,300,
c,2.0,0.341812,400,
d,0.515099,0.830107,500,
e,0.257482,100.0,11,88.0
f,0.033155,0.288257,22,77.0


In [None]:
s

a    99
e    88
f    77
dtype: int64

In [None]:
s.reindex(index=df.index)

a    99.0
b     NaN
c     NaN
d     NaN
e    88.0
f    77.0
dtype: float64

In [None]:
df['five'] = s.reindex(index=df.index).fillna(df['second'])
df

Unnamed: 0,first,second,third,fourth,five
a,0.5,0.826674,200,99.0,99.0
b,1.5,0.230334,300,,0.230334
c,2.0,0.341812,400,,0.341812
d,0.515099,0.830107,500,,0.830107
e,0.257482,100.0,11,88.0,88.0
f,0.033155,0.288257,22,77.0,77.0


In [None]:
s = pd.Series([99, 88, 77])
s

0    99
1    88
2    77
dtype: int64

In [None]:
df['sixth'] = s
df

Unnamed: 0,first,second,third,fourth,five,sixth
a,0.5,0.826674,200,99.0,99.0,
b,1.5,0.230334,300,,0.230334,
c,2.0,0.341812,400,,0.341812,
d,0.515099,0.830107,500,,0.830107,
e,0.257482,100.0,11,88.0,88.0,
f,0.033155,0.288257,22,77.0,77.0,


### Пропущенные значения
По умолчанию не участвуют в вычислениях, и чаще всего на месте пропусков можно встретить значение np.nan (Not a Number), либо None (для нечисловых типов)

In [None]:
# сделаем специально несколько пропущенных значений
df = df.astype({'third': np.float32})
df.at['e', 'second'] = np.nan
df.at['e', 'third'] = np.nan
df

Unnamed: 0,first,second,third,fourth,five,sixth
a,0.5,0.826674,200.0,99.0,99.0,
b,1.5,0.230334,300.0,,0.230334,
c,2.0,0.341812,400.0,,0.341812,
d,0.515099,0.830107,500.0,,0.830107,
e,0.257482,,,88.0,88.0,
f,0.033155,0.288257,22.0,77.0,77.0,


Метод .isna() возвращает нам карту с пропусками. Пропуск там, где значение True.

In [None]:
# teacher
df.isna()

Unnamed: 0,first,second,third,fourth,five,sixth
a,False,False,False,False,False,True
b,False,False,False,True,False,True
c,False,False,False,True,False,True
d,False,False,False,True,False,True
e,False,True,True,False,False,True
f,False,False,False,False,False,True


In [None]:
df.shape

(6, 6)

Напоминаю, что в принципе количественную информацию о пропусках можно получить с помощью метода .info()

In [None]:
# teacher
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 6 entries, a to f
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   first   6 non-null      float64
 1   second  5 non-null      float64
 2   third   5 non-null      float32
 3   fourth  3 non-null      float64
 4   five    6 non-null      float64
 5   sixth   0 non-null      float64
dtypes: float32(1), float64(5)
memory usage: 484.0+ bytes


Для удаления пропусков используется метод .dropna().

По умолчанию .dropna() удалит те строки в которых есть хотя бы один пропуск в строке.

In [None]:
# teacher
df.dropna()

Unnamed: 0,first,second,third,fourth,five,sixth


А с помощью транспонирования можно удалять целые столбцы

In [None]:
# teacher
df.T.dropna().T

Unnamed: 0,first,five
a,0.5,99.0
b,1.5,0.230334
c,2.0,0.341812
d,0.515099,0.830107
e,0.257482,88.0
f,0.033155,77.0


Или использовать параметр axis=1

In [None]:
# teacher
df.dropna(axis=1)

Unnamed: 0,first,five
a,0.5,99.0
b,1.5,0.230334
c,2.0,0.341812
d,0.515099,0.830107
e,0.257482,88.0
f,0.033155,77.0


Но все же часто нам все-таки интересны данные с пропусками. Для работы с ними можно использовать метод .fillna()

Вот так мы заполним все пропуски одним и тем же значением

In [None]:
# teacher
df.fillna(0)

Unnamed: 0,first,second,third,fourth,five,sixth
a,0.5,0.826674,200.0,99.0,99.0,0.0
b,1.5,0.230334,300.0,0.0,0.230334,0.0
c,2.0,0.341812,400.0,0.0,0.341812,0.0
d,0.515099,0.830107,500.0,0.0,0.830107,0.0
e,0.257482,0.0,0.0,88.0,88.0,0.0
f,0.033155,0.288257,22.0,77.0,77.0,0.0


Но обычно мы все же хотим заполнять разные столбцы разными значениями

In [None]:
# teacher
df.fillna({'second': 0, 'third': 1.0})

Unnamed: 0,first,second,third,fourth,five,sixth
a,0.5,0.826674,200.0,99.0,99.0,
b,1.5,0.230334,300.0,,0.230334,
c,2.0,0.341812,400.0,,0.341812,
d,0.515099,0.830107,500.0,,0.830107,
e,0.257482,0.0,1.0,88.0,88.0,
f,0.033155,0.288257,22.0,77.0,77.0,


Есть и более продвинутые методы заполнения, сделаем несколько пропусков подряд

In [None]:
df.at['d', 'second'] = np.nan
df.at['d', 'third'] = np.nan
df

Unnamed: 0,first,second,third,fourth,five,sixth
a,0.5,0.826674,200.0,99.0,99.0,
b,1.5,0.230334,300.0,,0.230334,
c,2.0,0.341812,400.0,,0.341812,
d,0.515099,,,,0.830107,
e,0.257482,,,88.0,88.0,
f,0.033155,0.288257,22.0,77.0,77.0,


Метод bfill заполняет серию пропусков последним корректным (non Null) значением, итерируясь по таблице с конца.

In [None]:
# teacher
df.fillna(method='bfill')

Unnamed: 0,first,second,third,fourth,five,sixth
a,0.5,0.826674,200.0,99.0,99.0,
b,1.5,0.230334,300.0,88.0,0.230334,
c,2.0,0.341812,400.0,88.0,0.341812,
d,0.515099,0.288257,22.0,88.0,0.830107,
e,0.257482,0.288257,22.0,88.0,88.0,
f,0.033155,0.288257,22.0,77.0,77.0,


Метод ffill делает то же самое, но итерация происходит с начала таблицы

In [None]:
# teacher
df.fillna(method='ffill')

Unnamed: 0,first,second,third,fourth,five,sixth
a,0.5,0.826674,200.0,99.0,99.0,
b,1.5,0.230334,300.0,99.0,0.230334,
c,2.0,0.341812,400.0,99.0,0.341812,
d,0.515099,0.341812,400.0,99.0,0.830107,
e,0.257482,0.341812,400.0,88.0,88.0,
f,0.033155,0.288257,22.0,77.0,77.0,


bfill и ffill особенно полезны при заполнении пропусков во временном ряду. Более подробно данный функционал описан [здесь](https://pandas.pydata.org/pandas-docs/stable/user_guide/missing_data.html).

[Интерполяция](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.interpolate.html), увы делается отдельными методами.

### Статистики
Конечно, в pandas реализовано куча методов для подсчета различных статистик. 
Полный список методов можно посмотреть [здесь](https://pandas.pydata.org/pandas-docs/stable/reference/frame.html#computations-descriptive-stats) 

In [None]:
# mean, std, var, value_counts, df +- series

Вот так мы можем посчитать средние значения для всех колонок сразу

In [None]:
# teacher
df.mean()

first       0.800956
second      0.421769
third     230.500000
fourth     88.000000
five       44.233709
sixth            NaN
dtype: float64

А так посчитать среднее лишь для одной колонки

In [None]:
# teacher
df['first'].mean()

0.8009558935474071

То же для [стандартного отклонения](https://berg.com.ua/indicators-overlays/stdev/#:~:text=%D0%A1%D1%82%D0%B0%D0%BD%D0%B4%D0%B0%D1%80%D1%82%D0%BD%D0%BE%D0%B5%20%D0%BE%D1%82%D0%BA%D0%BB%D0%BE%D0%BD%D0%B5%D0%BD%D0%B8%D0%B5%20%D0%BC%D0%BE%D0%B6%D0%BD%D0%BE%20%D0%B2%D1%8B%D1%80%D0%B0%D0%B7%D0%B8%D1%82%D1%8C%20%D1%84%D0%BE%D1%80%D0%BC%D1%83%D0%BB%D0%BE%D0%B9,%D0%BD%D0%B0%20%D0%BA%D0%BE%D0%BB%D0%B8%D1%87%D0%B5%D1%81%D1%82%D0%B2%D0%BE%20%D1%8D%D0%BB%D0%B5%D0%BC%D0%B5%D0%BD%D1%82%D0%BE%D0%B2%20%D0%B2%20%D0%B2%D1%8B%D0%B1%D0%BE%D1%80%D0%BA%D0%B5.)

In [None]:
# стандартное
# teacher
df.std()

first       0.772469
second      0.273748
third     161.206909
fourth     11.000000
five       48.446121
sixth            NaN
dtype: float64

Или [дисперсии](https://ru.qwe.wiki/wiki/Variance)

In [None]:
# дисперсию
# teacher
df.var()

first         0.596708
second        0.074938
third     25987.666016
fourth      121.000000
five       2347.026604
sixth              NaN
dtype: float64

А с помощью .value_counts() можно посчитать кол-во вхождений уникальных значений

In [None]:
# teacher
df['first'].value_counts()

0.500000    1
1.500000    1
2.000000    1
0.515099    1
0.257482    1
0.033155    1
Name: first, dtype: int64

In [None]:
df['first'].value_counts(normalize=True)

0.500000    0.166667
1.500000    0.166667
2.000000    0.166667
0.515099    0.166667
0.257482    0.166667
0.033155    0.166667
Name: first, dtype: float64

In [None]:
df.sum()

first       4.805735
second      1.687077
third     922.000000
fourth    264.000000
five      265.402253
sixth       0.000000
dtype: float64

In [None]:
df

Unnamed: 0,first,second,third,fourth,five,sixth
a,0.5,0.826674,200.0,99.0,99.0,
b,1.5,0.230334,300.0,,0.230334,
c,2.0,0.341812,400.0,,0.341812,
d,0.515099,,,,0.830107,
e,0.257482,,,88.0,88.0,
f,0.033155,0.288257,22.0,77.0,77.0,


In [None]:
df.sum(axis=1)

a    399.326674
b    301.960668
c    402.683624
d      1.345206
e    176.257482
f    176.321411
dtype: float64

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 6 entries, a to f
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   first   6 non-null      float64
 1   second  4 non-null      float64
 2   third   4 non-null      float32
 3   fourth  3 non-null      float64
 4   five    6 non-null      float64
 5   sixth   0 non-null      float64
dtypes: float32(1), float64(5)
memory usage: 484.0+ bytes


In [None]:
df.isna().sum()

first     0
second    2
third     2
fourth    3
five      0
sixth     6
dtype: int64

In [None]:
df

Unnamed: 0,first,second,third,fourth,five,sixth
a,0.5,0.826674,200.0,99.0,99.0,
b,1.5,0.230334,300.0,,0.230334,
c,2.0,0.341812,400.0,,0.341812,
d,0.515099,,,,0.830107,
e,0.257482,,,88.0,88.0,
f,0.033155,0.288257,22.0,77.0,77.0,


In [None]:
df.isna().sum(axis=1)

a    1
b    2
c    2
d    4
e    3
f    1
dtype: int64

### Применение функций к данным (apply)
И все же иногда в pandas требуются новые функции со своей логикой обработки. Тогда на помощью приходит метод .apply

Он работает следующим образом. Мы передаем первым аргументом функцию, которая отвечает за логику, а вторым передаем axis, т.е мы указываем производить обработку по колонкам или по строкам.

В самой функции, задающей логику, нужно не забыть вернуть строку или столбец обратно в таблицу (return).

Полное описание функции доступно [тут](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.apply.html)

In [None]:
# модификация столбцов
# teacher

In [None]:
# модификация строк
# teacher

### Методы для работы со строками
Есть приятная возможность работы с векторизованными копиями функций для стандартного [типа данных str](https://pyprog.pro/python/py/str/str_methods.html). Например, мы можем перевести все строки в верхний регистр или нижний, посчитать кол-во определенных символов и т.д. Если у вас есть объект pandas.Series на который ссылается переменная s, то получить доступ к этим методам можно если вызвать свойство s.str.<название метода для работы со строками>.

[pandas.Series.str](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.str.html)

[Руководство по работе со строковыми колонками.](https://pandas.pydata.org/pandas-docs/stable/user_guide/text.html)

Зададим еще одну строковую колонку в нашем датафрейме

In [None]:
df['fourth'] = pd.Series(['abc', 'def', 'xyz dsad', 'dweq', 'dsad', 'dsad'], index=df.index)
df

Приведем всю колонку к верхнему регистру

In [None]:
# teacher

Или разобьем все строкипо определенному символу

In [None]:
# teacher

Можно также указать вторым аргументом максимальное кол-во разбиений, и создать из полученных массивов новый датафрейм, где в каждую колонку будет записан элемент разбиения (expand=True).

Описание метода [pandas.Series.str.split()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.str.split.html )

In [None]:
# teacher

### Бонус

In [None]:
df = pd.read_csv("iris.csv")

In [None]:
# И наверное одна из самых важных функций этого раздела -- оконные функции.

# rolling -- можно задать размер окна и то, куда записывать, но явно не выполняет вычисления

df.rolling(5)

In [None]:
# Давайте решим несколько задач с оконными функциями

# Создадим подходящий датафрейм

# можно взять какой-нибудь шумный сигнал
# teacher

In [None]:
# Давайте найдем скользящее среднее
# teacher

In [None]:
# максимальное
# teacher

cut и qcut

In [None]:
df = pd.DataFrame({'A': ['one', 'one', 'two', 'three'] * 3,
                      'B': ['A', 'B', 'C'] * 4,
                       'C': ['foo', 'foo', 'foo', 'bar', 'bar', 'bar'] * 2,
                       'D': np.random.randn(12),
                       'E': np.random.randn(12)})
df

In [None]:
# cut стандартное разбиение
# teacher

In [None]:
# cut нестандартное разбиение
# teacher

In [None]:
# qcut
# teacher