# Pandas

Pandas - это библиотека для работы с табличными данными.

Как всегда, [официальный сайт](https://pandas.pydata.org/) предоставляет самую актуальную и полезную информацию. Доки по функциям и классам [здесь](https://pandas.pydata.org/pandas-docs/stable/reference/index.html).

Установка pandas как обычно не составляет сложностей:

In [None]:
!pip install pandas==1.0.0

Collecting pandas==1.0.0
[?25l  Downloading https://files.pythonhosted.org/packages/12/d1/a6502c2f5c15b50f5dd579fc1c52b47edf6f2e9f682aed917dd7565b3e60/pandas-1.0.0-cp36-cp36m-manylinux1_x86_64.whl (10.1MB)
[K     |████████████████████████████████| 10.1MB 5.9MB/s 
[31mERROR: google-colab 1.0.0 has requirement pandas~=1.1.0; python_version >= "3.0", but you'll have pandas 1.0.0 which is incompatible.[0m
[31mERROR: fbprophet 0.7.1 has requirement pandas>=1.0.4, but you'll have pandas 1.0.0 which is incompatible.[0m
Installing collected packages: pandas
  Found existing installation: pandas 1.1.5
    Uninstalling pandas-1.1.5:
      Successfully uninstalled pandas-1.1.5
Successfully installed pandas-1.0.0


Импорт библиотеки с устоявшимся сокращением:

In [None]:
import pandas as pd

# Создание объекта таблицы

Начнем с простого создания объекта основного класса в pandas - `DataFrame`. Фреймы в pandas представляют собой двумерные массивы (матрицы) данных. Для применения в машинном обучении визуально можно представить данные следующим образом:

$$
X = 
\begin{bmatrix}
x^{(1)}_1 & \dots & x^{(1)}_{m-1} & x^{(1)}_m \\
x^{(2)}_1 & \dots & x^{(2)}_{m-1} & x^{(2)}_m \\
\vdots & \ddots &  \vdots & \vdots  \\
x^{(n)}_1 & \dots & x^{(n)}_{m-1} & x^{(n)}_m \\
\end{bmatrix}
$$

где $n$ - количество записей (сэмплов/рядов) в данных, $m$ - количество признаков (предикторов/фич) в данных.

> **Признаки** в данных - это те данные, на основе которых производится анализ данных, обучение модели и предсказание. В реальной задаче признаками могут быть "цена", "пол", "группа крови", "текст в заявке" и т.д. [Колонки в таблице]

> **Записи** в данных - сущности, каждая из которых имеет свой набор значений признаков. В базе данных банка это могут быть отдельные транзакции. Все транзакции имеют одинаковые признаки, но значения этих признаков у каждой записи свои. [Строки в таблице]

Создание `DataFrame` возможно разными способами, для начала попробуем создать фрейм из двумерного массива:

In [None]:
import numpy as np

arr = np.random.randint(0, 10, size=(5, 3))
print(arr)

[[3 0 3]
 [6 3 7]
 [8 9 2]
 [7 1 0]
 [3 7 6]]


In [None]:
# Создание фрейма - просто вызвать конструктор
df = pd.DataFrame(data=arr)
# Фреймы удобнее отображать с помощью встроенных средств Jupyter
df

Unnamed: 0,0,1,2
0,3,0,3
1,6,3,7
2,8,9,2
3,7,1,0
4,3,7,6


В представленном фрейме важно отметить две особенности:
- Колонки (признаки) имеют имена, но так как мы их (имена) не задали, то они создались автоматически;
- Каждая строка (запись) имеет **уникальный** индекс, тоже создались сами, так как мы не передавали своих индексов.

Для задания имен колонок используется аргумент в конструкторе `columns`, в который передаеся список имен по количеству признаков. Для задания индексов аргумент `index`, в который передается список индексов по количеству записей в массиве.

## Задание

Создайте фрейм с именами колонок `'col_1', 'col_2', 'col_3'` и индексами по алфавиту (`'A', 'B', 'C', ...` или `'A', 'Б', 'В', ...`).

In [None]:
import pandas as pd
import numpy as np

arr = np.random.randint(0, 10, size=(5, 3))
df = pd.DataFrame(data=arr, index=['A', 'Б', 'В', 'Г', 'Д'] , columns=['col_1', 'col_2', 'col_3'])
df

Unnamed: 0,col_1,col_2,col_3
A,4,7,8
Б,3,1,2
В,7,2,8
Г,7,1,7
Д,3,3,1


# Создание фрейма из словарей

Другим способом создания фрейма является конструктор на основе словаря с данными:

In [None]:
# Создается словарь, в котором ключи будут названиями колонок,
#   а значения - данные по этим колонкам
data = {
    'test_1_mark': [4.6, 3.8, 5.0, 4.5],
    'test_2_mark': [5.0, 3.9, 4.7, 4.5]
}

pd.DataFrame(data)

Unnamed: 0,test_1_mark,test_2_mark
0,4.6,5.0
1,3.8,3.9
2,5.0,4.7
3,4.5,4.5


Альтернативой использования словарей является создание массива словарей:

In [None]:
# Создается список записей, каждая запись представлена словарем
# В словаре ключи - названия колонок
# При создании фрейма pandas просмотри все возможные ключи словарей в списке
#   и создаст колонок по их названиям
data = [
    {
        'test_1_mark': 4.6,
        'test_2_mark': 5.0
    },
    {
        'test_1_mark': 3.8,
        'test_2_mark': 3.9
    },
    {
        'test_1_mark': 5.0
    },
]

pd.DataFrame(data)

Unnamed: 0,test_1_mark,test_2_mark
0,4.6,5.0
1,3.8,3.9
2,5.0,


Обратите внимание, в одной записи отсутсвовало значение для колонки и во фрейме такое значение обозначено как `NaN`.

> **NaN** (Not a Number) - представление пропусков во фрейме.

Пропуски в данных являение достаточно распространенное. Например, если данные собираются путем анкетирования, то опциональный вопрос может не иметь ответа, поэтому такие записи пропускаются. При разработке моделей машинного обучения с пропусками ведется отдельная работа, но для сырых данных - это нормальное явление.

# Типы данных

Как и в numpy, pandas поддерживает различные типы данных. Для примера создадим фрейм, в котором колонки имеют разные типы данных:

In [None]:
df = pd.DataFrame({'A': 1.,
                   'B': pd.Timestamp('20130102'),
                   'C': np.array([2.] * 4, dtype='float32'),
                   'D': np.array([3] * 4, dtype='int32'),
                   'E': pd.Categorical(["test", "train", "test", "train"]),
                   'F': 'foo'})
df

Unnamed: 0,A,B,C,D,E,F
0,1.0,2013-01-02,2.0,3,test,foo
1,1.0,2013-01-02,2.0,3,train,foo
2,1.0,2013-01-02,2.0,3,test,foo
3,1.0,2013-01-02,2.0,3,train,foo


Как видите, создается фрейм, в котором каждая колонка имеет свой тип. Из них для нас имеются два новых типа:
- `Timestamp` - конструктор для временного типа в pandas (`datetime64`);
- `Categorical` - категориальный тип, который в большинстве своем является альтернативой численным данным.

> **Категориальные данные** - данные, значения которых ограничены списком категорий (одно из возможных значений);

> **Численные данные** - данные, которые имеют численное значение (вещественное или целочисленное).

Для просмотра информации о фрейме полезно использовать метод `DataFrame.info()`:

In [None]:
df.info()

Если тип данных не задан явно как категориальный, то строки будут иметь тип `object`, как универсальный тип данных.

# Обзор данных

Начало любого анализа данных происходит с того, что мы должны разобраться, с чем имеем дело, поэтому возможности быстрого обзора данных - то, что нужно:

In [None]:
df = pd.DataFrame(
    data=np.random.randint(-10, 10, size=(15, 3)), 
    columns=['x1', 'x2', 'x3']
)

# Функция получения первых записей фрейма
# Аргументом задается количество выводимых данных
#   Если не задано - 5 по-умолчанию
df.head(4)

In [None]:
# Функция получения последних записей фрейма
# Аргументом задается количество выводимых данных
#   Если не задано - 5 по-умолчанию
df.tail(4)

In [None]:
# Функция отображения основной информации о фрейме:
#   Количество записей
#   Типы колонок
#   Количество ненулевых значений
#   Тип индекса
df.info()

In [None]:
# Функция отображения статистики по численным колонкам
df.describe()

In [None]:
# Атрибут получения индексов фрейма
df.index

In [None]:
# Или чтобы представить в виде списка
list(df.index)

In [None]:
# Атрибут получения имен колонок фрейма
df.columns

In [None]:
# Атрибут размерности фрейма
df.shape

In [None]:
# Преобразование к двумерному массиву numpy
df.to_numpy()

In [None]:
# Получение транспонированного представления
# Колонки -> ряды, ряды -> колонки
df.T

# (*) Транспонирование вряд ли часто понадобится при анализе, но учитывать стоит

# Обращение к данным

Так как данные представлены в виде двумерного массива, то обращение к ним является важным инструментом.

Начнем с того, чтобы обращаться к конкретной колонке:

In [None]:
df = pd.DataFrame(
    data=np.random.randint(0, 10, size=(5, 3)), 
    columns=['x1', 'x2', 'x3']
)

df

Unnamed: 0,x1,x2,x3
0,6,4,5
1,8,2,7
2,1,5,7
3,7,6,1
4,5,1,0


In [None]:
print(df['x1'])
print(type(df['x1']))

0    6
1    8
2    1
3    7
4    5
Name: x1, dtype: int64
<class 'pandas.core.series.Series'>


Индексация во фрейме по колонкам производится по имени колонок. В результате создается объект `Series` (ряд), который является одномерным массивом. В случае индексации по колонкам каждая запись в ряду имеет индекс из основного фрейма.

Аналогичный тип данных создается, когда мы обращаемся к конкретной записи в данных. Кстати, просто так не обратиться, поэтому для индексации по записям используются методы `DataFrame.iloc[]` и `DataFrame.loc[]`.

Взгляните на разницу:

In [None]:
data = {
    'feature1': np.arange(15),
    'feature2': np.linspace(0, 10, 15),
    'feature3': 'string',
}
df = pd.DataFrame(data, index=list('ABCDEFGHIJKLMNO'))
df.head()

Unnamed: 0,feature1,feature2,feature3
A,0,0.0,string
B,1,0.714286,string
C,2,1.428571,string
D,3,2.142857,string
E,4,2.857143,string


In [None]:
df.iloc[2]

feature1          2
feature2    1.42857
feature3     string
Name: C, dtype: object

In [None]:
df.loc['C']

feature1          2
feature2    1.42857
feature3     string
Name: C, dtype: object

In [None]:
df.iloc[2, 1]

1.4285714285714286

In [None]:
df.loc['C', 'feature2']

1.4285714285714286

Если разница не явна, то обсудим:
> `.iloc[]` используется для обращения по индексам как рядов, так и колонок;

> `.loc[]` используется для обращения по именованиям как рядов, так и колонок.

В индексации можно применять как слайсы, подобно тем, что научились применять в numpy, так и массивы в качестве индексов.

При индексации по единственной строке создается объект `Series`, но уже с индексами в виде колонок.


## Задание

Выведите часть фрейма со второго ряда по девятый (индексы с 'C' по 'I') и только `feature1` и `feature3`:

In [None]:
import pandas as pd
import numpy as np

data = {
    'feature1': np.arange(15),
    'feature2': np.linspace(0, 10, 15),
    'feature3': 'string',
}
df = pd.DataFrame(data, index=list('ABCDEFGHIJKLMNO'))
df.head()

Unnamed: 0,feature1,feature2,feature3
A,0,0.0,string
B,1,0.714286,string
C,2,1.428571,string
D,3,2.142857,string
E,4,2.857143,string


In [None]:
# TODO - выделите часть фрейма с помощью .loc[]
df.loc['C':'I', ['feature1', 'feature3']]

Unnamed: 0,feature1,feature3
C,2,string
D,3,string
E,4,string
F,5,string
G,6,string
H,7,string
I,8,string


In [None]:
# TODO - выделите часть фрейма с помощью .iloc[]
df.iloc[2:9, [0, 2]]

Unnamed: 0,feature1,feature3
C,2,string
D,3,string
E,4,string
F,5,string
G,6,string
H,7,string
I,8,string


# Условная индексация

При работе с данными часто необходимо выбрать часть данных по условному признаку. По аналогии с работой в numpy, применение булевых операторов на ряд данных создает такой же по размеру ряд из булевых элементов, представляющих собой маску:

In [None]:
df = pd.DataFrame(
    data=np.random.randint(0, 10, size=(15, 3)), 
    columns=['x1', 'x2', 'x3']
)
df.head(3)

Unnamed: 0,x1,x2,x3
0,8,3,8
1,9,5,9
2,2,8,7


In [None]:
df['x1'] > 5

После того, как маска получена, можно применить ее, чтобы выбрать конкретные записи (строки) данных. При этом, индексация маской работает как при использовании `[]`, так и при использовании `.loc[]`.

In [None]:
mask = df['x1'] > 5
df[mask]

# Или df[df['x1'] > 5]

Unnamed: 0,x1,x2,x3
0,8,3,8
1,9,5,9
3,9,5,1
4,9,7,1
5,8,6,2
6,9,2,3
7,8,6,9
8,8,6,4
9,6,4,1
10,7,2,2


Чтобы получить значения, обратные условию, можно воспользоваться оператором НЕ: `~` - он инвертирует маску условия:

In [None]:
df[~(df['x1'] > 5)]

Unnamed: 0,x1,x2,x3
2,2,8,7
11,3,7,5
12,4,7,5
13,5,4,0
14,0,6,5


> Как и в numpy, для применения нескольких операций необходимо оборачивать каждую в скобки.

## Задание

Выберите записи во фрейме, которые по признаку `x1` имеют значение больше 3, а по признаку `x3` - меньше 8.

In [None]:
import pandas as pd
import numpy as np

df = pd.DataFrame(
    data=np.random.randint(0, 10, size=(15, 3)), 
    columns=['x1', 'x2', 'x3']
)
df.head(3)

Unnamed: 0,x1,x2,x3
0,9,9,6
1,2,6,9
2,3,0,8


In [None]:
# TODO - отфильтровать фрейм по значениям признаков
df[(df['x1']>3)&(df['x3']<8)]

Unnamed: 0,x1,x2,x3
0,9,9,6
3,5,4,6
4,5,3,1
5,5,3,1
6,6,9,2
7,9,9,3
8,7,0,0
10,5,0,2
12,9,2,6


In [None]:
# TODO - отобразите только колонки x1 и x2 с учетом условий 
#           (используйте .loc[])
df[(df['x1']>3)&(df['x3']<8)].loc[:, ['x1', 'x2']]

Unnamed: 0,x1,x2
0,9,9
3,5,4
4,5,3
5,5,3
6,6,9
7,9,9
8,7,0
10,5,0
12,9,2


## Задание

С помощью метода `DataFrame.query()` получите записи, которые соответсвуют условию сравнения колонок $x1 > x3$:

In [None]:
import pandas as pd
import numpy as np

df = pd.DataFrame(
    [[1, 2, 6], [5, 1, 1], [8, 4, 6], [4, 1, 1], [9, 9, 0], [-1, 2, 1], [5, 5, 5]],
    columns = ['x1', 'x2', 'x3']
)
df

Unnamed: 0,x1,x2,x3
0,1,2,6
1,5,1,1
2,8,4,6
3,4,1,1
4,9,9,0
5,-1,2,1
6,5,5,5


In [None]:
# TODO - Методом DataFrame.query() получить записи, удовлетворяющие условию
#           x1 > x3
df.query('x1 > x3')

Unnamed: 0,x1,x2,x3
1,5,1,1
2,8,4,6
3,4,1,1
4,9,9,0


In [None]:
# TODO - Сделать аналогичное действие, но уже с помощью условной индексации
df[df['x1']>df['x3']]

Unnamed: 0,x1,x2,x3
1,5,1,1
2,8,4,6
3,4,1,1
4,9,9,0


# Операции с рядами / Новые колонки

Работа с фреймами и рядами данных в pandas поддерживает многие операции по аналогии с работой в numpy.

In [None]:
df = pd.DataFrame(
    data=np.random.randint(0, 10, size=(15, 3)), 
    columns=['x1', 'x2', 'x3']
)
df.head(3)

Unnamed: 0,x1,x2,x3
0,8,5,3
1,2,0,5
2,7,0,8


In [None]:
# Создать новую колонку можно по аналогии с новым ключем в словаре
# Сложение нескольких Series и запись в новую колонку
df['x1+x2'] = df['x1'] + df['x2']
df.head(3)

Unnamed: 0,x1,x2,x3,x1+x2
0,8,5,3,13
1,2,0,5,2
2,7,0,8,7


In [None]:
# Поэлементное умножение
df['x1*x3'] = df['x1'] * df['x3']
df.head(3)

Unnamed: 0,x1,x2,x3,x1+x2,x1*x3
0,8,5,3,13,24
1,2,0,5,2,10
2,7,0,8,7,56


In [None]:
# Взятие среднего по колонке (метод Series.mean())
df['x1'].mean()

4.266666666666667

In [None]:
# Использование функций numpy для работы с колонками
df['x2_exp'] = np.exp(df['x2'])
df.head(3)

Unnamed: 0,x1,x2,x3,x1+x2,x1*x3,x2_exp
0,8,5,3,13,24,148.413159
1,2,0,5,2,10,1.0
2,7,0,8,7,56,1.0


Как вы заметили, ряды (это же одномерные массивы) можно обрабатывать:
- операциями Python;
- методами класса Series;
- функциями numpy.

> Для создания новой колонки достаточно просто задать имя новой колонки и записать ряд данных (может быть даже одномерным массивом numpy), который имеет такой же размер, куда пишется.

Для случая, если нужной функции нет, то можно создать свою с помощью метода `Series.apply()`, которой передается название функции для применения над всем рядом.

In [None]:
df = pd.DataFrame(
    data=np.random.randint(0, 10, size=(3, 3)), 
    columns=['x1', 'x2', 'x3']
)
df

Unnamed: 0,x1,x2,x3
0,5,1,9
1,9,0,9
2,1,2,5


In [None]:
# Обязательно требование к функции - один аргумент
# Эта функция будет передана в apply() и pandas
#   будет вызывать ее и передавать в нее 
#   по одному элементу из ряда
# Возвращать функция должна результат операции над элементом
def my_func(x):
    print(type(x))
    print(x)
    return x*2

df['result'] = df['x1'].apply(my_func)
df

<class 'int'>
5
<class 'int'>
9
<class 'int'>
1


Unnamed: 0,x1,x2,x3,result
0,5,1,9,10
1,9,0,9,18
2,1,2,5,2


Как видно, в функцию передается каждый элемент в ряду, тип элемента соответсвует типу колонки. Результат метода `.apply()` - новый ряд с примененной функцией.

# Операции с фреймами

## Переименование колонок / индексов

Одной из полезных функций является возможность переименования имен колонок. Для этого имеется метод `DataFrame.rename()`:

In [None]:
df = pd.DataFrame(
    data=np.random.randint(0, 10, size=(15, 3)), 
    columns=['x1', 'x2', 'x3']
)
df.head(3)

Unnamed: 0,x1,x2,x3
0,9,0,1
1,1,8,4
2,7,7,8


In [None]:
# Методу передается в аргумент columns словарь, 
#   в котором ключи - имена колонок,
#   значения - новые имена для переименования
df.rename(
    columns={
        'x1': 'new_name_for_x1',
        'x3': 'that_not_x3' 
    },
    inplace=True
)
df.head(3)

Unnamed: 0,new_name_for_x1,x2,that_not_x3
0,9,0,1
1,1,8,4
2,7,7,8


> Аргумент `inplace` является достаточно распространенным в методах фреймов. Этот аргумент управляет тем, как произвести операцию: прямо в этом классе (при установленном True) или вернуть результатом новый фрейм с произведенной операцией (при установленном False).

Для сравнения аналогичный код без `inplace` выглядел бы так:

In [None]:
df_renamed = df.rename(columns={
    'x1': 'new_name_for_x1',
    'x3': 'that_not_x3'
})
df_renamed

Unnamed: 0,new_name_for_x1,x2,that_not_x3
0,9,0,1
1,1,8,4
2,7,7,8
3,3,0,7
4,9,0,3
5,4,2,4
6,3,3,2
7,6,4,0
8,3,6,1
9,8,3,1


Для переименования индексов (названий записей) используется тот же принцип, но словарь передается в аргумент `index` с ключами - исходными названиями индексов, значениями - новыми значениями.

### Задание

Переименуйте индексы и колонки во фрейме

In [None]:
import pandas as pd
import numpy as np

df = pd.DataFrame(
    data=np.random.randint(0, 10, size=(5, 3)), 
    index=['A', 'B', 'C', 'D', 'E'], 
    columns=['x1', 'x2', 'x3']
)
df

Unnamed: 0,x1,x2,x3
A,1,4,0
B,0,2,3
C,8,5,6
D,0,8,7
E,5,8,8


In [None]:
# TODO - переименуйте индексы [A, C] -> [indA, indC] 
#           и колонки [x1, x3] -> [new1, new3]
df.rename(
    index={
        'A': 'indA',
        'C': 'indC',
    },
    columns={
        'x1': 'new1',
        'x3': 'new3',
    },
    inplace=True
)
df

Unnamed: 0,new1,x2,new3
indA,1,4,0
B,0,2,3
indC,8,5,6
D,0,8,7
E,5,8,8


## Удаление колонок / строк

Данную операцию можно произвести двумя способами:
1. Выбрать колонки, которые необходимо оставить, простой индексацией;
2. Метод `DataFrame.drop()`.

In [None]:
df = pd.DataFrame(
    data=np.random.randint(0, 10, size=(15, 3)), 
    columns=['x1', 'x2', 'x3']
)
df.head(3)

Unnamed: 0,x1,x2,x3
0,9,7,5
1,1,8,5
2,5,3,6


In [None]:
df.drop(columns=['x2'], inplace=True)
df.head(3)

Unnamed: 0,x1,x3
0,9,5
1,1,5
2,5,6


## Определение количества NaN

В данных часто бывают пропуски (NaN), при этом на первых этапах анализа важно понять их количество по каждому признаку. Для этого можно воспользоваться методом `DataFrame.isna()`, который создаст двумерный булевый фрейм, отвечающий на вопрос "является ли значение NaN?". После этого над всем фреймом можно применить метод `DataFrame.sum()`, который вернет ряд (Series) с количеством элементов True в булевом фрейме (элементов NaN в основном фрейме).

In [None]:
df = pd.DataFrame(
    data=np.random.randint(0, 10, size=(5, 3)), 
    columns=['x1', 'x2', 'x3']
)
df.iloc[0, :2] = np.nan
df.iloc[2, 1:] = np.nan

df

Unnamed: 0,x1,x2,x3
0,,,3.0
1,2.0,3.0,3.0
2,2.0,,
3,2.0,8.0,7.0
4,1.0,3.0,7.0


In [None]:
df.isna()

Unnamed: 0,x1,x2,x3
0,True,True,False
1,False,False,False
2,False,True,True
3,False,False,False
4,False,False,False


In [None]:
df.isna().sum()

x1    1
x2    2
x3    1
dtype: int64

## Заполнение пустых значений

Техники заполнения пустых значений имеют разнообразное представление, но одним из простых методов является заполнение константой. Для этого ряд данных имеет метод `Series.fillna()`, в который можно передать значение и вместо NaN элементов будет поставлена константа, указанная в аргументах.

In [None]:
df

Unnamed: 0,x1,x2,x3
0,,,3.0
1,2.0,3.0,3.0
2,2.0,,
3,2.0,8.0,7.0
4,1.0,3.0,7.0


In [None]:
df['x2'].fillna(3, inplace=True)
df

Unnamed: 0,x1,x2,x3
0,,3.0,3.0
1,2.0,3.0,3.0
2,2.0,3.0,
3,2.0,8.0,7.0
4,1.0,3.0,7.0


## Информация об уникальных значениях



При работе с категориальными данными полезна информация об уникальных значения признака, поэтому важно понимать, как проверить их количество:

In [None]:
df = pd.DataFrame({
    'col1': ['high', 'high', 'low', 'med', 'low', 'low', 'med', 'low', 'low', 'high'],
    'col2': [0, 1, 1, 2, 3, 1, 1, 2, 2, 2]
})
df

Unnamed: 0,col1,col2
0,high,0
1,high,1
2,low,1
3,med,2
4,low,3
5,low,1
6,med,1
7,low,2
8,low,2
9,high,2


In [None]:
# Метод DataFrame.nunique() позволяет вывести 
#   количество уникальных значений в каждой колонке
# Результат - Series с индексами - названиями колонок
df.nunique()

col1    3
col2    4
dtype: int64

In [None]:
# Метод Series.value_counts() показывает уникальные значения в ряду
#   и указывает их количество
df['col1'].value_counts()

low     5
high    3
med     2
Name: col1, dtype: int64

In [None]:
# Результат - Series с индексами - уникальными значениями
df['col2'].value_counts()

2    4
1    4
3    1
0    1
Name: col2, dtype: int64

## Фильтрация

Метод `DataFrame.filter()` позволяет отфильтровать и выбрать только те колонки/записи, котрые соответсвуют условию, заданному в аргументах:

In [None]:
df = pd.DataFrame(np.array(([1, 2, 3], [4, 5, 6])),
                  index=['mouse', 'rabbit'],
                  columns=['col_one', 'col_two', 'col_three'])
df

Unnamed: 0,col_one,col_two,col_three
mouse,1,2,3
rabbit,4,5,6


In [None]:
# Отфильтровать по именам колонок
# Аналогично df[['col_one', 'col_three']]
df.filter(items=['col_one', 'col_three'], axis='columns')

Unnamed: 0,col_one,col_three
mouse,1,3
rabbit,4,6


In [None]:
# Отфильтровать по регулярному выражению
# Оставить только те колонки, которые оканчиваются на букву "o"
df.filter(regex='o$', axis='columns')

Unnamed: 0,col_two
mouse,2
rabbit,5


### Задание

Отфильруйте записи по строке, содержащейся в имени индекса (аргумент `like`):

In [None]:
df = pd.DataFrame(np.array(([1, 2, 3], [4, 5, 6], [7, 8, 9])),
                  index=['dog in house', 'cat in house', 'pig in farm'],
                  columns=['x1', 'x2', 'x3'])
df

Unnamed: 0,x1,x2,x3
dog in house,1,2,3
cat in house,4,5,6
pig in farm,7,8,9


In [None]:
# TODO - отфильтруйте по записям, должны остаться записи, 
#           индекс которых содержит слово "house"
df.filter(regex='house', axis='index')

Unnamed: 0,x1,x2,x3
dog in house,1,2,3
cat in house,4,5,6


## Сортировка

Всегда полезно знать, как отсортировать данные, для этого мы воспользуемся методом `DataFrame.sort_values()`:

In [None]:
df = pd.DataFrame({
    'col1': ['A', 'A', 'B', np.nan, 'D', 'C'],
    'col2': [2, 1, 9, 8, 7, 4],
    'col3': [0, 1, 9, 4, 2, 3],
    'col4': ['a', 'B', 'c', 'D', 'e', 'F']
}, index=['A', 'B', 'C', 'D', 'E', 'F'])
df

Unnamed: 0,col1,col2,col3,col4
A,A,2,0,a
B,A,1,1,B
C,B,9,9,c
D,,8,4,D
E,D,7,2,e
F,C,4,3,F


In [None]:
# Отсортируем записи колонки col2
# Именно поэтому в axis ставится rows, так как
#   операция производится в колонке по каждому ряду
df.sort_values(by='col2', axis='rows')

Unnamed: 0,col1,col2,col3,col4
B,A,1,1,B
A,A,2,0,a
F,C,4,3,F
E,D,7,2,e
D,,8,4,D
C,B,9,9,c


### Задание

Отсортируйте данные:

In [None]:
df = pd.DataFrame(
    np.random.randint(0, 20, size=(5, 5)), 
    columns=['col1', 'col2', 'col3', 'col4', 'col5']
)
df

Unnamed: 0,col1,col2,col3,col4,col5
0,15,8,8,5,16
1,1,7,2,17,1
2,3,5,13,3,16
3,6,12,18,16,17
4,3,1,4,18,15


In [None]:
# TODO - отсортируйте данные индекса 3 по убыванию
df.sort_values(by='col3', axis='rows', ascending=False)

Unnamed: 0,col1,col2,col3,col4,col5
3,6,12,18,16,17
2,3,5,13,3,16
0,15,8,8,5,16
4,3,1,4,18,15
1,1,7,2,17,1


## Разделение данных на категории

В ходе работы с данными часто бывает необходимо диапазон числовой переменной разбить на несколько групп (категорий). Например, заменить числовой диапазон температур воды $[-10; 60]$ на три категории $[низкая, средняя, высокая]$. Для таких целей используется функция `pd.cut()`:

In [None]:
df = pd.DataFrame({
    'temp': [59, 22, -10, 38, 20, 40, 38, 47, 20, 15, 13, 44, 57, 32, 38]
})
df.head()

Unnamed: 0,temp
0,59
1,22
2,-10
3,38
4,20


In [None]:
# Можно задать свои границы диапазона и названия категорий
# Если планируется три категории, то границ должно быть на одну больше - 
#   так задаются диапазоны для категорий
df['temp_cat'] = pd.cut(
    x=df['temp'],
    bins=[-10, 10, 25, 60],
    labels=['low', 'medium', 'high'],
    # Флаг, чтобы самое левое значение границы входило в первый диапазон
    include_lowest=True
)
df.head()

Unnamed: 0,temp,temp_cat
0,59,high
1,22,medium
2,-10,low
3,38,high
4,20,medium


In [None]:
# Результат разделения имеет категориальный тип
df['temp_cat'].dtype

CategoricalDtype(categories=['low', 'medium', 'high'], ordered=True)

In [None]:
# Можно не задавать имена категориям, тогда он сам их назовет
result_after_cut = pd.cut(
    x=df['temp'],
    bins=[-10, 10, 25, 60],
    include_lowest=True
)
# Взглянем на имена
result_after_cut.unique()

[(25.0, 60.0], (10.0, 25.0], (-10.001, 10.0]]
Categories (3, interval[float64]): [(-10.001, 10.0] < (10.0, 25.0] < (25.0, 60.0]]

In [None]:
# Можно не задавать границы, лишь количество категорий - 
#   разделение будет на категории с одинаковой шириной диапазонов
result_after_cut = pd.cut(
    x=df['temp'],
    bins=3
)
result_after_cut.unique()

[(36.0, 59.0], (13.0, 36.0], (-10.069, 13.0]]
Categories (3, interval[float64]): [(-10.069, 13.0] < (13.0, 36.0] < (36.0, 59.0]]

### Задание

Разделите показатель качества в диапазоне $[0, 100]$ на три группы: плохое $[0-20]$, среднее $(20-45]$, хорошее $(45-85]$, отличное $(85-100]$. Выясните, что происходит со значениями, которые не попадают в диапазоны категорий:

In [None]:
import pandas as pd
import numpy as np

df = pd.DataFrame({
    'quality': [ 7, 67, 21, 38,  2, -2, 79, 22,  5, 31, 77, 72, 23, 64, 99]
})
df.head()

Unnamed: 0,quality
0,7
1,67
2,21
3,38
4,2


In [None]:
# TODO - разделите данные на категории
# TODO - определите, какие записи не имеют категорий и почему
df['quality_1']=pd.cut(
    x=df['quality'],
    bins=[0, 20, 45, 85, 100],
    labels=['плохое', 'среднее', 'хорошее', 'отличное'],
    include_lowest=True
)
df

Unnamed: 0,quality,quality_1
0,7,плохое
1,67,хорошее
2,21,среднее
3,38,среднее
4,2,плохое
5,-2,
6,79,хорошее
7,22,среднее
8,5,плохое
9,31,среднее


## Агрегация данных

Агрегация данных - объединение группы данных для получения информации. Примерами операций аргегации являются: сумма, среднее, максимум, минимум.

В pandas агрегация может быть выполнена путем метода `DataFrame.aggregate()`:

In [None]:
df = pd.DataFrame([[1, 2, 3],
                   [4, 5, 6],
                   [7, 8, 9],
                   [np.nan, np.nan, np.nan]],
                  columns=['A', 'B', 'C'])
df

Unnamed: 0,A,B,C
0,1.0,2.0,3.0
1,4.0,5.0,6.0
2,7.0,8.0,9.0
3,,,


In [None]:
# Получим значения минимумов и средних по всем колонкам
# Принцип аналогичен операциям в numpy - 
#   для агрегации по колонка операция должна пройти по рядам,
#   соответсвенно, axis='rows'
df.aggregate(['min', 'mean'], axis='rows')

Unnamed: 0,A,B,C
min,1.0,2.0,3.0
mean,4.0,5.0,6.0


In [None]:
# Зададим правила агрегации для каждой колонки
# Операции можно задавать строками или функциями numpy
df.aggregate({
    'A': ['sum', 'min'],
    'B': ['max', 'min'],
    'C': [np.sum, np.mean],
})

Unnamed: 0,A,B,C
max,,8.0,
mean,,,6.0
min,1.0,2.0,
sum,12.0,,18.0


### Задание

Произведите агрегацию средним по рядам

In [None]:
df = pd.DataFrame(
    ([1, 2, 3], [4, 5, 6], [7, 8, 9]), 
    columns=['x1', 'x2', 'x3'])
df

Unnamed: 0,x1,x2,x3
0,1,2,3
1,4,5,6
2,7,8,9


In [None]:
# TODO - произведите агрегацию по рядам (найти среднее)
df.aggregate(['mean'], axis='rows')

Unnamed: 0,x1,x2,x3
mean,4.0,5.0,6.0


## Группировки

Игры закончились - начались серьезные вещи. Группировки это один из сильнейших инструментов, которые позволяют вытаскивать из данных полезную информацию!

Для понимания разберем пример: допустим, у нас есть база данных студентов с 1 по 4 курсы. Одна из колонок будет иметь в качестве значения номер курса и так как количество допустимых значений ограничено - то правильно считать эту колонку категориальной. Другая колонка - оценка за общий университетский тест (все курсы его проходили). Третьей колонкой будет время выполнения:

In [None]:
data = [
    [1, 4.7, 60],
    [3, 4.5, 45],
    [4, 4.8, 40],
    [1, 4.9, 58],
    [2, 4.1, 50],
    [2, 4.2, 49],
    [2, 4.4, 49],
    [3, 4.9, 46],
    [4, 4.3, 33],
]

stud_df = pd.DataFrame(data, columns=['Grade', 'Test_Mark', 'Time'])
stud_df

Unnamed: 0,Grade,Test_Mark,Time
0,1,4.7,60
1,3,4.5,45
2,4,4.8,40
3,1,4.9,58
4,2,4.1,50
5,2,4.2,49
6,2,4.4,49
7,3,4.9,46
8,4,4.3,33


Теперь представим, что мы сложим каждый курс в свою корзинку путем группировки:


In [None]:
gr_stud_df = stud_df.groupby(by='Grade')

# Тип результата - pd.DataFrameGroupBy
print(type(gr_stud_df))

# Таким образом увидим словарь:
#   Ключи - названия групп
#   Значения - индексы из данных для группы
gr_stud_df.groups

pandas.core.groupby.generic.DataFrameGroupBy


{1: [0, 3], 2: [4, 5, 6], 3: [1, 7], 4: [2, 8]}

После того, как мы сложили записи по группам, мы можем вычислить, например, среднее значение в каждой группе:

In [None]:
gr_stud_df.agg('mean')

Unnamed: 0_level_0,Test_Mark,Time
Grade,Unnamed: 1_level_1,Unnamed: 2_level_1
1,4.8,59.0
2,4.233333,49.333333
3,4.7,45.5
4,4.55,36.5


В результате, мы смогли вычислить среднюю оценку за тест по каждому курсу! И для этого нам потребовалось всего два метода! Ручным вариантом нам бы пришлось создавать контейнеры, складывать в них значения и потом вычислять средние значения...

Резюмируя, группировка - это размещение данных по группам уникальных значений признака, по которому группируется. После группировки можно произвести агрегацию данных в каждой группе.

In [None]:
# Более сложный вариант - найдем средние и минимальные время и оценку 

gr_stud_df.agg(['mean', 'min'])

Unnamed: 0_level_0,Test_Mark,Test_Mark,Time,Time
Unnamed: 0_level_1,mean,min,mean,min
Grade,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
1,4.8,4.7,59.0,58
2,4.233333,4.1,49.333333,49
3,4.7,4.5,45.5,45
4,4.55,4.3,36.5,33


In [None]:
# Или зададим правила для каждого признака по отдельности

res = gr_stud_df.agg({
    'Test_Mark': ['mean', 'min'],
    'Time': ['min']
})

print(type(res))
res

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0_level_0,Test_Mark,Test_Mark,Time
Unnamed: 0_level_1,mean,min,min
Grade,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
1,4.8,4.7,58
2,4.233333,4.1,49
3,4.7,4.5,45
4,4.55,4.3,33


In [None]:
# Для обращения к данным просто используем несколько индексов, 
#   так как это DataFrame
res['Test_Mark']['mean']

Grade
1    4.800000
2    4.233333
3    4.700000
4    4.550000
Name: mean, dtype: float64

### Задание

Сгруппируйте данные по признаку x2 и найдите медиану и максимальное значения по признакам x1, x3:

In [None]:
import pandas as pd
import numpy as np

df = pd.DataFrame({
    'x1': np.random.randint(10, 100, size=(200, )),
    'x2': np.random.choice(['low', 'high', 'medium'], size=(200, )),
    'x3': np.random.randint(-20, 30, size=(200, )),
})
df.head()

Unnamed: 0,x1,x2,x3
0,75,medium,28
1,72,high,-2
2,64,medium,-2
3,58,high,10
4,44,low,11


In [None]:
# TODO - произведите групировку данных
#           и получите средние и максимальные значения по каждой группе
gr_df_x2=df.groupby(by='x2')
#gr_df_x2.groups
res = gr_df_x2.agg(['mean','max', 'median'])
res.head()

Unnamed: 0_level_0,x1,x1,x1,x3,x3,x3
Unnamed: 0_level_1,mean,max,median,mean,max,median
x2,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
high,52.243902,99,53,6.268293,29,7
low,52.745098,97,45,5.666667,28,11
medium,55.0,99,53,3.298507,29,2


# Сохранение / загрузка данных (работа с CSV)

Одним из важных инструментов в работе с таблицами является возможность сохранить результаты работы в файл или загрузить данные из файла. Пользоваться мы будем форматом CSV, который является текстовым форматом для хранения таблицы. Формат представляет собой текстовые строки, каждая колонка разделяется разделителем (запятая, точка запятой и др.), поэтому его просто понять и обрабатывать, так как не требуется никакого специального протокола для понимания.

Для сохранения данных имеется метод `DataFrame.to_csv()`:

In [None]:
import string

df = pd.DataFrame(
    data=np.random.randint(0, 10, size=(15, 3)), 
    columns=['x1', 'x2', 'x3'],
    index=list(string.ascii_uppercase)[:15]
)
df.head(3)

Unnamed: 0,x1,x2,x3
A,2,3,1
B,8,0,8
C,6,4,3


In [None]:
# Для сохранения задается путь до файла
df.to_csv('my_first_file.csv')

Чтобы убедиться в работе метода найдите файл рядом с ноутбуком и откройте его через редактор.

> При работе в Google Colab слева есть вкладка, которая показывает файлы на сервере.

При открытии можно увидеть четыре колонки:
- Колонка индекса;
- Три колонки из наших данных.

Теперь, когда мы имеем файл CSV в системе - можем испытать функцию загрузки `pd.read_csv()`:

In [None]:
df = pd.read_csv('my_first_file.csv')
df.head(3)

Unnamed: 0.1,Unnamed: 0,x1,x2,x3
0,A,2,3,1
1,B,8,0,8
2,C,6,4,3


Видна одна явная проблема - у нас появилась колонка, которая должна быть индексом, но она стала новой колонкой, а индексы создались новые. Для решения проблемы при загрузке необходимо явно задать, какая колонка считается индексом:

In [None]:
df = pd.read_csv('my_first_file.csv', index_col=0)
df.head(3)

Unnamed: 0,x1,x2,x3
A,2,3,1
B,8,0,8
C,6,4,3


Теперь все отлично и данные загрузились так, как они должны быть.

## Задание

Разберитесь в аргументах `DataFrame.to_csv()` и сохраните данные в файл так, чтобы в файл индекс не сохранялся.

In [None]:
import pandas as pd
import numpy as np
import string

df = pd.DataFrame(
    data=np.random.randint(0, 10, size=(15, 3)), 
    columns=['x1', 'x2', 'x3'],
    index=list(string.ascii_uppercase)[:15]
)
print(df.head(3))

# TODO - сохранить в файл no_index.csv без индексов
df.to_csv('my_first_file2.csv',index=0)
df = pd.read_csv('my_first_file2.csv')
print('----------')
print(df.head(3))

   x1  x2  x3
A   6   8   8
B   5   3   4
C   7   3   4
----------
   x1  x2  x3
0   6   8   8
1   5   3   4
2   7   3   4


# Задачки


Создайте фрейм с тремя колонками:
- Колонка с именами (тип - объекты);
- Колонка с стажем работы (тип - вещественный);
- Колонка с возрастом (тип - целочисленный);
- Колонка с названием любимого цвета (тип - категориальный);

Имена колонок и значения любые, не менее трех записей (строк) в фрейме.

In [None]:
import pandas as pd
import numpy as np
# TODO - создайте фрейм и настройте правильные типы колонок
#           DataFrame.info() дожен отображать указанные типы
data = {
    'имя': ['A', 'B', 'C', 'D'],
    'стаж работы': [1.1, 2.2, 3.3, 4.4],
    'возрост': [20, 21, 22, 23],
    'название любимого цвета': pd.Categorical(['r', 'b', 'k', 'w'])
}
df=pd.DataFrame(data)
print(df.head())
df.info()

  имя  стаж работы  возрост название любимого цвета
0   A          1.1       20                       r
1   B          2.2       21                       b
2   C          3.3       22                       k
3   D          4.4       23                       w
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 4 columns):
 #   Column                   Non-Null Count  Dtype   
---  ------                   --------------  -----   
 0   имя                      4 non-null      object  
 1   стаж работы              4 non-null      float64 
 2   возрост                  4 non-null      int64   
 3   название любимого цвета  4 non-null      category
dtypes: category(1), float64(1), int64(1), object(1)
memory usage: 420.0+ bytes


Выберите числа в ряду `ds1`, которых нет в ряду `ds2`:

> Почитайте и примение метод `Series.isin()`

In [None]:
import pandas as pd
import numpy as np
ds1 = pd.Series([1, 2, 3, 4, 5])
ds2 = pd.Series([4, 5, 6, 7, 8, 1, 9])

# TODO - выберите значения в ds1, которых нет в ds2: 
# [2, 3]
wz = ~ds1.isin(ds2)
print(wz)
print(ds1[wz])

0    False
1     True
2     True
3    False
4    False
dtype: bool
1    2
2    3
dtype: int64


Оставьте в ряду два наиболее частых значения, остальные замените значением 'Другое':

<details>
<summary>Подсказка 1</summary>

Для определения наиболее частых значений воспользуйтесь методом `Series.value_counts()`
</details>

<details>
<summary>Подсказка 2</summary>

Чтобы получить наиболее частые значения можно воспользоваться результатом `Series.value_counts()` - атрибутом `Series.index`
</details>

<details>
<summary>Подсказка 3</summary>

Получив наиболее частые значения, можно индексировать другие через маску метода `Series.isin()`
</details>


In [None]:
import pandas as pd
import numpy as np
ds = pd.Series([2, 2, 2, 4, 4, 4, 3, 1, 1, 1, 1, 4])

# TODO - определите два наиболее частых значения в ряду (1, 4),
#           остальные замените значением 'Другое'
# ['Другое', 'Другое', 'Другое', 4, 4, 4, 'Другое', 1, 1, 1, 1, 4]
cy=ds.value_counts()
ds[~ds.isin(cy.index[0:2])]='Другое'
print(ds)

0     Другое
1     Другое
2     Другое
3          4
4          4
5          4
6     Другое
7          1
8          1
9          1
10         1
11         4
dtype: object


Сделайте каждую первую букву в словах ряда заглавной:

In [10]:
import pandas as pd
import numpy as np
ds = pd.Series(['how', 'to', 'use', 'pandas?'])

# TODO - сделайте каждую первую букву заглавной с помощью Series.apply()
def upw(x):
  x=x.capitalize()
  print(x)
ds=ds.apply(upw)

How
To
Use
Pandas?


Выберите записи с максимальным значением по колонке `x1`:

In [37]:
import pandas as pd
import numpy as np
df = pd.DataFrame(
    np.random.randint(0, 4, size=(15, 3)), 
    columns=['x1', 'x2', 'x3']
)

# TODO - выберите те записи, которые имеют x1 равный 
#           максимальному значению в колонке x1
print('unsort-df:\n', df)
df1=df.sort_values(by='x1',axis='rows', ascending=False)
print('sorted-df:\n',df1)
print('max num in x1:\t', df1.iloc[0,0])

unsort-df:
     x1  x2  x3
0    2   3   0
1    0   1   1
2    1   2   3
3    2   1   2
4    1   2   3
5    2   3   2
6    2   0   1
7    1   2   3
8    1   2   0
9    1   0   0
10   2   0   3
11   3   3   2
12   3   1   0
13   1   3   2
14   0   0   1
sorted-df:
     x1  x2  x3
11   3   3   2
12   3   1   0
0    2   3   0
3    2   1   2
5    2   3   2
6    2   0   1
10   2   0   3
2    1   2   3
4    1   2   3
7    1   2   3
8    1   2   0
9    1   0   0
13   1   3   2
1    0   1   1
14   0   0   1
max num in x1:	 3


Выведите количество пропусков в каждой колонке данных:

In [45]:
import pandas as pd
import numpy as np
df = pd.read_csv('https://raw.githubusercontent.com/Kail4eK/ml_edu/master/datasets/Cars93_miss.csv')

# TODO - отобразите количество пропусков в данных по каждой колонке
df.isna().sum()

Manufacturer           4
Model                  1
Type                   3
Min.Price              7
Price                  2
Max.Price              5
MPG.city               9
MPG.highway            2
AirBags                6
DriveTrain             7
Cylinders              5
EngineSize             2
Horsepower             7
RPM                    3
Rev.per.mile           6
Man.trans.avail        5
Fuel.tank.capacity     8
Passengers             2
Length                 4
Wheelbase              1
Width                  6
Turn.circle            5
Rear.seat.room         4
Luggage.room          19
Weight                 7
Origin                 5
Make                   3
dtype: int64

Замените пропущенные значения в колонке `Min.Price` средним значениям по этой колонке:

In [7]:
import pandas as pd
import numpy as np
df = pd.read_csv('https://raw.githubusercontent.com/Kail4eK/ml_edu/master/datasets/Cars93_miss.csv')

# TODO - заполните NaN в колонке Min.Price средним значением по этой колонке
# NOTE - после заполнения убедитесь, что в этой колонке нет пропущенных
#meanMP=df.loc[:, 'Min.Price'].mean()
#df1=df
#df2=df1.loc[:, 'Min.Price']
#print(df2, '\n-------------df2')
#df3=df2.fillna(meanMP, inplace=False)
#print(df3,'\n---\n', meanMP)

df1=df
df2=df1.loc[:, 'Min.Price']
print('-----Min.Price 1-----\n', df2)
df2.fillna(df.loc[:, 'Min.Price'].mean(), inplace=True)
print('-----Min.Price 2-----\n', df2)

-----Min.Price 1-----
 0     12.9
1     29.2
2     25.9
3      NaN
4      NaN
      ... 
88    16.6
89    17.6
90    22.9
91    21.8
92    24.8
Name: Min.Price, Length: 93, dtype: float64
-----Min.Price 2-----
 0     12.900000
1     29.200000
2     25.900000
3     17.118605
4     17.118605
        ...    
88    16.600000
89    17.600000
90    22.900000
91    21.800000
92    24.800000
Name: Min.Price, Length: 93, dtype: float64


Отсортируйте и выведите фрейм с колонками в алфавитном порядке:

In [19]:
import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.randint(0, 10, size=(5, 6)), columns=list('fbecda'))

# TODO - получите фрейм с отсортированными по именам колонкам (f e d c b a)
# NOTE - сортировка должна быть автоматической
print(df)
df.sort_index(axis=1, ascending=False)

   f  b  e  c  d  a
0  2  2  0  7  1  2
1  8  9  5  3  4  6
2  6  4  8  7  3  4
3  6  5  6  1  5  0
4  9  3  5  4  2  1


Unnamed: 0,f,e,d,c,b,a
0,2,0,1,7,2,2
1,8,5,4,3,9,6
2,6,8,3,7,4,4
3,6,6,5,1,5,0
4,9,5,2,4,3,1


Отобразите каждую 20ю запись во фрейме и только колонки `Manufacturer`, `Model`, `Type`:

In [37]:
import pandas as pd
import numpy as np
df = pd.read_csv('https://raw.githubusercontent.com/Kail4eK/ml_edu/master/datasets/Cars93_miss.csv')

# TODO - отобразите запись с периодичностью во фрейме и определенные колонки
MMT=df.loc[:, ['Manufacturer', 'Model', 'Type']]
MMT.iloc[19,:]

Manufacturer         NaN
Model           Concorde
Type               Large
Name: 19, dtype: object

Получите ряд, который содержит длины строк:

In [28]:
import pandas as pd
import numpy as np
ds = pd.Series(['how', 'to', 'use', 'pandas?'])

# TODO - создайте ряд, содержащий длины строк:
# 0    3
# 1    2
# 2    3
# 3    7
# dtype: int64
def lends(x):
  return len(x)
print(ds.apply(lends))

0    3
1    2
2    3
3    7
dtype: int64
