# Pandas

In [1]:
import pandas as pd
import numpy as np

## Создание объектов

In [2]:
arr = [1, 2, 3, 4]
print(arr)
print("type(arr): {}".format(type(arr)))

[1, 2, 3, 4]
type(arr): <class 'list'>


Для создания одномерного массива в Pandas существует объект `Series`. Чтобы его создать, надо вызвать конструктор `pandas.Series()` и передать ему `list` Python.

In [3]:
s = pd.Series([1, 2, 3, 4])
print(s)

0    1
1    2
2    3
3    4
dtype: int64


In [4]:
s = pd.Series([1, 2, "hello", np.nan, 4]) # Series может состоять из разнородных объектов
print(s)

0        1
1        2
2    hello
3      NaN
4        4
dtype: object


Для двумерных матриц существует объект `DataFrame`. Он имеет функционал таблицы - в выводе вы увидите индексы и названия колонок (пока цифры, по умолчанию).

In [5]:
df = pd.DataFrame([[50, 4, 30], [48, 10, 26], [61, 8, 24]])
df

Unnamed: 0,0,1,2
0,50,4,30
1,48,10,26
2,61,8,24


Особенность Jupyter - не стоит использовать print(df), вывод будет не таким красивым.

In [6]:
print(df)

    0   1   2
0  50   4  30
1  48  10  26
2  61   8  24


`list` Python и массив NumPy такими свойствами не обладают.

In [None]:
simple_arr = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]
numpy_arr = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print(simple_arr)
print(numpy_arr)

Чтобы добавить свои индексы и названия колонок, используйте параметры `index` и `columns` соответственно.

In [None]:
s = pd.DataFrame([[45, 2, 33], [34, 4, 16], [28, 10, 19]], index=[2016, 2017, 2018], columns=['Cars', 'Trucks', 'Bikes'])
s

Если передать неправильные размерности, `DataFrame` создать не получится.

In [None]:
a = np.random.randn(5, 6) # размерность матрицы случайных чисел - 5х6
df = pd.DataFrame(a, index=[2016, 2017, 2018], columns=['A', 'B', 'C']) # длина списка индексов и названий колонок - 3
# получаем закономерную ошибку

In [None]:
df = pd.DataFrame(a, index=[2014, 2015, 2016, 2017, 2018], columns=['A', 'B', 'C', 'D', 'E', 'F'])
df

Создадим более осмысленную таблицу - данные магазина книг. В ней будет содержаться сумма, потраченной клиентом за прошлый год (в долларах), его фамилия и шанс того, что он вернётся за покупками ещё раз (от 0 до 1).

In [None]:
a = [
    [100, 'Brown', 0.483],
    [220, 'Smith', 0.564],
    [66, 'Noll', 0.181]
]
df = pd.DataFrame(a, columns=['Items bought', 'Last name', 'More purchases chance'])
df

## Визуализация и первичная обработка

Расширим таблицу - теперь DataFrame содержит сумму, потраченной клиентом за прошлый год (в долларах), его фамилию, пол, возраст и шанс того, что он вернётся за покупками ещё раз (от 0 до 1).

In [None]:
a = [
    [100, 'Brown', 'm', 45, 0.483],
    [220, 'Smith', 'f', 30, 0.564],
    [66, 'Noll', 'm', 58, 0.181],
    [156, 'Johnson', 'm', 18, 0.503],
    [0, 'Krakovsky', 'f', 50, 0.9],
    [300, 'Brann', 'm', 55, 0.862],
    [42, 'Alba', 'f', 32, 0.455],
    [105, 'Perrez', 'f', 24, 0.381]
]
df = pd.DataFrame(a, columns=['Sum spent', 'Last name', 'Gender', 'Age', 'Later purchases chance'])
df

Чтобы вывести первые пять рядов, воспользуйтесь функцией `DataFrame.head()`.

In [None]:
df.head()

Чтобы вывести последние пять рядов, воспользуйтесь функцией `DataFrame.tail()`.

In [None]:
df.tail()

Чтобы вывести определённое количество (`n`) рядов, воспользуйтесь функцией `DataFrame.head(n)` или `DataFrame.tail(n)`.

In [None]:
df.head(3)

In [None]:
df.tail(2)

Чтобы узнать размерность `DataFrame`, используйте свойство `DataFrmame.shape` (как в NumPy).

In [None]:
df.shape

Чтобы получить список названий колонок, используйте свойство `DataFrame.columns`.

In [None]:
df.columns

Чтобы получить список индексов, используйте свойство `DataFrame.index`.

In [None]:
df.index

Для первичного анализа таблицы используйте метод `DataFrame.describe()`

In [None]:
df.describe()

In [None]:
df.T # транспонирование матрицы - не очень популярный для DataFrame метод

Для сортировки используйте метод `DataFrame.sort_values(by='column_name')`, где `column_name` - имя столбца, по которому будет проходить сортировка.

In [None]:
df.sort_values(by='Age')

Для сортировки по убыванию установите параметр `ascending` в значение `False`.

In [None]:
df.sort_values(by='Age', ascending=False)

## Выбор данных из DataFrame

Создадим заново расширенную таблицу магазина книг.

In [None]:
a = [
    [100, 'Brown', 'm', 45, 48.3],
    [220, 'Smith', 'f', 30, 56.4],
    [66, 'Noll', 'm', 58, 18.1],
    [156, 'Johnson', 'm', 18, 50.3],
    [0, 'Krakovsky', 'f', 50, 9.0],
    [300, 'Brann', 'm', 55, 86.2],
    [42, 'Alba', 'f', 32, 45.5],
    [105, 'Perrez', 'f', 24, 38.1]
]
df = pd.DataFrame(a, columns=['Sum spent', 'Last name', 'Gender', 'Age', 'Later purchases chance'])
df

Чтобы получить отдельный столбец, укажите его имя в квадратных скобках.

In [None]:
df['Gender']

Чтобы выбрать несколько колонок, передайте их списком Python.

In [None]:
df['Gender', 'Age'] # так не получится - Pandas требует единую сущность как индекс

In [None]:
df[['Gender', 'Age']] # так получится, так как ['Gender', 'Age'] - единая сущность

Для выбора строки необходимо использовать метод `DataFrame.iloc[n]`, где `n` - порядковый номер ряда (начиная с 0), не название индексаю

In [None]:
df[0] # так не работает

In [None]:
df.iloc[0] # так работает

In [None]:
df.iloc[0:4] # выбор рядов с индексами 0, 1, 2, 3

Существует также функция `DataFrame.loc[n]`, которая принимает названия индексов, а не их порядковый номер.

In [None]:
temp_df = pd.DataFrame([[1, 2], [2, 3], [3, 4]], index=[2016, 2017, 2018])
# temp_df.iloc[2017] - не сработает 
temp_df.loc[2017] # аналогично temp_df.iloc[1]

Методы можно комбинировать в любом порядке.

In [None]:
df[['Last name', 'Gender']].loc[[0, 1, 2]]

In [None]:
df.loc[[0, 1, 2]][['Last name', 'Gender']]

Чтобы выбрать из `DataFrame` только ряды, удовлетворяющие логическому выражению (например, только клиенты женского пола), передайте в квадратные скобки это логическое выражение (в данном случае - стоит ли в колонке `'Age'` буква `'f'`.

In [None]:
df[df['Gender'] == 'f']

In [None]:
df[df['Age'] > 30] # клиенты старше 30 лет

In [None]:
df[df['Age'] <= 30] # клиенты не старше 30 лет

## Сохранение данных

Чтобы загрузить `.csv` файл в `DataFrame`, используйте функцию `pandas.read_csv('file_name.csv')`

In [None]:
df = pd.read_csv('iris.csv')
df.head()

Чтобы сохранить `DataFrame` в файл, используйте метод `pandas.to_csv('file_name.csv')`

In [None]:
df.to_csv('test_file.csv')