# Pandas

## Что умеет Pandas?

Среди основных возможностей библиотеки, необходимых специалисту в Data Science, можно выделить следующие:

* Работа с различными форматами данных (csv, excel, json, sql и т. д.).

* Фильтрация данных (извлечение данных по условиям).

* Быстрые математические операции с таблицами и их столбцами.

* Использование методов статистического анализа.

* Группировка данных и построение сводных таблиц.

* Объединение нескольких таблиц.

* Встроенная визуализация (возможность построения графиков по данным).

## Зачем Pandas специалисту в Data Science?

B большинстве задач по работе с данными Pandas является ключевым инструментом

## Импорт библиотеки Pandas

Библиотека Pandas является стандартным пакетом в Anaconda, поэтому, если вы уже используете эту среду, устанавливать Pandas не нужно. Если же вы не используете Anaconda, то пакет устанавливается стандартно:

In [None]:
pip install pandas

В общепринятой практике Pandas импортируется и используется под псевдонимом pd:

In [3]:
import pandas as pd

Чтобы удостовериться, что импорт прошёл успешно, можно воспользоваться командой для проверки версии библиотеки:

In [4]:
pd.__version__

'1.5.2'

In [5]:
import pandas as pd
pd.__version__

'1.5.2'

Основными структурами данных в Pandas являются Series и DataFrame.

## Series как структура данных

Series — это упорядоченная изменяемая коллекция объектов, имеющая так называемые ассоциативные метки (индексы). Индексами могут быть не только порядковые номера — фактически что угодно, например названия компаний, даты, идентификаторы, наименования продуктов

Series в какой-то степени является единицей хранения информации в Pandas. Её можно рассматривать как именованный столбец таблицы с индексами строк.

## Создание Series

Для создания объекта Series используется команда pd.Series().

Способ 1 — из списка с использованием параметров функции pd.Series():

In [None]:
countries = pd.Series(
    data = ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ'],
    name = 'countries'
)
display(countries)

Примечание. Функция display() является аналогом функции print() в файлах формата .ipynb (ноутбуках/блокнотах), но чаще используется для вывода табличных данных. 

Способ 2 — из словаря, в котором ключами являются будущие метки, а значениями — будущие значения Series, при этом использование параметра name также возможно:

In [13]:
countries = pd.Series({
    'UK': 'Англия',
    'CA': 'Канада',
    'US' : 'США',
    'RU': 'Россия',
    'UA': 'Украина',
    'BY': 'Беларусь',
    'KZ': 'Казахстан'},
    name = 'countries'
)
display(countries)

UK       Англия
CA       Канада
US          США
RU       Россия
UA      Украина
BY     Беларусь
KZ    Казахстан
Name: countries, dtype: object

Примечание. Если оставить параметр index пустым, то метки будут присвоены автоматически в виде порядковых номеров элементов, например:

In [None]:
countries = pd.Series(
    ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан']
)
display(countries)

## Доступ к данным в Series

Доступ к элементам осуществляется с использованием loc или iloc.

.loc вызывается с квадратными скобками, в которые передаются метки. В него можно передать как один индекс, так и список, чтобы получилось несколько элементов. 

Например, для получения названия страны по коду "US" можно выполнить следующий код:

In [11]:
print(countries.loc['US'])
# США

США


Для того чтобы достать информацию по нескольким индексам, необходимо обернуть интересующие индексы в список:

In [12]:
print(countries.loc[['US', 'RU', 'UK']])

US       США
RU    Россия
UK    Англия
Name: countries, dtype: object


.iloc также вызывается с квадратными скобками и принимает на вход порядковые номера элементов Series (нумерация начинаются с 0). В него можно так же передавать как один индекс, так и диапазон чисел. 

Например, для получения элемента по индексу "KZ" нужно обратиться через .iloc по номеру 6:

In [14]:
print(countries.iloc[6])
# Казахстан

Казахстан


Получим срез из исходной Series с первого по третий элемент:

In [15]:
print(countries.iloc[1:4])

CA    Канада
US       США
RU    Россия
Name: countries, dtype: object


На самом деле loc и iloc можно опустить и обращаться к элементам Series напрямую по индексам, например countries[[‘UK’, 'US', ‘UA’]] или countries[[0, 2, 4]]. Оба варианта являются равноправными для Series, однако в дальнейшем мы будем использовать эти операции при обращении к более сложной структуре — DataFrame, а в контексте этой структуры эти варианты уже неравноправны.

Создаем Series двумя способами:

In [16]:
pd.Series(data=["Апельсин", "Киви", "Мандарин", "Яблоко"], index = ["а", "к", "м", "я"], name = "fruits")

а    Апельсин
к        Киви
м    Мандарин
я      Яблоко
Name: fruits, dtype: object

In [17]:
pd.Series({'а': "Апельсин", 'к': 'Киви', 'м': 'Мандарин', 'я': 'Яблоко'}, name='fruits')

а    Апельсин
к        Киви
м    Мандарин
я      Яблоко
Name: fruits, dtype: object

Варианты извлечения чисел 6, 7, 9:

In [19]:
my_series = pd.Series(data=[5, 6, 7, 8, 9, 10], index=['a', 'b', 'c', 'd', 'e', 'f'])
my_series[['b', 'c', 'e']]

b    6
c    7
e    9
dtype: int64

In [20]:
my_series = pd.Series(data=[5, 6, 7, 8, 9, 10], index=['a', 'b', 'c', 'd', 'e', 'f'])
my_series.iloc[[1, 2, 4]]

b    6
c    7
e    9
dtype: int64

Задано написать функцию create_medications(names, counts), создающую Series medications, индексами которого являются названия лекарств names, а значениями — их количество в партии counts.

И еще написать функцию get_percent(medications, name), которая возвращает долю товара с именем name от общего количества товаров в партии в процентах.

In [21]:
import pandas as pd
def create_medications(names, counts):
    medications = pd.Series(index=names, data=counts)
    return medications
def get_percent(medications, name):
    return(medications.loc[name]/sum(medications) * 100)
names=['chlorhexidine', 'cyntomycin', 'afobazol']
counts=[15, 18, 7]
medications = create_medications(names, counts)

print(get_percent(medications, "chlorhexidine"))

37.5


## DataFrame как структура данных

DataFrame является двумерной структурой и представляется в виде таблицы, в которой есть строки и столбцы: столбцами в DataFrame выступают объекты Series, а строки формируются из их элементов. Также в DataFrame есть метки (индексы), которые соответствуют каждой строке таблицы.

Часто слова DataFrame и таблица будут употребляться как синонимы. Также синонимами в Data Science являются слова столбец таблицы и признак.

## Создание DataFrame

DataFrame создаётся с помощью функции pd.DataFrame(). Так же, как и для Series, для создания объектов DataFrame есть несколько способов:

СПОСОБ 1

Самый простой способ создания DataFrame — из словаря, ключами которого являются имена столбцов будущей таблицы, а значениями — списки, в которых хранится содержимое этих столбцов:

In [30]:
# Создаем DataFrame
countries_df = pd.DataFrame({
    'country': ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    'population': [56.29, 38.05, 322.28, 146.24, 45.5, 9.5, 17.04],
    'square': [133396, 9984670, 9826630, 17125191, 603628, 207600, 2724902]
})
# Печатаем DataFrame
countries_df

Unnamed: 0,country,population,square
0,Англия,56.29,133396
1,Канада,38.05,9984670
2,США,322.28,9826630
3,Россия,146.24,17125191
4,Украина,45.5,603628
5,Беларусь,9.5,207600
6,Казахстан,17.04,2724902


Обратите внимание, что, так как мы не задали метки (индексы) DataFrame, они были сгенерированы автоматически. Исправим это, задав индексы вручную:

In [24]:
# Задаем метки (индексы)
countries_df.index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ']
# Печатаем DataFrame
display(countries_df)

Unnamed: 0,country,population,square
UK,Англия,56.29,133396
CA,Канада,38.05,9984670
US,США,322.28,9826630
RU,Россия,146.24,17125191
UA,Украина,45.5,603628
BY,Беларусь,9.5,207600
KZ,Казахстан,17.04,2724902


СПОСОБ 2

Также DataFrame можно создать из вложенного списка, внутренние списки которого будут являться строками новой таблицы:

In [27]:
# Создаем DataFrame
countries_df = pd.DataFrame(
    data = [
        ['Англия', 56.29, 133396],
        ['Канада', 38.05, 9984670],
        ['США', 322.28, 9826630],
        ['Россия', 146.24, 17125191],
        ['Украина', 45.5, 603628],
        ['Беларусь', 9.5, 207600],
        ['Казахстан', 17.04, 2724902]
    ],
    # Задаем названия столбцов (колонок)
    columns= ['country', 'population', 'square'],
    # Задаем метки (индексы)
    index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ']
)
display(countries_df)

Unnamed: 0,country,population,square
UK,Англия,56.29,133396
CA,Канада,38.05,9984670
US,США,322.28,9826630
RU,Россия,146.24,17125191
UA,Украина,45.5,603628
BY,Беларусь,9.5,207600
KZ,Казахстан,17.04,2724902


В данном варианте создания DataFrame мы задаём имена столбцов в списке с помощью параметра columns, а также инициализируем параметр index для задания меток стран.

## Axis в DataFrame

DataFrame является двумерной структурой данных, что означает наличие двух возможных направлений движения в ней: вдоль строк и вдоль столбцов. 

Например, мы можем удалять как строки, так и столбцы таблицы, вычислять среднее значение как по столбцам, так и по строкам таблицы.

При работе с Pandas важно уметь указывать направление работы метода, который используется. Для этого вводится понятие axis (ось, координата). Движение по строкам в таблице обозначается axis с индексом 0, а движение по столбцам — axis с индексом 1.

Данный параметр заложен во все методы, которые могут работать в двух направлениях и по умолчанию в большинстве из них axis=0, то есть они выполняют операции со строками, если не задавать axis вручную.

Считаем среднее по строкам (axis = 0) в каждом столбце:

In [28]:
countries_df.mean(axis=0)

  countries_df.mean(axis=0)


population    9.070000e+01
square        5.800860e+06
dtype: float64

В данном случае среднее было рассчитано по строкам для столбцов population и square.

Считаем среднее по столбцам (axis = 1) в каждой строке:

In [31]:
countries_df.mean(axis=1)

  countries_df.mean(axis=1)


0      66726.145
1    4992354.025
2    4913476.140
3    8562668.620
4     301836.750
5     103804.750
6    1362459.520
dtype: float64

Здесь среднее было рассчитано по числовым столбцам для каждой строки в таблице.

## Доступ к данным в DataFrame

Доступ к столбцу можно получить разными способами:

Можно обратиться к DataFrame по имени столбца через точку:

In [32]:
countries_df.population

0     56.29
1     38.05
2    322.28
3    146.24
4     45.50
5      9.50
6     17.04
Name: population, dtype: float64

Однако использование такого способа возможно только тогда, когда имя столбца указано без пробелов.


Другой вариант — обратиться к DataFrame по индексу и указать имя столбца:

In [37]:
countries_df['population']

0     56.29
1     38.05
2    322.28
3    146.24
4     45.50
5      9.50
6     17.04
Name: population, dtype: float64

Как и ожидалось, при обращении к столбцу DataFrame мы получаем объект Series с именем, соответствующим имени столбца. Удостовериться в этом можно с помощью функции type():

In [34]:
type(countries_df.population)

pandas.core.series.Series

Для того чтобы получить доступ к ячейкам таблицы, используются уже знакомые нам loc и iloc.

При этом, в соответствии с механизмом работы axis, при обращении к DataFrame по индексам с помощью loc (iloc) первым индексом указывается индекс (порядковый номер), соответствующий строкам, а вторым — имя (порядковый номер) столбца.

In [41]:
# Создаем DataFrame
countries_df = pd.DataFrame(
    data = [
        ['Англия', 56.29, 133396],
        ['Канада', 38.05, 9984670],
        ['США', 322.28, 9826630],
        ['Россия', 146.24, 17125191],
        ['Украина', 45.5, 603628],
        ['Беларусь', 9.5, 207600],
        ['Казахстан', 17.04, 2724902]
    ],
    # Задаем названия столбцов (колонок)
    columns= ['country', 'population', 'square'],
    # Задаем метки (индексы)
    index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ']
)
# Получaeм площадь Великобритании:
countries_df.loc['UK', 'square']

133396

In [42]:
# Создаем DataFrame
countries_df = pd.DataFrame(
    data = [
        ['Англия', 56.29, 133396],
        ['Канада', 38.05, 9984670],
        ['США', 322.28, 9826630],
        ['Россия', 146.24, 17125191],
        ['Украина', 45.5, 603628],
        ['Беларусь', 9.5, 207600],
        ['Казахстан', 17.04, 2724902]
    ],
    # Задаем названия столбцов (колонок)
    columns= ['country', 'population', 'square'],
    # Задаем метки (индексы)
    index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ']
)
# Получим население и площадь, соответствующие России:
countries_df.loc['RU', ['population', 'square']]

population      146.24
square        17125191
Name: RU, dtype: object

In [43]:
# Создаем DataFrame
countries_df = pd.DataFrame(
    data = [
        ['Англия', 56.29, 133396],
        ['Канада', 38.05, 9984670],
        ['США', 322.28, 9826630],
        ['Россия', 146.24, 17125191],
        ['Украина', 45.5, 603628],
        ['Беларусь', 9.5, 207600],
        ['Казахстан', 17.04, 2724902]
    ],
    # Задаем названия столбцов (колонок)
    columns= ['country', 'population', 'square'],
    # Задаем метки (индексы)
    index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ']
)
# Получим срез c информацией о населении и площади Украины, Беларуси и Казахстана:
countries_df.loc[['UA', 'BY', 'KZ'],['population', 'square']]

Unnamed: 0,population,square
UA,45.5,603628
BY,9.5,207600
KZ,17.04,2724902


или

In [44]:
# Создаем DataFrame
countries_df = pd.DataFrame(
    data = [
        ['Англия', 56.29, 133396],
        ['Канада', 38.05, 9984670],
        ['США', 322.28, 9826630],
        ['Россия', 146.24, 17125191],
        ['Украина', 45.5, 603628],
        ['Беларусь', 9.5, 207600],
        ['Казахстан', 17.04, 2724902]
    ],
    # Задаем названия столбцов (колонок)
    columns= ['country', 'population', 'square'],
    # Задаем метки (индексы)
    index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ']
)
# Получим срез c информацией о населении и площади Украины, Беларуси и Казахстана:
countries_df.iloc[4:8, 1:3]

Unnamed: 0,population,square
UA,45.5,603628
BY,9.5,207600
KZ,17.04,2724902


Варианты кода позволяют создать одну и ту же таблицу:

In [45]:
pd.DataFrame([[0,1], [1, 0]], columns=['А', 'B'])

Unnamed: 0,А,B
0,0,1
1,1,0


In [46]:
pd.DataFrame({'А': [0, 1], 'B': [1, 0]})

Unnamed: 0,А,B
0,0,1
1,1,0


Дано — проанализировать чистую прибыль.
Создайте функцию create_companyDF(incomes, expenses, years), которая  возвращает DataFrame, составленный из входных данных со столбцами Incomes и Expenses и индексами, соответствующими годам рассматриваемого периода. Пример такого DataFrame представлен ниже.

In [56]:
import pandas as pd
def create_companyDF(income, expenses, years):
    df = pd.DataFrame({
        'Income': income,
        'Expenses': expenses
        },
        index = years
    )
    return df
def get_profit(df, year):
    if year in df.index:
        profit = df.loc[year, 'Income'] - df.loc[year, 'Expenses']
    else:
        profit=None
    return profit

# Пример списков:
income = [478, 512, 196]
expenses = [156, 130, 270]
years = [2018, 2019, 2020]


# Пример вывода результата:
print(create_companyDF(income = [612, 516, 329, 158], expenses = [136, 163, 250, 361], years = [2017, 2018, 2019, 2020]))
print(get_profit(year = 2018, df = create_companyDF([612, 516, 329, 158], [136,163,250,361], [2017,2018,2019,2020])))
print(get_profit(year = 2013, df = create_companyDF([612, 516, 329, 158], [136,163,250,361], [2017,2018,2019,2020])))


      Income  Expenses
2017     612       136
2018     516       163
2019     329       250
2020     158       361
353
None


## Работа с различными источниками данных в Pandas. Запись в csv-файл


Самым простым и распространённым источником табличных данных является формат csv (comma-separated values). В данном формате ячейки таблицы обозначаются некоторым разделителем, чаще всего запятой либо точкой с запятой.

Экспорт данных в формат csv осуществляется с помощью метода DataFrame to_csv(). Основные параметры данного метода 

* path_or_buf — путь до файла, в который будет записан DataFrame (например, data/my_data.csv);
* sep — разделитель данных в выходном файле (по умолчанию ',');
* decimal — разделитель чисел на целую и дробную части в выходном файле (по умолчанию '.');
* columns — список столбцов, которые нужно записать в файл (по умолчанию записываются все столбцы);
* index — параметр, определяющий, требуется ли создавать дополнительный столбец с индексами строк в файле (по умолчанию True).

In [57]:
countries_df = pd.DataFrame({
    'country': ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    'population': [56.29, 38.05, 322.28, 146.24, 45.5, 9.5, 17.04],
    'square': [133396, 9984670, 9826630, 17125191, 603628, 207600, 2724902]
})

countries_df.to_csv('data/countries.csv', index=False, sep=';')