In [6]:
import pandas as pd
print(pd.__name__)

pandas


In [7]:
import pandas as pd
pd.__version__

'1.4.4'

# SERIES КАК СТРУКТУРА ДАННЫХ

**Series** — это упорядоченная изменяемая коллекция объектов, имеющая так называемые ассоциативные метки (индексы). 

Эту структуру можно сравнить со списком: каждому элементу ставится в соответствие индекс, однако, в отличие от списка, индексами могут быть не только порядковые номера — фактически что угодно, например названия компаний, даты, идентификаторы, наименования продуктов.

Также для каждой Series присваивается тип данных её элементов (например int64) и может быть определено имя всего массива. В итоге мы получаем некоторый гибрид списка и словаря.

Пример объекта Series:

![image](https://lms.skillfactory.ru/assets/courseware/v1/9e2398c7773a49bd481cab9693e3dfff/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/dst3-u1-md10_2_1.png)

→ Series в какой-то степени является единицей хранения информации в Pandas. Её можно рассматривать как именованный столбец таблицы с индексами строк.

Перейдём от сухой теории к практике — научимся создавать серии и работать с ними.

## СОЗДАНИЕ SERIES

→ Для создания объекта Series используется команда pd.Series().

Рассмотрим несколько способов создания Series на примере со списком названий стран.

**Способ 1** — из списка с использованием параметров функции pd.Series():

In [10]:
countries = pd.Series(
    data = ['England', 'Canada', 'USA', 
'Russia', 'Ukrain', 'Belaruss',
'Kazakhstan'],
    index = ['UK', 'CA', 'US', 'RU', 'UA',
'BY', 'KZ'],
    name = 'countries'
)
display(countries)

UK       England
CA        Canada
US           USA
RU        Russia
UA        Ukrain
BY      Belaruss
KZ    Kazakhstan
Name: countries, dtype: object

Примечание. Функция display() является аналогом функции print() в файлах формата .ipynb (ноутбуках/блокнотах), но чаще используется для вывода табличных данных. 

Здесь и в дальнейшем функция display() используется для более красивого вывода таблиц в файлах формата .ipynb.

Обратите внимание, что если вы пишете код в файлах с расширением .py, функция display() не будет вам доступна.

Также стоит отметить, что в файлах формата .ipynb результат работы последней строки в ячейке автоматически выводится на экран.

Например:

![](https://lms.skillfactory.ru/assets/courseware/v1/44c9d426579b33ed02edff2047da4476/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/dst3-u1-md10_2_2_1.png)

В результате выполнения кода выше мы получаем объект Series. При его выводе на экран можно увидеть заданные в параметре index метки — коды стран, соответствующие им значения (названия стран), которые мы задали в параметре data. Также с помощью аргумента name мы явно задали имя для Series.

Внизу, под выводом содержимого, можно увидеть тип данных объектов, хранимых в Series. Типом данных object в Pandas обозначаются строки и смешанные типы данных (кортежи, списки, текст, смешанный с числами, и т. д.).

Примечание. Если оставить параметр index пустым, то метки будут присвоены автоматически в виде порядковых номеров элементов, например:

![](https://lms.skillfactory.ru/assets/courseware/v1/8a1348d39276a0c4c120aa73620d6958/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/dst3-u1-md10_2_3.png)

**Способ 2** — из словаря, в котором ключами являются будущие метки, а значениями — будущие значения Series, при этом использование параметра name также возможно:

In [17]:
countries = pd.Series({
    'UK': 'England',
    'CA': 'Canada',
    'US': 'USA',
    'RU': 'Russia',
    'UA': 'Ukrain',
    'BY': 'Belaruss',
    'KZ': 'Kazakhstan'},
    name = 'counties'
)
display(countries)

UK       England
CA        Canada
US           USA
RU        Russia
UA        Ukrain
BY      Belaruss
KZ    Kazakhstan
Name: counties, dtype: object

## ДОСТУП К ДАННЫМ В SERIES

Доступ к элементам осуществляется с использованием loc или iloc.

.loc вызывается с квадратными скобками, в которые передаются метки. В него можно передать как один индекс, так и список, чтобы получилось несколько элементов. 

Например, для получения названия страны по коду "US" можно выполнить следующий код:

In [13]:
print(countries.loc['US'])

USA


Для того чтобы достать информацию по нескольким индексам, необходимо обернуть интересующие индексы в список:

In [18]:
print(countries.loc[['US', 'RU', 'UK']])

US        USA
RU     Russia
UK    England
Name: counties, dtype: object


**Примечание.** Обратите внимание, что в случае обращения по одному индексу возвращается строка. Если же обратиться по нескольким элементам, возвращается объект Series.

.iloc также вызывается с квадратными скобками и принимает на вход порядковые номера элементов Series (нумерация начинаются с 0). В него можно так же передавать как один индекс, так и диапазон чисел. 

Например, для получения элемента по индексу "KZ" нужно обратиться через .iloc по номеру 6:

In [19]:
print(countries.iloc[6])

Kazakhstan


Получим срез из исходной Series с первого по третий элемент:

In [21]:
print(countries.iloc[1:4])

CA    Canada
US       USA
RU    Russia
Name: counties, dtype: object


**Примечание.** Важно, что в последнем примере конечное значение диапазона не включается в результат (берутся элементы с порядковыми номерами от 1 до 4, не включая последний).

На самом деле loc и iloc можно опустить и обращаться к элементам Series напрямую по индексам, например countries[‘UK’, 'US', ‘UA’] или countries[0, 2, 4]. Оба варианта являются равноправными для Series, однако в дальнейшем мы будем использовать эти операции при обращении к более сложной структуре — DataFrame, а в контексте этой структуры эти варианты уже неравноправны.

## ЗАДАНИЕ 2.4

В аптеку поступают партии лекарств. Их названия находятся в списке names, количество единиц товара находится в списке counts.

Например:

names=['chlorhexidine', 'cyntomycin', 'afobazol']
counts=[15, 18, 7]
Напишите функцию create_medications(names, counts), создающую Series medications, индексами которого являются названия лекарств names, а значениями — их количество в партии counts.

Также напишите функцию get_percent(medications, name), которая возвращает долю товара с именем name от общего количества товаров в партии в процентах.

In [25]:
import pandas as pd

def create_medications(names, counts):
    medications = pd.Series(index = names, data = counts)
    return medications

def get_percent(medications, name):
    return (medications.loc[name]/sum(medications) * 100)

names=['chlorhexidine', 'cyntomycin', 'afobazol']
counts=[15, 18, 7]
medications = create_medications(names, counts)
print(get_percent(medications, 'chlorhexidine'))

37.5


# DATAFRAME КАК СТРУКТУРА ДАННЫХ

✍ Наиболее популярным и понятным является табличное представление данных. Для работы с такими данными в Pandas существует объект DataFrame.

DataFrame является двумерной структурой и представляется в виде таблицы, в которой есть строки и столбцы: столбцами в DataFrame выступают объекты Series, а строки формируются из их элементов. Также в DataFrame есть метки (индексы), которые соответствуют каждой строке таблицы.

Приведём пример такой структуры:

ФИО	ВОЗРАСТ	ДОХОД	РАЗМЕР КРЕДИТА
0	Иванов И. И.	32	120	250
1	Авербух А. В.	28	44	320
2	Вестяк А. В.	86	250	500

Примечание. В дальнейшем слова DataFrame и таблица будут употребляться как синонимы. Также синонимами в Data Science являются слова столбец таблицы и признак.

## СОЗДАНИЕ DATAFRAME

DataFrame создаётся с помощью функции pd.DataFrame(). Так же, как и для Series, для создания объектов DataFrame есть несколько способов:

#### СПОСОБ 1

Самый простой способ создания DataFrame — из словаря, **ключами** которого являются **имена столбцов** будущей таблицы, а **значениями** — списки, в которых хранится **содержимое этих столбцов**:

In [27]:
countries_df = pd.DataFrame({
    'country': ['England', 'Canada', 'USA', 'Russia', 'Ukrain', 'Belaruss', 'Kazakhstan'],
    'population': [56.29, 38.05, 322.28, 146.24, 45.5, 9.5, 17.04],
    'square': [133396, 9984670, 9826630, 17125191, 603628, 207600, 2724902]
})
countries_df

Unnamed: 0,country,population,square
0,England,56.29,133396
1,Canada,38.05,9984670
2,USA,322.28,9826630
3,Russia,146.24,17125191
4,Ukrain,45.5,603628
5,Belaruss,9.5,207600
6,Kazakhstan,17.04,2724902


**Примечание.** В данном коде мы создаём таблицу, столбцы которой соответствуют названиям стран, их населению в миллионах человек и площади в квадратных километрах.

Обратите внимание, что, так как мы не задали метки (индексы) DataFrame, они были сгенерированы автоматически. Исправим это, задав индексы вручную:

In [28]:
countries_df.index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ']
display(countries_df)

Unnamed: 0,country,population,square
UK,England,56.29,133396
CA,Canada,38.05,9984670
US,USA,322.28,9826630
RU,Russia,146.24,17125191
UA,Ukrain,45.5,603628
BY,Belaruss,9.5,207600
KZ,Kazakhstan,17.04,2724902


#### СПОСОБ 2

Также DataFrame можно создать из вложенного списка, внутренние списки которого будут являться строками новой таблицы:

In [29]:
countries_df = pd.DataFrame(
    data = [
        ['England', 56.29, 133396],
        ['Canada', 38.05, 9984670],
        ['USA', 322.28, 9826630],
        ['Russia', 146.24, 17125191],
        ['Ukrain', 45.5, 603628],
        ['Belaruss', 9.5, 207600],
        ['Kazakhstan', 17.04, 2724902]
    ],
    columns = ['countru', 'population', 'square'],
    index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ']
)
display(countries_df)

Unnamed: 0,countru,population,square
UK,England,56.29,133396
CA,Canada,38.05,9984670
US,USA,322.28,9826630
RU,Russia,146.24,17125191
UA,Ukrain,45.5,603628
BY,Belaruss,9.5,207600
KZ,Kazakhstan,17.04,2724902


В данном варианте создания DataFrame мы задаём имена столбцов в списке с помощью параметра columns, а также инициализируем параметр index для задания меток стран.

## AXIS В DATAFRAME

→ Как уже было сказано, DataFrame является двумерной структурой данных, что означает наличие двух возможных направлений движения в ней: вдоль строк и вдоль столбцов. 

Например, мы можем удалять как строки, так и столбцы таблицы, вычислять среднее значение как по столбцам, так и по строкам таблицы.

При работе с Pandas важно уметь указывать направление работы метода, который используется. Для этого вводится понятие axis (ось, координата). Движение по строкам в таблице обозначается axis с индексом 0, а движение по столбцам — axis с индексом 1.

Данный параметр заложен во все методы, которые могут работать в двух направлениях и по умолчанию в большинстве из них axis=0, то есть они выполняют операции со строками, если не задавать axis вручную.

Схема ниже демонстрирует направления axis в DataFrame:

![](https://lms.skillfactory.ru/assets/courseware/v1/8fe1bbe5aa3a13390e0f876c8bf9824b/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/dst3-u1-md10_3_4.png)

Рассмотрим разницу в результатах работы методов в зависимости от параметра axis на примере использования метода DataFrame mean() — вычисление среднего по таблице.

Считаем **среднее по строкам (axis = 0)** в каждом столбце:

In [30]:
countries_df.mean(axis=0)

  countries_df.mean(axis=0)


population    9.070000e+01
square        5.800860e+06
dtype: float64

В данном случае среднее было рассчитано по строкам для столбцов population и square.

Считаем среднее по **столбцам (axis = 1)** в каждой строке:

In [31]:
countries_df.mean(axis=1)

  countries_df.mean(axis=1)


UK      66726.145
CA    4992354.025
US    4913476.140
RU    8562668.620
UA     301836.750
BY     103804.750
KZ    1362459.520
dtype: float64

Здесь среднее было рассчитано по числовым столбцам для каждой строки в таблице.

## ДОСТУП К ДАННЫМ В DATAFRAME

Доступ к столбцу можно получить разными способами:

Можно обратиться к DataFrame по имени столбца через точку:

In [32]:
countries_df.population

UK     56.29
CA     38.05
US    322.28
RU    146.24
UA     45.50
BY      9.50
KZ     17.04
Name: population, dtype: float64

Однако использование такого способа возможно только тогда, когда имя столбца указано без пробелов.

Другой вариант — обратиться к DataFrame по индексу и указать имя столбца:


In [33]:
countries_df['population']

UK     56.29
CA     38.05
US    322.28
RU    146.24
UA     45.50
BY      9.50
KZ     17.04
Name: population, dtype: float64

Примечание. Обратите внимание, что, как и ожидалось, при обращении к столбцу DataFrame мы получаем объект Series с именем, соответствующим имени столбца. Удостовериться в этом можно с помощью функции type():

In [34]:
type(countries_df.population)

pandas.core.series.Series

Для того чтобы получить доступ к ячейкам таблицы, используются уже знакомые нам loc и iloc.

При этом, в соответствии с механизмом работы axis, при обращении к DataFrame по индексам с помощью loc (iloc) первым индексом указывается индекс (порядковый номер), соответствующий строкам, а вторым — имя (порядковый номер) столбца.

Рассмотрим на примерах:

1. Получим площадь Великобритании:

In [35]:
countries_df.loc['UK', 'square']

133396

2. Получим население и площадь, соответствующие России:

In [36]:
countries_df.loc['RU', ['population', 'square']]

population      146.24
square        17125191
Name: RU, dtype: object

3. Сделаем вырезку из таблицы и получим информацию о населении и площади, соответствующую Украине, Беларуси и Казахстану:

In [37]:
countries_df.loc[['UA', 'BY', 'KZ'], ['population', 'square']]

Unnamed: 0,population,square
UA,45.5,603628
BY,9.5,207600
KZ,17.04,2724902


или

In [38]:
countries_df.iloc[4:8, 1:3]

Unnamed: 0,population,square
UA,45.5,603628
BY,9.5,207600
KZ,17.04,2724902


## ЗАДАНИЕ 3.5

Вы работаете аналитиком в компании ScienceYou. Ваша задача — проанализировать чистую прибыль.

Доходы (incomes), расходы (expenses) и годы (years), соответствующие им, предоставлены вам в виде списков. 

Создайте функцию create_companyDF(incomes, expenses, years), которая  возвращает DataFrame, составленный из входных данных со столбцами Incomes и Expenses и индексами, соответствующими годам рассматриваемого периода. Пример такого DataFrame представлен ниже.

Incomes	Expenses
2018	478	156
2019	512	130
2020	196	270

Также напишите функцию get_profit(df, year), которая возвращает разницу между доходом и расходом, записанными в таблице df, за год year. Учтите, что если информация за запрашиваемый год не указана в вашей таблице, вам необходимо вернуть None.

In [48]:
def create_companyDF(incomes, expenses, years):
    df = pd.DataFrame({
        'Incomes': incomes,
        'Expenses': expenses
        },
        index = years
    )
    return df
def get_profit(df, year):
    if year in df.index:
        profit = df.loc[year, 'Incomes'] - df.loc[year, 'Expenses']
    else:
        profit=None
    return profit

incomes = [478, 512, 196]
expenses = [156, 130, 270]
years = [2018, 2019, 2020]
scienceyou = create_companyDF(incomes, expenses, years)
print(get_profit(scienceyou, 2020))

-74


# Работа с различными источниками данных в Pandas

✍ Из рассмотренных ранее примеров создания DataFrame становится понятно, что создавать таблицы вручную довольно проблематично и затратно как по объёму кода, так и по времени его написания. Возникает вопрос: всегда ли так приходится делать? Ответ — конечно же, не всегда.

В работе Data Scientist чаще всего сталкивается с уже собранными данными, хранящимися в виде файлов и других источников, таких как базы данных и web-источники. Проблема заключается в том, что каждый источник данных представляет разный формат: например, если данные приходят к вам из отдела бухгалтерии, то это, скорее всего, будет формат Excel-таблицы, результаты web-запросов чаще всего представлены в формате JSON или XML и так далее.

Благодаря функциональности Pandas можно быстро и легко читать данные самых распространённых форматов и преобразовывать их в DataFrame. При этом данные могут быть прочитаны с вашего диска или же по сети. Более того, раз данные можно прочитать, значит, их можно и сохранить — для этого Pandas также предоставляет возможности.

## ЗАПИСЬ В CSV-ФАЙЛ

Предположим, что мы захотели сохранить созданный нами ранее DataFrame. Самым простым и распространённым источником табличных данных является формат csv (comma-separated values). В данном формате ячейки таблицы обозначаются некоторым разделителем, чаще всего запятой либо точкой с запятой.

Экспорт данных в формат csv осуществляется с помощью метода DataFrame to_csv(). 

### Основные параметры метода DataFrame to_csv():

* path_or_buf — путь до файла, в который будет записан DataFrame (например, data/my_data.csv);
* sep — разделитель данных в выходном файле (по умолчанию ',');
* decimal — разделитель чисел на целую и дробную части в выходном файле (по умолчанию '.');
* columns — список столбцов, которые нужно записать в файл (по умолчанию записываются все столбцы);
* index — параметр, определяющий, требуется ли создавать дополнительный столбец с индексами строк в файле (по умолчанию True).

Заранее создадим папку data в директории, где лежит наш ноутбук. Теперь давайте сохраним наш DataFrame с информацией о странах в csv-файл countries.csv и положим файл в папку data. При этом укажем, что разделителем в нашем файле будет являться символ ';', а также то, что нам не нужен дополнительный столбец с индексами строк: