# PYTHON-10. Введение в Pandas

## 1. Введение

### Импорт библиотеки Pandas

In [38]:
import pandas as pd

### Проверка версии библиотеки

In [39]:
pd.__version__

'1.5.2'

In [40]:
print(pd.__name__)

pandas


## 2. Pandas.Series

### Создание Series

* Способ 1 — из списка с использованием параметров функции pd.Series():

In [41]:
countries = pd.Series(
    data = ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ'],
    name = 'countries'
)
display(countries)

UK       Англия
CA       Канада
US          США
RU       Россия
UA      Украина
BY     Беларусь
KZ    Казахстан
Name: countries, dtype: object

* Способ 2 — из словаря, в котором ключами являются будущие метки, а значениями — будущие значения Series, при этом использование параметра name также возможно:

In [42]:
countries = pd.Series({
    'UK': 'Англия',
    'CA': 'Канада',
    'US': 'США',
    'RU': 'Россия',
    'UA': 'Украина',
    'BY': 'Беларусь',
    'KZ': 'Казахстан'},
    name = 'countries'
)
display(countries)

UK       Англия
CA       Канада
US          США
RU       Россия
UA      Украина
BY     Беларусь
KZ    Казахстан
Name: countries, dtype: object

### Доступ к данным

Доступ к элементам осуществляется с использованием loc или iloc.
Для получения названия страны по коду "US" можно выполнить следующий код:

In [43]:
print(countries.loc['US'])

США


Для того чтобы достать информацию по нескольким индексам, необходимо обернуть интересующие индексы в список:

In [44]:
print(countries.loc[['US', 'RU', 'UK']])

US       США
RU    Россия
UK    Англия
Name: countries, dtype: object


Для получения элемента по индексу "KZ" нужно обратиться через .iloc по номеру 6:

In [45]:
print(countries.iloc[6])

Казахстан


Получим срез из исходной Series с первого по третий элемент:

In [46]:
print(countries.iloc[1:4])

CA    Канада
US       США
RU    Россия
Name: countries, dtype: object


На самом деле loc и iloc можно опустить и обращаться к элементам Series напрямую по индексам, например countries[['UK', 'US', 'UA']] или countries[[0, 2, 4]].

### Задание 2.4

В аптеку поступают партии лекарств. Их названия находятся в списке names, количество единиц товара находится в списке counts.

Например:

names=['chlorhexidine', 'cyntomycin', 'afobazol']
counts=[15, 18, 7]

Напишите функцию create_medications(names, counts), создающую Series medications, индексами которого являются названия лекарств names, а значениями — их количество в партии counts.

Также напишите функцию get_percent(medications, name), которая возвращает долю товара с именем name от общего количества товаров в партии в процентах.

In [47]:
import pandas as pd

def create_medications(names, counts):
    medications = pd.Series(index=names, data=counts, name='Series medications')
    return medications


def get_percent(medications, name):
    return medications[name]/sum(medications)*100 


if __name__ == '__main__':
    names=['chlorhexidine', 'cyntomycin', 'afobazol']
    counts=[15, 18, 7]
    medications = create_medications(names, counts)
    print("medications series: ", medications, sep='\n')
    print("chlorhexidine's part: ", get_percent(medications, "chlorhexidine"))

medications series: 
chlorhexidine    15
cyntomycin       18
afobazol          7
Name: Series medications, dtype: int64
chlorhexidine's part:  37.5


## 3. Pandas.DataFrame

### Создание DATAFRAME

DataFrame создаётся с помощью функции pd.DataFrame(). Так же, как и для Series, для создания объектов DataFrame есть несколько способов:

* Способ 1. Самый простой способ создания DataFrame — из словаря, ключами которого являются имена столбцов будущей таблицы, а значениями — списки, в которых хранится содержимое этих столбцов:

In [48]:
countries_df = pd.DataFrame({
    'country': ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    'population': [56.29, 38.05, 322.28, 146.24, 45.5, 9.5, 17.04],
    'square': [133396, 9984670, 9826630, 17125191, 603628, 207600, 2724902]
})

display(countries_df)

Unnamed: 0,country,population,square
0,Англия,56.29,133396
1,Канада,38.05,9984670
2,США,322.28,9826630
3,Россия,146.24,17125191
4,Украина,45.5,603628
5,Беларусь,9.5,207600
6,Казахстан,17.04,2724902


Обратите внимание, что, так как мы не задали метки (индексы) DataFrame, они были сгенерированы автоматически. Исправим это, задав индексы вручную:

In [49]:
countries_df.index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ']

display(countries_df)

Unnamed: 0,country,population,square
UK,Англия,56.29,133396
CA,Канада,38.05,9984670
US,США,322.28,9826630
RU,Россия,146.24,17125191
UA,Украина,45.5,603628
BY,Беларусь,9.5,207600
KZ,Казахстан,17.04,2724902


* Способ 2. Также DataFrame можно создать из вложенного списка, внутренние списки которого будут являться строками новой таблицы:

In [50]:
countries_df = pd.DataFrame(
    data = [
        ['Англия', 56.29, 133396],
        ['Канада', 38.05, 9984670],
        ['США', 322.28, 9826630],
        ['Россия', 146.24, 17125191],
        ['Украина', 45.5, 603628],
        ['Беларусь', 9.5, 207600],
        ['Казахстан', 17.04, 2724902]
    ],
    columns= ['country', 'population', 'square'],
    index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ']
)

display(countries_df)

Unnamed: 0,country,population,square
UK,Англия,56.29,133396
CA,Канада,38.05,9984670
US,США,322.28,9826630
RU,Россия,146.24,17125191
UA,Украина,45.5,603628
BY,Беларусь,9.5,207600
KZ,Казахстан,17.04,2724902


### AXIS в DATAFRAME

Рассмотрим разницу в результатах работы методов в зависимости от параметра axis на примере использования метода DataFrame mean() — вычисление среднего по таблице.

Считаем среднее по строкам (axis = 0) в каждом столбце:

In [51]:
countries_df.mean(axis=0)

  countries_df.mean(axis=0)


population    9.070000e+01
square        5.800860e+06
dtype: float64

Считаем среднее по столбцам (axis = 1) в каждой строке:

In [52]:
countries_df.mean(axis=1)

  countries_df.mean(axis=1)


UK      66726.145
CA    4992354.025
US    4913476.140
RU    8562668.620
UA     301836.750
BY     103804.750
KZ    1362459.520
dtype: float64

### Доступ к данным в DATAFRAME

Доступ к столбцу можно получить разными способами:

* Можно обратиться к DataFrame по имени столбца через точку (однако использование такого способа возможно только тогда, когда имя столбца указано без пробелов):

In [53]:
countries_df.population

UK     56.29
CA     38.05
US    322.28
RU    146.24
UA     45.50
BY      9.50
KZ     17.04
Name: population, dtype: float64

* Другой вариант — обратиться к DataFrame по индексу и указать имя столбца:

In [54]:
countries_df['population']

UK     56.29
CA     38.05
US    322.28
RU    146.24
UA     45.50
BY      9.50
KZ     17.04
Name: population, dtype: float64

Для того чтобы получить доступ к ячейкам таблицы, используются уже знакомые нам loc и iloc.

Получим площадь Великобритании:

In [55]:
countries_df.loc['UK', 'square']

133396

Получим население и площадь, соответствующие России:

In [56]:
countries_df.loc['RU', ['population', 'square']]

population      146.24
square        17125191
Name: RU, dtype: object

Сделаем вырезку из таблицы и получим информацию о населении и площади, соответствующую Украине, Беларуси и Казахстану:

In [57]:
countries_df.loc[['UA', 'BY', 'KZ'],['population', 'square']]

Unnamed: 0,population,square
UA,45.5,603628
BY,9.5,207600
KZ,17.04,2724902


или

In [58]:
countries_df.iloc[4:8, 1:3]

Unnamed: 0,population,square
UA,45.5,603628
BY,9.5,207600
KZ,17.04,2724902


### Задание 3.5

Вы работаете аналитиком в компании ScienceYou. Ваша задача — проанализировать чистую прибыль.

Доходы (incomes), расходы (expenses) и годы (years), соответствующие им, предоставлены вам в виде списков.

Например:

incomes = [478, 512, 196]
expenses = [156, 130, 270]
years = [2018, 2019, 2020]

Создайте функцию create_companyDF(incomes, expenses, years), которая  возвращает DataFrame, составленный из входных данных со столбцами Incomes и Expenses и индексами, соответствующими годам рассматриваемого периода. Пример такого DataFrame представлен ниже.

	    Incomes Expenses
2018	478	    156
2019	512	    130
2020	196	    270

Также напишите функцию get_profit(df, year), которая возвращает разницу между доходом и расходом, записанными в таблице df, за год year. Учтите, что если информация за запрашиваемый год не указана в вашей таблице, вам необходимо вернуть None.

Для проверки вхождения запрашиваемого года в перечень индексов таблицы вам поможет атрибут df.index, который возвращает список индексов таблицы.

In [59]:
import pandas as pd

def create_companyDF(incomes, expenses, years):
    df = pd.DataFrame({
    'incomes': incomes,
    'expenses': expenses,
    },
    index = years
    )
    
    return df

def get_profit(df, year):
    if year in df.index:
        profit = df.loc[year, 'incomes'] - df.loc[year, 'expenses']
        return profit
    else:
        return None



if __name__ == '__main__':
    expenses = [156, 130, 270]
    incomes = [478, 512, 196]
    years = [2018, 2019, 2020]
    df = create_companyDF(incomes, expenses, years)
    year = 2018
    
    print(create_companyDF(incomes, expenses, years))
    print('profit in ', year, 'th: ', get_profit(df, year))


      incomes  expenses
2018      478       156
2019      512       130
2020      196       270
profit in  2018 th:  322
