# Pandas

Библиотека Pandas – мощный инструмент для анализа и обработки табличных данных. Pandas используется в инженерных, научных и финансовых вычислениях – словом, везде, где нужны:

* Анализ, исследование, сегментация, очистка, преобразование данных. Библиотека предоставляет множество функций для загрузки и обработки данных из различных источников. С помощью Pandas можно анализировать любую информацию, исследовать ее характеристики и особенности, а также преобразовывать данные в нужный формат для дальнейшего использования – в бизнес-аналитике, машинном обучении и т.п.
* Сортировка, группировка и агрегация данных. В Pandas есть удобные функции для сортировки данных по различным критериям, группировки по определенным признакам и выполнения агрегации (суммирование, подсчет среднего значения, максимума и минимума и т.д.)
* Индексация, фильтрация и выборка многомерных данных. Pandas позволяет использовать различные типы индексов и создавать многомерные индексы с помощью MultiIndex. Это помогает легко находить, фильтровать и выбирать нужные данные по различным критериям.
* Определение эффективности и рисков, прогнозирование событий, оптимизация. Библиотеку можно использовать для прогнозирования спроса на основе исторических данных, анализа трендов и паттернов, а также для определения факторов, влияющих на эффективность бизнеса, результативность кампаний и прибыльность инвестиций.
* Работа с временными рядами. Pandas обладает мощными возможностями для работы с временными рядами – позволяет выполнять индексацию по времени, агрегацию и ресемплирование временных данных, проводит анализ и визуализацию временных рядов. Это делает Pandas идеальным инструментом для работы с IoT, финансовыми и климатическими данными и другими областями, где временные ряды играют важную роль.
* Формирование отчетов и визуализация данных. Pandas используют (совместно с Matplotlib и Seaborn) для создания отчетов и визуализации многомерных данных в виде наглядных таблиц, графиков и диаграмм.

В Pandas есть две основные высокоуровневые структуры данных – DataFrame и Series.

DataFrame – это двумерная табличная структура данных. Каждый столбец в таблице может содержать данные различного типа (числа, строки, булевы значения и т.д.). DataFrame располагает удобными методами для индексации, фильтрации, сортировки, группировки, агрегирования, слияния, объединения и преобразования данных. DataFrame можно сравнить с таблицей в реляционной базе данных или листом в Excel:

In [4]:
import pandas as pd

# создаем DataFrame из словаря
data = {'Имя': ['Егор', 'Анна', 'Никита', 'Марина'],
        'Возраст': [25, 30, 28, 35],
        'Город': ['Москва', 'Самара', 'Ростов', 'Нижний Новгород']}

print(data)

df = pd.DataFrame(data)

# выводим DataFrame на экран 
df.head()

{'Имя': ['Егор', 'Анна', 'Никита', 'Марина'], 'Возраст': [25, 30, 28, 35], 'Город': ['Москва', 'Самара', 'Ростов', 'Нижний Новгород']}


Unnamed: 0,Имя,Возраст,Город
0,Егор,25,Москва
1,Анна,30,Самара
2,Никита,28,Ростов
3,Марина,35,Нижний Новгород


Series – это одномерная маркированная структура данных, состоящая из индексов и соответствующих значений. В качестве меток могут выступать числа, даты, временные интервалы и строки. Метки позволяют получать доступ к элементам данных по определенным уникальным именам, а не только по индексам. Это особенно удобно в тех случаях, когда нужно обращаться к конкретным значениям по определенным меткам или условиям. Series можно рассматривать как упорядоченный словарь:

In [6]:
# import pandas as pd

data = [35000, 6000, 3000, 2000]
labels = ['Ноутбуки', 'Мониторы', 'Принтеры', 'Клавиатуры']

series = pd.Series(data, index=labels)

print(series)

print(series['Принтеры'])  # выводим значение 3000, обращаясь к элементу с меткой 'Принтеры'

Ноутбуки      35000
Мониторы       6000
Принтеры       3000
Клавиатуры     2000
dtype: int64
3000


Для операций с трехмерными данными в Pandas раньше использовалась структура Panel. Теперь вместо Panel используется MultiIndex в сочетании с DataFrame. MultiIndex позволяет создавать иерархические индексы для многомерных массивов данных:

In [7]:
# import pandas as pd

# создаем MultiIndex с двумя уровнями
index = pd.MultiIndex.from_tuples([('Москва', 'Ноутбуки'), ('Москва', 'Настольные ПК'),
                                   ('Санкт-Петербург', 'Ноутбуки'), ('Санкт-Петербург', 'Настольные ПК')])

# создаем DataFrame с MultiIndex
data = [[1000, 200000], [3000, 400000], [5000, 600000], [7000, 800000]]

df = pd.DataFrame(data, index=index, columns=['Продажи', 'Прибыль'])

df.head()

Unnamed: 0,Unnamed: 1,Продажи,Прибыль
Москва,Ноутбуки,1000,200000
Москва,Настольные ПК,3000,400000
Санкт-Петербург,Ноутбуки,5000,600000
Санкт-Петербург,Настольные ПК,7000,800000


#### Создание серий

Метод pd.Series() создает одномерный массив Series из почти любых исходных данных. Так можно создать Series из списка и словаря:

In [10]:
# import pandas as pd

# создаем Series из списка
data1 = [10, 20, 30, 40, 50]
series1 = pd.Series(data1)

series1.head()


0    10
1    20
2    30
3    40
4    50
dtype: int64

In [12]:
# создаем Series из словаря
data2 = {'А': 10, 'Б': 20, 'В': 30, 'Г': 40, 'Д': 50}
series2 = pd.Series(data2)

series2.head()


Variable   Type          Data/Info
----------------------------------
data       list          n=4
data1      list          n=5
data2      dict          n=5
df         DataFrame                              <...>ьные ПК     7000   800000
index      MultiIndex    MultiIndex([(         'Мо<...>ьные ПК')],\n           )
labels     list          n=4
pd         module        <module 'pandas' from 'C:<...>es\\pandas\\__init__.py'>
series     Series        Ноутбуки      35000\nМони<...>ры     2000\ndtype: int64
series1    Series        0    10\n1    20\n2    30<...>40\n4    50\ndtype: int64
series2    Series        А    10\nБ    20\nВ    30<...>40\nД    50\ndtype: int64


Так при создании Series можно задать нужные метки:

In [13]:
import pandas as pd

data = [10, 20, 30, 40, 50]
index = ['2019', '2020', '2021', '2022', '2023']

series = pd.Series(data, index=index)

print(series)
print(series['2021'])  # вывод: 30
print(series['2023'])  # вывод: 50 

2019    10
2020    20
2021    30
2022    40
2023    50
dtype: int64
30
50


Так можно создать Series из массива NumPy:

In [14]:
import pandas as pd
import numpy as np

data = np.array([10, 20, 30, 40, 50])

series = pd.Series(data)

print(series)

0    10
1    20
2    30
3    40
4    50
dtype: int32


А еще Series можно создать с помощью функции range():

In [15]:
import pandas as pd

series = pd.Series(range(1, 6), index=['a', 'b', 'c', 'd', 'e'], name='числа')

print(series)

a    1
b    2
c    3
d    4
e    5
Name: числа, dtype: int64


На практике очень часто Series (и DataFrame, как мы увидим позже) создают из данных, представленных в csv файлах. К примеру, есть файл data.csv с таким содержимым:

In [18]:
import pandas as pd

dataframe = pd.read_csv('data.csv')
dataframe.head()

series_1 = dataframe['столбец_1']
series_2 = dataframe['столбец_2']
series_3 = dataframe['столбец_3']

series_1.head()

0    1
1    2
2    3
3    4
4    5
Name: столбец_1, dtype: int64

#### Способы создания DataFrame

DataFrame можно создавать из одномерных и двумерных списков:

In [20]:
import pandas as pd

data = [['Анна', 25, 'дизайнер'],
        ['Никита', 30, 'тимлид'],
        ['Полина', 32, 'бэкендер']]

df = pd.DataFrame(data)

df.head()

Unnamed: 0,0,1,2
0,Анна,25,дизайнер
1,Никита,30,тимлид
2,Полина,32,бэкендер


Создание DataFrame из словаря тоже выглядит просто:

In [23]:
import pandas as pd

data = {'Имя': ['Егор', 'Полина', 'Ника'],
        'Возраст': [35, 30, 35],
        'Город': ['Самара', 'Ростов', 'Омск']}

df = pd.DataFrame(data)

df.head()

Unnamed: 0,Имя,Возраст,Город
0,Егор,35,Самара
1,Полина,30,Ростов
2,Ника,35,Омск


Можно создать DataFrame из NumPy массива:

In [21]:
import pandas as pd
import numpy as np

data = np.array([[1, 2, 3],
                 [4, 5, 6],
                 [7, 8, 9]])

df = pd.DataFrame(data, columns=['А', 'Б', 'В'])

df.head()

Unnamed: 0,А,Б,В
0,1,2,3
1,4,5,6
2,7,8,9


Можно создать DataFrame из одной или нескольких Series – каждая серия станет одним из столбцов:

In [26]:
import pandas as pd

series1 = pd.Series([1, 2, 3], name='XL')
series2 = pd.Series([4, 5, 6], name='M')

df = pd.DataFrame({series1.name: series1, series2.name: series2})

df.head()

Unnamed: 0,XL,M
0,1,4
1,2,5
2,3,6


Создать DataFrame из csv файла еще проще:

In [32]:
import pandas as pd

df = pd.read_excel('output.xlsx')

df.head()

Unnamed: 0,Москва,Самара
0,10000000,4000000
1,250000,150000
2,300,600


# Основные методы Pandas

Библиотека предоставляет множество различных функций для работы с DataFrame и Series – здесь мы рассмотрим только самые основные.

##### Чтение CSV и XLSX файлов
С помощью методов **head()** и **tail()** можно выводить определенное число первых или последних строк файла:

In [41]:
import pandas as pd

# Чтение данных из файла CSV
dataframe = pd.read_csv('data.csv')

dataframe.head()

dataframe.tail()

Unnamed: 0,столбец_1,столбец_2,столбец_3
3,4,95,Бананы
4,5,450,Виноград
5,6,300,Клубника
6,7,500,Черешня
7,8,250,Персики


Если в head() и tail() не передавать нужное количество строк, по умолчанию будут выведены первые (или последние) 5 строк.

Для чтения Excel файлов используют метод **read_excel():**

In [43]:
import pandas as pd

# читаем Excel файл
df = pd.read_excel('data.xlsx')

# выводим DataFrame
df.head(10000)

Unnamed: 0,SR.,NAME,GENDER,AGE,DATE,COUNTRY
0,1,Dett,Male,18,21/05/2015,Great Britain
1,2,Nern,Female,19,15/10/2017,France
2,3,Kallsie,Male,20,16/08/2016,France
3,4,Siuau,Female,21,21/05/2015,Great Britain
4,5,Shennice,Male,22,21/05/2016,France
...,...,...,...,...,...,...
2716,2717,Shennice,Female,54,21/05/2024,United States
2717,2718,Chasse,Female,55,15/10/2026,United States
2718,2719,Tommye,Female,56,16/08/2025,Great Britain
2719,2720,Dorcast,Female,57,21/05/2024,France


В read_excel() можно передать дополнительный параметр, чтобы вывести определенный лист по его названию или по индексу:

In [45]:
df = pd.read_excel('data.xlsx', sheet_name='Лист1') # по названию
dp = pd.read_excel('data.xlsx', sheet_name=0) # по индексу

df.head()

dp.head()

Unnamed: 0,SR.,NAME,GENDER,AGE,DATE,COUNTRY
0,1,Dett,Male,18,21/05/2015,Great Britain
1,2,Nern,Female,19,15/10/2017,France
2,3,Kallsie,Male,20,16/08/2016,France
3,4,Siuau,Female,21,21/05/2015,Great Britain
4,5,Shennice,Male,22,21/05/2016,France


Можно прочитать листы выборочно:

In [47]:
sheets = ['Sheet1', 'Лист1']
df_dict = pd.read_excel('data.xlsx', sheet_name=sheets)

# доступ к объектам DataFrame по именам 
df1 = df_dict['Sheet1']
df2 = df_dict['Лист1']

df2.head()

Unnamed: 0,Head1,Head2
0,1,2
1,3,4


А так можно пропустить нужное количество строк:

In [43]:
df = pd.read_excel('data.xlsx', skiprows=2)  # пропускаем первые 2 строки

df.head()

Unnamed: 0,2,Nern,Female,19,15/10/2017,France
0,3,Kallsie,Male,20,16/08/2016,France
1,4,Siuau,Female,21,21/05/2015,Great Britain
2,5,Shennice,Male,22,21/05/2016,France
3,6,Chasse,Female,23,15/10/2018,France
4,7,Tommye,Male,24,16/08/2017,United States


### Запись данных в CSV и XLSX файлы

Метод **to_csv()** сохраняет DataFrame в csv файле, причем индексы можно не записывать:

In [50]:
import pandas as pd

# создание DataFrame
dataframe = pd.DataFrame({'M': [100, 120, 130], 'L': [140, 150, 165]})

dataframe.head()

# запись данных в файл CSV
dataframe.to_csv('output.csv', index=False)

Запись данных в файл Excel выполняют с помощью функции **to_excel():**

In [53]:
import pandas as pd

# создание DataFrame
dataframe = pd.DataFrame({'Москва': [10000000, 250000, 300], 'Самара': [4000000, 150, 600]})

# запись данных в файл Excel
dataframe.to_excel('output.xlsx', index=False)

#### Индексация и доступ к данным

Метод **loc[]** обеспечивает доступ к данным по метке индекса или столбца:

In [57]:
import pandas as pd

# создаем DataFrame
dataframe = pd.DataFrame({'Велосипеды': [100, 200, 350], 'Самокаты': [240, 500, 650]})

dataframe.head()


Unnamed: 0,Велосипеды,Самокаты
0,100,240
1,200,500
2,350,650


In [60]:
#print(dataframe.loc[0, 'Велосипеды'])  # выводим значение в первой строке и столбце 'Велосипеды'
#print(dataframe.loc[1])  # выводим вторую строку целиком
print(dataframe.loc[:, 'Самокаты'])  # выводим столбец 'Самокаты' целиком

0    240
1    500
2    650
Name: Самокаты, dtype: int64


Метод **iloc[]** предоставляет доступ к данным по числовому индексу или позиции:

In [62]:
import pandas as pd

# создаем DataFrame
dataframe = pd.DataFrame({'Кошки': [400, 500, 600], 'Собаки': [145, 255, 350]})

dataframe.head()


print(dataframe.iloc[0, 1])  # выводим значение в первой строке и втором столбце
print(dataframe.iloc[1])  # выводим вторую строку целиком
print(dataframe.iloc[:, 1])  # выводим второй столбец целиком

145
Кошки     500
Собаки    255
Name: 1, dtype: int64
0    145
1    255
2    350
Name: Собаки, dtype: int64


Метод **at[]** обеспечивает доступ к одному элементу по метке индекса и столбца:

In [63]:
import pandas as pd

dataframe = pd.DataFrame({'Фрукты': [150, 250, 350], 'Овощи': [420, 520, 625]})
print(dataframe.at[0, 'Фрукты'])  # выводим значение в первой строке и столбце 'Фрукты'

150


Метод **iat[]** предоставляет доступ к одному элементу по числовому индексу и позиции:

In [57]:
import pandas as pd

dataframe = pd.DataFrame({'Возраст': [22, 25, 27], 'Зарплата': [70000, 90000, 12000]})
print(dataframe.iat[0, 1])  # выводим значение в первой строке и втором столбце

70000


## Манипуляции с данными

**shape()** возвращает размеры DataFrame:

In [69]:
import pandas as pd

dataframe = pd.DataFrame({'Завтрак': [100, 20, 35], 'Обед': [40, 50, 65], 'Ужин': [20, 150, 75]})

#dataframe.head()

# получаем размеры DataFrame с помощью shape
print(dataframe.shape) 

(3, 3)


**drop()** позволяет удалять столбцы и строки. Так удаляют столбцы:

In [73]:
import pandas as pd

# создаем DataFrame
dataframe = pd.DataFrame({'А': [1, 2, 3], 'Б': [4, 5, 6], 'В': [4, 5, 6]})

dataframe.head()

# удаляем столбцы 'A' и 'B' 
dataframe_dropped = dataframe.drop(['А', 'В'], axis=1)

dataframe_dropped.head()

Unnamed: 0,Б
0,4
1,5
2,6


А так можно удалить строки:

In [75]:
import pandas as pd

dataframe = pd.DataFrame({'А': [10, 20, 30], 'Б': [45, 55, 65], 'В': [74, 85, 96], 'Г': [94, 35, 66]})

dataframe.head()

# удаляем строки 0 и 1
dataframe_dropped = dataframe.drop([0, 1], axis=0)

dataframe_dropped.head()

Unnamed: 0,А,Б,В,Г
2,30,65,96,66


**rename()** позволяет переименовать столбцы DataFrame:

In [77]:
import pandas as pd

dataframe = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})

dataframe.head()

# переименование столбцов 'A' и 'B' 
dataframe_renamed = dataframe.rename(columns={'A': 'Столбец_1', 'B': 'Столбец_2'})

dataframe_renamed.head()


Unnamed: 0,Столбец_1,Столбец_2
0,1,4
1,2,5
2,3,6


**sort_values()** выполняет сортировку:

In [79]:
import pandas as pd

dataframe = pd.DataFrame({'А': [3, 2, 1], 'Б': [6, 5, 4], 'В': [9, 8, 7]})

dataframe.head()

# сортируем данные по столбцу 'A' 
dataframe_sorted = dataframe.sort_values(by='А')
dataframe_sorted.head()



Unnamed: 0,А,Б,В
2,1,4,7
1,2,5,8
0,3,6,9


**isnull()** – возвращает True, если обнаруживает пропуск значения:

In [80]:
import pandas as pd

dataframe = pd.DataFrame({'Углеводы': [43, 27, None, 49],
                          'Жиры': [50, None, 17, 8],
                          'Белки': [25, 5, 11, None]})

# ищем пропущенные значения 
missing_values = dataframe.isnull()

missing_values.head()

Unnamed: 0,Углеводы,Жиры,Белки
0,False,False,False
1,False,True,False
2,True,False,False
3,False,False,True


**fillna()** – заполняет пропущенные значения нужными показателями:

In [83]:
import pandas as pd

dataframe = pd.DataFrame({'Выручка': [105600, 209800, None, 403450],
                          'Убытки': [5034, None, 17093, 80666],
                          'Накладные расходы': [15000, None, 17000, 18000]})

dataframe.head()

# заполняем пропущенные значения нулями
filled_dataframe = dataframe.fillna(0)

filled_dataframe.head()

Unnamed: 0,Выручка,Убытки,Накладные расходы
0,105600.0,5034.0,15000.0
1,209800.0,0.0,0.0
2,0.0,17093.0,17000.0
3,403450.0,80666.0,18000.0


**merge()** – объединяет DataFrame на основе общих столбцов:

In [86]:
import pandas as pd

dataframe1 = pd.DataFrame({'A': [10, 20, 30, 40],
                           'B': ['XL', 'L', 'M', 'S']})

dataframe2 = pd.DataFrame({'A': [10, 20, 30, 40],
                           'C': ['52', '48', '46', '42']})

# объединяем 2 объекта DataFrame на основе столбца 'A'
merged_dataframe = pd.merge(dataframe1, dataframe2, on='A')

merged_dataframe.head()


Unnamed: 0,A,B,C
0,10,XL,52
1,20,L,48
2,30,M,46
3,40,S,42


**apply()** – применяет функцию к каждому элементу (строке, столбцу):

In [87]:
import pandas as pd

dataframe = pd.DataFrame({'A': [12, 25, 3],
                          'B': [41, 55, 16]})

# применяем функцию к каждому элементу DataFrame
processed_dataframe = dataframe.apply(lambda x: x ** 2 + 3 * x - 1)

processed_dataframe.head()

Unnamed: 0,A,B
0,179,1803
1,699,3189
2,17,303


## Статистические показатели

**describe()** – выводит основные статистические показатели:

In [88]:
import pandas as pd

dataframe = pd.DataFrame({'Лейкоциты': [134, 232, 321], 'Эритроциты': [474, 561, 690]})

# вывод основных статистических показателей
dataframe.describe()

Unnamed: 0,Лейкоциты,Эритроциты
count,3.0,3.0
mean,229.0,575.0
std,93.536089,108.678425
min,134.0,474.0
25%,183.0,517.5
50%,232.0,561.0
75%,276.5,625.5
max,321.0,690.0


**sum()** – суммирует значения по столбцам:

In [90]:
import pandas as pd

dataframe = pd.DataFrame({'Ноутбуки': [341, 267, 382], 'Планшеты': [374, 503, 466]})

# выводим суммы значений по столбцам
dataframe.sum()

Ноутбуки     990
Планшеты    1343
dtype: int64

**mean()** – вычисляет средние значения по столбцам:

In [91]:
import pandas as pd

dataframe = pd.DataFrame({'Выручка': [134500, 200670, 300345], 'Затраты': [40450, 50450, 60450]})

# выводим средние значения для столбцов
print(dataframe.mean())  

Выручка    211838.333333
Затраты     50450.000000
dtype: float64


**min() и мах()** – выводят минимальные и максимальные значения для каждого столбца:

In [75]:
import pandas as pd

dataframe = pd.DataFrame({'Apple': [1034, 1245, 3985], 'Nvidia': [4034, 5124, 6723]})

print(dataframe.min())  # минимальные значение в столбцах
print(dataframe.max())  # максимальные значения в столбцах

Apple     1034
Nvidia    4034
dtype: int64
Apple     3985
Nvidia    6723
dtype: int64


**groupby()** – группирует данные по указанному столбцу. Одновременно можно применить к значениям агрегирующую функцию:

In [92]:
import pandas as pd

dataframe = pd.DataFrame({'Имя': ['Анна', 'Кирилл', 'Марина', 'Павел', 'Егор'],
                          'Возраст': [25, 30, 28, 35, 37],
                          'Зарплата': [150000, 163000, 145000, 172500, 155000]})

# группируем данные по столбцу 'Имя' и вычисляем среднюю зарплату
grouped_data = dataframe.groupby('Имя').agg({'Зарплата': 'mean'})

grouped_data.head()

Unnamed: 0_level_0,Зарплата
Имя,Unnamed: 1_level_1
Анна,150000.0
Егор,155000.0
Кирилл,163000.0
Марина,145000.0
Павел,172500.0


**agg()** – применяет агрегирующую функцию к группам данных:

In [94]:
import pandas as pd

dataframe = pd.DataFrame({'Столица': ['Лондон', 'Париж', 'Токио', 'Берлин', 'Рим'],
                          'Население': [8908081, 2140526, 13929286, 3748148, 2870493],
                          'Площадь': [1572, 105.4, 2190.93, 891.68, 1285.31],
                          'Годовая зарплата': [58000, 42000, 72000, 52000, 49000]})

# вычисляем среднее значение и сумму дохода
aggregated_data = dataframe.agg({'Годовая зарплата': ['mean', 'sum']})

aggregated_data.head()

Unnamed: 0,Годовая зарплата
mean,54600.0
sum,273000.0


**pivot_table()** – создает сводную таблицу на основе DataFrame:

In [101]:
import pandas as pd

dataframe = pd.DataFrame({'Производитель': ['Nestle', 'Hershey', 'Mars', 'Ferrero', 'Cadbury'],
                          'Продукт': ['KitKat', 'Hershey Bar', 'Snickers', 'Ferrero Rocher', 'Dairy Milk'],
                          'Цена': [2.99, 1.99, 1.49, 14.99, 13.49]})

dataframe.head()

pivot_table_data = dataframe.pivot_table(index='Производитель', columns='Продукт', values='Цена', aggfunc='mean')

pivot_table_data.head()

Продукт,Dairy Milk,Ferrero Rocher,Hershey Bar,KitKat,Snickers
Производитель,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Cadbury,13.49,,,,
Ferrero,,14.99,,,
Hershey,,,1.99,,
Mars,,,,,1.49
Nestle,,,,2.99,


# Задание
Файл students.csv содержит информацию об оценках студентов по математике, физике, химии, информатике и истории. Нужно написать программу, которая вычислит средний балл успеваемости для каждого студента и сформирует список учащихся по убыванию среднего балла.

In [82]:
import pandas as pd

# загружаем данные из файла CSV
data = pd.read_csv('students.csv')

# вычисляем средний балл каждого студента
data['Средний балл'] = data[['Математика', 'Физика', 'Химия', 'Информатика', 'История']].mean(axis=1).round(2)

# устанавливаем параметры для отображения всех столбцов без сокращения
pd.set_option('display.max_columns', None)
pd.set_option('display.expand_frame_repr', False)

# сортируем список по среднему баллу в порядке убывания
sorted_data = data.sort_values(by='Средний балл', ascending=False)

sorted_data.head()

Unnamed: 0,Имя,Математика,Физика,Химия,Информатика,История,Средний балл
9,Александр Васильев,5,5,5,4,5,4.8
18,Елена Комарова,5,4,5,5,5,4.8
24,София Зайцева,4,5,4,5,5,4.6
15,Андрей Козлов,5,4,5,5,4,4.6
6,Ольга Смирнова,5,5,5,4,4,4.6


# Задание
Имеются данные о ежемесячных доходах от инвестиций за 5 лет:
Напишите программу для определения:
* Годовой доходности.
* Средней ежемесячной доходности по каждому году.
* Года с наивысшей доходностью.
* Года с наименьшей доходностью.

In [84]:
import pandas as pd

# ежемесячные доходы от инвестиций за 5 лет
investments = pd.Series([100000, 120000, 150000, 80000, 200000, 250000, 180000, 300000, 280000, 320000, 350000, 400000,
                         180000, 200000, 220000, 240000, 260000, 280000, 300000, 320000, 340000, 360000, 380000, 400000,
                         150000, 300000, 250000, 280000, 320000, 350000, 380000, 400000, 420000, 440000, 470000, 500000,
                         200000, 220000, 240000, 260000, 280000, 300000, 320000, 340000, 360000, 380000, 400000, 420000,
                         150000, 160000, 180000, 200000, 220000, 240000, 260000, 280000, 300000, 320000, 340000, 360000],
                        index=pd.date_range(start='2019-01-01', periods=60, freq='M'))

# вычисляем годовую доходность
annual_returns = investments.groupby(investments.index.year).sum()

# вычисляем среднюю ежемесячную доходность по каждому году
monthly_returns = investments.groupby(investments.index.year).mean()

print("Годовая доходность:")
print(annual_returns.to_string(name=False))
print("\nСредняя ежемесячная доходность по каждому году:")
print(monthly_returns.round(2).to_string(name=False))
print(f"\nГод с наибольшей доходностью: {annual_returns.idxmax()}")
print(f"Год с наименьшей доходностью: {annual_returns.idxmin()}")

Годовая доходность:
2019    2730000
2020    3480000
2021    4260000
2022    3720000
2023    3010000

Средняя ежемесячная доходность по каждому году:
2019    227500.00
2020    290000.00
2021    355000.00
2022    310000.00
2023    250833.33

Год с наибольшей доходностью: 2021
Год с наименьшей доходностью: 2019


# Задание
Имеется файл sales_data.csv с данными о продажах фруктов в нескольких магазинах компании. Напишите программу для определения:

* Самого прибыльного магазинах.
* Самого популярного вида фруктов.
* Самого прибыльного месяца.

In [85]:
import pandas as pd

# загружаем данные из файла CSV
data = pd.read_csv('sales_data.csv')
month_names = {
    1: 'январь',
    2: 'февраль',
    3: 'март',
    4: 'апрель',
    5: 'май',
    6: 'июнь',
    7: 'июль',
    8: 'август',
    9: 'сентябрь',
    10: 'октябрь',
    11: 'ноябрь',
    12: 'декабрь'
}

# преобразуем столбец 'Дата' в datetime
data['Дата'] = pd.to_datetime(data['Дата'])

# вычисляем прибыль
data['Прибыль'] = data['Количество'] * data['Цена']

# находим самый прибыльный магазин
profit_by_store = data.groupby('Магазин')['Прибыль'].sum()
most_profitable_store = profit_by_store.idxmax()

# определяем самые популярные фрукты
popular_fruit = data.groupby('Фрукт')['Количество'].sum().idxmax()

# находим самый прибыльный месяц
data['Месяц'] = data['Дата'].dt.month
profit_by_month = data.groupby('Месяц')['Прибыль'].sum()
most_profitable_month = profit_by_month.idxmax()

print(f"Самый прибыльный магазин: {most_profitable_store}")
print(f"Самые популярные фрукты: {popular_fruit.lower()}")
print(f"Самый прибыльный месяц: {month_names.get(most_profitable_month)}")

Самый прибыльный магазин: Континент
Самые популярные фрукты: бананы
Самый прибыльный месяц: январь
