# Аттестация Python. Практические задания

In [1]:
import pandas as pd
import numpy as np
import plotly.express as px

In [2]:
# Библиотеки для отображения графиков plotly
# через сайт nbviewer.org
import plotly.io as pio
from plotly.offline import plot, iplot, init_notebook_mode

init_notebook_mode(connected=True)

## Задание 2.1

Вам предоставлен словарь `products`, ключами которого являются названия продуктов, а значениями — их цены. Затем к вам приходит другой словарь (`stocks`), ключи которого — товары, а значения — скидки (в процентах) на товары.

Напишите функцию `apply_discounts(products, stocks)`, которая снижает цену продуктов в словаре `products` на указанный в словаре `stocks` процент. Функция должна вернуть результирующий словарь, ключи которого — товары, а значения — новые цены. Если продукта из словаря `stocks` нет в словаре `products`, то его необходимо пропустить. Цены округлите до второго знака после запятой.

Пример работы программы:

```python
products = {'Oranges (packaged)': 114.99, 'Candy (Rotfront)': 280.0, 'Boiled sausage': 199.99, 'Juice J7 (orange)': 119.99, 'Trout (Seven Seas)': 399.99}
stocks = {'Boiled sausage': '33%', 'Juice J7 (orange)': '12%', 'Trout (Seven Seas)': '18%'}

print(apply_discounts(products, stocks))

## {'Oranges (packaged)': 114.99, 'Candy (Rotfront)': 280.0, 'Boiled sausage': 133.99, 'Juice J7 (orange)': 105.59, 'Trout (Seven Seas)': 327.99}
```

In [3]:
products = {
    "Oranges (packaged)": 114.99,
    "Candy (Rotfront)": 280.0,
    "Boiled sausage": 199.99,
    "Juice J7 (orange)": 119.99,
    "Trout (Seven Seas)": 399.99,
}
stocks = {
    "Boiled sausage": "33%",
    "Juice J7 (orange)": "12%",
    "Trout (Seven Seas)": "18%",
}


def apply_discounts(products: dict, stocks: dict) -> dict:
    """Снижает цены на товары в словаре products в соответствии со словарем stocks"""

    for product, discount in stocks.items():
        discount = int(discount.replace("%", ""))
        if product in products:
            products[product] = round(
                products[product] - products[product] / 100 * discount, 2
            )

    return products


print(apply_discounts(products, stocks))

{'Oranges (packaged)': 114.99, 'Candy (Rotfront)': 280.0, 'Boiled sausage': 133.99, 'Juice J7 (orange)': 105.59, 'Trout (Seven Seas)': 327.99}


## Задание 2.2

Вам даны два файла `bronze_top.csv` и `silver_top.csv`, в которых хранится информация о ТОП-5 стран по числу бронзовых и серебряных медалей соответственно. В каждой таблице два одинаковых столбца: `Country` — страна и `Total` — число медалей.

Создайте два `DataFrame` на основе заданных csv-файлов. Объедините таблицы по странам таким образом, чтобы в результат вошли данные только о тех странах, которые попали в оба рейтинга. При этом в качестве суффиксов укажите строки "`_bronze`" и "`_silver`", чтобы столбцы таблиц, не участвовавших в объединении, можно было различать.

Результирующий DataFrame занесите в переменную merged. В нём должны быть следующие столбцы:

* Country
* Total_bronze
* Total_silver

Не забудьте добавить в свой код импорт библиотеки `pandas`.

Также обратите внимание, что для отправки решения на проверку выводить результат на экран не нужно.

In [4]:
bronze = pd.DataFrame(
    data=[
        ["Russia", 100],
        ["USA", 10],
        ["China", 50],
    ],
    columns=["Country", "Total"],
)

silver = pd.DataFrame(
    data=[
        ["Russia", 200],
        ["China", 150],
        ["Canada", 13],
    ],
    columns=["Country", "Total"],
)

bronze["Total_bronze"] = bronze["Total"]
silver["Total_silver"] = silver["Total"]
bronze.drop(["Total"], axis="columns", inplace=True)
silver.drop(["Total"], axis="columns", inplace=True)

merged = bronze.merge(right=silver, on="Country", how="inner")

# Решение задач в Jupipter Notebook

В данном блоке вам предстоит решить задачу, которую автор модуля когда-то решал на одном из собеседований.

Дана таблица с данными о ежедневной выработке энергии солнечными батареями. Информация содержится в двух столбцах:

* date — дата наблюдения;
* cum_power — накопленная (кумулятивная) выработка энергии на указанный день.

Таким образом, перед вами классический пример временного ряда — числовой показатель, зависящий от времени. Давайте с ним поработаем.

Для начала прочитаем таблицу и выведем первые пять её строк:

In [5]:
solar_data = pd.read_csv("data/solarpower.csv")
solar_data.head()

Unnamed: 0,date,cum_power
0,2017-01-01,20111.0
1,2017-01-02,20112.0
2,2017-01-03,20115.0
3,2017-01-04,20117.0
4,2017-01-05,20119.0


## Задание 3.1

В нашем временном ряде есть несколько пропусков, они обозначены числом -1. Заполните пропуски средним арифметическим между двумя соседними наблюдениями:

$x_i^* = \frac{x_{i+1}+x_{i-1}}{2}$

**Совет**: проще всего будет сделать это, используя цикл по индексам элементов столбца `cum_power`, но вы можете предложить более изящное решение.

Чему равно среднее арифметическое в столбце cum_power после заполнения пропусков? Ответ округлите до целого.

In [6]:
mask = solar_data["cum_power"] == -1
for i in solar_data[mask].index:
    solar_data.loc[i, "cum_power"] = (
        solar_data.loc[i + 1, "cum_power"] + solar_data.loc[i - 1, "cum_power"]
    ) / 2

answer = solar_data["cum_power"].mean()
print(f'Среднее арифметическое в столбце "cum_power" = {answer:.0f}')

Среднее арифметическое в столбце "cum_power" = 23848


## Задание 3.2

Теперь, когда таблица заполнена, создайте столбец `day_power` — ежедневная выработка солнечной энергии.

Далее создайте данные о средней ежедневной выработке энергии на каждый месяц-год.

Совет: для того чтобы выделить из даты год и месяц, проще всего будет воспользоваться методом аксессора `dt.to_period('M')`, который позволяет выделять периоды (в данном случае 'М' — месяц).

Затем сгруппируйте данные по периодам (год-месяц) и рассчитайте среднее в столбце `day_power`.

Сколько солнечной энергии в среднем в день выработали в марте 2017 года? Ответ округлите до целого.

**Вариант 1** (мой, нерациональный)
```python
solar_data["date"] = pd.to_datetime(solar_data["date"])
solar_data["day_power"] = np.zeros((len(solar_data), 1))
solar_data["year"] = solar_data["date"].values.astype("datetime64[Y]")
solar_data["month"] = solar_data["date"].values.astype("datetime64[M]")

for i in solar_data.index:
    if i == solar_data.index[-1]:
        break
    solar_data.loc[i + 1, "day_power"] = (
        solar_data.loc[i + 1, "cum_power"] - solar_data.loc[i, "cum_power"]
    )

grouped = solar_data.groupby(
    ["year", "month"],
    as_index=False,
)["day_power"].mean()

mask = grouped["month"] == "2017-03-01"
march = grouped[mask]["day_power"].iloc[0]
print(f"Количество выработанной солнечной энергии в марте 2017 года = {march:.0f}")
```

**Вариант 2** (эталон - `diff` + моя оптимизация)

In [7]:
solar_data["date"] = pd.to_datetime(solar_data["date"])
solar_data["year"] = solar_data["date"].values.astype("datetime64[Y]")
solar_data["month"] = solar_data["date"].values.astype("datetime64[M]")
solar_data["day_power"] = solar_data["cum_power"].diff()

grouped = solar_data.groupby(
    ["year", "month"],
    as_index=False,
)["day_power"].mean()

mask = grouped["month"] == "2017-03-01"
march = grouped[mask]["day_power"].iloc[0]
print(f"Количество выработанной солнечной энергии в марте 2017 года = {march:.0f}")

Количество выработанной солнечной энергии в марте 2017 года = 11


## Задание 3.3

Постройте график временного ряда — средней ежедневной выработки солнечной энергии на каждый месяц-год. Не забудьте подписать оси и сам график.

Выберите вывод, который можно сделать из полученного графика:

In [8]:
fig = px.line(grouped, x="month", y="day_power")

fig.update_layout(
    title_text="<b>Средняя выработка солнечной энергии 2017-2018 гг.</b>",
    title_x=0.5,
    xaxis_title_text="Период (месяцы)",
    yaxis_title_text="Солнечная энергия",
)

fig.show()

**Вывод**

(выбранный из предложенных вариантов):

* В периоды осень-зима наблюдается наименьшая выработка солнечной энергии, в периоды весна-лета — наибольшая.

[Просмотр ноутбука со всеми графиками через браузер](https://nbviewer.org/github/Stanislav-DS/sf_data_science/blob/main/synopsis/block_2/ATTESTATION/attestation_practice.ipynb)