In [1]:
"""Ниже представлен график динамики продаж видеоигр в зависимости от региона. По оси ординат отложено число
проданных дисков с видеоиграми (в миллионах) в различных регионах (NA — Северная Америка, EU — Европа, 
JP — Япония, Other — другие регионы, Global — во всём мире), по оси абсцисс — год выпуска игры."""

import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd

vg_data = pd.read_csv('data/vgsales.csv')
dinamic_by_region = vg_data[
        ['NA_Sales', 'EU_Sales', 'JP_Sales', 'Other_Sales', 'Global_Sales', 'Year_of_Release']
    ].groupby('Year_of_Release').sum()

fig = plt.figure(figsize=(12, 6))
lineplot = sns.lineplot(data=dinamic_by_region)
lineplot.set_title('Динамика продаж видеоигр', fontsize=16)
lineplot.set_xlabel('Год выпуска')
lineplot.set_ylabel('Суммарный объём продаж')

"""Ниже приведено два вида гистограмм с общей осью.
Верхняя гистограмма описывает общее распределение стоимости недвижимости в Мельбурне. Весь диапазон цен разбит
на 30 равных интервалов. На каждом интервале строится прямоугольник, его высота — число объектов, стоимость
которых лежит в этом интервале.
Нижняя гистограмма описывает то же распределение,но с учётом типов недвижимости.Здесь число объектов,попавших в
корзину,обозначается интенсивностью цвета:чем темнее полоса,тем больше в данных объектов с ценой из этого интервала."""

import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd

melb_data = pd.read_csv('data_test/melb_data.csv')

fig, axes = plt.subplots(nrows=2, ncols=1, figsize=(12, 10))
plt.subplots_adjust(hspace=.0)

histplot1 = sns.histplot(
    data=melb_data, 
    x='Price', 
    bins=30,
    ax=axes[0],
)
histplot1.set_title('Распределение стоимости недвижимости в Мельбурне', fontsize=16)
histplot1.set_xlabel('Цена объекта (млн. австралийских долларов)')
histplot1.set_ylabel('Число объектов')

histplot2 = sns.histplot(
    data=melb_data,
    x='Price',
    y='Type',
    bins=30,
    color='green',
    ax=axes[1]
)
histplot2.set_xlabel('Цена объекта (млн. австралийских долларов)')
histplot2.set_ylabel('Тип объекта')

"""Окунёмся немного в орнитологию. На диаграмме рассеяния ниже показана зависимость длины крыльев пингвинов от
длины их клюва в миллиметрах. При этом цвет точки на графике зависит от вида пингвина, а размер точки — от пола
птицы. Итого на одном графике уместилась зависимость сразу между четырьмя признаками! И это ещё не предел."""

import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd

penguins_df = sns.load_dataset("penguins")

fig = plt.figure(figsize=(10, 5))

scatterplot = sns.scatterplot(
    data=penguins_df,
    x='bill_length_mm',
    y='flipper_length_mm',
    hue='species',
    s=100,
    size='sex',
    sizes=(50, 300)

)
scatterplot.set_title('Взаимосвязь размеров параметров тела разных видов пингвинов', fontsize=16)
scatterplot.set_xlabel('Длина клюва')
scatterplot.set_ylabel('Длина крыльев')

"""Перед вами диаграмма количества погибших главных и второстепенных персонажей в сериале «Игра престолов» в
зависимости от их верности какому-либо из домов. На диаграмме изображены названия семи домов (None — персонаж не
принадлежал к определённому дому), а внутри секторов указано количество погибших персонажей в процентах."""
import matplotlib.pyplot as plt
import pandas as pd

game_of_thrones_df = pd.read_csv('data/character-deaths.csv')
game_of_thrones_df['Allegiances'] = game_of_thrones_df['Allegiances'].str.replace('House ', '')
fig = plt.figure(figsize=(12, 6))
ax = fig.add_axes((1, 1, 1, 1))
deaths_count = game_of_thrones_df['Allegiances'].value_counts().sort_values(ascending=False).head(7)
pie = ax.pie(
    deaths_count,
    labels=deaths_count.index,
    autopct='%1.1f%%',
    startangle=90
)
title = ax.set_title('Смертность персонажей в GoT в зависимости от их верности', fontsize=16)
plt.show(pie)

"""В качестве примера приведём две диаграммы стоимости женского нижнего белья на сайте Amazon.

На левой диаграмме изображены средние цены товаров для каждого бренда. На правой диаграмме изображены те же цены,
но с разделением цветом по категориям товаров (Bras — бюстгальтеры, Panties — трусы). Правая диаграмма является
многоуровневой столбчатой диаграммой."""

import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd

amazon_data = pd.read_csv('data/amazon_com.csv')

def replace_url(brand_name):
    if 'ref=' in brand_name:
        if 'Calvin' in brand_name:
            return 'Calvin-Klein'
        elif 'Wacoal' in brand_name:
            return 'Wacoal'
        else:
            return 'b.tempt'
    else:
        return brand_name
    
amazon_data['brand_name'] = amazon_data['brand_name'].apply(replace_url)
amazon_data['price'] = amazon_data['price'].str.replace('$', '').astype('float64')
amazon_data['brand_name'].unique()
fig, axes = plt.subplots(nrows=1, ncols=2, figsize=(20, 7))
barplot1 = sns.barplot(
    data=amazon_data,
    x='brand_name',
    y='price',
    orient='v',
    ax = axes[0],
    ci=None
)
barplot1.tick_params(axis='x', rotation=70);
barplot1.set_title('Средняя стоимость товаров по брендам', fontsize=16);
barplot1.set_xlabel('Название бренда', fontsize=14);
barplot1.set_ylabel('Средняя цена', fontsize=14);
barplot1.grid()

barplot2 = sns.barplot(
    data=amazon_data,
    x='brand_name',
    y='price',
    hue='product_category',
    orient='v',
    ax = axes[1],
    ci=None,
    dodge=False
)
barplot2.tick_params(axis='x', rotation=70);
barplot2.set_title('Средняя стоимость товаров по брендам и категориям', fontsize=16);
barplot2.set_xlabel('Название бренда', fontsize=14);
barplot2.set_ylabel('Средняя цена', fontsize=14);
barplot2.grid()

"""Ниже представлена тепловая карта ежедневной активности в Twitter Дональда Трампа и Джо Байдена перед
американскими президентскими выборами в 2020 году.
На оси абсцисс отложены минуты, а на оси ординат — часы. Квадраты тепловых карт окрашены в соответствии с тем,
сколько твитов было выложено кандидатами в каждую часовую/минутную ячейку за указанный период. Сбоку находится
легенда, которая показывает соотношения цвета и количества твитов."""
tweets_df = pd.read_csv("https://bit.ly/3cngqgL", 
                 parse_dates=['date_utc'], 
                 dtype={'hour_utc':int,'minute_utc':int,'id':str}
                )
g = tweets_df.groupby(['hour_utc','minute_utc','username'])
tweet_cnt = g.id.nunique()
jb_tweet_cnt = tweet_cnt.loc[:,:,'JoeBiden'].reset_index().pivot_table(index='hour_utc', columns='minute_utc', values='id', fill_value=0)
dt_tweet_cnt = tweet_cnt.loc[:,:,'realDonaldTrump'].reset_index().pivot_table(index='hour_utc', columns='minute_utc', values='id', fill_value=0)
fig, axes = plt.subplots(nrows=2, ncols=1, figsize=(16, 12))
jb_heatmap = sns.heatmap(
    jb_tweet_cnt,
    linewidth=1,
    linecolor='w',
    cmap='viridis',
    ax = axes[0]
)
jb_heatmap.set_title('@JoeBiden');
jb_heatmap.set_xlabel('Минута часа');
jb_heatmap.set_ylabel('Час дня');

dt_heatmap = sns.heatmap(
    dt_tweet_cnt,
    linewidth=1,
    linecolor='w',
    cmap='viridis',
    ax = axes[1]
)

dt_heatmap.set_title('@realDonaldTrump');
dt_heatmap.set_xlabel('Минута часа');
dt_heatmap.set_ylabel('Час дня');

"""Коробчатая диаграмма ниже иллюстрирует зависимость возраста пользователей компании CitiBike от типа пользователя
(Customer — клиент с подпиской на 24 часа или на три дня, Subscriber — подписчик с годовой арендой велосипеда)."""
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd

citibike_df = pd.read_csv('data/citibike-tripdata.csv')
citibike_df['age'] = 2018 - citibike_df['birth year']

fig = plt.figure(figsize=(12, 6))
boxplot = sns.boxplot(data=citibike_df, x='age', y='usertype')
boxplot.set_title('Boxplot для возраста пользователей приложения CitiBike', fontsize=16)
boxplot.set_xlabel('Возраст пользователя')
boxplot.set_ylabel('Тип пользователя')



ModuleNotFoundError: No module named 'matplotlib'

In [56]:
import pandas as pd
covid_data = pd.read_csv('data_test/covid_data.csv')
covid_data
"""Мы будем работать со следующими столбцами:
date — дата наблюдения;
province/state — наименование провинции/штата;
country — наименование страны;
confirmed — общее число зафиксированных случаев на указанный день;
deaths — общее число зафиксированных смертей на указанный день;
recovered — общее число выздоровлений на указанный день."""

vaccinations_data = pd.read_csv('data_test/country_vaccinations.csv')
vaccinations_data = vaccinations_data[
    ['country', 'date', 'total_vaccinations', 
     'people_vaccinated', 'people_vaccinated_per_hundred',
     'people_fully_vaccinated', 'people_fully_vaccinated_per_hundred',
     'daily_vaccinations', 'vaccines']
]
vaccinations_data
"""Данная таблица содержит следующие столбцы:

country — наименование страны;
date — дата наблюдения;
total_vaccinations — общее число введённых вакцин в стране на указанный день;
people_vaccinated — общее число привитых первым компонентом в стране на указанный день;
people_vaccinated_per_hundred — процент привитых первым компонентом в стране на указанный день
(рассчитывается как: people_vaccinated / population * 100);
people_fully_vaccinated — общее число привитых вторым компонентом в стране на указанный день 
(первый компонент уже был введён им ранее);
people_fully_vaccinated_per_hundred — процент привитых вторым компонентом в стране на указанный день
(рассчитывается как: people_fully_vaccinated / population * 100 );
daily_vaccination — ежедневная вакцинация (число вакцинированных в указанный день);
vaccines — комбинации вакцин, используемые в стране."""

#В таблице covid_data:
#Группируем таблицу по дате и названию страны и рассчитываем суммарные показатели по всем регионам. 
#Тем самым переходим от данных по регионам к данным по странам:"""
covid_data.groupby(
    ['date','country'],
    as_index=False
)[['confirmed','deaths','recovered']].sum()
#Преобразуем даты в формат datetime с помощью функции pd.to_datetime():
covid_data['date'] = pd.to_datetime(covid_data['date'])
#Создадим признак больных на данный момент (active). Для этого вычтем из общего числа зафиксированных случаев
#число смертей и число выздоровевших пациентов:
covid_data['active'] = covid_data['confirmed'] - covid_data['deaths'] - covid_data['recovered']
covid_data['active']
#Создадим признак ежедневного прироста числа заболевших, умерших и выздоровевших людей. Для этого отсортируем
#данные по названиям стран, а затем по датам. После этого произведём группировку по странам и рассчитаем разницу
#между «вчера и сегодня» с помощью метода diff():
covid_data = covid_data.sort_values(by=['country','date'])
covid_data['daily_confirmed'] = covid_data.groupby('country')['confirmed'].diff()
covid_data['daily_deaths'] = covid_data.groupby('country')['deaths'].diff()
covid_data['daily_recovered'] = covid_data.groupby('country')['recovered'].diff()
covid_data
#В таблице vaccinations_data достаточно будет преобразовать столбцы в формат datetime:
vaccinations_data['date'] = pd.to_datetime(vaccinations_data['date'])
#За какой период представлены данные в таблице covid_data?
covid_data['date'].min()
covid_data['date'].max()
print(f"Данные о заболеваемости предоставлены от {covid_data['date'].min()} до  {covid_data['date'].max()}")
#За какой период представлены данные в таблице vaccinations_data? В качестве ответа введите даты в формате
#datetime без указания времени.
vaccinations_data['date'].sort_values()
print(f"Данные о вакцинации предоставлены от {vaccinations_data['date'].min()} до  {vaccinations_data['date'].max()}")
#С помощью метода merge() объедините таблицы covid_data и vaccinations_data по столбцам date и country.
#Тип объединения выставьте так, чтобы в результирующую таблицу попали только наблюдения за период, вычисленный
#в задании 3.1. То есть в результирующую таблицу должны попасть все записи из таблицы covid_data и из её
#пересечения с vaccinations_data, но не более. Результат объединения занесите в переменную covid_df.
#Сохраните таблицу covid_df — она понадобится нам в следующем юните.
#Сколько строк и столбцов в таблице covid_df?
covid_df = covid_data.merge(
    vaccinations_data,
    on=['date','country'],
    how='left'
)
print('Number of rows:',covid_df.shape[0])
print('Number of columns:',covid_df.shape[1])
covid_df
"""В получившейся в задании 3.3 таблице covid_df создайте признаки death_rate — общий процент смертей среди
зафиксированных случаев (летальность) и recover_rate — общий процент случаев выздоровления. Данные
характеристики рассчитайте как отношение числа смертей (deaths) и числа выздоровлений (recovered) к
числу зафиксированных случаев (confirmed) и умножьте результаты на 100%."""
#Какова максимальная летальность в США (United States) за весь период? Ответ округлите до второго знака
#после запятой.
covid_df['death_rate'] = covid_df['deaths'] / covid_df['confirmed'] * 100
covid_df['recover_rate'] = covid_df['recovered'] / covid_df['confirmed'] * 100
maxik = covid_df [covid_df['country'] == 'United States']['death_rate'].max()
covid_df[(covid_df['death_rate'] == maxik) & (covid_df['country'] == 'United States')]
covid_df[covid_df['country'] == 'United States']['death_rate']
#covid_df[maxik]
#Чему равен средний процент выздоровевших в России (Russia)? Ответ округлите до второго знака после запятой.
round (covid_df[covid_df['country'] == 'Russia']['recover_rate'].mean(), 2)


Данные о заболеваемости предоставлены от 2020-01-22 00:00:00 до  2021-05-29 00:00:00
Данные о вакцинации предоставлены от 2020-12-02 00:00:00 до  2021-09-06 00:00:00
Number of rows: 306429
Number of columns: 17


275940    0.000000
275941    0.000000
275942    0.000000
275943    0.000000
275944    0.000000
            ...   
302675    1.652929
302676    1.322706
302677    1.731076
302678    1.161716
302679    1.195464
Name: death_rate, Length: 26740, dtype: float64