# Анализ данных на Python

*Алла Тамбовцева*

## Практикум по визуализации с `matplotlib`

Импортируем библиотеки, нам понадобится необходимый минимум:

In [None]:
import pandas as pd
from matplotlib import pyplot as plt

Выключим предупреждения от `pandas`, возникающие при работе с копиями столбцов при создании новых на основе старых:

In [None]:
pd.set_option('chained_assignment', None)

Загрузим данные из файла `Online Retail.csv` и удалим строки с пропущенными значениями:

In [None]:
sales = pd.read_csv("Online Retail.csv")
sales.dropna(inplace = True)
sales.head()

Переменные в файле (источник – [Kaggle](https://www.kaggle.com/datasets/mysarahmadbhat/customersegmentation), данные по транзакциям покупателей, преимущественно оптовых, одного крупного сувернирного онлайн-маркета, зарегистрированного в Великобритании):
    
* `InvoiceNo`: номер транзакции;
* `StockCode`: код товара;
* `Description`: описание товара;
* `Quantity`: сколько единиц товара куплено;
* `InvoiceDate`: дата и время транзакции;
* `UnitPrice`: цена товара;
* `CustomerID`: ID покупателя;
* `Country`: страна проживания покупателя.

### Задача 1: подготовка данных 

Сформируйте таблицу частот `tab` для столбца `Country` в виде последовательности `pandas Series` и замените в ней название страны `EIRE` на `Ireland`.

Удалите запись с ключом `Unspecified`, так закодированы покупки, сделанные пользователями из стран без указанного названия. Удалите запись с ключом `United Kingdom` – компания зарегистрирована в этой стране, нас будут интересовать покупки пользователей из других стран.

Замените названия стран, которые встречаются в датафрейме реже, чем 100 раз, на название `Other`. Избавьтесь от дубликатов и объедините все строки с `Other` в одну категорию, просуммировав соответствующие частоты. При необходимости отсортируйте строки в `tab` по убыванию значений, это пригодится для последующей визуализации.

In [None]:
### YOUR CODE HERE ###

### Задача 2: строим столбиковую диаграмму для стран

In [None]:
x = tab.index
y = tab.values

fig, ax = plt.subplots(figsize = (16, 9), dpi = 300)

# сама диаграмма
ax.bar(x, y);

# заголовок
ax.set_title("Non-UK customers' country of residence", 
             loc = "left",
             fontsize = 16,
             fontweight = "bold");

# подписи по оси X
ax.tick_params(axis = 'x', 
               labelrotation = 45)

# подпись ко всей оси Y
ax.set_ylabel("Number of customers", 
              labelpad = 20);

# сетка
ax.grid(color = 'grey', 
        alpha = 0.6, 
        linestyle = 'dashed');

ax.set_axisbelow(True)

### Задача 3: подготовка данных 

Отберите строки исходного датафрейма, которые соответствуют покупкам пользователей из Германии (`Germany`) и сохраните их в датафрейм `grm`. Отберите из `grm` строки, которые соответствуют заказам, содержащим чашки или кружки (`MUG` в описании товара), и сохраните их в датафрейм `mugs`. 

Выберите топ-10 самых популярных кружек и по аналогии с задачей 1 сформируйте таблицу частот `mg`, где кружки с частотой менее 8 «схлопнуты» в категорию `OTHER`. Измените формат названий категорий – примените функцию, написанную ниже.

In [None]:
def get_clean(x):
    x = x.lower()
    x = x.replace("coffee mug", "mug").\
    replace("mug", "").replace("design", "")
    x = x.replace("  ", " ")
    x = x.strip().capitalize()
    return x

### YOUR CODE HERE ###

### Задача 4: строим круговую и кольцевую диаграмму

In [None]:
# ради всего святого, не стройте базовые круговые диаграммы, это катастрофа

labs = mg.index
vals = mg.values

fig, ax = plt.subplots(figsize = (16, 9), dpi = 300)

ax.pie(vals, labels = labs, 
       autopct = '%.1f%%', 
       pctdistance = 0.7,
       textprops = dict(fontsize = 14));

In [None]:
# переходим на кольцевую диаграмму (ring/donut diagram)

fig, ax = plt.subplots(figsize = (16, 9), dpi = 300)

ax.pie(vals, labels = labs, 
       autopct = '%.1f%%', 
       pctdistance = 0.8,
       textprops = dict(fontsize = 14));

centre_circle = plt.Circle((0, 0), 0.6, fc = 'white')
fig.gca().add_artist(centre_circle);

In [None]:
# выносим названия в легенду

fig, ax = plt.subplots(figsize = (16, 9), dpi = 300)

# wedges – сектора, они же patches
# texts – подписи, они же labels
# autotexts – подписи с процентами

wedges, texts, autotexts = ax.pie(vals, 
                                  autopct = '%.1f%%',
                                  pctdistance = 0.8, 
                                  textprops = dict(fontsize = 16));

ax.legend(wedges, labs,
          title = "Types",
          loc = "upper left",
          bbox_to_anchor = (1, 0, 0.5, 1))

centre_circle = plt.Circle((0, 0), 0.6, fc = 'white')

fig.gca().add_artist(centre_circle);

In [None]:
# добавляем свои цвета, исправляем легенду
# палитры https://coolors.co/

cols = ["#F78154", "#F2C14E", "#B4436C", "#525174", 
        "#454955", "#BCBD8D", "#5FAD56"]

fig, ax = plt.subplots(figsize = (16, 9), dpi = 300)

wedges, texts, autotexts = ax.pie(vals, 
                                  colors = cols,
                                  autopct = "%.1f%%",
                                  pctdistance = 0.8,
                                  textprops = dict(fontsize = 14));

# выключаем рамку у легенды, двигаем ее

ax.legend(wedges, labs,
          loc = "upper left",
          bbox_to_anchor = (-0.3, 0.8),
          frameon = False);

# добавляем заголовок графика
ax.set_title("Design of the most popular mug types: \nGerman customers", 
            fontsize = 16, 
            loc = "left", 
            fontweight = "bold");

centre_circle = plt.Circle((0, 0), 0.6, fc = "white")
fig.gca().add_artist(centre_circle);

In [None]:
# изучаем составные части,
# чтобы позволить себе более тонкие настройки

print(wedges, end = "\n\n")
print(texts, end = "\n\n")
print(autotexts, end = "\n\n")

for wedge in wedges:
    print(wedge.get_facecolor())
    print([int(i * 255) for i in wedge.get_facecolor()[0:-1]])

In [None]:
print([atext.get_color() for atext in autotexts])

# создаем свой список цветов для подписей с процентами (white, black)
# изменяем атрибут color внутри каждого элемента в autotexts

text_cols = ["k", "k", "w", "w", "w", "k", "k"]

for autotext, color in zip(autotexts, text_cols):
    autotext.set_color(color)
    
print([atext.get_color() for atext in autotexts])

In [None]:
cols = ["#F78154", "#F2C14E", "#B4436C", "#525174", 
        "#454955", "#BCBD8D", "#5FAD56"]

fig, ax = plt.subplots(figsize = (16, 9), dpi = 300)

wedges, texts, autotexts = ax.pie(vals, 
                                  colors = cols,
                                  autopct = "%.1f%%",
                                  pctdistance = 0.8,
                                  textprops = dict(fontsize = 14));

# добавляем фрагмент с изменением цвета текста сюда
# после определения autotexts

text_cols = ["k", "k", "w", "w", "w", "k", "k"]

for autotext, color in zip(autotexts, text_cols):
    autotext.set_color(color)

ax.legend(wedges, labs,
          loc = "upper left",
          bbox_to_anchor = (-0.3, 0.8),
          frameon = False);

ax.set_title("Design of the most popular mug types: \nGerman customers", 
            fontsize = 16, 
            loc = "left", 
            fontweight = "bold");

centre_circle = plt.Circle((0, 0), 0.6, fc = "white")
fig.gca().add_artist(centre_circle);

In [None]:
# попробуем убрать легенду

cols = ["#F78154", "#F2C14E", "#B4436C", "#525174", 
        "#454955", "#BCBD8D", "#5FAD56"]

fig, ax = plt.subplots(figsize = (16, 9), dpi = 300)

wedges, texts, autotexts = ax.pie(vals,
                                  labels = labs,
                                  colors = cols,
                                  autopct = "%.1f%%",
                                  pctdistance = 0.8,
                                  textprops = dict(fontsize = 14));

text_cols = ["k", "k", "w", "w", "w", "k", "k"]

for autotext, color in zip(autotexts, text_cols):
    autotext.set_color(color)
    
ax.set_title("Design of the most popular mug types: \nGerman customers", 
            fontsize = 16, 
            loc = "left", 
            fontweight = "bold");

centre_circle = plt.Circle((0, 0), 0.6, fc = "white")
fig.gca().add_artist(centre_circle);

In [None]:
# завершающий этап: делаем цвета подписей такими же, 
# как и у секторов, и без легенды хорошо

cols = ["#F78154", "#F2C14E", "#B4436C", "#525174", 
        "#454955", "#BCBD8D", "#5FAD56"]

fig, ax = plt.subplots(figsize = (16, 9), dpi = 300)

wedges, texts, autotexts = ax.pie(vals,
                                  labels = labs,
                                  colors = cols,
                                  autopct = "%i%%",
                                  pctdistance = 0.8,
                                  textprops = dict(fontsize = 14));

# прошлый фрагмент кода для цвета процентов

text_cols = ["k", "k", "w", "w", "w", "k", "k"]

for autotext, color in zip(autotexts, text_cols):
    autotext.set_color(color)
    
# новый фрагмент кода для согласования цветов
# забираем цвет сектора через get_facecolor()
# выставляем его в подписях через set_color()

for i, wedge in enumerate(wedges):
    texts[i].set_color(wedge.get_facecolor())
    
ax.set_title("Design of the most popular mug types: \nGerman customers", 
            fontsize = 16, 
            loc = "left", 
            fontweight = "bold");

centre_circle = plt.Circle((0, 0), 0.6, fc = "white")
fig.gca().add_artist(centre_circle);

# хватит развлекаться, сохраняем и идём дальше

fig.savefig("ring.png")

In [None]:
### TO DO LIST ###

# выбрать более темные цвета для Pears и Cake
# разбить длинные подписи на две строки
# подвинуть заголовок

### Задача 5: подготовка данных

Добавьте в исходный датафрейм столбец `Month` с номером месяца, извлечённым из даты покупки. Сформируйте таблицу частот `sales_time`, которая показывает, сколько в сумме было куплено товаров за каждый месяц. Упорядочьте месяцы в хронологическом порядке.

In [None]:
### YOUR CODE HERE ###

### Задача 6: строим линейный график для динамики

In [None]:
# простой график

x_ = range(0, 12)
y_ = sales_time.values

fig, ax = plt.subplots(figsize = (16, 9), dpi = 300)
ax.plot(x_, y_);

In [None]:
# корректируем оси

x_ = range(0, 12)
y_ = sales_time.values
months = ["January", "February",  "March", "April", "May", "June", "July", 
          "August", "September", "October", "November", "December"]

fig, ax = plt.subplots(figsize = (16, 9), dpi = 300)
ax.plot(x_, y_);

# фиксируем засечки по оси x – xticks
# фиксируем подписи к засечкам – xticklabels

ax.set_xticks(x_)
ax.set_xticklabels(months);

# сетка
ax.grid(color = 'grey', alpha = 0.6, linestyle = 'dashed');
ax.set_axisbelow(True)

In [None]:
# отмечаем минимум и максимум

x_ = range(0, 12)
y_ = sales_time.values
months = ["January", "February",  "March", "April", "May", "June", "July", 
          "August", "September", "October", "November", "December"]

fig, ax = plt.subplots(figsize = (16, 9), dpi = 300)

# добавляем точки на линию
ax.plot(x_, y_, "-o");

ax.set_xticks(x_)
ax.set_xticklabels(months);

ax.grid(color = 'grey', alpha = 0.6, linestyle = 'dashed');
ax.set_axisbelow(True)

# точки с минимумом и максимумом

y_min, y_max = y_.min(), y_.max()
x_min, x_max = y_.argmin(), y_.argmax()

# еще одни точки поверх, но другого цвета

ax.plot([x_min, x_max], 
           [y_min, y_max], "ro");

# добавляем подписи

ax.set_title("Number of purchases by month (2010-2011 years)",
            loc = "left", 
            fontweight = "bold",
            fontsize = 16);

ax.set_ylabel("Total number of items", labelpad = 20);

### Задача 7: подготовка данных

Добавьте в исходный датафрейм столбец `TotalCost` с общей суммой покупки (без группировки по пользователям, просто произведение количества единиц товара и его цены). Отберите строки, которые соответствуют покупателям из стран в списке `chosen`.  

Сгруппируйте итоговый датафрейм по ID покупателя и сформируйте датафрейм, где по строкам – уникальные ID покупателей, а по столбцам – суммарные траты пользователя и страна, где он проживает. Сохраните результат в переменную `fin`.

In [None]:
chosen = ["Germany", "France", "Spain", "Italy"]

### YOUR CODE HERE ###

### Задача 8: строим гистограммы по группам

In [None]:
# без особых настроек

fin.hist("TotalCost", by = "Country", bins = 10);

In [None]:
# разбираемся с группировкой

grouped = fin.groupby("Country")
print(grouped.groups.keys())
print(grouped.get_group("France").head())

In [None]:
# используем группировку для отрисовки гистограмм

fig, axs = plt.subplots(nrows = 2, ncols = 2, 
                        figsize = (9, 9), dpi = 300,
                        gridspec_kw = dict(hspace = 0.3, 
                                           wspace = 0.4));

targets = zip(grouped.groups.keys(), axs.flatten())

for key, ax in targets:
    
    data = grouped.get_group(key)["TotalCost"]
    
    ax.hist(data, bins = 5)
    ax.set_title('%s' %key)

In [None]:
# унифицируем шаг гистограммы и оси

fig, axs = plt.subplots(nrows = 2, ncols = 2, 
                        figsize = (9, 9), dpi = 300,
                        gridspec_kw = dict(hspace = 0.3, 
                                           wspace = 0.4));

targets = zip(grouped.groups.keys(), axs.flatten())

for key, ax in targets:
    
    data = grouped.get_group(key)["TotalCost"]
    
    ax.hist(data, bins = range(0, 18000, 2000))
    ax.set_title('%s' %key)
    ax.set_xlim(-1000, 18000)

In [None]:
# меняем цвета – расширяем перечень в zip()
# для остальных настроек – похожая история

# унифицируем шаг гистограммы и оси

fig, axs = plt.subplots(nrows = 2, ncols = 2, 
                        figsize = (9, 9), dpi = 300,
                        gridspec_kw = dict(hspace = 0.3, 
                                           wspace = 0.4));

fill = ["#003049", "#D62828", "#F77F00", "#FCBF49"]

targets = zip(grouped.groups.keys(), axs.flatten(), fill)

for key, ax, col in targets:
    
    data = grouped.get_group(key)["TotalCost"]
    
    ax.hist(data, bins = range(0, 18000, 2000), 
            color = col, edgecolor = "white")
    ax.set_title('%s' %key)
    ax.set_xlim(-1000, 18000)