In [None]:
import os
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt


os.makedirs('figures', exist_ok=True)

# Загрузка данных
df = pd.read_csv('S02-hw-dataset.csv')


print(df.head())
print(df.info())

# Контроль качества
print('Доля пропусков:')
print(df.isna().mean())
print('Дубликаты:', df.duplicated().sum())

print('Отрицательные purchases:')
print(df[df['purchases'] < 0])
print('Возраст больше 100:')
print(df[df['age'] > 100])

# Группировка и частоты
print('Частота стран:')
print(df['country'].value_counts())

k = df.groupby('country').agg({'purchases': ['mean','sum'],
                               'revenue': ['mean','sum']})

print('Группировка по странам:')
print(k)

# Визуализация


plt.figure(figsize=(7,4))
l = df['purchases'].dropna()
plt.hist(l, bins=5, color='lightcoral', edgecolor='black')
plt.title('Распределение purchases')
plt.xlabel('Purchases')
plt.ylabel('Частота')
plt.grid(axis='y', alpha=0.75)
plt.tight_layout()
plt.savefig('figures/гистограмма_purchases.png')
plt.close()


plt.figure(figsize=(7,4))
df.boxplot(column='revenue', by='country', grid=False)
plt.title('Boxplot revenue по странам')
plt.suptitle('')
plt.xlabel('Страна')
plt.ylabel('Revenue')
plt.tight_layout()
plt.savefig('figures/боксплот_revenue.png')
plt.close()


plt.figure(figsize=(7,4))
colors = {'FR':'red', 'RU':'blue', 'DE':'orange', 'CN':'green', 'US':'purple'}
for cat in df['country'].unique():
    subset = df[df['country'] == cat]
    plt.scatter(subset['purchases'], subset['revenue'], label=cat, color=colors.get(cat, 'black'))
plt.title('Диаграмма рассеяния: purchases и revenue')
plt.xlabel('Purchases')
plt.ylabel('Revenue')
plt.legend(title='Страна')
plt.grid(True, linestyle='--', alpha=0.7)
plt.tight_layout()
plt.savefig('figures/диаграмма_рассеяния.png')
plt.close()

   user_id   age country  purchases  revenue
0        1  25.0      FR          7      749
1        2  24.0      RU          5     1115
2        3  52.0      FR          7      399
3        4  31.0      RU          6      654
4        5   NaN      DE          6     1296
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 41 entries, 0 to 40
Data columns (total 5 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   user_id    41 non-null     int64  
 1   age        39 non-null     float64
 2   country    41 non-null     object 
 3   purchases  41 non-null     int64  
 4   revenue    41 non-null     int64  
dtypes: float64(1), int64(3), object(1)
memory usage: 1.7+ KB
None
Доля пропусков:
user_id      0.00000
age          0.04878
country      0.00000
purchases    0.00000
revenue      0.00000
dtype: float64
Дубликаты: 1
Отрицательные purchases:
   user_id    age country  purchases  revenue
5        6  120.0      FR         -1      785
Возраст больше 

<Figure size 700x400 with 0 Axes>