In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# Загрузка данных по прямой ссылке (Raw)
url = 'https://raw.githubusercontent.com/mirea-aie-2025/aie-course-meta/main/seminars/S02/S02-hw-dataset.csv'
df = pd.read_csv(url, sep=',')

# Проверка: первые строки
df.head()

KeyboardInterrupt: 

In [None]:
print("Информация о данных:")
df.info()

print("\nОписательная статистика:")
df.describe(include='all')

In [None]:
# Пропуски
print("Доля пропусков:")
print(df.isna().mean())

# Дубликаты
print(f"\nКоличество дубликатов: {df.duplicated().sum()}")

# Подозрительные значения
print("\nПодозрительные записи:")

# Возраст > 100 или < 0
suspicious_age = df[(df['age'] > 100) | (df['age'] < 0)]
if not suspicious_age.empty:
    print("Некорректный возраст:")
    display(suspicious_age)

# Отрицательные покупки
suspicious_purchases = df[df['purchases'] < 0]
if not suspicious_purchases.empty:
    print("Отрицательное количество покупок:")
    display(suspicious_purchases)

# Нулевые покупки, но ненулевой доход
suspicious_revenue = df[(df['purchases'] == 0) & (df['revenue'] > 0)]
if not suspicious_revenue.empty:
    print("Нулевые покупки, но ненулевой доход:")
    display(suspicious_revenue)

In [None]:
# Частоты стран
print("Распределение по странам:")
display(df['country'].value_counts())

# Группировка по стране
print("\nСредние показатели по странам:")
grouped = df.groupby('country')[['purchases', 'revenue']].agg(['mean', 'sum'])
display(grouped)

In [None]:
# 1. Гистограмма: выручка
plt.figure(figsize=(8, 5))
plt.hist(df['revenue'], bins=15, color='skyblue', edgecolor='black')
plt.title('Распределение выручки (revenue)')
plt.xlabel('Выручка')
plt.ylabel('Частота')
plt.grid(True, linestyle='--', alpha=0.5)
plt.savefig('figures/histogram_revenue.png')  # Сохраняем в папку
plt.show()  # Показываем график в ноутбуке

# 2. Boxplot: выручка по странам
plt.figure(figsize=(8, 5))
df.boxplot(column='revenue', by='country', grid=False, patch_artist=True)
plt.title('Распределение выручки по странам')
plt.suptitle('')
plt.xlabel('Страна')
plt.ylabel('Выручка')
plt.savefig('figures/boxplot_revenue_by_country.png')
plt.show()

# 3. Scatter plot: возраст vs выручка
plt.figure(figsize=(8, 5))
plt.scatter(df['age'], df['revenue'], alpha=0.7, color='green')
plt.title('Зависимость выручки от возраста')
plt.xlabel('Возраст')
plt.ylabel('Выручка')
plt.grid(True, linestyle='--', alpha=0.5)
plt.savefig('figures/scatter_age_revenue.png')
plt.show()

In [None]:
from google.colab import files
files.download('figures/histogram_revenue.png')
files.download('figures/boxplot_revenue_by_country.png')
files.download('figures/scatter_age_revenue.png')