Экзаменационное задание по курсу «Python для анализа данных»

Задание 1: Работа с массивами NumPy
Цель: Проверить знание методов NumPy для анализа данных.

Задание:

Создайте массив случайных чисел (50 элементов) из диапазона [10, 100].
Найдите:
Среднее арифметическое массива.
Медиану.
Стандартное отклонение.
Создайте новый массив, где каждое число изначального массива делится на 3. Отфильтруйте числа, которые делятся без остатка.

In [None]:
import numpy as np

# Массив случайных числех из [10, 100].
arr = np.random.randint(10, 101, 50)

# Находим:


# Среднее арифметическое массива
mean = np.mean(arr)
# Медиану
median = np.median(arr)
# Стандартное отклонение
std = np.std(arr)  

# Создаем новый массив, где каждое число изначального массива делится на 3. 
new_arr = arr / 3
# Выделяем числа, которые делятся без остатка.
filt_arr = new_arr[new_arr % 1 == 0]

# Ответ
print(f'''
Создаем массив случайных чисел (50 элементов) из диапазона [10, 100].
      
{arr}

Среднее арифметическое: {mean}
Медиана:                {median}
Стандартное отклонение: {std}


Создаем новый массив, где каждое число изначального массива делится на 3. 

{new_arr}

Отфильтровываем числа, которые делятся без остатка.

{filt_arr}
''')


Задание 2: Анализ данных с помощью Pandas
Цель: Проверить навыки анализа и обработки данных.

Данные: Используйте предоставленный CSV-файл ("sales_data_large.csv"), содержащий данные о продажах с полями:

date (дата продаж),
region (регион),
product (продукт),
sales (объем продаж).
Задание:

Загрузите данные из файла.
Определите:
Общее количество записей.
Какие регионы и продукты присутствуют в данных.
Подсчитайте:
Общие продажи по регионам.
Средний объем продаж для каждого продукта.
Постройте сводную таблицу, показывающую средние продажи по регионам и продуктам.

In [None]:
import pandas as pd
import numpy as np

# Загружаем данные из файла.
df = pd.read_csv("sales_data_large.csv")
print(df.info())

# Определяем:

# Общее количество записей
length = len(df)
# регионы 
regions = df['region'].unique()
# продукты 
products = df['product'].unique()

print(f'''
Общее количество записей: {length}

регионы:
{regions}

продукты:
{products}
''')

# Подсчитайте:

# Общие продажи по регионам.
sales_by_region = df.groupby("region")["sales"].sum()
display(sales_by_region)

# Средний объем продаж для каждого продукта.
mean_sales_by_product = df.groupby("product")["sales"].mean()
display(mean_sales_by_product)

# Построить сводную таблицу, показывающую средние продажи по регионам и продуктам.
summary = df.pivot_table(values="sales", index="region", columns="product", aggfunc="mean")
display(summary)

Задание 3: Очистка данных и визуализация
Цель: Проверить умение находить и исправлять ошибки в данных, а также визуализировать их.

Данные: Используйте предоставленный CSV-файл ("sales_cleaning_large.csv"), содержащий данные о продажах с возможными пропущенными и некорректными значениями. Поля:

date (дата продаж),
sales (объем продаж),
region (регион).
Задание:

Найдите и устраните ошибки в данных:
Заполните пропущенные даты.
Удалите отрицательные значения в столбце sales или замените их на медиану столбца.
Заполните пропущенные значения в sales средним значением.
Постройте график продаж по датам. Убедитесь, что даты упорядочены.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# Загрузка данных
df = pd.read_csv("sales_cleaning_large.csv")
print(df.info()) 
display(df)

# Устранение ошибок в данных

# Преобразуем дату в тип datetime
df['date'] = pd.to_datetime(df['date'])
# Удаляем дубликаты по столбцу date, оставляя первое вхождение
df = df.drop_duplicates(subset='date')
# Создаем диапазон дат
date_range = pd.date_range(df['date'].min(), df['date'].max())
# Заполняем пропущенные даты
df = df.set_index('date').reindex(date_range).reset_index()
df.rename(columns={"index": "date"}, inplace=True)

# Заполняем пропущенные значения в region
df['region'] = df['region'].fillna("Unknown")

# Удаляем отрицательные значения в sales и заменяем их на медиану
sales_median = df['sales'][df['sales'] > 0].median()
df['sales'] = df['sales'].apply(lambda x: sales_median if x < 0 else x)
# Заполняем пропущенные значения в sales средним значением
sales_mean = df['sales'].mean()
df['sales'] = df['sales'].fillna(sales_mean)

# Построение графика продаж по датам
plt.figure(figsize=(10, 5))
df_sorted = df.sort_values('date')  # Упорядочиваем по дате
plt.plot(df_sorted['date'], df_sorted['sales'], marker='.', linestyle='-', label='Продажи', color='#99cccc', linewidth=0.5)
plt.xlabel('Дата')
plt.ylabel('Обьем продаж')
plt.title('График продаж по датам')
plt.xticks(rotation=45)
plt.legend()
plt.tight_layout()
plt.show()

# Вывод обработанного DataFrame для анализа
display(df)
df.to_csv("task3_df.csv")

Задание 4: Получение данных из API
Цель: Проверить способность работать с веб-данными.

Задание:

Используйте открытое API (например, https://jsonplaceholder.typicode.com/users).
Загрузите данные и создайте DataFrame с полями: id, name, email, company_name.
Выведите таблицу с пользователями, работающими в компаниях, название которых содержит слово "Group".

In [None]:
import pandas as pd
import requests

# Загружаем данные
response = requests.get("https://jsonplaceholder.typicode.com/users")
if response.status_code != 200:
    print("Не удалось загрузить данные из API.")
    raise KeyboardInterrupt
# Создаем DataFrame
df = pd.DataFrame([
    {
        "id": user["id"],
        "name": user["name"],
        "email": user["email"],
        "company_name": user["company"]["name"]
    }
    for user in response.json()
])
# Только пользователи, работающие в компаниях, название которых содержит слово "Group".
filtered_users = df[df['company_name'].str.contains("Group", case=False)]
# Выводим результат
display(filtered_users)