Импорт необходимых библиотек

In [12]:
import pandas as pd
from datetime import datetime

Задание 1: Проверка целостности данных.  
Используйте набор данных о продажах и проверьте, заполнены ли все необходимые поля. Если обнаружены пропущенные значения, определите, какой процент они составляют от общего количества данных. 
Набор данных для использования: "Online Retail" на Kaggle. Этот набор данных представляет собой транзакции, произошедшие в период с декабря 2010 по октябре 2011 года и зарегистрированные розничной компанией из Великобритании.  
Ссылка: https://www.kaggle.com/mashlyn/online-retail-ii-uci

In [13]:
data_task_1 = pd.read_csv('Data/online_retail_II.csv')

# Переменная для количества пропущенных значений
missing_values_counter = data_task_1.isnull().sum()

# Вычисление процента пропущенных значений
missing_values_percent = (missing_values_counter / len(data_task_1)) * 100

# Формирование DataFrame
missing_data_summary = pd.DataFrame({
    'Missing Values': missing_values_counter,
    'Percentage': missing_values_percent
})

# Вывод результатов анализа
missing_data_summary = missing_data_summary[missing_data_summary['Missing Values'] > 0]  # Фильтруем только те столбцы, в которых есть пропущенные значения
missing_data_summary.sort_values(by='Percentage', ascending=False, inplace=True)

print(missing_data_summary)

             Missing Values  Percentage
Customer ID          243007   22.766873
Description            4382    0.410541


Задание 2: Проверка консистентности данных.  
Рассмотрите набор данных о климате и проверьте, соблюдаются ли форматы дат во всех записях.  
Набор данных для использования: "Climate Change: Earth Surface Temperature Data" на Kaggle.  
Ссылка: https://www.kaggle.com/berkeleyearth/climate-change-earth-surface-temperature-data  

In [14]:
data_task_2 = pd.read_csv('Data/GlobalLandTemperaturesByCountry.csv')

# Преобразуем столбец 'dt' в формат даты и проверим на ошибки
data_task_2['dt'] = pd.to_datetime(data_task_2['dt'], errors='coerce')
# errors='coerce' заменит некоррентные даты на "Not a Time" (NaT)

# Проверка, есть ли некорректные даты
invalid_dates = data_task_2[data_task_2['dt'].isna()]
# .isna() проверяет есть ли пропущенные/некорректные значения

if invalid_dates.empty:
    print("Все даты корректны по формату")
else:
    print(f"Было найдено {len(invalid_dates)} некорректных записей:")
    print(invalid_dates)

Все даты корректны по формату


Задание 3: Проверка актуальности данных.  
Анализируя набор данных о твитах, проверьте даты публикации твитов и определите, какие из них актуальны на текущий момент.  
Набор данных для использования: "COVID19 Tweets" на Kaggle, включающий твиты о пандемии COVID-19.  
Ссылка: https://www.kaggle.com/gpreda/covid19-tweets  

In [15]:
data_task_3 = pd.read_csv('Data/covid19_tweets.csv')

# Преобразуем столбец 'dt' в формат даты и проверим на ошибки
data_task_3['date'] = pd.to_datetime(data_task_3['date'], errors='coerce')
# errors='coerce' заменит некоррентные даты на "Not a Time" (NaT)

# Текущая дата
current_date = datetime.now()

# Порог актуальности
days_value = 1500
threshold = pd.Timedelta(days = days_value)

# Какие твиты актуальны
data_task_3['is_recent'] = (current_date - data_task_3['date']) <= threshold

# Вывод результатов анализа
recent_tweets = data_task_3[data_task_3['is_recent']]
outdated_tweets = data_task_3[~data_task_3['is_recent']]

print(f"Общее количество твитов: {len(data_task_3)}")
print(f"Количество актуальных твитов (за последние {days_value} дней): {len(recent_tweets)}")
print(f"Количество устаревших твитов: {len(outdated_tweets)}")

Общее количество твитов: 179108
Количество актуальных твитов (за последние 1500 дней): 31507
Количество устаревших твитов: 147601


Задание 4: Проверка полноты данных.  
Рассмотрите набор данных о заболеваемости раком, проанализируйте, приведены ли данные по всем странам или некоторые из них отсутствуют.  
Набор данных для использования: "Global Cancer Incidence" на Kaggle.  
Ссылка: https://www.kaggle.com/datasets/shreyaskeote23/global-cancer-incidence

In [22]:
data_task_4 = pd.read_csv('Data/Overall global cancer incidence (2022).csv')

rows_with_missing_values = data_task_4[data_task_4.isna().any(axis=1)]
countries = rows_with_missing_values['Country'].tolist()
if len(countries):
    print(f'Список стран с неполными данными: {countries}')
else:
    print('Данные для всех стран полные')

Список стран с неполными данными: ['Hungary']
