# Лабораторная работа 03 (проверка качества данных)
## Задание 1: Проверка целостности данных.
Используйте набор данных о продажах и проверьте, заполнены ли все необходимые поля. Если обнаружены пропущенные значения, определите, какой процент они составляют от общего количества данных. 
Набор данных для использования: "Online Retail" на Kaggle. Этот набор данных представляет собой транзакции, произошедшие в период с декабря 2010 по октябре 2011 года и зарегистрированные розничной компанией из Великобритании.

In [1]:
import pandas as pd

# Загрузка данных
df = pd.read_csv('data_31/online_retail_II.csv')

# Проверка на пропуски
missing_data = df.isnull().sum()

# Подсчет процентов пропущенных данных
missing_percentage = (missing_data / len(df)) * 100

print(missing_percentage)

Invoice         0.000000
StockCode       0.000000
Description     0.410541
Quantity        0.000000
InvoiceDate     0.000000
Price           0.000000
Customer ID    22.766873
Country         0.000000
dtype: float64


In [6]:
# Загрузка данных
climate_df = pd.read_csv('data_32/GlobalTemperatures.csv')
climate_by_st_df = pd.read_csv('data_32/GlobalLandTemperaturesByState.csv')
climate_by_mj_df = pd.read_csv('data_32/GlobalLandTemperaturesByMajorCity.csv')
climate_by_cnr_df = pd.read_csv('data_32/GlobalLandTemperaturesByCountry.csv')
climate_by_city_df = pd.read_csv('data_32/GlobalLandTemperaturesByCity.csv')

# Проверка формата дат
climate_df['dt'] = pd.to_datetime(climate_df['dt'], format='%Y-%m-%d', errors='coerce')
climate_by_st_df['dt'] = pd.to_datetime(climate_by_st_df['dt'], format='%Y-%m-%d', errors='coerce')
climate_by_mj_df['dt'] = pd.to_datetime(climate_by_mj_df['dt'], format='%Y-%m-%d', errors='coerce')
climate_by_cnr_df['dt'] = pd.to_datetime(climate_by_cnr_df['dt'], format='%Y-%m-%d', errors='coerce')
climate_by_city_df['dt'] = pd.to_datetime(climate_by_city_df['dt'], format='%Y-%m-%d', errors='coerce')

## Задание 2: Проверка консистентности данных.
Рассмотрите набор данных о климате и проверьте, соблюдаются ли форматы дат во всех записях. 
Набор данных для использования: "Climate Change: Earth Surface Temperature Data" на Kaggle. 

In [7]:
# Проверка на ошибки в формате дат
inconsistent_dates_1 = climate_df[climate_df['dt'].isnull()]
inconsistent_dates_2 = climate_by_st_df[climate_by_st_df['dt'].isnull()]
inconsistent_dates_3 = climate_by_mj_df[climate_by_mj_df['dt'].isnull()]
inconsistent_dates_4 = climate_by_cnr_df[climate_by_cnr_df['dt'].isnull()]
inconsistent_dates_5 = climate_by_city_df[climate_by_city_df['dt'].isnull()]

print(f'Количество некорректных дат в GlobalTemperatures.csv: {len(inconsistent_dates_1)}')
print(f'Количество некорректных дат в GlobalLandTemperaturesByState.csv: {len(inconsistent_dates_2)}')
print(f'Количество некорректных дат в GlobalLandTemperaturesByMajorCity.csv: {len(inconsistent_dates_3)}')
print(f'Количество некорректных дат в GlobalLandTemperaturesByCountry.csv: {len(inconsistent_dates_4)}')
print(f'Количество некорректных дат в GlobalLandTemperaturesByCity.csv: {len(inconsistent_dates_5)}')

Количество некорректных дат в GlobalTemperatures.csv: 1
Количество некорректных дат в GlobalLandTemperaturesByState.csv: 0
Количество некорректных дат в GlobalLandTemperaturesByMajorCity.csv: 0
Количество некорректных дат в GlobalLandTemperaturesByCountry.csv: 0
Количество некорректных дат в GlobalLandTemperaturesByCity.csv: 0


## Задание 3: Проверка актуальности данных.
Анализируя набор данных о твитах, проверьте даты публикации твитов и определите, какие из них актуальны на текущий момент.

In [8]:
import pandas as pd
from datetime import datetime

tweets_df = pd.read_csv('data_33/covid19_tweets.csv')

tweets_df['date'] = pd.to_datetime(tweets_df['date'], errors='coerce')

months_to_filter = {
    'July 2020': (datetime(2020, 7, 1), datetime(2020, 7, 31, 23, 59, 59)),
    'September 2020': (datetime(2020, 9, 1), datetime(2020, 9, 30, 23, 59, 59))
}

for month, (start_date, end_date) in months_to_filter.items():
    monthly_tweets = tweets_df[(tweets_df['date'] >= start_date) & (tweets_df['date'] <= end_date)]
    print(f'Количество твитов за {month}: {len(monthly_tweets)}')

Количество твитов за July 2020: 51936
Количество твитов за September 2020: 0


## Задание 4: Проверка полноты данных.
Рассмотрите набор данных о заболеваемости раком, проанализируйте, приведены ли данные по всем странам или некоторые из них отсутствуют. 

In [9]:
cancer_df = pd.read_csv('data_34/cancer.csv')

unique_countries = cancer_df['Country'].unique()

from pycountry import countries

all_countries = set([country.name for country in countries])
missing_countries = all_countries - set(unique_countries)

print(f'Количество отсутствующих стран: {len(missing_countries)}')

Количество отсутствующих стран: 83
