# Обработка и анализ данных о качестве воздуха

Этот проект включает в себя обработку и анализ набора данных о качестве воздуха с использованием Python и Pandas. Набор данных содержит несколько ежедневных CSV-файлов, которые объединяются в один набор данных для дальнейшего анализа. Основные цели:
- Загрузка набора данных.
- Объединение нескольких CSV-файлов.
- Эффективная обработка пропущенных значений.
- Преобразование типов данных и очистка данных.
- Проведение разведывательного анализа данных (EDA).
- Определение дат с наивысшими уровнями CO(GT) и NO2(GT).

## Описание набора данных
Набор данных содержит информацию о качестве воздуха, собранную в течение нескольких дней. Каждый CSV-файл представляет данные за один день и включает следующие столбцы:

1. **Date**: (ДД/ММ/ГГГГ)
2. **Time**: (ЧЧ.ММ.СС)
3. **CO(GT)**: Истинная среднечасовая концентрация CO в мг/м³ (референтный анализатор)
4. **PT08.S1(CO)**: Среднечасовой отклик сенсора на основе олова (номинально нацелен на CO)
5. **NMHC(GT)**: Истинная среднечасовая концентрация общих неметановых углеводородов в мкг/м³ (референтный анализатор)
6. **C6H6(GT)**: Истинная среднечасовая концентрация бензола в мкг/м³ (референтный анализатор)
7. **PT08.S2(NMHC)**: Среднечасовой отклик сенсора на основе титана (номинально нацелен на NMHC)
8. **NOx(GT)**: Истинная среднечасовая концентрация NOx в ppb (референтный анализатор)
9. **PT08.S3(NOx)**: Среднечасовой отклик сенсора на основе вольфрама (номинально нацелен на NOx)
10. **NO2(GT)**: Истинная среднечасовая концентрация NO2 в мкг/м³ (референтный анализатор)
11. **PT08.S4(NO2)**: Среднечасовой отклик сенсора на основе вольфрама (номинально нацелен на NO2)
12. **PT08.S5(O3)**: Среднечасовой отклик сенсора на основе индия (номинально нацелен на O3)
13. **T**: Температура в °C
14. **RH**: Относительная влажность (%)
15. **AH**: Абсолютная влажность

Более подробную информацию о наборе данных можно найти на [kaggle.com](https://www.kaggle.com/datasets/fedesoriano/air-quality-data-set).

---

## Инструкции
### Шаг 1. Загрузка набора данных
- Используйте следующий код на Python для загрузки набора данных.


In [1]:
import requests

def download_dataset(url: str, filename: str) -> None:
    """Downloads a dataset from a specified URL and saves it to a file.

    Args:
        url (str): The URL from which to download the dataset.
        filename (str): The name of the file where the dataset will be saved.

    Prints:
        A message indicating whether the dataset was successfully downloaded and saved,
        or if the download failed.
    """
    response = requests.get(url)
    if response.status_code == 200:
        with open(filename, 'wb') as file:
            file.write(response.content)
        print(f"Dataset downloaded and saved as {filename}")
    else:
        print("Failed to download the dataset")

# URL of the dataset
dataset_url = "https://drive.google.com/uc?export=download&id=18Qcd2zBVe_AmlqKpr9LIVL-uES_s_q_K"
# Filename to save the dataset
filename = "air_quality_by_days.zip"

# Download the dataset
download_dataset(dataset_url, filename)



Dataset downloaded and saved as air_quality_by_days.zip


In [12]:
# Распоковка архива
import pandas as pd
import zipfile
import os
filename = "air_quality_by_days.zip"
with zipfile.ZipFile(filename, 'r') as zip_ref:
    zip_ref.extractall("air_quality_by_days")
# Проверяем , что файлы распаковались
print(os.listdir("air_quality_by_days"))
#  Загрузка данных
file =[file for file in os.listdir("air_quality_by_days") if file.endswith(".csv")][0]
data = pd.read_csv(f"air_quality_by_days/{file}")
print(data.head())
# Обьединяем данные в один набор данных
data = pd.concat([pd.read_csv(f"air_quality_by_days/{file}") for file in os.listdir("air_quality_by_days") if file.endswith(".csv")], ignore_index=True)
# Сохраняем обьединенные данные
data.to_csv("merged_air_quality.csv", index=False)

['air_quality_2004-06-06.csv', 'air_quality_2004-06-12.csv', 'air_quality_2005-10-01.csv', 'air_quality_2005-02-01.csv', 'air_quality_2004-06-07.csv', 'air_quality_2004-06-11.csv', 'air_quality_2004-06-05.csv', 'air_quality_2004-11-09.csv', 'air_quality_2005-10-02.csv', 'air_quality_2004-03-09.csv', 'air_quality_2005-02-02.csv', 'air_quality_2005-02-03.csv', 'air_quality_2004-03-08.csv', 'air_quality_2005-10-03.csv', 'air_quality_2004-11-08.csv', 'air_quality_2004-06-04.csv', 'air_quality_2004-06-10.csv', 'air_quality_2004-08-05.csv', 'air_quality_2004-08-11.csv', 'air_quality_2004-01-09.csv', 'air_quality_2005-12-02.csv', 'air_quality_2004-04-11.csv', 'air_quality_2004-04-05.csv', 'air_quality_2004-04-04.csv', 'air_quality_2004-04-10.csv', 'air_quality_2005-12-03.csv', 'air_quality_2004-01-08.csv', 'air_quality_2004-08-10.csv', 'air_quality_2004-08-04.csv', 'air_quality_2004-08-12.csv', 'air_quality_2004-08-06.csv', 'air_quality_2005-12-01.csv', 'air_quality_2005-02-04.csv', 'air_qual

  data = pd.concat([pd.read_csv(f"air_quality_by_days/{file}") for file in os.listdir("air_quality_by_days") if file.endswith(".csv")], ignore_index=True)


In [46]:
# Удаляем ненужные столбцы
data = pd.read_csv("merged_air_quality.csv")
data = data.drop(columns=["Unnamed: 15", "Unnamed: 16", "Date_Only"])
# Удаляем столбец Time
data = data.drop(columns=["Time"])
# Замняем запятую в числовых значениях на точку
data = data.replace(",", ".", regex=True)
# Преобразуем столбцы во float64
data[['CO(GT)', 'C6H6(GT)', 'T', 'RH', 'AH']] = data[['CO(GT)', 'C6H6(GT)', 'T', 'RH', 'AH']].astype('float64')
# Сохраняем очищенные данные
data.to_csv("cleaned_air_quality.csv", index=False)
print(data.head())


         Date  CO(GT)  PT08.S1(CO)  NMHC(GT)  C6H6(GT)  PT08.S2(NMHC)  \
0  2004-06-06     1.1        895.0    -200.0       5.6          792.0   
1  2004-06-06     0.6        810.0    -200.0       3.8          702.0   
2  2004-06-06     1.1        968.0    -200.0       6.6          840.0   
3  2004-06-06     1.1        922.0    -200.0       7.0          859.0   
4  2004-06-06     1.0        892.0    -200.0       5.2          773.0   

   NOx(GT)  PT08.S3(NOx)  NO2(GT)  PT08.S4(NO2)  PT08.S5(O3)     T    RH  \
0     39.0         975.0     58.0        1574.0        733.0  21.9  52.7   
1     15.0        1093.0     24.0        1529.0        612.0  21.3  54.9   
2     47.0         891.0     58.0        1727.0        788.0  17.5  79.1   
3   -200.0         871.0   -200.0        1739.0        728.0  17.6  78.6   
4     49.0         926.0     62.0        1660.0        724.0  17.1  81.8   

       AH  
0  1.3650  
1  1.3707  
2  1.5709  
3  1.5722  
4  1.5816  


In [50]:
# Меняем значения -200 на NaN
data = pd.read_csv("cleaned_air_quality.csv")
data = data.replace(-200, None)
# Заполняем NaN средними значениями для числовых столбцов.
numeric_columns = data.select_dtypes(include=["number"]).columns  # Выбираем только числовые столбцы
data[numeric_columns] = data[numeric_columns].fillna(data[numeric_columns].mean())
print(data.head())


         Date CO(GT) PT08.S1(CO) NMHC(GT) C6H6(GT) PT08.S2(NMHC) NOx(GT)  \
0  2004-06-06    1.1       895.0     None      5.6         792.0    39.0   
1  2004-06-06    0.6       810.0     None      3.8         702.0    15.0   
2  2004-06-06    1.1       968.0     None      6.6         840.0    47.0   
3  2004-06-06    1.1       922.0     None      7.0         859.0    None   
4  2004-06-06    1.0       892.0     None      5.2         773.0    49.0   

  PT08.S3(NOx) NO2(GT) PT08.S4(NO2) PT08.S5(O3)     T    RH      AH  
0        975.0    58.0       1574.0       733.0  21.9  52.7   1.365  
1       1093.0    24.0       1529.0       612.0  21.3  54.9  1.3707  
2        891.0    58.0       1727.0       788.0  17.5  79.1  1.5709  
3        871.0    None       1739.0       728.0  17.6  78.6  1.5722  
4        926.0    62.0       1660.0       724.0  17.1  81.8  1.5816  


In [52]:
# Считаем и удаляем дублирующиеся значения
data = data.drop_duplicates()
print(data.duplicated().sum())
print(data.head())

0
         Date CO(GT) PT08.S1(CO) NMHC(GT) C6H6(GT) PT08.S2(NMHC) NOx(GT)  \
0  2004-06-06    1.1       895.0     None      5.6         792.0    39.0   
1  2004-06-06    0.6       810.0     None      3.8         702.0    15.0   
2  2004-06-06    1.1       968.0     None      6.6         840.0    47.0   
3  2004-06-06    1.1       922.0     None      7.0         859.0    None   
4  2004-06-06    1.0       892.0     None      5.2         773.0    49.0   

  PT08.S3(NOx) NO2(GT) PT08.S4(NO2) PT08.S5(O3)     T    RH      AH  
0        975.0    58.0       1574.0       733.0  21.9  52.7   1.365  
1       1093.0    24.0       1529.0       612.0  21.3  54.9  1.3707  
2        891.0    58.0       1727.0       788.0  17.5  79.1  1.5709  
3        871.0    None       1739.0       728.0  17.6  78.6  1.5722  
4        926.0    62.0       1660.0       724.0  17.1  81.8  1.5816  


In [53]:
# Сохраняем очищенные данные
data.to_csv("cleaned_dataset.csv", index=False)
print(data.head())

         Date CO(GT) PT08.S1(CO) NMHC(GT) C6H6(GT) PT08.S2(NMHC) NOx(GT)  \
0  2004-06-06    1.1       895.0     None      5.6         792.0    39.0   
1  2004-06-06    0.6       810.0     None      3.8         702.0    15.0   
2  2004-06-06    1.1       968.0     None      6.6         840.0    47.0   
3  2004-06-06    1.1       922.0     None      7.0         859.0    None   
4  2004-06-06    1.0       892.0     None      5.2         773.0    49.0   

  PT08.S3(NOx) NO2(GT) PT08.S4(NO2) PT08.S5(O3)     T    RH      AH  
0        975.0    58.0       1574.0       733.0  21.9  52.7   1.365  
1       1093.0    24.0       1529.0       612.0  21.3  54.9  1.3707  
2        891.0    58.0       1727.0       788.0  17.5  79.1  1.5709  
3        871.0    None       1739.0       728.0  17.6  78.6  1.5722  
4        926.0    62.0       1660.0       724.0  17.1  81.8  1.5816  


In [55]:
# Определяем дату с наивысшими уровнями CO(GT) и NO2(GT).
data = pd.read_csv("cleaned_dataset.csv")
data["Date"] = pd.to_datetime(data["Date"])
data = data.set_index("Date")
max_co = data["CO(GT)"].idxmax()
max_no2 = data["NO2(GT)"].idxmax()
print(f"Date with the highest CO(GT) level: {max_co}")
print(f"Date with the highest NO2(GT) level: {max_no2}")


Date with the highest CO(GT) level: 2004-02-12 00:00:00
Date with the highest NO2(GT) level: 2005-11-02 00:00:00


- После загрузки извлеките содержимое перед переходом к следующим шагам.



## Руководство по отправке
- Сохраните набор данных как `cleaned_air_quality.csv`.
- Отправьте Jupyter Notebook, содержащий ваш код.

---

## Резюме
Этот проект предоставил практический опыт работы с реальными данными о качестве воздуха с использованием Pandas. Основные выводы включают:
- **Объединение данных:** Эффективное объединение нескольких CSV-файлов.
- **Очистка данных:** Обработка пропущенных значений, удаление ненужных столбцов, дубликатов и форматирование данных.
- **Разведывательный анализ:** Определение пиковых уровней загрязнителей.


### Как отправить проект

1. Создайте файл Jupyter Notebook на вашем Google Диске.
2. Напишите ваше решение в ноутбуке.
3. Поделитесь доступом с вашим наставником (или предоставьте ссылку с правами на редактирование).
4. Отправьте ссылку на файл ноутбука или папку в качестве вашего решения для этого урока.