In [1]:
import os
import pandas as pd
import kagglehub
os.environ["KAGGLEHUB_CACHE"] = os.path.abspath(os.path.join(os.getcwd(), "..", "data"))

us_weather_events_path = kagglehub.dataset_download("sobhanmoosavi/us-weather-events")
us_weather_df = pd.read_csv(os.path.abspath(os.path.join(os.getcwd(),
                                                      us_weather_events_path,
                                                      'WeatherEvents_Jan2016-Dec2022.csv')))


Downloading from https://www.kaggle.com/api/v1/datasets/download/sobhanmoosavi/us-weather-events?dataset_version_number=4...


100%|██████████| 92.6M/92.6M [00:00<00:00, 145MB/s]

Extracting files...





## Изучение схемы датасета

In [2]:
us_weather_df.info()
print("\n") # Add a newline for better readability between outputs
us_weather_df.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8627181 entries, 0 to 8627180
Data columns (total 14 columns):
 #   Column             Dtype  
---  ------             -----  
 0   EventId            object 
 1   Type               object 
 2   Severity           object 
 3   StartTime(UTC)     object 
 4   EndTime(UTC)       object 
 5   Precipitation(in)  float64
 6   TimeZone           object 
 7   AirportCode        object 
 8   LocationLat        float64
 9   LocationLng        float64
 10  City               object 
 11  County             object 
 12  State              object 
 13  ZipCode            float64
dtypes: float64(4), object(10)
memory usage: 921.5+ MB




Unnamed: 0,EventId,Type,Severity,StartTime(UTC),EndTime(UTC),Precipitation(in),TimeZone,AirportCode,LocationLat,LocationLng,City,County,State,ZipCode
0,W-1,Snow,Light,2016-01-06 23:14:00,2016-01-07 00:34:00,0.0,US/Mountain,K04V,38.0972,-106.1689,Saguache,Saguache,CO,81149.0
1,W-2,Snow,Light,2016-01-07 04:14:00,2016-01-07 04:54:00,0.0,US/Mountain,K04V,38.0972,-106.1689,Saguache,Saguache,CO,81149.0
2,W-3,Snow,Light,2016-01-07 05:54:00,2016-01-07 15:34:00,0.03,US/Mountain,K04V,38.0972,-106.1689,Saguache,Saguache,CO,81149.0
3,W-4,Snow,Light,2016-01-08 05:34:00,2016-01-08 05:54:00,0.0,US/Mountain,K04V,38.0972,-106.1689,Saguache,Saguache,CO,81149.0
4,W-5,Snow,Light,2016-01-08 13:54:00,2016-01-08 15:54:00,0.0,US/Mountain,K04V,38.0972,-106.1689,Saguache,Saguache,CO,81149.0


## Определение периода данных

In [3]:
us_weather_df['StartTime(UTC)'] = pd.to_datetime(us_weather_df['StartTime(UTC)'])
us_weather_df['EndTime(UTC)'] = pd.to_datetime(us_weather_df['EndTime(UTC)'])

min_start_time = us_weather_df['StartTime(UTC)'].min()
max_end_time = us_weather_df['EndTime(UTC)'].max()

print(f"Минимальное время начала (UTC): {min_start_time}")
print(f"Максимальное время окончания (UTC): {max_end_time}")

Минимальное время начала (UTC): 2016-01-01 05:00:00
Максимальное время окончания (UTC): 2023-01-01 00:00:00


## Географический охват и единица наблюдения

- **Географический охват**: Данные относятся к городам **Соединенных Штатов Америки**.

In [5]:
us_weather_df['geography'] = us_weather_df['City'] + ', ' + us_weather_df['State']
us_weather_df['geography'].unique()

array(['Saguache, CO', 'Altus, OK', 'Albert Lea, MN', ...,
       'Camdenton, MO', 'Battle Mountain, NV', 'Rock River, WY'],
      dtype=object)

- **Единица наблюдения**: Каждая строка в датафрейме `us_weather_df` представляет собой **отдельное погодное событие**. Это событие характеризуется следующими атрибутами:
    - **Тип события** (`Type`)
    - **Серьезность** (`Severity`)
    - **Время начала** (`StartTime(UTC)`)
    - **Время окончания** (`EndTime(UTC)`)
    - **Местоположение**, включая широту (`LocationLat`), долготу (`LocationLng`), город (`City`), округ (`County`) и штат (`State`).
    - Дополнительные детали, такие как количество осадков (`Precipitation(in)`), часовой пояс (`TimeZone`), код аэропорта (`AirportCode`) и почтовый индекс (`ZipCode`).

## Словарь переменных для `us_weather_df`

Ниже представлена таблица, содержащая имя каждого столбца, его тип данных и краткое описание:

| Имя столбца         | Тип данных | Описание                                                         |
|---------------------|------------|------------------------------------------------------------------|
| `EventId`           | `object`   | Уникальный идентификатор погодного события.                      |
| `Type`              | `object`   | Тип погодного события (например, Snow, Cold, Rain, Fog).         |
| `Severity`          | `object`   | Степень серьезности погодного события (например, Light, Moderate, Severe). |
| `StartTime(UTC)`    | `datetime` | Время начала погодного события в формате UTC.                    |
| `EndTime(UTC)``     | `datetime` | Время окончания погодного события в формате UTC.                 |
| `Precipitation(in)` | `float64`  | Количество осадков в дюймах.                                     |
| `TimeZone`          | `object`   | Часовой пояс, в котором произошло событие.                        |
| `AirportCode`       | `object`   | Код аэропорта, ближайшего к месту события.                       |
| `LocationLat`       | `float64`  | Широта местоположения события.                                   |
| `LocationLng`       | `float64`  | Долгота местоположения события.                                  |
| `City`              | `object`   | Город, где произошло событие.                                    |
| `County`            | `object`   | Округ, где произошло событие.                                    |
| `State`             | `object`   | Штат, где произошло событие.                                     |
| `ZipCode`           | `float64`  | Почтовый индекс местоположения события.                          |

## Анализ пропусков

In [6]:
missing_values = us_weather_df.isnull().sum()
missing_percentage = (missing_values / len(us_weather_df)) * 100

missing_info = pd.DataFrame({
    'Missing Count': missing_values,
    'Missing Percentage (%)': missing_percentage.round(2)
})

# Filter to show only columns with missing values and sort by percentage
missing_info = missing_info[missing_info['Missing Count'] > 0].sort_values(by='Missing Percentage (%)', ascending=False)

print("Доля пропущенных значений для каждой переменной:")
print(missing_info)

Доля пропущенных значений для каждой переменной:
           Missing Count  Missing Percentage (%)
ZipCode            69199                     0.8
City               16912                     0.2
geography          16912                     0.2


### Предложения по обработке пропущенных значений

На основе анализа пропущенных значений можно предложить следующие стратегии их обработки:

-   **`ZipCode` (0.8% пропусков):** Поскольку процент пропусков в `ZipCode` относительно невелик, и эта переменная часто используется для геопространственного анализа, возможно несколько подходов:
    -   **Удаление строк:** Если эти данные не критичны для дальнейшего анализа или нет надежного способа их восстановления, можно удалить строки с пропущенными значениями.
    -   **Вменение (Imputation):** Можно попытаться вменить пропущенные значения, используя, например, медианный почтовый индекс для соответствующего города/округа/штата. Однако это может быть сложно, так как `ZipCode` может быть уникальным для каждого города.
    -   **Игнорирование:** Если `ZipCode` не является ключевой переменной для конкретного анализа, можно просто игнорировать эти пропуски, но это может повлиять на точность географических привязок.

-   **`City` и `geography` (0.2% пропусков):** Пропуски в `City` и `geography` взаимосвязаны (поскольку `geography` создается из `City` и `State`). 0.2% пропусков — это очень маленький процент, поэтому:
    -   **Удаление строк:** Для такого малого количества пропусков, удаление соответствующих строк является наиболее простым и безопасным вариантом, который вряд ли существенно повлияет на общий объем данных или статистическую значимость.
    -   **Ручное исправление/Восстановление:** Если есть внешние источники данных или возможность ручной проверки, можно попытаться восстановить названия городов на основе `LocationLat`, `LocationLng` или `AirportCode`.

**Общее соображение:** В целом, при таком низком проценте пропусков (менее 1%), удаление строк с пропущенными значениями во всех трех столбцах будет наименее инвазивным и наиболее практичным решением для сохранения качества данных без значительной потери информации.

## Проверка дубликатов


In [7]:
duplicate_rows = us_weather_df.duplicated().sum()
print(f"Количество полных дубликатов строк в us_weather_df: {duplicate_rows}")

Количество полных дубликатов строк в us_weather_df: 0


## Валидация данных

In [8]:
negative_precipitation_count = us_weather_df[us_weather_df['Precipitation(in)'] < 0].shape[0]

print(f"Количество записей с отрицательным значением осадков: {negative_precipitation_count}")

if negative_precipitation_count > 0:
    print("Обнаружены отрицательные значения осадков. Рекомендуется дальнейший анализ или исправление данных.")
else:
    print("Все значения в 'Precipitation(in)' являются неотрицательными.")

Количество записей с отрицательным значением осадков: 0
Все значения в 'Precipitation(in)' являются неотрицательными.


In [9]:
min_lat_us = 24.396308
max_lat_us = 49.384358
min_lng_us = -125.0
max_lng_us = -66.934570

out_of_bounds_locations = us_weather_df[
    (us_weather_df['LocationLat'] < min_lat_us) |
    (us_weather_df['LocationLat'] > max_lat_us) |
    (us_weather_df['LocationLng'] < min_lng_us) |
    (us_weather_df['LocationLng'] > max_lng_us)
]

print(f"Количество записей с координатами за пределами США: {len(out_of_bounds_locations)}")

if len(out_of_bounds_locations) > 0:
    print("Обнаружены записи с координатами за пределами США. Рекомендуется дальнейший анализ или исправление данных.")
else:
    print("Все значения LocationLat и LocationLng находятся в пределах границ США.")

Количество записей с координатами за пределами США: 0
Все значения LocationLat и LocationLng находятся в пределах границ США.


## Определение и фильтрация выбросов

In [10]:
Q1 = us_weather_df['Precipitation(in)'].quantile(0.25)
Q3 = us_weather_df['Precipitation(in)'].quantile(0.75)
IQR = Q3 - Q1

lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

outliers_precipitation = us_weather_df[
    (us_weather_df['Precipitation(in)'] < lower_bound) |
    (us_weather_df['Precipitation(in)'] > upper_bound)
]

print(f"Количество выбросов в 'Precipitation(in)' по методу IQR: {len(outliers_precipitation)}")
print(f"Нижняя граница для выбросов: {lower_bound:.2f}")
print(f"Верхняя граница для выбросов: {upper_bound:.2f}")

Количество выбросов в 'Precipitation(in)' по методу IQR: 1296573
Нижняя граница для выбросов: -0.08
Верхняя граница для выбросов: 0.12


## Сводка результатов контроля качества данных и предлагаемые действия

На основе проведенного анализа качества данных в датафрейме `us_weather_df` были получены следующие результаты и предложены действия:

### 1. Анализ пропусков

-   **`ZipCode`**: 0.8% пропусков (69199 записей).
    -   **Предлагаемое действие**: Из-за низкого процента пропусков и потенциальной сложности точного вменения, рекомендуется **удалить строки с пропущенными значениями** в этом столбце, если `ZipCode` является критически важным для анализа. В противном случае можно оставить как есть, если дальнейший анализ не зависит от этой переменной.
-   **`City` и `geography`**: 0.2% пропусков (16912 записей).
    -   **Предлагаемое действие**: Пропуски взаимосвязаны. Учитывая очень малый процент, наиболее простым и безопасным решением является **удаление соответствующих строк** для сохранения целостности географических данных.

### 2. Проверка дубликатов

-   **Результат**: Обнаружено **0** полных дубликатов строк.
    -   **Предлагаемое действие**: Данные не содержат полных дубликатов, поэтому никаких действий по удалению не требуется.

### 3. Валидация данных

-   **`Precipitation(in)` (неотрицательные значения)**:
    -   **Результат**: Обнаружено **0** записей с отрицательными значениями осадков.
    -   **Предлагаемое действие**: Данные корректны, никаких действий не требуется.
-   **`LocationLat`, `LocationLng` (географические границы США)**:
    -   **Результат**: Обнаружено **0** записей с координатами за пределами континентальных США.
    -   **Предлагаемое действие**: Данные корректны, никаких действий не требуется.

### 4. Определение и фильтрация выбросов в `Precipitation(in)`

-   **Метод**: Использован **межквартильный размах (IQR)**, который устойчив к асимметричным распределениям и экстремальным значениям.
-   **Границы выбросов**: Нижняя граница: -0.08, Верхняя граница: 0.12.
-   **Результат**: Обнаружено **1,296,573** выбросов.
    -   **Предлагаемое действие**: Значения осадков, выходящие за верхнюю границу, являются значительными и могут указывать на сильные погодные явления, которые могут быть важными для анализа. Значения ниже нижней границы (отрицательные) были бы аномальными, но таких не обнаружено (поскольку `Precipitation(in)` не содержит отрицательных значений). Если целью является анализ *типичных* погодных событий, эти выбросы можно **отфильтровать** или **обработать отдельно** (например, с помощью логарифмического преобразования, если распределение сильно скошено). Однако, для изучения экстремальных событий, их следует **сохранить**.

## Сводка результатов контроля качества данных и предлагаемые действия

На основе проведенного анализа качества данных в датафрейме `us_weather_df` были получены следующие результаты и предложены действия:

### 1. Анализ пропусков

-   **`ZipCode`**: 0.8% пропусков (69199 записей).
    -   **Предлагаемое действие**: Из-за низкого процента пропусков и потенциальной сложности точного вменения, рекомендуется **удалить строки с пропущенными значениями** в этом столбце, если `ZipCode` является критически важным для анализа. В противном случае можно оставить как есть, если дальнейший анализ не зависит от этой переменной.
-   **`City` и `geography`**: 0.2% пропусков (16912 записей).
    -   **Предлагаемое действие**: Пропуски взаимосвязаны. Учитывая очень малый процент, наиболее простым и безопасным решением является **удаление соответствующих строк** для сохранения целостности географических данных.

### 2. Проверка дубликатов

-   **Результат**: Обнаружено **0** полных дубликатов строк.
    -   **Предлагаемое действие**: Данные не содержат полных дубликатов, поэтому никаких действий по удалению не требуется.

### 3. Валидация данных

-   **`Precipitation(in)` (неотрицательные значения)**:
    -   **Результат**: Обнаружено **0** записей с отрицательными значениями осадков.
    -   **Предлагаемое действие**: Данные корректны, никаких действий не требуется.
-   **`LocationLat`, `LocationLng` (географические границы США)**:
    -   **Результат**: Обнаружено **0** записей с координатами за пределами континентальных США.
    -   **Предлагаемое действие**: Данные корректны, никаких действий не требуется.

### 4. Определение и фильтрация выбросов в `Precipitation(in)`

-   **Метод**: Использован **межквартильный размах (IQR)**, который устойчив к асимметричным распределениям и экстремальным значениям.
-   **Границы выбросов**: Нижняя граница: -0.08, Верхняя граница: 0.12.
-   **Результат**: Обнаружено **1,296,573** выбросов.
    -   **Предлагаемое действие**: Значения осадков, выходящие за верхнюю границу, являются значительными и могут указывать на сильные погодные явления, которые могут быть важными для анализа. Значения ниже нижней границы (отрицательные) были бы аномальными, но таких не обнаружено (поскольку `Precipitation(in)` не содержит отрицательных значений). Если целью является анализ *типичных* погодных событий, эти выбросы можно **отфильтровать** или **обработать отдельно** (например, с помощью логарифмического преобразования, если распределение сильно скошено). Однако, для изучения экстремальных событий, их следует **сохранить**.