In [1]:
import os
import pandas as pd
import kagglehub
os.environ["KAGGLEHUB_CACHE"] = os.path.abspath(os.path.join(os.getcwd(), "..", "data"))

us_weather_events_path = kagglehub.dataset_download("sobhanmoosavi/us-weather-events")
us_weather_df = pd.read_csv(os.path.abspath(os.path.join(os.getcwd(),
                                                      us_weather_events_path,
                                                      'WeatherEvents_Jan2016-Dec2022.csv')))


Downloading from https://www.kaggle.com/api/v1/datasets/download/sobhanmoosavi/us-weather-events?dataset_version_number=4...


100%|██████████| 92.6M/92.6M [00:00<00:00, 145MB/s]

Extracting files...





## Изучение схемы датасета

Проверить схему датафрейма `us_weather_df`, чтобы понять его столбцы, типы данных и получить общее представление о содержимом.


In [2]:
us_weather_df.info()
print("\n") # Add a newline for better readability between outputs
us_weather_df.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8627181 entries, 0 to 8627180
Data columns (total 14 columns):
 #   Column             Dtype  
---  ------             -----  
 0   EventId            object 
 1   Type               object 
 2   Severity           object 
 3   StartTime(UTC)     object 
 4   EndTime(UTC)       object 
 5   Precipitation(in)  float64
 6   TimeZone           object 
 7   AirportCode        object 
 8   LocationLat        float64
 9   LocationLng        float64
 10  City               object 
 11  County             object 
 12  State              object 
 13  ZipCode            float64
dtypes: float64(4), object(10)
memory usage: 921.5+ MB




Unnamed: 0,EventId,Type,Severity,StartTime(UTC),EndTime(UTC),Precipitation(in),TimeZone,AirportCode,LocationLat,LocationLng,City,County,State,ZipCode
0,W-1,Snow,Light,2016-01-06 23:14:00,2016-01-07 00:34:00,0.0,US/Mountain,K04V,38.0972,-106.1689,Saguache,Saguache,CO,81149.0
1,W-2,Snow,Light,2016-01-07 04:14:00,2016-01-07 04:54:00,0.0,US/Mountain,K04V,38.0972,-106.1689,Saguache,Saguache,CO,81149.0
2,W-3,Snow,Light,2016-01-07 05:54:00,2016-01-07 15:34:00,0.03,US/Mountain,K04V,38.0972,-106.1689,Saguache,Saguache,CO,81149.0
3,W-4,Snow,Light,2016-01-08 05:34:00,2016-01-08 05:54:00,0.0,US/Mountain,K04V,38.0972,-106.1689,Saguache,Saguache,CO,81149.0
4,W-5,Snow,Light,2016-01-08 13:54:00,2016-01-08 15:54:00,0.0,US/Mountain,K04V,38.0972,-106.1689,Saguache,Saguache,CO,81149.0


## Определение периода данных

In [3]:
us_weather_df['StartTime(UTC)'] = pd.to_datetime(us_weather_df['StartTime(UTC)'])
us_weather_df['EndTime(UTC)'] = pd.to_datetime(us_weather_df['EndTime(UTC)'])

min_start_time = us_weather_df['StartTime(UTC)'].min()
max_end_time = us_weather_df['EndTime(UTC)'].max()

print(f"Минимальное время начала (UTC): {min_start_time}")
print(f"Максимальное время окончания (UTC): {max_end_time}")

Минимальное время начала (UTC): 2016-01-01 05:00:00
Максимальное время окончания (UTC): 2023-01-01 00:00:00


## Географический охват и единица наблюдения

- **Географический охват**: Данные относятся к городам **Соединенных Штатов Америки**.

- **Единица наблюдения**: Каждая строка в датафрейме `us_weather_df` представляет собой **отдельное погодное событие**. Это событие характеризуется следующими атрибутами:
    - **Тип события** (`Type`)
    - **Серьезность** (`Severity`)
    - **Время начала** (`StartTime(UTC)`)
    - **Время окончания** (`EndTime(UTC)`)
    - **Местоположение**, включая широту (`LocationLat`), долготу (`LocationLng`), город (`City`), округ (`County`) и штат (`State`).
    - Дополнительные детали, такие как количество осадков (`Precipitation(in)`), часовой пояс (`TimeZone`), код аэропорта (`AirportCode`) и почтовый индекс (`ZipCode`).

## Словарь переменных для `us_weather_df`

Ниже представлена таблица, содержащая имя каждого столбца, его тип данных и краткое описание:

| Имя столбца         | Тип данных | Описание                                                         |
|---------------------|------------|------------------------------------------------------------------|
| `EventId`           | `object`   | Уникальный идентификатор погодного события.                      |
| `Type`              | `object`   | Тип погодного события (например, Snow, Cold, Rain, Fog).         |
| `Severity`          | `object`   | Степень серьезности погодного события (например, Light, Moderate, Severe). |
| `StartTime(UTC)`    | `datetime` | Время начала погодного события в формате UTC.                    |
| `EndTime(UTC)``     | `datetime` | Время окончания погодного события в формате UTC.                 |
| `Precipitation(in)` | `float64`  | Количество осадков в дюймах.                                     |
| `TimeZone`          | `object`   | Часовой пояс, в котором произошло событие.                        |
| `AirportCode`       | `object`   | Код аэропорта, ближайшего к месту события.                       |
| `LocationLat`       | `float64`  | Широта местоположения события.                                   |
| `LocationLng`       | `float64`  | Долгота местоположения события.                                  |
| `City`              | `object`   | Город, где произошло событие.                                    |
| `County`            | `object`   | Округ, где произошло событие.                                    |
| `State`             | `object`   | Штат, где произошло событие.                                     |
| `ZipCode`           | `float64`  | Почтовый индекс местоположения события.                          |