# Временные ряды и типы данных
В этом ноутбуке мы познакомимся с понятием временного ряда и научимся работать с типами данных в Python и pandas.

Временной ряд представляет собой последовательность наблюдений, упорядоченных по времени. Каждое наблюдение обычно связано с конкретной датой или временем, и такой ряд позволяет анализировать динамику изучаемого явления. В нашем случае временной ряд будет состоять из данных о погоде, включая температуру, влажность и количество осадков. Анализ временных рядов позволяет выявлять закономерности, сезонные изменения, тренды и аномалии, которые могут быть полезны для прогнозирования будущих значений. Данные о погоде имеют важное значение для многих сфер: от сельского хозяйства до туризма и планирования городской инфраструктуры. Для того чтобы работать с такими данными в Python, используют библиотеку pandas, которая позволяет хранить данные в виде DataFrame с метками времени, а также эффективно выполнять преобразования и агрегации.

Важным аспектом работы с временными рядами является правильное определение типов данных. В pandas существует несколько типов данных, которые применяются к столбцам DataFrame. Тип datetime используется для хранения дат и времени, float и int — для числовых значений, а category может быть полезен для категориальных признаков, например, состояния погоды или ветра. Преобразование столбца с датой в тип datetime позволяет выполнять фильтрацию по диапазонам времени, извлекать отдельные части даты, такие как год, месяц или день недели, а также использовать временные индексы для ресемплинга данных. Установка столбца даты в качестве индекса позволяет легко обращаться к данным по конкретным временным промежуткам и упрощает визуализацию временного ряда.

Для практики с погодными данными создаётся DataFrame, содержащий дату, температуру, влажность и осадки. Данные о температуре могут быть представлены в градусах Цельсия, влажность — в процентах, а осадки — в миллиметрах. После загрузки данных необходимо убедиться, что все столбцы имеют корректный тип данных. Столбец с датой преобразуется в datetime, а числовые показатели приводятся к float или int. Проверка структуры DataFrame позволяет убедиться в правильности типов и отсутствии некорректных значений. После этого можно установить столбец даты в качестве индекса, что создаёт полноценный временной ряд, готовый к анализу и визуализации.

Работа с типами данных и преобразование временного индекса также включает проверку и обработку пропусков. Пропуски могут возникать по разным причинам: неполные измерения, ошибки датчиков или отсутствующие записи. Временной ряд с пропусками нельзя анализировать напрямую, поэтому важно выявлять такие пропуски и заполнять их или удалять. Задание для самостоятельной работы включает преобразование столбца даты, установку его в качестве индекса и определение типов данных для всех остальных столбцов. Это помогает освоить основы работы с временными рядами и понять структуру данных, что является фундаментом для последующего анализа и визуализации.

Важной частью изучения временных рядов является понимание сезонности и трендов. Сезонные изменения проявляются в повторяющихся закономерностях, например, средняя температура летом обычно выше, чем зимой. Тренд отражает долгосрочное изменение данных, например, постепенное повышение температуры в течение нескольких лет. Анализ временных рядов позволяет выявлять такие закономерности и использовать их для прогнозирования. На начальном этапе работы важно научиться формально определять типы данных и структурировать DataFrame так, чтобы последующие шаги анализа были удобными и наглядными. Таким образом, первый ноутбук закладывает фундамент для работы с временными рядами, знакомит с базовыми понятиями и обучает корректному обращению с данными о погоде.

In [3]:
import pandas as pd
import numpy as np

# Загрузка данных
df = pd.read_csv('weather_data.csv')
df.head()

Unnamed: 0,date,temperature,humidity,precipitation
0,2020-01-01,15.0,55.8,0.02
1,2020-01-02,8.6,65.4,0.65
2,2020-01-03,16.5,42.1,1.16
3,2020-01-04,25.2,47.4,1.28
4,2020-01-05,7.7,89.3,1.18


## Преобразование столбца даты в формат datetime

In [4]:
df['date'] = pd.to_datetime(df['date'])
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1096 entries, 0 to 1095
Data columns (total 4 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   date           1096 non-null   datetime64[ns]
 1   temperature    1096 non-null   float64       
 2   humidity       1096 non-null   float64       
 3   precipitation  1096 non-null   float64       
dtypes: datetime64[ns](1), float64(3)
memory usage: 34.4 KB


## Задание
1. Преобразуйте столбец `date` в тип `datetime` (если ещё не сделали).
2. Установите дату как индекс временного ряда.
3. Определите, какие типы данных есть в таблице.