## Чтение данных

Pandas умеет читать данные в самых разных формах хранения:
1. CSV (comma separated values, простой формат хранения таблиц).
2. Excel таблицы.
3. Напрямую из баз данных.
4. Веб-форматы: `json`, `xml`.
5. Специальные форматы для данных: `parquet`, `feather`, `orc`.

Мы сегодня научимся читать CSV. Это очень простой формат, и из-за этого такой популярный: почти во всех соревнованиях по data science входные данные дают именно в CSV.

Не переживайте, pandas всегда будет приводить все читаемые данные к одному формату - поэтому вы без труда сможете открыть любой другой источник, если будете уметь работать с CSV.

## CSV
Формат CSV очень простой: на каждую запись выделяется отдельная строка, а колонки отделяются специальным символом (по умолчанию запятой ,).

Так, таблица 

| Имя  | Возраст | Город    |
|------|---------|----------|
| Миша | 28      | Москва   |
| Саша | 12      | Казань   |
| Илья | 54      | Мурманск |

будет выглядеть как
```csv
Имя,Возраст,Город
Миша,28,Москва
Саша,12,Казань
Илья,54,Мурманск
```

## Читаем файл

Эти данные взяты из [соревнования на Kaggle](https://www.kaggle.com/c/bike-sharing-demand/data?select=train.csv). Kaggle - это площадка для соревнований в области Data Science, где любой может посоревноваться и выиграть денежную награду.

Данные представляют из себя записи об аренде велосипедов в разные дни:
1. Дата и время (промежуток 1 час)
2. Какое время года
3. Погода
4. Сколько было аренд среди зарегистрированных пользователей
5. Сколько было аренд среди незарегистрированных пользователей

In [1]:
import pandas as pd
df = pd.read_csv('train.csv') # читаем csv функцией read

### Беглый взгляд на данные
В `pandas` можно быстро взглянуть на основные характеристики данных:

In [2]:
df.head() # выводим первые 5 записей, можно вывести больше указав число в скобках

Unnamed: 0,datetime,season,holiday,workingday,weather,temp,atemp,humidity,windspeed,casual,registered,count
0,2011-01-01 00:00:00,1,0,0,1,9.84,14.395,81,0.0,3,13,16
1,2011-01-01 01:00:00,1,0,0,1,9.02,13.635,80,0.0,8,32,40
2,2011-01-01 02:00:00,1,0,0,1,9.02,13.635,80,0.0,5,27,32
3,2011-01-01 03:00:00,1,0,0,1,9.84,14.395,75,0.0,3,10,13
4,2011-01-01 04:00:00,1,0,0,1,9.84,14.395,75,0.0,0,1,1


In [3]:
df.head(10)

Unnamed: 0,datetime,season,holiday,workingday,weather,temp,atemp,humidity,windspeed,casual,registered,count
0,2011-01-01 00:00:00,1,0,0,1,9.84,14.395,81,0.0,3,13,16
1,2011-01-01 01:00:00,1,0,0,1,9.02,13.635,80,0.0,8,32,40
2,2011-01-01 02:00:00,1,0,0,1,9.02,13.635,80,0.0,5,27,32
3,2011-01-01 03:00:00,1,0,0,1,9.84,14.395,75,0.0,3,10,13
4,2011-01-01 04:00:00,1,0,0,1,9.84,14.395,75,0.0,0,1,1
5,2011-01-01 05:00:00,1,0,0,2,9.84,12.88,75,6.0032,0,1,1
6,2011-01-01 06:00:00,1,0,0,1,9.02,13.635,80,0.0,2,0,2
7,2011-01-01 07:00:00,1,0,0,1,8.2,12.88,86,0.0,1,2,3
8,2011-01-01 08:00:00,1,0,0,1,9.84,14.395,75,0.0,1,7,8
9,2011-01-01 09:00:00,1,0,0,1,13.12,17.425,76,0.0,8,6,14


In [4]:
df.describe()
# Подсчитать количество заполненных записей (count),
# среднее (mean),
# стандартное отклонение (std),
# квантили (25%, 50%, 75%),
# минимум и максимум (min и max соответственно)
# для каждой колонки с числами
# Полезно, чтобы посмотреть на масштаб величин и их разброс

Unnamed: 0,season,holiday,workingday,weather,temp,atemp,humidity,windspeed,casual,registered,count
count,10886.0,10886.0,10886.0,10886.0,10886.0,10886.0,10886.0,10886.0,10886.0,10886.0,10886.0
mean,2.506614,0.028569,0.680875,1.418427,20.23086,23.655084,61.88646,12.799395,36.021955,155.552177,191.574132
std,1.116174,0.166599,0.466159,0.633839,7.79159,8.474601,19.245033,8.164537,49.960477,151.039033,181.144454
min,1.0,0.0,0.0,1.0,0.82,0.76,0.0,0.0,0.0,0.0,1.0
25%,2.0,0.0,0.0,1.0,13.94,16.665,47.0,7.0015,4.0,36.0,42.0
50%,3.0,0.0,1.0,1.0,20.5,24.24,62.0,12.998,17.0,118.0,145.0
75%,4.0,0.0,1.0,2.0,26.24,31.06,77.0,16.9979,49.0,222.0,284.0
max,4.0,1.0,1.0,4.0,41.0,45.455,100.0,56.9969,367.0,886.0,977.0


### Колонки

In [5]:
df.columns # посмотреть колонки
# тип объект, но данные в виде списка, обработка возможна такая же как со списком

Index(['datetime', 'season', 'holiday', 'workingday', 'weather', 'temp',
       'atemp', 'humidity', 'windspeed', 'casual', 'registered', 'count'],
      dtype='object')

In [6]:
df.columns[1:5]

Index(['season', 'holiday', 'workingday', 'weather'], dtype='object')

In [7]:
print(len(df.columns)) # количество столбцов
df.columns[6] # 7 столбец

12


'atemp'

### Типы
        > типы колонок определяются автоматически, не всегда правильно.
        > можно указать тип при чтении таблицы.

```
df = pd.read_csv('train.csv', dtype={'season': int})
```
[read.csv](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html)

In [8]:

df.dtypes

datetime       object
season          int64
holiday         int64
workingday      int64
weather         int64
temp          float64
atemp         float64
humidity        int64
windspeed     float64
casual          int64
registered      int64
count           int64
dtype: object

## Фильтрация данных

In [9]:
# вывести те строчки, где колонка workingday = 0, выходной день
df[df.workingday == 0] # df[df['workingday'] == 0], альтернативный вариант через '.'

Unnamed: 0,datetime,season,holiday,workingday,weather,temp,atemp,humidity,windspeed,casual,registered,count
0,2011-01-01 00:00:00,1,0,0,1,9.84,14.395,81,0.0000,3,13,16
1,2011-01-01 01:00:00,1,0,0,1,9.02,13.635,80,0.0000,8,32,40
2,2011-01-01 02:00:00,1,0,0,1,9.02,13.635,80,0.0000,5,27,32
3,2011-01-01 03:00:00,1,0,0,1,9.84,14.395,75,0.0000,3,10,13
4,2011-01-01 04:00:00,1,0,0,1,9.84,14.395,75,0.0000,0,1,1
...,...,...,...,...,...,...,...,...,...,...,...,...
10809,2012-12-16 19:00:00,4,0,0,1,14.76,17.425,93,8.9981,10,99,109
10810,2012-12-16 20:00:00,4,0,0,2,15.58,19.695,82,0.0000,14,108,122
10811,2012-12-16 21:00:00,4,0,0,2,14.76,18.940,93,0.0000,14,92,106
10812,2012-12-16 22:00:00,4,0,0,2,16.40,20.455,82,12.9980,6,83,89


### Фильтрация по логическому **И**

In [10]:
df[
    (df.workingday == 1) & (df.season == 1)
    
]

Unnamed: 0,datetime,season,holiday,workingday,weather,temp,atemp,humidity,windspeed,casual,registered,count
47,2011-01-03 00:00:00,1,0,1,1,9.02,9.850,44,23.9994,0,5,5
48,2011-01-03 01:00:00,1,0,1,1,8.20,8.335,44,27.9993,0,2,2
49,2011-01-03 04:00:00,1,0,1,1,6.56,6.820,47,26.0027,0,1,1
50,2011-01-03 05:00:00,1,0,1,1,6.56,6.820,47,19.0012,0,3,3
51,2011-01-03 06:00:00,1,0,1,1,5.74,5.305,50,26.0027,0,30,30
...,...,...,...,...,...,...,...,...,...,...,...,...
6780,2012-03-19 19:00:00,1,0,1,1,25.42,30.305,61,15.0013,86,463,549
6781,2012-03-19 20:00:00,1,0,1,1,24.60,30.305,64,15.0013,34,296,330
6782,2012-03-19 21:00:00,1,0,1,1,24.60,30.305,64,11.0014,33,190,223
6783,2012-03-19 22:00:00,1,0,1,2,22.96,26.515,73,11.0014,17,131,148


### Логический оператор **OR** 

данные запроса разделяются символом `|`

In [11]:
df[(df.humidity < 10) | (df.temp > 30)]

'''
запись через скобочки
df[(df['humidity'] < 10) | (df['temp'] > 30)]
'''

"\nзапись через скобочки\ndf[(df['humidity'] < 10) | (df['temp'] > 30)]\n"

### Логический оператор **' НЕ '**
Логическое "НЕ" делается через символ ~. Точно так же, как в прошлых операторах, встроенный в Python not не подойдет.

In [12]:
df[ ~(df['workingday'] == 0) ]

Unnamed: 0,datetime,season,holiday,workingday,weather,temp,atemp,humidity,windspeed,casual,registered,count
47,2011-01-03 00:00:00,1,0,1,1,9.02,9.850,44,23.9994,0,5,5
48,2011-01-03 01:00:00,1,0,1,1,8.20,8.335,44,27.9993,0,2,2
49,2011-01-03 04:00:00,1,0,1,1,6.56,6.820,47,26.0027,0,1,1
50,2011-01-03 05:00:00,1,0,1,1,6.56,6.820,47,19.0012,0,3,3
51,2011-01-03 06:00:00,1,0,1,1,5.74,5.305,50,26.0027,0,30,30
...,...,...,...,...,...,...,...,...,...,...,...,...
10881,2012-12-19 19:00:00,4,0,1,1,15.58,19.695,50,26.0027,7,329,336
10882,2012-12-19 20:00:00,4,0,1,1,14.76,17.425,57,15.0013,10,231,241
10883,2012-12-19 21:00:00,4,0,1,1,13.94,15.910,61,15.0013,4,164,168
10884,2012-12-19 22:00:00,4,0,1,1,13.94,17.425,61,6.0032,12,117,129


In [13]:
# Не рабочий день и температура от 10 включительно до 30 не включительно
# можно было использовать df['workingday'] != 0
df[(~(df.workingday == 0)) & (df.temp >= 10) & (df.temp < 30)]

# Когда объединяете "НЕ" с другими условиями, окружите его тоже скобками
#df[(~(df['workingday'] == 0)) & (df['temp'] >= 10) & (df['temp'] < 30)]


Unnamed: 0,datetime,season,holiday,workingday,weather,temp,atemp,humidity,windspeed,casual,registered,count
59,2011-01-03 14:00:00,1,0,1,1,10.66,12.120,30,19.0012,11,66,77
60,2011-01-03 15:00:00,1,0,1,1,10.66,12.120,30,16.9979,14,58,72
61,2011-01-03 16:00:00,1,0,1,1,10.66,12.120,30,16.9979,9,67,76
82,2011-01-04 14:00:00,1,0,1,1,10.66,12.880,52,15.0013,9,54,63
83,2011-01-04 15:00:00,1,0,1,1,11.48,13.635,52,16.9979,17,48,65
...,...,...,...,...,...,...,...,...,...,...,...,...
10881,2012-12-19 19:00:00,4,0,1,1,15.58,19.695,50,26.0027,7,329,336
10882,2012-12-19 20:00:00,4,0,1,1,14.76,17.425,57,15.0013,10,231,241
10883,2012-12-19 21:00:00,4,0,1,1,13.94,15.910,61,15.0013,4,164,168
10884,2012-12-19 22:00:00,4,0,1,1,13.94,17.425,61,6.0032,12,117,129


## Функции-фильтры

**.isna()** – фильтрует по записям, в которых пропущено значение.

In [14]:
df2 = pd.read_csv('train2.csv')

df2[df2['season'].isna()] # внутри конструкции находим True/False по пустым значениям и подставляем в df

Unnamed: 0,datetime,season,holiday,workingday,weather,temp,atemp,humidity,windspeed,casual,registered,count
28,2011-01-02 04:00:00,,0,0.0,2,18.86,22.725,94,12.998,2,1,3
81,2011-01-04 13:00:00,,0,1.0,1,9.84,11.365,56,12.998,18,79,97
214,2011-01-10 05:00:00,,0,1.0,1,4.1,5.305,54,16.9979,0,3,3


In [15]:
df2.isna().any() # выводит по названиям колонок инфо где есть пропуски(True)

datetime      False
season         True
holiday       False
workingday     True
weather       False
temp          False
atemp         False
humidity      False
windspeed     False
casual        False
registered    False
count         False
dtype: bool

In [16]:
# 2 раза примененная any() показывает - есть ли пропуски во всем df
if df2.isna().any().any():
    print('В df найдены пропущенные значения')
else:
    print('В df пропущенных значений нет')

В df найдены пропущенные значения


**.isin()** – проверяет, находится ли значение в разрешенном списке. Как и в .isna(), мы не можем использовать питоновскую конструкцию in:

In [17]:
df[df.season.isin([1,2])]

Unnamed: 0,datetime,season,holiday,workingday,weather,temp,atemp,humidity,windspeed,casual,registered,count
0,2011-01-01 00:00:00,1,0,0,1,9.84,14.395,81,0.0000,3,13,16
1,2011-01-01 01:00:00,1,0,0,1,9.02,13.635,80,0.0000,8,32,40
2,2011-01-01 02:00:00,1,0,0,1,9.02,13.635,80,0.0000,5,27,32
3,2011-01-01 03:00:00,1,0,0,1,9.84,14.395,75,0.0000,3,10,13
4,2011-01-01 04:00:00,1,0,0,1,9.84,14.395,75,0.0000,0,1,1
...,...,...,...,...,...,...,...,...,...,...,...,...
8146,2012-06-19 19:00:00,2,0,1,1,32.80,38.635,59,15.0013,82,432,514
8147,2012-06-19 20:00:00,2,0,1,1,32.80,37.880,55,16.9979,59,399,458
8148,2012-06-19 21:00:00,2,0,1,1,31.16,35.605,62,11.0014,37,239,276
8149,2012-06-19 22:00:00,2,0,1,1,29.52,34.850,79,6.0032,51,240,291


### Series и Index
Это объект типа `Series`. Его можно воспринимать как DataFrame с одной колонкой. У Series есть индекс (англ. index) – числа слева – и значения, в данном случае, булевые (что можно увидеть как dtype: bool).

In [18]:
df.season == 1

0         True
1         True
2         True
3         True
4         True
         ...  
10881    False
10882    False
10883    False
10884    False
10885    False
Name: season, Length: 10886, dtype: bool

### Index

In [19]:
df

Unnamed: 0,datetime,season,holiday,workingday,weather,temp,atemp,humidity,windspeed,casual,registered,count
0,2011-01-01 00:00:00,1,0,0,1,9.84,14.395,81,0.0000,3,13,16
1,2011-01-01 01:00:00,1,0,0,1,9.02,13.635,80,0.0000,8,32,40
2,2011-01-01 02:00:00,1,0,0,1,9.02,13.635,80,0.0000,5,27,32
3,2011-01-01 03:00:00,1,0,0,1,9.84,14.395,75,0.0000,3,10,13
4,2011-01-01 04:00:00,1,0,0,1,9.84,14.395,75,0.0000,0,1,1
...,...,...,...,...,...,...,...,...,...,...,...,...
10881,2012-12-19 19:00:00,4,0,1,1,15.58,19.695,50,26.0027,7,329,336
10882,2012-12-19 20:00:00,4,0,1,1,14.76,17.425,57,15.0013,10,231,241
10883,2012-12-19 21:00:00,4,0,1,1,13.94,15.910,61,15.0013,4,164,168
10884,2012-12-19 22:00:00,4,0,1,1,13.94,17.425,61,6.0032,12,117,129


In [20]:
df.loc[4] # 4 индекс, данные вернулись в виде Series

datetime      2011-01-01 04:00:00
season                          1
holiday                         0
workingday                      0
weather                         1
temp                         9.84
atemp                      14.395
humidity                       75
windspeed                     0.0
casual                          0
registered                      1
count                           1
Name: 4, dtype: object

In [21]:
df.loc[4]['temp'] # прямое обращение к колонке 'temp'

9.84

In [22]:
'''
в качестве index можно поставить любую колонку, например колонку 'datetime'
с помощью set_index
'''
df_dt = df.copy().set_index('datetime')
df_dt.head(5)

Unnamed: 0_level_0,season,holiday,workingday,weather,temp,atemp,humidity,windspeed,casual,registered,count
datetime,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
2011-01-01 00:00:00,1,0,0,1,9.84,14.395,81,0.0,3,13,16
2011-01-01 01:00:00,1,0,0,1,9.02,13.635,80,0.0,8,32,40
2011-01-01 02:00:00,1,0,0,1,9.02,13.635,80,0.0,5,27,32
2011-01-01 03:00:00,1,0,0,1,9.84,14.395,75,0.0,3,10,13
2011-01-01 04:00:00,1,0,0,1,9.84,14.395,75,0.0,0,1,1


In [23]:
df_dt.loc['2011-01-01 00:00:00'] # забираем данные по новому index

season         1.000
holiday        0.000
workingday     0.000
weather        1.000
temp           9.840
atemp         14.395
humidity      81.000
windspeed      0.000
casual         3.000
registered    13.000
count         16.000
Name: 2011-01-01 00:00:00, dtype: float64

In [24]:
# есть способ забрать по порядку, а не по индексу - .iloc

df_dt.iloc[4]

season         1.000
holiday        0.000
workingday     0.000
weather        1.000
temp           9.840
atemp         14.395
humidity      75.000
windspeed      0.000
casual         0.000
registered     1.000
count          1.000
Name: 2011-01-01 04:00:00, dtype: float64

In [25]:
df_dt.loc['2011-01-01 04:00:00', 'temp'] # обращение и по index и сразу по колонке

9.84

In [26]:
df_dt.iloc[3:9] # df_dt.iloc[3:9:2]  - аналогично спискам

Unnamed: 0_level_0,season,holiday,workingday,weather,temp,atemp,humidity,windspeed,casual,registered,count
datetime,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
2011-01-01 03:00:00,1,0,0,1,9.84,14.395,75,0.0,3,10,13
2011-01-01 04:00:00,1,0,0,1,9.84,14.395,75,0.0,0,1,1
2011-01-01 05:00:00,1,0,0,2,9.84,12.88,75,6.0032,0,1,1
2011-01-01 06:00:00,1,0,0,1,9.02,13.635,80,0.0,2,0,2
2011-01-01 07:00:00,1,0,0,1,8.2,12.88,86,0.0,1,2,3
2011-01-01 08:00:00,1,0,0,1,9.84,14.395,75,0.0,1,7,8


In [27]:
df_dt.loc['2011-01-01 04:00:00', 'temp'] = 12 # перезаписываем значение ячейки
df_dt.iloc[4].temp # проверяем, что записалось значение

12.0

In [28]:
df_dt.loc['2011-01-01 23:00:00', 'temp'] = -5 # перезаписываем значение ячейки
df_dt.iloc[23]['temp']

-5.0

In [29]:
# индекс можно сбросить на 0, 1, 2
df_dt.reset_index()  # возвращает копию, НЕ редактирует исходный датафрейм

Unnamed: 0,datetime,season,holiday,workingday,weather,temp,atemp,humidity,windspeed,casual,registered,count
0,2011-01-01 00:00:00,1,0,0,1,9.84,14.395,81,0.0000,3,13,16
1,2011-01-01 01:00:00,1,0,0,1,9.02,13.635,80,0.0000,8,32,40
2,2011-01-01 02:00:00,1,0,0,1,9.02,13.635,80,0.0000,5,27,32
3,2011-01-01 03:00:00,1,0,0,1,9.84,14.395,75,0.0000,3,10,13
4,2011-01-01 04:00:00,1,0,0,1,12.00,14.395,75,0.0000,0,1,1
...,...,...,...,...,...,...,...,...,...,...,...,...
10881,2012-12-19 19:00:00,4,0,1,1,15.58,19.695,50,26.0027,7,329,336
10882,2012-12-19 20:00:00,4,0,1,1,14.76,17.425,57,15.0013,10,231,241
10883,2012-12-19 21:00:00,4,0,1,1,13.94,15.910,61,15.0013,4,164,168
10884,2012-12-19 22:00:00,4,0,1,1,13.94,17.425,61,6.0032,12,117,129


In [30]:
df_dt.iloc[4]['weather'] = -2 # с помощью iloc записать данные ячейки не получится.

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_dt.iloc[4]['weather'] = -2 # с помощью iloc записать данные ячейки не получится.


### Группировка данных

In [31]:
df.groupby('season').agg({'temp': 'mean'}) 
# групировка по столбцу season(в мешки) 
# далее берем столбец с t и вычисляем среднее для каждого сезона.

# доступные функции можно найти здесь
# https://stackoverflow.com/questions/53943319/what-are-all-python-pandas-agg-functions?rq=1

Unnamed: 0_level_0,temp
season,Unnamed: 1_level_1
1,12.530491
2,22.823483
3,28.789111
4,16.649239


In [32]:
df.groupby(['season'], as_index=False)['temp'].agg('median')
# считаем медианное значение t по кварталам и переводим во фрэйм (.to_frame() )

Unnamed: 0,season,temp
0,1,12.3
1,2,22.96
2,3,28.7
3,4,16.4


In [33]:
df.groupby(['season', 'workingday']).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,holiday,weather,temp,atemp,humidity,windspeed,casual,registered,count
season,workingday,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
1,0,0.082751,1.446387,12.344918,14.907646,56.988345,15.77654,26.615385,79.111888,105.727273
1,1,0.0,1.414114,12.617593,15.379768,55.973742,14.102107,10.267505,111.058534,121.326039
2,0,0.057143,1.388095,22.74231,26.536792,61.114286,11.556256,79.867857,142.825,222.692857
2,1,0.0,1.438457,22.859503,26.696046,60.736926,14.226238,33.060222,178.889065,211.949287
3,0,0.108108,1.369369,28.675068,32.735743,65.875,11.862931,82.248874,150.271396,232.52027
3,1,0.0,1.365312,28.844,32.446949,63.280759,11.338448,37.76748,197.562602,235.330081
4,0,0.108108,1.346847,15.696351,19.106227,64.557432,11.41133,48.507883,143.629505,192.137387
4,1,0.0,1.514085,17.107616,20.518667,66.951246,11.806496,18.995125,183.288732,202.283857


In [34]:
df.groupby(['season', 'workingday'], as_index=False)['humidity'].median()
# группируем по 2 колонкам, фильтруем по влажность,берем медиану и убираем индексы.

Unnamed: 0,season,workingday,humidity
0,1,0,52.0
1,1,1,54.0
2,2,0,61.0
3,2,1,61.0
4,3,0,69.0
5,3,1,65.0
6,4,0,64.5
7,4,1,66.0


### Время и даты
pd.to_datetime

In [39]:
pd.to_datetime(df.datetime) # dtype поменялся на dtype c object

0       2011-01-01 00:00:00
1       2011-01-01 01:00:00
2       2011-01-01 02:00:00
3       2011-01-01 03:00:00
4       2011-01-01 04:00:00
                ...        
10881   2012-12-19 19:00:00
10882   2012-12-19 20:00:00
10883   2012-12-19 21:00:00
10884   2012-12-19 22:00:00
10885   2012-12-19 23:00:00
Name: datetime, Length: 10886, dtype: datetime64[ns]

In [40]:
df.datetime # до преобразования

0        2011-01-01 00:00:00
1        2011-01-01 01:00:00
2        2011-01-01 02:00:00
3        2011-01-01 03:00:00
4        2011-01-01 04:00:00
                ...         
10881    2012-12-19 19:00:00
10882    2012-12-19 20:00:00
10883    2012-12-19 21:00:00
10884    2012-12-19 22:00:00
10885    2012-12-19 23:00:00
Name: datetime, Length: 10886, dtype: object

In [44]:
df_1 = df.copy() # копируем df
df_1.datetime = pd.to_datetime(df_1.datetime) # преобразуем колонку с временем к datetime64[ns]

0       2011-01-01 00:00:00
1       2011-01-01 01:00:00
2       2011-01-01 02:00:00
3       2011-01-01 03:00:00
4       2011-01-01 04:00:00
                ...        
10881   2012-12-19 19:00:00
10882   2012-12-19 20:00:00
10883   2012-12-19 21:00:00
10884   2012-12-19 22:00:00
10885   2012-12-19 23:00:00
Name: datetime, Length: 10886, dtype: datetime64[ns]

In [46]:
df_1[df_1.datetime.dt.month == 5] # используем обращение .dt чтобы вытащить записи с 5 месяцем

Unnamed: 0,datetime,season,holiday,workingday,weather,temp,atemp,humidity,windspeed,casual,registered,count
1778,2011-05-01 00:00:00,2,0,0,1,17.22,21.210,67,6.0032,19,77,96
1779,2011-05-01 01:00:00,2,0,0,1,17.22,21.210,69,7.0015,9,50,59
1780,2011-05-01 02:00:00,2,0,0,1,17.22,21.210,77,7.0015,7,43,50
1781,2011-05-01 03:00:00,2,0,0,1,16.40,20.455,82,7.0015,8,15,23
1782,2011-05-01 04:00:00,2,0,0,1,16.40,20.455,76,7.0015,6,11,17
...,...,...,...,...,...,...,...,...,...,...,...,...
7690,2012-05-19 19:00:00,2,0,0,1,28.70,31.820,39,8.9981,203,229,432
7691,2012-05-19 20:00:00,2,0,0,1,27.88,31.820,41,6.0032,118,197,315
7692,2012-05-19 21:00:00,2,0,0,1,26.24,31.060,50,0.0000,81,178,259
7693,2012-05-19 22:00:00,2,0,0,1,26.24,31.060,47,0.0000,104,234,338


In [49]:
# группируем по месяцам значения t(среднее) и влажность: минимальная
df_1.groupby(
        df_1.datetime.dt.month
).agg({'temp': 'mean',
       'humidity': 'min'
}).reset_index()

Unnamed: 0,datetime,temp,humidity
0,1,9.84,25
1,2,11.798535,8
2,3,15.902175,0
3,4,18.718372,16
4,5,22.674079,21
5,6,27.064496,20
6,7,30.841711,17
7,8,29.736689,25
8,9,25.779032,28
9,10,20.933853,29


In [53]:
# в исходном df так посчитать не получится
try:
    df[df.datetime.dt.month == 5]
except:
    print('Так не работает')

Так не работает


In [61]:
# в преобразованном df работает
try:
    print(df_1[df_1.datetime.dt.month == 5])
except:
    print('Так не работает')

                datetime  season  holiday  workingday  weather   temp   atemp  \
1778 2011-05-01 00:00:00       2        0           0        1  17.22  21.210   
1779 2011-05-01 01:00:00       2        0           0        1  17.22  21.210   
1780 2011-05-01 02:00:00       2        0           0        1  17.22  21.210   
1781 2011-05-01 03:00:00       2        0           0        1  16.40  20.455   
1782 2011-05-01 04:00:00       2        0           0        1  16.40  20.455   
...                  ...     ...      ...         ...      ...    ...     ...   
7690 2012-05-19 19:00:00       2        0           0        1  28.70  31.820   
7691 2012-05-19 20:00:00       2        0           0        1  27.88  31.820   
7692 2012-05-19 21:00:00       2        0           0        1  26.24  31.060   
7693 2012-05-19 22:00:00       2        0           0        1  26.24  31.060   
7694 2012-05-19 23:00:00       2        0           0        1  24.60  31.060   

      humidity  windspeed  

In [65]:
# количество поездок по неделям
rents_by_week = df_1.groupby(
df_1.datetime.dt.weekofyear
).agg({
    'temp': 'count'
})

rents_by_week.head(5)

  df_1.datetime.dt.weekofyear


Unnamed: 0_level_0,temp
datetime,Unnamed: 1_level_1
1,329
2,330
3,154
5,261
6,330


In [72]:
# sample  - генератор случайностей, 10 случайных недель, random_state=42 для фиксирования
rents_by_week.sample(10,random_state=42)

Unnamed: 0_level_0,temp
datetime,Unnamed: 1_level_1
46,312
29,144
31,288
51,96
41,336
48,144
6,330
15,334
11,308
5,261
