# Урок 6
##### Чтение и обработка данных

In [1]:
# 2019 https://geo-python.github.io/site/notebooks/L6/advanced-data-processing-with-pandas.html#
# 2020 https://geo-python-site.readthedocs.io/en/latest/lessons/L6/overview.html

import os
import pandas as pd
# import matplotlib.pyplot as plt
import numpy as np

# Корректное отображение графиков в jupyter
# %matplotlib inline

In [2]:
# Текущая директория
ROOT_PATH = os.path.abspath(os.curdir)

# Чтение данных

In [3]:
fp = os.path.join(ROOT_PATH,r'data\029440.txt')

In [4]:
# считывает данные, используя различное количество пробелов в качестве разделителя и указывая символы * в качестве значений NoData
df = pd.read_csv(fp, delim_whitespace=True, na_values=['*', '**', '***', '****', '*****', '******'])


In [5]:
# первые 5 строк
df.head()

Unnamed: 0,USAF,WBAN,YR--MODAHRMN,DIR,SPD,GUS,CLG,SKC,L,M,...,SLP,ALT,STP,MAX,MIN,PCP01,PCP06,PCP24,PCPXX,SD
0,29440,99999,190601010600,90.0,7.0,,,OVC,,,...,1011.0,,,,,,,,,
1,29440,99999,190601011300,,0.0,,,OVC,,,...,1015.5,,,,,,,,,
2,29440,99999,190601012000,,0.0,,,OVC,,,...,1016.2,,,,,,,,,
3,29440,99999,190601020600,,0.0,,,CLR,,,...,1016.2,,,,,,,,,
4,29440,99999,190601021300,270.0,7.0,,,OVC,,,...,1015.6,,,,,,,,,


In [6]:
# название колонок
df.columns

Index(['USAF', 'WBAN', 'YR--MODAHRMN', 'DIR', 'SPD', 'GUS', 'CLG', 'SKC', 'L',
       'M', 'H', 'VSB', 'MW', 'MW.1', 'MW.2', 'MW.3', 'AW', 'AW.1', 'AW.2',
       'AW.3', 'W', 'TEMP', 'DEWP', 'SLP', 'ALT', 'STP', 'MAX', 'MIN', 'PCP01',
       'PCP06', 'PCP24', 'PCPXX', 'SD'],
      dtype='object')

In [7]:
# колонки по списку
df = pd.read_csv(fp, delim_whitespace=True, 
                 usecols=['USAF','YR--MODAHRMN', 'DIR', 'SPD', 'GUS','TEMP', 'MAX', 'MIN'], 
                 na_values=['*', '**', '***', '****', '*****', '******'])
df.head()

Unnamed: 0,USAF,YR--MODAHRMN,DIR,SPD,GUS,TEMP,MAX,MIN
0,29440,190601010600,90.0,7.0,,27.0,,
1,29440,190601011300,,0.0,,27.0,,
2,29440,190601012000,,0.0,,25.0,,
3,29440,190601020600,,0.0,,26.0,,
4,29440,190601021300,270.0,7.0,,27.0,,


## Переименование столбцов

In [8]:
df.columns

Index(['USAF', 'YR--MODAHRMN', 'DIR', 'SPD', 'GUS', 'TEMP', 'MAX', 'MIN'], dtype='object')

In [9]:
# словарь с новыми именами
new_name = {"YR--MODAHRMN":"TIME", "SPD":"SPEED", "GUS":"GUST"}
print(new_name)
print(type(new_name))

{'YR--MODAHRMN': 'TIME', 'SPD': 'SPEED', 'GUS': 'GUST'}
<class 'dict'>


In [10]:
df = df.rename(columns=new_name)
df.head()

Unnamed: 0,USAF,TIME,DIR,SPEED,GUST,TEMP,MAX,MIN
0,29440,190601010600,90.0,7.0,,27.0,,
1,29440,190601011300,,0.0,,27.0,,
2,29440,190601012000,,0.0,,25.0,,
3,29440,190601020600,,0.0,,26.0,,
4,29440,190601021300,270.0,7.0,,27.0,,


# Задача:
переименование столбцов
Значения температуры снова находятся в градусах Фаренгейта. Как вы можете догадаться, мы скоро переведем эти температуры в градусы Цельсия. Чтобы избежать путаницы со столбцами, переименуйте столбец TEMP в TEMP_F. Кроме того, мы могли бы переименовать USAF как STATION_NUMBER.

In [11]:
new_name = {"USAF":"STATION_NUMBER", "TEMP":"TEMP_F"}
df = df.rename(columns=new_name)

- Верхний и нижний ряды:

In [12]:
df.head()

Unnamed: 0,STATION_NUMBER,TIME,DIR,SPEED,GUST,TEMP_F,MAX,MIN
0,29440,190601010600,90.0,7.0,,27.0,,
1,29440,190601011300,,0.0,,27.0,,
2,29440,190601012000,,0.0,,25.0,,
3,29440,190601020600,,0.0,,26.0,,
4,29440,190601021300,270.0,7.0,,27.0,,


In [13]:
df.tail()

Unnamed: 0,STATION_NUMBER,TIME,DIR,SPEED,GUST,TEMP_F,MAX,MIN
74935,29440,201910012220,130.0,3.0,,39.0,,
74936,29440,201910012250,110.0,3.0,,37.0,,
74937,29440,201910012300,100.0,2.0,,38.0,,
74938,29440,201910012320,100.0,3.0,,37.0,,
74939,29440,201910012350,110.0,3.0,,37.0,,


- Сколько у нас строк и столбцов:

In [14]:
df.shape

(74940, 8)

- Типы данных столбцов

In [15]:
df.dtypes

STATION_NUMBER      int64
TIME                int64
DIR               float64
SPEED             float64
GUST              float64
TEMP_F            float64
MAX               float64
MIN               float64
dtype: object

- Описательная статистика:

In [16]:
print(df.describe())

       STATION_NUMBER          TIME           DIR         SPEED          GUST  \
count         74940.0  7.494000e+04  71794.000000  74488.000000  10271.000000   
mean          29440.0  2.011518e+11    306.184222      7.143755     16.706747   
std               0.0  2.590599e+09    294.547944      4.665385      5.186162   
min           29440.0  1.906010e+11     10.000000      0.000000     11.000000   
25%           29440.0  2.017072e+11    140.000000      5.000000     13.000000   
50%           29440.0  2.018041e+11    210.000000      7.000000     15.000000   
75%           29440.0  2.019011e+11    320.000000      9.000000     19.000000   
max           29440.0  2.019100e+11    990.000000     59.000000     43.000000   

             TEMP_F          MAX          MIN  
count  74933.000000  1900.000000  1901.000000  
mean      42.348018    46.622105    37.624934  
std       17.382721    17.735917    16.878257  
min      -22.000000    -2.000000   -16.000000  
25%       30.000000    33.0000

# Использование ваших собственных функций в Pandas

In [17]:
def fahr_to_celsius(temp_fahrenheit):
    """
    Функция для преобразования температуры по Фаренгейту В градус Цельсия.
    parameters
    ----------
    temp_fahrenheit: int | float -
    ввод температуры в градусах Фаренгейта (должно быть число)

    returns
    -------
    температура в градусах Цельсия (поплавок)
    """

    # преобразовать Фаренгейта в Цельсия и вернуть его
    converted_temp = (temp_fahrenheit - 32) / 1.8
    return converted_temp


In [18]:
df["TEMP_C"] = fahr_to_celsius(df["TEMP_F"])
df.head()

Unnamed: 0,STATION_NUMBER,TIME,DIR,SPEED,GUST,TEMP_F,MAX,MIN,TEMP_C
0,29440,190601010600,90.0,7.0,,27.0,,,-2.777778
1,29440,190601011300,,0.0,,27.0,,,-2.777778
2,29440,190601012000,,0.0,,25.0,,,-3.888889
3,29440,190601020600,,0.0,,26.0,,,-3.333333
4,29440,190601021300,270.0,7.0,,27.0,,,-2.777778


# Перебор строк

In [19]:
# Итерация по строкам
for idx, row in df.iterrows():
    # print index
    print(f"Индекс : {idx}")
    # print temp value
    print(f"Температура по Фарингейту : {row['TEMP_F']}", "\n")
    
    if idx == 5: break

Индекс : 0
Температура по Фарингейту : 27.0 

Индекс : 1
Температура по Фарингейту : 27.0 

Индекс : 2
Температура по Фарингейту : 25.0 

Индекс : 3
Температура по Фарингейту : 26.0 

Индекс : 4
Температура по Фарингейту : 27.0 

Индекс : 5
Температура по Фарингейту : 27.0 



In [20]:
# создадим пустой столбец TEMP_C для температур Цельсия и обновим значения в этот столбец
new_column = "TEMP_C"
df[new_column] = None

for idx, row in df.iterrows():
    celsius = fahr_to_celsius(row["TEMP_F"])
    df.at[idx, new_column] = celsius

In [21]:
df.head()

Unnamed: 0,STATION_NUMBER,TIME,DIR,SPEED,GUST,TEMP_F,MAX,MIN,TEMP_C
0,29440,190601010600,90.0,7.0,,27.0,,,-2.77778
1,29440,190601011300,,0.0,,27.0,,,-2.77778
2,29440,190601012000,,0.0,,25.0,,,-3.88889
3,29440,190601020600,,0.0,,26.0,,,-3.33333
4,29440,190601021300,270.0,7.0,,27.0,,,-2.77778


# Применение функции:

In [22]:
# создадим пустой столбец TEMP_C для температур Цельсия и обновим значения
new_column = "TEMP_C"
df[new_column] = None

df["TEMP_C"] = df["TEMP_F"].apply(fahr_to_celsius)

df.head()

Unnamed: 0,STATION_NUMBER,TIME,DIR,SPEED,GUST,TEMP_F,MAX,MIN,TEMP_C
0,29440,190601010600,90.0,7.0,,27.0,,,-2.777778
1,29440,190601011300,,0.0,,27.0,,,-2.777778
2,29440,190601012000,,0.0,,25.0,,,-3.888889
3,29440,190601020600,,0.0,,26.0,,,-3.333333
4,29440,190601021300,270.0,7.0,,27.0,,,-2.777778


# Парсинг дат:

In [23]:
# YR--MODAHRMN = YEAR-MONTH-DAY-HOUR-MINUTE IN GREENWICH MEAN TIME (GMT) > первая запись 1906-01-01-06-00
df["TIME"].head(10)

0    190601010600
1    190601011300
2    190601012000
3    190601020600
4    190601021300
5    190601022000
6    190601030600
7    190601031300
8    190601032000
9    190601040600
Name: TIME, dtype: int64

In [24]:
df["TIME"].tail(10)

74930    201910012050
74931    201910012100
74932    201910012120
74933    201910012150
74934    201910012200
74935    201910012220
74936    201910012250
74937    201910012300
74938    201910012320
74939    201910012350
Name: TIME, dtype: int64

In [25]:
df["TIME"].dtypes

dtype('int64')

- Вартант 1:

In [26]:
data = "201910012350"
data[0:6]

'201910'

In [27]:
# 1 - преобразуем int в str
df["TIME_STR"] = df["TIME"].astype(str)
df.head()

Unnamed: 0,STATION_NUMBER,TIME,DIR,SPEED,GUST,TEMP_F,MAX,MIN,TEMP_C,TIME_STR
0,29440,190601010600,90.0,7.0,,27.0,,,-2.777778,190601010600
1,29440,190601011300,,0.0,,27.0,,,-2.777778,190601011300
2,29440,190601012000,,0.0,,25.0,,,-3.888889,190601012000
3,29440,190601020600,,0.0,,26.0,,,-3.333333,190601020600
4,29440,190601021300,270.0,7.0,,27.0,,,-2.777778,190601021300


In [75]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 74940 entries, 0 to 74939
Data columns (total 14 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   STATION_NUMBER  74940 non-null  int64         
 1   TIME            74940 non-null  int64         
 2   DIR             71794 non-null  float64       
 3   SPEED           74488 non-null  float64       
 4   GUST            10271 non-null  float64       
 5   TEMP_F          74933 non-null  float64       
 6   MAX             1900 non-null   float64       
 7   MIN             1901 non-null   float64       
 8   TEMP_C          74933 non-null  float64       
 9   TIME_STR        74940 non-null  object        
 10  YEAR_MONTH      74940 non-null  datetime64[ns]
 11  DATE            74940 non-null  datetime64[ns]
 12  YEAR            74940 non-null  int64         
 13  MONTH           74940 non-null  int64         
dtypes: datetime64[ns](2), float64(7), int64(4), object(1)


In [28]:
# 2 - срезы
df['YEAR_MONTH'] = df['TIME_STR'].str.slice(start=0, stop=6)
df.head()

Unnamed: 0,STATION_NUMBER,TIME,DIR,SPEED,GUST,TEMP_F,MAX,MIN,TEMP_C,TIME_STR,YEAR_MONTH
0,29440,190601010600,90.0,7.0,,27.0,,,-2.777778,190601010600,190601
1,29440,190601011300,,0.0,,27.0,,,-2.777778,190601011300,190601
2,29440,190601012000,,0.0,,25.0,,,-3.888889,190601012000,190601
3,29440,190601020600,,0.0,,26.0,,,-3.333333,190601020600,190601
4,29440,190601021300,270.0,7.0,,27.0,,,-2.777778,190601021300,190601


- Вариант 2:

In [29]:
# Преобразовать
df["DATE"] = pd.to_datetime(df["TIME_STR"])
df.head()

Unnamed: 0,STATION_NUMBER,TIME,DIR,SPEED,GUST,TEMP_F,MAX,MIN,TEMP_C,TIME_STR,YEAR_MONTH,DATE
0,29440,190601010600,90.0,7.0,,27.0,,,-2.777778,190601010600,190601,1906-01-01 06:00:00
1,29440,190601011300,,0.0,,27.0,,,-2.777778,190601011300,190601,1906-01-01 13:00:00
2,29440,190601012000,,0.0,,25.0,,,-3.888889,190601012000,190601,1906-01-01 20:00:00
3,29440,190601020600,,0.0,,26.0,,,-3.333333,190601020600,190601,1906-01-02 06:00:00
4,29440,190601021300,270.0,7.0,,27.0,,,-2.777778,190601021300,190601,1906-01-02 13:00:00


In [30]:
#ИЛИ
# Преобразовать
df["YEAR_MONTH"] = pd.to_datetime(df["TIME_STR"], format='%Y%m', exact=False)
df.head()

Unnamed: 0,STATION_NUMBER,TIME,DIR,SPEED,GUST,TEMP_F,MAX,MIN,TEMP_C,TIME_STR,YEAR_MONTH,DATE
0,29440,190601010600,90.0,7.0,,27.0,,,-2.777778,190601010600,1906-01-01,1906-01-01 06:00:00
1,29440,190601011300,,0.0,,27.0,,,-2.777778,190601011300,1906-01-01,1906-01-01 13:00:00
2,29440,190601012000,,0.0,,25.0,,,-3.888889,190601012000,1906-01-01,1906-01-01 20:00:00
3,29440,190601020600,,0.0,,26.0,,,-3.333333,190601020600,1906-01-01,1906-01-02 06:00:00
4,29440,190601021300,270.0,7.0,,27.0,,,-2.777778,190601021300,1906-01-01,1906-01-02 13:00:00


### Свойства datetime серии Pandas:

In [31]:
# выделяем год
df['DATE'].dt.year

0        1906
1        1906
2        1906
3        1906
4        1906
         ... 
74935    2019
74936    2019
74937    2019
74938    2019
74939    2019
Name: DATE, Length: 74940, dtype: int64

In [32]:
# выделяем месяц
data_test = df['DATE'].dt.month
data_test.head()

0    1
1    1
2    1
3    1
4    1
Name: DATE, dtype: int64

In [33]:
# уникальные значения года
df['DATE'].dt.year.unique()

array([1906, 1907, 1908, 1909, 2017, 2018, 2019], dtype=int64)

In [34]:
# количество уникальных значений года
df['DATE'].dt.year.nunique()

7

## ЗАДАЧА:
Создайте два новых столбца: YEAR и MONTH на основе столбца даты

In [35]:
df['YEAR'] = df['DATE'].dt.year
df['MONTH'] = df['DATE'].dt.month

df.head()

Unnamed: 0,STATION_NUMBER,TIME,DIR,SPEED,GUST,TEMP_F,MAX,MIN,TEMP_C,TIME_STR,YEAR_MONTH,DATE,YEAR,MONTH
0,29440,190601010600,90.0,7.0,,27.0,,,-2.777778,190601010600,1906-01-01,1906-01-01 06:00:00,1906,1
1,29440,190601011300,,0.0,,27.0,,,-2.777778,190601011300,1906-01-01,1906-01-01 13:00:00,1906,1
2,29440,190601012000,,0.0,,25.0,,,-3.888889,190601012000,1906-01-01,1906-01-01 20:00:00,1906,1
3,29440,190601020600,,0.0,,26.0,,,-3.333333,190601020600,1906-01-01,1906-01-02 06:00:00,1906,1
4,29440,190601021300,270.0,7.0,,27.0,,,-2.777778,190601021300,1906-01-01,1906-01-02 13:00:00,1906,1


## Агрегирование данных в Pandas:

Наша практическая задача-рассчитать средние температуры за каждый месяц

In [36]:
# проверка
print(("количество строк:", len(df)))
df.head()

('количество строк:', 74940)


Unnamed: 0,STATION_NUMBER,TIME,DIR,SPEED,GUST,TEMP_F,MAX,MIN,TEMP_C,TIME_STR,YEAR_MONTH,DATE,YEAR,MONTH
0,29440,190601010600,90.0,7.0,,27.0,,,-2.777778,190601010600,1906-01-01,1906-01-01 06:00:00,1906,1
1,29440,190601011300,,0.0,,27.0,,,-2.777778,190601011300,1906-01-01,1906-01-01 13:00:00,1906,1
2,29440,190601012000,,0.0,,25.0,,,-3.888889,190601012000,1906-01-01,1906-01-01 20:00:00,1906,1
3,29440,190601020600,,0.0,,26.0,,,-3.333333,190601020600,1906-01-01,1906-01-02 06:00:00,1906,1
4,29440,190601021300,270.0,7.0,,27.0,,,-2.777778,190601021300,1906-01-01,1906-01-02 13:00:00,1906,1


In [37]:
# группировка по году и месяцу
grouped = df.groupby(["YEAR", "MONTH"])
# ИЛИ
# grouped = df.groupby("YEAR_MONTH")

In [38]:
# Что это за тип?
print("Type:\n", type(grouped))

# сколько?
print("длина:\n", len(grouped))


Type:
 pandas.core.groupby.generic.DataFrameGroupBy
длина:
 82


In [39]:
# Ответ: длина сгруппированного объекта должна совпадать с
df["YEAR_MONTH"].nunique()

# другими словами, количество групп - это количество уникальных комбинаций года и месяца в наших данных


82

In [40]:
# Проверьте "имена" каждой группы 
grouped.groups.keys()

dict_keys([(1906, 1), (1906, 2), (1906, 3), (1906, 4), (1906, 5), (1906, 6), (1906, 7), (1906, 8), (1906, 9), (1906, 10), (1906, 11), (1906, 12), (1907, 1), (1907, 2), (1907, 3), (1907, 4), (1907, 5), (1907, 6), (1907, 7), (1907, 8), (1907, 9), (1907, 10), (1907, 11), (1907, 12), (1908, 1), (1908, 2), (1908, 3), (1908, 4), (1908, 5), (1908, 6), (1908, 7), (1908, 8), (1908, 9), (1908, 10), (1908, 11), (1908, 12), (1909, 1), (1909, 2), (1909, 3), (1909, 4), (1909, 5), (1909, 6), (1909, 7), (1909, 8), (1909, 9), (1909, 10), (1909, 11), (1909, 12), (2017, 1), (2017, 2), (2017, 3), (2017, 4), (2017, 5), (2017, 6), (2017, 7), (2017, 8), (2017, 9), (2017, 10), (2017, 11), (2017, 12), (2018, 1), (2018, 2), (2018, 3), (2018, 4), (2018, 5), (2018, 6), (2018, 7), (2018, 8), (2018, 9), (2018, 10), (2018, 11), (2018, 12), (2019, 1), (2019, 2), (2019, 3), (2019, 4), (2019, 5), (2019, 6), (2019, 7), (2019, 8), (2019, 9), (2019, 10)])

- #### Доступ к данным для одной группы:

In [41]:
# Укажите время первого часа (как текст)
month = (2019, 4)

# выберите группу
group1 = grouped.get_group(month)

# давайте посмотрим, что у нас есть
group1

Unnamed: 0,STATION_NUMBER,TIME,DIR,SPEED,GUST,TEMP_F,MAX,MIN,TEMP_C,TIME_STR,YEAR_MONTH,DATE,YEAR,MONTH
62055,29440,201904010000,280.0,6.0,,30.0,,,-1.111111,201904010000,2019-04-01,2019-04-01 00:00:00,2019,4
62056,29440,201904010020,280.0,7.0,,32.0,,,0.000000,201904010020,2019-04-01,2019-04-01 00:20:00,2019,4
62057,29440,201904010050,280.0,6.0,,30.0,,,-1.111111,201904010050,2019-04-01,2019-04-01 00:50:00,2019,4
62058,29440,201904010100,280.0,7.0,,30.0,,,-1.111111,201904010100,2019-04-01,2019-04-01 01:00:00,2019,4
62059,29440,201904010120,280.0,6.0,,30.0,,,-1.111111,201904010120,2019-04-01,2019-04-01 01:20:00,2019,4
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
64213,29440,201904302220,990.0,1.0,,36.0,,,2.222222,201904302220,2019-04-01,2019-04-30 22:20:00,2019,4
64214,29440,201904302250,990.0,1.0,,36.0,,,2.222222,201904302250,2019-04-01,2019-04-30 22:50:00,2019,4
64215,29440,201904302300,360.0,0.0,,36.0,,,2.222222,201904302300,2019-04-01,2019-04-30 23:00:00,2019,4
64216,29440,201904302320,990.0,1.0,,34.0,,,1.111111,201904302320,2019-04-01,2019-04-30 23:20:00,2019,4


In [42]:
type(group1)

pandas.core.frame.DataFrame

In [43]:
# рассчитаем среднее значение
# Укажите столбцы, которые будут частью расчета
mean_cols = ['DIR', 'SPEED', 'GUST', 'TEMP_F', 'TEMP_C', 'MONTH']

# вычислите средние значения все сразу
mean_values = group1[mean_cols].mean()

# давайте посмотрим, что у нас есть
print(mean_values)


DIR       309.035306
SPEED       5.932188
GUST       15.868217
TEMP_F     42.472030
TEMP_C      5.817794
MONTH       4.000000
dtype: float64


### For-циклы и сгруппированные объекты:

In [44]:
# Перебираем группы
for key, group in grouped:
    # Print key и group
    print("Key:\n", key) # год и месяц Н-р: (1906, 1)
    print("\n Первая строка данных в этой группе:\n", group.head())
    print(len(group))
    print(type(group))
    # остановить итерацию с помощью команды break
    break


Key:
 (1906, 1)

 Первая строка данных в этой группе:
    STATION_NUMBER          TIME    DIR  SPEED  GUST  TEMP_F  MAX  MIN  \
0           29440  190601010600   90.0    7.0   NaN    27.0  NaN  NaN   
1           29440  190601011300    NaN    0.0   NaN    27.0  NaN  NaN   
2           29440  190601012000    NaN    0.0   NaN    25.0  NaN  NaN   
3           29440  190601020600    NaN    0.0   NaN    26.0  NaN  NaN   
4           29440  190601021300  270.0    7.0   NaN    27.0  NaN  NaN   

     TEMP_C      TIME_STR YEAR_MONTH                DATE  YEAR  MONTH  
0 -2.777778  190601010600 1906-01-01 1906-01-01 06:00:00  1906      1  
1 -2.777778  190601011300 1906-01-01 1906-01-01 13:00:00  1906      1  
2 -3.888889  190601012000 1906-01-01 1906-01-01 20:00:00  1906      1  
3 -3.333333  190601020600 1906-01-01 1906-01-02 06:00:00  1906      1  
4 -2.777778  190601021300 1906-01-01 1906-01-02 13:00:00  1906      1  
93
<class 'pandas.core.frame.DataFrame'>


In [45]:
# столбцы, которые мы хотим агрегировать
mean_cols = ['DIR', 'SPEED', 'GUST', 'TEMP_F', 'TEMP_C', 'MONTH']

# Создайте пустой фрейм данных для агрегированных значений
monthly_data = pd.DataFrame([], columns=mean_cols)

In [46]:
monthly_data.head

<bound method NDFrame.head of Empty DataFrame
Columns: [DIR, SPEED, GUST, TEMP_F, TEMP_C, MONTH]
Index: []>

In [47]:
# перебираем группы
for key, group in grouped:
    # вычисляем среднее значение
    mean_values = group[mean_cols].mean()
#     print(mean_values.dtype)
    # добавьте ключ (т. е. информацию о дате и времени) в агрегированные значения
    mean_values['YEAR_MONTH'] = key
#     print(key)
    # добавьте агрегированные значения в фрейм данных monthly_data
    monthly_data = monthly_data.append(mean_values, ignore_index=True)
#     break

monthly_data.head

<bound method NDFrame.head of            DIR      SPEED       GUST     TEMP_F     TEMP_C  MONTH  YEAR_MONTH
0   218.181818  13.204301        NaN  25.526882  -3.596177    1.0   (1906, 1)
1   178.095238  13.142857        NaN  25.797619  -3.445767    2.0   (1906, 2)
2   232.043011  15.021505        NaN  22.806452  -5.107527    3.0   (1906, 3)
3   232.045455  13.811111        NaN  38.822222   3.790123    4.0   (1906, 4)
4   192.820513  10.333333        NaN  55.526882  13.070490    5.0   (1906, 5)
..         ...        ...        ...        ...        ...    ...         ...
77  370.992008   8.138490  17.251852  61.743400  16.524111    6.0   (2019, 6)
78  294.433641   5.785714  15.034722  61.569955  16.427753    7.0   (2019, 7)
79  320.335766   6.769447  15.751678  60.598649  15.888138    8.0   (2019, 8)
80  306.491058   6.363594  15.173285  49.958137   9.976743    9.0   (2019, 9)
81  239.577465  10.169014  17.470588  42.774648   5.985915   10.0  (2019, 10)

[82 rows x 7 columns]>

In [48]:
monthly_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 82 entries, 0 to 81
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   DIR         82 non-null     float64
 1   SPEED       82 non-null     float64
 2   GUST        34 non-null     float64
 3   TEMP_F      82 non-null     float64
 4   TEMP_C      82 non-null     float64
 5   MONTH       82 non-null     float64
 6   YEAR_MONTH  82 non-null     object 
dtypes: float64(6), object(1)
memory usage: 4.6+ KB


In [49]:
# Проверьте "имена" каждой группы 
grouped.groups.keys()

dict_keys([(1906, 1), (1906, 2), (1906, 3), (1906, 4), (1906, 5), (1906, 6), (1906, 7), (1906, 8), (1906, 9), (1906, 10), (1906, 11), (1906, 12), (1907, 1), (1907, 2), (1907, 3), (1907, 4), (1907, 5), (1907, 6), (1907, 7), (1907, 8), (1907, 9), (1907, 10), (1907, 11), (1907, 12), (1908, 1), (1908, 2), (1908, 3), (1908, 4), (1908, 5), (1908, 6), (1908, 7), (1908, 8), (1908, 9), (1908, 10), (1908, 11), (1908, 12), (1909, 1), (1909, 2), (1909, 3), (1909, 4), (1909, 5), (1909, 6), (1909, 7), (1909, 8), (1909, 9), (1909, 10), (1909, 11), (1909, 12), (2017, 1), (2017, 2), (2017, 3), (2017, 4), (2017, 5), (2017, 6), (2017, 7), (2017, 8), (2017, 9), (2017, 10), (2017, 11), (2017, 12), (2018, 1), (2018, 2), (2018, 3), (2018, 4), (2018, 5), (2018, 6), (2018, 7), (2018, 8), (2018, 9), (2018, 10), (2018, 11), (2018, 12), (2019, 1), (2019, 2), (2019, 3), (2019, 4), (2019, 5), (2019, 6), (2019, 7), (2019, 8), (2019, 9), (2019, 10)])

In [50]:
# Для колонок:
pd.set_option('display.max_columns', None)
# Для строк:
pd.set_option('display.max_rows', None)

In [51]:
grouped.mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,STATION_NUMBER,TIME,DIR,SPEED,GUST,TEMP_F,MAX,MIN,TEMP_C
YEAR,MONTH,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
1906,1,29440.0,190601200000.0,218.181818,13.204301,,25.526882,,,-3.596177
1906,2,29440.0,190602100000.0,178.095238,13.142857,,25.797619,,,-3.445767
1906,3,29440.0,190603200000.0,232.043011,15.021505,,22.806452,,,-5.107527
1906,4,29440.0,190604200000.0,232.045455,13.811111,,38.822222,,,3.790123
1906,5,29440.0,190605200000.0,192.820513,10.333333,,55.526882,,,13.07049
1906,6,29440.0,190606200000.0,234.222222,12.922222,,61.244444,,,16.246914
1906,7,29440.0,190607200000.0,226.923077,10.827957,,65.849462,,,18.805257
1906,8,29440.0,190608200000.0,251.627907,11.623656,,56.462366,,,13.590203
1906,9,29440.0,190609200000.0,236.986301,9.988889,,47.5,,,8.611111
1906,10,29440.0,190610200000.0,199.39759,12.365591,,39.849462,,,4.360812


## Обнаружение теплых месяцев
Теперь мы объединили наши данные на месячном уровне, и все, что нам нужно сделать, - это проверить, в какие годы были самые теплые апрельские температуры. Простой подход заключается в том, чтобы выбрать все 'Апрели' из данных, сгруппировать данные и проверить, какие группы имеют наибольшее среднее значение:

- выберите все записи, относящиеся к апрелю (независимо от года):

In [52]:
aprils = df[df['MONTH'] == 4]
print(aprils.head())

     STATION_NUMBER          TIME    DIR  SPEED  GUST  TEMP_F  MAX  MIN  \
270           29440  190604010600   90.0   14.0   NaN    19.0  NaN  NaN   
271           29440  190604011300  360.0   18.0   NaN    29.0  NaN  NaN   
272           29440  190604012000  360.0   18.0   NaN    18.0  NaN  NaN   
273           29440  190604020600  270.0   11.0   NaN    23.0  NaN  NaN   
274           29440  190604021300  270.0    5.0   NaN    46.0  NaN  NaN   

       TEMP_C      TIME_STR YEAR_MONTH                DATE  YEAR  MONTH  
270 -7.222222  190604010600 1906-04-01 1906-04-01 06:00:00  1906      4  
271 -1.666667  190604011300 1906-04-01 1906-04-01 13:00:00  1906      4  
272 -7.777778  190604012000 1906-04-01 1906-04-01 20:00:00  1906      4  
273 -5.000000  190604020600 1906-04-01 1906-04-02 06:00:00  1906      4  
274  7.777778  190604021300 1906-04-01 1906-04-02 13:00:00  1906      4  


- возьмите подмножество столбцов, которые могут содержать интересную информацию:

In [53]:
aprils = aprils[['STATION_NUMBER','TEMP_F', 'TEMP_C','YEAR_MONTH']]

- группировка по годам и месяцам:

In [54]:
grouped = aprils.groupby(by='YEAR_MONTH')

- вычислите среднее значение для каждой группы:

In [55]:
monthly_mean = grouped.mean()

In [56]:
monthly_mean.head()

Unnamed: 0_level_0,STATION_NUMBER,TEMP_F,TEMP_C
YEAR_MONTH,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1906-04-01,29440,38.822222,3.790123
1907-04-01,29440,36.111111,2.283951
1908-04-01,29440,36.811111,2.67284
1909-04-01,29440,31.977778,-0.012346
2017-04-01,29440,34.76662,1.537011


- проверьте самые высокие значения температуры (сортируйте фрейм данных в порядке убывания):

In [57]:
monthly_mean.sort_values(by='TEMP_C', ascending=False).head(10)

Unnamed: 0_level_0,STATION_NUMBER,TEMP_F,TEMP_C
YEAR_MONTH,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2019-04-01,29440,42.47203,5.817794
2018-04-01,29440,38.951887,3.862159
1906-04-01,29440,38.822222,3.790123
1908-04-01,29440,36.811111,2.67284
1907-04-01,29440,36.111111,2.283951
2017-04-01,29440,34.76662,1.537011
1909-04-01,29440,31.977778,-0.012346


## Повторение анализа данных с большим набором данных
Наконец, давайте повторим описанные выше шаги анализа данных для всех имеющихся у нас доступных данных (!!). Во-первых, подтвердите путь к папке, в которой находятся все входные данные. Идея заключается в том, что мы повторим процесс анализа для каждого входного файла, используя (довольно длинный) цикл for! Здесь мы имеем все основные шаги анализа с некоторой дополнительной выходной информацией - все в одной длинной ячейке кода:

In [58]:
# Считывание выбранных столбцов данных с использованием различного количества пробелов в качестве разделителя и указание символов * в качестве значений NoData
data = pd.read_csv(fp, delim_whitespace=True, 
                   usecols=['USAF','YR--MODAHRMN', 'DIR', 'SPD', 'GUS','TEMP', 'MAX', 'MIN'], 
                   na_values=['*', '**', '***', '****', '*****', '******'])

# Переименовать столбцы
new_names = {'USAF':'STATION_NUMBER','YR--MODAHRMN': 'TIME', 'SPD': 'SPEED', 'GUS': 'GUST', 'TEMP':'TEMP_F'}
data = data.rename(columns=new_names)

#Печать информации о текущем входном файле:
print("STATION NUMBER:", data.at[0,"STATION_NUMBER"])
print("NUMBER OF OBSERVATIONS:", len(data))

# Создать столбец
col_name = 'TEMP_C'
data[col_name] = None

# Конвертировать темпетару из Фаренгейта в Цельсий
data['TEMP_C'] = data['TEMP_F'].apply(fahr_to_celsius)

# Преобразование времени в строку 
data['TIME_STR'] = data['TIME'].astype(str)

# Разбор года и месяца
data['MONTH'] = data['TIME_STR'].str.slice(start=5, stop=6).astype(int)
data['YEAR'] = data['TIME_STR'].str.slice(start=0, stop=4).astype(int)

# Выписка наблюдений за апрель месяц 
aprils = data[data['MONTH']==4]

# Возьмите подмножество столбцов
aprils = aprils[['STATION_NUMBER','TEMP_F', 'TEMP_C', 'YEAR', 'MONTH']]

# Группировка по годам и месяцам
grouped = aprils.groupby(by=['YEAR', 'MONTH'])

# Получить средние значения для каждой группы
monthly_mean = grouped.mean()

# Печать информации
print(monthly_mean.sort_values(by='TEMP_C', ascending=False).head(5))
print("\n")

STATION NUMBER: 29440
NUMBER OF OBSERVATIONS: 74940
            STATION_NUMBER     TEMP_F    TEMP_C
YEAR MONTH                                     
2019 4               29440  42.472030  5.817794
2018 4               29440  38.951887  3.862159
1906 4               29440  38.822222  3.790123
1908 4               29440  36.811111  2.672840
1907 4               29440  36.111111  2.283951




#### Мы будем использовать glob() функцию из модуля glob, чтобы перечислить наши входные файлы.


In [59]:
import glob

In [60]:
file_list = glob.glob(r'data/0*txt')

#### Примечание

Обратите внимание, что мы используем символ * в качестве подстановочного знака, поэтому любой файл, который начинается data/0 и заканчивается 
txt, будет добавлен в список файлов, которые мы будем перебирать. Мы специально используем data/0 в качестве начальной части имена файлов,
чтобы избежать включения наших файлов метаданных в список!

In [61]:
print("количество файлов в списке", len(file_list))
print(file_list)

количество файлов в списке 1
['data\\029440.txt']


Теперь у вас должны быть все соответствующие имена файлов в списке, и мы можем перебирать список с помощью for-loop:

In [62]:
for fp in file_list:
    print(fp)

data\029440.txt


In [63]:
# Повторите шаги анализа для каждого входного файла:

for fp in file_list:

    # Считывание выбранных столбцов данных с использованием различного количества пробелов в качестве разделителя и указание 
    # символов * в качестве значений NoData
    data = pd.read_csv(fp, delim_whitespace=True, usecols=['USAF','YR--MODAHRMN', 'DIR', 'SPD', 'GUS','TEMP', 'MAX', 'MIN'], 
                       na_values=['*', '**', '***', '****', '*****', '******'])

    # Переименуйте столбцы
    new_names = {'USAF':'STATION_NUMBER','YR--MODAHRMN': 'TIME', 'SPD': 'SPEED', 'GUS': 'GUST', 'TEMP':'TEMP_F'}
    data = data.rename(columns=new_names)

    # Печать информации о текущем входном файле:
    print("НОМЕР СТАНЦИИ:", data.at[0,"STATION_NUMBER"])
    print("ЧИСЛО НАБЛЮДЕНИЙ:", len(data))

    # Создать столбец
    col_name = 'TEMP_C'
    data[col_name] = None

    # Конвертировать темпетару из Фаренгейта в Цельсий
    data['TEMP_C'] = data['TEMP_F'].apply(fahr_to_celsius)

    # Преобразование времени в строку
    data['TIME_STR'] = data['TIME'].astype(str)

    # Разбор года и месяца
    data['MONTH'] = data['TIME_STR'].str.slice(start=5, stop=6).astype(int)
    data['YEAR'] = data['TIME_STR'].str.slice(start=0, stop=4).astype(int)

    # Выписка наблюдений за апрель месяц 
    aprils = data[data['MONTH']==4]

    # Возьмите подмножество столбцов
    aprils = aprils[['STATION_NUMBER','TEMP_F', 'TEMP_C', 'YEAR', 'MONTH']]

    # Группировка по годам и месяцам
    grouped = aprils.groupby(by=['YEAR', 'MONTH'])

    # Получить средние значения для каждой группы
    monthly_mean = grouped.mean()

    # Печать информации
    print("САМАЯ ВЫСОКАЯ ТЕМПЕРАТУРА:", monthly_mean["TEMP_C"].max())
    print(monthly_mean.sort_values(by='TEMP_C', ascending=False).head(5))
    print("\n")

НОМЕР СТАНЦИИ: 29440
ЧИСЛО НАБЛЮДЕНИЙ: 74940
САМАЯ ВЫСОКАЯ ТЕМПЕРАТУРА: 5.817794215852459
            STATION_NUMBER     TEMP_F    TEMP_C
YEAR MONTH                                     
2019 4               29440  42.472030  5.817794
2018 4               29440  38.951887  3.862159
1906 4               29440  38.822222  3.790123
1908 4               29440  36.811111  2.672840
1907 4               29440  36.111111  2.283951




## Задача
Как насчет теперь, как апрель 2019 года ранжировался по разным станциям?