# Обработка данных с Pandas

[Pandas](https://pandas.pydata.org/) — это библиотека, которая использует концепцию структурированных массивов и строит ее с помощью множества удобных методов, улучшений для разработчиков и лучшей автоматизации. 

Если нужно импортировать данные практически из любого места, очищать их , изменять их форму, а затем экспортировать практически в любой формат, то pandas — это наилучшее решение. 

Вполне вероятно, что в какой-то момент `import numpy as np` будет заменяться `import pandas as pd` с ростом сложности задач.

Библиотека Pandas используется для работы с табличными данными (аналогично данным, хранящимся в электронной таблице). Она предоставляет вспомогательные функции для чтения данных из различных форматов файлов, таких как CSV, электронные таблицы Excel, таблицы HTML, JSON, SQL и другие. 

## Чтение файла CSV с помощью pandas

Мы уже знаем о формате хранения данных CSV. Вспомним, что он из себя представляет 

`**CSV файл** представляет собой текстовый файл с разделителями, в котором для разделения значений используется запятая. Каждая строка файла представляет собой запись данных. Запись состоит из одного или нескольких полей, разделенных запятыми. Файл CSV обычно хранит табличные данные (числа и текст) в виде обычного текста, и в этом случае каждая строка будет иметь одинаковое количество полей.`

Скачаем файл [Akhmatova places in Moscow.csv](https://github.com/SerjiEvg/data-analysis/raw/main/data/Akhmatova%20places%20in%20Moscow.csv) при помощи библиотеки `urlretrieve` из модуля `urllib.request`. И импортируем его в наш проект

In [None]:
from urllib.request import urlretrieve

Теперь мы можем скачать файл по ссылке при помощи функции urlretrieve()

In [None]:
Akhmatova_places = 'https://github.com/SerjiEvg/data-analysis/raw/main/data/Akhmatova%20places%20in%20Moscow.csv'

urlretrieve(Akhmatova_places, 'Akhmatova places in Moscow.csv')

('Akhmatova places in Moscow.csv', <http.client.HTTPMessage at 0x7efc5a7efc90>)

обратите внимание, что данная функция принимает минимум один параметр, а именно ссылку на файл. Если же нужно сохранить данный файл под другим именем, тогда это можно указать в виде строки вторым параметром.

В возвращенном объекте - первый параметр хранит наименование файла, а второй - адрес, произведенного запроса в репозиторий.

Чтобы прочитать файл, мы можем использовать метод `read_csv` из библиотеки pandas. Язык Python изначально не хранит эту библиотеку, поэтому ее необходимо установить. Это делается помощи менеджера `pip3`:

In [None]:
!pip3 install pandas --upgrade -q

Теперь мы можем импортировать модуль pandas и считать данные из уже скачанного файла `Akhmatova places in Moscow.csv`. По соглашению он импортируется с псевдонимом `pd`. 

In [None]:
import pandas as pd

In [None]:
akhmatova_df = pd.read_csv('Akhmatova places in Moscow.csv')

Данные из файла считываются и сохраняются в объекте `akhmatova_df`, который имеет структуру `DataFrame` — это одна из основных структур данных в библиотеке pandas для хранения и работы с табличными данными. В этом мы можем убедиться, используя команду `type`:

In [None]:
type(akhmatova_df)

pandas.core.frame.DataFrame

Теперь переменная `akhmatova_df` хранит наши данные и мы можем их вывести на экран

In [None]:
print(akhmatova_df)

                                   address  \
0   Зачатьевский 2-й переулок, 2 стр. 1-19   
1             Зачатьевский 3-й переулок, 3   
2               Большая Ордынка, 17 стр. 1   
3             Андропова проспект 39 стр. 1   
4          Проспект Академика Сахарова, 37   
5                    Большая Никитская, 13   
6                            Поварская, 20   
7                     Тверской бульвар, 24   
8                   Померанцев переулок, 3   
9                   Померанцев переулок, 8   
10                   Никитский бульвар, 25   
11                    Хорошевское шоссе, 8   
12         Котельническая Набережная, 1/15   
13                    Мясницкая, 21 стр. 1   
14               Карманицкий переулок, 2/5   
15   Большой Николопесковский переулок, 12   
16                      Сивцев Вражек, 6/2   
17                         Тверская, 8 к 1   
18              Садовая-Каретная, 8 стр. 1   
19                Проспект Мира, 51 стр. 1   
20               Лаврушинский пере

Мы можем просмотреть некоторую базовую информацию о фрейме данных, используя метод info().

In [None]:
print(akhmatova_df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 24 entries, 0 to 23
Data columns (total 7 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   address        24 non-null     object 
 1   entity         24 non-null     object 
 2   relation       24 non-null     object 
 3   current_state  23 non-null     object 
 4   source         24 non-null     object 
 5   latitude       24 non-null     float64
 6   longitude      24 non-null     float64
dtypes: float64(2), object(5)
memory usage: 1.4+ KB
None


Здесь видно, что каждый столбец имеет свой тип, а также информацию о количестве пустых значений для каждого столбца, занимаемую память и т.д.

Сделаем загрузку еще одного файла - [Surface meteorological data.csv](https://github.com/SerjiEvg/data-analysis/raw/main/data/Surface%20meteorological%20data.csv). Обработаем его с помощью  методов Pandas.

In [None]:
try:
    from google.colab import drive
    drive.mount('/content/drive', force_remount=True)
    print("Google Drive mounted successfully!")
except Exception as e:
    print("Error while mounting Google Drive: {}".format(str(e)))

Mounted at /content/drive
Google Drive mounted successfully!


In [None]:
import os
DATA_PATH = '/content/drive/My Drive/Colab Notebooks/data/'
meteo_df = pd.read_csv(os.path.join(DATA_PATH,'Surface meteorological data.csv'))

Теперь мы можем просмотреть статистическую информацию для числовых столбцов (среднее значение, стандартное отклонение, минимальное/максимальное значение и количество непустых значений), используя метод `describe()`.

In [None]:
print(meteo_df.describe())

          Год  Отклонение от нормы     Осадки
count    83.0            81.000000  82.000000
mean   2016.0            -5.681481  31.378049
std       0.0             8.213649  15.088742
min    2016.0           -32.300000   5.000000
25%    2016.0            -9.100000  19.250000
50%    2016.0            -3.000000  32.000000
75%    2016.0            -0.600000  40.750000
max    2016.0             6.400000  72.000000


Свойство columns cодержит список наименований столбцов в фрейме данных.

In [None]:
print(meteo_df.columns)

Index(['Наименование агентства', 'Год', 'Месяц', 'Регион',
       'Отклонение от нормы', 'Осадки'],
      dtype='object')


Мы также можем получить количество строк и столбцов во фрейме данных, используя, уже известный нам, метод shape.

In [None]:
meteo_df.shape

(83, 6)

Вот небольшая шпаргалка тех методов, которые мы использовали, а также их небольшое описание о действиях, которые они выполняют

- pd.read_csv() - чтение данных из файла CSV в объект DataFrame
- .info()- просмотр основной информации о файле(о строках, столбцах и типах данных)
- .describe()-  просмотр статистической информации о числовых столбцах
- .columns- получение списка имен столбцов
- .shape- получение количества строк и столбцов в виде кортежа

## Получение данных из фрейма

Для дальнейшей работы загрузим данные из файла [COVID-19 data by regions of RUSSIA.csv](https://github.com/SerjiEvg/data-analysis/blob/main/data/COVID-19%20data%20by%20regions%20of%20RUSSIA.csv?raw=true), в котором представлена статистика по коронавирусу в регионах РФ. 

Так как в файле разделителем является точка с запятой, а не запятая (принятая по умолчанию), мы должны указать необязательный параметр - разделитель sep=';'. Иначе данные будут считаны неправильно.

In [None]:
covid_data = 'https://github.com/SerjiEvg/data-analysis/blob/main/data/COVID-19%20data%20by%20regions%20of%20RUSSIA.csv?raw=true'

urlretrieve(covid_data, 'COVID-19 data by regions of RUSSIA.csv')

covid_df = pd.read_csv('COVID-19 data by regions of RUSSIA.csv', sep=';')

После преобразования данных в DataFrame, смотрим что получилось

In [None]:
covid_df

Unnamed: 0,Регион,Федеральный округ,дата,случаи заболевания,население,количество смертей
0,Республика Бурятия,Дальневосточный федеральный округ,25.02.2020,,986109,
1,Алтайский край,Сибирский федеральный округ,25.02.2020,,2317052,
2,Амурская область,Дальневосточный федеральный округ,25.02.2020,,790676,
3,Архангельская область,Северо-Западный федеральный округ,25.02.2020,,1092277,
4,Астраханская область,Южный федеральный округ,25.02.2020,,1005967,
...,...,...,...,...,...,...
9957,Челябинская область,Уральский федеральный округ,30.06.2020,144.0,3466960,
9958,Чеченская Республика,Северо-Кавказский федеральный округ,30.06.2020,5.0,1476752,
9959,Чукотский АО,Дальневосточный федеральный округ,30.06.2020,,50726,
9960,Ямало-Ненецкий автономный округ,Уральский федеральный округ,30.06.2020,248.0,544008,


Первое с чего приходится начинать - получение данных из фрейма, например, подсчеты за определенный день или список значений в определенном столбце. Для этого может помочь понять внутреннее представление данных во фрейме данных. Концептуально вы можете думать о кадре данных как о словаре списков: ключи — это имена столбцов, а значения — это списки/массивы, содержащие данные для соответствующих столбцов.

In [None]:
# Формат Pandas подобен этому
covid_data_dict = {
    'дата':       ['2020-08-30', '2020-08-31', '2020-09-01', '2020-09-02', '2020-09-03'],
    'случаи заболевания':  [1444, 1365, 996, 975, 1326],
    'население': [53541, 42583, 54395, None, None],
    'количество смертей': [1, 4, 6, 8, 6]
}

Представление данных в указанном выше формате имеет следующие преимущества:

- Все значения в столбце обычно имеют одинаковый тип значения, поэтому лучше хранить их в одном массиве.
- Извлечение значений для конкретной строки просто требует извлечения элементов с заданным индексом из каждого массива столбцов.
- Представление более компактное (имена столбцов записываются только один раз) по сравнению с другими форматами, использующими словарь для каждой строки данных (см. пример ниже).

In [None]:
# Формат Pandas не соответствует этому
covid_data_list = [
    {'дата': '2020-08-30', 'случаи заболевания': 1444, 'население': 53541, 'количество смертей': 1},
    {'дата': '2020-08-31', 'случаи заболевания': 1365, 'население': 42583, 'количество смертей': 4},
    {'дата': '2020-09-01', 'случаи заболевания': 996, 'население': 54395, 'количество смертей': 6},
    {'дата': '2020-09-02', 'случаи заболевания': 975, 'количество смертей': 8 },
    {'дата': '2020-09-03', 'случаи заболевания': 1326, 'количество смертей': 6},
]

Теперь зная, что DataFrame похож на словарь, стало понятнее как извлекать информацию из фрейма данных. То есть, мы можем получить список значений из определенного столбца, используя обращение по ключу.

Допустим, нам необходимо извлечь все значения из столбца случаи заболевания, поэтому в квадратных скобках указываем наименование этого столбца и получаем все значения, ключом которых является строка  случаи заболевания

In [None]:
covid_data_dict['случаи заболевания']

[1444, 1365, 996, 975, 1326]

Такое же обращение можно сделать и к объекту  DataFrame

In [None]:
covid_df['случаи заболевания']

0         NaN
1         NaN
2         NaN
3         NaN
4         NaN
        ...  
9957    144.0
9958      5.0
9959      NaN
9960    248.0
9961     44.0
Name: случаи заболевания, Length: 9962, dtype: float64

Здесь кроме значений, нам представлено наименование столбца, а также сколько значений было найдено, которые соответствуют этому ключу и тип данных этого столбца.

Каждый столбец представлен с помощью структуры данных, называемой Series, которая по сути представляет собой пустой массив с некоторыми дополнительными методами и свойствами. В этом можно убедиться, если запросить тип этого столбца

In [None]:
type(covid_df['случаи заболевания'])

pandas.core.series.Series

Получить конкретное значение с помощью ряда возможно с помощью нотации индексации [], указав наименование столбца и индекс строки

In [None]:
covid_df['случаи заболевания'][6432]

53.0

или же другой аналогичный пример 

In [None]:
covid_df['население'][6432]

2599301

pandas также предоставляет возможность прямого извлечения элемента из определенной строки и столбца, при помощи метода .at .

In [None]:
covid_df.at[6432, 'случаи заболевания']

53.0

то есть вы можете в одних квадратных скобках указать сразу два параметра (строка и столбец)

In [None]:
covid_df.at[6432, 'население']

2599301

Вместо указания строки в квадратных скобках также позволительно обращаться к столбцам как к свойствам фрейма данных, используя нотацию .. Однако этот метод работает только для столбцов, имена которых не содержат пробелов или специальных символов.

Например,

In [None]:
print(covid_df.население)

0        986109
1       2317052
2        790676
3       1092277
4       1005967
         ...   
9957    3466960
9958    1476752
9959      50726
9960     544008
9961    1253189
Name: население, Length: 9962, dtype: int64


Кроме того, возможно передать список столбцов в нотации индексации [], чтобы получить доступ только к части фрейма данных с заданными столбцами (то есть метод at можно заменить на двойные квадратные скобки указать в нем, например, наименования столбцов)

In [None]:
cases_df = covid_df[['дата', 'случаи заболевания']]
print(cases_df)

            дата  случаи заболевания
0     25.02.2020                 NaN
1     25.02.2020                 NaN
2     25.02.2020                 NaN
3     25.02.2020                 NaN
4     25.02.2020                 NaN
...          ...                 ...
9957  30.06.2020               144.0
9958  30.06.2020                 5.0
9959  30.06.2020                 NaN
9960  30.06.2020               248.0
9961  30.06.2020                44.0

[9962 rows x 2 columns]


Новый фрейм данных cases_df— это просто «просмотр» исходного фрейма данных covid_df. Оба указывают на одни и те же данные в памяти. Изменение любых значений внутри одного из них также изменит соответствующие значения в другом. Совместное использование информации между фреймами данных делает работу с данными в pandas невероятно быстрой. Не нужно беспокоиться о накладных расходах на копирование тысяч или миллионов строк каждый раз, когда мы хотим создать новый фрейм данных, работая с существующим.

Иногда может понадобиться полная копия первоначального фрейма данных, и в этом случае мы можем использовать метод  copy.

In [None]:
covid_df_copy = covid_df.copy()

Данные внутри covid_df_copy полностью отделены от параметра  covid_df, и изменение значений внутри одного из них не повлияет на скопированный объект. Это очень удобно, когда вам требуется взаимодействовать с первоначальным DataFrame и его подмножествами.

Для доступа к определенной строке данных библиотека pandas предоставляет метод .loc.

In [None]:
print(covid_df.loc[243])

Регион                             Тульская область
Федеральный округ     Центральный федеральный округ
дата                                     07.03.2020
случаи заболевания                              NaN
население                                   1466025
количество смертей                              NaN
Name: 243, dtype: object


Каждая полученная строка также является Series объектом.

In [None]:
type(covid_df.loc[4326])

pandas.core.series.Series

Если необходимо получить несколько первых записей из DataFrame, мы можем использовать метод head() 

In [None]:
print(covid_df.head(5))

                 Регион                   Федеральный округ        дата  \
0     Республика Бурятия  Дальневосточный федеральный округ  25.02.2020   
1         Алтайский край        Сибирский федеральный округ  25.02.2020   
2       Амурская область  Дальневосточный федеральный округ  25.02.2020   
3  Архангельская область  Северо-Западный федеральный округ  25.02.2020   
4   Астраханская область            Южный федеральный округ  25.02.2020   

   случаи заболевания  население  количество смертей  
0                 NaN     986109                 NaN  
1                 NaN    2317052                 NaN  
2                 NaN     790676                 NaN  
3                 NaN    1092277                 NaN  
4                 NaN    1005967                 NaN  


или же метод tail(), чтобы получить несколько последних строк данных

In [None]:
print(covid_df.tail(4))

                              Регион                     Федеральный округ  \
9958             Чеченская Республика  Северо-Кавказский федеральный округ   
9959                     Чукотский АО    Дальневосточный федеральный округ   
9960  Ямало-Ненецкий автономный округ          Уральский федеральный округ   
9961              Ярославская область        Центральный федеральный округ   

            дата  случаи заболевания  население  количество смертей  
9958  30.06.2020                 5.0    1476752                 NaN  
9959  30.06.2020                 NaN      50726                 NaN  
9960  30.06.2020               248.0     544008                 NaN  
9961  30.06.2020                44.0    1253189                 NaN  


Обратите внимание, что первые несколько значений в столбцах случаи заболевания и количество смертей равны. Это связано с тем, что файл CSV не содержит данных для столбца за определенные даты (вы можете убедиться в этом, заглянув в файл). Эти значения могут отсутствовать или быть неизвестными.

Например,

In [None]:
covid_df.at[0, 'количество смертей']

nan

но при этом тип всегда известен

In [None]:
type(covid_df.at[0, 'количество смертей'])

numpy.float64

`Различие между 0 и NaN тонкое, но важное. В этом наборе данных это означает, что о случаях заболеваний не сообщалось в определенные даты (NaN). `

Мы можем найти первый индекс, который не содержит значения, используя метод first_valid_index() для столбца со значением NaN .

Например,

In [None]:
covid_df['случаи заболевания'].first_valid_index()

115

в этом наборе, где значение равно NaN находится в записи с индексом 115

Давайте посмотрим на несколько строк до и после этого индекса, чтобы убедиться, что значения меняются с NaNна фактические числа. Мы можем сделать это, передав диапазон в loc в виде среза:

In [None]:
print(covid_df.loc[110:120])

                   Регион                   Федеральный округ        дата  \
110        Курская область      Центральный федеральный округ  06.03.2020   
111  Ленинградская область  Северо-Западный федеральный округ  06.03.2020   
112       Липецкая область      Центральный федеральный округ  06.03.2020   
113    Магаданская область  Дальневосточный федеральный округ  06.03.2020   
114                Москва       Центральный федеральный округ  06.03.2020   
115        Московская обл.      Центральный федеральный округ  06.03.2020   
116     Мурманская область  Северо-Западный федеральный округ  06.03.2020   
117            Ненецкий АО  Северо-Западный федеральный округ  06.03.2020   
118  Нижегородская область      Приволжский федеральный округ  06.03.2020   
119   Новгородская область  Северо-Западный федеральный округ  06.03.2020   
120  Новосибирская область        Сибирский федеральный округ  06.03.2020   

     случаи заболевания  население  количество смертей  
110               

Или же использовать метод sample для извлечения случайной выборки строк из фрейма данных:

In [None]:
print(covid_df.sample(10))

                           Регион                   Федеральный округ  \
4750            Ростовская область            Южный федеральный округ   
3055         Новосибирская область        Сибирский федеральный округ   
553              Республика Адыгея            Южный федеральный округ   
8946          Белгородская область      Центральный федеральный округ   
3223            Пензенская область      Приволжский федеральный округ   
9469               Камчатский край  Дальневосточный федеральный округ   
4362  Еврейская автономная область  Дальневосточный федеральный округ   
8719                   Ненецкий АО  Северо-Западный федеральный округ   
4275         Волгоградская область            Южный федеральный округ   
5615              Тульская область      Центральный федеральный округ   

            дата  случаи заболевания  население  количество смертей  
4750  30.04.2020                79.0    4195327                 3.0  
3055  10.04.2020                 3.0    2798251         

Обратите внимание, что хотя мы взяли случайную выборку, исходный индекс каждой строки сохраняется — это полезное свойство фреймов данных.

Небольшая шпаргалка с описанием методов:

- **covid_df['случаи заболевания']** - получение столбцов как с Seriesиспользованием имени столбца
- **new_cases[6432]** - получение значений из Series с помощью индекса
- **covid_df.at[6432, 'случаи заболевания']** - получение одного значения из фрейма данных
- **covid_df.copy()** - создание глубокой копии фрейма данных
- **covid_df.loc[6432]** - получение строки или диапазона строк данных из фрейма данных
- **head(), tail(), и sample()** - получение нескольких строк данных из фрейма данных
- **covid_df['случаи заболевания'].first_valid_index()** - нахождение первого непустого индекса в серии