# УСТАНОВКА PANDAS

In [None]:
import pandas as pd
pd.__version__

In [None]:
#!pip install pandas

In [None]:
import pandas as pd
pd.__version__

In [None]:
print(pd.__name__)

# SERIES КАК СТРУКТУРА ДАННЫХ

Series — это упорядоченная изменяемая коллекция объектов, имеющая так называемые ассоциативные метки (индексы). 

СОЗДАНИЕ SERIES

→ Для создания объекта Series используется команда pd.Series().

Способ 1 — из списка с использованием параметров функции pd.Series():

In [None]:
import pandas as pd
countries = pd.Series(
    data = ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ'],
    name = 'countries'
)
display(countries)

**Примечание.** Функция `display()` является аналогом функции `print()` в файлах формата `.ipynb` (ноутбуках/блокнотах), но чаще используется для вывода табличных данных. 

Здесь и в дальнейшем функция `display()` используется для более красивого вывода таблиц в файлах формата `.ipynb`.


**Способ 2** — из словаря, в котором ключами являются будущие метки, а значениями — будущие значения Series, при этом использование параметра name также возможно:

In [None]:
countries = pd.Series({
    'UK': 'Англия',
    'CA': 'Канада',
    'US' : 'США',
    'RU': 'Россия',
    'UA': 'Украина',
    'BY': 'Беларусь',
    'KZ': 'Казахстан'},
    name = 'countries'
)
display(countries)

**ДОСТУП К ДАННЫМ В SERIES**

Доступ к элементам осуществляется с использованием `loc` или `iloc`.

In [None]:
print(countries.loc['US'])
# США

print(countries.loc[['US', 'RU', 'UK']])
# US       США
# RU    Россия
# UK    Англия
# Name: countries, dtype: object

In [None]:
print(countries.iloc[6])
# Казахстан

print(countries.iloc[1:4])
# CA    Канада
# US       США
# RU    Россия
# Name: countries, dtype: object

На самом деле `loc` и `iloc` можно опустить и обращаться к элементам Series напрямую по индексам, например `countries[[‘UK’, 'US', ‘UA’]]` или `countries[[0, 2, 4]]`. Оба варианта являются равноправными для `Series`, однако в дальнейшем мы будем использовать эти операции при обращении к более сложной структуре — `DataFrame`, а в контексте этой структуры эти варианты уже неравноправны.

# DATAFRAME КАК СТРУКТУРА ДАННЫХ

`DataFrame` является двумерной структурой и представляется в виде таблицы, в которой есть строки и столбцы: столбцами в `DataFrame` выступают объекты `Series`, а строки формируются из их элементов. Также в `DataFrame` есть метки (индексы), которые соответствуют каждой строке таблицы.

**СОЗДАНИЕ `DATAFRAME`**

**СПОСОБ 1**

Самый простой способ создания `DataFrame` — из словаря, ключами которого являются имена столбцов будущей таблицы, а значениями — списки, в которых хранится содержимое этих столбцов:

In [None]:
countries_df = pd.DataFrame({
    'country': ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    'population': [56.29, 38.05, 322.28, 146.24, 45.5, 9.5, 17.04],
    'square': [133396, 9984670, 9826630, 17125191, 603628, 207600, 2724902]
})
countries_df
# 	country	  population	square
# 0	Англия	    56.29	    133396
# 1	Канада  	38.05	    9984670
# 2	США	        322.28    	9826630
# 3	Россия	    146.24	    17125191
# 4	Украина	    45.50	    603628
# 5	Беларусь	9.50	    207600
# 6	Казахстан	17.04   	2724902

Обратите внимание, что, так как мы не задали метки (индексы) `DataFrame`, они были сгенерированы автоматически. Исправим это, задав индексы вручную:

In [None]:
countries_df.index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ']
display(countries_df)
# 	  country	    population	square
# UK  Англия	    56.29	    133396
# CA  Канада	    38.05	    9984670
# US  США	        322.28	    9826630
# RU  Россия	    146.24	    17125191
# UA  Украина	    45.50	    603628
# BY  Беларусь	    9.50	    207600
# KZ  Казахстан	    17.04	    2724902

**СПОСОБ 2**

Также `DataFrame` можно создать из вложенного списка, внутренние списки которого будут являться строками новой таблицы:

In [None]:
countries_df = pd.DataFrame(
    data = [
        ['Англия', 56.29, 133396],
        ['Канада', 38.05, 9984670],
        ['США', 322.28, 9826630],
        ['Россия', 146.24, 17125191],
        ['Украина', 45.5, 603628],
        ['Беларусь', 9.5, 207600],
        ['Казахстан', 17.04, 2724902]
    ],
    columns= ['country', 'population', 'square'],
    index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ']
)
display(countries_df)
# 	  country	    population	square
# UK  Англия	    56.29	    133396
# CA  Канада	    38.05	    9984670
# US  США	        322.28	    9826630
# RU  Россия	    146.24	    17125191
# UA  Украина	    45.50	    603628
# BY  Беларусь	    9.50	    207600
# KZ  Казахстан	    17.04	    2724902

**`AXIS` В `DATAFRAME`**

Данный параметр заложен во все методы, которые могут работать в двух направлениях и по умолчанию в большинстве из них `axis=0`, то есть они выполняют операции со строками, если не задавать `axis` вручную.

Считаем среднее по строкам `(axis = 0)` в каждом столбце:

In [None]:
countries_df.iloc[::, 1:].mean(axis=0)
# или
countries_df.mean(axis=0, numeric_only=True)
# population    9.070000e+01
# square        5.800860e+06
# dtype: float64


Считаем среднее по столбцам `(axis = 1)` в каждой строке:

In [None]:
countries_df.iloc[::, 1:].mean(axis=1)
# UK      66726.145
# CA    4992354.025
# US    4913476.140
# RU    8562668.620
# UA     301836.750
# BY     103804.750
# KZ    1362459.520
# dtype: float64

**ДОСТУП К ДАННЫМ В DATAFRAME**

Можно обратиться к `DataFrame` по имени столбца через точку:
(Однако использование такого способа возможно только тогда, когда имя столбца указано без пробелов.)

In [None]:
countries_df.population
# UK     56.29
# CA     38.05
# US    322.28
# RU    146.24
# UA     45.50
# BY      9.50
# KZ     17.04
# Name: population, dtype: float64

Другой вариант — обратиться к `DataFrame` по индексу и указать имя столбца:

In [None]:
countries_df['population']
# UK     56.29
# CA     38.05
# US    322.28
# RU    146.24
# UA     45.50
# BY      9.50
# KZ     17.04
# Name: population, dtype: float64

In [None]:
type(countries_df.population)
# pandas.core.series.Series

Для того чтобы получить доступ к ячейкам таблицы, используются уже знакомые нам `loc` и `iloc`.



In [None]:
# Получим площадь Великобритании:

countries_df.loc['UK', 'square']
# 133396

In [None]:
# Получим население и площадь, соответствующие России:

countries_df.loc['RU', ['population', 'square']]
# population      146.24
# square        17125191
# Name: RU, dtype: object

In [None]:
# Сделаем вырезку из таблицы и получим информацию о населении и площади, соответствующую Украине, Беларуси и Казахстану:

countries_df.loc[['UA', 'BY', 'KZ'],['population', 'square']]

# или

countries_df.iloc[4:22, 1:]
# 	population	square
# UA	45.50	603628
# BY	9.50	207600
# KZ	17.04	2724902

In [None]:
countries_df.iloc[2,2]

# 9826630

In [None]:
countries_df.iloc[[2],[2]]

#        square
# US	9826630

In [None]:
# Выборка по столбцам (С цифрами не работает! Только в таком виде!)
countries_df.loc[::,['population', 'square']]

# 5/16  4. Работа с различными источниками данных в Pandas

## ЗАПИСЬ В CSV-ФАЙЛ

Экспорт данных в формат `csv` осуществляется с помощью метода `DataFrame` `to_csv()`.  

Основные параметры метода `DataFrame` `to_csv()`

`path_or_buf` — путь до файла, в который будет записан `DataFrame` (например, `data/my_data.csv`);
`sep` — разделитель данных в выходном файле (по умолчанию ',');
`decimal` — разделитель чисел на целую и дробную части в выходном файле (по умолчанию `'.'`);
`columns` — список столбцов, которые нужно записать в файл (по умолчанию записываются все столбцы);
`index` — параметр, определяющий, требуется ли создавать дополнительный столбец с индексами строк в файле (по умолчанию `True`).

In [None]:
import pandas as pd

countries_df = pd.DataFrame({
    'country': ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    'population': [56.29, 38.05, 322.28, 146.24, 45.5, 9.5, 17.04],
    'square': [133396, 9984670, 9826630, 17125191, 603628, 207600, 2724902]
})

countries_df.to_csv('pd_data/countries.csv', index=False, sep=';')

## ЧТЕНИЕ CSV-ФАЙЛА

Для чтения таблицы из `csv-файла` используется функция модуля `Pandas` `read_csv`. Функция возвращает `DataFrame` и имеет несколько важных параметров.

Основные параметры функции `read_csv()`

`filepath_or_buffer` — путь до файла, который мы читаем;
`sep` — разделитель данных (по умолчанию `','`);
`decimal` — разделитель чисел на целую и дробную часть в выходном файле (по умолчанию `'.'`);
`names` — список с названиями столбцов для чтения;
`skiprows` — количество строк в файле, которые нужно пропустить (например, файл может содержать служебную информацию, которая нам не нужна).

In [None]:
import pandas as pd

countries_data = pd.read_csv('pd_data/countries.csv', sep=';')
display(countries_data)

# 	country	population	square
# 0	Англия	    56.29	133396
# 1	Канада  	38.05	9984670
# 2	США 	    322.28	9826630
# 3	Россия	    146.24	17125191
# 4	Украина	    45.50	603628
# 5	Беларусь	9.50	207600
# 6	Казахстан	17.04	2724902

## ЧТЕНИЕ CSV-ФАЙЛА ПО ССЫЛКЕ

Достаточно в функции read_csv() вместо пути до файла указать ссылку на файл. Например:

In [None]:
import pandas as pd

data = pd.read_csv('https://raw.githubusercontent.com/esabunor/MLWorkspace/master/melb_data.csv')
display(data)

In [None]:
# С моего ГатХаба выдаёт ошибку
# data = pd.read_csv('https://github.com/Thederis/st_ds/blob/main/learning/PANDAS/Introduction_to_Pandas/pd_data/countries.csv', sep=';')
# display(data)

## ЗАПИСЬ И ЧТЕНИЕ В ДРУГИХ ФОРМАТАХ

Как уже говорилось ранее, `Pandas` способен работать со многими распространёнными форматами данных.

Методы для записи таблиц в файлы отличных от `csv` форматов:

`to_excel()` — запись DataFrame в формат Excel-таблицы `(.xlsx)`;
`to_json()` — запись DataFrame в формат JSON `(.json)`;
`to_xml()` — запись DataFrame в формат XML-документа `(.xml`);
`to_sql()` — запись DataFrame в базу данных `SQL` (для реализации этого метода необходимо установить соединение с базой данных).


Методы для чтения таблиц из файлов в отличных от `csv` форматах:

`read_excel()` — чтение из формата Excel-таблицы `(.xlsx)` в `DataFrame`;
`read_json()` — чтение из формата JSON `(.json)` в `DataFrame`;
`read_xml()` — чтение из формата XML-документа `(.xml)` в `DataFrame`;
`read_sql()` — чтение из базы данных `SQL` в `DataFrame` (также необходимо установить соединение с базой данных).

# 7/16  6. Исследование структуры DataFrame

## ВЫВОД ПЕРВЫХ И ПОСЛЕДНИХ СТРОК

Для этого у DataFrame есть методы `head()` и t`ail()`, которые возвращают n первых и n последних строк таблицы соответственно (по умолчанию n = 5).

In [None]:
import pandas as pd

# Файл с данными о недвижимости в Мельбурне
melb_data = pd.read_csv('pd_data/melb_data.csv', sep=',')

display(melb_data.head())

Следующий код выведет семь последних строк нашей таблицы:

In [None]:
melb_data.tail(7)

## РАЗМЕРНОСТЬ ТАБЛИЦЫ

In [None]:
melb_data.shape
# (13580, 23)

## ПОЛУЧЕНИЕ ИНФОРМАЦИИ О СТОЛБЦАХ

In [None]:
melb_data.info()

Данный метод выводит:

- информацию об индексах;  
- информацию об общем количестве столбцов;  
- таблицу, в которой содержится информация об именах столбцов (Column), количестве непустых значений (Non-Null Count) в каждом столбце и типе данных столбца (Dtype), количестве столбцов, в которых используется определённый тип данных;  
- количество оперативной памяти в мегабайтах, которое тратится на хранение данных.

**Пустыми, или пропущенными**, значениями называются значения в ячейках таблицы, которые не заполнены по какой-либо причине, то есть на их месте стоит пустое место. В Pandas такие значения обозначаются символом NaN (Not-a-Number).

## ИЗМЕНЕНИЕ ТИПА ДАННЫХ В СТОЛБЦЕ

`astype()` который позволяет преобразовать тип данных столбца:

In [None]:
melb_data['Car'] = melb_data['Car'].astype('int64')
melb_data['Bedroom'] = melb_data['Bedroom'].astype('int64')
melb_data['Bathroom'] = melb_data['Bathroom'].astype('int64')
melb_data['Propertycount'] = melb_data['Propertycount'].astype('int64')
melb_data['YearBuilt'] = melb_data['YearBuilt'].astype('int64')
melb_data.info()

## ПОЛУЧЕНИЕ ОПИСАТЕЛЬНОЙ СТАТИСТИКИ

→ Часто при работе с таблицей нужно быстро посмотреть на основные статистические свойства её столбцов. Для этого можно воспользоваться методом DataFrame `describe()`.

По умолчанию метод работает с числовыми (`int64` и `float64`) столбцами и показывает число непустых значений (`count`), среднее (`mean`), стандартное отклонение (`std`), минимальное значение (`min`),  `квантили` уровней 0.25, 0.5 (медиана) и 0.75 (25%, 50%, 75%) и максимальное значение (`max`) для каждого столбца исходной таблицы.

Выведем на экран значение статистических параметров только для столбцов Distance (расстояние от объекта недвижимости до центра Мельбурна), BuildingArea (площадь здания) и Price (цена объекта):

In [None]:
melb_data.describe().loc[:, ['Distance', 'BuildingArea' , 'Price']]
#   	Distance	    BuildingArea	Price
# count	13580.000000	13580.000000	1.358000e+04
# mean	10.137776	    139.633972	    1.075684e+06
# std	5.868725	    392.217403  	6.393107e+05
# min	0.000000	    0.000000	    8.500000e+04
# 25%	6.100000	    122.000000	    6.500000e+05
# 50%	9.200000	    126.000000	    9.030000e+05
# 75%	13.000000	    129.940000  	1.330000e+06
# max	48.100000	    44515.000000	9.000000e+06

→ На самом деле метод `describe()` можно применять не только к числовым признакам. С помощью параметра `include` можно указать тип данных, для которого нужно вывести описательную информацию.

Например, для типа данных `object` метод `describe()` возвращает `DataFrame`, в котором указаны:

количество непустых строк (`count`);  
количество уникальных значений (`unique`);  
самое частое значение — мода —  (`top`);  
частота — объём использования — этого значения (`freq`) для каждого столбца типа `object` исходной таблицы.


In [None]:
melb_data.describe(include=['object'])

# 	     Suburb	    Address	         Type	Method	SellerG	Date	    CouncilArea Regionname	          Coordinates
# count	 13580	    13580	         13580	13580	13580	13580	    12211	    13580	              13580
# unique 314	    13378	         3	    5	    268 	58	        33	        8	                  13097
# top	 Reservoir	36 Aberfeldie St h	    S	    Nelson	27/05/2017	Moreland	Southern Metropolitan -37.8361, 144.9966
# freq	 359	    3	             9449	9022	1565	473	        1163	    4695	              12

## ПОЛУЧЕНИЕ ЧАСТОТЫ УНИКАЛЬНЫХ ЗНАЧЕНИЙ В СТОЛБЦЕ

→ Для того чтобы определить, сколько раз в столбце повторяется каждый из вариантов значений (т.е. найти частоту для каждого уникального знания), используется метод `value_counts()`.

In [None]:
melb_data['Regionname'].value_counts()

# Regionname
# Southern Metropolitan         4695
# Northern Metropolitan         3890
# Western Metropolitan          2948
# Eastern Metropolitan          1471
# South-Eastern Metropolitan     450
# Eastern Victoria                53
# Northern Victoria               41
# Western Victoria                32
# Name: count, dtype: int64

Чтобы сделать вывод более интерпретируемым и понятным, можно воспользоваться параметром `normalize`. При установке значения этого параметра на `True` результат будет представляться в виде доли (относительной частоты):

In [None]:
melb_data['Regionname'].value_counts(normalize=True)

# Regionname
# Southern Metropolitan         0.345729
# Northern Metropolitan         0.286451
# Western Metropolitan          0.217084
# Eastern Metropolitan          0.108321
# South-Eastern Metropolitan    0.033137
# Eastern Victoria              0.003903
# Northern Victoria             0.003019
# Western Victoria              0.002356
# Name: proportion, dtype: float64

Способ 1: проверить `dtype` одного столбца

In [None]:
melb_data.SellerG.dtypes

Способ 2: проверить `dtype` всех столбцов

In [None]:
melb_data.dtypes

Способ 3: проверьте, какие столбцы имеют определенный тип `dtype`

In [None]:
melb_data.dtypes [melb_data.dtypes == 'int64']

# 8/16  7. Статистические методы

**Агрегирующим** в Pandas называется метод, который для каждого столбца возвращает только одно значение — показатель (например, вычисление медианы, максимума, среднего и так далее).

Ниже приведена таблица основных агрегирующих методов:


МЕТОД   	    СТАТИСТИЧЕСКИЙ ПАРАМЕТР  
`.count()`	    Количество непустых значений  
`.mean() `	    Среднее значение  
`.median()`     Медианное значение  
`.min()`	    Минимальное значение  
`.max()`	    Максимальное значение  
`.var()`	    Дисперсия  
`.std()`	    Стандартное отклонение  
`.sum()`	    Сумма  
`.quantile(x)`	Квантиль уровня x  
`.nunique() ` 	Число уникальных значений        

Если один из этих методов применить **ко всему** `DataFrame`, то в результате его работы будет получен объект типа `Series`, в котором в качестве индексов будут выступать наименования столбцов, а в качестве значений — статистический показатель. В случае применения метода **к отдельному** столбцу результатом вычислений станет **число**.

В каждый метод можно передать некоторые параметры, среди которых:

`axis`  — определяет, подсчитывать параметр по строкам или по столбцам;  
`numeric_only` — определяет, вычислять параметры только по числовым столбцам/строкам или нет (`True/False`).

Вычислим среднюю цену на объекты недвижимости:

In [None]:
print(melb_data['Price'].mean())
# 1075684.079455081

Найдём максимальное количество парковочных мест:

In [None]:
print(melb_data['Car'].max())
# 10

А теперь представим, что риэлторская ставка для всех компаний за продажу недвижимости составляет 12%. Найдём общую прибыльность риэлторского бизнеса в Мельбурне. Результат округлим до сотых:

In [None]:
rate = 0.12
income = melb_data['Price'].sum() * rate
print('Total income of real estate agencies:', round(income, 2))
# Total income of real estate agencies: 1752934775.88

Найдём, насколько медианная площадь территории отличается от её среднего значения. Вычислим модуль разницы между медианой и средним и разделим результат на среднее, чтобы получить отклонение в долях:

In [None]:
landsize_median = melb_data['Landsize'].median() 
landsize_mean =  melb_data['Landsize'].mean()
print(abs(landsize_median - landsize_mean)/landsize_mean)
# 0.21205713983546193

В результате получаем долю отклонения медианы от среднего значения. Умножив результат на 100, получим его в процентах. Отклонение медианы от среднего значения на 21% является довольно большим, и это повод задуматься над тем, чтобы исследовать признак на наличие аномалий. 

## МОДАЛЬНОЕ ЗНАЧЕНИЕ

→ Отдельный интерес представляет статический показатель моды — самого распространённого значения в столбце. Он вычисляется с помощью метода `mode()`.

Модальных значений может быть несколько, то есть несколько значений могут встречаться одинаковое количество раз. Поэтому метод `mode()`, в отличие от агрегирующих методов, возвращает не одно число, а серию.

Вычислим, какое число комнат чаще всего представлено на рынке недвижимости:

In [None]:
print(melb_data['Rooms'].mode())
# 0    3
# Name: Rooms, dtype: int64

Примечание. Метод `mode()` может быть использован не только с числовыми столбцами, но и со столбцами типа `object`. Так, например, с помощью следующего кода можно найти наиболее распространённое название района:

In [None]:
melb_data['Regionname'].mode()

# 9/16  8. Фильтрация данных в DataFrame

Под фильтрацией в DataFrame подразумевается получение новой таблицы путём вырезания строк, не удовлетворяющих поставленному условию. 

Фильтрацию с помощью масок.

Маской называется `Series`, которая состоит из булевых значений, при этом значения `True` соответствуют тем индексам, для которых заданное условие выполняется, в противном случае ставится значение `False` (например, цена > 2 млн).

Создадим маску и положим её в переменную с именем `mask`. Синтаксис очень прост:

In [None]:
import pandas as pd

mask = melb_data['Price'] > 2000000
display(mask)

Для фильтрации нужно просто подставить переменную `mask` в индексацию `DataFrame`. Маска показывает, какие строки нужно оставлять в результирующем наборе, а какие — убирать (выведем первые пять строк отфильтрованной таблицы):

In [None]:
display(melb_data[mask].head())

Можно сразу вставлять условие в операцию индексации DataFrame, например:

In [None]:
melb_data[melb_data['Price'] > 2000000]

Найдём количество зданий с тремя комнатами. Для этого отфильтруем таблицу по условию: обратимся к результирующей таблице по столбцу `Rooms` и найдём число строк в ней с помощью атрибута `shape`:

In [None]:
melb_data[melb_data['Rooms'] == 3].shape[0]
# 5881

Условия можно комбинировать, используя операторы `&` (логическое И) и `|` (логическое ИЛИ). Условия при этом заключаются в скобки.

Усложним прошлый пример и найдём число трёхкомнатных домов с ценой менее 300 тысяч:

In [None]:
melb_data[(melb_data['Rooms'] == 3) & (melb_data['Price'] < 300000)].shape[0]
# 3

Таких зданий оказалось всего три. Немного «ослабим» условие: теперь нас будут интересовать дома с ценой менее 300 тысяч, у которых либо число комнат равно 3 либо площадь домов более 100 квадратных метров:

In [None]:
melb_data[((melb_data['Rooms'] == 3) | (melb_data['BuildingArea'] > 100)) & (melb_data['Price'] < 300000)].shape[0]
# 68

Примечание. Обратите внимание, что использование привычных операторов `and` и `or` будет неверным и приведёт к **ошибке**, так как они выполняют логические операции между двумя булевыми числами. В нашем случае слева и справа от оператора стоят маски (объекты `Series`), для которых логическую операцию надо совершить поэлементно, а операторы `and` и `or` для такого **не предназначены**.

Фильтрацию часто сочетают со статистическими методами. Давайте найдём максимальное количество комнат в таунхаусах. Так как в результате фильтрации получается `DataFrame`, то обратимся к нему по столбцу `Rooms` и найдём максимальное значение:

In [None]:
melb_data[melb_data['Type'] == 't']['Rooms'].max()
# 5

А теперь более сложный трюк: найдём медианную площадь здания у объектов, чья цена выше средней. Для того чтобы оградить наш код от нагромождений, предварительно создадим переменную со средней ценой:

In [None]:
mean_price = melb_data['Price'].mean()
print(mean_price)
melb_data[melb_data['Price'] > mean_price]['BuildingArea'].median()

# 126.0

Фильтрация находит применение в очистке данных.

Под очисткой данных понимается удаление из данных аномальных значений (выбросов), пропусков и данных, которые не несут информацию.