# Pandas
- является наиболее продвинутой и быстроразвивающейся библиотекой для анализа данных и их предобработки
- Подробная документация [Pandas](https://pandas.pydata.org/pandas-docs/stable/index.html) с детальным описанием всех функций и примерами их использования

# Что умее Pandas
- Среди основных возможностей библиотеки, необходимых специалисту в Data Science, можно выделить следующие:

1. Работа с различными форматами данных (csv, excel, json, sql и т. д.).

1. Фильтрация данных (извлечение данных по условиям).

1. Быстрые математические операции с таблицами и их столбцами.

1. Использование методов статистического анализа.

1. Группировка данных и построение сводных таблиц.

1. Объединение нескольких таблиц.

1. Встроенная визуализация (возможность построения графиков по данным).

In [18]:
# Импорт Pandas
import pandas as pd
print(pd.__version__)
print(pd.__name__)

1.5.2
pandas


# Series как структура данных
- Series — это упорядоченная изменяемая коллекция объектов, имеющая так называемые ассоциативные метки (индексы) (Единица хранения информации в Pandas). Грубо говоря это гибрид списка и словаря. 
- В отличии от списка, индексами могут быть не только порядковые номера, а фактически что угодно, например компаний, даты, идентификаторы, наименование продуктов.

In [19]:
# для создания Series используется команда 
pd.Series()

  pd.Series()


Series([], dtype: float64)

In [20]:
# Рассмотрим два способа создания Series
# Функция display() является аналогом функции print() в файлах формата.ipynb
print('Способ 1 - из списка с использованием параметров функции pd.Series():')
countries = pd.Series(
    data = ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ'],
    name = 'countries'
)
display(countries)
print('Способ 2 — из словаря, в котором ключами являются будущие метки, а значениями — будущие значения Series, при этом использование параметра name также возможно')
countries = pd.Series({
    'UK': 'Англия',
    'CA': 'Канада',
    'US' : 'США',
    'RU': 'Россия',
    'UA': 'Украина',
    'BY': 'Беларусь',
    'KZ': 'Казахстан'},
    name = 'countries'
)
display(countries)


Способ 1 - из списка с использованием параметров функции pd.Series():


UK       Англия
CA       Канада
US          США
RU       Россия
UA      Украина
BY     Беларусь
KZ    Казахстан
Name: countries, dtype: object

Способ 2 — из словаря, в котором ключами являются будущие метки, а значениями — будущие значения Series, при этом использование параметра name также возможно


UK       Англия
CA       Канада
US          США
RU       Россия
UA      Украина
BY     Беларусь
KZ    Казахстан
Name: countries, dtype: object

- Типом данных object в Pandas обозначаются строки и смешанные типы данных(котежи, списки, текст, смешанный с числами и т.д.)

# Доступ к данным в Series
Доступ к элементам осуществляется с использованием [loc](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.loc.html) или [iloc](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.iloc.html).
- .loc - передаются как один индекс, так и списоки, чтобы получить несколько элементов
- .iloc - передаются как один индекс, так и диапозны чисел.

In [21]:
print('Пример .loc')
print(countries.loc['US'])  # Один индекс
print()
print(countries.loc[['US', 'RU', 'UK']])  # Список
print()
print('Пример .iloc')
print(countries.iloc[6])  # Один индекс
print()
print(countries.iloc[1:4])  # Диапазон

Пример .loc
США

US       США
RU    Россия
UK    Англия
Name: countries, dtype: object

Пример .iloc
Казахстан

CA    Канада
US       США
RU    Россия
Name: countries, dtype: object


- На самом деле loc и iloc можно опустить и обращаться к элементам Series напрямую по индексам, например countries[[‘UK’, 'US', ‘UA’]] или countries[[0, 2, 4]]. Оба варианта являются равноправными для Series, однако в дальнейшем мы будем использовать эти операции при обращении к более сложной структуре — DataFrame, а в контексте этой структуры эти варианты уже неравноправны.

# DataFrame как структура данных
- DataFrame является двумерной структурой и представляется в виде таблицы, в которой есть строки и столбцы: столбцами в DataFrame выступают объекты Series, а строки формируются из их элементов. Также в DataFrame есть метки (индексы), которые соответствуют каждой строке таблицы.
##### Терминалогия
- DataFrame и таблица - это синонимы. 
- Столбец таблицы и признак - это синонимы.

#### Создание DataFrame

In [22]:
pd.DataFrame() # создание функции DataFrame

In [23]:
print('Способ 1.') 
print('Cоздания DataFrame — из словаря, ключами которого являются имена столбцов будущей таблицы, а значениями — списки, в которых хранится содержимое этих столбцов')
countries_df = pd.DataFrame({
    'country': ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    'population': [56.29, 38.05, 322.28, 146.24, 45.5, 9.5, 17.04],
    'square': [133396, 9984670, 9826630, 17125191, 603628, 207600, 2724902]
})
countries_df.index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ']
display(countries_df)
print()
print('Способ 2.')
print('Создание DataFrame - из вложенного списка, внутренние списки которого будут являться строками новой таблицы')
countries_df = pd.DataFrame(
    data = [
        ['Англия', 56.29, 133396],
        ['Канада', 38.05, 9984670],
        ['США', 322.28, 9826630],
        ['Россия', 146.24, 17125191],
        ['Украина', 45.5, 603628],
        ['Беларусь', 9.5, 207600],
        ['Казахстан', 17.04, 2724902]
    ],
    columns= ['country', 'population', 'square'],
    index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ']
)
display(countries_df)
 

Способ 1.
Cоздания DataFrame — из словаря, ключами которого являются имена столбцов будущей таблицы, а значениями — списки, в которых хранится содержимое этих столбцов


Unnamed: 0,country,population,square
UK,Англия,56.29,133396
CA,Канада,38.05,9984670
US,США,322.28,9826630
RU,Россия,146.24,17125191
UA,Украина,45.5,603628
BY,Беларусь,9.5,207600
KZ,Казахстан,17.04,2724902



Способ 2.
Создание DataFrame - из вложенного списка, внутренние списки которого будут являться строками новой таблицы


Unnamed: 0,country,population,square
UK,Англия,56.29,133396
CA,Канада,38.05,9984670
US,США,322.28,9826630
RU,Россия,146.24,17125191
UA,Украина,45.5,603628
BY,Беларусь,9.5,207600
KZ,Казахстан,17.04,2724902


# AXIS В DataFrame
- DataFrame является двумерной структурой данных, что означает наличие двух возможных направлений движения в ней: вдоль строк и вдоль столбцов. (т.е. мы можем редактировать, как строки, так и столбцы. Например удалять их)

- axis - ось, координата. Движение по строкам в таблице обозначается axis с индексом 0, а движение по столбцам — axis с индексом 1.
Данный параметр заложен во все методы, которые могут работать в двух направлениях и по умолчанию в большинстве из них axis=0, то есть они выполняют операции со строками, если не задавать axis вручную.

##### демонстрация направления axis в DataFrame:
![Image of Yaktocat](https://i.stack.imgur.com/dcoE3.jpg)

In [24]:
display('Считаем среднее по строкам(axis = 0) в каждом столбце:')
display(countries_df.mean(axis=0))
display()
display('Считаем среднее по столбцам(axis = 1) в каждой строке')
display(countries_df.mean(axis=1))
display()
display('Обращаемся к DataFrame по имени столбца через точку:')
display(countries_df.population)

'Считаем среднее по строкам(axis = 0) в каждом столбце:'

  display(countries_df.mean(axis=0))


population    9.070000e+01
square        5.800860e+06
dtype: float64

'Считаем среднее по столбцам(axis = 1) в каждой строке'

  display(countries_df.mean(axis=1))


UK      66726.145
CA    4992354.025
US    4913476.140
RU    8562668.620
UA     301836.750
BY     103804.750
KZ    1362459.520
dtype: float64

'Обращаемся к DataFrame по имени столбца через точку:'

UK     56.29
CA     38.05
US    322.28
RU    146.24
UA     45.50
BY      9.50
KZ     17.04
Name: population, dtype: float64

#

In [25]:
print('Обращаемся к DataFrame по индексу и указанием имени столбца:')
print(countries_df['population'])
print()
print('Несколько примеров использования loc и iloc:')
display(countries_df.loc['UK', 'square'])
print()
display(countries_df.loc['RU', ['population', 'square']])
print()
display(countries_df.loc[['UA', 'BY', 'KZ'],['population', 'square']])
print()
display(countries_df.iloc[4:8, 1:3])

Обращаемся к DataFrame по индексу и указанием имени столбца:
UK     56.29
CA     38.05
US    322.28
RU    146.24
UA     45.50
BY      9.50
KZ     17.04
Name: population, dtype: float64

Несколько примеров использования loc и iloc:


133396




population      146.24
square        17125191
Name: RU, dtype: object




Unnamed: 0,population,square
UA,45.5,603628
BY,9.5,207600
KZ,17.04,2724902





Unnamed: 0,population,square
UA,45.5,603628
BY,9.5,207600
KZ,17.04,2724902


# Работа с различными источниками данных в Pandas
- В работе Data Scientist чаще всего сталкивается с уже собранными данными, хранящимися в виде файлов и других источников, таких как базы данных и web-источники. Проблема заключается в том, что каждый источник данных представляет разный формат: например, если данные приходят к вам из отдела бухгалтерии, то это, скорее всего, будет формат Excel-таблицы, результаты web-запросов чаще всего представлены в формате JSON или XML и так далее.

### ЗАПИСЬ В CSV-ФАЙЛ
Предположим, что мы захотели сохранить созданный нами ранее DataFrame. Самым простым и распространённым источником табличных данных является формат [csv](https://freesoft.ru/blog/fayl-formata-csv-chem-otkryt-opisanie-osobennosti) (comma-separated values). В данном формате ячейки таблицы обозначаются некоторым разделителем, чаще всего запятой либо точкой с запятой.
Экспорт данных в формат csv осуществляется с помощью метода **DataFrame to_csv()**.  



#### Основные параметры метода DataFrame [to_csv()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_csv.html)
- path_or_buf — путь до файла, в который будет записан DataFrame (например, data/my_data.csv);
- sep — разделитель данных в выходном файле (по умолчанию ',');
- decimal — разделитель чисел на целую и дробную части в выходном файле (по умолчанию '.');
- columns — список столбцов, которые нужно записать в файл (по умолчанию записываются все столбцы);
- index — параметр, определяющий, требуется ли создавать дополнительный столбец с индексами строк в файле (по умолчанию True).

Заранее создадим папку data в директории, где лежит наш ноутбук. Теперь давайте сохраним наш DataFrame с информацией о странах в csv-файл countries.csv и положим файл в папку data. При этом укажем, что разделителем в нашем файле будет являться символ ';', а также то, что нам не нужен дополнительный столбец с индексами строк:



In [32]:
countries_df = pd.DataFrame({
    'country': ['England', 'Canada', 'USA', 'Russia', 'Ukrain', 'Belarus', 'Kazahstan'],
    'population': [56.29, 38.05, 322.28, 146.24, 45.5, 9.5, 17.04],
    'square': [133396, 9984670, 9826630, 17125191, 603628, 207600, 2724902]
})

countries_df.to_csv('C:\\Users\\admin\\Desktop\\SF DS118\\data\\countries.csv', index=False, sep=';')

### Чтение CSV-Фала
- для этого используется функция модуля Pandas **read_csv**. Функция возвращает DataFrame И имеет несколько важных параметров.
#### Основные параметры функции [read_csv()](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html)

- filepath_or_buffer — путь до файла, который мы читаем;
- sep — разделитель данных (по умолчанию ',');
- decimal — разделитель чисел на целую и дробную часть в выходном файле (по умолчанию '.');
- names — список с названиями столбцов для чтения;
- skiprows — количество строк в файле, которые нужно пропустить (например, файл может содержать служебную информацию, которая нам не нужна).


In [34]:
# проверяем, что ранее сохраненный нами файл был создан верно
countries_data = pd.read_csv('C:\\Users\\admin\\Desktop\\SF DS118\\data\\countries.csv', sep=';')
display(countries_data)

Unnamed: 0,country,population,square
0,England,56.29,133396
1,Canada,38.05,9984670
2,USA,322.28,9826630
3,Russia,146.24,17125191
4,Ukrain,45.5,603628
5,Belarus,9.5,207600
6,Kazahstan,17.04,2724902


# ЧТЕНИЕ CSV-ФАЙЛА ПО ССЫЛКЕ
На самом деле файл с данными не обязательно должен храниться у вас на компьютере. Если он находится в открытом доступе по ссылке (например, на Google Диске или GitHub), его можно прочитать и из интернета — для этого достаточно в функции read_csv() вместо пути до файла указать ссылку на файл. Например:

In [35]:
data = pd.read_csv('https://raw.githubusercontent.com/esabunor/MLWorkspace/master/melb_data.csv')
display(data)

Unnamed: 0.1,Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Bathroom,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
0,1,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,...,1.0,1.0,202.0,,,Yarra,-37.79960,144.99840,Northern Metropolitan,4019.0
1,2,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,...,1.0,0.0,156.0,79.0,1900.0,Yarra,-37.80790,144.99340,Northern Metropolitan,4019.0
2,4,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,...,2.0,0.0,134.0,150.0,1900.0,Yarra,-37.80930,144.99440,Northern Metropolitan,4019.0
3,5,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,...,2.0,1.0,94.0,,,Yarra,-37.79690,144.99690,Northern Metropolitan,4019.0
4,6,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,...,1.0,2.0,120.0,142.0,2014.0,Yarra,-37.80720,144.99410,Northern Metropolitan,4019.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
18391,23540,Williamstown,8/2 Thompson St,2,t,622500.0,SP,Greg,26/08/2017,6.8,...,2.0,1.0,,89.0,2010.0,,-37.86393,144.90484,Western Metropolitan,6380.0
18392,23541,Williamstown,96 Verdon St,4,h,2500000.0,PI,Sweeney,26/08/2017,6.8,...,1.0,5.0,866.0,157.0,1920.0,,-37.85908,144.89299,Western Metropolitan,6380.0
18393,23544,Yallambie,17 Amaroo Wy,4,h,1100000.0,S,Buckingham,26/08/2017,12.7,...,3.0,2.0,,,,,-37.72006,145.10547,Northern Metropolitan,1369.0
18394,23545,Yarraville,6 Agnes St,4,h,1285000.0,SP,Village,26/08/2017,6.3,...,1.0,1.0,362.0,112.0,1920.0,,-37.81188,144.88449,Western Metropolitan,6543.0


#### ЗАПИСЬ И ЧТЕНИЕ В ДРУГИХ ФОРМАТАХ
##### Методы для записи таблиц **в файлы отличных** от csv форматов:

- to_excel() — запись DataFrame в формат Excel-таблицы (.xlsx);
- to_json() — запись DataFrame в формат JSON (.json);
- to_xml() — запись DataFrame в формат XML-документа (.xml);
- to_sql() — запись DataFrame в базу данных SQL (для реализации этого метода необходимо установить соединение с базой данных).

##### Методы для чтения таблиц **из файлов в отличных** от csv форматах:

- read_excel() — чтение из формата Excel-таблицы (.xlsx) в DataFrame;
- read_json() — чтение из формата JSON (.json) в DataFrame;
- read_xml() — чтение из формата XML-документа (.xml) в DataFrame;
- read_sql() — чтение из базы данных SQL в DataFrame (также необходимо установить соединение с базой данных).