# Модуль Panda. 
## Series
Series — это упорядоченная изменяемая коллекция объектов, имеющая так называемые ассоциативные метки (индексы)

In [214]:
import pandas as pd
pd.__version__
print(pd.__name__)

pandas


## Создание

In [215]:
# Способ 1 — из списка с использованием параметров функции pd.Series()
countries = pd.Series(
    data = ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ'],
    name = 'countries'
)
display(countries)


UK       Англия
CA       Канада
US          США
RU       Россия
UA      Украина
BY     Беларусь
KZ    Казахстан
Name: countries, dtype: object

In [216]:
# Способ 2 — из словаря, в котором ключами являются будущие метки, 
# а значениями — будущие значения Series, 
# при этом использование параметра name также возможно:
countries = pd.Series({
    'UK': 'Англия',
    'CA': 'Канада',
    'US' : 'США',
    'RU': 'Россия',
    'UA': 'Украина',
    'BY': 'Беларусь',
    'KZ': 'Казахстан'},
    name = 'countries'
)
display(countries)


UK       Англия
CA       Канада
US          США
RU       Россия
UA      Украина
BY     Беларусь
KZ    Казахстан
Name: countries, dtype: object

## ДОСТУП К ДАННЫМ В SERIES

In [217]:
# .loc вызывается с квадратными скобками, в которые передаются метки. 
# В него можно передать как один индекс, 
# так и список, чтобы получилось несколько элементов.
print(countries.loc['US'])
# Для того чтобы достать информацию по нескольким индексам, необходимо обернуть интересующие индексы в список:
print(countries.loc[['US', 'RU', 'UK']])

США
US       США
RU    Россия
UK    Англия
Name: countries, dtype: object


In [218]:
# .iloc также вызывается с квадратными скобками 
# и принимает на вход порядковые номера элементов Series 
# (нумерация начинаются с 0). 
# В него можно так же передавать как один индекс, так и диапазон чисел. 
print(countries.iloc[6])
print(countries.iloc[1:4])
# На самом деле loc и iloc можно опустить 
# и обращаться к элементам Series напрямую по индексам, 
# например countries[‘UK’, 'US', ‘UA’] или countries[0, 2, 4]. 
# Оба варианта являются равноправными для Series, 
# однако в дальнейшем мы будем использовать эти операции 
# при обращении к более сложной структуре — DataFrame, 
# а в контексте этой структуры эти варианты уже неравноправны.



Казахстан
CA    Канада
US       США
RU    Россия
Name: countries, dtype: object


## DataFrame 
является двумерной структурой и представляется в виде таблицы, в которой есть строки и столбцы: столбцами в DataFrame выступают объекты Series, а строки формируются из их элементов. Также в DataFrame есть метки (индексы), которые соответствуют каждой строке таблицы.

СОЗДАНИЕ DATAFRAME

DataFrame создаётся с помощью функции pd.DataFrame(). Так же, как и для Series, для создания объектов DataFrame есть несколько способов:

In [219]:
# 1. из словаря, ключами которого являются имена столбцов будущей таблицы, 
# а значениями — списки, в которых хранится содержимое этих столбцов:

countries_df = pd.DataFrame({
    'country': ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    'population': [56.29, 38.05, 322.28, 146.24, 45.5, 9.5, 17.04],
    'square': [133396, 9984670, 9826630, 17125191, 603628, 207600, 2724902]
})
display(countries_df)
# мы не задали метки (индексы) DataFrame, они были сгенерированы автоматически. 
# Исправим это, задав индексы вручную:
countries_df.index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ']
display(countries_df)


Unnamed: 0,country,population,square
0,Англия,56.29,133396
1,Канада,38.05,9984670
2,США,322.28,9826630
3,Россия,146.24,17125191
4,Украина,45.5,603628
5,Беларусь,9.5,207600
6,Казахстан,17.04,2724902


Unnamed: 0,country,population,square
UK,Англия,56.29,133396
CA,Канада,38.05,9984670
US,США,322.28,9826630
RU,Россия,146.24,17125191
UA,Украина,45.5,603628
BY,Беларусь,9.5,207600
KZ,Казахстан,17.04,2724902


In [220]:
# 2.  из вложенного списка, 
# внутренние списки которого будут являться # строками новой таблицы:

countries_df = pd.DataFrame(
    data = [
        ['Англия', 56.29, 133396],
        ['Канада', 38.05, 9984670],
        ['США', 322.28, 9826630],
        ['Россия', 146.24, 17125191],
        ['Украина', 45.5, 603628],
        ['Беларусь', 9.5, 207600],
        ['Казахстан', 17.04, 2724902]
    ],
    columns= ['country', 'population', 'square'],
    index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ']
)
display(countries_df)

Unnamed: 0,country,population,square
UK,Англия,56.29,133396
CA,Канада,38.05,9984670
US,США,322.28,9826630
RU,Россия,146.24,17125191
UA,Украина,45.5,603628
BY,Беларусь,9.5,207600
KZ,Казахстан,17.04,2724902


##  понятие axis (ось, координата). 

In [221]:
# важно уметь указывать направление работы метода, который используется. 
# Для этого вводится понятие axis (ось, координата). 
# Движение по строкам обозначается axis=0, получим обработку каждого столбца
# а движение по столбцам — axis = 1. получим обработку каждой строки
# по умолчанию в большинстве случаев axis=0

countries_df.mean(axis=0)

  countries_df.mean(axis=0)


population    9.070000e+01
square        5.800860e+06
dtype: float64

In [222]:
countries_df.mean(axis=1)

  countries_df.mean(axis=1)


UK      66726.145
CA    4992354.025
US    4913476.140
RU    8562668.620
UA     301836.750
BY     103804.750
KZ    1362459.520
dtype: float64

## ДОСТУП К ДАННЫМ В DATAFRAME

In [223]:
# Можно обратиться к DataFrame по имени столбца через точку:
countries_df.population

UK     56.29
CA     38.05
US    322.28
RU    146.24
UA     45.50
BY      9.50
KZ     17.04
Name: population, dtype: float64

In [224]:
# Другой вариант — обратиться к DataFrame по индексу и указать имя столбца:
countries_df['population']


UK     56.29
CA     38.05
US    322.28
RU    146.24
UA     45.50
BY      9.50
KZ     17.04
Name: population, dtype: float64

In [225]:
# при обращении к столбцу DataFrame мы получаем объект Series с именем, 
# соответствующим имени столбца. Удостовериться - type():
type(countries_df.population)


pandas.core.series.Series

In [226]:
# доступ к ячейкам таблицы, используются уже знакомые нам loc и iloc.
# при обращении к DataFrame по индексам с помощью loc (iloc) 
# первым индексом указывается индекс (порядковый номер), соответствующий строкам, 
# а вторым — имя (порядковый номер) столбца.

display(countries_df.loc['UK', 'square'])
display(countries_df.loc['RU', ['population', 'square']])
display(countries_df.loc[['UA', 'BY', 'KZ'],['population', 'square']])
# или 
display(countries_df.iloc[4:8, 1:3])


133396

population      146.24
square        17125191
Name: RU, dtype: object

Unnamed: 0,population,square
UA,45.5,603628
BY,9.5,207600
KZ,17.04,2724902


Unnamed: 0,population,square
UA,45.5,603628
BY,9.5,207600
KZ,17.04,2724902


## Экспорт и импорт данных 

In [227]:
# Экспорт данных в формат csv 
# осуществляется с помощью метода DataFrame to_csv().  

countries_df = pd.DataFrame({
    'country': ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    'population': [56.29, 38.05, 322.28, 146.24, 45.5, 9.5, 17.04],
    'square': [133396, 9984670, 9826630, 17125191, 603628, 207600, 2724902]
})

countries_df.to_csv('../Python-10/data/countries.csv', index=False, sep=';')

In [228]:
# Для чтения таблицы из csv-файла используется функция модуля Pandas read_csv. 
# Функция возвращает DataFrame
countries_data = pd.read_csv('data/countries.csv', sep=';')
display(countries_data)


Unnamed: 0,country,population,square
0,Англия,56.29,133396
1,Канада,38.05,9984670
2,США,322.28,9826630
3,Россия,146.24,17125191
4,Украина,45.5,603628
5,Беларусь,9.5,207600
6,Казахстан,17.04,2724902


In [229]:
# ЧТЕНИЕ CSV-ФАЙЛА ПО ССЫЛКЕ

data = pd.read_csv('https://raw.githubusercontent.com/esabunor/MLWorkspace/master/melb_data.csv')
display(data)

Unnamed: 0.1,Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Bathroom,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
0,1,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,...,1.0,1.0,202.0,,,Yarra,-37.79960,144.99840,Northern Metropolitan,4019.0
1,2,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,...,1.0,0.0,156.0,79.0,1900.0,Yarra,-37.80790,144.99340,Northern Metropolitan,4019.0
2,4,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,...,2.0,0.0,134.0,150.0,1900.0,Yarra,-37.80930,144.99440,Northern Metropolitan,4019.0
3,5,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,...,2.0,1.0,94.0,,,Yarra,-37.79690,144.99690,Northern Metropolitan,4019.0
4,6,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,...,1.0,2.0,120.0,142.0,2014.0,Yarra,-37.80720,144.99410,Northern Metropolitan,4019.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
18391,23540,Williamstown,8/2 Thompson St,2,t,622500.0,SP,Greg,26/08/2017,6.8,...,2.0,1.0,,89.0,2010.0,,-37.86393,144.90484,Western Metropolitan,6380.0
18392,23541,Williamstown,96 Verdon St,4,h,2500000.0,PI,Sweeney,26/08/2017,6.8,...,1.0,5.0,866.0,157.0,1920.0,,-37.85908,144.89299,Western Metropolitan,6380.0
18393,23544,Yallambie,17 Amaroo Wy,4,h,1100000.0,S,Buckingham,26/08/2017,12.7,...,3.0,2.0,,,,,-37.72006,145.10547,Northern Metropolitan,1369.0
18394,23545,Yarraville,6 Agnes St,4,h,1285000.0,SP,Village,26/08/2017,6.3,...,1.0,1.0,362.0,112.0,1920.0,,-37.81188,144.88449,Western Metropolitan,6543.0
