# УСТАНОВКА PANDAS

In [None]:
import pandas as pd
pd.__version__

In [None]:
!pip install pandas

In [4]:
import pandas as pd
pd.__version__

'2.0.3'

In [5]:
print(pd.__name__)

pandas


# SERIES КАК СТРУКТУРА ДАННЫХ

Series — это упорядоченная изменяемая коллекция объектов, имеющая так называемые ассоциативные метки (индексы). 

СОЗДАНИЕ SERIES

→ Для создания объекта Series используется команда pd.Series().

Способ 1 — из списка с использованием параметров функции pd.Series():

In [None]:
import pandas as pd
countries = pd.Series(
    data = ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ'],
    name = 'countries'
)
display(countries)

**Примечание.** Функция `display()` является аналогом функции `print()` в файлах формата `.ipynb` (ноутбуках/блокнотах), но чаще используется для вывода табличных данных. 

Здесь и в дальнейшем функция `display()` используется для более красивого вывода таблиц в файлах формата `.ipynb`.


**Способ 2** — из словаря, в котором ключами являются будущие метки, а значениями — будущие значения Series, при этом использование параметра name также возможно:

In [None]:
countries = pd.Series({
    'UK': 'Англия',
    'CA': 'Канада',
    'US' : 'США',
    'RU': 'Россия',
    'UA': 'Украина',
    'BY': 'Беларусь',
    'KZ': 'Казахстан'},
    name = 'countries'
)
display(countries)

**ДОСТУП К ДАННЫМ В SERIES**

Доступ к элементам осуществляется с использованием `loc` или `iloc`.

In [None]:
print(countries.loc['US'])
# США

print(countries.loc[['US', 'RU', 'UK']])
# US       США
# RU    Россия
# UK    Англия
# Name: countries, dtype: object

In [None]:
print(countries.iloc[6])
# Казахстан

print(countries.iloc[1:4])
# CA    Канада
# US       США
# RU    Россия
# Name: countries, dtype: object

На самом деле `loc` и `iloc` можно опустить и обращаться к элементам Series напрямую по индексам, например `countries[[‘UK’, 'US', ‘UA’]]` или `countries[[0, 2, 4]]`. Оба варианта являются равноправными для `Series`, однако в дальнейшем мы будем использовать эти операции при обращении к более сложной структуре — `DataFrame`, а в контексте этой структуры эти варианты уже неравноправны.

# DATAFRAME КАК СТРУКТУРА ДАННЫХ

`DataFrame` является двумерной структурой и представляется в виде таблицы, в которой есть строки и столбцы: столбцами в `DataFrame` выступают объекты `Series`, а строки формируются из их элементов. Также в `DataFrame` есть метки (индексы), которые соответствуют каждой строке таблицы.

**СОЗДАНИЕ `DATAFRAME`**

**СПОСОБ 1**

Самый простой способ создания `DataFrame` — из словаря, ключами которого являются имена столбцов будущей таблицы, а значениями — списки, в которых хранится содержимое этих столбцов:

In [None]:
countries_df = pd.DataFrame({
    'country': ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    'population': [56.29, 38.05, 322.28, 146.24, 45.5, 9.5, 17.04],
    'square': [133396, 9984670, 9826630, 17125191, 603628, 207600, 2724902]
})
countries_df
# 	country	  population	square
# 0	Англия	    56.29	    133396
# 1	Канада  	38.05	    9984670
# 2	США	        322.28    	9826630
# 3	Россия	    146.24	    17125191
# 4	Украина	    45.50	    603628
# 5	Беларусь	9.50	    207600
# 6	Казахстан	17.04   	2724902

Обратите внимание, что, так как мы не задали метки (индексы) `DataFrame`, они были сгенерированы автоматически. Исправим это, задав индексы вручную:

In [None]:
countries_df.index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ']
display(countries_df)
# 	  country	    population	square
# UK  Англия	    56.29	    133396
# CA  Канада	    38.05	    9984670
# US  США	        322.28	    9826630
# RU  Россия	    146.24	    17125191
# UA  Украина	    45.50	    603628
# BY  Беларусь	    9.50	    207600
# KZ  Казахстан	    17.04	    2724902

**СПОСОБ 2**

Также `DataFrame` можно создать из вложенного списка, внутренние списки которого будут являться строками новой таблицы:

In [None]:
countries_df = pd.DataFrame(
    data = [
        ['Англия', 56.29, 133396],
        ['Канада', 38.05, 9984670],
        ['США', 322.28, 9826630],
        ['Россия', 146.24, 17125191],
        ['Украина', 45.5, 603628],
        ['Беларусь', 9.5, 207600],
        ['Казахстан', 17.04, 2724902]
    ],
    columns= ['country', 'population', 'square'],
    index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ']
)
display(countries_df)
# 	  country	    population	square
# UK  Англия	    56.29	    133396
# CA  Канада	    38.05	    9984670
# US  США	        322.28	    9826630
# RU  Россия	    146.24	    17125191
# UA  Украина	    45.50	    603628
# BY  Беларусь	    9.50	    207600
# KZ  Казахстан	    17.04	    2724902

**`AXIS` В `DATAFRAME`**

Данный параметр заложен во все методы, которые могут работать в двух направлениях и по умолчанию в большинстве из них `axis=0`, то есть они выполняют операции со строками, если не задавать `axis` вручную.

Считаем среднее по строкам `(axis = 0)` в каждом столбце:

In [56]:
countries_df.iloc[::, 1:].mean(axis=0)
# или
countries_df.mean(axis=0, numeric_only=True)
# population    9.070000e+01
# square        5.800860e+06
# dtype: float64

population    9.070000e+01
square        5.800860e+06
dtype: float64


Считаем среднее по столбцам `(axis = 1)` в каждой строке:

In [None]:
countries_df.iloc[::, 1:].mean(axis=1)
# UK      66726.145
# CA    4992354.025
# US    4913476.140
# RU    8562668.620
# UA     301836.750
# BY     103804.750
# KZ    1362459.520
# dtype: float64

**ДОСТУП К ДАННЫМ В DATAFRAME**

Можно обратиться к `DataFrame` по имени столбца через точку:
(Однако использование такого способа возможно только тогда, когда имя столбца указано без пробелов.)

In [None]:
countries_df.population
# UK     56.29
# CA     38.05
# US    322.28
# RU    146.24
# UA     45.50
# BY      9.50
# KZ     17.04
# Name: population, dtype: float64

Другой вариант — обратиться к `DataFrame` по индексу и указать имя столбца:

In [None]:
countries_df['population']
# UK     56.29
# CA     38.05
# US    322.28
# RU    146.24
# UA     45.50
# BY      9.50
# KZ     17.04
# Name: population, dtype: float64

In [None]:
type(countries_df.population)
# pandas.core.series.Series

Для того чтобы получить доступ к ячейкам таблицы, используются уже знакомые нам `loc` и `iloc`.



In [58]:
# Получим площадь Великобритании:

countries_df.loc['UK', 'square']
# 133396

133396

In [59]:
# Получим население и площадь, соответствующие России:

countries_df.loc['RU', ['population', 'square']]
# population      146.24
# square        17125191
# Name: RU, dtype: object

population      146.24
square        17125191
Name: RU, dtype: object

In [52]:
# Сделаем вырезку из таблицы и получим информацию о населении и площади, соответствующую Украине, Беларуси и Казахстану:

countries_df.loc[['UA', 'BY', 'KZ'],['population', 'square']]

# или

countries_df.iloc[4:22, 1:]

Unnamed: 0,population,square
UA,45.5,603628
BY,9.5,207600
KZ,17.04,2724902


In [48]:
# Выборка по столбцам (С цифрами не работает! Только в таком виде!)
countries_df.loc[::,['population', 'square']]

Unnamed: 0,population,square
UK,56.29,133396
CA,38.05,9984670
US,322.28,9826630
RU,146.24,17125191
UA,45.5,603628
BY,9.5,207600
KZ,17.04,2724902
