## Введение в Pandas 

Pandas является наиболее продвинутой и быстроразвивающейся библиотекой для анализа данных и их предобработки.

Среди основных возможностей библиотеки, необходимых специалисту в Data Science, можно выделить следующие:

- Работа с различными форматами данных (csv, excel, json, sql и т. д.).

- Фильтрация данных (извлечение данных по условиям).

- Быстрые математические операции с таблицами и их столбцами.

- Использование методов статистического анализа.

- Группировка данных и построение сводных таблиц.

- Объединение нескольких таблиц.

- Встроенная визуализация (возможность построения графиков по данным).

Основными структурами данных в Pandas являются **Series** и **DataFrame**.

In [None]:
import pandas as pd
print(pd.__name__)

### Pandas. Series как структура данных

**Series** — это упорядоченная изменяемая коллекция объектов, имеющая так называемые ассоциативные метки (индексы). 

Эту структуру можно сравнить со списком: каждому элементу ставится в соответствие индекс, однако, в отличие от списка, индексами могут быть не только порядковые номера — фактически что угодно, например названия компаний, даты, идентификаторы, наименования продуктов.

Также для каждой Series присваивается тип данных её элементов (например int64) и может быть определено имя всего массива. В итоге мы получаем некоторый гибрид списка и словаря.



In [None]:
# Рассмотрим основные способы создания Series

# Способ 1 - из списка с использованием параметров функции pd.Series()

countries = pd.Series(
    data=['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
                      index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ'],
                      name = 'countriees'
                      )
display(countries)

# Примечание. Если оставить параметр index пустым, то метки будут присвоены автоматически в виде порядковых номеров элементов

# Способ 2 - из словаря, в котором ключами являются будущие метки, а значениями - будущие значения Series, 
# при этом использование параметра name также возможно

countries = pd.Series({
    'UK': 'Англия',
    'CA': 'Канада',
    'US' : 'США',
    'RU': 'Россия',
    'UA': 'Украина',
    'BY': 'Беларусь',
    'KZ': 'Казахстан'},
    name = 'countries'
)
display(countries)



**К данным в структуре Series** можно обращатсья либо по меткам, либо по индексам:
- При использовании меток необходимо обращаться либо по одному элементу, либо формировать список элементов
- При обращении по индексам, можно обращаться, как по конкретному индексу, так и по срезам

Обрааться к элементам Series можно как напрямую через [], так и с помощью:
- .loc[] - для меток
- .iloc[] - для индексов или срезов

In [None]:
# Споосб 1. По меткам с помощью .loc[]
print(countries.loc['US'])
print(countries.loc[['US', 'UA']])
print()
# Способ 2. По индексам с помощью .iloc[]
print(countries.iloc[0])
print(countries.iloc[1:3])
print()
# Споосб 3. Напрямую по меткам
print(countries['UA'])
print()
# Способ 4. Напрямую по индексам
print(countries[1])
print()
# Способ 5. Напряму по срезам
print(countries[0:3])

### Pandas. DataFrame

DataFrame является двумерной структурой и представляется в виде таблицы, в которой есть строки и столбцы: столбцами в DataFrame выступают объекты Series, а строки формируются из их элементов. Также в DataFrame есть метки (индексы), которые соответствуют каждой строке таблицы.

In [None]:
# Способ создания DataFrame через словари
countries_df = pd.DataFrame({
    'country': ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    'population': [56.29, 38.05, 322.28, 146.24, 45.5, 9.5, 17.04],
    'area': [133396, 9984670, 9826630, 17125191, 603628, 207600, 2724902]
})
print(countries_df)

# Способ создания DataFrame через вложенные списки

countries_df = pd.DataFrame(
    data = [
        ['Англия', 56.29, 133396],
        ['Канада', 38.05, 9984670],
        ['США', 322.28, 9826630],
        ['Россия', 146.24, 17125191],
        ['Украина', 45.5, 603628],
        ['Беларусь', 9.5, 207600],
        ['Казахстан', 17.04, 2724902]
    ],
    columns= ['country', 'population', 'area'],
    index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ']
)
display(countries_df)