# Pandas
- является наиболее продвинутой и быстроразвивающейся библиотекой для анализа данных и их предобработки
- Подробная документация [Pandas](https://pandas.pydata.org/pandas-docs/stable/index.html) с детальным описанием всех функций и примерами их использования

# Что умее Pandas
- Среди основных возможностей библиотеки, необходимых специалисту в Data Science, можно выделить следующие:

1. Работа с различными форматами данных (csv, excel, json, sql и т. д.).

1. Фильтрация данных (извлечение данных по условиям).

1. Быстрые математические операции с таблицами и их столбцами.

1. Использование методов статистического анализа.

1. Группировка данных и построение сводных таблиц.

1. Объединение нескольких таблиц.

1. Встроенная визуализация (возможность построения графиков по данным).

In [1]:
# Импорт Pandas
import pandas as pd
print(pd.__version__)
print(pd.__name__)

1.5.2
pandas


# Series как структура данных
- Series — это упорядоченная изменяемая коллекция объектов, имеющая так называемые ассоциативные метки (индексы) (Единица хранения информации в Pandas). Грубо говоря это гибрид списка и словаря. 
- В отличии от списка, индексами могут быть не только порядковые номера, а фактически что угодно, например компаний, даты, идентификаторы, наименование продуктов.

In [2]:
# для создания Series используется команда 
pd.Series()

  pd.Series()


Series([], dtype: float64)

In [7]:
# Рассмотрим два способа создания Series
# Функция display() является аналогом функции print() в файлах формата.ipynb
print('Способ 1 - из списка с использованием параметров функции pd.Series():')
countries = pd.Series(
    data = ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'KZ'],
    name = 'countries'
)
display(countries)
print('Способ 2 — из словаря, в котором ключами являются будущие метки, а значениями — будущие значения Series, при этом использование параметра name также возможно')
countries = pd.Series({
    'UK': 'Англия',
    'CA': 'Канада',
    'US' : 'США',
    'RU': 'Россия',
    'UA': 'Украина',
    'BY': 'Беларусь',
    'KZ': 'Казахстан'},
    name = 'countries'
)
display(countries)


Способ 1 - из списка с использованием параметров функции pd.Series():


UK       Англия
CA       Канада
US          США
RU       Россия
UA      Украина
BY     Беларусь
KZ    Казахстан
Name: countries, dtype: object

Способ 2 — из словаря, в котором ключами являются будущие метки, а значениями — будущие значения Series, при этом использование параметра name также возможно


UK       Англия
CA       Канада
US          США
RU       Россия
UA      Украина
BY     Беларусь
KZ    Казахстан
Name: countries, dtype: object

- Типом данных object в Pandas обозначаются строки и смешанные типы данных(котежи, списки, текст, смешанный с числами и т.д.)

# Доступ к данным в Series
Доступ к элементам осуществляется с использованием [loc](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.loc.html) или [iloc](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.iloc.html).
- .loc - передаются как один индекс, так и списоки, чтобы получить несколько элементов
- .iloc - передаются как один индекс, так и диапозны чисел.

In [11]:
print('Пример .loc')
print(countries.loc['US'])  # Один индекс
print()
print(countries.loc[['US', 'RU', 'UK']])  # Список
print()
print('Пример .iloc')
print(countries.iloc[6])  # Один индекс
print()
print(countries.iloc[1:4])  # Диапазон

Пример .loc
США

US       США
RU    Россия
UK    Англия
Name: countries, dtype: object

Пример .iloc
Казахстан

CA    Канада
US       США
RU    Россия
Name: countries, dtype: object


- На самом деле loc и iloc можно опустить и обращаться к элементам Series напрямую по индексам, например countries[[‘UK’, 'US', ‘UA’]] или countries[[0, 2, 4]]. Оба варианта являются равноправными для Series, однако в дальнейшем мы будем использовать эти операции при обращении к более сложной структуре — DataFrame, а в контексте этой структуры эти варианты уже неравноправны.