In [1]:
import numpy as np
import pandas as pd  # Снова используемое сообществом сокращение.

# Pandas
`Pandas` - надстройка над библиотекой `NumPy`, главными объектами которого являются `DataFrame` и `Series`. Как и `NumPy` импортируется с использованием в сообществ соокращения `import pandas as pd`

`DataFrame` представляют собой многомерные массивы с метками для строк и столбцов. 
Метки делают работу с данными удобнее для восприятия человека. Помимо этого DataFrame даёт широкие возможности работы с данными вроде реляционной алгебры.

`Series` же представляет собой одномерные упорядоченные массивы с индексированным данными. Начнём с них:

## Series

Для создания объекта Series достаточно передать любой `iterable` в конструктор `pd.Series()`:

In [2]:
height_as_ndarray = np.random.normal(178, 5, 5).astype(int)

height = pd.Series(height_as_ndarray)
print(f'height: \n{height}')
print(f'\ntype(height): {type(height)}')

height: 
0    185
1    174
2    177
3    182
4    172
dtype: int64

type(height): <class 'pandas.core.series.Series'>


Значения `Series` хранит в виде знакомых нам `ndarray`. А хранит он их в аттрибуте `.values`

In [3]:
height_as_list = list(np.random.normal(178, 5, 5).astype(int))  # Обернём в list для демонстрации а) того, что list is suitable too
height = pd.Series(height_as_list)

print(f'height.values: {height.values}, type(height.values): {type(height.values)}') # б) того, что values принудительно переводятся в ndarray, см. вывод

height.values: [169 178 181 170 185], type(height.values): <class 'numpy.ndarray'>


Однако, выше заявлалось, что `Series` у нас индексированные. Выглядит это так:

In [4]:
height = pd.Series(np.random.normal(178, 5, 5).astype(int), 
                   index=['Иванов', 'Петров', 'Сидоров', 'Александров', 'Сергеев'])
height.index.name = 'Фамилия'
print(f'height: \n{height}')

print(f"\nМожно обращатсья с Series таки образом. Например, рост Петрова = height['Петров'] = {height['Петров']} ")

height: 
Фамилия
Иванов         175
Петров         177
Сидоров        173
Александров    181
Сергеев        172
dtype: int64

Можно обращатсья с Series таки образом. Например, рост Петрова = height['Петров'] = 177 


Самый занудный из вас может сказать, что это же то же самое, что может делать `dict`. А вот так `dict` может?

In [5]:
height = pd.Series(np.random.normal(180, 10, 5).astype(int), 
                   index=['Иванов', 'Петров', 'Сидоров', 'Александров', 'Сергеев'])

print(f'На призывной пункт пришли: \n{height}')
print('\nПришёл военком и сказал: "Это что за бардак? В одну шеренгу по росту становись!"')
print(f'\nИ встали перед военкомом: \n{height.sort_values()}')
print(f'\nИ сказал Военком: "{height.sort_values().index[-1]}, в баскетбол поди играешь?". И засмеялся так неприятно')

На призывной пункт пришли: 
Иванов         168
Петров         201
Сидоров        163
Александров    193
Сергеев        176
dtype: int64

Пришёл военком и сказал: "Это что за бардак? В одну шеренгу по росту становись!"

И встали перед военкомом: 
Сидоров        163
Иванов         168
Сергеев        176
Александров    193
Петров         201
dtype: int64

И сказал Военком: "Петров, в баскетбол поди играешь?". И засмеялся так неприятно


# DataFrame
Если `Series` - это расширение одномерного `ndarray` индексами, то DataFrame стоит рассматривать как расширение многомернного `ndarray`. Здесь индекс имеют не только строки, а ещё и столбцы. Смотрим:

In [6]:
matrix = np.random.randint(5, 30, (5, 3))
df = pd.DataFrame(matrix)
df

Unnamed: 0,0,1,2
0,15,13,16
1,25,21,9
2,8,7,25
3,21,10,12
4,16,27,14


Однако, при создании можно сразу указать индексы:

In [7]:
matrix = np.random.randint(5, 30, (5, 3))
df = pd.DataFrame(matrix, 
                  columns=['Жиры', 'Белки', 'Углеводы'], 
                  index=['Хлеб', 'Колбаса', 'Огурцы', 'Помидоры', 'Яблоки'])
df

Unnamed: 0,Жиры,Белки,Углеводы
Хлеб,24,22,5
Колбаса,14,5,18
Огурцы,6,20,24
Помидоры,23,24,8
Яблоки,18,6,27


Или же указать их потом:

In [8]:
matrix = np.random.randint(5, 30, (5, 3))
df = pd.DataFrame(matrix)
df.columns = ['Жиры', 'Белки', 'Углеводы']
df.index = ['Хлеб', 'Колбаса', 'Огурцы', 'Помидоры', 'Яблоки']
df

Unnamed: 0,Жиры,Белки,Углеводы
Хлеб,6,9,18
Колбаса,6,7,29
Огурцы,16,20,16
Помидоры,14,7,8
Яблоки,24,24,18


Колонки можно добавлять по мере необходимости:

In [9]:
matrix = np.random.randint(5, 30, (5, 3))
df = pd.DataFrame(matrix, 
                  columns=['Жиры', 'Белки', 'Углеводы'], 
                  index=['Хлеб', 'Колбаса', 'Огурцы', 'Помидоры', 'Яблоки'])

df['Калорийность'] = np.random.randint(100, 400, 5)
df

Unnamed: 0,Жиры,Белки,Углеводы,Калорийность
Хлеб,6,19,29,383
Колбаса,18,8,26,100
Огурцы,18,23,19,311
Помидоры,29,19,7,318
Яблоки,13,24,8,326


Так же `DataFrame` можно собирать из `Series`. При "сборке" `DataFrame` из `Series` будут учитываться индексы и это не допустит перепутывания данных:

In [10]:
height = pd.Series(np.random.normal(180, 10, 5).astype(int), 
                   index=['Иванов', 'Петров', 'Сидоров', 'Александров', 'Сергеев'])

weight = pd.Series(np.random.normal(70, 7, 5).astype(int), 
                   index=['Петров', 'Сидоров', 'Иванов', 'Сергеев', 'Степанов'])  # Заметьте, что порядок индексов не совпадает

print('Обращаем внимание на значения. height:')
print(height)
print('\nОбращаем внимание на значения. weight:')
print(weight)
df = pd.DataFrame({"Рост": height, "Вес": weight})
df

Обращаем внимание на значения. height:
Иванов         172
Петров         154
Сидоров        175
Александров    187
Сергеев        178
dtype: int64

Обращаем внимание на значения. weight:
Петров      66
Сидоров     82
Иванов      70
Сергеев     89
Степанов    75
dtype: int64


Unnamed: 0,Рост,Вес
Александров,187.0,
Иванов,172.0,70.0
Петров,154.0,66.0
Сергеев,178.0,89.0
Сидоров,175.0,82.0
Степанов,,75.0


Можете удостовериться, что значения не перепутаны. Более того, Pandas поддерживает работу с данными с пропусками. 
Там, где не удалось найти сопоставление рост/вес, будут заполнены значениями `NaN`

Так же можно создавать новые колонки как функцию от существующих:

In [11]:
height = pd.Series(np.random.normal(180, 10, 5).astype(int), index=['Иванов', 'Петров', 'Сидоров', 'Александров', 'Сергеев'])
weight = pd.Series(np.random.normal(70, 7, 5).astype(int), index=['Петров', 'Сидоров', 'Иванов', 'Сергеев', 'Степанов'])
df = pd.DataFrame({"Рост": height, "Вес": weight})

df['ИМТ'] = df['Вес'] / ((df['Рост'] / 100) ** 2)  # Индекс массы тела - вес в кг / (рост в см)^2

df

Unnamed: 0,Рост,Вес,ИМТ
Александров,185.0,,
Иванов,178.0,78.0,24.618104
Петров,188.0,65.0,18.390675
Сергеев,199.0,62.0,15.65617
Сидоров,186.0,61.0,17.632096
Степанов,,70.0,
