In [252]:
import numpy as np
import pandas as pd

In [253]:
pd.__version__

'2.2.2'

#### **Объект Index**

**pd.Index** - явный индекс в объектах **pd.Series** и **pd.DataFrame**. Обладает свойствами неизменяемого массива(immutable array), так и мультимножества(ordered set)(его значения могут дублироваться). При конструировании структур данных **Series** и **DataFrame** объект создается по умолчанию. Но для заданий конкретных значений индексов следует создавать заранее

In [323]:
ind = pd.Index(['a', 'b', 'c', 'd'])

In [324]:
print(f'Количество элементов: {ind.size} | Форма: {ind.shape} | Размерность: {ind.ndim} | Тип данных: {ind.dtype}')

Количество элементов: 4 | Форма: (4,) | Размерность: 1 | Тип данных: object


Обладая свойствами множества(**Set**) поддерживает соответствующие операции

In [325]:
indA = pd.Index([1, 3, 5, 7, 9])
indB = pd.Index([2, 3, 5, 7, 11])

In [326]:
# Пересечение
indA & indB

Index([0, 3, 5, 7, 9], dtype='int64')

In [327]:
# Объединение
indA | indB 

Index([3, 3, 5, 7, 11], dtype='int64')

In [328]:
# Симметрическая разность
indA ^ indB

Index([3, 0, 0, 0, 2], dtype='int64')

Операции также реализованы в соответствующих методах \
indA.intersection(indB)

#### **Объект Series**

**Объект Series** - Одномерный массив иднесированных данных. \
Индексы объекта также становятся его аттрибутами \
*Индексы связаны со значениями подобно словарю*

In [329]:
L = [0.25, 0.5, 0.75, 1]
data = pd.Series(L)

In [330]:
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

In [331]:
print(data.values) # значения
print(data.index) # индексы

[0.25 0.5  0.75 1.  ]
RangeIndex(start=0, stop=4, step=1)


**Создание из словаря**

In [332]:
population_dict = {'California': 38332521,
 'Texas': 26448193,
 'New York': 19651127,
 'Florida': 19552860,
 'Illinois': 12882135}

In [333]:
# Ключи словаря станут индексами объекта Series
population = pd.Series(population_dict)

In [334]:
population

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

**Обращение к значениям**

In [335]:
# Обращение к элементу в формате ключа
population['Texas']

26448193

In [336]:
# Обращение к элементу через аттрибут
population.Texas

26448193

In [337]:
# Использование срезов (stop - включительно)
population['Texas':'Florida']

Texas       26448193
New York    19651127
Florida     19552860
dtype: int64

In [338]:
# Использование срезов неявных индексов(stop - не включительно)
population[0:3]

California    38332521
Texas         26448193
New York      19651127
dtype: int64

In [339]:
# Проверка на приндлежность операторм in
'Texas' in population

True

In [340]:
# Обращение к значениям
population.values

array([38332521, 26448193, 19651127, 19552860, 12882135], dtype=int64)

In [341]:
# Обращение к индексам
population.index

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')

In [342]:
# Обращение к ключам(Идентично индексам) | подобно словарю
population.keys()

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')

In [274]:
# Обращение ко всем компонентам | подобно словарю
list(population.items())

[('California', 38332521),
 ('Texas', 26448193),
 ('New York', 19651127),
 ('Florida', 19552860),
 ('Illinois', 12882135)]

In [275]:
# Маскирование
population[population>20_000_000]

California    38332521
Texas         26448193
dtype: int64

In [276]:
# Прихотливая индексация
population[['Texas', 'California']]

Texas         26448193
California    38332521
dtype: int64

**Атрибуты-индексаторы**


Атрибуты-индексаторы позволяют явным образом применять конкретные схемы индексации во избежание путаницы. \
Они являются не функциональными методами, а именно атрибутами, предоставляющими для данных из объекта Series определенный интерфейс для выполнения срезов.

In [277]:
data = ['A', 'B', 'C', 'D']
ind = [1, 2, 3, 4]
data = pd.Series(data=data, index=ind)
print(data)

1    A
2    B
3    C
4    D
dtype: object


**loc** - атрибут, позволяющий выполнять индексацию и срезы с использованием **явного индекса**

In [278]:
# Срез явными индексами | Фактическое значения в объекте(для буквенных собственно буква),stop - включительно
data.loc[1:3]

1    A
2    B
3    C
dtype: object

**iloc** - атрибут, позволяющий выполнять индексацию и срезы с использованием **НЕявного индекса**

In [279]:
data.iloc[0:3] # Срез неявными индексами | Индексы аналогичные спискам Pytho (0 для первого элемента, stop - невключительно)

1    A
2    B
3    C
dtype: object

#### **Объект DataFrame**

**DataFrame** -Упорядоченная последовательность выровненных объектов **Series**, использующих один и тот же индекс.

##### **Создание объекта DataFrame**

**Создание из словаря**

Ключи(будущие Индексы) всех словарей из которых конструируется объект DataFrame должны быть одинаковы, иначе значения не сопоставятся в соответствии \
*поэтому стоит выносить их отдельно*

In [281]:
area_dict = {'California': 423967, 'Texas': 695662, 'New York': 141297,'Florida': 170312, 'Illinois': 149995}
area = pd.Series(area_dict)

In [282]:
area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
dtype: int64

In [283]:
states = pd.DataFrame({'population':population,
                       'area':area})

In [284]:
states

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


In [285]:
# Объединенный объект Index
states.index

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')

In [286]:
# Столбцы ДатаФрейма
states.columns

Index(['population', 'area'], dtype='object')

In [287]:
# Значения ДатаФрейма(его элементы) - массив NumPy
states.values

array([[38332521,   423967],
       [26448193,   695662],
       [19651127,   141297],
       [19552860,   170312],
       [12882135,   149995]], dtype=int64)

**Создание из двумерного массива NumPy**

In [288]:
arr = np.random.rand(3,2)
columns = ['foo', 'bar']
index = ['a', 'b', 'c']

In [289]:
pd.DataFrame(arr, columns=columns, index=index)

Unnamed: 0,foo,bar
a,0.705267,0.598553
b,0.266797,0.219554
c,0.094338,0.905571


**Создание из объектов pd.Series**

In [290]:
area = pd.Series({'California': 423967, 'Texas': 695662, 'New York': 141297, 'Florida': 170312, 'Illinois': 149995})
pop = pd.Series({'California': 38332521, 'Texas': 26448193, 'New York': 19651127, 'Florida': 19552860, 'Illinois': 12882135})
data = pd.DataFrame({'area':area, 'pop':pop})

print(data)

              area       pop
California  423967  38332521
Texas       695662  26448193
New York    141297  19651127
Florida     170312  19552860
Illinois    149995  12882135


In [291]:
# Обращение к столбцу pop(отдельному объекту pd.Series) как к ключу словаря
data['pop']

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
Name: pop, dtype: int64

In [292]:
# Обращение к столбцу area(отдельному объекту pd.Series) как к атрибуту, используя строковое имя столбца
data.area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

In [293]:
data.area is data['area']

True

In [294]:
# Присвоение значение новосозданному столбцу(т.е. объекту Series)
data['density'] = data['pop'] / data['area']

In [295]:
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.413926
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


**data.T** - Возвращает транспанированное представление ДатаФрейма, не меняя его

In [296]:
# Транспанирование.
data.T

Unnamed: 0,California,Texas,New York,Florida,Illinois
area,423967.0,695662.0,141297.0,170312.0,149995.0
pop,38332520.0,26448190.0,19651130.0,19552860.0,12882140.0
density,90.41393,38.01874,139.0767,114.8061,85.88376


In [297]:
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.413926
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


In [298]:
# 1 строка массива(соответствующая Калифорнии)
data.values[0]

array([4.23967000e+05, 3.83325210e+07, 9.04139261e+01])

Индексация обращение, через ключи(индексы) подразумевает обращение к **столбцам**. \
Срезы и маскированеи же подразумевают обращение к **строкам** \
Обращение к строкам ДатаФрейма через стандартные способы невозможно, для этого используются атрибуты-индексаторы

**iloc** - Неявная индексация

In [299]:
# 1 строка ДатаФрейма, соответствующая калифорнии
data.iloc[0]

area       4.239670e+05
pop        3.833252e+07
density    9.041393e+01
Name: California, dtype: float64

**loc** - Явная индексация

In [312]:
data.loc['California']

area       4.239670e+05
pop        3.833252e+07
density    9.041393e+01
Name: California, dtype: float64

In [313]:
# Индексация применяется к столбцам
data['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

In [314]:
# Срезы применяются к строкам
data['New York':'Florida']

Unnamed: 0,area,pop,density
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121


In [320]:
# Срез по неявным индексам(по строкам)
data[0:2]

Unnamed: 0,area,pop,density
California,423967,38332521,90.413926
Texas,695662,26448193,38.01874


In [322]:
# Маскирование применяется по строкам
data[data['density']>100]

Unnamed: 0,area,pop,density
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
