# Что такое Pandas?
### Pandas - надстройка над библиотекой NumPy, програмный пакет, предоставляющий удобные инструменты для манипулирования данными

# Схема пакета Pandas, основные объекты и методы

# Возможности пакета Pandas

In [51]:
import pandas as pd
import numpy as np

## Объект Series - одномерный массив индексированных данных

### Базовая информация

In [13]:
series = pd.Series([1, 0.2, 3.5, 5, 1.3])
series

0    1.0
1    0.2
2    3.5
3    5.0
4    1.3
dtype: float64

##### К каждому значению можно обратиться по соответствующему индексу...

In [15]:
print("Первое значение series: ", series[0])
print("Третье значение series: ", series[2])
print("Последнее значение series: ", series[-1]) # однако отрицательные индексы не работают

Первое значение series:  1.0
Третье значение series:  3.5


KeyError: -1

#### ...И взять срез

In [18]:
series[1:4]

1    0.2
2    3.5
3    5.0
dtype: float64

##### Series служит адаптером как для последовательности значений, так и последовательности индексов, к которым можно получить доступ посредством атрибутов values и index

In [19]:
series.values # возвращает массив NumPy

array([1. , 0.2, 3.5, 5. , 1.3])

In [20]:
series.index # возращает объект класса RangeIndex

RangeIndex(start=0, stop=5, step=1)

##### В отличае от массивов NumPy, индекс объекта Series описывается явно (является самостоятельным объектом) и связывается со значениеми. Поэтому мы можем использовать в качестве индекса любые значения нужного типа (например строки)

In [21]:
series_str = pd.Series([1,2,3,4], 
                       index=['a','b','c','d'])
series_str

a    1
b    2
c    3
d    4
dtype: int64

##### При этом доступ к элементам работает обычным образом

In [22]:
series_str['c']

3

In [24]:
series_str['b':'d']

b    2
c    3
d    4
dtype: int64

### Создание объектов Series

#### В целом процесс создания объектов Series имеет следующий синтаксис: pd.Series(data, index=index), 
#### где index - необязательный элемент, а data - может быть одной из множества сущностей

##### ...списком

In [28]:
series_list = pd.Series([1, 2, 3])
series_list

0    1
1    2
2    3
dtype: int64

##### ...словарем

In [29]:
series_dict = pd.Series({
    'A': 'a', 
    'B': 'b', 
    'C': 'c'
})

series_dict

A    a
B    b
C    c
dtype: object

#### ...скалярным значением которое может быть повторено нужное количество раз

In [30]:
series_scolar = pd.Series(5, index=[100, 200, 300])
series_scolar

100    5
200    5
300    5
dtype: int64

## Объект DataFrame

#### Если Series - аналог одномерного массива с гибкими индексами, объекта DataFrame - аналог двумерного массива с гибкими индексами строк и гибкими именами столбцов

### Базовая информация

#### DataFrame можно расматривать как упорядученную последовательность выровненных объектов Series. "Выровненные" означает, что они используют один и тот же index

In [31]:
area_dict = {
    'California': 423967, 
    'Texas': 695662, 
    'New York': 141297, 
    'Florida': 170312, 
    'Illinois': 149995
}

area = pd.Series(area_dict)
area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
dtype: int64

In [32]:
population_dict = {
    'California': 38332521, 
    'Texas': 26448193, 
    'New York': 19651127, 
    'Florida': 19552860, 
    'Illinois': 12882135
}

population = pd.Series(population_dict)
population

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

In [33]:
states_df = pd.DataFrame({
    'population': population, 
    'area': area
})
states_df

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


#### DataFrame можно рассматривать как специализированный словарь. Если словарь озадает соответствие ключей значением, то DataFrame задает соответствие имени столбца объекту Series с данными этого столбца

In [40]:
states_df['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

#### Аналогично объекту Series у объекта DataFrame имеется атрибут index, обеспечивающий доступ к меткам индекса

In [38]:
states_df.index

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')

#### Помимо этого, у него есть атрибут colums, представляющий собой объект Index, содержащий метки столбцов

In [39]:
states_df.columns

Index(['population', 'area'], dtype='object')

#### Таким образом у объекта DataFrame как у строк, так и у столбцов есть обобщенные индексы для доступа к данным

### Создание объектов DataFrame

#### Существует несколько способов создания объектов DataFrame, вот несколько примеров:

#### Из одного объекта Series

In [44]:
pd.DataFrame(population, columns=['population'])

Unnamed: 0,population
California,38332521
Texas,26448193
New York,19651127
Florida,19552860
Illinois,12882135


#### Из списка словарей 

In [45]:
data = [{'a' : i, 'b': 2 * i} for i in range(3)]
print(data)
pd.DataFrame(data)

[{'a': 0, 'b': 0}, {'a': 1, 'b': 2}, {'a': 2, 'b': 4}]


Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4


#### в случае отсутствия некоторых ключей, библиотека Pandas заполнит их значениями NaN

In [46]:
pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}])

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,4.0


#### Из словаря объектов pd.Series или List

In [47]:
pd.DataFrame({
    'population': population, 
    'area': area
})

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


In [49]:
pd.DataFrame({
    'A': [1,1,1,1],
    'B': [2,2,2,2]
})

Unnamed: 0,A,B
0,1,2
1,1,2
2,1,2
3,1,2


#### Из двумерного массива NumPy

In [54]:
data = np.random.rand(3,2)
print(data)
pd.DataFrame(data, # двумерный массив
             columns=['foo','bar'], # задаем значения столбцов 
             index=['a','b','c']) # задаем значения индексов

[[0.14813893 0.22859542]
 [0.95066336 0.09452868]
 [0.71344316 0.17851352]]


Unnamed: 0,foo,bar
a,0.148139,0.228595
b,0.950663,0.094529
c,0.713443,0.178514


#### Из структурированного массива NumPy

In [55]:
A = np.zeros(3, dtype=[('A', 'i8'), ('B', 'f8')])
A

array([(0, 0.), (0, 0.), (0, 0.)], dtype=[('A', '<i8'), ('B', '<f8')])

In [56]:
pd.DataFrame(A)

Unnamed: 0,A,B
0,0,0.0
1,0,0.0
2,0,0.0


In [None]:
pd.DataFrame({
    'feature1': 
})

## Объект Index

### Можно рассматривать как неизменяемый массив

In [58]:
ind = pd.Index([2,3,5,7,11])
ind

Int64Index([2, 3, 5, 7, 11], dtype='int64')

In [59]:
ind[1]

3

In [61]:
ind[1:3]

Int64Index([3, 5], dtype='int64')

In [60]:
ind[::2]

Int64Index([2, 5, 11], dtype='int64')

In [63]:
print("ind.size: ", ind.size)
print("ind.shape: ", ind.shape)
print("ind.ndim: ", ind.ndim)
print("ind.dtype: ", ind.dtype)

ind.size:  5
ind.shape:  (5,)
ind.ndim:  1
ind.dtype:  int64


In [64]:
ind[0] = 0

TypeError: Index does not support mutable operations

#### Неизменяемость делает безопаснее совместное использование индексов несколькими объектами DataFrame и массивами, исключая возможность побочных эффектов в виде случайной модификации индекса по неосторожности

### Можно рассматривать как упорядоченное множество 

In [65]:
indA = pd.Index([1, 3, 5, 7, 9])
indB = pd.Index([2, 3, 5, 7, 11])

In [67]:
indA.intersection(indB) # пересечение

Int64Index([3, 5, 7], dtype='int64')

In [70]:
indA.union(indB) # объединение

Int64Index([1, 2, 3, 5, 7, 9, 11], dtype='int64')

In [73]:
indA.symmetric_difference(indB) # симметричная разность

Int64Index([1, 2, 9, 11], dtype='int64')