### Pandas (Часть 1)
Pandas – это программная библиотека на языке Python, предназначенная для обработки и анализа структурированных данных. 

In [1]:
import pandas as pd

Объект **Series** библиотеки Pandas – это одномерный массив индексированных данных.

**DataFrame** – табличная структура данных, состоящая из упорядоченной коллекции столбцов. В объекте DataFrame хранятся два индекса: по строкам и по столбцам.  
Можно считать, что DataFrame – это аналог двумерного массива. Аналогично тому, что двумерный массив можно рассматривать как упорядоченную последовательность выровненных столбцов, объект DataFrame можно рассматривать как упорядоченную последовательность выровненных объектов Series.

![img](https://bites-data.s3.us-east-2.amazonaws.com/series_spreadsheet.png)

![img](https://www.datasciencemadesimple.com/wp-content/uploads/2020/05/create-series-in-python-pandas-0.png)

#### Объект Series

In [2]:
# Создание Series с помощью списков
s_1 = pd.Series(['a', 'b', 'c'])
print(s_1)

0    a
1    b
2    c
dtype: object


In [3]:
s_2 = pd.Series(data = ['a', 'b', 'c'], index = [1, 2, 3])
print(s_2)

1    a
2    b
3    c
dtype: object


In [4]:
s_3 = pd.Series([1, 2, 3], ['a', 'b', 'c'])
print(s_3)

a    1
b    2
c    3
dtype: int64


In [5]:
# Создание Series с помощью словарей
s_4 = pd.Series({'a': 1, 'b': 2.5, 'c': 5.9, 'd': 6})
print(s_4)

a    1.0
b    2.5
c    5.9
d    6.0
dtype: float64


In [6]:
# Создание Series с помощью массивов ndarray
import numpy as np
arr = np.array([1, 4, 6, 7])

s_5 = pd.Series(arr)
s_5

0    1
1    4
2    6
3    7
dtype: int32

In [7]:
s = pd.Series([3, 4, -1, 8])
print(s)

0    3
1    4
2   -1
3    8
dtype: int64


In [8]:
s.values # Все значения Series

array([ 3,  4, -1,  8], dtype=int64)

In [9]:
s.index # Все индексы Series

RangeIndex(start=0, stop=4, step=1)

Объект Series во многом ведет себя подобно одномерному массиву библиотеки NumPy и стандартному словарю языка Python. 

In [10]:
data = pd.Series([0.25, 0.5, 0.75, 1.0], index=['a', 'b', 'c', 'd'])

In [11]:
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

Явные индексы - это те метки, которые задал программист.  
Неявные индексы - это целочисленные индексы (начиная с 0) для тех же элементов.

In [12]:
data['b'] # Обращение по явному индексу (как к элементу словаря по ключу)

0.5

In [13]:
data[1] # Обращение по неявному индексу

0.5

In [14]:
s[2] # Обращение по индексу

-1

In [15]:
data.keys() # Все индексы Series

Index(['a', 'b', 'c', 'd'], dtype='object')

In [16]:
list(data.items()) # Все пары индекс-значение

[('a', 0.25), ('b', 0.5), ('c', 0.75), ('d', 1.0)]

In [17]:
'a' in data # Есть ли индекс 'a' в data?

True

In [18]:
data['e'] = 1.25 # Добавление нового элемента

Объект Series, основываясь на интерфейсе, напоминающем словарь, предоставляет возможность выборки элементов с помощью тех же базовых механизмов, что и для массивов NumPy, то есть срезов, маскирования и «прихотливой» индексации. 

In [19]:
# Срез посредством явного индекса
data['a':'c']

a    0.25
b    0.50
c    0.75
dtype: float64

In [20]:
# Срез посредством неявного целочисленного индекса
data[0:2]

a    0.25
b    0.50
dtype: float64

In [21]:
# Маскирование
data[(data > 0.3) & (data < 0.8)]

b    0.50
c    0.75
dtype: float64

In [22]:
# «Прихотливая» индексация
data[['a', 'e']]

a    0.25
e    1.25
dtype: float64

In [23]:
data[[0, 3]] # Обращение по неявному индексу к двум элементам

a    0.25
d    1.00
dtype: float64

In [24]:
data = pd.Series(['a', 'b', 'c'], index=[1, 3, 5])
data

1    a
3    b
5    c
dtype: object

In [25]:
# Использование явного индекса при индексации
data[1]

'a'

In [26]:
# Использование неявного индекса при срезе
data[1:3]

3    b
5    c
dtype: object

Из-за этой потенциальной путаницы в случае целочисленных индексов в библиотеке Pandas предусмотрены специальные атрибуты-индексаторы.

In [27]:
data

1    a
3    b
5    c
dtype: object

In [28]:
# Атрибут loc позволяет выполнить индексацию и срезы с использованием явного индекса
data.loc[1]

'a'

In [29]:
data.loc[1:3]

1    a
3    b
dtype: object

In [30]:
# Атрибут iloc дает возможность выполнить индексацию и срезы, применяя неявный индекс 
data.iloc[1]

'b'

In [31]:
data.iloc[1:3]

3    b
5    c
dtype: object

#### Объект DataFrame

In [32]:
df = pd.DataFrame(data = [[1, 2], ['a', 'b'], [3.7, 4.8]])
df

Unnamed: 0,0,1
0,1,2
1,a,b
2,3.7,4.8


In [33]:
df_1 = pd.DataFrame(data = [[1, 2], ['a', 'b'], [3.7, 4.8]], index = [1, 2, 3], columns = ['#1', '#2'])
df_1

Unnamed: 0,#1,#2
1,1,2
2,a,b
3,3.7,4.8


In [34]:
df_2 =  pd.DataFrame(np.random.rand(3, 2), columns=['foo', 'bar'], index=['a', 'b', 'c'])
df_2

Unnamed: 0,foo,bar
a,0.111341,0.885765
b,0.688017,0.29542
c,0.593254,0.292464


In [35]:
df_3 = pd.DataFrame({'#1': [1, 3, 5], '#2': [2.5, 6.7, 8.1]})
df_3

Unnamed: 0,#1,#2
0,1,2.5
1,3,6.7
2,5,8.1


In [36]:
df_4 = pd.DataFrame({'#1': [1, 3, 5], '#2': [2.5, 6.7, 8.1]}, index = ['a', 'b', 'c'])
df_4

Unnamed: 0,#1,#2
a,1,2.5
b,3,6.7
c,5,8.1


In [37]:
area = pd.Series({'California': 423967, 'Texas': 695662, 'New York': 141297, 
                  'Florida': 170312,'Illinois': 149995})
pop = pd.Series({'California': 38332521, 'Texas': 26448193, 'New York': 19651127, 
                 'Florida': 19552860,'Illinois': 12882135})

data = pd.DataFrame({'area':area, 'pop':pop})
data

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


Объект DataFrame во многом ведет себя аналогично двумерному или структурированному массиву, а также словарю объектов Series с общим индексом.

In [38]:
data['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

In [39]:
data.area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

In [40]:
data['density'] = data['pop'] / data['area']
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.413926
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


In [41]:
'area' in data

True

In [42]:
data.index

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')

In [43]:
data.columns

Index(['area', 'pop', 'density'], dtype='object')

In [44]:
data.keys()

Index(['area', 'pop', 'density'], dtype='object')

In [45]:
data.values

array([[4.23967000e+05, 3.83325210e+07, 9.04139261e+01],
       [6.95662000e+05, 2.64481930e+07, 3.80187404e+01],
       [1.41297000e+05, 1.96511270e+07, 1.39076746e+02],
       [1.70312000e+05, 1.95528600e+07, 1.14806121e+02],
       [1.49995000e+05, 1.28821350e+07, 8.58837628e+01]])

In [46]:
data['area'] # Доступ к столбцу

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

In [47]:
data.values[0] # Доступ к строке

array([4.23967000e+05, 3.83325210e+07, 9.04139261e+01])

In [48]:
data['area']['California'] # Доступ к элементу 

423967

In [49]:
data['area'][0] # Доступ к элементу с помощью неявного индекса

423967

In [50]:
data.iloc[:3, :2] # Используем неявные индексы

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127


In [51]:
data.loc[:'Illinois', :'pop'] # Используем явные индексы

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


In [52]:
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.413926
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


In [53]:
data.loc[data.density > 100, ['pop', 'density']]

Unnamed: 0,pop,density
New York,19651127,139.076746
Florida,19552860,114.806121


In [54]:
data.iloc[0, 2] = 90
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.0
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


Индексация относится к столбцам, а срезы относятся к строкам

In [55]:
data['Florida':'Illinois']

Unnamed: 0,area,pop,density
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


In [56]:
data[1:3] # По номеру строки

Unnamed: 0,area,pop,density
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746


In [57]:
data[data.density > 100] # Маскирование по строкам

Unnamed: 0,area,pop,density
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
