<center>
<img src="../img/logo2.png">
<img src="../img/pandas.png">
<h2>Введение в Pandas</h2>
</center>

В экосистеме Python, pandas является наиболее продвинутой и быстроразвивающейся библиотекой для обработки и анализа данных.

### DataFrame и Series

Чтобы эффективно работать с pandas, необходимо освоить самые главные структуры данных библиотеки: <b>DataFrame</b> и <b>Series</b>.

### Series
Структура Series представляет из себя объект, похожий на одномерный массив, но отличительной его чертой является наличие ассоциированных меток, т.н. индексов, вдоль каждого элемента из списка. Такая особенность превращает его в ассоциативный массив или словарь в Python.

Импортируем библиотеку pandas

In [2]:
import pandas as pd

In [23]:
X = pd.Series([1, 4, 'word', 3, 100])

In [24]:
X

0       1
1       4
2    word
3       3
4     100
dtype: object

В строковом представлении объекта Series, индекс находится слева, а сам элемент справа. Если индекс явно не задан, то pandas автоматически создаёт RangeIndex от 0 до N-1, где N общее количество элементов.

У объекта Series есть атрибуты через которые можно получить список элементов и индексы, это values и index соответственно.

In [18]:
X.index

Int64Index([0, 1, 2, 3, 4], dtype='int64')

In [19]:
X.values

array([1, 4, 'word', 3, 100], dtype=object)

Доступ к элементам объекта Series возможны по их индексу (аналогия со словарем и доступом по ключу)

In [20]:
X[4]

100

Индексы можно задавать явно:

In [39]:
X2 = pd.Series([5, 6, 7, 8, 9, 10], index=['a', 'b', 'c', 'd', 'e', 'f'])

In [40]:
X2['f']

10

Делать выборку по нескольким индексам:

In [41]:
X2[['a', 'b', 'f']]

a     5
b     6
f    10
dtype: int64

In [42]:
X2[['a', 'b', 'f']] = -1

In [43]:
X2

a   -1
b   -1
c    7
d    8
e    9
f   -1
dtype: int64

Можно фильтровать Series, применять математические операции и многое другое:

In [44]:
X2[X2 > 0]

c    7
d    8
e    9
dtype: int64

In [45]:
X2[X2 > 0] * 2

c    14
d    16
e    18
dtype: int64

#### DataFrame
Объект DataFrame лучше всего представлять себе в виде обычной таблицы и это правильно, ведь DataFrame является табличной структурой данных. В любой таблице всегда присутствуют строки и столбцы. Столбцами в объекте DataFrame выступают объекты Series, строки которых являются их непосредственными элементами.

DataFrame проще всего сконструировать на примере питоновского словаря:

In [3]:
X = pd.DataFrame({
    'COUNTRY': ['Kazakhstan', 'Russia', 'Belarus', 'Ukraine', 'China'],
    'POP': [17.04, 143.5, 9.5, 45.5, 2000],
    'SQUARE': [2724902, 17125191, 207600, 603628, 8546350],
    'SEA': [1,1,0,1,1]
})

In [4]:
X

Unnamed: 0,COUNTRY,POP,SEA,SQUARE
0,Kazakhstan,17.04,1,2724902
1,Russia,143.5,1,17125191
2,Belarus,9.5,0,207600
3,Ukraine,45.5,1,603628
4,China,2000.0,1,8546350


In [6]:
X[0:2][['COUNTRY', 'SEA']]

Unnamed: 0,COUNTRY,SEA
0,Kazakhstan,1
1,Russia,1


In [15]:
X['DENCITY'] = X['POP'] * 10**6 / X['SQUARE']
X

Unnamed: 0,COUNTRY,POP,SEA,SQUARE,DENCITY
0,Kazakhstan,17.04,1,2724902,6.253436
1,Russia,143.5,1,17125191,8.379469
2,Belarus,9.5,0,207600,45.761079
3,Ukraine,45.5,1,603628,75.37755
4,China,2000.0,1,8546350,234.018031


In [16]:
X.drop('SQUARE', axis = 1, inplace = True)

In [17]:
X

Unnamed: 0,COUNTRY,POP,SEA,DENCITY
0,Kazakhstan,17.04,1,6.253436
1,Russia,143.5,1,8.379469
2,Belarus,9.5,0,45.761079
3,Ukraine,45.5,1,75.37755
4,China,2000.0,1,234.018031


In [18]:
X['COUNTRY']

0    Kazakhstan
1        Russia
2       Belarus
3       Ukraine
4         China
Name: COUNTRY, dtype: object

In [21]:
X['SEA'].unique()

array([1, 0], dtype=int64)

In [23]:
X[(X['SEA'] == 1) & (X['POP'] > 100)]

Unnamed: 0,COUNTRY,POP,SEA,DENCITY
1,Russia,143.5,1,8.379469
4,China,2000.0,1,234.018031


In [25]:
X.describe(include = 'all')

Unnamed: 0,COUNTRY,POP,SEA,DENCITY
count,5,5.0,5.0,5.0
unique,5,,,
top,Belarus,,,
freq,1,,,
mean,,443.108,0.8,73.957913
std,,871.968981,0.447214,93.942465
min,,9.5,0.0,6.253436
25%,,17.04,1.0,8.379469
50%,,45.5,1.0,45.761079
75%,,143.5,1.0,75.37755


In [26]:
X['POP'].max() # максимальное

2000.0

In [27]:
X['POP'].min() # минимальное

9.5

In [28]:
X['POP'].mean() # среднее

443.108

In [29]:
X['POP'].median() # медианное

45.5

In [30]:
X['POP'].sum() # сумма

2215.54

In [31]:
X['POP'].count() # количество

5

In [32]:
X['POP'].std() # стд. отклонение

871.9689807097498

In [33]:
X['SEA'].value_counts()

1    4
0    1
Name: SEA, dtype: int64

In [34]:
X['SEA'].value_counts().max() 

4

In [35]:
X['SEA'].value_counts().idxmax()

1

In [41]:
def my_func(x):
    if x > 50:
        return 'high'
    return 'low'

In [42]:
X['LEVEL'] = X['DENCITY'].apply(my_func)

In [43]:
X

Unnamed: 0,COUNTRY,POP,SEA,DENCITY,LEVEL
0,Kazakhstan,17.04,1,6.253436,low
1,Russia,143.5,1,8.379469,low
2,Belarus,9.5,0,45.761079,low
3,Ukraine,45.5,1,75.37755,high
4,China,2000.0,1,234.018031,high


In [46]:
X.groupby('LEVEL')['POP'].sum()

LEVEL
high    2045.50
low      170.04
Name: POP, dtype: float64

In [47]:
pd.crosstab(X['LEVEL'], X['SEA'])

SEA,0,1
LEVEL,Unnamed: 1_level_1,Unnamed: 2_level_1
high,0,2
low,1,2


In [63]:
df['country']

0    Kazakhstan
1        Russia
2       Belarus
3       Ukraine
Name: country, dtype: object

In [64]:
type(df['country'])

pandas.core.series.Series

Доступ к строкам по индексу возможен несколькими способами:
<ul>
<li>loc - используется для доступа по строковой метке</li>
<li>iloc - используется для доступа по числовому значения (начиная от 0)</li>
</ul>

In [65]:
df = pd.DataFrame({
    'country': ['Kazakhstan', 'Russia', 'Belarus', 'Ukraine'],
    'population': [17.04, 143.5, 9.5, 45.5],
    'square': [2724902, 17125191, 207600, 603628]
}, index=['KZ', 'RU', 'BY', 'UA'])

In [66]:
df

Unnamed: 0,country,population,square
KZ,Kazakhstan,17.04,2724902
RU,Russia,143.5,17125191
BY,Belarus,9.5,207600
UA,Ukraine,45.5,603628


In [73]:
df.loc['RU']

country         Russia
population       143.5
square        17125191
Name: RU, dtype: object

In [74]:
df.iloc[1]

country         Russia
population       143.5
square        17125191
Name: RU, dtype: object

Можно делать выборку по индексу и интересующим колонкам:

In [86]:
df.loc[['KZ', 'RU'], ['population', 'square']]

Unnamed: 0,population,square
KZ,17.04,2724902
RU,143.5,17125191


In [87]:
df[df['population'] > 10]

Unnamed: 0,country,population,square
KZ,Kazakhstan,17.04,2724902
RU,Russia,143.5,17125191
UA,Ukraine,45.5,603628


In [88]:
df['density'] = df['population'] / df['square'] * 1000000

In [89]:
df

Unnamed: 0,country,population,square,density
KZ,Kazakhstan,17.04,2724902,6.253436
RU,Russia,143.5,17125191,8.379469
BY,Belarus,9.5,207600,45.761079
UA,Ukraine,45.5,603628,75.37755


In [92]:
df.drop(['density'], axis='columns', inplace = True) #inplace = True

In [93]:
df

Unnamed: 0,country,population,square
KZ,Kazakhstan,17.04,2724902
RU,Russia,143.5,17125191
BY,Belarus,9.5,207600
UA,Ukraine,45.5,603628


In [94]:
df = df.rename(columns={'square': 'area'})

In [95]:
df

Unnamed: 0,country,population,area
KZ,Kazakhstan,17.04,2724902
RU,Russia,143.5,17125191
BY,Belarus,9.5,207600
UA,Ukraine,45.5,603628
