## Основы pandas

![alt text](https://www.anaconda.com/wp-content/uploads/2019/11/pandas-logo-2.png)

В этом ноутбуке мы рассмотрим основы библиотеки pandas.

In [None]:
# импортируем библиотеку
import pandas as pd

### Series

Одномерный набор данных. Отсутствующий данные записываются как `np.nan`, они не участвуют в вычислении средних, среднеквадратичных отклонений и т.д.

In [None]:
l=[1,3,5,np.nan,6,8]
s=pd.Series(l)
s

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

### Полезная информация о датафрейме


Основная информация о наборе данных: среднее, среднеквадратичное отклонение, минимум, максимум, медиана (которая отличается от среднего для несимметричных распределений).

In [None]:
s.describe()

count    5.000000
mean     4.600000
std      2.701851
min      1.000000
25%      3.000000
50%      5.000000
75%      6.000000
max      8.000000
dtype: float64

### Индексация

Индексация по аналогии:

In [None]:
s[2]

5.0

In [None]:
s[2]=7
s

0    1.0
1    3.0
2    7.0
3    NaN
4    6.0
5    8.0
dtype: float64

In [None]:
s[2:5]

2    7.0
3    NaN
4    6.0
dtype: float64

In [None]:
s1=s[1:]
s1

1    3.0
2    7.0
3    NaN
4    6.0
5    8.0
dtype: float64

In [None]:
s2=s[:-1]
s2

0    1.0
1    3.0
2    7.0
3    NaN
4    6.0
dtype: float64

### Сложение


В сумме `s1+s2` складываются данные с одинаковыми индексами. Поскольку в `s1` нет данного и индексом 0, а в `s2` - с индексом 5, в `s1+s2` в соответствующих позициях будет `NaN`.

In [None]:
s1+s2

0     NaN
1     6.0
2    14.0
3     NaN
4    12.0
5     NaN
dtype: float64


К наборам данных можно применять функции из `numpy`

In [None]:
np.exp(s)

0       2.718282
1      20.085537
2    1096.633158
3            NaN
4     403.428793
5    2980.957987
dtype: float64

### Индексация

При создании набора данных s мы не указали, что будет играть роль индекса. По умолчанию это последовательность целых чисел 0, 1, 2, ...

In [None]:
s.index

RangeIndex(start=0, stop=6, step=1)


Но можно создавать наборы данных с индексом, заданным списком.

In [None]:
i=list('abcdef')
i

['a', 'b', 'c', 'd', 'e', 'f']

In [None]:
s=pd.Series(l,index=i)
s

a    1.0
b    3.0
c    5.0
d    NaN
e    6.0
f    8.0
dtype: float64

Если индекс - строка, то вместо s['c'] можно писать s.c.

In [None]:
s.c

5.0

Набор данных можно создать из словаря.

In [None]:
s=pd.Series({'a':1,'b':2,'c':0})
s

a    1
b    2
c    0
dtype: int64

Можно отсортировать набор данных.

In [None]:
s.sort_values()

c    0
a    1
b    2
dtype: int64

Роль индекса может играть, скажем, последовательность дат (или времён измерения и т.д.).

In [None]:
d=pd.date_range('20160101',periods=10)
d

DatetimeIndex(['2016-01-01', '2016-01-02', '2016-01-03', '2016-01-04',
               '2016-01-05', '2016-01-06', '2016-01-07', '2016-01-08',
               '2016-01-09', '2016-01-10'],
              dtype='datetime64[ns]', freq='D')

In [None]:
s=pd.Series(np.random.normal(size=10),index=d)
s

2016-01-01    0.230592
2016-01-02    0.634709
2016-01-03   -0.337821
2016-01-04   -0.490717
2016-01-05   -1.955437
2016-01-06   -0.136192
2016-01-07   -0.135905
2016-01-08   -0.079022
2016-01-09    1.806935
2016-01-10   -0.762253
Freq: D, dtype: float64

Операции сравнения возвращают наборы булевых данных.

In [None]:
s>0

2016-01-01     True
2016-01-02     True
2016-01-03    False
2016-01-04    False
2016-01-05    False
2016-01-06    False
2016-01-07    False
2016-01-08    False
2016-01-09     True
2016-01-10    False
Freq: D, dtype: bool

Если такой булев набор использовать для индексации, получится поднабор только из тех данных, для которых условие есть True.

In [None]:
s[s>0]

2016-01-01    0.230592
2016-01-02    0.634709
2016-01-09    1.806935
dtype: float64

## DataFrame

Двумерная таблица данных. Имеет индекс и набор столбцов (возможно, имеющих разные типы). Таблицу можно построить, например, из словаря, значениями в котором являются одномерные наборы данных.

In [None]:
d={'one':pd.Series([1,2,3],index=['a','b','c']),
   'two':pd.Series([1,2,3,4],index=['a','b','c','d'])}
df=pd.DataFrame(d)
df

Unnamed: 0,one,two
a,1.0,1
b,2.0,2
c,3.0,3
d,,4


### Индексация, слайсинг и доступ к переменным

In [None]:
df.index

Index(['a', 'b', 'c', 'd'], dtype='object')

In [None]:
df.columns

Index(['one', 'two'], dtype='object')

Если в качестве индекса указать имя столбца, получится одномерный набор данных.

In [None]:
df['one']

a    1.0
b    2.0
c    3.0
d    NaN
Name: one, dtype: float64

In [None]:
df.one

a    1.0
b    2.0
c    3.0
d    NaN
Name: one, dtype: float64

In [None]:
df['one']['c']

3.0


Однако если указать диапазон индексов, то это означает диапазон строк. Причём последняя строка включается в таблицу.

In [None]:
df['b':'d']

Unnamed: 0,one,two
b,2.0,2
c,3.0,3
d,,4



Диапазон целых чисел даёт диапазон строк с такими номерами, не включая последнюю строку (как обычно при индексировании списков). Всё это кажется довольно нелогичным.

In [None]:
df[1:3]

Unnamed: 0,one,two
b,2.0,2
c,3.0,3



Логичнее работает атрибут `loc`: первая позиция - всегда индекс строки, а вторая - столбца.

In [None]:
df.loc['b']

one    2.0
two    2.0
Name: b, dtype: float64

In [None]:
df.loc['b','one']

2.0

In [None]:
df.loc['a':'b','one']

a    1.0
b    2.0
Name: one, dtype: float64

In [None]:
df.loc['a':'b',:]

Unnamed: 0,one,two
a,1.0,1
b,2.0,2


In [None]:
df.loc[:,'one']

a    1.0
b    2.0
c    3.0
d    NaN
Name: one, dtype: float64

К таблице можно добавлять новые столбцы.

In [None]:
df['three']=df['one']*df['two']
df['flag']=df['two']>2
df

Unnamed: 0,one,two,three,flag
a,1.0,1,1.0,False
b,2.0,2,4.0,False
c,3.0,3,9.0,True
d,,4,,True


Также можно удалять имеющиеся.

In [None]:
#del df['two']
df['foo']=0.
# df.drop(['foo'], axis=1)
del df['foo']
df

Unnamed: 0,one,two,three,flag
a,1.0,1,1.0,False
b,2.0,2,4.0,False
c,3.0,3,9.0,True
d,,4,,True


### Функции для сортировки

In [None]:
mask = df.apply(lambda x: x['one'] < 1.5 or x['two'] > 2.5, axis=1)
mask

a     True
b    False
c     True
d     True
dtype: bool

In [None]:
df[mask]

Unnamed: 0,one,two,three,flag
a,1.0,1,1.0,False
c,3.0,3,9.0,True
d,,4,,True


### Объединение и добавление новых столбцов


Добавим копию столбца `one`, в которую входят только строки до второй.

In [None]:
df['one_tr']=df['one'][:2]
df

Unnamed: 0,one,two,three,flag,one_tr
a,1.0,1,1.0,False,1.0
b,2.0,2,4.0,False,2.0
c,3.0,3,9.0,True,
d,,4,,True,


In [None]:
df1=df.loc[:,['one','one_tr']]
df1

Unnamed: 0,one,one_tr
a,1.0,1.0
b,2.0,2.0
c,3.0,
d,,


Можно объединять таблицы по вертикали и по горизонтали.

In [None]:
df2=pd.DataFrame({'one':{'a':0,'b':1},'one_tr':{'b':2}})
df2

Unnamed: 0,one,one_tr
a,0,
b,1,2.0


In [None]:
df3 = pd.concat([df,df2], axis=0)
df3

Unnamed: 0,flag,one,one_tr,three,two
a,False,1.0,1.0,1.0,1.0
b,False,2.0,2.0,4.0,2.0
c,True,3.0,,9.0,3.0
d,True,,,,4.0
a,,0.0,,,
b,,1.0,2.0,,


# Полезные ссылки и доп материалы

Освоить основы каждой библиотеки за 10-15 минут:
#### numpy
https://docs.scipy.org/doc/numpy/user/quickstart.html
#### pandas
https://pandas.pydata.org/pandas-docs/stable/getting_started/10min.html

#### matplotlib

https://matplotlib.org/3.1.1/tutorials/index.html