# Основы Pandas
---

## Основные объекты и понятия

Основу **Pandas** состовляют такие структуры данных, как **Series и DataFrame**.

**Series** - это **одномерный массив**, имеющий специальные **метки (индексы)** и способные хранить данные **любого** типа.

**DataFrame** - это **двумерный массив (матрица, таблица)**, имеющий **специальные метки (индексы)**, который хранит в своих столбцах данные **разных типов**.

![DataFrame object](http://pytolearn.csd.auth.gr/b4-pandas/40/dataframe.png)

![Series](https://www.w3resource.com/w3r_images/pandas-series-abs-image-1.svg)

In [2]:
import numpy as np
import pandas as pd

## Series

In [3]:
data = ["Pandas", "Matplotlib", "Numpy"]
s = pd.Series(data)
s

0        Pandas
1    Matplotlib
2         Numpy
dtype: object

In [4]:
s = pd.Series([2, np.nan, 7, -3, 0])
s

0    2.0
1    NaN
2    7.0
3   -3.0
4    0.0
dtype: float64

In [5]:
s = pd.Series([3, -5, 7, 4], index=['a', 'b', 'c', 'd'])
s

a    3
b   -5
c    7
d    4
dtype: int64

In [6]:
s = pd.Series(np.random.randn(6), index=['p', 'q', 'r', 't', 'n', 'v'])
s

p   -1.051222
q   -0.086406
r   -0.533995
t    1.327786
n    1.383330
v    0.055562
dtype: float64

In [7]:
s.index

Index(['p', 'q', 'r', 't', 'n', 'v'], dtype='object')

In [8]:
n = {'q':1, 'p':2, 'r':3}
pd.Series(n)

q    1
p    2
r    3
dtype: int64

In [11]:
print(s.dtype)
print(s.shape)
print(s.ndim)
print(s.size)

float64
(6,)
1
6


### Индексы и выборка

In [13]:
print(s, '\n')
print(s[0], '\n')
print(s[1:5], '\n')
print(s[s>0], '\n')
print(s[(s>0)&(s<1)], '\n')
print(s['t'], '\n')
print(s[['r','t']], '\n')

p   -1.051222
q   -0.086406
r   -0.533995
t    1.327786
n    1.383330
v    0.055562
dtype: float64 

-1.051222096735543 

q   -0.086406
r   -0.533995
t    1.327786
n    1.383330
dtype: float64 

t    1.327786
n    1.383330
v    0.055562
dtype: float64 

v    0.055562
dtype: float64 

1.3277855559167213 

r   -0.533995
t    1.327786
dtype: float64 



In [14]:
s[[4,2]]

n    1.383330
r   -0.533995
dtype: float64

In [15]:
print(np.sin(s), '\n')
print(np.abs(s), '\n')
print(np.tan(s), '\n')

p   -0.868031
q   -0.086298
r   -0.508976
t    0.970618
n    0.982480
v    0.055534
dtype: float64 

p    1.051222
q    0.086406
r    0.533995
t    1.327786
n    1.383330
v    0.055562
dtype: float64 

p   -1.748262
q   -0.086622
r   -0.591296
t    4.033720
n    5.271643
v    0.055619
dtype: float64 



### Добавление и удаление

In [16]:
s['pylounge'] = 1000
s

p             -1.051222
q             -0.086406
r             -0.533995
t              1.327786
n              1.383330
v              0.055562
pylounge    1000.000000
dtype: float64

In [17]:
s.drop(labels=['p', 'pylounge']) # labels, index, axis и т.д.

q   -0.086406
r   -0.533995
t    1.327786
n    1.383330
v    0.055562
dtype: float64

In [18]:
print(s.sum(), '\n')
print(s.mean(), '\n')
print(s.max(), '\n')

1001.0950545138269 

143.01357921626098 

1000.0 



### Операции

In [19]:
s + s

p             -2.102444
q             -0.172812
r             -1.067990
t              2.655571
n              2.766659
v              0.111124
pylounge    2000.000000
dtype: float64

In [20]:
s * s

p                 1.105068
q                 0.007466
r                 0.285150
t                 1.763014
n                 1.913601
v                 0.003087
pylounge    1000000.000000
dtype: float64

In [21]:
s ** 2

p                 1.105068
q                 0.007466
r                 0.285150
t                 1.763014
n                 1.913601
v                 0.003087
pylounge    1000000.000000
dtype: float64

In [22]:
s.astype(np.int16)

p             -1
q              0
r              0
t              1
n              1
v              0
pylounge    1000
dtype: int16