# Основные объекты библиотеки Pandas

In [1]:
import numpy as np
import pandas as pd

# 1. Объект Series

In [2]:
data = pd.Series(np.arange(0,1,0.25))
data

0    0.00
1    0.25
2    0.50
3    0.75
dtype: float64

In [15]:
print("Значения:",data.values)
print("Индекс:",data.index)
print("Тоже индекс:",data.keys())
print("Элементы:",list(data.items()))

Значения: [0.   0.25 0.5  0.75]
Индекс: RangeIndex(start=0, stop=4, step=1)
Тоже индекс: RangeIndex(start=0, stop=4, step=1)
Элементы: [(0, 0.0), (1, 0.25), (2, 0.5), (3, 0.75)]


## 1.1 Создание объектов Series и немного про индексы

<font size="3"> Индексы можно задавать самому как угодно:</font> 

In [12]:
pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [13]:
pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=[2, 5, 3, 7])

2    0.25
5    0.50
3    0.75
7    1.00
dtype: float64

In [5]:
pd.Series(5, index=[100, 200, 300])

100    5
200    5
300    5
dtype: int64

In [7]:
# выводим не все элементы с помощью индексов
pd.Series({2:'a', 1:'b', 3:'c'}, index=[3, 2])

3    c
2    a
dtype: object

In [49]:
dat = pd.Series({2:'a', 1:'b', 3:'c'})

In [53]:
dat[2] = 'A'
dat

2    A
1    b
3    c
dtype: object

<font size="3"> Создание **Series** через словарь:</font> 

In [106]:
stud_dict = {'George': 10,
             'Ujin': 12,
             'Max': 7,
             'Ann': 4,
             'Polina': 10}
students = pd.Series(stud_dict)
students

George    10
Ujin      12
Max        7
Ann        4
Polina    10
dtype: int64

## 1.2 Index как отдельный объект

In [23]:
ind = pd.Index([2, 3, 5, 7, 11])
ind

Int64Index([2, 3, 5, 7, 11], dtype='int64')

In [24]:
ind[1]

3

In [25]:
ind[::2]

Int64Index([2, 5, 11], dtype='int64')

In [27]:
print("Размер:",ind.size)
print("Форма:",ind.shape)
print("Размерность:",ind.ndim)
print("Тип:",ind.dtype)

Размер: 5
Форма: (5,)
Размерность: 1
Тип: int64


In [43]:
indA = pd.Index([1, 3, 5, 7, 9])
indB = pd.Index([2, 3, 5, 7, 11])

In [44]:
print(indA & indB)  # пересечение
print(indA | indB)  # объединение
print(indA ^ indB)  # симметричная разность

Int64Index([3, 5, 7], dtype='int64')
Int64Index([1, 2, 3, 5, 7, 9, 11], dtype='int64')
Int64Index([1, 2, 9, 11], dtype='int64')


<font size="3"> Индекс - это **неизменяемый** объект:</font> 

In [28]:
ind[1] = 0

TypeError: Index does not support mutable operations

## 1.3 Индексирование и вывод данных

In [39]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

### Явное индексирование:

In [33]:
data['b']

0.5

In [100]:
students['Ann']

4

<font size="3"> Заметим, что последний элемент **включается**:</font> 

In [35]:
data['a':'c']

a    0.25
b    0.50
c    0.75
dtype: float64

In [101]:
students['George':'Max']

George    10
Ujin      12
Max        7
dtype: int64

In [42]:
# прихотливая индексация
data[['a','c']]

a    0.25
c    0.75
dtype: float64

### Неявное индексирование:

In [36]:
data[1]

0.5

In [41]:
# маскирование
data[(data>0.5) & (data<0.8)]

c    0.75
dtype: float64

<font size="3"> Заметим, что последний элемент **не включается**:</font> 

In [38]:
data[0:2]

a    0.25
b    0.50
dtype: float64

### loc и iloc

Индикаторы `loc` и `iloc`, которые тесно связаны с явным и неявным индексированием. `loc` задает явное индексирование, а `iloc` неявное

In [54]:
data = pd.Series(['a','b','c','d','e','f'], index = [1,3,5,7,9,10])
data

1     a
3     b
5     c
7     d
9     e
10    f
dtype: object

In [55]:
data.loc[0:5]

1    a
3    b
5    c
dtype: object

In [56]:
data.iloc[0:5]

1    a
3    b
5    c
7    d
9    e
dtype: object

In [57]:
data = pd.Series([1,2,3], index = ['a','b','c'])
data

a    1
b    2
c    3
dtype: int64

In [60]:
data.loc['a']

1

In [63]:
data.iloc[0]

1

# 2. Объект DataFrame

In [107]:
cock_dict = {'George': 10,
             'Ujin': 12,
             'Max': 7,
             'Ann': 4,
             'Polina': 10}
cock = pd.Series(cock_dict)

time_dict = {'George': 2,
             'Ujin': 3,
             'Max': 2.5,
             'Ann': 1,
             'Polina': 3}
time = pd.Series(time_dict)

In [108]:
stud = pd.DataFrame({'Cocktails': cock,
                       'Hours': time})
stud

Unnamed: 0,Cocktails,Hours
George,10,2.0
Ujin,12,3.0
Max,7,2.5
Ann,4,1.0
Polina,10,3.0


In [109]:
stud.index

Index(['George', 'Ujin', 'Max', 'Ann', 'Polina'], dtype='object')

In [110]:
stud.columns

Index(['Cocktails', 'Hours'], dtype='object')

In [111]:
stud.values

array([[10. ,  2. ],
       [12. ,  3. ],
       [ 7. ,  2.5],
       [ 4. ,  1. ],
       [10. ,  3. ]])

In [115]:
stud.Cocktails

George    10
Ujin      12
Max        7
Ann        4
Polina    10
Name: Cocktails, dtype: int64

In [117]:
stud['Cocktails']

George    10
Ujin      12
Max        7
Ann        4
Polina    10
Name: Cocktails, dtype: int64

In [118]:
stud['Power'] = stud['Cocktails'] / stud['Hours']
stud

Unnamed: 0,Cocktails,Hours,Power
George,10,2.0,5.0
Ujin,12,3.0,4.0
Max,7,2.5,2.8
Ann,4,1.0,4.0
Polina,10,3.0,3.333333


In [119]:
# можно транспонировать
stud.T

Unnamed: 0,George,Ujin,Max,Ann,Polina
Cocktails,10.0,12.0,7.0,4.0,10.0
Hours,2.0,3.0,2.5,1.0,3.0
Power,5.0,4.0,2.8,4.0,3.333333


## 2.1 Создание DataFrame объектов 
<font size=3> Мы уже рассмотрели создание DataFrame объекта с помощью словаря из объектов Series. На этом способы не заканчиваются: <font>

**Из одного объекта Series**

In [120]:
pd.DataFrame(cock, columns=['Cocktails'])

Unnamed: 0,Cocktails
George,10
Ujin,12
Max,7
Ann,4
Polina,10


**Из словаря**

In [72]:
pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}])

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,4.0


**Из двумерного массива NumPy**

In [73]:
pd.DataFrame(np.random.rand(3, 2),
             columns=['foo', 'bar'],
             index=['a', 'b', 'c'])

Unnamed: 0,foo,bar
a,0.083637,0.970321
b,0.716144,0.41643
c,0.333754,0.319175


**Из структурированного массива NumPy**

In [75]:
A = np.zeros(3, dtype=[('A', 'i8'), ('B', 'f8')])
A

array([(0, 0.), (0, 0.), (0, 0.)], dtype=[('A', '<i8'), ('B', '<f8')])

In [76]:
pd.DataFrame(A)

Unnamed: 0,A,B
0,0,0.0
1,0,0.0
2,0,0.0


## 2.2 Индексирование и вывод данных

In [121]:
stud

Unnamed: 0,Cocktails,Hours,Power
George,10,2.0,5.0
Ujin,12,3.0,4.0
Max,7,2.5,2.8
Ann,4,1.0,4.0
Polina,10,3.0,3.333333


<font size=3> Вспоминаем уже привычные нам `loc` и `iloc` <font>

In [123]:
stud.iloc[:3,:2]

Unnamed: 0,Cocktails,Hours
George,10,2.0
Ujin,12,3.0
Max,7,2.5


In [125]:
stud.loc[: 'Max', : 'Cocktails']

Unnamed: 0,Cocktails
George,10
Ujin,12
Max,7


<font size=3> А теперь рассмотрим `ix`, который позволяет комбинировать явные и неявные индексы <font>

In [126]:
stud.ix[:3, :'Cocktails']

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  """Entry point for launching an IPython kernel.


Unnamed: 0,Cocktails
George,10
Ujin,12
Max,7


## 2.3 Вычисления

In [96]:
df = pd.DataFrame(np.random.randint(0, 10, (3, 4)),
                  columns=['A', 'B', 'C', 'D'])
df

Unnamed: 0,A,B,C,D
0,5,7,8,8
1,0,7,8,3
2,0,0,6,6


In [97]:
np.sin(df * np.pi / 4)

Unnamed: 0,A,B,C,D
0,-0.707107,-0.707107,-2.449294e-16,-2.449294e-16
1,0.0,-0.707107,-2.449294e-16,0.7071068
2,0.0,0.0,-1.0,-1.0
