In [10]:
import numpy as np
%pylab inline

Populating the interactive namespace from numpy and matplotlib


### Series

** Создание объекта Series из 5 элементов, индексированных буквами:**

In [11]:
salaries = pd.Series([400, 300, 200, 250], 
              index = ['Andrew', 'Bob', 
                       'Charles', 'Ann']) 
print(salaries)                                                                 

Andrew     400
Bob        300
Charles    200
Ann        250
dtype: int64


In [12]:
salaries[salaries > 250]

Andrew    400
Bob       300
dtype: int64

**Индексирование возможно в виде s.Name или s['Name'].**

In [13]:
print(salaries.Andrew == salaries['Andrew']) 

True


In [14]:
salaries['Carl'] = np.nan

In [15]:
salaries.fillna(salaries.median(), inplace=True)

In [16]:
salaries

Andrew     400.0
Bob        300.0
Charles    200.0
Ann        250.0
Carl       275.0
dtype: float64

**Series поддерживает пропуски в данных.**

In [17]:
salaries.c = np.nan # Series can contain missing values
print(salaries)

Andrew     400.0
Bob        300.0
Charles    200.0
Ann        250.0
Carl       275.0
dtype: float64


**Объекты Series похожи на ndarray и могут быть переданы в качестве аргументов большинству функций из Numpy.**

In [18]:
print('Second element of salaries is', salaries[1], '\n')
# Smart indexing
print(salaries[:3], '\n')
print('There are', len(salaries[salaries > 0]), 'positive elements in salaries\n')
# Series obects can be the arguments for Numpy functions
print(np.exp(salaries))

Second element of salaries is 300.0 

Andrew     400.0
Bob        300.0
Charles    200.0
dtype: float64 

There are 5 positive elements in salaries

Andrew     5.221470e+173
Bob        1.942426e+130
Charles     7.225974e+86
Ann        3.746455e+108
Carl       2.697631e+119
dtype: float64


### DataFrame

### Создание и изменение

**Перейдём к рассмотрению объектов типа DataFrame. Такой объект можно создать из массива numpy, указав названия строк и столбцов.**

In [19]:
df1 = pd.DataFrame(np.random.randn(5, 3), 
                   index=['o1', 'o2', 'o3', 'o4', 'o5'], 
                   columns=['f1', 'f2', 'f3'])
df1

Unnamed: 0,f1,f2,f3
o1,-0.411783,-1.442253,2.661175
o2,-1.775946,-1.165086,-0.942636
o3,-0.984685,-1.101326,-1.904186
o4,-0.177859,-0.325984,0.157514
o5,0.022895,1.373322,1.433569


**Альтернативным способом является создание DataFrame из словаря numpy массивов или списков.**

In [20]:
df2 = pd.DataFrame({'A': np.random.random(5), 
                    'B': ['a', 'b', 'c', 'd', 'e'], 
                    'C': np.arange(5) > 2})
df2

Unnamed: 0,A,B,C
0,0.718821,a,False
1,0.581509,b,False
2,0.918291,c,False
3,0.353339,d,True
4,0.302445,e,True


**Обращение к элементам (или целым кускам фрейма):**

In [21]:
print('The element in position 3, B is', df2.at[3, 'B'], '\n')
print(df2.loc[[1, 4], ['A', 'B']])

The element in position 3, B is d 

          A  B
1  0.581509  b
4  0.302445  e


**Изменение элементов и добавление новых:**

In [22]:
df2.at[2, 'B'] = 'f'
df2

Unnamed: 0,A,B,C
0,0.718821,a,False
1,0.581509,b,False
2,0.918291,f,False
3,0.353339,d,True
4,0.302445,e,True


In [23]:
df2.loc[5] = [3.1415, 'c', False]
df2

Unnamed: 0,A,B,C
0,0.718821,a,False
1,0.581509,b,False
2,0.918291,f,False
3,0.353339,d,True
4,0.302445,e,True
5,3.1415,c,False


In [24]:
df1.columns = ['A', 'B', 'C']
df3 = df1.append(df2)
df3

Unnamed: 0,A,B,C
o1,-0.411783,-1.44225,2.661175
o2,-1.775946,-1.16509,-0.942636
o3,-0.984685,-1.10133,-1.904186
o4,-0.177859,-0.325984,0.157514
o5,0.022895,1.37332,1.433569
0,0.718821,a,0.0
1,0.581509,b,0.0
2,0.918291,f,0.0
3,0.353339,d,1.0
4,0.302445,e,1.0


#### Обработка пропущенных значений

In [25]:
df1.at['o2', 'A'] = np.nan
df1.at['o4', 'C'] = np.nan
df1

Unnamed: 0,A,B,C
o1,-0.411783,-1.442253,2.661175
o2,,-1.165086,-0.942636
o3,-0.984685,-1.101326,-1.904186
o4,-0.177859,-0.325984,
o5,0.022895,1.373322,1.433569


**Булева маска для пропущенных значений (True - там, где был пропуск, иначе - False):**

In [26]:
pd.isnull(df1)

Unnamed: 0,A,B,C
o1,False,False,False
o2,True,False,False
o3,False,False,False
o4,False,False,True
o5,False,False,False


**Можно удалить все строки, где есть хотя бы один пропуск.**

In [27]:
df1.dropna(how='any')

Unnamed: 0,A,B,C
o1,-0.411783,-1.442253,2.661175
o3,-0.984685,-1.101326,-1.904186
o5,0.022895,1.373322,1.433569
