# Библиотека Pandas. Часть 1

In [161]:
import pandas as pd
import numpy as np

print(pd.__version__)
print(np.__version__)

1.3.4
1.21.2


## Содержание

* [Общие сведения о библиотеке Pandas](#Общие-сведения-о-библиотеке-Pandas)
* [Объект `Series`](#Объект-Series)
* [Объект `DataFrame`](#Объект-DataFrame)
* [Сохранение данных в файле, чтение данных из файла](#Сохранение-данных-в-файле,-чтение-данных-из-файла)

---
## Общие сведения о библиотеке Pandas

Pandas - это открытая библиотека для обработки и анализа данных. 

Первая версия библиотеки была разработна в 2008 году Уэсом Маккини (Wes McKinney). 

В 2012 году к работе над библиотекой присоединился Чан Ше (Chang She), ставший её вторым основным разработчиком. 

Библиотека получилась достаточно удобной и к работе над ней стало присоединяться всё больше и больше профессиональных программистов. 

Название библиотеки является сокращением слов эконометрического термина "панельные данные" (panel data).


Первые версии библиотеки были основаны на использовании массивов библиотеки NumPy. 


В последних версиях происходит постепенное ослабление этой зависимости. 

Пользователю теперь не требуется (но желательно) в обязательном порядке знать 
принципы работы с массивами NumPy.

Автором библиотеки была издана книга "Python for Data Analysis", которая была 
переведена на русский язык и выпущена издательством ДМК-Пресс в 2015 году 
под названием "Python и анализ данных".

Сайт проекта библиотеки: [http://pandas.pydata.org/](http://pandas.pydata.org/)

[к содержанию](#Содержание)

---
## Объект `Series`

Объект `Series` (*серия*) библиотке Pandas представляет собой простой одномерный массив NumPy, дополненный *индексом*.

Наличие индекса делает объект `Series` похожим на словарь Python, в котором допускаются совпадающие ключи.

Рассмотрим следующие задачи, которые приходится решать при работе с объектом `Series`:
* [Создание объекта `Series`](#Создание-объекта-Series)
* [Построение запросов к объекту `Series`](#Построение-запросов-к-объекту-Series)
* [Манипуляции с объектом `Series`](#Манипуляции-с-объектом-Series)
* [Вычисления с объектом `Series`](#Вычисления-с-объектом-Series)

[к содержанию](#Содержание)

### Создание объекта `Series`

In [None]:
# создание

In [162]:
x = pd.Series([1, 2])
print(x)

0    1
1    2
dtype: int64


In [163]:
x[2] = 3
print(x)

0    1
1    2
2    3
dtype: int64


In [164]:
del(x[2])
print(x)

0    1
1    2
dtype: int64


In [None]:
# типы данных

In [165]:
x = pd.Series([1.0, 2.0, 3.0], dtype=int)  
print(x)

0    1
1    2
2    3
dtype: int32


In [166]:
x = pd.Series([1, 2, 3], dtype=np.float_)
print(x)

0    1.0
1    2.0
2    3.0
dtype: float64


In [167]:
x = pd.Series([1, 2, 3], dtype=str)
print(x)

0    1
1    2
2    3
dtype: object


In [168]:
x = pd.Series([1, 2.0, '3'])  
print(x)

0      1
1    2.0
2      3
dtype: object


In [171]:
x = pd.Series([1, 2.0, '3'], dtype=np.float_)
print(x)

0    1.0
1    2.0
2    3.0
dtype: float64


In [None]:
# индексы

In [172]:
x = pd.Series([1, 2, 3])
print(x)

0    1
1    2
2    3
dtype: int64


In [173]:
x = pd.Series([1, 2, 3], index=[0, 1, 2])
print(x)

0    1
1    2
2    3
dtype: int64


In [174]:
print(x[1])

2


In [175]:
x = pd.Series([1, 2, 3], index=[1,2,3])
print(x)

1    1
2    2
3    3
dtype: int64


In [176]:
print(x[1])

1


In [177]:
x = pd.Series({'one': 1, 'two': 2, 'three': 3})
print(x)

one      1
two      2
three    3
dtype: int64


In [178]:
print(x['one'])

1


In [179]:
x = pd.Series({'one': 1, 'two': 2, 'three': 3}, index=['two', 'one', 'zero'])
print(x)

two     2.0
one     1.0
zero    NaN
dtype: float64


In [None]:
# свойства серий

In [180]:
x = pd.Series({'one': 1, 'two': 2, 'three': 3})
print(x)

one      1
two      2
three    3
dtype: int64


In [181]:
print(x.size)
print(x.shape)
print(x.dtype)

3
(3,)
int64


In [182]:
print(x.values)
print(type(x.values))

[1 2 3]
<class 'numpy.ndarray'>


In [183]:
print(x.index)
print(type(x.index))

Index(['one', 'two', 'three'], dtype='object')
<class 'pandas.core.indexes.base.Index'>


In [184]:
x = pd.Series([1, 2, 3])
print(x)
print(x.index)
print(type(x.index))

0    1
1    2
2    3
dtype: int64
RangeIndex(start=0, stop=3, step=1)
<class 'pandas.core.indexes.range.RangeIndex'>


In [185]:
x = pd.Series([1, 2, 3], index=[0, 1, 2])
print(x)
print(x.index)
print(type(x.index))

0    1
1    2
2    3
dtype: int64
Int64Index([0, 1, 2], dtype='int64')
<class 'pandas.core.indexes.numeric.Int64Index'>


[к началу раздела](#Объект-Series)  
[к содержанию](#Содержание)

### Построение запросов к объекту `Series`

Для выполнения запросов к объекту `Series` можно использовать:
* методы `head()`, `tail()`, возвращающие заданное количество элементов серии из начала и конца серии соттветственно;
* метод `take()`, возвращающий указанные элементы;
* обычные операции извлечения элемента по индексу `[index]` и срезы вида `[start:stop:step]`;
* свойства-индексаторы `loc[]` и `iloc[]`;
* расширенную индексацию и булевы маски.

**(!)** При операции извлечения элемента по индексу выполняется извлечение одного элемента. Результатом операции будет один объект, тип которого совпадает с типом объектов серии. При выполнении операции среза, даже если запрашивается один элемент, результатом будет объект `Series`.

**(!)** При выполнении операции среза элемент с индексом `stop` не включается в результат, если индекс целочисленный, и включается, если индекс строковый, т.е.

```python
>> x = pd.Series([1,2,3], index=['a','b','c'])
>> y = x[1:3]     # результат y = [1,2]
>> z = x['a':'с'] # результат z = [1,2,3]
```


**(!)** При выполнении операции срезу возвращается объект `Series`, являющийся ссылкой на исходный объект `Series`.

**(!)** Если индекс является целочисленным, то запись операции обращения по индексу может оказаться неоднозначно интерпретируемой, например:
```python
>> x = pd.Series([10,20,30], index = [1,2,3])
>> print(x)
1    10
2    20
3    30
dtype: int64

>> x[1]  # (?) к какому элементу происходит запрос: к элементу 10, у которого индекс равен 1
         # или ко второму элементу 20 (с учетом того, что нумерация элементов начинается с 0)? 
```

Для устранения неоднозначности предназначены свойства индексаторы. Индексатор `.loc[]` позволяет извлечь элемент по его индексу, индексатор `.iloc[]` - по его порядковому номеру. Для рассмотренного в примере объекта `Series` имеем:
```python
>> print(x[1])
10
>> print(x.loc[1])
10
>> print(x.iloc[1])
20
```

Под *расширенной индексацией* объекта `Series` понимается индексация с помощью списка или массива индексов. В результате расширенной индексации всегда создаётся новый объект (выполняется копирование данных).

*Маскирование* - это запрос элементов данных объекта `Series` посредством *маски* логического списка или массива. В результате маскирования создаётся объект `Series`, состоящий из элементов исходного объекта, соответствующих значениям `True` маски.

In [186]:
# Построение запросов к объекту Series. Методы head(), tail(), take().
x = pd.Series([1, 2, 3, 4, 5])
print(x)

0    1
1    2
2    3
3    4
4    5
dtype: int64


In [187]:
print(x.head(n=3))

0    1
1    2
2    3
dtype: int64


In [188]:
print(x.tail(n=3))

2    3
3    4
4    5
dtype: int64


In [189]:
print(x.take([2,4,2]))

2    3
4    5
2    3
dtype: int64


In [213]:
x = pd.Series([1, 2, 3, 4, 5])
print(x)

0    1
1    2
2    3
3    4
4    5
dtype: int64


In [197]:
print(x[1])

v = x[1]
print(type(v))

2
<class 'numpy.int64'>


In [214]:
print(x[1:4])

v = x[1:4]
print(type(v))

1    2
2    3
3    4
dtype: int64
<class 'pandas.core.series.Series'>


In [208]:
v[1] = 0

print(v)
print(x)

1    0
dtype: int64
0    1
1    0
2    3
3    4
4    5
dtype: int64


In [215]:
x = pd.Series([1, 2, 3, 4, 5], index=list('abcde'))
print(x)

a    1
b    2
c    3
d    4
e    5
dtype: int64


In [210]:
print(x['a'])

v = x['a']
type(v)

1


numpy.int64

In [216]:
print(x['b':'d'])

v = x['b':'d']
print(type(v))

b    2
c    3
d    4
dtype: int64
<class 'pandas.core.series.Series'>


In [217]:
v['c'] = 0

print(v)
print(x)

b    2
c    0
d    4
dtype: int64
a    1
b    2
c    0
d    4
e    5
dtype: int64


In [None]:
# нюанс

In [218]:
x = pd.Series([1, 2, 3, 4, 5])
print(x)

0    1
1    2
2    3
3    4
4    5
dtype: int64


In [219]:
print(x[1])

2


In [220]:
y = pd.Series([1, 2, 3, 4, 5], index=[1, 2, 3, 4, 5])
print(y)

1    1
2    2
3    3
4    4
5    5
dtype: int64


In [221]:
print(y[1])

1


In [222]:
print(x[1:4])
print(y[1:4])

1    2
2    3
3    4
dtype: int64
2    2
3    3
4    4
dtype: int64


In [None]:
# методы .loc(), iloc()

In [223]:
print(x.loc[1])
print(x.iloc[1])
print(y.loc[1])
print(y.iloc[1])

2
2
1
2


In [None]:
# print(x.at[1])
# print(x.iat[1])
# print(y.at[1])
# print(y.iat[1])

In [None]:
# Построение запросов к объекту Series. Расширенная индексация.

In [224]:
x = pd.Series([1, 2, 3, 4, 5])
print(x)

0    1
1    2
2    3
3    4
4    5
dtype: int64


In [225]:
print(x[[1,2,1]])

1    2
2    3
1    2
dtype: int64


In [226]:
print(x[pd.Series([1,2,1])])

1    2
2    3
1    2
dtype: int64


In [227]:
v = x[[1,2,1]]  # расширенная индексация приводит к созданию копии

v[2] = 0

print(v)
print(x)

1    2
2    0
1    2
dtype: int64
0    1
1    2
2    3
3    4
4    5
dtype: int64


In [None]:
# Построение запросов к объекту Series. Маскирование.

In [228]:
x = pd.Series([1, 2, 3, 2, 1])
print(x)

0    1
1    2
2    3
3    2
4    1
dtype: int64


In [229]:
x > 1

0    False
1     True
2     True
3     True
4    False
dtype: bool

In [230]:
mask = (x > 1)
print(type(mask))

<class 'pandas.core.series.Series'>


In [232]:
mask = (x > 1)
print(x[x > 1])

1    2
2    3
3    2
dtype: int64


In [233]:
mask = (x % 2 == 0)
print(x[mask])

1    2
3    2
dtype: int64


In [None]:
# mask = (x > 0) and (x < 3)  # ValueError: The truth value of a Series is ambiguous 
# print(x[mask])  

In [235]:
mask = (x > 1) & (x < 3)  # битовые операции & (AND), | (OR), ~(NOT), ^(XOR) 
print(x[mask])

1    2
3    2
dtype: int64


[к началу раздела](#Объект-Series)  
[к содержанию](#Содержание)

### Манипуляции с объектом `Series`


In [None]:
# добавление элементов

In [243]:
x = pd.Series([1, 2, 3], index=['a', 'b', 'c'])
print(x)

a    1
b    2
c    3
dtype: int64


In [244]:
x['d'] = 4
print(x)

a    1
b    2
c    3
d    4
dtype: int64


In [245]:
y = pd.Series([5, 6, 7])
x.append(y)
print(x)

a    1
b    2
c    3
d    4
dtype: int64


In [246]:
y = pd.Series([5, 6, 7])
x = x.append(y)
print(x)

a    1
b    2
c    3
d    4
0    5
1    6
2    7
dtype: int64


In [247]:
x = pd.Series([1, 2, 3])
y = pd.Series([4, 5, 6])
z = pd.Series([7, 8 ,9])

s = pd.concat([x, y, z])
print(s)

0    1
1    2
2    3
0    4
1    5
2    6
0    7
1    8
2    9
dtype: int64


In [None]:
# удаление

In [248]:
x = pd.Series([1, 2, 3, 4, 5], index=['a','b','c','d','e'])
print(x)

a    1
b    2
c    3
d    4
e    5
dtype: int64


In [249]:
del(x['e'])
print(x)

a    1
b    2
c    3
d    4
dtype: int64


In [250]:
x.drop('d')
print(x)

a    1
b    2
c    3
d    4
dtype: int64


In [251]:
x = x.drop('d')
print(x)

a    1
b    2
c    3
dtype: int64


In [252]:
x.drop('c', inplace=True)
print(x)

a    1
b    2
dtype: int64


In [253]:
x.drop(['a', 'b'], inplace=True)
print(x)

Series([], dtype: int64)


[к началу раздела](#Объект-Series)  
[к содержанию](#Содержание)

---
### Вычисления с объектом `Series`

Объект `Series` можно рассматривать как массив NumPy,  
поэтому с ним можно производить операции `+`, `-`, `*`, `/`, `//`, `%`, `**`. 

Но так как объект `Series` - это также словарь, то при выполнении этих  
операций происходит *выравнивание индексов*.

Выравнивание индексов заключается в следующем:
* индексы операндов объединяются и результат объединения упорядочевается;
* для элементов с совпадающими индексами выполняется заданная операция,  
  причём, т.к. индексы могут иметь повторяющиеся значения, то происходит  
  выполнение операции для каждой пары элементы с совпадающими индексами;
* для элементов, для значений индекса которых не нашлось соответсвующих  
  значений в другом операнде, результатом операции является `NaN`.

```python
>> x = pd.Series([1,2,3], index=['a','c','b'])
>> y = pd.Series([4,5,6], index=['b','c','b'])
>> z = x + y
>> print(z)
a    NaN
b    7.0
b    9.0
c    7.0
dtype: float64
```


Результатом выполнения логической операции (сравнение, проверка на равенство,...)  
над одним или двумя объектами `Series` является объект `Series`, содержащий  
результаты выполнения операции для каждого элемента (каждой пары элементов)  
исходного объекта (исходных объектов). 

**(!)** Если в логической операции участвует несколько объектов `Series`,  
то необходимо, чтобы операнды были не только одинаковой длины, но и имели  
совпадающие индексы.

In [None]:
# Вычисления с объектом Series. Арифтемтические операции

In [254]:
x = pd.Series([1,2,3], index=['a','c','b'])
y = pd.Series([4,5,6], index=['b','c','b'])

z = x+y
print(z)

a    NaN
b    7.0
b    9.0
c    7.0
dtype: float64


In [255]:
z = 2*(x-1) + 3*(y+1)
print(z)

a     NaN
b    19.0
b    25.0
c    20.0
dtype: float64


In [256]:
x = pd.Series([1,2,3])
y = pd.Series([2,1,2,1,2])

z = x + y
print(z)  # dtype: float64

0    3.0
1    3.0
2    5.0
3    NaN
4    NaN
dtype: float64


In [None]:
# Вычисления с объектом Series. Логические операции.

In [257]:
x = pd.Series([1,2,3])
z = x > 1
print(z)

0    False
1     True
2     True
dtype: bool


In [258]:
x = pd.Series([1,2,3])
y = pd.Series([2,1,2])

z = x > y
print(z)

0    False
1     True
2     True
dtype: bool


In [259]:
x = pd.Series([1,2,3], index=['a','b','c'])
y = pd.Series([3,2,1], index=['a','b','c'])

z = x > y
print(z)

a    False
b    False
c     True
dtype: bool


In [None]:
# x = pd.Series([1,2,3], index=['a','b','c'])
# y = pd.Series([3,2,1], index=['b','c','d'])

# z = x > y  # ValueError: Can only compare identically-labeled Series objects
# print(z)

[к началу раздела](#Объект-Series)  
[к содержанию](#Содержание)

---
## Объект `DataFrame`

Объект `DataFrame` (*фрейм данных*) библиотки Pandas с одной стороны  
представляет собой словарь, каждый элемент которого - это столбец,  
являющийся объектом `Series`, а с другой стороны это массив NumPy,  
имеющий индексы для строк и для столбцов.

Таким образом, к объекту `DataFrame` можно обращаться как к словарю  
или как к массиву. Рассмотрим пример:

```python
>> df = pd.DataFrame({'A': [1,2,3], 'B': [4,5,6]})  

>> print(len(df))   # узнаём длину фрейма данных (обращение как к словарю)
>> 3
>> print(df.size)   # узнаём количество элементов фрейма данных (обращение как к массиву)
>> 6
>> print(df.shape)  # узнаём форму фрейма данных (обращение как к массиву)
>> (3,2)
>> print(df.values) # запрашиваем значения фрейма данных (обращение как к словарю, но результат массив NumPy
[[1 4]
 [2 5]
 [3 6]]
```

Рассмотрим следующие задачи, которые приходится решать при работе с объектом `DataFrame`:
* [Создание объекта `DataFrame`](#Создание-объекта-DataFrame);
* [Построение запросов к объекту `DataFrame`](#Построение-запросов-к-объекту-DataFrame);
* [Манипуляции с объектом `DataFrame`](#Манипуляции-с-объектом-DataFrame).



[к содержанию](#Содержание)

### Создание объекта `DataFrame`

In [262]:
x = [1, 2, 3]
y = [10, 20, 30]

df = pd.DataFrame({'A': x, 'B': y})
print(df)
df

   A   B
0  1  10
1  2  20
2  3  30


Unnamed: 0,A,B
0,1,10
1,2,20
2,3,30


In [266]:
# Создание объекта DataFrame.

x = pd.Series([1,2,3], index=['a','b','c'], dtype=np.int32)
y = pd.Series([10,20,30], index=['b','c','d'])

print(x)
print(y)

df = pd.DataFrame({'A': x, 'B': y})
df

a    1
b    2
c    3
dtype: int32
b    10
c    20
d    30
dtype: int64


Unnamed: 0,A,B
a,1.0,
b,2.0,10.0
c,3.0,20.0
d,,30.0


In [267]:
x =  [[1, 10],
      [2, 20],
      [3, 30]]

df = pd.DataFrame(x)
df

Unnamed: 0,0,1
0,1,10
1,2,20
2,3,30


In [268]:
x = ([[1, 10],
      [2, 20],
      [3, 30]])

df = pd.DataFrame(x, index=['a', 'b', 'c'], columns=['A', 'B'])
df

Unnamed: 0,A,B
a,1,10
b,2,20
c,3,30


[к началу раздела](#Объект-DataFrame)  
[к содержанию](#Содержание)

### Построение запросов к объекту `DataFrame`

При выполнении запросов к объекту `DataFrame` можно запрашивать столбцы,  строки  
и отдельные элементы, стоящие на пересечении заданной строки и заданного столбца.

Для запроса столбцов используется операция извлечения по индексу `[]`, которой  
можно передать  либо *одно* имя запрашиваемого столбца, либо *список* имён  
запрашиваемых столбцов.

**(!)** Если запрашивается одно имя столбца, то результатом будет объект  
`Series`, если запрашивается список, даже состоящий из одного элемента,  
результатом будет `DataFrame`.

Для запроса строк можно использовать свойства-индексаторы `.loc[]' и '.iloc[]`.  
Для запроса элементов, расположенных на пересечении заданной строки и заданного  
столбца, можно использовать свойства-индексаторы `.at[row_label, col_label]`  
и `.iat[row_idx, col_idx]`.

**(!)** Если запрашивается одно имя строки, то результатом будет  
объект `Series`, если запрашивается список, даже состоящий из одного элемента,  
результатом будет `DataFrame`.

**(!)** Свойство-индексатор `.loc[]` допускает указание в запросе требуемых  
столбцов, т.е. допустима запись `.loc[row_labels, col_labels]`,  
где `row_labels` и `col_labels` - списки индексов строк и столбцов.

Допускается также использовать срезы вида `[start:stop:step]` для извлечения строк.  
**(!)** Обратите внимание, что операция извлечения по индексу `[]` относится  
к столбцам, но если выполняется срез, то операция относится к строкам.

Допускается также применение комбинаций перечисленных способов запросов  
и логический отбор строк (маскирование).

In [269]:
df = pd.DataFrame([[1, 10, 100],
                   [2, 20, 200],
                   [3, 30, 300],
                   [4, 40, 400]],
                   index=['a', 'b', 'c', 'd'],
                   columns=['A', 'B', 'C'])  
df

Unnamed: 0,A,B,C
a,1,10,100
b,2,20,200
c,3,30,300
d,4,40,400


In [274]:
c = 'A'

# 

r = df[c]
print(r)
print(type(r))

a    1
b    2
c    3
d    4
Name: A, dtype: int64
<class 'pandas.core.series.Series'>


In [275]:
r = df[['A']]
r

Unnamed: 0,A
a,1
b,2
c,3
d,4


In [276]:
r = df[['C','A']]
r

Unnamed: 0,C,A
a,100,1
b,200,2
c,300,3
d,400,4


In [277]:
r = df[1:4]
r

Unnamed: 0,A,B,C
b,2,20,200
c,3,30,300
d,4,40,400


In [278]:
r = df[:2]
r

Unnamed: 0,A,B,C
a,1,10,100
b,2,20,200


In [279]:
r = df.loc['a']
r

A      1
B     10
C    100
Name: a, dtype: int64

In [280]:
r = df.loc[['a']]
r

Unnamed: 0,A,B,C
a,1,10,100


In [281]:
r = df.loc[['a','c']]
r

Unnamed: 0,A,B,C
a,1,10,100
c,3,30,300


In [282]:
r = df.loc[['a', 'c'], ['C', 'A']]
r

Unnamed: 0,C,A
a,100,1
c,300,3


In [283]:
r = df.loc['a':'c', 'A':'B']
r

Unnamed: 0,A,B
a,1,10
b,2,20
c,3,30


In [284]:
r = df.loc['a':'c', ['A', 'B']]
r

Unnamed: 0,A,B
a,1,10
b,2,20
c,3,30


In [285]:
r = df.iloc[0]
r

A      1
B     10
C    100
Name: a, dtype: int64

In [286]:
r = df.iloc[[0]]
r

Unnamed: 0,A,B,C
a,1,10,100


In [287]:
r = df.iloc[[0, 2]]
r

Unnamed: 0,A,B,C
a,1,10,100
c,3,30,300


In [288]:
r = df.iloc[[0, 2], [1, 2]]
r

Unnamed: 0,B,C
a,10,100
c,30,300


In [289]:
r = df.iloc[:, [1,2]]
r

Unnamed: 0,B,C
a,10,100
b,20,200
c,30,300
d,40,400


In [290]:
r = df.at['a', 'A']
r

1

In [291]:
r = df.iat[1, 1]
r

20

In [292]:
df['A'] > 2

a    False
b    False
c     True
d     True
Name: A, dtype: bool

In [293]:
r = df[df['A'] > 2]
r

Unnamed: 0,A,B,C
c,3,30,300
d,4,40,400


[к началу раздела](#Объект-DataFrame)  
[к содержанию](#Содержание)

## Манипуляции с объектом `DataFrame`

* [Добавление новых столбцов](#Добавление-новых-столбцов-в-объект-DataFrame)
* [Переименование столбцов](#Переименование-столбцов-объекта-DataFrame)
* [Изменение порядка столбцов](#Изменение-порядка-столбцов-объекта-DataFrame)
* [Удаление столбцов](#Удаление-столбцов-объекта-DataFrame)
* [Изменение содержимого столбцов](#Изменение-содержимого-столбцов-объекта-DataFrame)  



* [Добавление новых строк](#Добавление-новых-строк-в-объект-DataFrame)
* [Переименование строк](#Переименование-строк-объекта-DataFrame)
* [Изменение порядка строк](#Изменение-порядка-строк-объекта-DataFrame)
* [Удаление строк](#Удаление-строк-объекта-DataFrame)
* [Изменение содержимого строк](#Изменение-содержимого-строк-объекта-DataFrame)

[к началу раздела](#Объект-DataFrame)  
[к содержанию](#Содержание)

### Добавление новых столбцов в объект `DataFrame` 

In [294]:
df = pd.DataFrame([[1, 10, 100],
                   [2, 20, 200],
                   [3, 30, 300]],
                   index=['a', 'b', 'c'],
                   columns=['A', 'B', 'C'])  
df

Unnamed: 0,A,B,C
a,1,10,100
b,2,20,200
c,3,30,300


In [295]:
x = pd.Series([11, 22, 33], index=['a', 'b', 'c'])

r = df.copy()
r['D'] = x  # добавление столбца в конец объекта DataFrame
r

Unnamed: 0,A,B,C,D
a,1,10,100,11
b,2,20,200,22
c,3,30,300,33


In [296]:
x = pd.Series([11, 22, 33], index=['a','b','c'])

r = df.copy()
r.insert(loc=1, column='D', value=x)
r

Unnamed: 0,A,D,B,C
a,1,11,10,100
b,2,22,20,200
c,3,33,30,300


In [298]:
df1 = df[['A','B']]
df1

Unnamed: 0,A,B
a,1,10
b,2,20
c,3,30


In [299]:
df2 = df[['B','C']]
df2

Unnamed: 0,B,C
a,10,100
b,20,200
c,30,300


In [300]:
df3 = df[['C','A']]
df3

Unnamed: 0,C,A
a,100,1
b,200,2
c,300,3


In [303]:
r = pd.concat([df1, df2, df3], axis=1)
r

Unnamed: 0,A,B,B.1,C,C.1,A.1
a,1,10,10,100,100,1
b,2,20,20,200,200,2
c,3,30,30,300,300,3


[к началу раздела](#Манипуляции-с-объектом-DataFrame)  
[к содержанию](#Содержание)

### Переименование столбцов объекта `DataFrame` 

In [308]:
df = pd.DataFrame([[1, 10, 100],
                   [2, 20, 200],
                   [3, 30, 300]],
                   index=['a', 'b', 'c'],
                   columns=['A', 'B', 'C']) 
df

Unnamed: 0,A,B,C
a,1,10,100
b,2,20,200
c,3,30,300


In [309]:
r = df.rename(columns={'A': 'D', 'B': 'E'})
r

Unnamed: 0,D,E,C
a,1,10,100
b,2,20,200
c,3,30,300


In [310]:
df.rename(columns={'A': 'B', 'B': 'C', 'C': 'A'}, inplace=True)
df

Unnamed: 0,B,C,A
a,1,10,100
b,2,20,200
c,3,30,300


[к началу раздела](#Манипуляции-с-объектом-DataFrame)  
[к содержанию](#Содержание)

### Изменение порядка столбцов объекта `DataFrame`

In [None]:
df = pd.DataFrame([[1, 10, 100],
                   [2, 20, 200],
                   [3, 30, 300]],
                   index=['a', 'b', 'c'],
                   columns=['A', 'B', 'C'])
df

In [312]:
df = df[['C','B','A']]
df

Unnamed: 0,C,B,A
a,10,1,100
b,20,2,200
c,30,3,300


[к началу раздела](#Манипуляции-с-объектом-DataFrame)  
[к содержанию](#Содержание)

### Удаление столбцов объекта `DataFrame`

In [313]:
# Манипуляции с объектом DataFrame. Удаление столбцов.
df = pd.DataFrame([[1, 10, 100, 1000], 
                   [2, 20, 200, 2000], 
                   [3, 30, 300, 3000]],
                   index=['a','b','c'],
                   columns=['A','B','C','D'])  
df

Unnamed: 0,A,B,C,D
a,1,10,100,1000
b,2,20,200,2000
c,3,30,300,3000


In [314]:
r = df.copy()
del(r['A'])
r

Unnamed: 0,B,C,D
a,10,100,1000
b,20,200,2000
c,30,300,3000


In [315]:
r = df.drop(['A','D'], axis=1)
# df.drop(['A','D'], axis=1), inplace=True)
r

Unnamed: 0,B,C
a,10,100
b,20,200
c,30,300


In [316]:
r = df.copy()
x = r.pop('A')
print(x)
r

a    1
b    2
c    3
Name: A, dtype: int64


Unnamed: 0,B,C,D
a,10,100,1000
b,20,200,2000
c,30,300,3000


[к началу раздела](#Манипуляции-с-объектом-DataFrame)  
[к содержанию](#Содержание)

### Изменение содержимого столбцов объекта `DataFrame`

In [None]:
df = pd.DataFrame([[1, 10, 100],
                   [2, 20, 200],
                   [3, 30, 300]],
                   index=['a','b','c'],
                   columns=['A','B','C'])  
df

In [None]:
x = pd.Series([-1, -2, -3], index=['a','b','c'])
r = df.copy()
r['A'] = x
r

In [None]:
r = df.copy()
r['A'] = 2*r['A']-1
r

In [None]:
r = df.copy()
r['A'] = r.A + r.B + r.C
r

[к началу раздела](#Манипуляции-с-объектом-DataFrame)  
[к содержанию](#Содержание)

### Добавление новых строк в объект `DataFrame`

In [317]:
# Добавление новых строк в объект DataFrame. Добавление одной строки с помощью свойства-индексатора loc[].

df = pd.DataFrame([[1, 10, 100],
                   [2, 20, 200]],
                   index=['a','b'],
                   columns=['A','B','C'])  
df

Unnamed: 0,A,B,C
a,1,10,100
b,2,20,200


In [318]:
df.loc['c'] = [3, 30, 300]
df

Unnamed: 0,A,B,C
a,1,10,100
b,2,20,200
c,3,30,300


In [319]:
df1 = pd.DataFrame([[1, 10, 100],
                    [2, 20, 200]],
                    index=['a', 'b'],
                    columns=['A', 'B', 'C'])  

df2 = pd.DataFrame([[3, 30, 300], 
                    [4, 40, 400]],
                    index=['c', 'd'],
                    columns=['A', 'B', 'C'])

r = df1.append(df2)
r

Unnamed: 0,A,B,C
a,1,10,100
b,2,20,200
c,3,30,300
d,4,40,400


In [320]:
df1 = pd.DataFrame([[1, 10, 100],
                    [2, 20, 200]],
                    index=['a', 'b'],
                    columns=['A', 'B', 'C'])  

df2 = pd.DataFrame([[3, 30, 300], 
                    [4, 40, 400]],
                    index=['c', 'd'],
                    columns=['B', 'C', 'D'])  # столбцы частично не совпадают

r = df1.append(df2)
r

Unnamed: 0,A,B,C,D
a,1.0,10,100,
b,2.0,20,200,
c,,3,30,300.0
d,,4,40,400.0


In [321]:
df1 = pd.DataFrame([[1, 10, 100],
                    [2, 20, 200]],
                    index=['a', 'b'],
                    columns=['A', 'B', 'C'])  

df2 = pd.DataFrame([[3, 30, 300], 
                    [4, 40, 400]],
                    index=['c', 'd'],
                    columns=['D', 'E', 'F'])  # столбцы полностью не совпадают

r = df1.append(df2)
r

Unnamed: 0,A,B,C,D,E,F
a,1.0,10.0,100.0,,,
b,2.0,20.0,200.0,,,
c,,,,3.0,30.0,300.0
d,,,,4.0,40.0,400.0


In [322]:
df1 = pd.DataFrame([[1, 10, 100],
                    [2, 20, 200]],
                    index=['a', 'b'],
                    columns=['A', 'B', 'C'])  

df2 = pd.DataFrame([[3, 30, 300], 
                    [4, 40, 400]],
                    index=['a', 'b'],
                    columns=['A', 'B', 'C'])

r = pd.concat([df1, df2])
r 

Unnamed: 0,A,B,C
a,1,10,100
b,2,20,200
a,3,30,300
b,4,40,400


In [323]:
df1 = pd.DataFrame([[1, 10, 100],
                    [2, 20, 200]],
                    index=['a', 'b'],
                    columns=['A', 'B', 'C'])  

df2 = pd.DataFrame([[3, 30, 300], 
                    [4, 40, 400]],
                    index=['a', 'b'],
                    columns=['A', 'B', 'C'])

r = pd.concat([df1, df2], axis=1)
r 

Unnamed: 0,A,B,C,A.1,B.1,C.1
a,1,10,100,3,30,300
b,2,20,200,4,40,400


In [None]:
df1 = pd.DataFrame([[1, 10, 100],
                    [2, 20, 200]],
                    index=['a', 'b'],
                    columns=['A', 'B', 'C'])  

df2 = pd.DataFrame([[3, 30, 300], 
                    [4, 40, 400]],
                    index=['c', 'd'],
                    columns=['A', 'B', 'C'])

r = pd.concat([df1, df2], axis=0)
r 

In [324]:
df1 = pd.DataFrame([[1, 10, 100],
                    [2, 20, 200]],
                    index=['a', 'b'],
                    columns=['A', 'B', 'C'])  

df2 = pd.DataFrame([[3, 30, 300], 
                    [4, 40, 400]],
                    index=['c', 'd'],
                    columns=['A', 'B', 'C'])

r = pd.concat([df1, df2], axis=1)
r 

Unnamed: 0,A,B,C,A.1,B.1,C.1
a,1.0,10.0,100.0,,,
b,2.0,20.0,200.0,,,
c,,,,3.0,30.0,300.0
d,,,,4.0,40.0,400.0


[к началу раздела](#Манипуляции-с-объектом-DataFrame)  
[к содержанию](#Содержание)

### Переименование строк объекта `DataFrame`

In [328]:
df = pd.DataFrame([[1, 10, 100],
                   [2, 20, 200],
                   [3, 30, 300],
                   [4, 40, 400]],
                   index=['a', 'b', 'c', 'd'],
                   columns=['A', 'B', 'C'])  

df

Unnamed: 0,A,B,C
a,1,10,100
b,2,20,200
c,3,30,300
d,4,40,400


In [326]:
df.index = [0, 1, 2, 3]
df

Unnamed: 0,A,B,C
0,1,10,100
1,2,20,200
2,3,30,300
3,4,40,400


[к началу раздела](#Манипуляции-с-объектом-DataFrame)  
[к содержанию](#Содержание)

### Изменение порядка строк объекта `DataFrame`

In [335]:
# Изменение порядка строк объекта.

df = pd.DataFrame([[1, 10, 100], 
                   [2, 20, 200], 
                   [3, 30, 300], 
                   [4, 40, 400]],
                   index=['b', 'a', 'd', 'c'],
                   columns=['A', 'B', 'C'])  
df

Unnamed: 0,A,B,C
b,1,10,100
a,2,20,200
d,3,30,300
c,4,40,400


In [337]:
new_order = ['a', 'b', 'c', 'd']
r = df.loc[new_order]
r

Unnamed: 0,A,B,C
a,2,20,200
b,1,10,100
c,4,40,400
d,3,30,300


In [338]:
r = df.sort_index(axis=0, ascending=True)
r

Unnamed: 0,A,B,C
a,2,20,200
b,1,10,100
c,4,40,400
d,3,30,300


In [None]:
r = df.sort_index(axis=0, ascending=False)
r

In [339]:
r = df.sort_values(by='A', axis=0)
r

Unnamed: 0,A,B,C
b,1,10,100
a,2,20,200
d,3,30,300
c,4,40,400


In [340]:
r = df.sort_values(by='A', axis=0, ascending=False)
r

Unnamed: 0,A,B,C
c,4,40,400
d,3,30,300
a,2,20,200
b,1,10,100


[к началу раздела](#Манипуляции-с-объектом-DataFrame)  
[к содержанию](#Содержание)

### Удаление строк объекта `DataFrame`

In [341]:
df = pd.DataFrame([[1, 10, 100],
                   [2, 20, 200],
                   [3, 30, 300],
                   [4, 40, 400]],
                   index=['a','b','c','d'],
                   columns=['A','B','C'])  
df

Unnamed: 0,A,B,C
a,1,10,100
b,2,20,200
c,3,30,300
d,4,40,400


In [342]:
r = df.drop(['b', 'd'])
r

Unnamed: 0,A,B,C
a,1,10,100
c,3,30,300


In [None]:
r = df.copy()
r.drop(['b', 'd'], inplace=True)
r

In [343]:
r = df[(df['A'] >=2) & (df['A'] <= 3)]

r

Unnamed: 0,A,B,C
b,2,20,200
c,3,30,300


[к началу раздела](#Манипуляции-с-объектом-DataFrame)  
[к содержанию](#Содержание)

### Изменение содержимого строк объекта `DataFrame` 

In [344]:
df = pd.DataFrame([[1, 10, 100], 
                   [2, 20, 200],
                   [3, 30, 300]], 
                  index=['a', 'b', 'c'], 
                  columns=['A', 'B', 'C'])  
df

Unnamed: 0,A,B,C
a,1,10,100
b,2,20,200
c,3,30,300


In [345]:
r = df.copy()
r.loc['b'] = [0, 0, 0]
r

Unnamed: 0,A,B,C
a,1,10,100
b,0,0,0
c,3,30,300


In [346]:
r = df.copy()
r.loc['b'] = r.loc['a'] + r.loc['c']
r

Unnamed: 0,A,B,C
a,1,10,100
b,4,40,400
c,3,30,300


In [347]:
r = df.copy()
r.loc['a':'b', 'A'] = r.loc['a':'b', 'B'] + r.loc['a':'b', 'C']
r

Unnamed: 0,A,B,C
a,110,10,100
b,220,20,200
c,3,30,300


[к началу раздела](#Манипуляции-с-объектом-DataFrame)  
[к содержанию](#Содержание)

### Вычисления с объектом `DataFrame`

In [349]:
# Вычисления с объектом DataFrame.

df = pd.DataFrame([[1, 10], 
                   [2, 20]],
                   index=['a', 'b'],
                   columns=['A', 'B']) 
df

Unnamed: 0,A,B
a,1,10
b,2,20


In [350]:
r = 2 * df + 1
r

Unnamed: 0,A,B
a,3,21
b,5,41


In [351]:
df1 = pd.DataFrame([[1, 10], 
                    [2, 20]],
                    index=['a', 'b'],
                    columns=['A', 'B'])

df2 = pd.DataFrame([[3, 30], 
                    [4, 40]],
                    index=['b', 'a'],
                    columns=['B', 'A'])

r = df1 + df2
r

Unnamed: 0,A,B
a,41,14
b,32,23


In [352]:
df1 = pd.DataFrame([[1, 10], 
                    [2, 20]],
                    index=['a', 'b'],
                    columns=['A', 'B'])

df2 = pd.DataFrame([[3, 30], 
                    [4, 40]],
                    index=['b', 'c'],
                    columns=['B', 'A'])

r = df1 + df2
r

Unnamed: 0,A,B
a,,
b,32.0,23.0
c,,


In [353]:
r = df1.add(df2, fill_value=0)
r

Unnamed: 0,A,B
a,1.0,10.0
b,32.0,23.0
c,40.0,4.0


[к началу раздела](#Манипуляции-с-объектом-DataFrame)  
[к содержанию](#Содержание)

---
## Сохранение данных в файле, чтение данных из файла

Сохранение и чтение данных в/из файла рассмотрим на примере работы с текстовыми *csv-файлами*.

Для чтения данных из csv-файлов в библиотеке Pandas имеется функция `pd.read_csv()`.

Для сохранения данных в объектах `Series` и `DataFrame` имеется метод `to_csv()`.

In [355]:
df = pd.read_csv('data/data1.txt', 
                 encoding='cp1251', 
                 sep='\t', 
                 parse_dates=['Date (MM.DD.YY)'])

df.head()

Unnamed: 0,Ticker,Date (MM.DD.YY),Close,High,Low,DayVal,DayVol
0,Индекс S&P/RUIX-OIL,2001-01-01,935.93,939.48,935.93,62100,3000
1,Инд. текущих котировок,2001-03-02,923.02,933.56,914.92,59000,100000
2,РТС - Сводный,2001-04-05,1391.5,1405.4,1383.9,52336,100000
3,Транснефть пр.,2005-02-02,1910.0,1910.0,1820.0,1923280,1018
4,Сбербанк,2005-05-01,2180.0,2180.0,2180.0,545000,250


In [356]:
df = pd.read_csv('data/data2.txt',
                 encoding='cp1251',
                 sep=';', 
                 parse_dates=['Date (DD.MM.YY)'],
                 dayfirst=True,
                 decimal=',')

df.head()

Unnamed: 0,Ticker,Date (DD.MM.YY),Close,High,Low,DayVal,DayVol
0,НЛМК,2005-06-09,1.95,1.95,1.95,48625,25000
1,Акрон,2002-05-04,27.7,27.7,27.5,41450,1500
2,Силовые машины,2003-02-03,0.12,0.12,0.12,41250,350000
3,UTair,2004-04-08,0.27,0.28,0.27,30150,110000
4,Зейская ГЭС,2006-06-05,0.27,0.27,0.27,26700,100000


In [357]:
df = pd.read_csv('data/data3.txt', 
                 encoding='cp1251', 
                 sep=',',
                 parse_dates=['Date (DD.MM.YY)'], 
                 dayfirst=True,
                 quotechar = "'")

df.head()

Unnamed: 0,Ticker,Date (DD.MM.YY),Close,High,Low,DayVal,DayVol
0,Транснефть,2004-08-06,1910.0,1910.0,1820.0,1923280.0,1018.0
1,СургутНГ,2001-08-07,0.87,0.88,0.87,1310000.0,1500000.0
2,ИРКУТ,2006-08-04,1.21,1.22,1.19,958000.0,800000.0
3,ОГК-5,2001-04-05,0.08,0.08,0.08,944541.0,11045520.0
4,НК Роснефть,2004-09-03,7.92,8.02,7.9,555700.0,70000.0


In [358]:
df = pd.read_csv('data/data4.txt', 
                 encoding='cp1251', 
                 sep=' ',
                 parse_dates=['Date (YY.MM.DD)'], 
                 quotechar = "'")

df.head()

Unnamed: 0,Ticker,Date (YY.MM.DD),Close,High,Low,DayVal,DayVol
0,НорНикель ГМК,2003-01-03,126.4,126.6,125.4,8961000.0,71000.0
1,РАО ЕЭС,2004-02-05,0.73,0.74,0.73,6135900.0,8300000.0
2,Транснефть пр.,2005-02-02,1910.0,1910.0,1820.0,1923280.0,1018.0
3,СургутНГ пр.,2005-01-03,0.87,0.88,0.87,1310000.0,1500000.0
4,ЦентрТелеком,2003-02-02,0.59,0.59,0.59,178250.0,300000.0


In [359]:
df = pd.read_csv('data/data4.txt', 
                 encoding='cp1251', 
                 sep=' ',
                 dtype={'Date (YY.MM.DD)': np.str_}, 
                 quotechar = "'")

df.head()

Unnamed: 0,Ticker,Date (YY.MM.DD),Close,High,Low,DayVal,DayVol
0,НорНикель ГМК,01.03.03,126.4,126.6,125.4,8961000.0,71000.0
1,РАО ЕЭС,02.05.04,0.73,0.74,0.73,6135900.0,8300000.0
2,Транснефть пр.,02.02.05,1910.0,1910.0,1820.0,1923280.0,1018.0
3,СургутНГ пр.,01.03.05,0.87,0.88,0.87,1310000.0,1500000.0
4,ЦентрТелеком,02.02.03,0.59,0.59,0.59,178250.0,300000.0


In [360]:
import datetime

datetime.datetime.strptime('01.03.03', '%y.%m.%d')

datetime.datetime(2001, 3, 3, 0, 0)

In [361]:
df.columns = ['Ticker', 'Date', 'Close', 'High', 'Low', 'DayVal', 'DayVol']
df.head()

Unnamed: 0,Ticker,Date,Close,High,Low,DayVal,DayVol
0,НорНикель ГМК,01.03.03,126.4,126.6,125.4,8961000.0,71000.0
1,РАО ЕЭС,02.05.04,0.73,0.74,0.73,6135900.0,8300000.0
2,Транснефть пр.,02.02.05,1910.0,1910.0,1820.0,1923280.0,1018.0
3,СургутНГ пр.,01.03.05,0.87,0.88,0.87,1310000.0,1500000.0
4,ЦентрТелеком,02.02.03,0.59,0.59,0.59,178250.0,300000.0


In [362]:
df.Date = df['Date'].apply(lambda v: datetime.datetime.strptime(v, '%y.%m.%d'))
df.head()

Unnamed: 0,Ticker,Date,Close,High,Low,DayVal,DayVol
0,НорНикель ГМК,2001-03-03,126.4,126.6,125.4,8961000.0,71000.0
1,РАО ЕЭС,2002-05-04,0.73,0.74,0.73,6135900.0,8300000.0
2,Транснефть пр.,2002-02-05,1910.0,1910.0,1820.0,1923280.0,1018.0
3,СургутНГ пр.,2001-03-05,0.87,0.88,0.87,1310000.0,1500000.0
4,ЦентрТелеком,2002-02-03,0.59,0.59,0.59,178250.0,300000.0


[к содержанию](#Содержание)