# Курс "Программирование на языке Python. Уровень 4. Анализ и визуализация данных на языке Python. Библиотеки numpy, pandas, matplotlib"

##  Библиотека pandas



In [1]:
import pandas as pd
import numpy as np

In [2]:
data = {
    'apples': [3, 2, 0, 1], 
    'oranges': [0, 3, 7, 2],
    'bananas': [4, 5, 3, 1],
    'kiwi': [8, 0, 0, 2]
}
names = ['Carl', 'Julia', 'Alex', 'Leela']
purchases = pd.DataFrame(data, index=names)
purchases

Unnamed: 0,apples,oranges,bananas,kiwi
Carl,3,0,4,8
Julia,2,3,5,0
Alex,0,7,3,0
Leela,1,2,1,2


DataFrame можно транспонировать:

In [4]:
new_p = purchases.T ## возвращает новый объект
new_p


Unnamed: 0,Carl,Julia,Alex,Leela
apples,3,2,0,1
oranges,0,3,7,2
bananas,4,5,3,1
kiwi,8,0,0,2


In [5]:
purchases

Unnamed: 0,apples,oranges,bananas,kiwi
Carl,3,0,4,8
Julia,2,3,5,0
Alex,0,7,3,0
Leela,1,2,1,2


Изменять значение в DataFrame можно, обращаясь к его элементам через конструкции в квадратных скобках, при этом в первой скобке мы указываем название поля, во второй - значение индекса записи, которую мы хотим изменить. Также можно пользоваться методом ```.at()```.

In [5]:
purchases

Unnamed: 0,apples,oranges,bananas,kiwi
Carl,3,0,4,8
Julia,2,3,5,0
Alex,0,7,3,0
Leela,1,2,1,2


In [10]:
# эти выражения эквивалентны
## Сначала столбец, потом строка
purchases['apples']['Carl'] = 111

## !!! Здесь наоборот
## Сначала строка, потом столбец
purchases.at['Carl', 'apples'] = 222

In [9]:
purchases

Unnamed: 0,apples,oranges,bananas,kiwi
Carl,111,0,4,8
Julia,2,3,5,0
Alex,0,7,3,0
Leela,1,2,1,2


In [11]:
# Изменение значения по индексу(строки, столбцы)
purchases.iat[0, 1] = 99
purchases

Unnamed: 0,apples,oranges,bananas,kiwi
Carl,222,99,4,8
Julia,2,3,5,0
Alex,0,7,3,0
Leela,1,2,1,2


In [12]:
purchases.iloc[1, :-1] = 999
purchases

Unnamed: 0,apples,oranges,bananas,kiwi
Carl,222,99,4,8
Julia,999,999,999,0
Alex,0,7,3,0
Leela,1,2,1,2


In [14]:
print(purchases.columns)
purchases['Carl']['apples'] = 100 # так уже не получится, возникнет ошибка

Index(['apples', 'oranges', 'bananas', 'kiwi'], dtype='object')


KeyError: 'Carl'

In [13]:
purchases.T['Carl']['apples'] = 9999 # а вот так можно (но не нужно)
purchases

Unnamed: 0,apples,oranges,bananas,kiwi
Carl,9999,99,4,8
Julia,999,999,999,0
Alex,0,7,3,0
Leela,1,2,1,2


"Булев индекс", или поиск по маске - работает в Pandas аналогично numpy.

In [14]:
mask = (purchases['apples'] > 5)
print(mask)
print(type(mask))

Carl      True
Julia     True
Alex     False
Leela    False
Name: apples, dtype: bool
<class 'pandas.core.series.Series'>


При поиске по маске pandas возвращает подходящие записи (строки) в виде DataFrame.

In [15]:
purchases[purchases['apples'] > 5]

Unnamed: 0,apples,oranges,bananas,kiwi
Carl,9999,99,4,8
Julia,999,999,999,0


Поиск по маске также работает и на запись, но без указания поля при этом будут изменены значения всех полей, т.к. векторизация:

In [16]:
purchases[purchases['apples'] > 5] = 10
purchases

Unnamed: 0,apples,oranges,bananas,kiwi
Carl,10,10,10,10
Julia,10,10,10,10
Alex,0,7,3,0
Leela,1,2,1,2


__ВОПРОС__: где нужно указать конкретное поле, чтобы операция присваивания сработала корректно?

In [17]:
### 'apples' -> [index] -> Bool array
purchases['apples'][purchases['apples'] > 5] = 99
purchases

Unnamed: 0,apples,oranges,bananas,kiwi
Carl,99,10,10,10
Julia,99,10,10,10
Alex,0,7,3,0
Leela,1,2,1,2


In [19]:
purchases.apples[purchases.apples > 5] = 300
purchases

Unnamed: 0,apples,oranges,bananas,kiwi
Carl,300,10,10,10
Julia,300,10,10,10
Alex,0,7,3,0
Leela,1,2,1,2


In [20]:
purchases['limon'] = purchases.apples - purchases.bananas
purchases

Unnamed: 0,apples,oranges,bananas,kiwi,limon
Carl,300,10,10,10,290
Julia,300,10,10,10,290
Alex,0,7,3,0,-3
Leela,1,2,1,2,0


In [21]:
# Копия датафрейма
df = purchases.copy()
df

Unnamed: 0,apples,oranges,bananas,kiwi,limon
Carl,300,10,10,10,290
Julia,300,10,10,10,290
Alex,0,7,3,0,-3
Leela,1,2,1,2,0


In [22]:
## Модуль для значений
df.abs() 

Unnamed: 0,apples,oranges,bananas,kiwi,limon
Carl,300,10,10,10,290
Julia,300,10,10,10,290
Alex,0,7,3,0,3
Leela,1,2,1,2,0


In [24]:
df

Unnamed: 0,apples,oranges,bananas,kiwi,limon
Carl,300,10,10,10,290
Julia,300,10,10,10,290
Alex,0,7,3,0,-3
Leela,1,2,1,2,0


In [25]:
# Добавляем к каждому элементу оси(строки) по указанному значению
df.add([4, 5, 6, 7], axis='index')

Unnamed: 0,apples,oranges,bananas,kiwi,limon
Carl,304,14,14,14,294
Julia,305,15,15,15,295
Alex,6,13,9,6,3
Leela,8,9,8,9,7


In [26]:
# Добавляем к каждому элементу оси(столбцы) по указанному значению
df.add([10, 100, 1_000, 10_000, 100_000], axis='columns')

Unnamed: 0,apples,oranges,bananas,kiwi,limon
Carl,310,110,1010,10010,100290
Julia,310,110,1010,10010,100290
Alex,10,107,1003,10000,99997
Leela,11,102,1001,10002,100000


In [27]:
df

Unnamed: 0,apples,oranges,bananas,kiwi,limon
Carl,300,10,10,10,290
Julia,300,10,10,10,290
Alex,0,7,3,0,-3
Leela,1,2,1,2,0


In [28]:
df.count()

apples     4
oranges    4
bananas    4
kiwi       4
limon      4
dtype: int64

In [29]:
# Кумулятивный минимум. Двигаемся по строке, сравнивая значения двух соседних колонок
df.cummin(axis=1) 

Unnamed: 0,apples,oranges,bananas,kiwi,limon
Carl,300,10,10,10,10
Julia,300,10,10,10,10
Alex,0,0,0,0,-3
Leela,1,1,1,1,0


In [30]:
# Кумулятивный максимум. Ось по умолчанию(axis=0) - это строки
df.cummax() 

Unnamed: 0,apples,oranges,bananas,kiwi,limon
Carl,300,10,10,10,290
Julia,300,10,10,10,290
Alex,300,10,10,10,290
Leela,300,10,10,10,290


In [31]:
df.cummax(axis=1)

Unnamed: 0,apples,oranges,bananas,kiwi,limon
Carl,300,300,300,300,300
Julia,300,300,300,300,300
Alex,0,7,7,7,7
Leela,1,2,2,2,2


In [32]:
df

Unnamed: 0,apples,oranges,bananas,kiwi,limon
Carl,300,10,10,10,290
Julia,300,10,10,10,290
Alex,0,7,3,0,-3
Leela,1,2,1,2,0


In [33]:
new_df = df.where(df['bananas'] > 5, other=df.apples, axis=0)
new_df

Unnamed: 0,apples,oranges,bananas,kiwi,limon
Carl,300,10,10,10,290
Julia,300,10,10,10,290
Alex,0,0,0,0,0
Leela,1,1,1,1,1


In [29]:
df['bananas'] > 5

Carl      True
Julia     True
Alex     False
Leela    False
Name: bananas, dtype: bool

In [34]:
df

Unnamed: 0,apples,oranges,bananas,kiwi,limon
Carl,300,10,10,10,290
Julia,300,10,10,10,290
Alex,0,7,3,0,-3
Leela,1,2,1,2,0


In [35]:
df.loc[:, 'apples':'bananas'].where(df['bananas'] > 5, other=df.bananas, axis=0)

Unnamed: 0,apples,oranges,bananas
Carl,300,10,10
Julia,300,10,10
Alex,3,3,3
Leela,1,1,1


### Другие манипуляции с DataFrame

Узнать, есть ли в DataFrame элемент с нужным индексом, можно обратившись к свойству ```.index``` DataFrame как к словарю:

In [36]:
'Eric' in purchases.index

False

In [37]:
'Carl' in purchases.index

True

Узнать, есть ли столбец в DataFrame можно аналогичным образом:

In [38]:
'apples' in purchases

True

In [39]:
'oranges' in purchases

True

Изменить порядок записей можно функцией ```.reindex()```:

In [42]:
purchases

Unnamed: 0,apples,oranges,bananas,kiwi,limon
Carl,99,10,10,10,89
Julia,99,10,10,10,89
Alex,0,7,3,0,-3
Leela,1,2,1,2,0


In [41]:
# Меняем порядок расположения индексов
leela_first = purchases.reindex(index=['Leela', 'Julia', 'Carl', 'Alex'])
leela_first

Unnamed: 0,apples,oranges,bananas,kiwi,limon
Leela,1,2,1,2,0
Julia,300,10,10,10,290
Carl,300,10,10,10,290
Alex,0,7,3,0,-3


In [42]:
# Используем только две строчки
only_two = purchases.reindex(index=['Leela', 'Julia'])
only_two

Unnamed: 0,apples,oranges,bananas,kiwi,limon
Leela,1,2,1,2,0
Julia,300,10,10,10,290


In [43]:
# Убрали Аlex'а, добавили Eric'a
new_eric = purchases.reindex(index=['Leela', 'Julia', 'Carl', 'Eric'])
new_eric

Unnamed: 0,apples,oranges,bananas,kiwi,limon
Leela,1.0,2.0,1.0,2.0,0.0
Julia,300.0,10.0,10.0,10.0,290.0
Carl,300.0,10.0,10.0,10.0,290.0
Eric,,,,,


Порядок колонок меняется той же функцией, но вызванной с параметром ```columns=[]```:

In [44]:
bananas_first  = purchases.reindex(columns=['bananas', 'apples','oranges','limon','kiwi'])
bananas_first

Unnamed: 0,bananas,apples,oranges,limon,kiwi
Carl,10,300,10,290,10
Julia,10,300,10,290,10
Alex,3,0,7,-3,0
Leela,1,1,2,0,2


In [45]:
only_three = purchases.reindex(columns=['bananas', 'apples', 'sliva'])
only_three

Unnamed: 0,bananas,apples,sliva
Carl,10,300,
Julia,10,300,
Alex,3,0,
Leela,1,1,


In [46]:
# at -> Сначала строки, потом столбцы, обычно наоборот
bananas_first.at['Carl', 'kiwi'] = 4
bananas_first

Unnamed: 0,bananas,apples,oranges,limon,kiwi
Carl,10,300,10,290,4
Julia,10,300,10,290,10
Alex,3,0,7,-3,0
Leela,1,1,2,0,2


In [47]:
second  = purchases.reindex(columns=['bananas', 'apples','oranges'])
second

Unnamed: 0,bananas,apples,oranges
Carl,10,300,10
Julia,10,300,10
Alex,3,0,7
Leela,1,1,2


In [49]:
purchases

Unnamed: 0,apples,oranges,bananas,kiwi,limon
Carl,300,10,10,10,290
Julia,300,10,10,10,290
Alex,0,7,3,0,-3
Leela,1,2,1,2,0


In [50]:
third = purchases.reindex(columns=purchases.columns[2:5])
third

Unnamed: 0,bananas,kiwi,limon
Carl,10,10,290
Julia,10,10,290
Alex,3,0,-3
Leela,1,2,0


In [51]:
whos

Variable        Type         Data/Info
--------------------------------------
bananas_first   DataFrame           bananas  apples  o<...>  1        2      0     2
data            dict         n=4
df              DataFrame           apples  oranges  b<...>  2        1     2      0
leela_first     DataFrame           apples  oranges  b<...>  7        3     0     -3
mask            Series       Carl      True\nJulia    <...>Name: apples, dtype: bool
names           list         n=4
new_df          DataFrame           apples  oranges  b<...>  1        1     1      1
new_eric        DataFrame           apples  oranges  b<...>NaN      NaN   NaN    NaN
new_p           DataFrame             Carl  Julia  Ale<...>   10     10     0      2
np              module       <module 'numpy' from 'C:\<...>ges\\numpy\\__init__.py'>
only_three      DataFrame           bananas  apples  s<...>a        1       1    NaN
only_two        DataFrame           apples  oranges  b<...> 10       10    10    290
pd    

In [52]:
del third, second

In [53]:
import gc
# Собираем удаленные объекты и очищает память
gc.collect()

0