## Анализ и визуализация данных на языке Python

###  Библиотека pandas



In [1]:
import pandas as pd
import numpy as np
from IPython.display import display
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"
np.set_printoptions(legacy="1.25")

In [2]:
data = {
    'apples': [3, 2, 0, 1],
    'oranges': [0, 3, 7, 2],
    'bananas': [4, 5, 3, 1],
    'kiwi': [8, 0, 0, 2]
}
names = ['Carl', 'Julia', 'Alex', 'Leela']
purchases = pd.DataFrame(data, index=names)
purchases

Unnamed: 0,apples,oranges,bananas,kiwi
Carl,3,0,4,8
Julia,2,3,5,0
Alex,0,7,3,0
Leela,1,2,1,2


DataFrame можно транспонировать:

In [3]:
## возвращает новый объект
new_p = purchases.T
new_p

Unnamed: 0,Carl,Julia,Alex,Leela
apples,3,2,0,1
oranges,0,3,7,2
bananas,4,5,3,1
kiwi,8,0,0,2


In [4]:
purchases

Unnamed: 0,apples,oranges,bananas,kiwi
Carl,3,0,4,8
Julia,2,3,5,0
Alex,0,7,3,0
Leela,1,2,1,2


Изменять значение в DataFrame можно, обращаясь к его элементам через конструкции в квадратных скобках, при этом в первой скобке мы указываем название поля, во второй - значение индекса записи, которую мы хотим изменить. Также можно пользоваться методом ```.at()```.

In [5]:
purchases

Unnamed: 0,apples,oranges,bananas,kiwi
Carl,3,0,4,8
Julia,2,3,5,0
Alex,0,7,3,0
Leela,1,2,1,2


In [6]:
# эти выражения эквивалентны
## Сначала столбец, потом строка
# purchases['apples']["Alex"] = 111  # пока работает, но в версии 3.0 отменят
# С учетом изменений в 3.0
purchases.loc["Alex", 'apples'] = 111

## !!! Здесь наоборот
## Сначала строка, потом столбец
purchases.at['Carl', 'apples'] = 222

In [7]:
purchases

Unnamed: 0,apples,oranges,bananas,kiwi
Carl,222,0,4,8
Julia,2,3,5,0
Alex,111,7,3,0
Leela,1,2,1,2


In [8]:
# Изменение значения по индексу(строки, столбцы)
purchases.iat[0, 1] = 99
purchases

Unnamed: 0,apples,oranges,bananas,kiwi
Carl,222,99,4,8
Julia,2,3,5,0
Alex,111,7,3,0
Leela,1,2,1,2


In [9]:
purchases.iloc[1, :-1] = 999
purchases

Unnamed: 0,apples,oranges,bananas,kiwi
Carl,222,99,4,8
Julia,999,999,999,0
Alex,111,7,3,0
Leela,1,2,1,2


In [10]:
print(purchases.index)
print(purchases.columns)
# purchases['Carl']['apples'] = 100 # так уже не получится, возникнет ошибка

Index(['Carl', 'Julia', 'Alex', 'Leela'], dtype='object')
Index(['apples', 'oranges', 'bananas', 'kiwi'], dtype='object')


In [11]:
# а вот так можно (но не нужно)
purchases.T['Carl']['apples'] = 9999
purchases

Unnamed: 0,apples,oranges,bananas,kiwi
Carl,9999,99,4,8
Julia,999,999,999,0
Alex,111,7,3,0
Leela,1,2,1,2


"Булев индекс"(поиск по маске) - в _pandas_ работает также, как и в _numpy_.

In [12]:
mask = (purchases['apples'] > 5)
print(mask)
print(type(mask))

Carl      True
Julia     True
Alex      True
Leela    False
Name: apples, dtype: bool
<class 'pandas.core.series.Series'>


При поиске по маске pandas возвращает подходящие записи (строки) в виде DataFrame.

In [13]:
purchases[purchases['apples'] > 5]

Unnamed: 0,apples,oranges,bananas,kiwi
Carl,9999,99,4,8
Julia,999,999,999,0
Alex,111,7,3,0


Поиск по маске также работает и на запись, но без указания поля при этом будут изменены значения всех полей, т.к. векторизация:

In [14]:
purchases[purchases['apples'] > 5] = 10
purchases

Unnamed: 0,apples,oranges,bananas,kiwi
Carl,10,10,10,10
Julia,10,10,10,10
Alex,10,10,10,10
Leela,1,2,1,2


__ВОПРОС__: где нужно указать конкретное поле, чтобы операция присваивания сработала корректно?

In [15]:
### 'apples' -> [index] -> Bool array = value
purchases['apples'][purchases['apples'] > 5] = 99
purchases

You are setting values through chained assignment. Currently this works in certain cases, but when using Copy-on-Write (which will become the default behaviour in pandas 3.0) this will never work to update the original DataFrame or Series, because the intermediate object on which we are setting values will behave as a copy.
A typical example is when you are setting values in a column of a DataFrame, like:

df["col"][row_indexer] = value

Use `df.loc[row_indexer, "col"] = values` instead, to perform the assignment in a single step and ensure this keeps updating the original `df`.

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy

  purchases['apples'][purchases['apples'] > 5] = 99


Unnamed: 0,apples,oranges,bananas,kiwi
Carl,99,10,10,10
Julia,99,10,10,10
Alex,99,10,10,10
Leela,1,2,1,2


In [16]:
purchases.apples[purchases.apples > 5] = 300
purchases

You are setting values through chained assignment. Currently this works in certain cases, but when using Copy-on-Write (which will become the default behaviour in pandas 3.0) this will never work to update the original DataFrame or Series, because the intermediate object on which we are setting values will behave as a copy.
A typical example is when you are setting values in a column of a DataFrame, like:

df["col"][row_indexer] = value

Use `df.loc[row_indexer, "col"] = values` instead, to perform the assignment in a single step and ensure this keeps updating the original `df`.

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy

  purchases.apples[purchases.apples > 5] = 300


Unnamed: 0,apples,oranges,bananas,kiwi
Carl,300,10,10,10
Julia,300,10,10,10
Alex,300,10,10,10
Leela,1,2,1,2


In [17]:
purchases['limon'] = purchases.apples - purchases.bananas
purchases

Unnamed: 0,apples,oranges,bananas,kiwi,limon
Carl,300,10,10,10,290
Julia,300,10,10,10,290
Alex,300,10,10,10,290
Leela,1,2,1,2,0


### Другие манипуляции с DataFrame

Узнать, есть ли в DataFrame элемент с нужным индексом, можно обратившись к свойству ```.index``` DataFrame как к словарю:

In [18]:
'Eric' in purchases.index

False

In [19]:
'Carl' in purchases.index

True

Узнать, есть ли столбец в DataFrame можно аналогичным образом:

In [20]:
'apples' in purchases # purchases.columns

True

In [21]:
'oranges' in purchases

True

Изменить порядок записей можно функцией ```.reindex()```:

In [22]:
purchases

Unnamed: 0,apples,oranges,bananas,kiwi,limon
Carl,300,10,10,10,290
Julia,300,10,10,10,290
Alex,300,10,10,10,290
Leela,1,2,1,2,0


In [23]:
purchases
# Меняем порядок расположения индексов
leela_first = purchases.reindex(
    index=['Leela', 'Julia', 'Carl', 'Alex']
)
leela_first

Unnamed: 0,apples,oranges,bananas,kiwi,limon
Carl,300,10,10,10,290
Julia,300,10,10,10,290
Alex,300,10,10,10,290
Leela,1,2,1,2,0


Unnamed: 0,apples,oranges,bananas,kiwi,limon
Leela,1,2,1,2,0
Julia,300,10,10,10,290
Carl,300,10,10,10,290
Alex,300,10,10,10,290


In [24]:
# Используем только две строчки
only_two = purchases.reindex(index=['Leela', 'Julia'])
only_two

Unnamed: 0,apples,oranges,bananas,kiwi,limon
Leela,1,2,1,2,0
Julia,300,10,10,10,290


In [25]:
# Убрали Аlex'а, добавили Eric'a
new_eric = purchases.reindex(
    index=['Leela', 'Julia', 'Carl', 'Eric']
)
new_eric

Unnamed: 0,apples,oranges,bananas,kiwi,limon
Leela,1.0,2.0,1.0,2.0,0.0
Julia,300.0,10.0,10.0,10.0,290.0
Carl,300.0,10.0,10.0,10.0,290.0
Eric,,,,,


Порядок колонок меняется той же функцией, но вызванной с параметром ```columns=[]```:

In [26]:
bananas_first  = purchases.reindex(
    columns=['bananas', 'apples','oranges','limon','kiwi']
)
bananas_first

Unnamed: 0,bananas,apples,oranges,limon,kiwi
Carl,10,300,10,290,10
Julia,10,300,10,290,10
Alex,10,300,10,290,10
Leela,1,1,2,0,2


In [27]:
only_three = purchases.reindex(
    columns=['bananas', 'apples', 'plum']
)
only_three

Unnamed: 0,bananas,apples,plum
Carl,10,300,
Julia,10,300,
Alex,10,300,
Leela,1,1,


In [28]:
# at -> Сначала строки, потом столбцы, обычно наоборот
bananas_first.at['Carl', 'kiwi'] = 4
bananas_first

Unnamed: 0,bananas,apples,oranges,limon,kiwi
Carl,10,300,10,290,4
Julia,10,300,10,290,10
Alex,10,300,10,290,10
Leela,1,1,2,0,2


In [29]:
second  = purchases.reindex(
    columns=['bananas', 'apples', 'oranges']
)
second

Unnamed: 0,bananas,apples,oranges
Carl,10,300,10
Julia,10,300,10
Alex,10,300,10
Leela,1,1,2


In [30]:
purchases

Unnamed: 0,apples,oranges,bananas,kiwi,limon
Carl,300,10,10,10,290
Julia,300,10,10,10,290
Alex,300,10,10,10,290
Leela,1,2,1,2,0


In [31]:
purchases.columns
third = purchases.reindex(
    columns=purchases.columns[2:5]
)
third

Index(['apples', 'oranges', 'bananas', 'kiwi', 'limon'], dtype='object')

Unnamed: 0,bananas,kiwi,limon
Carl,10,10,290
Julia,10,10,290
Alex,10,10,290
Leela,1,2,0
