## Анализ и визуализация данных на языке Python

###  Библиотека pandas


In [1]:
import pandas as pd
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

In [2]:
import numpy as np

In [3]:
pd.__version__
np.__version__

'2.2.2'

'2.0.2'

In [5]:
!pip install faker

Collecting faker
  Downloading faker-37.3.0-py3-none-any.whl.metadata (15 kB)
Downloading faker-37.3.0-py3-none-any.whl (1.9 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.9/1.9 MB[0m [31m20.5 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: faker
Successfully installed faker-37.3.0


In [6]:
from faker import Faker

In [7]:
names = ['Carl', 'Julia', 'Alex', 'Leela']

In [8]:
 ## Не забываем о размерности
data = { 'apples': [3, 2, 0, 1], 'oranges': [0, 3, 7, 2] }
purchases = pd.DataFrame(data, index=names)
purchases

Unnamed: 0,apples,oranges
Carl,3,0
Julia,2,3
Alex,0,7
Leela,1,2


#### Работа со строками

Сделать "горизонтальный срез" - получить нужную строку - можно, обратившись к свойству ```.loc``` и указав значение индекса в квадратных скобках (обратите внимание: pandas вернет объект Series):

In [9]:
purchases

Unnamed: 0,apples,oranges
Carl,3,0
Julia,2,3
Alex,0,7
Leela,1,2


In [10]:
purchases['apples']  # Это столбец

Unnamed: 0,apples
Carl,3
Julia,2
Alex,0
Leela,1


In [11]:
purchases['Carl'] ## Error

KeyError: 'Carl'

In [12]:
jul = purchases.loc['Julia']
print(jul)
print(type(jul))

apples     2
oranges    3
Name: Julia, dtype: int64
<class 'pandas.core.series.Series'>


Также можно указать требуемый диапазон строк   
(обратите внимание: при таком запросе pandas вернет DataFrame):

In [13]:
# Обратились по индексам к номерам строк
# Более правильно обратиться через .iloc -> purchases.iloc[0: -1]
foo = purchases[0:-1]
foo
purchases.iloc[0: -1]

Unnamed: 0,apples,oranges
Carl,3,0
Julia,2,3
Alex,0,7


Unnamed: 0,apples,oranges
Carl,3,0
Julia,2,3
Alex,0,7


In [14]:
print(type(foo))

<class 'pandas.core.frame.DataFrame'>


__ВОПРОС__: как получить вертикальный срез?

In [15]:
purchases.columns  ## Список колонок

Index(['apples', 'oranges'], dtype='object')

In [16]:
purchases.columns[:-1]
purchases[purchases.columns[:-1]]

Index(['apples'], dtype='object')

Unnamed: 0,apples
Carl,3
Julia,2
Alex,0
Leela,1


Для доступа к объекту DataFrame по целочисленным индексам, можно обращаться к свойству ```.iloc``` объекта:

In [17]:
purchases

Unnamed: 0,apples,oranges
Carl,3,0
Julia,2,3
Alex,0,7
Leela,1,2


In [18]:
# эти выражения эквивалентны
# строка, столбец
purchases
print(purchases.loc['Carl', 'oranges']) # loc - это имена
print(purchases.iloc[0, 1])           # iloc - порядковый номер

Unnamed: 0,apples,oranges
Carl,3,0
Julia,2,3
Alex,0,7
Leela,1,2


0
0


In [19]:
# Когда мы используем имена в слайсах, последний элемент попадает в выдачу
purchases.loc['Carl':'Alex', ['oranges', 'apples']]

Unnamed: 0,oranges,apples
Carl,0,3
Julia,3,2
Alex,7,0


In [20]:
# Используем список столбцов, если их несколько
df4 = purchases[['oranges', 'apples']]; df4

Unnamed: 0,oranges,apples
Carl,0,3
Julia,3,2
Alex,7,0
Leela,2,1


In [21]:
# Можно обращаться через точку, но есть тонкости!
df4.apples  # the same: df4['apples']

Unnamed: 0,apples
Carl,3
Julia,2
Alex,0
Leela,1


In [22]:
# Создаем новый столбец
# https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
df4['summa'] = df4.oranges + df4.apples
df4.summa

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df4['summa'] = df4.oranges + df4.apples


Unnamed: 0,summa
Carl,3
Julia,5
Alex,7
Leela,3


In [23]:
# Создать новый столбец через точку нельзя!!!
df4.summa1 = [4, 4, 3, 1]; df4

  df4.summa1 = [4, 4, 3, 1]; df4


Unnamed: 0,oranges,apples,summa
Carl,0,3,3
Julia,3,2,5
Alex,7,0,7
Leela,2,1,3


In [24]:
df4.summa1  # Переменная датафрейма создана, но это не колонка!!!
vars(df4)  # Все свойства объекта(датафрейма)

[4, 4, 3, 1]

{'_is_copy': <weakref at 0x7df4894576f0; to 'DataFrame' at 0x7df488108590>,
 '_mgr': BlockManager
 Items: Index(['oranges', 'apples', 'summa'], dtype='object')
 Axis 1: Index(['Carl', 'Julia', 'Alex', 'Leela'], dtype='object')
 NumpyBlock: slice(0, 2, 1), 2 x 4, dtype: int64
 NumpyBlock: slice(2, 3, 1), 1 x 4, dtype: int64,
 '_item_cache': {'oranges': Carl     0
  Julia    3
  Alex     7
  Leela    2
  Name: oranges, dtype: int64,
  'apples': Carl     3
  Julia    2
  Alex     0
  Leela    1
  Name: apples, dtype: int64,
  'summa': Carl     3
  Julia    5
  Alex     7
  Leela    3
  Name: summa, dtype: int64},
 '_attrs': {},
 '_flags': <Flags(allows_duplicate_labels=True)>,
 'summa1': [4, 4, 3, 1]}

In [25]:
df4.mean()

Unnamed: 0,0
oranges,3.0
apples,1.5
summa,4.5


In [26]:
# Свойство(Атрибут) будет создан, но не колонка
df4.new_field = (df4.oranges + df4.apples) / 2

  df4.new_field = (df4.oranges + df4.apples) / 2


In [27]:
df4

Unnamed: 0,oranges,apples,summa
Carl,0,3,3
Julia,3,2,5
Alex,7,0,7
Leela,2,1,3


In [28]:
# .new_field - это атрибут(свойство) датафрейма df4
df4.shape, df4.ndim
df4.my_feature = 'Hello'
df4.my_feature
df4.new_field

((4, 3), 2)

'Hello'

Unnamed: 0,0
Carl,1.5
Julia,2.5
Alex,3.5
Leela,1.5


In [29]:
# Удалили столбец из датафрейма и вернули как результат
df4.pop('summa')

Unnamed: 0,summa
Carl,3
Julia,5
Alex,7
Leela,3


In [30]:
df4.columns

Index(['oranges', 'apples'], dtype='object')

In [31]:
df4['summa'] = df4.oranges + df4.apples

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df4['summa'] = df4.oranges + df4.apples


In [32]:
df4

Unnamed: 0,oranges,apples,summa
Carl,0,3,3
Julia,3,2,5
Alex,7,0,7
Leela,2,1,3


In [33]:
df4['new_col'] = df4['apples'] + df4['oranges']
df4

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df4['new_col'] = df4['apples'] + df4['oranges']


Unnamed: 0,oranges,apples,summa,new_col
Carl,0,3,3,3
Julia,3,2,5,5
Alex,7,0,7,7
Leela,2,1,3,3


In [34]:
df4.loc[:, ['col1']] = df4['apples'] + df4['oranges']
df4

Unnamed: 0,oranges,apples,summa,new_col,col1
Carl,0,3,3,3,3
Julia,3,2,5,5,5
Alex,7,0,7,7,7
Leela,2,1,3,3,3


In [35]:
df4

Unnamed: 0,oranges,apples,summa,new_col,col1
Carl,0,3,3,3,3
Julia,3,2,5,5,5
Alex,7,0,7,7,7
Leela,2,1,3,3,3


Свойство ```.iloc``` также поддерживает индексацию по списку

In [36]:
# список индексов строк
purchases.iloc[[1, 2, 3]]

Unnamed: 0,apples,oranges
Julia,2,3
Alex,0,7
Leela,1,2


In [37]:
## Последняя колонка включается в выдачу результата !!!
purchases.loc[:, 'apples':'oranges']

Unnamed: 0,apples,oranges
Carl,3,0
Julia,2,3
Alex,0,7
Leela,1,2


In [38]:
# Создание нового столбца по правильному
purchases['total'] = (
    purchases.loc[:, 'apples'] + purchases.loc[:, 'oranges']
)
purchases

Unnamed: 0,apples,oranges,total
Carl,3,0,3
Julia,2,3,5
Alex,0,7,7
Leela,1,2,3


In [39]:
result = (
    pd.DataFrame(
        purchases.loc['Carl':'Julia', 'apples'] +
        purchases.loc['Carl':'Julia', 'oranges']
    )
)
result

Unnamed: 0,0
Carl,3
Julia,5


In [40]:
purchases

Unnamed: 0,apples,oranges,total
Carl,3,0,3
Julia,2,3,5
Alex,0,7,7
Leela,1,2,3


In [41]:
# Когда столбец уже создан, можно менять его значение,
# обращаясь к нему и через точку(purchases.total)
purchases.total = (
    purchases.loc[:, 'apples'] - purchases.loc[:, 'oranges']
)
purchases

Unnamed: 0,apples,oranges,total
Carl,3,0,3
Julia,2,3,-1
Alex,0,7,-7
Leela,1,2,-1


In [42]:
## Последняя колонка не включается в выдачу результата !!!
purchases.iloc[:, 0:2]

Unnamed: 0,apples,oranges
Carl,3,0
Julia,2,3
Alex,0,7
Leela,1,2


**Важно**: `append` только в ветке `1.x` `pandas`   
Добавить строку в DataFrame можно было методом `.append()`.<br>
Им же можно объединять DataFrame'ы.    
В результате будет создан новый DataFrame.

In [43]:
purchases

Unnamed: 0,apples,oranges,total
Carl,3,0,3
Julia,2,3,-1
Alex,0,7,-7
Leela,1,2,-1


Mожно отключить вывод предупреждений:
```
import warnings
warnings.simplefilter(action='ignore', category=FutureWarning)
```

In [44]:
# x = purchases.append({'apples':5, 'oranges':2, 'total': -3}, ignore_index=True)
# x # Error с версии 2.x

In [45]:
purchases
# С помощью pd.concat()
pd.concat(
    [
        purchases,
        pd.DataFrame([[6, 7, 8]], columns=purchases.columns)
    ],
    ignore_index=True)

Unnamed: 0,apples,oranges,total
Carl,3,0,3
Julia,2,3,-1
Alex,0,7,-7
Leela,1,2,-1


Unnamed: 0,apples,oranges,total
0,3,0,3
1,2,3,-1
2,0,7,-7
3,1,2,-1
4,6,7,8


In [46]:
x = purchases.copy()
# x
x.loc[len(x)] = [11, 12, 13]; x # new string in index
x.loc[x.index.size] = [34, 87, 78]
x.loc['name'] = [11, 12, 13]; x # the same


Unnamed: 0,apples,oranges,total
Carl,3,0,3
Julia,2,3,-1
Alex,0,7,-7
Leela,1,2,-1
4,11,12,13


Unnamed: 0,apples,oranges,total
Carl,3,0,3
Julia,2,3,-1
Alex,0,7,-7
Leela,1,2,-1
4,11,12,13
5,34,87,78
name,11,12,13


__ВОПРОС__: Как добавить строку с нужным индексом?

In [47]:
# erics_purchases = {'apples':5, 'oranges':2, 'total': 10}
# purchases = purchases.append(pd.DataFrame(erics_purchases, index=['Eric']))
# purchases  # Error с версии 2.x

С помощью `pd.concat():`

In [48]:
# В pd.concat() мы кладем датафремы в список
x_new = pd.concat(
    [purchases,
     pd.DataFrame(
        [[21, 22, 23], [1, 2, 4]],
         index=['Python', "Eric"],
         columns=purchases.columns
        # columns=["app", "ora",'third'] # посмотреть результат и вспомнить как работает
        )
    ]
)
x_new

Unnamed: 0,apples,oranges,total
Carl,3,0,3
Julia,2,3,-1
Alex,0,7,-7
Leela,1,2,-1
Python,21,22,23
Eric,1,2,4


In [49]:
purchases

Unnamed: 0,apples,oranges,total
Carl,3,0,3
Julia,2,3,-1
Alex,0,7,-7
Leela,1,2,-1


Добавить колонку можно двумя способами:
1. с помощью метода ```insert()```
2. либо точно так же, как при добавлении элемента в словарь.

In [50]:
# Удаляю строку с именем 'Carl'
# drop() по умолчанию работает со строками
new_purchases = purchases.copy()
new_purchases.drop("Carl", inplace=True) # Изменяет сам датафрейм
new_purchases

Unnamed: 0,apples,oranges,total
Julia,2,3,-1
Alex,0,7,-7
Leela,1,2,-1


In [51]:
data = { 'apples': [3, 2, 0, 1], 'oranges': [0, 3, 7, 2] }
purchases = pd.DataFrame(data, index=names)
purchases
# Правильное добавление нового столбца
purchases['total'] = (
    purchases.loc[:, 'apples'] + purchases.loc[:, 'oranges']
)
purchases

Unnamed: 0,apples,oranges
Carl,3,0
Julia,2,3
Alex,0,7
Leela,1,2


Unnamed: 0,apples,oranges,total
Carl,3,0,3
Julia,2,3,5
Alex,0,7,7
Leela,1,2,3


In [52]:
# Если столбец отсутствует - ошибка
purchases.drop("bananas", axis='columns', inplace=True) # Удалили столбец

KeyError: "['bananas'] not found in axis"

In [53]:
purchases
## insert(индекс, название колонки, значение(values) этой колонки)
purchases.insert(1, 'bananas', [4, 5, 4, 3])
purchases

Unnamed: 0,apples,oranges,total
Carl,3,0,3
Julia,2,3,5
Alex,0,7,7
Leela,1,2,3


Unnamed: 0,apples,bananas,oranges,total
Carl,3,4,0,3
Julia,2,5,3,5
Alex,0,4,7,7
Leela,1,3,2,3


In [54]:
purchases['kiwi'] = [3, 0, 0, 0]  ## Добавление в конец
purchases

Unnamed: 0,apples,bananas,oranges,total,kiwi
Carl,3,4,0,3,3
Julia,2,5,3,5,0
Alex,0,4,7,7,0
Leela,1,3,2,3,0


Удалить строку или столбец можно методом ```.drop()``` (чтобы метод сработал в самом объекте, передайте параметр inplace=True):

In [55]:
# Удаляем строку с именем 'Alex'
purchases.drop(['Alex'], inplace=True)
purchases

Unnamed: 0,apples,bananas,oranges,total,kiwi
Carl,3,4,0,3,3
Julia,2,5,3,5,0
Leela,1,3,2,3,0


Чтобы удалить столбец, укажите в методе ```.drop()``` параметр ```axis=1```:

In [56]:
purchases.drop(['oranges'], axis=1, inplace=True)
purchases

Unnamed: 0,apples,bananas,total,kiwi
Carl,3,4,3,3
Julia,2,5,5,0
Leela,1,3,3,0


In [57]:
del purchases['total']
purchases

Unnamed: 0,apples,bananas,kiwi
Carl,3,4,3
Julia,2,5,0
Leela,1,3,0
