# Курс "Программирование на языке Python. Уровень 4. Анализ и визуализация данных на языке Python. Библиотеки numpy, pandas, matplotlib"

##  Библиотека pandas


In [1]:
import pandas as pd
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

In [2]:
import numpy as np

In [16]:
pd.__version__
np.__version__

'2.1.1'

'1.26.0'

In [3]:
from faker import Faker

In [4]:
names = ['Carl', 'Julia', 'Alex', 'Leela']

In [5]:
 ## Не забываем о размерности
data = { 'apples': [3, 2, 0, 1], 'oranges': [0, 3, 7, 2] }
purchases = pd.DataFrame(data, index=names)
purchases

Unnamed: 0,apples,oranges
Carl,3,0
Julia,2,3
Alex,0,7
Leela,1,2


#### Работа со строками

Сделать "горизонтальный срез" - получить нужную строку - можно, обратившись к свойству ```.loc``` и указав значение индекса в квадратных скобках (обратите внимание: pandas вернет объект Series):

In [6]:
purchases

Unnamed: 0,apples,oranges
Carl,3,0
Julia,2,3
Alex,0,7
Leela,1,2


In [7]:
purchases['apples']  # Это столбец

Carl     3
Julia    2
Alex     0
Leela    1
Name: apples, dtype: int64

In [8]:
purchases['Carl'] ## Error

KeyError: 'Carl'

In [13]:
jul = purchases.loc['Julia']
print(jul)
print(type(jul))

apples     2
oranges    3
Name: Julia, dtype: int64
<class 'pandas.core.series.Series'>


Также можно указать требуемый диапазон строк   
(обратите внимание: при таком запросе pandas вернет DataFrame):

In [22]:
# Обратились по индексам к номерам строк
# Более правильно обратиться через .iloc -> purchases.iloc[0: -1]
foo = purchases[0:-1] 
foo

Unnamed: 0,apples,oranges
Carl,3,0
Julia,2,3
Alex,0,7


In [23]:
print(type(foo))

<class 'pandas.core.frame.DataFrame'>


__ВОПРОС__: как получить вертикальный срез?

In [24]:
purchases.columns  ## Список колонок

Index(['apples', 'oranges'], dtype='object')

In [30]:
purchases.columns[:-1]
purchases[purchases.columns[:-1]]

Index(['apples'], dtype='object')

Unnamed: 0,apples
Carl,3
Julia,2
Alex,0
Leela,1


Для доступа к объекту DataFrame по целочисленным индексам, можно обращаться к свойству ```.iloc``` объекта:

In [31]:
purchases

Unnamed: 0,apples,oranges
Carl,3,0
Julia,2,3
Alex,0,7
Leela,1,2


In [38]:
# эти выражения эквивалентны  
# строка, столбец
print(purchases.loc['Carl', 'oranges']) # loc - это имена
print(purchases.iloc[0, 1])           # iloc - порядковый номер

0
0


In [41]:
# Когда мы используем имена в слайсах, последний элемент попадает в выдачу
purchases.loc['Carl':'Alex', ['oranges', 'apples']]

Unnamed: 0,oranges,apples
Carl,0,3
Julia,3,2
Alex,7,0


In [42]:
# Используем список столбцов, если их несколько
df4 = purchases[['oranges', 'apples']]; df4

Unnamed: 0,oranges,apples
Carl,0,3
Julia,3,2
Alex,7,0
Leela,2,1


In [43]:
# Можно обращаться через точку, но есть тонкости!
df4.apples  # the same: df4['apples']

Carl     3
Julia    2
Alex     0
Leela    1
Name: apples, dtype: int64

In [44]:
# Создаем новый столбец
# https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
df4['summa'] = df4.oranges + df4.apples
df4

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df4['summa'] = df4.oranges + df4.apples


Unnamed: 0,oranges,apples,summa
Carl,0,3,3
Julia,3,2,5
Alex,7,0,7
Leela,2,1,3


In [45]:
# Создать новый столбец через точку нельзя
df4.summa1 = [4, 4, 3, 1]; df4

  df4.summa1 = [4, 4, 3, 1]; df4


Unnamed: 0,oranges,apples,summa
Carl,0,3,3
Julia,3,2,5
Alex,7,0,7
Leela,2,1,3


In [46]:
df4.summa1  # Переменная датафрейма создана, но это не колонка!!!

[4, 4, 3, 1]

In [47]:
df4.mean()

oranges    3.0
apples     1.5
summa      4.5
dtype: float64

In [48]:
# Свойство(Атрибут) будет создан, но не колонка
df4.new_field = (df4.oranges + df4.apples) / 2  

  df4.new_field = (df4.oranges + df4.apples) / 2


In [49]:
df4

Unnamed: 0,oranges,apples,summa
Carl,0,3,3
Julia,3,2,5
Alex,7,0,7
Leela,2,1,3


In [53]:
df4.new_field

Carl     1.5
Julia    2.5
Alex     3.5
Leela    1.5
dtype: float64

In [54]:
# Удалил столбец из датафрейма
df4.pop('summa')  

Carl     3
Julia    5
Alex     7
Leela    3
Name: summa, dtype: int64

In [55]:
df4.columns

Index(['oranges', 'apples'], dtype='object')

In [56]:
df4['summa'] = df4.oranges + df4.apples

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df4['summa'] = df4.oranges + df4.apples


In [57]:
df4

Unnamed: 0,oranges,apples,summa
Carl,0,3,3
Julia,3,2,5
Alex,7,0,7
Leela,2,1,3


In [58]:
df4['new_col'] = df4['apples'] + df4['oranges']
df4

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df4['new_col'] = df4['apples'] + df4['oranges']


Unnamed: 0,oranges,apples,summa,new_col
Carl,0,3,3,3
Julia,3,2,5,5
Alex,7,0,7,7
Leela,2,1,3,3


In [64]:
df4.loc[:, ['col1']] = df4['apples'] + df4['oranges']
df4

Unnamed: 0,oranges,apples,summa,new_col,col1
Carl,0,3,3,3,3
Julia,3,2,5,5,5
Alex,7,0,7,7,7
Leela,2,1,3,3,3


In [60]:
df4

Unnamed: 0,oranges,apples,summa,new_col,col1
Carl,0,3,3,3,3
Julia,3,2,5,5,5
Alex,7,0,7,7,7
Leela,2,1,3,3,3


Свойство ```.iloc``` также поддерживает индексацию по списку

In [65]:
# список индексов строк
purchases.iloc[[1, 2, 3]] 

Unnamed: 0,apples,oranges
Julia,2,3
Alex,0,7
Leela,1,2


In [66]:
## Последняя колонка включается в выдачу результата !!!
purchases.loc[:, 'apples':'oranges']  

Unnamed: 0,apples,oranges
Carl,3,0
Julia,2,3
Alex,0,7
Leela,1,2


In [73]:
# Создание нового столбца по правильному
purchases['total'] = (
    purchases.loc[:, 'apples'] + purchases.loc[:, 'oranges']
)
purchases

Unnamed: 0,apples,oranges,total
Carl,3,0,3
Julia,2,3,5
Alex,0,7,7
Leela,1,2,3


In [81]:
result = (
    pd.DataFrame(
        purchases.loc['Carl':'Julia', 'apples'] + 
        purchases.loc['Carl':'Julia', 'oranges']
    )
)
result

Unnamed: 0,0
Carl,3
Julia,5


In [82]:
purchases

Unnamed: 0,apples,oranges,total
Carl,3,0,3
Julia,2,3,5
Alex,0,7,7
Leela,1,2,3


In [83]:
# Когда столбец уже создан, можно менять его значение, 
# обращаясь к нему и через точку(purchases.total)
purchases.total = (
    purchases.loc[:, 'apples'] - purchases.loc[:, 'oranges']
)
purchases

Unnamed: 0,apples,oranges,total
Carl,3,0,3
Julia,2,3,-1
Alex,0,7,-7
Leela,1,2,-1


In [86]:
## Последняя колонка не включается в выдачу результата !!!
purchases.iloc[:, 0:2]  

Unnamed: 0,apples,oranges
Carl,3,0
Julia,2,3
Alex,0,7
Leela,1,2


Добавить строку в DataFrame можно методом `.append()`.<br>
Им же можно объединять DataFrame'ы.    
В результате будет создан новый DataFrame.

In [87]:
purchases

Unnamed: 0,apples,oranges,total
Carl,3,0,3
Julia,2,3,-1
Alex,0,7,-7
Leela,1,2,-1


Mожно отключить вывод предупреждений:
```
import warnings
warnings.simplefilter(action='ignore', category=FutureWarning)
```

In [89]:
# x = purchases.append({'apples':5, 'oranges':2, 'total': -3}, ignore_index=True)
# x # Error с версии 2.0

In [92]:
# С помощью pd.concat()
pd.concat([purchases, pd.DataFrame([[6, 7, 8]], columns=purchases.columns)], ignore_index=True)

Unnamed: 0,apples,oranges,total
0,3,0,3
1,2,3,-1
2,0,7,-7
3,1,2,-1
4,6,7,8


In [107]:
x = purchases.copy()
x
x.loc[len(x)] = [11, 12, 13]; x

Unnamed: 0,apples,oranges,total
Carl,3,0,3
Julia,2,3,-1
Alex,0,7,-7
Leela,1,2,-1


Unnamed: 0,apples,oranges,total
Carl,3,0,3
Julia,2,3,-1
Alex,0,7,-7
Leela,1,2,-1
4,11,12,13


__ВОПРОС__: Как добавить строку с нужным индексом?

In [None]:
# erics_purchases = {'apples':5, 'oranges':2, 'total': 10}
# purchases = purchases.append(pd.DataFrame(erics_purchases, index=['Eric']))
# purchases  # Error с версии 2.0

С помощью `pd.concat():`

In [121]:
# В pd.concat() мы кладем датафремы в список
x_new = pd.concat([purchases,
                   pd.DataFrame([[21, 22, 23]], 
                                index=['Python'], 
                                columns=purchases.columns
                               )
                  ])
x_new

Unnamed: 0,apples,oranges,total
Carl,3,0,3
Julia,2,3,-1
Alex,0,7,-7
Leela,1,2,-1
Python,21,22,23


In [122]:
purchases

Unnamed: 0,apples,oranges,total
Carl,3,0,3
Julia,2,3,-1
Alex,0,7,-7
Leela,1,2,-1


Добавить колонку можно двумя способами:
1. с помощью метода ```insert()```
2. либо точно так же, как при добавлении элемента в словарь.

In [124]:
# Удаляю строку с именем 5
# drop() по умолчанию работает со строками
new_purchases = purchases.copy()
new_purchases.drop("Carl", inplace=True) # Изменяет сам датафрейм
new_purchases

Unnamed: 0,apples,oranges,total
Julia,2,3,-1
Alex,0,7,-7
Leela,1,2,-1


In [126]:
data = { 'apples': [3, 2, 0, 1], 'oranges': [0, 3, 7, 2] }
purchases = pd.DataFrame(data, index=names)
purchases
purchases['total'] = (
    purchases.loc[:, 'apples'] + purchases.loc[:, 'oranges']
)
purchases

Unnamed: 0,apples,oranges
Carl,3,0
Julia,2,3
Alex,0,7
Leela,1,2


Unnamed: 0,apples,oranges,total
Carl,3,0,3
Julia,2,3,5
Alex,0,7,7
Leela,1,2,3


In [127]:
purchases
## insert(индекс, название колонки, значение(values) этой колонки)
purchases.insert(1, 'bananas', [4,5,4,3]) 
purchases

Unnamed: 0,apples,oranges,total
Carl,3,0,3
Julia,2,3,5
Alex,0,7,7
Leela,1,2,3


Unnamed: 0,apples,bananas,oranges,total
Carl,3,4,0,3
Julia,2,5,3,5
Alex,0,4,7,7
Leela,1,3,2,3


In [128]:
purchases['kiwi'] = [3, 0, 0, 0]  ## Добавление в конец
purchases

Unnamed: 0,apples,bananas,oranges,total,kiwi
Carl,3,4,0,3,3
Julia,2,5,3,5,0
Alex,0,4,7,7,0
Leela,1,3,2,3,0


Удалить строку или столбец можно методом ```.drop()``` (чтобы метод сработал в самом объекте, передайте параметр inplace=True):

In [129]:
# Удаляем строку с именем 'Alex'
purchases.drop(['Alex'], inplace=True)   
purchases

Unnamed: 0,apples,bananas,oranges,total,kiwi
Carl,3,4,0,3,3
Julia,2,5,3,5,0
Leela,1,3,2,3,0


Чтобы удалить столбец, укажите в методе ```.drop()``` параметр ```axis=1```:

In [130]:
purchases.drop(['oranges'], axis=1, inplace=True)
purchases

Unnamed: 0,apples,bananas,total,kiwi
Carl,3,4,3,3
Julia,2,5,5,0
Leela,1,3,3,0


In [131]:
del purchases['total']; purchases

Unnamed: 0,apples,bananas,kiwi
Carl,3,4,3
Julia,2,5,0
Leela,1,3,0


### __Задание__

1. Создайте DataFrame для пяти студентов и их оценок по предметам matan, linal, matstat и cs, заполните их случайными данными
2. Добавьте еще одного студента и данные по его упеваемости по предметам
3. Добавьте предмет physics и оценки по нему
6. Добавьте признак "mean" ("средний балл"), посчитайте в нем средний балл по каждому студенту.
7. Для каждого студента посчитайте средний балл по всем предметам, кроме "cs" и "mean" (новый столбец датафрейма)
8. Удалите предмет "cs"

In [None]:
# Ваш код
# смотри файл sol_Pandas_02_p2.ipynb