In [1]:
import numpy as np
import pandas as pd

In [3]:
data = [['Ivan', 25, 4, 50, 1], 
        ['Petr', 40, 9, 250, 8], 
        ['Nikolay', 19, 12, 25, 1], 
        ['Sergey', 33, 6, 115, 6],
        ['Andrey', 38, 2, 152, 4],
        ['Ilya', 20, 18, 15, 2],
        ['Igor', 19, 2, 10, 1]]
df = pd.DataFrame(data, columns=['name', 'age', 'uclicks', 'balance', 'history'], index=list('abcdefg'))
df

Unnamed: 0,name,age,uclicks,balance,history
a,Ivan,25,4,50,1
b,Petr,40,9,250,8
c,Nikolay,19,12,25,1
d,Sergey,33,6,115,6
e,Andrey,38,2,152,4
f,Ilya,20,18,15,2
g,Igor,19,2,10,1


In [4]:
#Получим конкретное значение из df
df['age']['c']

19

In [6]:
#Получим значения двух столбцов из одной строки
#Получаем интересную ошибку, хотя козалось бы пандас дружелюбный
df[['name','age']]['d']

KeyError: 'd'

In [8]:
#Вспомним про слайсинг
df[['name','age']][2:3]

Unnamed: 0,name,age
c,Nikolay,19


Такая конструкция получается очень длинной и неудобной. Соответственно для нас разработчики пандас разработали функции.

- loc - удобно получать данные из столбцов и строк по лейблам

In [14]:
#Получим пару строк
df.loc[['e','a']]

Unnamed: 0,name,age,uclicks,balance,history
e,Andrey,38,2,152,4
a,Ivan,25,4,50,1


In [15]:
#Получим данные из двух строк и двух конкретных столбцов
df.loc[['e','a'],['name','balance']]

Unnamed: 0,name,balance
e,Andrey,152
a,Ivan,50


In [17]:
#Если мы хотим получить конкретный столбец, нам все равно придется указать строки
df.loc[:,'age']

a    25
b    40
c    19
d    33
e    38
f    20
g    19
Name: age, dtype: int64

- .loc[] поддверживает и условия

In [20]:
#В Step_3.8-3.9 была задача как рас с определенным условием
df.loc[df['age'] >30, ['name','balance']]

Unnamed: 0,name,balance
b,Petr,250
d,Sergey,115
e,Andrey,152


- .iloc[] - принимает Int

In [21]:
df.iloc[0]

name       Ivan
age          25
uclicks       4
balance      50
history       1
Name: a, dtype: object

In [22]:
#Получим конкретные строки
df.iloc[[0,2]]

Unnamed: 0,name,age,uclicks,balance,history
a,Ivan,25,4,50,1
c,Nikolay,19,12,25,1


In [23]:
#Получим строки и столбцы
df.iloc[[0,2],[0,2]]

Unnamed: 0,name,uclicks
a,Ivan,4
c,Nikolay,12


- .at[] и .iat[] позволяют получить конкретные значения из df

В отличии от .loc[] и .iloc[] не работают со списками 

In [32]:
df.at['d','name']

'Sergey'

In [33]:
df.iat[3,0]

'Sergey'

- с помощью данных функция мы можем так же записываться значения в df

In [34]:
df

Unnamed: 0,name,age,uclicks,balance,history
a,Ivan,25,4,50,1
b,Petr,40,9,250,8
c,Nikolay,19,12,25,1
d,Sergey,33,6,115,6
e,Andrey,38,2,152,4
f,Ilya,20,18,15,2
g,Igor,19,2,10,1


In [36]:
df.loc['e','name'] = 'Roza'
df.loc['e','name']

'Roza'

- Рассмотрим сложение серий по индексам

In [37]:
s1 = pd.Series([1,2,3], index=['a','b','c'])
s2 = pd.Series([4,5,6], index=['A','b','C'])

In [38]:
s1

a    1
b    2
c    3
dtype: int64

In [39]:
s2

A    4
b    5
C    6
dtype: int64

In [42]:
#Сложим серии и обнаружим, что сложатся только те значения, в которых индексы совпадают
#Остальные значения становятся NaN
s1 + s2

A    NaN
C    NaN
a    NaN
b    7.0
c    NaN
dtype: float64

- Рассмотрим сложение DataFrames

In [44]:
df1= pd.DataFrame(np.arange(9).reshape((3,3)), columns=list('bcd'), index=['Moscow','Kazan','Vladivostok'])
df2= pd.DataFrame(np.arange(12).reshape((4,3)), columns=list('bde'), index=['Yakutsk','Moscow','Kazan','Ufa'])

In [45]:
df1

Unnamed: 0,b,c,d
Moscow,0,1,2
Kazan,3,4,5
Vladivostok,6,7,8


In [46]:
df2

Unnamed: 0,b,d,e
Yakutsk,0,1,2
Moscow,3,4,5
Kazan,6,7,8
Ufa,9,10,11


In [47]:
df1 + df2

Unnamed: 0,b,c,d,e
Kazan,9.0,,12.0,
Moscow,3.0,,6.0,
Ufa,,,,
Vladivostok,,,,
Yakutsk,,,,


# Важно запомнить!
Как мы посмотрели, арифметические операции хорошо работают даже если у датафреймов отличается количество строк/столбцов. Если бы это были матрицы, то здравствуй ошибка! Датафреймы в этом плане более гибкие.

А что на счёт сравнения? Что будет если мы попытаемся сравнить два датафрейма из нашего урока?:

df1 == df2

df1 < df2

df1 > df2

А вот уже здесь нас ждет ошибка:
![Картинка испарилась(((](https://ucarecdn.com/ac1ddc12-cd18-4b1f-a786-c5c3a40439d0/)

которая намекает нам на то, что сравнение возможно только для датафреймов у которых лейблы в точности совпадают!
Будьте внимательны) Это будет и в тестах и на вашей работе)

- Step_3.10.11

Стажер Саша запутался, когда работал с датафреймом. Он хотел вытянуть две строчки, но всё напутал.

![Картинка испарилась(((](https://ucarecdn.com/15295984-0ab0-435c-b064-fa68724b5283/)
Вылезла ошибка и он ничего не понимает:
![Картинка испарилась(((](https://ucarecdn.com/8a7967e6-bde2-4af1-914d-85308c718873/)
Теперь он пришел к вам и просит о помощи. Отредактируйте, пожалуйста, код Саши.

In [50]:
df = pd.DataFrame([[10,2,8],[20,11,1],[30,23,4],[40,4,5]], index = list('abcd'), columns = ['col1','col2','col3'])

In [51]:
df

Unnamed: 0,col1,col2,col3
a,10,2,8
b,20,11,1
c,30,23,4
d,40,4,5


In [53]:
df.iloc[['a','c']]

ValueError: invalid literal for int() with base 10: 'a'

In [66]:
def solution(df):
    return df.iloc[[0,2]]

solution(df)

Unnamed: 0,col1,col2,col3
a,10,2,8
c,30,23,4


- Step_3.10.13

На вход подаётся датафрейм:
![Картинка испарилась(((](https://ucarecdn.com/15295984-0ab0-435c-b064-fa68724b5283/)
Пользуясь оператором at, вытяните из датафрейма значение из строки d, во втором столбце. Функция должна вернуть это значение

In [55]:
df

Unnamed: 0,col1,col2,col3
a,10,2,8
b,20,11,1
c,30,23,4
d,40,4,5


In [63]:
def solution(df):
    return df.at['d','col2']

solution(df)

4

- Step_3.10.15

На вход подаётся датафрейм:
![Картинка испарилась(((](https://ucarecdn.com/31a3a14c-3569-47a5-b9f3-628ab15dbb93/)
выполните поэлементное сложение двух строк (a и d):
![Картинка испарилась(((](https://ucarecdn.com/0aff8b49-b782-4eab-9116-5fd19357f08f/)
На выходе должна получиться серия:
![Картинка испарилась(((](https://ucarecdn.com/b8ec4e6a-6cd1-41f3-ac7c-b9cefa305258/)

In [67]:
df

Unnamed: 0,col1,col2,col3
a,10,2,8
b,20,11,1
c,30,23,4
d,40,4,5


In [71]:
def solution(df):
    return df.loc['a'] + df.loc['d']
solution(df)

col1    50
col2     6
col3    13
dtype: int64