### Использование конструкции `.loc[]` в pandas.

In [1]:
import pandas as pd

Продемонстрируем на примере таблицы с зарплатами аналитиков за квартал в условных единицах:

In [2]:
df = pd.DataFrame(data={'Имя': ['Анна', 'Сергей', 'Алексей', 'Сергей', 'Екатерина'], 'Фамилия': ['Егорова', 'Тищенко', 'Маевский', 'Пеньков', 'Никонова'] ,'Январь': [1000, 1300, 800, 1100, 2000], 'Февраль': [1100, 1250, 750, 1100, 1800], 
     'Март': [950, 1320, 900, 1200, 1950]})
df

Unnamed: 0,Имя,Фамилия,Январь,Февраль,Март
0,Анна,Егорова,1000,1100,950
1,Сергей,Тищенко,1300,1250,1320
2,Алексей,Маевский,800,750,900
3,Сергей,Пеньков,1100,1100,1200
4,Екатерина,Никонова,2000,1800,1950


Итак, что же мы можем сделать при помощи `loc[]`?

1.Получить нужную строку по индексу.

In [3]:
df.loc[2]

Имя         Алексей
Фамилия    Маевский
Январь          800
Февраль         750
Март            900
Name: 2, dtype: object

2.Получить несколько строк по индексу. (Строки передаем **списком**.) На выходе получаем датафрейм.

In [4]:
df.loc[[2,4]]

Unnamed: 0,Имя,Фамилия,Январь,Февраль,Март
2,Алексей,Маевский,800,750,900
4,Екатерина,Никонова,2000,1800,1950


3.Найти конкретную ячейку. Конструкция вида `df.loc[индекс, 'столбец']`

In [5]:
df.loc[3,'Январь']

1100

4.И самое интересное, найти строки по условию. Конструкция вида `df.loc[условие]`

In [6]:
df.loc[df['Имя']=='Сергей']

Unnamed: 0,Имя,Фамилия,Январь,Февраль,Март
1,Сергей,Тищенко,1300,1250,1320
3,Сергей,Пеньков,1100,1100,1200


Можно также как и в случае с индексом, выбрать только один столбец:

In [7]:
df.loc[df['Имя']=='Сергей','Февраль']

1    1250
3    1100
Name: Февраль, dtype: int64

Что важно понимать про эту конструкцию. В отличие от большинства других сценариев в pandas, работая с ней и изменяя данные, мы **изменяем** датафрейм, с которым работаем. Например:

In [8]:
df.loc[df['Имя']=='Сергей','Март'] = 1111

Мы только что выбрали из таблицы всех Сергеев и установили им зарплату за март. Проверим, так ли это:

In [9]:
df

Unnamed: 0,Имя,Фамилия,Январь,Февраль,Март
0,Анна,Егорова,1000,1100,950
1,Сергей,Тищенко,1300,1250,1111
2,Алексей,Маевский,800,750,900
3,Сергей,Пеньков,1100,1100,1111
4,Екатерина,Никонова,2000,1800,1950


Действительно, значения изменились. Таким образом, используем `.loc[]`, **когда хотим изменить изначальный датафрейм**. Однако, на практике, чаще мы не хотим этого делать, а просто используем различным образом отфильтрованные таблицы для их анализа. Для этого используется также знакомая вам конструкция:

In [10]:
df[df['Имя']=='Сергей']

Unnamed: 0,Имя,Фамилия,Январь,Февраль,Март
1,Сергей,Тищенко,1300,1250,1111
3,Сергей,Пеньков,1100,1100,1111


Давайте попробуем поменять зарплату нашим Сергеям без использования `loc[]`, на этот раз за февраль:

In [12]:
df[df['Имя']=='Сергей']['Февраль'] = 2222

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """Entry point for launching an IPython kernel.


Pandas уже чувствует, что что-то не так и предупреждает что мы, возможно получм не то, чего хотим. Проверим:

In [13]:
df

Unnamed: 0,Имя,Фамилия,Январь,Февраль,Март
0,Анна,Егорова,1000,1100,950
1,Сергей,Тищенко,1300,1250,1111
2,Алексей,Маевский,800,750,900
3,Сергей,Пеньков,1100,1100,1111
4,Екатерина,Никонова,2000,1800,1950


Данные за февраль не изменились. То есть такую индексацию мы можем применить, когда не собираемся ничего менять, а хотим просто посмотреть, сколько там зарабоатывают Сергеи.

Конечно, возможности индексации в pandas гораздо обширнее, но цель этой тетрадки дать вам небольшую шпаргалку по конструкции `loc[]` и показать её особенности по сравнению с другими методами доступа к данным.  
Благодарю всех, кто дочитал до конца!