### Урок 5.2: индексы и метод `.iloc`

In [11]:
import pandas as pd
df = pd.DataFrame([['Anna', 23, 3],
             ['Sam', 36, 12],
             ['Bill', 33, 10],
             ['Moica', 25, 7],
             ['Lisa', 27, 7],
             ['Peter', 32, None]])

Чтобы наш датафрейм был больше похож на настоящие данные из файла, давайте назовём столбцы в таблице. Для этого нам необходимо изменить атрибут `.columns`, присвоить ему значение в виде списка.

In [2]:
df.iloc[::2,:-1]

Unnamed: 0,0,1
0,Anna,23
2,Bill,33
4,Lisa,27


In [57]:
df.columns = ['name', 'age', 'expr']  

In [58]:
df

Unnamed: 0,name,age,expr
0,Anna,23,3.0
1,Sam,36,12.0
2,Bill,33,10.0
3,Moica,25,7.0
4,Lisa,27,7.0
5,Peter,32,


Для выбора строк и столбцов в `Pandas` есть два основных метода: `.iloc` и `.loc`. Первый используется для выбора строк и столбцов по их индексу, второй – по их названию. Внутри каждого из этих методов в квадратных скобках указывается сначала идентификатор (индекс или название) строки, а затем – идентификатор столбца. Попробуем выбрать элемент, который находится в строке с индексом 1 и в столбце с индексом 2:

In [59]:
df.iloc[1, 2]

12.0

В качестве индексов можно указывать числовые срезы (как обычно, правый конец отрезка не включается):

In [60]:
df.iloc[1:3, 1]

1    36
2    33
Name: age, dtype: int64

И полные срезы тоже:

In [61]:
df.iloc[:, 0]

0     Anna
1      Sam
2     Bill
3    Moica
4     Lisa
5    Peter
Name: name, dtype: object

In [13]:
df.iloc[1:3, :]

Unnamed: 0,name,age,expr
1,Sam,36,12.0
2,Bill,33,10.0


Можно попробовать ввести индекс без `.loc` и посмотреть, что получится: 

In [9]:
df[0]

KeyError: 0

Ничего не получится: Python думает, что в квадратных скобках указано название столбца и возвращает `KeyError`, что означает, что столбца с таким названием в таблице нет. Самое интересное: если мы укажем в квадратных скобках числовой срез, всё сработает! Только Python будет воспринимать эти числа как индексы строк (да `pandas` коварна, к ней нужно привыкнуть):

In [25]:
df

Unnamed: 0,name,age,expr
0,Anna,23,3.0
1,Sam,36,12.0
2,Bill,33,10.0
3,Moica,25,7.0
4,Lisa,27,7.0
5,Peter,32,


In [100]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 6 entries, Anna to Peter
Data columns (total 3 columns):
name    6 non-null object
age     6 non-null int64
expr    5 non-null float64
dtypes: float64(1), int64(1), object(1)
memory usage: 192.0+ bytes


In [120]:
df.describe()

Unnamed: 0,age,expr
count,6.0,5.0
mean,29.333333,7.8
std,5.085928,3.420526
min,23.0,3.0
25%,25.5,7.0
50%,29.5,7.0
75%,32.75,10.0
max,36.0,12.0


In [143]:
df.describe().to_dict()

{'age': {'count': 6.0,
  'mean': 29.333333333333332,
  'std': 5.08592829940284,
  'min': 23.0,
  '25%': 25.5,
  '50%': 29.5,
  '75%': 32.75,
  'max': 36.0},
 'expr': {'count': 5.0,
  'mean': 7.8,
  'std': 3.420526275297414,
  'min': 3.0,
  '25%': 7.0,
  '50%': 7.0,
  '75%': 10.0,
  'max': 12.0}}

In [117]:
df.index = range(1,len(df)+1)
df

Unnamed: 0,name,age,expr
1,Anna,23,3.0
2,Sam,36,12.0
3,Bill,33,10.0
4,Moica,25,7.0
5,Lisa,27,7.0
6,Peter,32,


In [165]:
df[(df['age'] > 30) & (df['expr'].isnull() )]

Unnamed: 0,name,age,expr
6,Peter,32,


In [180]:
df.loc[df['expr'].isnull(), 'NoneYesNo'] = "Yes"
df.loc[df['expr'].notnull(), 'NoneYesNo'] = "No"
df

Unnamed: 0,name,age,expr,NoneYesNo
1,Anna,23,3.0,No
2,Sam,36,12.0,No
3,Bill,33,10.0,No
4,Moica,25,7.0,No
5,Lisa,27,7.0,No
6,Peter,32,,Yes


In [12]:
df2 = df.copy()
df2

Unnamed: 0,0,1,2
0,Anna,23,3.0
1,Sam,36,12.0
2,Bill,33,10.0
3,Moica,25,7.0
4,Lisa,27,7.0
5,Peter,32,


In [13]:
df.columns = ['name', 'age', 'expr']

In [17]:
df

Unnamed: 0,name,age,expr
0,Anna,23,3.0
1,Sam,36,12.0
2,Bill,33,10.0
3,Moica,25,7.0
4,Lisa,27,7.0
5,Peter,32,


In [30]:
df.columns = df.columns.str.replace('a', 'A')

In [31]:
df

Unnamed: 0,nAmE,AgE,Expr
0,Anna,23,3.0
1,Sam,36,12.0
2,Bill,33,10.0
3,Moica,25,7.0
4,Lisa,27,7.0
5,Peter,32,
