### Создаем мини-DataFrame руками

In [1]:
import pandas as pd
import numpy as np
import random

In [2]:
df = pd.DataFrame([
                   ['Pooh',  2,True,   4],
                   ['Rabbit',3,False,  2],
                   ['Piglet',1,False,0.7],
                   ['Owl',   4,False,  5],
                   ['Eeyore',4,False,  5],
                   ['Tigger',1,False,4.5],
                  ], columns=['name','age','hungry','weight'])
df

Unnamed: 0,name,age,hungry,weight
0,Pooh,2,True,4.0
1,Rabbit,3,False,2.0
2,Piglet,1,False,0.7
3,Owl,4,False,5.0
4,Eeyore,4,False,5.0
5,Tigger,1,False,4.5


In [3]:
df[ df['age']>=3 ]

Unnamed: 0,name,age,hungry,weight
1,Rabbit,3,False,2.0
3,Owl,4,False,5.0
4,Eeyore,4,False,5.0


### Описательные методы

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   name    6 non-null      object 
 1   age     6 non-null      int64  
 2   hungry  6 non-null      bool   
 3   weight  6 non-null      float64
dtypes: bool(1), float64(1), int64(1), object(1)
memory usage: 278.0+ bytes


In [5]:
df.head()

Unnamed: 0,name,age,hungry,weight
0,Pooh,2,True,4.0
1,Rabbit,3,False,2.0
2,Piglet,1,False,0.7
3,Owl,4,False,5.0
4,Eeyore,4,False,5.0


In [6]:
df.describe()

Unnamed: 0,age,weight
count,6.0,6.0
mean,2.5,3.533333
std,1.378405,1.779513
min,1.0,0.7
25%,1.25,2.5
50%,2.5,4.25
75%,3.75,4.875
max,4.0,5.0


In [7]:
df.shape

(6, 4)

In [8]:
len(df)

6

### Индексация и Series

In [9]:
# имена столбцов могут быть использованы в квадр скобках, как у словаря
df['weight']

0    4.0
1    2.0
2    0.7
3    5.0
4    5.0
5    4.5
Name: weight, dtype: float64

In [10]:
type(df['weight'])

pandas.core.series.Series

In [11]:
# Series немного похож на массив Numpy ndarray: если тип данных 
# числовой, можно использовать широковещательные операции NumPy
df['weight']**2

0    16.00
1     4.00
2     0.49
3    25.00
4    25.00
5    20.25
Name: weight, dtype: float64

In [12]:
np.sin(df['age'])

0    0.909297
1    0.141120
2    0.841471
3   -0.756802
4   -0.756802
5    0.841471
Name: age, dtype: float64

In [13]:
# Можно использовать не только имя одного столбца, а список имен в качестве индекса
df[['name','hungry']]

Unnamed: 0,name,hungry
0,Pooh,True
1,Rabbit,False
2,Piglet,False
3,Owl,False
4,Eeyore,False
5,Tigger,False


In [14]:
# квадратные скобки относятся к столбцам, а не к строкам
df[2]

KeyError: 2

In [15]:
# слайсы в квадратных скобках относятся к строкам
df[2:5]

Unnamed: 0,name,age,hungry,weight
2,Piglet,1,False,0.7
3,Owl,4,False,5.0
4,Eeyore,4,False,5.0


In [16]:
# индекс по умолчанию, 0..stop-1
df.index

RangeIndex(start=0, stop=6, step=1)

In [17]:
# имена стобцов – тоже индекс
df.columns

Index(['name', 'age', 'hungry', 'weight'], dtype='object')

In [18]:
# не обязательно индексы подряд: возьмем часть в новый DataFrame:
df2 = df[df['weight']>=4]
df2

Unnamed: 0,name,age,hungry,weight
0,Pooh,2,True,4.0
3,Owl,4,False,5.0
4,Eeyore,4,False,5.0
5,Tigger,1,False,4.5


In [19]:
# в слайсе указываются не значения индекса, а номера строк, как в массиве
df2[0:2]

Unnamed: 0,name,age,hungry,weight
0,Pooh,2,True,4.0
3,Owl,4,False,5.0


In [20]:
# можно установить столбец данных в качестве индекса
df2.set_index('name', inplace=True)
df2

Unnamed: 0_level_0,age,hungry,weight
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Pooh,2,True,4.0
Owl,4,False,5.0
Eeyore,4,False,5.0
Tigger,1,False,4.5


In [21]:
# у индекса может быть имя
df2.index

Index(['Pooh', 'Owl', 'Eeyore', 'Tigger'], dtype='object', name='name')

In [22]:
# можно сбросить индекс, вернув его в обычные колонки и перенумеровав строки 0..N
df2.reset_index(inplace=True)
df2

Unnamed: 0,name,age,hungry,weight
0,Pooh,2,True,4.0
1,Owl,4,False,5.0
2,Eeyore,4,False,5.0
3,Tigger,1,False,4.5


In [23]:
df2.set_index('name', inplace=True)
df2

Unnamed: 0_level_0,age,hungry,weight
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Pooh,2,True,4.0
Owl,4,False,5.0
Eeyore,4,False,5.0
Tigger,1,False,4.5


In [24]:
#loc - обращение по индексам
df2.loc['Owl']

age           4
hungry    False
weight      5.0
Name: Owl, dtype: object

In [25]:
df2.loc[['Owl', 'Pooh']]

Unnamed: 0_level_0,age,hungry,weight
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Owl,4,False,5.0
Pooh,2,True,4.0


In [26]:
# по диапазону
df2.loc['Owl':'Tigger']

Unnamed: 0_level_0,age,hungry,weight
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Owl,4,False,5.0
Eeyore,4,False,5.0
Tigger,1,False,4.5


In [27]:
# по двум осям
df2.loc[['Owl', 'Pooh'], 'weight']

name
Owl     5.0
Pooh    4.0
Name: weight, dtype: float64