### Создаем мини-DataFrame руками

In [1]:
import pandas as pd
import numpy as np

In [2]:
df = pd.DataFrame([
                   ['Pooh',  2,True,   4],
                   ['Rabbit',3,False,  2],
                   ['Piglet',1,False,0.7],
                  ], columns=['name','age','hungry','weight'])
df

Unnamed: 0,name,age,hungry,weight
0,Pooh,2,True,4.0
1,Rabbit,3,False,2.0
2,Piglet,1,False,0.7


In [33]:
df.head()

Unnamed: 0,name,age,hungry,weight
0,Pooh,2,True,4.0
1,Rabbit,3,False,2.0
2,Piglet,1,False,0.7
3,Eeyore,5,True,7.0
4,Owl,4,False,5.0


### Описательные методы

In [34]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   name    6 non-null      object 
 1   age     6 non-null      int64  
 2   hungry  6 non-null      bool   
 3   weight  6 non-null      float64
dtypes: bool(1), float64(1), int64(1), object(1)
memory usage: 278.0+ bytes


In [35]:
df.head()

Unnamed: 0,name,age,hungry,weight
0,Pooh,2,True,4.0
1,Rabbit,3,False,2.0
2,Piglet,1,False,0.7
3,Eeyore,5,True,7.0
4,Owl,4,False,5.0


In [36]:
df.describe()

Unnamed: 0,age,weight
count,6.0,6.0
mean,2.666667,3.866667
std,1.632993,2.237558
min,1.0,0.7
25%,1.25,2.5
50%,2.5,4.25
75%,3.75,4.875
max,5.0,7.0


In [37]:
df.shape

(6, 4)

In [38]:
len(df)

6

### Индексация и Series

In [83]:
# имена столбцов могут быть использованы в квадр скобках, как у словаря
df['weight']

0    4.0
1    2.0
2    0.7
3    7.0
4    5.0
5    4.5
Name: weight, dtype: float64

In [104]:
type(df['weight'])

pandas.core.series.Series

In [85]:
# Series немного похож на массив Numpy ndarray: если тип данных 
# числовой, можно использовать широковещательные операции NumPy
df['weight']**2

0    16.00
1     4.00
2     0.49
3    49.00
4    25.00
5    20.25
Name: weight, dtype: float64

In [86]:
np.sin(df['age'])

0    0.909297
1    0.141120
2    0.841471
3   -0.958924
4   -0.756802
5    0.841471
Name: age, dtype: float64

In [65]:
# Можно использовать не только имя одного столбца, а список имен в качестве индекса
df[['name','hungry']]

Unnamed: 0,name,hungry
0,Pooh,True
1,Rabbit,False
2,Piglet,False
3,Eeyore,True
4,Owl,False
5,Tigger,False


In [66]:
# квадратные скобки относятся к столбцам, а не к строкам
df[2]

KeyError: 2

In [67]:
# слайсы в квадратных скобках относятся к строкам
df[2:5]

Unnamed: 0,name,age,hungry,weight
2,Piglet,1,False,0.7
3,Eeyore,5,True,7.0
4,Owl,4,False,5.0


In [87]:
# индекс по умолчанию, 0..stop-1
df.index

RangeIndex(start=0, stop=6, step=1)

In [88]:
# имена стобцов – тоже индекс
df.columns

Index(['name', 'age', 'hungry', 'weight'], dtype='object')

In [98]:
# не обязательно индексы подряд: возьмем часть в новый DataFrame:
df2 = df[df['weight']>=4]
df2

Unnamed: 0,name,age,hungry,weight
0,Pooh,2,True,4.0
3,Eeyore,5,True,7.0
4,Owl,4,False,5.0
5,Tigger,1,False,4.5


In [100]:
# в слайсе указываются не значения индекса, а номера строк, как в массиве
df2[0:2]

Unnamed: 0,name,age,hungry,weight
0,Pooh,2,True,4.0
3,Eeyore,5,True,7.0


In [101]:
# можно установить столбец данных в качестве индекса
df2.set_index('name', inplace=True)
df2

Unnamed: 0_level_0,age,hungry,weight
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Pooh,2,True,4.0
Eeyore,5,True,7.0
Owl,4,False,5.0
Tigger,1,False,4.5


In [102]:
# у индекса может быть имя
df2.index

Index(['Pooh', 'Eeyore', 'Owl', 'Tigger'], dtype='object', name='name')

In [103]:
# можно сбросить индекс, вернув его в обычные колонки и перенумеровав строки 0..N
df2.reset_index(inplace=True)
df2

Unnamed: 0,name,age,hungry,weight
0,Pooh,2,True,4.0
1,Eeyore,5,True,7.0
2,Owl,4,False,5.0
3,Tigger,1,False,4.5


Unnamed: 0,name,age,hungry,weight
0,Pooh,2,True,4.0
1,Rabbit,3,False,2.0
2,Piglet,1,False,0.7
3,Eeyore,5,True,7.0
4,Owl,4,False,5.0
5,Tigger,1,False,4.5
