In [1]:
import numpy as np
import pandas as pd

In [2]:
df = pd.DataFrame({'visits_2021' : [100, 200, 300, 50, 40],
                   'visits_2020' : [90, 100, np.nan, 10, 80],
                   'visits_2019' : [10, np.nan, 20, 16, 80]}, index=['Moscow', 'Kazan', 'Ufa', 'Yakutsk', 'Novosibirsk'])

In [3]:
df

Unnamed: 0,visits_2021,visits_2020,visits_2019
Moscow,100,90.0,10.0
Kazan,200,100.0,
Ufa,300,,20.0
Yakutsk,50,10.0,16.0
Novosibirsk,40,80.0,80.0


In [4]:
#Подсчет суммы по столбцам
df.sum()

visits_2021    690.0
visits_2020    280.0
visits_2019    126.0
dtype: float64

In [5]:
#Подсчет суммы по строкам(городам)
df.sum(axis = 1)

Moscow         200.0
Kazan          300.0
Ufa            320.0
Yakutsk         76.0
Novosibirsk    200.0
dtype: float64

In [6]:
#Получим среднее значение по столбцам
df.mean()

visits_2021    138.0
visits_2020     70.0
visits_2019     31.5
dtype: float64

In [7]:
#Получим среднее значение по строкам
df.mean(axis = 1)

Moscow          66.666667
Kazan          150.000000
Ufa            160.000000
Yakutsk         25.333333
Novosibirsk     66.666667
dtype: float64

Допустим мы хотим контроллировать таблицу. Чтобы средние не считались если есть пропуски. Здесь нам поможет параметр функции skipna.

In [8]:
df.mean(axis=1, skipna=False)

Moscow         66.666667
Kazan                NaN
Ufa                  NaN
Yakutsk        25.333333
Novosibirsk    66.666667
dtype: float64

Получение минимальных и максимальных значений

In [9]:
df.min()

visits_2021    40.0
visits_2020    10.0
visits_2019    10.0
dtype: float64

In [11]:
df.min(axis=1)

Moscow          10.0
Kazan          100.0
Ufa             20.0
Yakutsk         10.0
Novosibirsk     40.0
dtype: float64

In [10]:
df.max()

visits_2021    300.0
visits_2020    100.0
visits_2019     80.0
dtype: float64

In [12]:
df.max(axis=1)

Moscow         100.0
Kazan          200.0
Ufa            300.0
Yakutsk         50.0
Novosibirsk     80.0
dtype: float64

- .describe() - очень полезная функция, сразу считает основные "характеристики" ДатаФрэйма

Работает только на столбцах

In [13]:
df.describe()

Unnamed: 0,visits_2021,visits_2020,visits_2019
count,5.0,4.0,4.0
mean,138.0,70.0,31.5
std,110.544109,40.824829,32.593455
min,40.0,10.0,10.0
25%,50.0,62.5,14.5
50%,100.0,85.0,18.0
75%,200.0,92.5,35.0
max,300.0,100.0,80.0


- посчитаем .describe() по строкам!

Для этого необходимо Транспонировать!

In [14]:
df.T.describe()

Unnamed: 0,Moscow,Kazan,Ufa,Yakutsk,Novosibirsk
count,3.0,2.0,2.0,3.0,3.0
mean,66.666667,150.0,160.0,25.333333,66.666667
std,49.328829,70.710678,197.989899,21.571586,23.094011
min,10.0,100.0,20.0,10.0,40.0
25%,50.0,125.0,90.0,13.0,60.0
50%,90.0,150.0,160.0,16.0,80.0
75%,95.0,175.0,230.0,33.0,80.0
max,100.0,200.0,300.0,50.0,80.0


In [16]:
#Воспользуемся Numpy для подсчета среднего значения
np.abs(df)

Unnamed: 0,visits_2021,visits_2020,visits_2019
Moscow,100,90.0,10.0
Kazan,200,100.0,
Ufa,300,,20.0
Yakutsk,50,10.0,16.0
Novosibirsk,40,80.0,80.0


- категориальные данные

In [18]:
s1 = pd.Series(['a','b','c','d','e'])
s1

0    a
1    b
2    c
3    d
4    e
dtype: object

In [19]:
s1.describe()

count     5
unique    5
top       a
freq      1
dtype: object

In [20]:
s1.describe(include=np.object)

Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  s1.describe(include=np.object)


count     5
unique    5
top       a
freq      1
dtype: object

- подсчет количества уникальных значений

In [22]:
s1.unique()

array(['a', 'b', 'c', 'd', 'e'], dtype=object)

In [26]:
#Показывает сколько раз встречаются значения
s1.value_counts()

a    1
b    1
c    1
d    1
e    1
dtype: int64

In [28]:
#При вызове с этим параметром будет посчитано количество элементов в процентилях от их общего числа в серии 
s1.value_counts(normalize=True)

a    0.2
b    0.2
c    0.2
d    0.2
e    0.2
dtype: float64

In [31]:
#Проверим серию на вхождение элемента
s1.isin(['c'])

0    False
1    False
2     True
3    False
4    False
dtype: bool

In [36]:
data = [['Ivan', 25, 4, 50, 1], 
        ['Petr', 40, 9, 250, 8], 
        ['Nikolay', 19, 12, 25, 1], 
        ['Sergey', 33, 6, 115, 6],
        ['Andrey', 38, 2, 152, 4],
        ['Ilya', 20, 18, 15, 2],
        ['Igor', 19, 2, 10, 1]]
df = pd.DataFrame(data, columns=['name', 'age', 'uclicks', 'balance', 'history'], index=list('abcdecg'))
df

Unnamed: 0,name,age,uclicks,balance,history
a,Ivan,25,4,50,1
b,Petr,40,9,250,8
c,Nikolay,19,12,25,1
d,Sergey,33,6,115,6
e,Andrey,38,2,152,4
c,Ilya,20,18,15,2
g,Igor,19,2,10,1


In [38]:
#Проверим датафрэйм
df['name'].isin(['Ilya','Petr'])

a    False
b     True
c    False
d    False
e    False
c     True
g    False
Name: name, dtype: bool