**Pandas** - основной инструмент работы аналитика на *малых данных*.
Сразу отметим, что на *больших данных* у пандаса начинаются проблемы
с оперативной памятью и скоростью обработки данных.

Практически все основные функции описаны в этой книге:
https://github.com/PacktPublishing/Learning-Pandas-Second-Edition

В этой лекции рассмотрим основные функции pandas, numpy
и нативного Python, которые полезно использовать
при работе с данными.

In [12]:
# Импортируем библиотеки для графиков и вычислений
import numpy as np # массивы для быстрых вычислений
import pandas as pd  # pandas - для работы с датафреймами

import matplotlib.pyplot as plt # классика графиков
import seaborn as sns # более красивая классика графиков
# https://pyprog.pro/mpl/mpl_magic_teams.html
plt.rcParams['figure.figsize'] = (16, 9) # глобально меняем размер графиков

# Отключить предупреждения Анаконды
import warnings
warnings.filterwarnings("ignore")

In [13]:
# Импорт файла
import os # работа с директориями
# Установить радочую директорию - по умолчанию Python считывать файлы отсюда
print(os.getcwd()) # показать рабочую директорию
# os.chdir() - меняем рабочую директорию
# Импортируем датасет с результатами олимпийских игр прям с гитхаба
df = pd.read_csv('https://raw.githubusercontent.com/iakubovskii7/DataScience/main/DataAnalysis/Data/athlete_events.csv')

/Users/iakubovskii/Репетитор/DataScience/Data-Science-/DataAnalysis


In [14]:
# glob - посмотреть на все файлы с нужными расширениями
import glob
glob.glob("*.csv") # все csv файлы в рабочей директории

glob.glob("*.ipynb") # все тетрадки

glob.glob("*")  # все файлы

['Лекция 3. АB тестирование как частный случай проверки гипотез.ipynb',
 'Лекция 4. EDA (exploratory data analysis) - разведочный анализ данных в pandas.ipynb',
 'Лекция 2. Numpy и основные распределения в статистике.ipynb',
 'Лекция 1. Контейнеры, функции.ipynb',
 'Homeworks',
 'Обобщение знаний.ipynb',
 'Data']

# 1. Контейнеры: списки, кортежи, множества, словари

In [15]:
name_list = df['Name'].tolist() # Из пандаса в список

len(name_list) # Длина списка

sports_len_bigger_50 = [i for i in name_list if len(i)>50] # Вытащим спортсменов с длиной полного имени больше 50 (list comprehension)
print(sports_len_bigger_50[:3])

['Abdul Aziz Hassan Al-Hadba Abdul Karim Abdul Kareem', 'Abdul Aziz Hassan Al-Hadba Abdul Karim Abdul Kareem', 'Edith Addams de Habbelinck (-Lutjens, -Taylor, -Bel Geddes)']


In [16]:
# Применяем анонимную функцию длины строки к списку. Данная функция применяется к каждому элементу списка.
# Здесь x - каждый элемент списка
count_A = list(map(lambda x: len(x), name_list))
print(count_A[20:30])

[12, 12, 12, 12, 12, 12, 34, 34, 16, 30]


In [17]:
# Операции с текстовыми переменными
name_0 = name_list[0] # вытащим первый элемент списка

print(name_0.split(" ")) # разобьем данную переменную на два элемента при помощи разделителя "пробел"

name_0.replace("i", "ii") # заменим букву i на двойную i

['A', 'Dijiang']


'A Diijiiang'

In [18]:
# Множества - уникальный список (список, где не повторяются элементы)
set(name_list)
# f-string
 # сравним длину списка с длиной множества, для данного списка
print(f"Длина списка = {len(name_list)}, длина множества из этого списка = {len(set(name_list))}")


Длина списка = 271116, длина множества из этого списка = 134732


In [19]:
# Словарик из двух списков через zip. Ключ - имя, значение - длина имени.
# Найдем длину имени
# 1 способ - list comprehension
name_list_len = [len(i) for i in name_list]
# 2 способ - через map с лямбдой
name_list_len = list(map(lambda x: len(x), name_list))
# 3 способ - через map без лямбды
name_list_len = list(map(len, name_list))

# Соединяем через zip
dict_name_len = dict(zip(name_list, name_list_len))
# Вытащим первые пять пар ключ-значения из полученного словаря
from itertools import islice

def take(n, iterable):
    "Return first n items of the iterable as a list"
    return list(islice(iterable, n))


take(5, dict_name_len.items())

[('A Dijiang', 9),
 ('A Lamusi', 8),
 ('Gunnar Nielsen Aaby', 19),
 ('Edgar Lindenau Aabye', 20),
 ('Christine Jacoba Aaftink', 24)]

In [20]:
keys = dict_name_len.keys() # вытащить все ключи
values = dict_name_len.values() # вытащить все значения
items = dict_name_len.items()# вытащить ключ-значение
# Dict comprehension - filter
short_names = {k: v for k, v in items if v < 10}
take(5, short_names.items())

[('A Dijiang', 9),
 ('A Lamusi', 8),
 ('Rolf Aas', 8),
 ('Luc Abalo', 9),
 ('Pter Abay', 9)]

# 2. Numpy

Векторизованные массивы для ускоренных вычислений.

In [21]:
# Перейдем из пандаса-сериес к массиву (несколько способов) - векторизация столбцов
age = df['Age'].values
age = np.array(df['Age'])
age_not_nan = df['Age'].dropna().values

height_not_nan = df['Height'].dropna().values

age_fill_nan = df['Age'].fillna(df['Age'].mean()).values

height_fill_nan = df['Height'].fillna(df['Height'].mean()).values

In [22]:
# Размерность
print(age.shape) # размерность массива - нет столбцов и строк, а есть только число элементов

# Поэтому зачастую нам нужно явно указать, что у нас матрица с 1 столбцом
age = age.reshape(-1, 1)

# Посмотрим на новую размерность
print(age.shape)

(271116,)
(271116, 1)


In [23]:
# Транспонирование
age_height = df[['Age',"Height"]].values
age_height.T

array([[ 24.,  23.,  24., ...,  27.,  30.,  34.],
       [180., 170.,  nan, ..., 176., 185., 185.]])

In [24]:
# Объединяем массивы
np.hstack([age_height, age]) # если нам нужно добавить столбец
np.vstack([age_height[1:100], age_height[101:200]]) # если нужно добавить строки
# Еще один способ
np.c_[age_height, np.ones(age_height.shape[0]).reshape(-1,1)] # так же как hstack

array([[ 24., 180.,   1.],
       [ 23., 170.,   1.],
       [ 24.,  nan,   1.],
       ...,
       [ 27., 176.,   1.],
       [ 30., 185.,   1.],
       [ 34., 185.,   1.]])

In [25]:
# Статистики (одна переменная). Помним, что в случае присутствия nan - выдаст nan как результат
print(np.nanmean(age), np.nanstd(age), np.nanvar(age))

# Нет nan
print(np.mean(age_not_nan), np.std(age_not_nan), np.var(age_not_nan))
print("-"*100)
# Статистики (две переменные)

# Ковариация
print(np.cov(np.hstack([age_fill_nan.reshape(-1,1),
                            height_fill_nan.reshape(-1,1)]).T))
print("-"*100)
# Корреляция
print(np.corrcoef(np.hstack([age_fill_nan.reshape(-1,1),
                            height_fill_nan.reshape(-1,1)]).T))

25.556898357297374 6.393548628877116 40.87746406981645
25.556898357297374 6.393548628877115 40.87746406981643
----------------------------------------------------------------------------------------------------
[[39.449169    6.23212917]
 [ 6.23212917 86.08314663]]
----------------------------------------------------------------------------------------------------
[[1.        0.1069445]
 [0.1069445 1.       ]]


In [26]:
np.hstack([age_fill_nan.reshape(-1,1),
                            height_fill_nan.reshape(-1,1)]).T

array([[ 24.        ,  23.        ,  24.        , ...,  27.        ,
         30.        ,  34.        ],
       [180.        , 170.        , 175.33896987, ..., 176.        ,
        185.        , 185.        ]])

In [27]:
# Квантили
print(np.percentile(age_fill_nan, [1,5,10,25,50,75,95,99]))
print("-"*100)

# Квантили вручную
# Количество людей возраста 15 и менее лет делить на общее количество людей
print(age_fill_nan[age_fill_nan<=15].shape[0] / age_fill_nan.shape[0])

# Количество людей возраста 19 и менее лет делить на общее количество людей
print(age_fill_nan[age_fill_nan<=19].shape[0] / age_fill_nan.shape[0])

# Медиана - 50% квантиль
print(f"Количество людей в возрасте менее 25 лет = {age_fill_nan[age_fill_nan<=25].shape[0]}")

print(f"Количество людей в возрасте более 25 лет = {age_fill_nan[age_fill_nan>=25].shape[0]}")

[15. 18. 19. 22. 25. 28. 37. 48.]
----------------------------------------------------------------------------------------------------
0.01209814249251243
0.1191482612608625
Количество людей в возрасте менее 25 лет = 150841
Количество людей в возрасте более 25 лет = 139982


# 3. Pandas. Часть 1

In [28]:
# Tidy datasets - строки - наблюдения, стобцы - переменные.
print(df.shape) # количество строк и столбцов

print(df.columns) # названия столбцов

print(df.info()) # общая информация
print(df.info(memory_usage="deep")) # точный размер датасета

(271116, 15)
Index(['ID', 'Name', 'Sex', 'Age', 'Height', 'Weight', 'Team', 'NOC', 'Games',
       'Year', 'Season', 'City', 'Sport', 'Event', 'Medal'],
      dtype='object')
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 271116 entries, 0 to 271115
Data columns (total 15 columns):
 #   Column  Non-Null Count   Dtype  
---  ------  --------------   -----  
 0   ID      271116 non-null  int64  
 1   Name    271116 non-null  object 
 2   Sex     271116 non-null  object 
 3   Age     261642 non-null  float64
 4   Height  210945 non-null  float64
 5   Weight  208241 non-null  float64
 6   Team    271116 non-null  object 
 7   NOC     271116 non-null  object 
 8   Games   271116 non-null  object 
 9   Year    271116 non-null  int64  
 10  Season  271116 non-null  object 
 11  City    271116 non-null  object 
 12  Sport   271116 non-null  object 
 13  Event   271116 non-null  object 
 14  Medal   39783 non-null   object 
dtypes: float64(3), int64(2), object(10)
memory usage: 31.0+ MB
None

In [29]:
# Переименовать столбцы
df = df.rename(columns = {"ID":"id"})
df.head()

Unnamed: 0,id,Name,Sex,Age,Height,Weight,Team,NOC,Games,Year,Season,City,Sport,Event,Medal
0,1,A Dijiang,M,24.0,180.0,80.0,China,CHN,1992 Summer,1992,Summer,Barcelona,Basketball,Basketball Men's Basketball,
1,2,A Lamusi,M,23.0,170.0,60.0,China,CHN,2012 Summer,2012,Summer,London,Judo,Judo Men's Extra-Lightweight,
2,3,Gunnar Nielsen Aaby,M,24.0,,,Denmark,DEN,1920 Summer,1920,Summer,Antwerpen,Football,Football Men's Football,
3,4,Edgar Lindenau Aabye,M,34.0,,,Denmark/Sweden,DEN,1900 Summer,1900,Summer,Paris,Tug-Of-War,Tug-Of-War Men's Tug-Of-War,Gold
4,5,Christine Jacoba Aaftink,F,21.0,185.0,82.0,Netherlands,NED,1988 Winter,1988,Winter,Calgary,Speed Skating,Speed Skating Women's 500 metres,


In [30]:
# Заполнить пропуски
# method ffill - присваивает пропуску предыдущее значение (если мы идем сверху вниз)
pd.Series([1,np.nan,np.nan,2]).fillna(method = "ffill")

0    1.0
1    1.0
2    1.0
3    2.0
dtype: float64

In [31]:
# Заполнить пропуски
# method bfill - присваивает пропуску последующее значение (если мы идем сверху вниз)
pd.Series([1,np.nan,np.nan,2]).fillna(method = "bfill")

0    1.0
1    2.0
2    2.0
3    2.0
dtype: float64

In [32]:
# Заполнить пропуски числами
pd.Series([1,np.nan,np.nan,2]).fillna(0)

0    1.0
1    0.0
2    0.0
3    2.0
dtype: float64

In [33]:
# Статистики в пандасе
df.describe()

Unnamed: 0,id,Age,Height,Weight,Year
count,271116.0,261642.0,210945.0,208241.0,271116.0
mean,68248.954396,25.556898,175.33897,70.702393,1978.37848
std,39022.286345,6.393561,10.518462,14.34802,29.877632
min,1.0,10.0,127.0,25.0,1896.0
25%,34643.0,21.0,168.0,60.0,1960.0
50%,68205.0,24.0,175.0,70.0,1988.0
75%,102097.25,28.0,183.0,79.0,2002.0
max,135571.0,97.0,226.0,214.0,2016.0


In [34]:
# Выбрать квантили
df.describe(percentiles = [.2,.5,.95])

Unnamed: 0,id,Age,Height,Weight,Year
count,271116.0,261642.0,210945.0,208241.0,271116.0
mean,68248.954396,25.556898,175.33897,70.702393,1978.37848
std,39022.286345,6.393561,10.518462,14.34802,29.877632
min,1.0,10.0,127.0,25.0,1896.0
20%,27817.0,21.0,167.0,59.0,1952.0
50%,68205.0,24.0,175.0,70.0,1988.0
95%,128978.0,37.0,193.0,95.0,2016.0
max,135571.0,97.0,226.0,214.0,2016.0


In [35]:
# Включить в результат не только количественные переменные
df.describe(include = "all")

Unnamed: 0,id,Name,Sex,Age,Height,Weight,Team,NOC,Games,Year,Season,City,Sport,Event,Medal
count,271116.0,271116,271116,261642.0,210945.0,208241.0,271116,271116,271116,271116.0,271116,271116,271116,271116,39783
unique,,134732,2,,,,1184,230,51,,2,42,66,765,3
top,,Robert Tait McKenzie,M,,,,United States,USA,2000 Summer,,Summer,London,Athletics,Football Men's Football,Gold
freq,,58,196594,,,,17847,18853,13821,,222552,22426,38624,5733,13372
mean,68248.954396,,,25.556898,175.33897,70.702393,,,,1978.37848,,,,,
std,39022.286345,,,6.393561,10.518462,14.34802,,,,29.877632,,,,,
min,1.0,,,10.0,127.0,25.0,,,,1896.0,,,,,
25%,34643.0,,,21.0,168.0,60.0,,,,1960.0,,,,,
50%,68205.0,,,24.0,175.0,70.0,,,,1988.0,,,,,
75%,102097.25,,,28.0,183.0,79.0,,,,2002.0,,,,,


In [36]:
# Срезы - фильтрация по условии
df[df["Name"] == "Robert Tait McKenzie"].head(5)

Unnamed: 0,id,Name,Sex,Age,Height,Weight,Team,NOC,Games,Year,Season,City,Sport,Event,Medal
154798,77710,Robert Tait McKenzie,M,44.0,,,Canada,CAN,1912 Summer,1912,Summer,Stockholm,Art Competitions,Art Competitions Mixed Sculpturing,
154799,77710,Robert Tait McKenzie,M,60.0,,,Canada,CAN,1928 Summer,1928,Summer,Amsterdam,Art Competitions,"Art Competitions Mixed Sculpturing, Statues",
154800,77710,Robert Tait McKenzie,M,60.0,,,Canada,CAN,1928 Summer,1928,Summer,Amsterdam,Art Competitions,"Art Competitions Mixed Sculpturing, Statues",
154801,77710,Robert Tait McKenzie,M,60.0,,,Canada,CAN,1928 Summer,1928,Summer,Amsterdam,Art Competitions,"Art Competitions Mixed Sculpturing, Statues",
154802,77710,Robert Tait McKenzie,M,60.0,,,Canada,CAN,1928 Summer,1928,Summer,Amsterdam,Art Competitions,"Art Competitions Mixed Sculpturing, Statues",


In [37]:
# Срезы - фильтрация по условии - несколько условий
df[(df["Age"] == 25) & (df['Weight'] == 60)]

Unnamed: 0,id,Name,Sex,Age,Height,Weight,Team,NOC,Games,Year,Season,City,Sport,Event,Medal
1180,660,Karem Faride Achach Ramrez,F,25.0,169.0,60.0,Mexico,MEX,2016 Summer,2016,Summer,Rio de Janeiro,Synchronized Swimming,Synchronized Swimming Women's Duet,
4579,2604,Khaido Alexouli,F,25.0,180.0,60.0,Greece,GRE,2016 Summer,2016,Summer,Rio de Janeiro,Athletics,Athletics Women's Long Jump,
5612,3174,Lzaro Jorge lvarez Estrada,M,25.0,173.0,60.0,Cuba,CUB,2016 Summer,2016,Summer,Rio de Janeiro,Boxing,Boxing Men's Lightweight,Bronze
6131,3451,Iraj Amir-Akhori,M,25.0,164.0,60.0,Iran,IRI,1988 Summer,1988,Summer,Seoul,Cycling,"Cycling Men's Road Race, Individual",
7191,4018,Misako Ando,F,25.0,163.0,60.0,Japan,JPN,1996 Summer,1996,Summer,Atlanta,Softball,Softball Women's Softball,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
270806,135436,Luis Zuiga,M,25.0,167.0,60.0,Chile,CHI,1964 Summer,1964,Summer,Tokyo,Boxing,Boxing Men's Lightweight,
270831,135447,Matja Zupan,M,25.0,179.0,60.0,Slovenia,SLO,1994 Winter,1994,Winter,Lillehammer,Ski Jumping,"Ski Jumping Men's Large Hill, Individual",
270832,135447,Matja Zupan,M,25.0,179.0,60.0,Slovenia,SLO,1994 Winter,1994,Winter,Lillehammer,Ski Jumping,"Ski Jumping Men's Large Hill, Team",
270977,135502,"Nataliya Maratovna ""Natasha"" Zvereva",F,25.0,172.0,60.0,Belarus,BLR,1996 Summer,1996,Summer,Atlanta,Tennis,Tennis Women's Singles,


In [38]:
# Срезы - фильтрация по условии - несколько условий - избегаем лишние скобки
df.query("Age == 25 & Weight == 60").shape

(585, 15)

In [39]:
# Срезы - фильрация по нескольким условиям
df[df['Age'].isin([25,27,29])].head()

Unnamed: 0,id,Name,Sex,Age,Height,Weight,Team,NOC,Games,Year,Season,City,Sport,Event,Medal
6,5,Christine Jacoba Aaftink,F,25.0,185.0,82.0,Netherlands,NED,1992 Winter,1992,Winter,Albertville,Speed Skating,Speed Skating Women's 500 metres,
7,5,Christine Jacoba Aaftink,F,25.0,185.0,82.0,Netherlands,NED,1992 Winter,1992,Winter,Albertville,Speed Skating,"Speed Skating Women's 1,000 metres",
8,5,Christine Jacoba Aaftink,F,27.0,185.0,82.0,Netherlands,NED,1994 Winter,1994,Winter,Lillehammer,Speed Skating,Speed Skating Women's 500 metres,
9,5,Christine Jacoba Aaftink,F,27.0,185.0,82.0,Netherlands,NED,1994 Winter,1994,Winter,Lillehammer,Speed Skating,"Speed Skating Women's 1,000 metres",
79,21,Ragnhild Margrethe Aamodt,F,27.0,163.0,,Norway,NOR,2008 Summer,2008,Summer,Beijing,Handball,Handball Women's Handball,Gold


In [40]:
# Фильтрация по текстовой переменной
df[df['Name'].str.contains("Christine")].head() # можно указывать регулярное выражение

Unnamed: 0,id,Name,Sex,Age,Height,Weight,Team,NOC,Games,Year,Season,City,Sport,Event,Medal
4,5,Christine Jacoba Aaftink,F,21.0,185.0,82.0,Netherlands,NED,1988 Winter,1988,Winter,Calgary,Speed Skating,Speed Skating Women's 500 metres,
5,5,Christine Jacoba Aaftink,F,21.0,185.0,82.0,Netherlands,NED,1988 Winter,1988,Winter,Calgary,Speed Skating,"Speed Skating Women's 1,000 metres",
6,5,Christine Jacoba Aaftink,F,25.0,185.0,82.0,Netherlands,NED,1992 Winter,1992,Winter,Albertville,Speed Skating,Speed Skating Women's 500 metres,
7,5,Christine Jacoba Aaftink,F,25.0,185.0,82.0,Netherlands,NED,1992 Winter,1992,Winter,Albertville,Speed Skating,"Speed Skating Women's 1,000 metres",
8,5,Christine Jacoba Aaftink,F,27.0,185.0,82.0,Netherlands,NED,1994 Winter,1994,Winter,Lillehammer,Speed Skating,Speed Skating Women's 500 metres,


In [41]:
# Добавляем переменную
df['Male'] = np.where(df['Sex']=="M", 1, 0) # 1 способ

# 2 способ
df.loc[df['Sex'] == "M", "Male_"] = 1
df.loc[df['Sex'] == "F", "Male_"] = 0

In [42]:
# Подсчитаем частоту значений в столбце
df["Year"].value_counts().head(10)

1992    16413
1988    14676
2000    13821
1996    13780
2016    13688
2008    13602
2004    13443
2012    12920
1972    11959
1984    11588
Name: Year, dtype: int64

In [43]:
# Подсчитаем уникальные значения
df["Year"].unique()

array([1992, 2012, 1920, 1900, 1988, 1994, 1932, 2002, 1952, 1980, 2000,
       1996, 1912, 1924, 2014, 1948, 1998, 2006, 2008, 2016, 2004, 1960,
       1964, 1984, 1968, 1972, 1936, 1956, 1928, 1976, 2010, 1906, 1904,
       1908, 1896])

In [44]:
# Подсчитаем количество уникальных значений
df["Year"].nunique()

35

In [45]:
# MAP к столбцам
df['Name_len'] = df['Name'].map(len)
df['Name_len'].iloc[:5]

0     9
1     8
2    19
3    20
4    24
Name: Name_len, dtype: int64

In [46]:
# Фильтрация по столбцам через map
df[df["Name"].map(len)<10].head() # фильтруем все строки, где длины имени меньше 10

Unnamed: 0,id,Name,Sex,Age,Height,Weight,Team,NOC,Games,Year,Season,City,Sport,Event,Medal,Male,Male_,Name_len
0,1,A Dijiang,M,24.0,180.0,80.0,China,CHN,1992 Summer,1992,Summer,Barcelona,Basketball,Basketball Men's Basketball,,1,1.0,9
1,2,A Lamusi,M,23.0,170.0,60.0,China,CHN,2012 Summer,2012,Summer,London,Judo,Judo Men's Extra-Lightweight,,1,1.0,8
116,41,Rolf Aas,M,28.0,,,Norway,NOR,1920 Summer,1920,Summer,Antwerpen,Football,Football Men's Football,,1,1.0,8
173,73,Luc Abalo,M,23.0,182.0,86.0,France,FRA,2008 Summer,2008,Summer,Beijing,Handball,Handball Men's Handball,Gold,1,1.0,9
174,73,Luc Abalo,M,27.0,182.0,86.0,France,FRA,2012 Summer,2012,Summer,London,Handball,Handball Men's Handball,Gold,1,1.0,9


In [47]:
# Заполнить пропуски
df['Age'] = df['Age'].fillna(df['Age'].mean())

In [48]:
# Удалить дубликаты (посмотрим на все олимпийские виды спорта за всю историю)
df[["Sport"]].drop_duplicates()

Unnamed: 0,Sport
0,Basketball
1,Judo
2,Football
3,Tug-Of-War
4,Speed Skating
...,...
21488,Jeu De Paume
29994,Roque
30323,Alpinism
50275,Basque Pelota


In [49]:
# Удалить дубликаты (посмотрим на все олимпийские виды спорта в разбивке по летним и зимним)
df[["Season", "Sport"]].drop_duplicates()

Unnamed: 0,Season,Sport
0,Summer,Basketball
1,Summer,Judo
2,Summer,Football
3,Summer,Tug-Of-War
4,Winter,Speed Skating
...,...,...
29994,Summer,Roque
30323,Winter,Alpinism
50275,Summer,Basque Pelota
60639,Summer,Alpinism


In [50]:
# Вывести дубликаты  (выдает False если такое значение еще не встречалось в столбце)
df[['Sport']].duplicated()

0         False
1         False
2         False
3         False
4         False
          ...  
271111     True
271112     True
271113     True
271114     True
271115     True
Length: 271116, dtype: bool

In [51]:
# Сортировка (например - по возрасту)
# По умолчанию - по возрастанию
df['Age'].sort_values()

142882    10.0
94058     11.0
102916    11.0
152798    11.0
43468     11.0
          ... 
60861     88.0
60862     88.0
60863     88.0
98118     96.0
257054    97.0
Name: Age, Length: 271116, dtype: float64

In [52]:
# Сортировка (например - по весу)
# По умолчанию - по возрастанию
df['Weight'].sort_values(ascending = False)

23156     214.0
23155     214.0
205467    198.0
75031     190.0
237040    182.0
          ...  
271038      NaN
271042      NaN
271043      NaN
271075      NaN
271100      NaN
Name: Weight, Length: 271116, dtype: float64

In [53]:
# Вытащить первые n наблюдений (наибольшие или наименьшие)
print(df['Age'].nlargest(10))
df['Age'].nsmallest(10)

257054    97.0
98118     96.0
60861     88.0
60862     88.0
60863     88.0
9371      84.0
154855    81.0
236912    81.0
138812    80.0
138813    80.0
Name: Age, dtype: float64


142882    10.0
43468     11.0
73461     11.0
79024     11.0
94058     11.0
101378    11.0
102916    11.0
140650    11.0
152798    11.0
237141    11.0
Name: Age, dtype: float64

In [54]:
# Cводные таблицы
df.pivot_table(index = "NOC", columns = "Year", values = "Age",
              aggfunc = np.mean)

Year,1896,1900,1904,1906,1908,1912,1920,1924,1928,1932,...,1998,2000,2002,2004,2006,2008,2010,2012,2014,2016
NOC,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
AFG,,,,,,,,,,,...,,,,18.600000,,22.500000,,24.833333,,24.666667
AHO,,,,,,,,,,,...,,30.625000,,32.333333,,23.000000,,,,
ALB,,,,,,,,,,,...,,31.200000,,20.857143,19.000000,27.250000,23.00,25.700000,20.0,23.666667
ALG,,,,,,,,,,,...,,24.901961,,25.084507,24.333333,25.210526,17.00,24.846154,,23.959459
AND,,,,,,,,,,,...,23.857143,31.000000,24.6,29.666667,24.800000,26.600000,23.55,32.000000,23.5,26.000000
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
YEM,,,,,,,,,,,...,,25.000000,,20.000000,,21.375000,,20.000000,,19.333333
YMD,,,,,,,,,,,...,,,,,,,,,,
YUG,,,,,,,22.2,25.468434,25.903302,34.0,...,,,,,,,,,,
ZAM,,,,,,,,,,,...,,23.000000,,22.500000,,21.875000,,22.571429,,24.142857


In [55]:
# Группировка
df.groupby(['NOC'])['Age'].mean()

NOC
AFG    24.307390
AHO    26.576670
ALB    25.342857
ALG    24.383560
AND    23.065089
         ...    
YEM    21.093750
YMD    23.600000
YUG    24.786233
ZAM    23.793170
ZIM    25.202938
Name: Age, Length: 230, dtype: float64

In [56]:
# Группировка
df.groupby(['NOC'], as_index = False)['Age'].mean()

Unnamed: 0,NOC,Age
0,AFG,24.307390
1,AHO,26.576670
2,ALB,25.342857
3,ALG,24.383560
4,AND,23.065089
...,...,...
225,YEM,21.093750
226,YMD,23.600000
227,YUG,24.786233
228,ZAM,23.793170


In [57]:
# Группировка - вытащить 10 самых больших значений
df.groupby(['NOC'])['Age'].mean().nlargest(10)

NOC
MON    29.910362
NAM    27.857143
DEN    27.347466
IRL    27.318934
ISV    27.318608
ASA    27.216216
MNE    27.074468
POR    26.989752
AUT    26.916465
GBR    26.841294
Name: Age, dtype: float64

In [58]:
#  Группировка
df.groupby(['NOC',"Year"], as_index = False)['Age'].mean()

Unnamed: 0,NOC,Year,Age
0,AFG,1936,24.347306
1,AFG,1948,25.556898
2,AFG,1956,25.556898
3,AFG,1960,23.312500
4,AFG,1964,22.444612
...,...,...,...
3300,ZIM,2004,25.071429
3301,ZIM,2008,26.062500
3302,ZIM,2012,27.333333
3303,ZIM,2014,20.000000


In [59]:
# Группировка и преобразования мультиндекса
df.groupby(['NOC',"Year"])['Age'].mean().unstack() # по факту мы перешли к сводной таблице (pivot_table выше)

Year,1896,1900,1904,1906,1908,1912,1920,1924,1928,1932,...,1998,2000,2002,2004,2006,2008,2010,2012,2014,2016
NOC,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
AFG,,,,,,,,,,,...,,,,18.600000,,22.500000,,24.833333,,24.666667
AHO,,,,,,,,,,,...,,30.625000,,32.333333,,23.000000,,,,
ALB,,,,,,,,,,,...,,31.200000,,20.857143,19.000000,27.250000,23.00,25.700000,20.0,23.666667
ALG,,,,,,,,,,,...,,24.901961,,25.084507,24.333333,25.210526,17.00,24.846154,,23.959459
AND,,,,,,,,,,,...,23.857143,31.000000,24.6,29.666667,24.800000,26.600000,23.55,32.000000,23.5,26.000000
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
YEM,,,,,,,,,,,...,,25.000000,,20.000000,,21.375000,,20.000000,,19.333333
YMD,,,,,,,,,,,...,,,,,,,,,,
YUG,,,,,,,22.2,25.468434,25.903302,34.0,...,,,,,,,,,,
ZAM,,,,,,,,,,,...,,23.000000,,22.500000,,21.875000,,22.571429,,24.142857


In [60]:
# Перейдем обратно к иерархическим индексам
df.pivot_table(index = "NOC", columns = "Year", values = "Age",
              aggfunc = np.mean).stack() # переходит к groupby выше

NOC  Year
AFG  1936    24.347306
     1948    25.556898
     1956    25.556898
     1960    23.312500
     1964    22.444612
               ...    
ZIM  2004    25.071429
     2008    26.062500
     2012    27.333333
     2014    20.000000
     2016    27.483871
Length: 3305, dtype: float64

In [61]:
# Stack - столбцы преобразуем в индекс

df.stack().unstack()

Unnamed: 0,id,Name,Sex,Age,Height,Weight,Team,NOC,Games,Year,Season,City,Sport,Event,Medal,Male,Male_,Name_len
0,1,A Dijiang,M,24.0,180.0,80.0,China,CHN,1992 Summer,1992,Summer,Barcelona,Basketball,Basketball Men's Basketball,,1,1.0,9
1,2,A Lamusi,M,23.0,170.0,60.0,China,CHN,2012 Summer,2012,Summer,London,Judo,Judo Men's Extra-Lightweight,,1,1.0,8
2,3,Gunnar Nielsen Aaby,M,24.0,,,Denmark,DEN,1920 Summer,1920,Summer,Antwerpen,Football,Football Men's Football,,1,1.0,19
3,4,Edgar Lindenau Aabye,M,34.0,,,Denmark/Sweden,DEN,1900 Summer,1900,Summer,Paris,Tug-Of-War,Tug-Of-War Men's Tug-Of-War,Gold,1,1.0,20
4,5,Christine Jacoba Aaftink,F,21.0,185.0,82.0,Netherlands,NED,1988 Winter,1988,Winter,Calgary,Speed Skating,Speed Skating Women's 500 metres,,0,0.0,24
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
271111,135569,Andrzej ya,M,29.0,179.0,89.0,Poland-1,POL,1976 Winter,1976,Winter,Innsbruck,Luge,Luge Mixed (Men)'s Doubles,,1,1.0,10
271112,135570,Piotr ya,M,27.0,176.0,59.0,Poland,POL,2014 Winter,2014,Winter,Sochi,Ski Jumping,"Ski Jumping Men's Large Hill, Individual",,1,1.0,8
271113,135570,Piotr ya,M,27.0,176.0,59.0,Poland,POL,2014 Winter,2014,Winter,Sochi,Ski Jumping,"Ski Jumping Men's Large Hill, Team",,1,1.0,8
271114,135571,Tomasz Ireneusz ya,M,30.0,185.0,96.0,Poland,POL,1998 Winter,1998,Winter,Nagano,Bobsleigh,Bobsleigh Men's Four,,1,1.0,18


In [62]:
# Иногда удобно преобразовать это в датафрейм
df.stack().to_frame("value")

Unnamed: 0,Unnamed: 1,value
0,id,1
0,Name,A Dijiang
0,Sex,M
0,Age,24.0
0,Height,180.0
...,...,...
271115,Sport,Bobsleigh
271115,Event,Bobsleigh Men's Four
271115,Male,1
271115,Male_,1.0


In [63]:
# Обратный unstack
df_ = df.stack().to_frame("value").unstack().head(5)

Иногда возникает проблема при таких преобразованиях, что у столбца появляется иерархический индекс и это не очень удобно. Его можно удалить через columns.droplevel

In [64]:
print(df_.columns[:5])
df_.columns = df_.columns.droplevel(0)
print(df_.columns)

MultiIndex([('value',     'id'),
            ('value',   'Name'),
            ('value',    'Sex'),
            ('value',    'Age'),
            ('value', 'Height')],
           )
Index(['id', 'Name', 'Sex', 'Age', 'Height', 'Weight', 'Team', 'NOC', 'Games',
       'Year', 'Season', 'City', 'Sport', 'Event', 'Medal', 'Male', 'Male_',
       'Name_len'],
      dtype='object')


In [65]:
# Работа с иерархическими индексами
# https://pandas.pydata.org/pandas-docs/stable/user_guide/advanced.html

# Создадим новый датасет с иерархическим индексом

df1 = df.set_index(['Name','Team'])

In [66]:
# Обратимся к имени
df1.loc['A Lamusi']

Unnamed: 0_level_0,id,Sex,Age,Height,Weight,NOC,Games,Year,Season,City,Sport,Event,Medal,Male,Male_,Name_len
Team,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
China,2,M,23.0,170.0,60.0,CHN,2012 Summer,2012,Summer,London,Judo,Judo Men's Extra-Lightweight,,1,1.0,8


In [67]:
# Обратимся к имени
df1.xs('A Lamusi', level=0)

Unnamed: 0_level_0,id,Sex,Age,Height,Weight,NOC,Games,Year,Season,City,Sport,Event,Medal,Male,Male_,Name_len
Team,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
China,2,M,23.0,170.0,60.0,CHN,2012 Summer,2012,Summer,London,Judo,Judo Men's Extra-Lightweight,,1,1.0,8


In [68]:
# Обратимся к сборной
df1.xs("Russia", level=1).head()

Unnamed: 0_level_0,id,Sex,Age,Height,Weight,NOC,Games,Year,Season,City,Sport,Event,Medal,Male,Male_,Name_len
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
Mariya Vasilyevna Abakumova (-Tarabina),67,F,22.0,179.0,80.0,RUS,2008 Summer,2008,Summer,Beijing,Athletics,Athletics Women's Javelin Throw,Silver,0,0.0,39
Mariya Vasilyevna Abakumova (-Tarabina),67,F,26.0,179.0,80.0,RUS,2012 Summer,2012,Summer,London,Athletics,Athletics Women's Javelin Throw,,0,0.0,39
Tamila Rashidovna Abasova,90,F,21.0,163.0,60.0,RUS,2004 Summer,2004,Summer,Athina,Cycling,Cycling Women's Sprint,Silver,0,0.0,25
Tamila Rashidovna Abasova,90,F,21.0,163.0,60.0,RUS,2004 Summer,2004,Summer,Athina,Cycling,Cycling Women's 500 metres Time Trial,,0,0.0,25
Adlan Aliyevich Abdurashidov,356,M,26.0,172.0,60.0,RUS,2016 Summer,2016,Summer,Rio de Janeiro,Boxing,Boxing Men's Lightweight,,1,1.0,28


# 3. Pandas. Часть 2 (работа с датами)

In [69]:
import pandas as pd
# Создать интервал
pd.date_range(start = "2018-01-01", end = "2020-01-01",
             freq = "5D")

DatetimeIndex(['2018-01-01', '2018-01-06', '2018-01-11', '2018-01-16',
               '2018-01-21', '2018-01-26', '2018-01-31', '2018-02-05',
               '2018-02-10', '2018-02-15',
               ...
               '2019-11-17', '2019-11-22', '2019-11-27', '2019-12-02',
               '2019-12-07', '2019-12-12', '2019-12-17', '2019-12-22',
               '2019-12-27', '2020-01-01'],
              dtype='datetime64[ns]', length=147, freq='5D')

In [70]:
# Список временных частот
pd.tseries.offsets.__all__[:10]

['Day',
 'BusinessDay',
 'BDay',
 'CustomBusinessDay',
 'CDay',
 'CBMonthEnd',
 'CBMonthBegin',
 'MonthBegin',
 'BMonthBegin',
 'MonthEnd']

Frequency (частотные интервалы):

Alias    Description

B        business day frequency

C        custom business day frequency

**D**        calendar day frequency

W        weekly frequency

M        month end frequency

SM       semi-month end frequency (15th and end of month)

BM       business month end frequency

CBM      custom business month end frequency

MS       month start frequency

SMS      semi-month start frequency (1st and 15th)

BMS      business month start frequency

CBMS     custom business month start frequency

**Q**        quarter end frequency

BQ       business quarter end frequency

QS       quarter start frequency

BQS      business quarter start frequency

**A, Y**     year end frequency

BA, BY   business year end frequency

AS, YS   year start frequency

BAS, BYS business year start frequency

BH       business hour frequency

**H**        hourly frequency

T, min   minutely frequency

**S**        secondly frequency

L, ms    milliseconds

U, us    microseconds

N        nanoseconds

К каждому частотному интервалу мы можем добавлять числа. Например, двухчасовой интервал - 2H:

In [71]:
pd.date_range(start = "2020-01-01", end = "2020-12-01",
              freq = "2H")[:10]

DatetimeIndex(['2020-01-01 00:00:00', '2020-01-01 02:00:00',
               '2020-01-01 04:00:00', '2020-01-01 06:00:00',
               '2020-01-01 08:00:00', '2020-01-01 10:00:00',
               '2020-01-01 12:00:00', '2020-01-01 14:00:00',
               '2020-01-01 16:00:00', '2020-01-01 18:00:00'],
              dtype='datetime64[ns]', freq='2H')

In [72]:
# Импортируем курс акций Apple
import pandas_datareader as pdr
apple = pdr.data.DataReader("AAPL", 'yahoo',
                            start = "2000-01-01",
                            end = "2020-12-01")
apple = apple.reset_index()

ModuleNotFoundError: No module named 'pandas_datareader'

In [None]:
# Вытащить из формата даты день, месяц, год, час и т.д.
print(apple['Date'].dt.year[:4])
print(apple['Date'].dt.month[:4])
print(apple['Date'].dt.day[:4])
print(apple['Date'].dt.hour[:4])

In [None]:
# Преобразовать через strftime
import datetime

x = datetime.datetime(2018, 9, 15)

print(x.strftime("%b %d %Y %H:%M:%S"))

print(x.strftime("%Y-%m-%d"))

print(x.strftime("%Y/%d/%m"))


%b: возвращает сокращенный месяц

%d: возвращает день в месяце: от 1 до 31.

%Y: Возвращает год в 4 значном формате

%H: Возвращает час

%M: Возврашает минуты

%S: Возвращает секунды

In [None]:
# Обратное преобразование в timestamp (можно применять к столбцам пандаса)
pd.to_datetime("2018/15/09", format = "%Y/%d/%m")

In [None]:
dti = pd.to_datetime(['Aug 1, 2014',
                      '2014-08-02',
                      '2014.8.3',
                      None])
dti

In [None]:
# Аггрегация временных данных - среднемесячная цены
apple.set_index("Date").resample("M")['Close'].mean()[:5]

In [None]:
# Аггрегация временных данных - максимальная цена
apple.set_index("Date").resample("M")['Close'].max()[:10]

# 3. Pandas. Часть 3 (слияния датасетов)

In [None]:
# Рассмотрим слияния датасетов на примере данных Всемирного Банка (World Bank)

# https://pandas-datareader.readthedocs.io/en/latest/remote_data.html

from pandas_datareader import wb
# Пример выгрузки данных по показателю доли сельского населения
data_wb = wb.download(indicator='NY.GDP.MKTP.CD',
                  country= "all",
                  start=2000, end=2019)

dat = data_wb.unstack()
dat.columns = dat.columns.droplevel(0) # чтобы избавиться от иерархическоих столбцов
# Датафрейм с сопоставлением названий стран и регионов по Всемирному Банку
iso =  wb.get_countries()

# Здесь еще нужно удалить все регионы, которые не являются отдельными странами

# Аггрегированные регионы - не страны
region_non_countr = iso[iso['region']=='Aggregates']


# Присоединяем трехзначные коды стран
dat = dat.join(iso[['iso3c',"name"]].set_index("name"))


# УДалим страны, для которых почему-то не нашлось сопоставления
dat = dat[dat['iso3c'].notna()]

# Удаляем все регионы, которые не являются отдельными странами
wb_data = dat[~dat['iso3c'].isin(region_non_countr['iso3c'].tolist())].set_index(
    "iso3c")

In [None]:
# Посмотреть, какие id относятся к каким показателям по данному запросу
matches = wb.search('gdp.*capita.*const')

In [None]:
# НЕсколько показателей выгрузить
data_wb_gdps = wb.download(indicator=['NY.GDP.MKTP.CD', "NY.GDP.PCAP.KD"],
                  country= "all",
                  start=2000, end=2019)

Краткое описание опций метода **merge** (используем его, когда соединяем датасеты не по индексу, а по названию столбцов).

- ***on*** - по какому столбцу соединяем два датасета

- ***how*** - внешнее или внутреннее слияние (outer - внешнее - сохраняем все данные по двум датасетам, inner - внутреннее - сохраняем только те значения, которые есть в обоих датасетах, left - только те, что есть в левом датасете, right - только те, что есть в правом датасете)

- ***suffixes*** - если в датасетах есть одинаковые столбцы, по которым не происходит слияния, то указываем суффиксы для них. Например, _left, _right



In [None]:
iso[['iso2c',"name"]].iloc[:10].merge(
iso[['iso3c','name']], on = "name", how = 'left')

In [None]:
iso[['iso2c',"name"]].iloc[:10].merge(
iso[['iso3c','name']].iloc[5:15], on = "name", how = 'right')

In [None]:
iso[['iso2c',"name"]].iloc[:10].merge(
iso[['iso3c','name']].iloc[5:15], on = "name", how = 'outer')

In [None]:
iso[['iso2c',"name"]].iloc[:10].merge(
iso[['iso3c','name']].iloc[5:15], on = "name", how = 'inner')

Метод **join** аналогичен методу **merge** за исключением того, что слияние происходит через индексы датасетов. Также суффиксы можно указывать отдельно для левого и отдельно для правого датасета (rsuffix = , lsuffix = ).

**Внимание! По умолчанию у метода join тип - left, а у merge - тип inner.**

In [None]:
iso[['iso2c',"name"]].iloc[:10].set_index("name").join(
iso[['iso3c','name']].iloc[5:15].set_index("name"))

In [None]:
iso[['iso2c',"name",'incomeLevel']].iloc[:10].set_index("name").join(
iso[['iso3c','name', 'incomeLevel']].iloc[5:15].set_index("name"),
rsuffix = "_right", lsuffix = "_left")