**Pandas** - основной инструмент работы аналитика на *малых данных*.
Сразу отметим, что на *больших данных* у пандаса начинаются проблемы
с оперативной памятью и скоростью обработки данных.

Практически все основные функции описаны в этой книге:
https://github.com/PacktPublishing/Learning-Pandas-Second-Edition

В этой лекции рассмотрим основные функции pandas, numpy
и нативного Python, которые полезно использовать
при работе с данными.

In [2]:
# Импортируем библиотеки для графиков и вычислений
import numpy as np # массивы для быстрых вычислений
import pandas as pd  # pandas - для работы с датафреймами

import matplotlib.pyplot as plt # классика графиков
import seaborn as sns # более красивая классика графиков
# https://pyprog.pro/mpl/mpl_magic_teams.html
plt.rcParams['figure.figsize'] = (16, 9) # глобально меняем размер графиков

# Отключить предупреждения Анаконды
import warnings
warnings.filterwarnings("ignore")

In [32]:

# Импорт файла



import os # работа с директориями
# Установить радочую директорию - по умолчанию Python считывать файлы отсюда
os.chdir("../../DataAnalysis/Data/") #- меняем рабочую директорию
df = pd.read_csv("athlete_events.csv")

#  Мы импортировали датасет с результатами олимпийских игр

FileNotFoundError: [Errno 2] No such file or directory: '../../DataAnalysis/Data/'

In [29]:
# glob - посмотреть на все файлы с нужными расширениями
import glob
glob.glob("*.csv") # все csv файлы в рабочей директории

glob.glob("*.ipynb") # все тетрадки

glob.glob("*")  # все файлы

['Антон Филиппов_Проверено(71).ipynb',
 'ДЗ Наумова ФинТех_Проверено(47).ipynb',
 'ЗагарнюкЕМ_ДЗ_1_Проверено(98)Общий код с кем-то.ipynb',
 'Домашнее задание 1_Царева_Проверено(78).ipynb',
 'Homework Krasikov E_Проверено(65).ipynb',
 'Суван ООЛ Орлан_Проверено(40).ipynb',
 'Pustovarov_home01_Проверено(82).ipynb',
 'Панчук Александр Сергеевич_Проверено(50).ipynb',
 'Froltsov_Homework_Проверено(94).ipynb',
 'Мария_Базуева_Проверено(98).ipynb',
 'Пашинина Т_Проверено(85).ipynb',
 'olympic_games.txt',
 'Домашнее задание 1_МонгушТА_Проверено(80).ipynb',
 'Домаш_работа_Хомушку_ГА_3(просрочена)_\xa0Проверена(58).ipynb',
 'Алексей Каленов_Проверено(40).ipynb',
 'athlete_events.csv',
 'ДЗ Каширин_Проверено (общий код с Красиковым).ipynb',
 'Seleznev_HW1_Проверено(98).ipynb',
 'Братков Финтех_Проверено(88)_Общий код с Селезневым.ipynb',
 'Kuzmin Homework 1_Проверено(100).ipynb',
 'ДЗ Мурадян (1)_Проверено (Общий код с Красиковым).ipynb',
 'Дом задание 1 Карасева Алина_Проверено(87).ipynb',
 'Фед

# 1. Контейнеры: списки, кортежи, множества, словари

In [20]:
name_list = df['Name'].tolist() # Из пандаса в список

len(name_list) # Длина списка

sports_len_bigger_50 = [i for i in name_list if len(i)>50] # Вытащим спортсменов с длиной полного имени больше 50 (list comprehension)
print(sports_len_bigger_50[:3])

['Abdul Aziz Hassan Al-Hadba Abdul Karim Abdul Kareem', 'Abdul Aziz Hassan Al-Hadba Abdul Karim Abdul Kareem', 'Edith Addams de Habbelinck (-Lutjens, -Taylor, -Bel Geddes)']


In [19]:
# Применяем анонимную функцию длины строки к списку. Данная функция применяется к каждому элементу списка.
# Здесь x - каждый элемент списка
count_A = list(map(lambda x: len(x), name_list))
print(count_A[20:30])

[12, 12, 12, 12, 12, 12, 34, 34, 16, 30]


In [7]:
# Операции с текстовыми переменными
name_0 = name_list[0] # вытащим первый элемент списка

print(name_0.split(" ")) # разобьем данную переменную на два элемента при помощи разделителя "пробел"

name_0.replace("i", "ii") # заменим букву i на двойную i

['A', 'Dijiang']


'A Diijiiang'

In [8]:
# Множества - уникальный список (список, где не повторяются элементы)
set(name_list)
# f-string
 # сравним длину списка с длиной множества, для данного списка
print(f"Длина списка = {len(name_list)}, длина множества из этого списка = {len(set(name_list))}")


Длина списка = 271116, длина множества из этого списка = 134732


In [23]:
# Словарик из двух списков через zip. Ключ - имя, значение - длина имени.
# Найдем длину имени
# 1 способ - list comprehension
name_list_len = [len(i) for i in name_list]
# 2 способ - через map с лямбдой
name_list_len = list(map(lambda x: len(x), name_list))
# 3 способ - через map без лямбды
name_list_len = list(map(len, name_list))

# Соединяем через zip
dict_name_len = dict(zip(name_list, name_list_len))
# Вытащим первые пять пар ключ-значения из полученного словаря
from itertools import islice

def take(n, iterable):
    "Return first n items of the iterable as a list"
    return list(islice(iterable, n))


take(5, dict_name_len.items())

[('A Dijiang', 9),
 ('A Lamusi', 8),
 ('Gunnar Nielsen Aaby', 19),
 ('Edgar Lindenau Aabye', 20),
 ('Christine Jacoba Aaftink', 24)]

In [25]:
keys = dict_name_len.keys() # вытащить все ключи
values = dict_name_len.values() # вытащить все значения
items = dict_name_len.items()# вытащить ключ-значение
# Dict comprehension - filter
short_names = {k: v for k, v in items if v < 10}
take(5, short_names.items())

[('A Dijiang', 9),
 ('A Lamusi', 8),
 ('Rolf Aas', 8),
 ('Luc Abalo', 9),
 ('Pter Abay', 9)]

# 2. Numpy

Векторизованные массивы для ускоренных вычислений.

In [11]:
# Перейдем из пандаса-сериес к массиву (несколько способов) - векторизация столбцов
age = df['Age'].values
age = np.array(df['Age'])
age_not_nan = df['Age'].dropna().values

height_not_nan = df['Height'].dropna().values

age_fill_nan = df['Age'].fillna(df['Age'].mean()).values

height_fill_nan = df['Height'].fillna(df['Height'].mean()).values

In [12]:
# Размерность
print(age.shape) # размерность массива - нет столбцов и строк, а есть только число элементов

# Поэтому зачастую нам нужно явно указать, что у нас матрица с 1 столбцом
age = age.reshape(-1, 1)

# Посмотрим на новую размерность
print(age.shape)

(271116,)
(271116, 1)


In [13]:
# Транспонирование
age_height = df[['Age',"Height"]].values
age_height.T

array([[ 24.,  23.,  24., ...,  27.,  30.,  34.],
       [180., 170.,  nan, ..., 176., 185., 185.]])

In [14]:
# Объединяем массивы
np.hstack([age_height, age]) # если нам нужно добавить столбец
np.vstack([age_height[1:100], age_height[101:200]]) # если нужно добавить строки
# Еще один способ
np.c_[age_height, np.ones(age_height.shape[0]).reshape(-1,1)] # так же как hstack

array([[ 24., 180.,   1.],
       [ 23., 170.,   1.],
       [ 24.,  nan,   1.],
       ...,
       [ 27., 176.,   1.],
       [ 30., 185.,   1.],
       [ 34., 185.,   1.]])

In [26]:
# Статистики (одна переменная). Помним, что в случае присутствия nan - выдаст nan как результат
print(np.nanmean(age), np.nanstd(age), np.nanvar(age))

# Нет nan
print(np.mean(age_not_nan), np.std(age_not_nan), np.var(age_not_nan))
print("-"*100)
# Статистики (две переменные)

# Ковариация
print(np.cov(np.hstack([age_fill_nan.reshape(-1,1),
                            height_fill_nan.reshape(-1,1)]).T))
print("-"*100)
# Корреляция
print(np.corrcoef(np.hstack([age_fill_nan.reshape(-1,1),
                            height_fill_nan.reshape(-1,1)]).T))

Unnamed: 0,ID,Name,Sex,Age,Height,Weight,Team,NOC,Games,Year,Season,City,Sport,Event,Medal
0,1,A Dijiang,M,24.0,180.0,80.0,China,CHN,1992 Summer,1992,Summer,Barcelona,Basketball,Basketball Men's Basketball,
1,2,A Lamusi,M,23.0,170.0,60.0,China,CHN,2012 Summer,2012,Summer,London,Judo,Judo Men's Extra-Lightweight,
2,3,Gunnar Nielsen Aaby,M,24.0,,,Denmark,DEN,1920 Summer,1920,Summer,Antwerpen,Football,Football Men's Football,
3,4,Edgar Lindenau Aabye,M,34.0,,,Denmark/Sweden,DEN,1900 Summer,1900,Summer,Paris,Tug-Of-War,Tug-Of-War Men's Tug-Of-War,Gold
4,5,Christine Jacoba Aaftink,F,21.0,185.0,82.0,Netherlands,NED,1988 Winter,1988,Winter,Calgary,Speed Skating,Speed Skating Women's 500 metres,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
271111,135569,Andrzej ya,M,29.0,179.0,89.0,Poland-1,POL,1976 Winter,1976,Winter,Innsbruck,Luge,Luge Mixed (Men)'s Doubles,
271112,135570,Piotr ya,M,27.0,176.0,59.0,Poland,POL,2014 Winter,2014,Winter,Sochi,Ski Jumping,"Ski Jumping Men's Large Hill, Individual",
271113,135570,Piotr ya,M,27.0,176.0,59.0,Poland,POL,2014 Winter,2014,Winter,Sochi,Ski Jumping,"Ski Jumping Men's Large Hill, Team",
271114,135571,Tomasz Ireneusz ya,M,30.0,185.0,96.0,Poland,POL,1998 Winter,1998,Winter,Nagano,Bobsleigh,Bobsleigh Men's Four,


In [None]:
np.hstack([age_fill_nan.reshape(-1,1),
                            height_fill_nan.reshape(-1,1)]).T

In [None]:
# Квантили
print(np.percentile(age_fill_nan, [1,5,10,25,50,75,95,99]))
print("-"*100)

# Квантили вручную
# Количество людей возраста 15 и менее лет делить на общее количество людей
print(age_fill_nan[age_fill_nan<=15].shape[0] / age_fill_nan.shape[0])

# Количество людей возраста 19 и менее лет делить на общее количество людей
print(age_fill_nan[age_fill_nan<=19].shape[0] / age_fill_nan.shape[0])

# Медиана - 50% квантиль
print(f"Количество людей в возрасте менее 25 лет = {age_fill_nan[age_fill_nan<=25].shape[0]}")

print(f"Количество людей в возрасте более 25 лет = {age_fill_nan[age_fill_nan>=25].shape[0]}")



# 3. Pandas. Часть 1