# Знакомимся с pandas

Библиотека **pandas** - библиотека для работы с данными, содержит высокоуровневые структуры данных и методы манипуляции ими.
Pandas является стандартом индустрии анализа данных.

pandas - panel data (панель данных - многомерная структура данных в эконометрике)

## Основа библиотеки - две структуры данных:
- Series
- DataFrame

## Шаг 1. Начало работы - импорт библиотеки и структур данных

In [3]:
import pandas as pd
from pandas import Series,DataFrame

# не забываем про импорт уже знакомых библиотек
import numpy as np
import matplotlib.pyplot as plt

## Тип данных Series 

Series - объект данных, похож на одномерный массив, содержит массив данных и связанный с ним массив меток-индексов.

### Шаг 2 
Познакомьтесь с типом данных Series. 
Выполните базовые действия с ним.

In [4]:
# создайте простой объект series из списка значений
obj = Series([8,-4,-7,2,9])

obj

0    8
1   -4
2   -7
3    2
4    9
dtype: int64

In [None]:
# получите представление самого массива с помощью атрибута values

obj.values

array([ 8, -4, -7,  2,  9])

In [None]:
# получите представление индексов с помощью атрибута index
obj.index

RangeIndex(start=0, stop=5, step=1)

In [None]:
# создайте "смысловые" индексы
obj.index = ['zero', 'one', 'two', 'three', 'four']

In [None]:
# посмотрим, что получилось
obj.index

Index(['zero', 'one', 'two', 'three', 'four'], dtype='object')

In [None]:
# или
sr = Series([5.0,4.0,3.0], index = ['Vasya', 'Petya', 'Kolya'])
sr

Vasya    5.0
Petya    4.0
Kolya    3.0
dtype: float64

In [None]:
# создайте  объект series из словаря
shp_dic = {'HSE':200, 'Yandex':200, 'PM':300, 'Mytischi':500, 'Pushkino':100, 'Korolev':100}
obj_3 = Series(shp_dic)
obj_3

HSE         200
Yandex      200
PM          300
Mytischi    500
Pushkino    100
Korolev     100
dtype: int64

### Доступ к элементам Series

In [None]:
# используйте доступ по нумерованному индексу
for i in range(0, len(obj_3)):
  print(f"{i}: {obj_3[i]}")

0: 200
1: 200
2: 300
3: 500
4: 100
5: 100


In [None]:
# используйте значение индекса для выборки элемента
obj_3[0:4:2]

HSE    200
PM     300
dtype: int64

In [None]:
# используйте значение индекса для выборки элемента "через точку"
for i in obj_3.index:
  print(f"{i}: {obj_3.__getattr__(i)}")

HSE: 200
Yandex: 200
PM: 300
Mytischi: 500
Pushkino: 100
Korolev: 100


In [None]:
# используйте значения индекса для выборки нескольких элементов
obj_3["Yandex":"Mytischi"]

Yandex      200
PM          300
Mytischi    500
dtype: int64

In [None]:
# отфильтруйте массив с помощью логической операции (выберите отделения с численностью меньше 300)
obj_3[obj_3.values < 300]

HSE         200
Yandex      200
Pushkino    100
Korolev     100
dtype: int64

### Основные функции
**sr.apply(len)** # Применение функции к каждому эл-ту 

**sr.sum()** # Сумма элементов

**sr.any(func)** # Первый эл-т, подходящий

**sr = sr + 5** # Добавить к каждому элементу 5

**sr = sr * 5** # Умножить каждый элемент на 5

**sr.isin(list)** # Есть ли элемент в списке

**sr.mean()** # Среднее значение

**sr.astype(dtype)** # Каждый элемент привести к типу 

**sr.value_counts()** # Посчитать количество каждого элемента

### Шаг 3 ПРАКТИКА A
Выполните задание с использованием Series:

Создайте объект sr_shp с индексами-метками названиями филиалов Школы Программистов и значениями количеством учеников в филиалах. Используйте списки [100, 200, 300] и ['Moscow', 'SPb', 'Mytischi']

In [None]:
# ваш код
sr_shp = Series([100, 200, 300], index=['Moscow', 'SPb', 'Mytischi'])


# посмотрите, что получилось
sr_shp

Moscow      100
SPb         200
Mytischi    300
dtype: int64

In [None]:
# посчитайте сумму учеников в фиалиах Москвы и Мытищ
sr_shp.Mytischi + sr_shp.Moscow

400

In [None]:
# добавьте еще один элемент для филиала с 400 учениками
sr_shp["Sum"] = 400

# посмотрите, что получилось
sr_shp

M      100
S      200
M      300
S      400
Sum    400
dtype: int64

In [None]:
# замените значения индексов на первые заглавные буквы
sr_shp.index = list(map(lambda name: name[0], sr_shp.index))

# посмотрите, что получилось
sr_shp

M    100
S    200
M    300
S    400
S    400
dtype: int64

# Шаг 4
Тип данных **DataFrame**

DataFrame — это набор Series. 

Можно сказать, что это таблица, где каждая строка и каждый столбец — Series.

Доступ можно производить как к строкам, так и к столбцам.

In [None]:
# Создайте dataframe  из славоря
df = pd.DataFrame({
    'name': ['Yandex','PM','HSE','Mytischi','Pushkino','Korolev'],
    'students_num': [300,300,200,500,100,100],
    'city': ['Moscow','Moscow','Moscow','Mytischi','Pushkino','Korolev'],
    'weekday_classes': [False,True,True,True,True,True]
})

df

Unnamed: 0,name,students_num,city,weekday_classes
0,Yandex,300,Moscow,False
1,PM,300,Moscow,True
2,HSE,200,Moscow,True
3,Mytischi,500,Mytischi,True
4,Pushkino,100,Pushkino,True
5,Korolev,100,Korolev,True


In [None]:
# посмотрите на первые строки
df.head(3)

In [None]:
# посмотрите на последние строки
df.tail(2)

In [None]:
# доступ к столбцам
df['students_num']

In [None]:
# еще доступ к столбцам
df.students_num

In [None]:
# доступ к строкам
df.iloc[3]

name               Mytischi
students_num            500
city               Mytischi
weekday_classes        True
Name: 3, dtype: object

In [None]:
# выберите записи с помощью логических операций
df[(df['city'] == 'Moscow') | (df['city'] == 'Mytischi')]

Unnamed: 0,name,students_num,city,weekday_classes
0,Yandex,300,Moscow,False
1,PM,300,Moscow,True
2,HSE,200,Moscow,True
3,Mytischi,500,Mytischi,True


In [None]:
# получите список имен столбцов
df.columns

Index(['name', 'students_num', 'city', 'weekday_classes'], dtype='object')

In [None]:
# добавьте еще один столбец
df['kek'] = 'kek'
df

Unnamed: 0,name,students_num,city,weekday_classes,kek
0,Yandex,300,Moscow,False,kek
1,PM,300,Moscow,True,kek
2,HSE,200,Moscow,True,kek
3,Mytischi,500,Mytischi,True,kek
4,Pushkino,100,Pushkino,True,kek
5,Korolev,100,Korolev,True,kek


In [None]:
# удалите этот столбец
df = df.drop(['kek'],axis='columns')
df

KeyError: ignored

### Основные методы

**df.shape** # Вывод количества строк и столбцов(кортеж) 

**df.columns** # Возвращает Index(количество стоблцов) 

**df.info()** # Возвращает общую информацию о таблице 

**df.head(n)** # Возвращает первые n строчек(default — 5) 

**df.tail(n)** # Возвращает последние n строчек(default — 5)


### Шаг 5 ПРАКТИКА Б
Выполните задание:

1. добавьте булевый столбец is_unique: true, если имя филиала совпадает с городом
2. преобразуйте индекс в код филиала - первые две буквы от названия
используйте для этого метод apply и анонимную функцию:
 apply(lambda x: x[:2].upper())
3. переименуйте индекс в CODE
4. выведите получившийся dataframe
5. найдите строки, у которых значения столбца «city» начинается с буквы M

In [None]:
# 1
df["is_unique"] = df.name == df.city
df

Unnamed: 0,name,students_num,city,weekday_classes,is_unique
0,Yandex,300,Moscow,False,False
1,PM,300,Moscow,True,False
2,HSE,200,Moscow,True,False
3,Mytischi,500,Mytischi,True,True
4,Pushkino,100,Pushkino,True,True
5,Korolev,100,Korolev,True,True


In [None]:
# 2
df.name.apply(lambda x: x[:2].upper())

0    YA
1    PM
2    HS
3    MY
4    PU
5    KO
Name: name, dtype: object

### Шаг 6 Познакомьтесь с подвыборками dataframe

Выполните приведенные ниже примеры.
Посмотрите, что получилось.

#### Это основа дальнейшей работы!

In [None]:
df.iloc[0]

name               Yandex
students_num          300
city               Moscow
weekday_classes     False
Name: 0, dtype: object

In [None]:
df.iloc[[1,3,5]]

In [None]:
df.iloc[1:4]

In [None]:
df.loc['HS']

In [None]:
df.loc[['HS','PU']]

In [None]:
df.loc['HS':'PU']

In [None]:
df['HS': 'PU']

In [None]:
df[['name','city']]

In [None]:
df.loc['HS': 'PU',['students_num','city']]

In [None]:
df.loc['HS': 'PU','name':'city']

In [None]:
df[df['students_num'] > 200]

## Шаг 7 Работа с файлами

Функция **read_csv** загружает в DataFrame данные с разделителями (по умолчанию запятой) из файла. 

Функция **read_table** загружает в DataFrame данные с разделителями (по умолчанию символ табуляции) из файла. 

Параметры этих функций:
- индексирование - какие столбцы рассматривать как индекс, откуда брать имена столбзов (из файла, от пользователя, ниоткуда)
- типы данных и преобразования - пользователь может определить значения для отсутствующих данных
- разбор даты и времени
- итерирование - проход по очень большим файлам
- обработка "грязных" данных

In [None]:
users_df = pd.read_csv("/content/newusers_1.csv")
# задайте имя файла, 
# не забудьте загрузить файл в colab
# не забудьте указать путь к файлу, если он находится в папке, отличной от ноутбука

users_df

Unnamed: 0,Имя,Возраст,Отношение к алкоголю,Отношение к курению,Котики,Собачки,Реп-музыка,Рок-музыка,Читать,Кофе,Гулять
0,Ваня,21,6,5.0,8,6,6,7.0,6,8,8
1,Полина,22,6,5.0,7,10,6,9.0,6,6,10
2,Коля,22,5,4.0,8,7,7,9.0,8,8,8
3,Лиза,21,2,2.0,8,6,7,8.0,9,8,8
4,Рома,30,6,5.0,6,6,5,8.0,6,7,4
5,Катя,27,6,5.0,6,7,6,7.0,7,4,7
6,Саша,18,4,,7,6,6,7.0,6,7,10
7,Олеся,24,1,1.0,8,6,3,8.0,8,8,10
8,Диана,24,5,3.0,8,6,6,6.0,6,7,6
9,Нейтан,30,7,5.0,8,4,7,,5,3,6


In [None]:
users_df[(users_df["Котики"] > 7)]
users_df['Собачки'].mean()
users_df[(users_df['Собачки'] > 7) & (users_df['Котики'] > 7)]
users_df['Рок-музыка'].value_counts()
users_df[(users_df['Рок-музыка'] > 7) | (users_df['Реп-музыка'] > 7)]
users_df[users_df['Рок-музыка'] > 6]['Котики'].value_counts()

8    4
7    2
6    2
9    1
Name: Котики, dtype: int64

In [None]:
# выведите первые записи
users_df.head()


In [None]:
# сделайте столбец Имя индексом
users_df = pd.read_csv("/content/newusers_1.csv.csv", index_col=0)
users_df

In [None]:
# посмотрите, что представляет собой столбец данных, какого типа данные в нем...
users_df['Возраст']

In [None]:
# постройте гистограмму для признака Гулять
users_df['Гулять'].plot.hist(bins=10)

## Шаг 8 Работа с пропущенными значениями

В pandas для представления отсутствующих данных используется значение **NaN (не число)**

In [None]:
# во всем датафрейме


In [None]:
# в конкретном столбце


In [None]:
# фильтруем отсутствующие данные (по строкам)


In [None]:
# заполняем отсутствующие значения


In [None]:
# заполнение средними значениями 


# ШАГ 9 ПРАКТИКА В
Выполните задания в ячейках ниже - см комментарии

In [None]:
# Создайте данные для работы
small_dataset = pd.DataFrame({'col1': [1, 2, np.nan, np.nan, 5, 6], 
                             'col2': [7, 8, np.nan, 10, 11, 12],
                             'col3': [np.nan, 14, np.nan, 16, 17, 18]})

small_dataset

In [None]:
# Удалите все строки, в которых есть пропущенные значения


In [None]:
# Удалите все строки, в которых все значения пропущенны


In [None]:
# Удалите только строки, в которых есть пропуски в столбце col3


# Документация на библиотеку
http://pandas.pydata.org/pandas-docs/stable/

# Подсказка
Если поставить курсор в скобках метода и нажать табуляцию, то вывалиться список подсказки. Если нажать шифт-табуляция, то появиться описание метода или функции с описанием параметров.

## САМОСТОЯТЕЛЬНАЯ ПРАКТИКА Г
Загрузите в датафрейм файл **newusers_1.csv**

Выполните задания в ячейках ниже - см комментарии

In [None]:
users_df = pd.read_csv("/content/newusers_1.csv")
users_df

Unnamed: 0,Имя,Возраст,Отношение к алкоголю,Отношение к курению,Котики,Собачки,Реп-музыка,Рок-музыка,Читать,Кофе,Гулять
0,Ваня,21,6,5.0,8,6,6,7.0,6,8,8
1,Полина,22,6,5.0,7,10,6,9.0,6,6,10
2,Коля,22,5,4.0,8,7,7,9.0,8,8,8
3,Лиза,21,2,2.0,8,6,7,8.0,9,8,8
4,Рома,30,6,5.0,6,6,5,8.0,6,7,4
5,Катя,27,6,5.0,6,7,6,7.0,7,4,7
6,Саша,18,4,,7,6,6,7.0,6,7,10
7,Олеся,24,1,1.0,8,6,3,8.0,8,8,10
8,Диана,24,5,3.0,8,6,6,6.0,6,7,6
9,Нейтан,30,7,5.0,8,4,7,,5,3,6


In [None]:
# посчитайте сумму значейний в этом столбце


In [None]:
# посчитайте средний возраст


In [None]:
# посчитайте минимальный возраст


In [None]:
# посчитайте максимальный возраст


In [None]:
# добавьте в датафрейм столбец Кофе-Котики со значениями 1 для любителей и кофе и котиков (признак больше 7) и 0 для остальных
# Подсказка: в датафреймах столбцы можно складывать/перемножать друг с другом,
# к столбцам применим метод map.


In [None]:
# постройте графики всех признаков 


# видны ли закономерности?
# при необходимости постройте графики отдельных признаков

In [None]:
# постройте графики всех признаков исключая возраст


In [None]:
# постройте столбчатую диаграмму для признака Возраст


In [None]:
# постройте гистограмму для признака Возраст
# что она показывает? 


In [None]:
# постройте гистограмму для признака Собачки
# что она показывает? 


# САМОСТОЯТЕЛЬНАЯ ПРАКТИКА Д

Загрузите в датафрейм файл **empl_results.csv**

In [None]:
df = pd.read_csv('empl_results.csv')
df.head()

In [None]:
# Выведите количество строк и количество столбцов в датасете через пробел


In [None]:
# В каких столбцах нет пропущенных значений? Выедите список имен столбцов, в которых нет пропущенных значений.


In [None]:
# В каких столбцах больше всего пропущенных значений? 
# Укажите список имен столбцов, которые содержат более 75% пропущенных значений.


In [None]:
# Соберите series с количеством записей для каждого значения Professional
# Постройте гистограмму для этого набора
# Не забудьте дать заголовок диаграмме


In [None]:
# Соберите количество записей для каждого значения FormalEducation
# Постройте гистограмму для этого набора
# Не забудьте дать заголовок диаграмме



In [None]:
# Посчитайте количество записей для каждой страны
# Постройте гистограмму для стран
# Не забудьте дать заголовок диаграмме


In [None]:
# Какая доля респондентов предоставила информацию о зарплате?


In [None]:
# Удалите записи с отсутствующими зарплатами и сохраните полученный датафрейм в sal_rm


In [None]:
# Из sal_rm соберите матрицу X из значений столбцов с числовыми данными и вектор y из значений зарплаты


# Продолжаем работать с pandas

## Шаг 10. Самостоятельная разминка

Загрузите файл данных user_age

Выполните задания этого шага с использованием библиотеки pandas

Результаты укажите в тесте в EduApp (**тест засчитывается только при наличии кода в этой тетрадке**)

In [None]:
import pandas as pd
from pandas import Series,DataFrame

In [None]:
df = pd.read_csv("users_age.csv")
df

In [None]:
# Найдите сколько людей любит кошек(оценка > 7)


In [None]:
# Найдите среднее отношение людей к собачкам


In [None]:
# Найдите сколько людей, которые любят кошек(> 7), еще и любят собак(> 7)


In [None]:
# Какая наиболее популярная оценка на вопрос о любви к рок-музыке


In [None]:
# Найдите пользователей у которых средняя оценка любви к любой музыке > 7


In [None]:
# Топ-3 оценок любви к котикам среди людей, у которых любовь к рок-музыке > 6


## Шаг 11. Сортировка

In [None]:
import numpy as np
import pandas as pd
from pandas import Series,DataFrame

In [None]:
users_df = pd.read_csv("/content/users_age.csv", index_col=0)
users_df

## Шаг 12. Агрегирование данных и групповые операции

Одна из важнейших операций в работе с данными - это разбиение набора данных на группы и применение функций к каждой группе

Этот механизм состоит из трех операций
- разделение
- применение
- объединение

### 12.1 Группировки

In [None]:
# Найти среднюю оценку каждого признака для каждого возраста
users_df.groupby('Возраст').mean()

Unnamed: 0_level_0,Отношение к алкоголю,Отношение к курению,Котики,Собачки,Реп-музыка,Рок-музыка,Читать,Кофе,Гулять
Возраст,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
18,4.0,,7.0,6.0,6.0,7.0,6.0,7.0,10.0
21,4.0,3.5,8.0,6.0,6.5,7.5,7.5,8.0,8.0
22,5.5,4.5,7.5,8.5,6.5,9.0,7.0,7.0,9.0
24,3.0,2.0,8.0,6.0,4.5,7.0,7.0,7.5,8.0
27,6.0,5.0,6.0,7.0,6.0,7.0,7.0,4.0,7.0
28,5.0,7.0,9.0,5.0,5.0,8.0,8.0,3.0,7.0
30,6.5,5.0,7.0,5.0,6.0,8.0,5.5,5.0,5.0
31,6.0,8.0,8.0,7.0,6.0,6.0,6.0,10.0,8.0


In [None]:
users_df['Рок-музыка'].groupby(users_df['Возраст']).mean()

Возраст
18    7.0
21    7.5
22    9.0
24    7.0
27    7.0
28    8.0
30    8.0
31    6.0
Name: Рок-музыка, dtype: float64

In [None]:
len(users_df)

12

In [None]:
gender = np.array(['м', 'ж', 'м', 'ж', 'м', 'ж', 'м', 'ж', 'м', 'ж', 'м', 'ж'])
users_df.groupby(gender).mean()

Unnamed: 0,Возраст,Отношение к алкоголю,Отношение к курению,Котики,Собачки,Реп-музыка,Рок-музыка,Читать,Кофе,Гулять
ж,25.333333,4.5,4.166667,7.666667,6.333333,5.666667,8.0,7.166667,5.333333,8.0
м,24.333333,5.333333,5.0,7.5,6.333333,6.0,7.166667,6.333333,7.833333,7.333333


### 12.2 Агрегирование

In [None]:
# напишите свою функцию например для вычисления разности максимального и минимального значения списка
def peak_to_peak(arr):
  return arr.max() - arr.min()
users_df.groupby(['Возраст']).agg(peak_to_peak)

Unnamed: 0_level_0,Отношение к алкоголю,Отношение к курению,Котики,Собачки,Реп-музыка,Рок-музыка,Читать,Кофе,Гулять
Возраст,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
18,0,,0,0,0,0.0,0,0,0
21,4,3.0,0,0,1,1.0,3,0,0
22,1,1.0,1,3,1,0.0,2,2,2
24,4,2.0,0,0,3,2.0,2,1,4
27,0,0.0,0,0,0,0.0,0,0,0
28,0,0.0,0,0,0,0.0,0,0,0
30,1,0.0,2,2,2,0.0,1,4,2
31,0,0.0,0,0,0,0.0,0,0,0


In [None]:
users_df.groupby(['Возраст']).agg({'Котики': max, 'Собачки': peak_to_peak})

Unnamed: 0_level_0,Котики,Собачки
Возраст,Unnamed: 1_level_1,Unnamed: 2_level_1
18,7,0
21,8,0
22,8,3
24,8,0
27,6,0
28,9,0
30,8,2
31,8,0


## Шаг 13. Работа с файлами формата json 

In [None]:
import json
with open('fifa_data.json') as f:
    data = json.loads(f.read())
data

{'matches': [{'attendance': '78011',
   'away_team': {'code': 'KSA',
    'country': 'Saudi Arabia',
    'goals': 0,
    'penalties': 0},
   'away_team_country': 'Saudi Arabia',
   'away_team_events': [{'id': 12,
     'player': 'FAHAD ALMUWALLAD',
     'time': "64'",
     'type_of_event': 'substitution-in'},
    {'id': 325,
     'player': 'ABDULLAH OTAYF',
     'time': "64'",
     'type_of_event': 'substitution-out'},
    {'id': 10,
     'player': 'HATAN BAHBIR',
     'time': "72'",
     'type_of_event': 'substitution-in'},
    {'id': 323,
     'player': 'YAHIA ALSHEHRI',
     'time': "72'",
     'type_of_event': 'substitution-out'},
    {'id': 326,
     'player': 'HATAN BAHBRI',
     'time': "72'",
     'type_of_event': 'substitution-in'},
    {'id': 13,
     'player': 'MUHANNAD ASIRI',
     'time': "85'",
     'type_of_event': 'substitution-in'},
    {'id': 324,
     'player': 'MOHAMMED ALSAHLAWI',
     'time': "85'",
     'type_of_event': 'substitution-out'},
    {'id': 11,
     'pla

In [None]:
# Что содержит объект data?
type(data)

dict

In [None]:
# Какие ключи в этом словаре?
data.keys()

dict_keys(['matches'])

In [None]:
# Ага, ключ единственный. Какие данные лежат по этому ключу?
type(data['matches'])

list

In [None]:
# Список. Насколько большой?
print(len(data['matches']))

64


In [None]:
# Список. Каковы его элементы?
data['matches'][0]

### 13.1 Разбираемся с исходными данными

Ну что же, общее представление получено, загрузим данные для анализа в pandas DataFrame из словаря.

Обращаем внимание, что вложенные структуры и массивы остаются структурами и массивами.

In [None]:
# загрузим данные для анализа в pandas DataFrame
df = pd.DataFrame.from_dict(data['matches'])
df.head()

Unnamed: 0,venue,location,status,time,fifa_id,weather,attendance,officials,stage_name,home_team_country,away_team_country,datetime,winner,winner_code,home_team,away_team,home_team_events,away_team_events,home_team_statistics,away_team_statistics,last_event_update_at,last_score_update_at
0,Moscow,Luzhniki Stadium,completed,full-time,300331503,"{'humidity': '43', 'temp_celsius': '17', 'temp...",78011,"[Nestor PITANA, Hernan MAIDANA, Juan Pablo BEL...",First stage,Russia,Saudi Arabia,2018-06-14T15:00:00Z,Russia,RUS,"{'country': 'Russia', 'code': 'RUS', 'goals': ...","{'country': 'Saudi Arabia', 'code': 'KSA', 'go...","[{'id': 5, 'type_of_event': 'goal', 'player': ...","[{'id': 12, 'type_of_event': 'substitution-in'...","{'country': 'Russia', 'attempts_on_goal': 13, ...","{'country': 'Saudi Arabia', 'attempts_on_goal'...",2018-06-21T02:36:44Z,
1,Ekaterinburg,Ekaterinburg Arena,completed,full-time,300353632,"{'humidity': '42', 'temp_celsius': '14', 'temp...",27015,"[Bjorn KUIPERS, Sander VAN ROEKEL, Erwin ZEINS...",First stage,Egypt,Uruguay,2018-06-15T12:00:00Z,Uruguay,URU,"{'country': 'Egypt', 'code': 'EGY', 'goals': 0...","{'country': 'Uruguay', 'code': 'URU', 'goals':...","[{'id': 14, 'type_of_event': 'substitution-in'...","[{'id': 15, 'type_of_event': 'substitution-in'...","{'country': 'Egypt', 'attempts_on_goal': 8, 'o...","{'country': 'Uruguay', 'attempts_on_goal': 14,...",2018-06-21T02:37:25Z,
2,St. Petersburg,Saint Petersburg Stadium,completed,full-time,300331526,"{'humidity': '37', 'temp_celsius': '25', 'temp...",62548,"[Cuneyt CAKIR, Bahattin DURAN, Tarik ONGUN, Se...",First stage,Morocco,Iran,2018-06-15T15:00:00Z,Iran,IRN,"{'country': 'Morocco', 'code': 'MAR', 'goals':...","{'country': 'Iran', 'code': 'IRN', 'goals': 1,...","[{'id': 23, 'type_of_event': 'yellow-card', 'p...","[{'id': 22, 'type_of_event': 'yellow-card', 'p...","{'country': 'Morocco', 'attempts_on_goal': 13,...","{'country': 'Iran', 'attempts_on_goal': 8, 'on...",2018-06-21T02:36:30Z,
3,Sochi,Fisht Stadium,completed,full-time,300331524,"{'humidity': '74', 'temp_celsius': '24', 'temp...",43866,"[Gianluca ROCCHI, Elenito DI LIBERATORE, Mauro...",First stage,Portugal,Spain,2018-06-15T18:00:00Z,Draw,Draw,"{'country': 'Portugal', 'code': 'POR', 'goals'...","{'country': 'Spain', 'code': 'ESP', 'goals': 3...","[{'id': 36, 'type_of_event': 'goal-penalty', '...","[{'id': 37, 'type_of_event': 'yellow-card', 'p...","{'country': 'Portugal', 'attempts_on_goal': 8,...","{'country': 'Spain', 'attempts_on_goal': 12, '...",2018-06-21T02:36:18Z,2018-06-15T19:52:38Z
4,Kazan,Kazan Arena,completed,full-time,300331533,"{'humidity': '32', 'temp_celsius': '19', 'temp...",41279,"[Andres CUNHA, Nicolas TARAN, Mauricio ESPINOS...",First stage,France,Australia,2018-06-16T10:00:00Z,France,FRA,"{'country': 'France', 'code': 'FRA', 'goals': ...","{'country': 'Australia', 'code': 'AUS', 'goals...","[{'id': 52, 'type_of_event': 'goal-penalty', '...","[{'id': 50, 'type_of_event': 'yellow-card', 'p...","{'country': 'France', 'attempts_on_goal': 12, ...","{'country': 'Australia', 'attempts_on_goal': 4...",2018-06-21T02:42:39Z,2018-06-16T11:52:21Z


In [None]:
# Сколько записей в таблице, какие атрибуты есть в таблице, какие атрибуты содержат пропуски в данных?
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 64 entries, 0 to 63
Data columns (total 22 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   venue                 64 non-null     object
 1   location              64 non-null     object
 2   status                64 non-null     object
 3   time                  64 non-null     object
 4   fifa_id               64 non-null     object
 5   weather               64 non-null     object
 6   attendance            64 non-null     object
 7   officials             64 non-null     object
 8   stage_name            64 non-null     object
 9   home_team_country     64 non-null     object
 10  away_team_country     64 non-null     object
 11  datetime              64 non-null     object
 12  winner                64 non-null     object
 13  winner_code           64 non-null     object
 14  home_team             64 non-null     object
 15  away_team             64 non-null     obje

### 13.2 Атрибуты со сложной структурой

Какие атрибуты имеют сложную структуру (являются словарем либо списком)?
(Для простоты, будем считать признаком списка - наличие в столбце значений с типом list, 
а признаком описания словаря - наличие в столбце значений с типом dict)

Для проверки наличия хотя бы одного значения в массиве используется метод .any()

In [None]:
feats_with_list = [c for c in df.columns if df[c].apply(lambda x: type(x)==list).any()]
print('Атрибуты с списками:', feats_with_list)

Атрибуты с списками: ['officials', 'home_team_events', 'away_team_events']


In [None]:
# Какие подполя содержат атрибуты-словари? (Для простоты можно анализировать только первую строку таблицы)
feats_with_dict = [c for c in df.columns if df[c].apply(lambda x: type(x)==dict).any()]
print('Атрибуты со словарями:', feats_with_dict)

Атрибуты со словарями: ['weather', 'home_team', 'away_team', 'home_team_statistics', 'away_team_statistics']


In [None]:
# Какие типы событий были зарегистрированы? 
# (перечислить все встречающиеся значения в подполе 'type_of_event' в полях 'home_team_events', 'away_team_events')
for f in feats_with_dict:
  print(f"\nПоле {f}:")
  print("Ключи ", df[f][0].keys())


Поле weather:
Ключи  dict_keys(['humidity', 'temp_celsius', 'temp_farenheit', 'wind_speed', 'description'])

Поле home_team:
Ключи  dict_keys(['country', 'code', 'goals', 'penalties'])

Поле away_team:
Ключи  dict_keys(['country', 'code', 'goals', 'penalties'])

Поле home_team_statistics:
Ключи  dict_keys(['country', 'attempts_on_goal', 'on_target', 'off_target', 'blocked', 'woodwork', 'corners', 'offsides', 'ball_possession', 'pass_accuracy', 'num_passes', 'passes_completed', 'distance_covered', 'balls_recovered', 'tackles', 'clearances', 'yellow_cards', 'red_cards', 'fouls_committed', 'tactics', 'starting_eleven', 'substitutes'])

Поле away_team_statistics:
Ключи  dict_keys(['country', 'attempts_on_goal', 'on_target', 'off_target', 'blocked', 'woodwork', 'corners', 'offsides', 'ball_possession', 'pass_accuracy', 'num_passes', 'passes_completed', 'distance_covered', 'balls_recovered', 'tackles', 'clearances', 'yellow_cards', 'red_cards', 'fouls_committed', 'tactics', 'starting_eleven

### 13.3 Работаем с простыми столбцами/атрибутами

In [None]:
# Только матчи сборной России

df.loc[(df['away_team_country'] == 'Russia') | (df['home_team_country'] == 'Russia')]

Unnamed: 0,venue,location,status,time,fifa_id,weather,attendance,officials,stage_name,home_team_country,away_team_country,datetime,winner,winner_code,home_team,away_team,home_team_events,away_team_events,home_team_statistics,away_team_statistics,last_event_update_at,last_score_update_at
0,Moscow,Luzhniki Stadium,completed,full-time,300331503,"{'humidity': '43', 'temp_celsius': '17', 'temp...",78011,"[Nestor PITANA, Hernan MAIDANA, Juan Pablo BEL...",First stage,Russia,Saudi Arabia,2018-06-14T15:00:00Z,Russia,RUS,"{'country': 'Russia', 'code': 'RUS', 'goals': ...","{'country': 'Saudi Arabia', 'code': 'KSA', 'go...","[{'id': 5, 'type_of_event': 'goal', 'player': ...","[{'id': 12, 'type_of_event': 'substitution-in'...","{'country': 'Russia', 'attempts_on_goal': 13, ...","{'country': 'Saudi Arabia', 'attempts_on_goal'...",2018-06-21T02:36:44Z,
16,St. Petersburg,Saint Petersburg Stadium,completed,full-time,300331495,"{'humidity': '83', 'temp_celsius': '15', 'temp...",64468,"[Enrique CACERES, Eduardo CARDOZO, Juan ZORRIL...",First stage,Russia,Egypt,2018-06-19T18:00:00Z,Russia,RUS,"{'country': 'Russia', 'code': 'RUS', 'goals': ...","{'country': 'Egypt', 'code': 'EGY', 'goals': 1...","[{'id': 243, 'type_of_event': 'goal', 'player'...","[{'id': 241, 'type_of_event': 'goal-own', 'pla...","{'country': 'Russia', 'attempts_on_goal': 11, ...","{'country': 'Egypt', 'attempts_on_goal': 13, '...",2018-06-21T02:11:00Z,2018-06-19T19:51:07Z
32,Samara,Samara Arena,completed,full-time,300331516,"{'humidity': '34', 'temp_celsius': '32', 'temp...",41970,"[Malang DIEDHIOU, Djibril CAMARA, El Hadji SAM...",First stage,Uruguay,Russia,2018-06-25T14:00:00Z,Uruguay,URU,"{'country': 'Uruguay', 'code': 'URU', 'goals':...","{'country': 'Russia', 'code': 'RUS', 'goals': ...","[{'id': 583, 'type_of_event': 'goal', 'player'...","[{'id': 582, 'type_of_event': 'yellow-card', '...","{'country': 'Uruguay', 'attempts_on_goal': 17,...","{'country': 'Russia', 'attempts_on_goal': 3, '...",2018-06-25T16:19:26Z,2018-06-25T16:19:26Z
50,Moscow,Luzhniki Stadium,completed,full-time,300331517,"{'humidity': '63', 'temp_celsius': '24', 'temp...",78011,"[Bjorn KUIPERS, Sander VAN ROEKEL, Erwin ZEINS...",Round of 16,Spain,Russia,2018-07-01T14:00:00Z,Russia,RUS,"{'country': 'Spain', 'code': 'ESP', 'goals': 1...","{'country': 'Russia', 'code': 'RUS', 'goals': ...","[{'id': 920, 'type_of_event': 'yellow-card', '...","[{'id': 919, 'type_of_event': 'goal-own', 'pla...","{'country': 'Spain', 'attempts_on_goal': 25, '...","{'country': 'Russia', 'attempts_on_goal': 6, '...",2018-07-01T16:53:15Z,2018-07-01T16:53:15Z
59,Sochi,Fisht Stadium,completed,full-time,300331504,"{'humidity': '70', 'temp_celsius': '24', 'temp...",44287,"[Sandro RICCI, Emerson DE CARVALHO, Marcelo VA...",Quarter-finals,Russia,Croatia,2018-07-07T18:00:00Z,Croatia,CRO,"{'country': 'Russia', 'code': 'RUS', 'goals': ...","{'country': 'Croatia', 'code': 'CRO', 'goals':...","[{'id': 1094, 'type_of_event': 'goal', 'player...","[{'id': 1095, 'type_of_event': 'yellow-card', ...","{'country': 'Russia', 'attempts_on_goal': 13, ...","{'country': 'Croatia', 'attempts_on_goal': 17,...",2018-07-07T20:51:30Z,2018-07-07T20:51:30Z


In [None]:
# Количество проданных билетов (зрителей) на ЧМ 2018 
# df = df.astype({'attendance': np.int})
# df['attendance'].sum()
df.attendance.astype('int64').sum()

3031768

In [None]:
# Самый непопулярный матч (по количеству зрителей)
# Ответ введите в формате 
# "Хозяева-Гости"

match = df[df['attendance'] == df.attendance.min()]
(match.home_team_country + '-' + match.away_team_country)

1    Egypt-Uruguay
dtype: object

In [None]:
# Самый популярный матч (по количеству зрителей)
# Тут, очевидно, все дело во вместимости стадиона.  :-)
# Ответ введите в формате 
# "Хозяева-Гости"

home = df.loc[df.attendance == df.attendance.max(), "home_team_country"]     # сразу дает значение 
away = df.loc[df.attendance == df.attendance.max(), "away_team_country"]
(home + '-' + away)[0]

'Russia-Saudi Arabia'

In [151]:
# В каком городе было меньше всего болельщиков

fans = df.groupby(by='venue', as_index=False).agg({'attendance': 'sum'})
fans.sort_values(by='attendance')

Unnamed: 0,venue,attendance
0,Ekaterinburg,125437
1,Kaliningrad,132249
7,Saransk,160197
10,Volgograd,160980
5,Rostov-On-Don,214197
6,Samara,248060
2,Kazan,254451
4,Nizhny Novgorod,256427
8,Sochi,264057
9,St. Petersburg,448686


### 13.4 Вытаскиваем из вложенных структур и добавляем новые столбцы

#### Средняя температура воздуха в градусах Цельсия с точностью до 2 знаков


In [None]:
# Смотрим, где хранится температура
df['weather'][0]

{'description': 'Partly Cloudy',
 'humidity': '43',
 'temp_celsius': '17',
 'temp_farenheit': '49',
 'wind_speed': '6'}

In [None]:
# Вытаскиваем данные в отдельный столбец
df['temp_celsius'] = df['weather'].apply(lambda x:int(x['temp_celsius']))

In [None]:
# Считаем среднюю температуру
round(df['temp_celsius'].mean(), 2)

23.75

In [None]:
# другой вариант
weather = pd.json_normalize(df.weather)
round(weather.temp_celsius.astype('int64').mean(), 2)

23.75

In [140]:
# Город проведения с самой большой средней температурой за все матчи
# и
# Город проведения с самой наименьшей средней температурой за все матчи

weather["city"] = df.venue
weather.temp_celsius = weather.temp_celsius.astype('int64')
groupped = weather.groupby(by=['city'], as_index=False).agg({'temp_celsius': 'mean'})
groupped.sort_values(by=['temp_celsius'])

Unnamed: 0,city,temp_celsius
1,Kaliningrad,17.75
0,Ekaterinburg,19.5
9,St. Petersburg,20.428571
7,Saransk,22.0
3,Moscow,22.916667
2,Kazan,23.166667
4,Nizhny Novgorod,23.166667
8,Sochi,25.166667
6,Samara,27.333333
5,Rostov-On-Don,29.0


####  Количество событий

In [None]:
# Смотрим, как хранятся события для команды



In [None]:
# В списке каждый словарь - отдельное событие
# Добавляем столбец количество событий



In [None]:
# Самый активный матч (по количеству событий)
# Ответ введите в формате 
# "Хозяева-Гости"



In [None]:
# Самый пассивный матч (по количеству событий)
# Ответ введите в формате 
# "Хозяева-Гости"



####  Считаем голы

In [None]:
# Смотрим, как хранятся голы
df.home_team

0     {'country': 'Russia', 'code': 'RUS', 'goals': ...
1     {'country': 'Egypt', 'code': 'EGY', 'goals': 0...
2     {'country': 'Morocco', 'code': 'MAR', 'goals':...
3     {'country': 'Portugal', 'code': 'POR', 'goals'...
4     {'country': 'France', 'code': 'FRA', 'goals': ...
                            ...                        
59    {'country': 'Russia', 'code': 'RUS', 'goals': ...
60    {'country': 'France', 'code': 'FRA', 'goals': ...
61    {'country': 'Croatia', 'code': 'CRO', 'goals':...
62    {'country': 'Belgium', 'code': 'BEL', 'goals':...
63    {'country': 'France', 'code': 'FRA', 'goals': ...
Name: home_team, Length: 64, dtype: object

In [145]:
# Создаем столбцы с количеством голов
home = pd.json_normalize(df.home_team)
home = home.groupby(by=['country'], as_index=False).agg({'goals': 'sum'})

away = pd.json_normalize(df.away_team)
away = away.groupby(by=['country'], as_index=False).agg({'goals': 'sum'})

total = home.merge(away, on='country', how='inner')
total["goals_sum"] = total.goals_x + total.goals_y

In [144]:
# Команда, которая забила больше всего голов за все время
# и
# Команда, которая забила меньше всего голов за все время

total.sort_values(by='goals_sum')

Unnamed: 0,country,goals_x,goals_y,goals
2,Belgium,13,3,16
6,Croatia,5,9,14
10,France,12,2,14
9,England,6,6,12
23,Russia,10,1,11
3,Brazil,6,2,8
31,Uruguay,6,1,7
27,Spain,3,4,7
14,Japan,2,4,6
28,Sweden,2,4,6


####  Расстановки на поле

In [None]:
# Смотрим, как хранятся расстановки



In [None]:
# Самая популярная расстановка на поле у команд-хозяев (home_team_statistics подполе tactics)



####  Замены
*Можно считать по событиям 'substitution-in'*

In [None]:
# Смотрим, где найти замены - тут будет уже посложнее


In [None]:
# Перебрать события команды и выбрать те, для которых 
# 'type_of_event': 'substitution-in'
# или
# 'type_of_event': 'substitution-out'



In [None]:
# Добавляем столбцы с количеством замен



In [None]:
# Команда, которая делала больше всего замен в среднем за игру:


## 14 Еще немного практики про футбол ))

In [152]:
# 1.Найдите среднее количество человек, посетивших матч
print(df.attendance.mean())

# Найдите стадион с самой теплой погодой в среднем



47371.375


In [None]:
# 2.Найдите команду, которая сделала меньше всего замен за турнир



In [None]:
# 3.Найдите команду, которая сделала больше всех замен в среднем за игру



In [None]:
# 4.Какое количество замен за игру является самым популярным ?



In [None]:
# 5.Найдите стадион, на котором было самое большое количество человек.



In [None]:
# 6.Найдите 3 самых непопулярных матча.
# Ответ введите в формате HomeTeam_AwayTeam;HomeTeam_AwayTeam;HomeTeam_AWayTeam



In [None]:
# 7.Посчитайте общее количество голов, сделанное за чемпионат


# Найдите матч с самым большим количеством голов



In [None]:
# 8.Найдите самый популярное количество голов за чемпионат



In [None]:
# 9.Найдите самый популярный счет за чемпионат



# Самостоятельная практика для тех, кто был в летнем лагере

Загрузите данные по чемпионату Европы по футболу за 2012 год из файла **Euro2012.csv**

Выполните задания в ячейках ниже с помощью библиотеки pandas

In [None]:
# Выведите столбец Goals


In [None]:
# Выведите количество команд, участвовавших к чемпионате


In [None]:
# Выведите информацию по всем столбцам датасета


In [None]:
# Скопируйте столбцы Team, Yellow Cards, Red Cards в отдельный датафрейм discipline


In [None]:
# Отсортируейте команды по количеству полученных красных, затем желтых карточек


In [None]:
# Посчитайте среднее количество желтых карточек, полученное во время чемпионата


In [None]:
# Сделайте подвыборку записей для команд, забивших более 6 голов


In [None]:
# Сделайте подвыборку записей для команд, начинающихся с G


In [None]:
# Сделайте подвыборку из первых семи столбцов


In [None]:
# Сделайте подвыборку из строк исключая три последние


In [None]:
# Выведите точность ударов(Shooting Accuracy) для Англии, Италии и России.


In [None]:
# Выведите среди команд, забивших меньше 8 голов, среднее количество ударов для команд получавших красную карточку и не получавших


In [None]:
# Выведите статистики признаков для всех показателей "штанги" (Hit Woodwork)


In [None]:
# Сгруппируйте исходные данные по количеству голов, 
#  целочисленные признаки посчитайте как среднее
#  вещественные признаки посчитайте как максимум


# Самостоятельная практика по pandas


Считайте данные из файла **happiness.csv** , содержащий результаты исследования о счастье жителей нашей планеты.

Файл содержит данные:

* Year (год): год, в котором производились измерения 
* Life Ladder (уровень счастья): респондент измеряет качество свой жизни по шкале от 0 до 10 (наилучшая оценка)
* Log GDP per capita (логарифм (**обратите внимание**) ВВП на душу населения): ВВП на душу населения, подсчитанный по паритету покупательной способности доллара в 2011 году
* Social support (социальная поддержка): Ответ на вопрос: «Если бы вы были в беде, то могли бы рассчитывать на помощь друзей или родственников или нет?»
* Healthy life expectancy at birth (ожидаемая продолжительность здоровой жизни): ожидаемое количество лет, в течение которых человек сможет вести активный образ жизни без всяких ограничений по здоровью
* Freedom to make life choices (свобода делать жизненный выбор): Ответ на вопрос: «Удовлетворены ли вы вашим уровнем свободы выбирать, что делать со своей жизнью?»
* Generosity (щедрость): Ответ на вопрос: «Жертвовали ли вы деньги на благотворительность в прошлом месяце?» (в привязке к ВВП на душу населения).
* Perceptions of corruption (восприятие коррупции): Ответы на вопросы: «Широко ли распространена коррупция в правительственных кругах?» и «Широко ли распространена коррупция в бизнесе?»
* Positive affect (положительный аффект): включает в себя среднюю частоту счастья, смеха и радости в предыдущий день.
* Negative affect (отрицательный аффект): включает в себя среднюю частоту беспокойства, грусти и гнева в предыдущий день.
* Confidence in national government (доверие собственному правительству)
* Democratic Quality (качество демократии): насколько демократична страна.
* Delivery Quality (качество управления): насколько хорошо страна управляется.
* Gapminder Life Expectancy : данные о продолжительности жизни
* Gapminder Population : население страны.

In [None]:
# 1.Посчитайте для показателя счастья среднее значение, медиану, моду и разброс



In [None]:
# 2.Выведите ТОП-3 счастливых стран



In [None]:
# 3.Выведите названия стран, для которых нет данных по ВВП на душу начеления



In [None]:
# 4.Посчитайте, сколько в среднем смеюся жители азиатских стран



In [None]:
# 5.Посчитайте соотношение ожидаемой продолжительности здоровой жизни к фактической продолжительности на планете



In [None]:
# 6.Вывести для каждого признака страну-лидера по количеству лет


In [None]:
# 7.В каком году в России было самое высокое счастье



In [None]:
# 9.Посчитайте, в каком году на планете был самый большой прирост населения



Постройте визуализиции под каждый показатель приведенный в ячейках после описания файла. 

Выберите наиболее подходящий под задание вид диаграммы.

Выбор библиотеки визуализации за вами.

In [None]:
# 1.Диаграмма 15 самых счастливых стран в мире



In [None]:
# 2.Гистограмма количества стран в зависимости от ВВП на душу населения



In [None]:
# 3.Визуализируйте средний ВВП на душу населения с разбивкой по континентам



In [None]:
# 4.Для параметра Life Ladder («лестница жизни») визуализируйте  медиану(геометрическое среднее) «счастья» и разброс значений



In [None]:
# 5.Покажите зависимость ожидания продолжительности здоровой жизни и ожидания продолжительности жизни 



In [None]:
# 6.Покажите зависимость счастья от ожидаемой продолжительности жизни и от щедрости



In [None]:
# 7.Диаграмма  количества жителей планеты с разбивкой по континентам



In [None]:
# 8.Визуализируйте прирост количества жителей планеты по кантинентам



In [None]:
# 9.Диаграмма динамики счастья в России

