Что делать

Построить 5 графиков по выбранным данным. 

Графики должны быть различных видов и использовать хотя бы 2 из рассмотренных на занятии библиотек. 

Для каждого описать, какого типа переменные участвуют в визуализации, какова её цель (например, посмотреть на корреляцию двух величин или на распределение значений) и почему выбрали именно такой тип графика.

 

Откуда брать данные

Можно взять свой датасет или воспользоваться одним из приведенных ниже:

https://www.kaggle.com/tmdb/tmdb-movie-metadata

https://www.kaggle.com/c/nyc-taxi-trip-duration

https://www.kaggle.com/drgilermo/nba-players-stats

In [None]:
from pylab import rcParams

rcParams['figure.figsize'] = 18, 9

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

credit = pd.read_csv('tmdb_5000_credits.csv')
movies = pd.read_csv('tmdb_5000_movies.csv')
credit.columns = ['id', 'tittle', 'cast', 'crew']
movies = movies.merge(credit, on='id')

# 10 самых популярных фильмов
Переменные типа float и string

Цель - посмотреть топ фильмов по популярности

Удобнее всего использовать столбчатую горизонтальную диаграмму

In [None]:
pop = movies.sort_values('popularity', ascending=False)
plt.barh(pop['title'].head(10), pop['popularity'].head(10), align='center')
plt.gca().invert_yaxis()
plt.xlabel("Popularity")
plt.title("Popular Movies")
plt.show()

# % фильмов по десятилетиям
Переменные типа int и string

Цель - оценить количество фильмов выпущенных в разные десятилетия

Удобнее всего смотреть на круговой диаграмме

In [None]:
series = movies.release_date.dropna().apply(lambda x: str(int(x[:4]) // 10 * 10) + 's')
counts = series.value_counts()
counts = counts / counts.sum()
labels = ['' if num < 0.01 else str(year) for (year, num) in counts.items()]
plt.pie(counts, labels=labels, autopct=lambda x: '{:1.0f}%'.format(x) if x > 1 else '')
plt.xlabel("% movies per decade")
plt.show()

# Количество фильмов по жанрам
Переменные типа int и string

Цель - оценить количество фильмов определенного жанра и их соотношение

Удобнее всего использовать столбчатую диаграмму

In [None]:
series = movies.genres
genres = {}
for i in series:
    for j in eval(i):
        genres.setdefault(j['name'], 0)
        genres[j['name']] += 1
list_of_genres = list(genres.items())
list_of_genres.sort(key=lambda x: -x[1])
genres = dict(list_of_genres)
plt.bar(genres.keys(), genres.values(), align="center")
plt.show()

# Средняя оценка по жанрам с разбросом
Переменные типа int, float и string

Цель - узнать оценку зрителей по каждому жанру

Удобнее всего использовать столбчатую диаграмму с линией разброса

In [None]:
groups = {}
for i in range(movies.genres.size):
    l = eval(movies.genres.iloc[i])
    for x in l:
        groups.setdefault(x["name"], [])
        groups[x["name"]].append(i)
result = pd.DataFrame()
for name, indices in groups.items():
    rows = movies.iloc[indices].copy()
    rows["genres"] = name
    result = result.append(rows)
sns.set(style="whitegrid")
movies = movies.replace(0, np.nan).copy()
f, ax = plt.subplots(figsize=(20, 10))
sns.barplot(data=result, x="genres", y="vote_average")
plt.yticks(fontsize=20)
plt.xticks(rotation=55, fontsize=20)
plt.xlabel("genres", fontsize=30)
plt.ylabel("vote_average", fontsize=30)
plt.show()

# Разброс оценок по популярности и жанрам
Переменные типа int, float и string

Цель - оценка фильмов в зависимости от жанра и популярности

Удобнее всего использовать точечный график

In [None]:
sns.set(style="whitegrid")
sns.scatterplot(data=result, x="popularity", y="vote_average", hue="genres")
plt.yticks(fontsize=20)
plt.xticks(fontsize=20)
plt.xlabel("popularity", fontsize=30)
plt.ylabel("vote_average", fontsize=30)
plt.xlim(-0.5, 100)
plt.show()


