In [1]:
# Отключаем предупреждения
%matplotlib inline
%config InlineBackend.figure_format = 'svg'

import warnings 
import pandas as pd 
import seaborn as sns 
import matplotlib.pyplot as plt 
import plotly
import plotly.graph_objs as go

from pylab import rcParams
from plotly.offline import download_plotlyjs, init_notebook_mode, plot, iplot

warnings.simplefilter('ignore')
rcParams['figure.figsize'] = (10, 8)
init_notebook_mode(connected=True)

In [2]:
df = pd.read_csv('data/Video_Games_Sales_as_at_22_Dec_2016.csv')
df = df.dropna()
df['User_Score'] = df.User_Score.astype('float64')
df['Year_of_Release'] = df.Year_of_Release.astype('int64')
df['User_Count'] = df.User_Count.astype('int64')
df['Critic_Count'] = df.Critic_Count.astype('int64')

FileNotFoundError: File b'data/Video_Games_Sales_as_at_22_Dec_2016.csv' does not exist

In [None]:
df.shape

useful_cols = ['Name', 'Platform', 'Year_of_Release', 'Genre', 'Global_Sales', 'Critic_Score',
               'Critic_Count', 'User_Score', 'User_Count', 'Rating']
df[useful_cols]

In [None]:
# Определенее колонок с продажами и суммирование продаж по годам, создавая группы по годам
sales_df = df[[x for x in df.columns if 'Sales' in x] + ['Year_of_Release']]
sales_df.groupby('Year_of_Release').sum().plot(kind='bar', rot=45)

In [None]:
# Построим табличную матрицу для определённых колонок
cols = ['Global_Sales', 'Critic_Score', 'Critic_Count', 'User_Score', 'User_Count']

temp_df = df.drop([0])
temp_df[cols]

# sns.pairplot(temp_df[cols]).savefig('pairplot.png')

In [None]:
# Разбиваем на децили
sns.distplot(df.Critic_Score)

In [None]:
# Децили и взаимосвязь двух данных
sns.jointplot(df.Critic_Score, df.User_Score)

In [None]:
# Определяем топовые платформы и строим бокс-графики
top_platforms = df.Platform.value_counts().sort_values(ascending=False).head(5).index.values
sns.boxplot(y='Platform', x='Year_of_Release', data=df[df.Platform.isin(top_platforms)], orient='h')

In [None]:
# Раскрашиваем сводную таблицу через горячую карту
platform_genre_sales = df.pivot_table(index='Platform',
                                     columns='Genre',
                                     values='Global_Sales',
                                     aggfunc=sum).fillna(0).applymap(float)
sns.heatmap(platform_genre_sales, annot=True, fmt='.1f', linewidths=0.5)

In [None]:
# Считаем количество продаж и количество вышедших игр в этот год
years_df = df.groupby('Year_of_Release')[['Global_Sales']].sum().join(
    df.groupby('Year_of_Release')[['Name']].count()
)
years_df.columns = ['Global_Sales', 'Number_of_Games']

# Линия числа продаж
trace0 = go.Scatter(x=years_df.index, y=years_df.Global_Sales, name='Global Sales')

# Линия числа игр
trace1 = go.Scatter(x=years_df.index, y=years_df.Number_of_Games, name='Number of games released')

# Массив данных и заголовок графика, и создаём фигуру
fig = go.Figure(data=[trace0, trace1], layout={'title': 'Statistics of video games'})
# iplot(fig, show_link=False)
plotly.offline.plot(fig, filename='years_stats.html', show_link=False)

In [None]:
# Смотрим продажи и количество игр по платформам, и создаём график-бар
platforms_df = df.groupby('Platform')[['Global_Sales']].sum().join(
    df.groupby('Platform')[['Name']].count()
)
platforms_df.columns = ['Global_Sales', 'Number_of_Games']
platforms_df.sort_values('Global_Sales', ascending=False, inplace=True)

trace0 = go.Bar(x=platforms_df.index, y=platforms_df.Global_Sales, name='Global Sales')
trace1 = go.Bar(x=platforms_df.index, y=platforms_df.Number_of_Games, name='Number of game released')

data = [trace0, trace1]
layout = {'title': 'Share of platforms', 'xaxis': {'title': 'platform'}}

fig = go.Figure(data=data, layout=layout)
iplot(fig, show_link=False)

In [None]:
# Создаём дату с жанром игр и оценками критиков, выводим график с усами
data = []
for genre in df.Genre.unique():
    data.append(go.Box(name=genre, y=df[df.Genre == genre].Critic_Score))
iplot(data, show_link=False)

In [3]:
# Переходим к практике. Примеры визуального анализа данных
df = pd.read_csv('data/telecom_churn.csv')
df.head(5)
df.shape
df.info()

FileNotFoundError: File b'data/telecom_churn.csv' does not exist

In [None]:
# График оттока клиентов
df['Churn'].value_counts().plot(kind='bar', label='Churn')
plt.legend()
plt.title('Распределение оттока клиентов')

In [None]:
# Строим матрицу корреляций для колличественных признаков, чтобы отсеять то, что имеет высокую корреляцию
corr_matrix = df.drop(['State', 'International plan', 'Voice mail plan', 'Area code'], axis=1).corr()
sns.heatmap(corr_matrix)