# Визуализация данных

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
bikes = pd.read_pickle('Data/BikesDataImputed.pkl')
bikes.head()

In [None]:
bikes_sum = bikes.groupby(bikes['Date'].dt.isocalendar().week)['Rental Count'].sum()
bikes_sum

In [None]:
fig, ax = plt.subplots(figsize=(10,8))
ax.plot(bikes_sum)

In [None]:
bikes.groupby(['Seasons', 'Date'])['Rental Count'].sum()

In [None]:
fig, ax = plt.subplots(figsize=(20,8))
ax.plot(bikes.groupby(['Seasons', 'Date'])['Rental Count'].sum().loc['Autumn'])
ax.plot(bikes.groupby(['Seasons', 'Date'])['Rental Count'].sum().loc['Winter'])
ax.plot(bikes.groupby(['Seasons', 'Date'])['Rental Count'].sum().loc['Spring'])
ax.plot(bikes.groupby(['Seasons', 'Date'])['Rental Count'].sum().loc['Summer'])

In [None]:
bikes['Temperature'].describe()

In [None]:
fig, ax = plt.subplots(2,2, figsize=(20,10))

ax[0][0].plot(bikes.groupby(['Seasons', 'Date'])['Temperature'].mean().loc['Autumn'], c='#ff8c69')
ax[0][1].plot(bikes.groupby(['Seasons', 'Date'])['Temperature'].mean().loc['Winter'], c='#ff8c69')
ax[1][0].plot(bikes.groupby(['Seasons', 'Date'])['Temperature'].mean().loc['Spring'], c='#ff8c69')
ax[1][1].plot(bikes.groupby(['Seasons', 'Date'])['Temperature'].mean().loc['Summer'], c='#ff8c69')

for axis,season in zip(ax.ravel(), ['Autumn', 'Winter', 'Spring', 'Summer']):
    axis.set_xlabel('Date', fontsize=14)
    axis.set_ylabel('Temperature', fontsize=14)
    axis.spines['right'].set_visible(False)
    axis.spines['top'].set_visible(False)
    axis.xaxis.set_tick_params(width=0.2)
    axis.yaxis.set_tick_params(width=0.2)
    axis.set_ylim(-20, 39)
    axis.axhline(12.9, c='grey', lw=0.25)
    axis.legend([season, 'Annual average'], frameon=False, loc=2)
    for spine in ['bottom','left']:
        axis.spines[spine].set_linewidth(0.2)
        
fig.suptitle('Temerature daily means by season', fontsize=20)
fig.savefig('temps.pdf')
fig.savefig('temps.png', dpi=100)

In [None]:
month_weather = bikes.groupby(bikes['Date'].dt.month)['Rental Count'].mean()
month_weather

In [None]:
fig, ax = plt.subplots(figsize=(20,8))

ax.bar(month_weather.index, month_weather)

In [None]:
gapminder = pd.read_csv('https://raw.githubusercontent.com/rogovich/Data/master/data/gapminderData.csv')
gapminder.head()

In [None]:
gapminder.shape

In [None]:
gapminder.year.values  # смотрим, какие значения есть в колонке год

In [None]:
gapminder['continent'] = pd.Categorical(gapminder['continent'])

In [None]:
gapminder['continent'].cat.codes.head()  # теперь у нас есть такая числовая разметка категорий, которую мы сможем скормить переменной графика

In [None]:
plt.hist(gapminder['gdpPercap'])

In [None]:
plt.hist(gapminder['gdpPercap'])
plt.xscale('log')


**Пример без лог-преобразования шкалы x**

In [None]:
tmp = gapminder[gapminder.year == 1952 ]
plt.scatter(tmp['gdpPercap'], tmp['lifeExp'], s = tmp['pop']/200000 , 
            c=tmp['continent'].cat.codes, cmap= "Accent", alpha=0.5, 
            edgecolors="white", linewidth=2) # добавили два новых аргумента - цвет и обводка границ точек.
plt.xlabel("GDP per Capita")
plt.ylabel("Life Expectancy")
plt.title("Year: "+str(1942) )  # заголовок графика
plt.ylim(0, 90)  # давайте еще добавим лимиты шкал, чтобы шкала не менялась, когда мы будем строить графики для других годов
plt.xlim(0,100000) 

In [None]:
tmp = gapminder[gapminder.year == 1952 ]
plt.scatter(tmp['gdpPercap'], tmp['lifeExp'], s = tmp['pop']/200000 , 
            c=tmp['continent'].cat.codes, cmap= "Accent", alpha=0.5, edgecolors="white", linewidth=2)  
plt.xlabel("GDP per Capita")
plt.ylabel("Life Expectancy")
plt.title("Year: "+str(1942) ) 
plt.ylim(0, 90)
plt.xlim(100,100000) # меняем лимиты для лог-шкалы

In [None]:
for i in gapminder.year.unique(): # пишем цикл, который проходит по всем уникальным значениям в колонке год
 
    # создаем фигуру
    fig = plt.figure(figsize=(12, 6))

    tmp = gapminder[gapminder.year == i]  # создаем срез датафрейма для года на данной итерации
    plt.scatter(tmp['gdpPercap'], tmp['lifeExp'], s=tmp['pop']/200000 , 
                c=tmp['continent'].cat.codes, cmap="Accent", alpha=0.6, edgecolors="white", linewidth=2)
    
    plt.xscale('log')
    plt.xlabel("GDP per Capita")
    plt.ylabel("Life Expectancy")
    plt.title("Year: "+str(i) )
    plt.ylim(0, 90)
    plt.xlim(100,100000)
    
       
    # Сохраняем каждый график под уникальным именем.
    filename='Gapminder_step'+str(i)+'.png'
    plt.savefig(filename, dpi=96)
