# Визуальный анализ данных

# matplotlib

In [None]:
import warnings
warnings.filterwarnings('ignore')

In [None]:
import matplotlib.pyplot as plt
import numpy as np

%matplotlib inline

In [None]:
np.random.seed(18182)
xs = np.arange(10)
ys1 = np.random.randint(10, size=10)
ys2 = np.random.randint(10, size=10)

In [None]:
# Рисовании линии
plt.plot(xs, ys1)
# Рисовании точек
plt.scatter(xs, ys2,color='red')
plt.show()

In [None]:
# Столбцы
plt.bar(xs, ys1)
plt.show()

plt.bar(xs, ys1)
plt.bar(xs, ys2, bottom=ys1)
plt.show()

# Задание ширины для столбцов (для всех сразу или для каждого по отдельности)
np.random.seed(18182)
plt.bar(xs, ys1, width=np.random.uniform(0.1, 0.8, xs.size))
plt.show()

In [None]:
# Гистограмма
np.random.seed(18182)
vals = np.random.rand(1000)
plt.hist(vals, bins=100)
plt.show()

# Работа с графиками

In [None]:
plt.plot(xs, ys1)
# Подписи осей
plt.xlabel('Время')
plt.ylabel('Значение')
# Заголовок
plt.title('График №1')
#  Добавление сетки координат
plt.grid()
plt.show()

In [None]:
# Значения
xs_new = np.char.add(xs.astype(str), ' сек')

plt.plot(xs, ys1)
plt.xlabel('Время')
plt.xticks(xs, xs_new)
plt.show()

In [None]:
# Размеры графика (в дюймах)
plt.figure(figsize=(10, 4))
plt.plot(xs, ys1)
plt.xlabel('Время')
plt.show()

In [None]:
# Масштаб осей
plt.hist(vals, bins=100)
plt.yscale('symlog')
plt.show()

In [None]:
# Легенда
plt.bar(xs, ys1, label='Данные 1')
plt.bar(xs, ys2, bottom=ys1, label='Данные 2')
plt.legend()
plt.show()

# Объединение графиков

In [None]:
plt.figure(figsize=(10, 4))
plt.subplot(1, 2, 1)
plt.plot(xs, ys1)
plt.xlabel('Время')
plt.title('График 1')

plt.subplot(1, 2, 2)
plt.plot(xs, ys2)
plt.xlabel('Время')
plt.title('График 2')

plt.show()

In [None]:
plt.figure(figsize=(10, 8))

plt.subplot(2, 2, 1)
plt.plot(xs, ys1)
plt.title('График 1')

plt.subplot(2, 2, 2)
plt.plot(xs, ys2)
plt.title('График 2')

plt.subplot(2, 2, 3)
plt.scatter(xs, ys1)
plt.title('График 3')

plt.subplot(2, 2, 4)
plt.scatter(xs, ys2)
plt.title('График 4')

# Форматирование расположения графиков. Увеличение вертикального расстояния
plt.subplots_adjust(hspace=0.3)

plt.show()

# Визуализация в pandas

In [None]:
import pandas as pd
df = pd.read_csv('data/wells_info.csv')
df.head()

In [None]:
df.plot('BottomHoleLatitude', 'BottomHoleLongitude', kind='scatter')
plt.show()

In [None]:
df.drop('API', axis=1).boxplot()
plt.xticks(rotation=-25)
plt.show()

In [None]:
df['CompletionDate'] = pd.to_datetime(df['CompletionDate'])
df['CompletionDate'].hist()
plt.xticks(rotation=-25)
plt.show()

In [None]:
df['Month'] = df['CompletionDate'].dt.month
df.groupby('Month').mean()[['LonWGS84', 'BottomHoleLongitude']].plot(alpha=0.5)
plt.show()

### Отображение с группировкой

In [None]:
df.columns

In [None]:
# Гистограмма по группам
df.hist('LatWGS84', by='formation', figsize=(8, 8))
plt.subplots_adjust(hspace=0.9)
plt.show()

In [None]:
# Boxplot по группам
df.boxplot('LatWGS84', by='formation', figsize=(8, 8))
plt.subplots_adjust(hspace=0.9)
plt.xticks(rotation=-25, ha='left')
plt.show()

# seaborn

In [None]:
import seaborn as sns

cols = ['LonWGS84', 'LatWGS84', 'BottomHoleLongitude', 'BottomHoleLatitude']
sns.pairplot(df[cols])
plt.show()

In [None]:
sns.distplot(df['BottomHoleLongitude'])
plt.show()

In [None]:
sns.jointplot(df['LonWGS84'], df['LatWGS84'])
plt.show()

In [None]:
# Матрица корреляции
corr_matrix = df.corr()
sns.heatmap(corr_matrix)

# Задания

1. Для случайных 10 скважин выведите столбцевые графики их добычи по времени. Добавить подписи осей, легенду, сетку координат.  
2. Выделите цветом те месяцы добычи, когда производство в сравнении с предыдущим месяцем увеличилось более чем на 10% (production.csv).  
3. Добавьте линейный график скользящего среднего с окном 3 и 5 (можно использовать метод rolling у класса Series).
4. Исследовать зависимость добычи за первый год от числовых величин (pairplot, матрица корреляции) и от категориальных (boxplot по каждой величине на одном графике).  