# Введение в методы анализа данных. Язык Python.

## Лекция 6: Обзор инструментов для анализа данных и машинного обучения. Вывод графики для отчетов: matplotlib
<br><br><br><br>
__Аксентьев Артем (akseart@ya.ru)__

__Ксемидов Борис (nstalker.anonim@yandex.ru)__
<br>

# План:
- NumPy
- Pandas
- MatPlotLib
- Seaborn

# NumPy

Библиотека работы с массивами

## Создание массива и общие подходы:

In [None]:
import numpy as np

b = np.array([11, 22, 33])

print(b)

In [None]:
type(b)

Число измерений массива:

In [None]:
b.ndim

Размеры массива:

In [None]:
b.shape

Количество элементов массива:

In [None]:
b.size

Тип данных массива:

In [None]:
b.dtype

## Многомерные массивы:

In [None]:
b = np.array([[1.5, 2, 3], [4, 5, 6]])
print(b)

In [None]:
b = np.array([[1.5+2j, 2, 3], [4, 5, 6]], dtype=np.complex128)
print(b)

## Другие методы создания массивов:

In [None]:
np.zeros((5, 7))

In [None]:
np.ones((5, 7))

In [None]:
import numpy as np
np.empty((5, 7))

In [None]:
np.eye(7)

In [None]:
print(np.arange(0, 30, 5))

Для вещественных чисел:

In [None]:
print(np.arange(0, 30, 5.3))

Однако, не очень корректно использовать arange из-за проблем с точностью представления типа float в памяти компьютера. Нам заранее неизвестно сколько чисел получится.

In [None]:
print(np.linspace(0, 1, 15))

In [None]:
np.random.random(10)

In [None]:
np.random.randint(0, 31, 3)

In [None]:
np.random.random_sample((5, 3))

## Математические операции над массивами:

In [None]:
a = np.random.randint(2, 10, 7)
b = np.random.randint(2, 10, 7)

In [None]:
a, b

In [None]:
a + b

In [None]:
a / b

In [None]:
a - b

In [None]:
a ** b

In [None]:
a * b

In [None]:
a % b

In [None]:
np.cos(a)

In [None]:
np.sin(a)

In [None]:
a + 1

In [None]:
a ** 10

In [None]:
a ** 10 < 5000

## Статистические функции

In [None]:
a.sum()

In [None]:
a.cumsum()

In [None]:
a.min()

In [None]:
a.max()

In [None]:
a = np.random.randint(2, 10, (7, 4))

In [None]:
a

In [None]:
a.sum()

In [None]:
a.sum(0)

In [None]:
a.sum(1)

In [None]:
a.cumsum(0)

Полный список операций смотри в документации: https://numpy.org/doc/stable/reference/routines.math.html

## Индексация

In [None]:
a = a.cumsum(0)
a

Строка:

In [None]:
a[1]

Элемент

In [None]:
a[1, 1]

Срезы:

In [None]:
a[:2]

In [None]:
a[:,1]

## Итерация по массивам

In [None]:
b

In [None]:
for i in b:
    print(i)

In [None]:
for i in a:
    print(i)

In [None]:
for i in a.flatten():
    print(i)

Меняем размеры массивов:

In [None]:
a = np.random.randint(2, 10, (2, 3, 4))
a

In [None]:
a.shape

In [None]:
a.shape = (3, 2, 4)
a

In [None]:
a.transpose(), a

In [None]:
a.reshape((2, 12))

In [None]:
a.reshape((4, -1))

## Объединение массивов

In [None]:
a = np.array([[1, 2], [3, 4]])
b = np.array([[10, 20], [30, 40]])

In [None]:
np.vstack((a, b))

In [None]:
np.hstack((a, b))

## Особенности копирования данных:

In [None]:
a = np.array([[1, 2], [3, 4]])
a

In [None]:
b = a

In [None]:
a is b

In [None]:
b[0, 0] = 100

In [None]:
a

In [None]:
b = a.copy()

In [None]:
b[0, 0] = 1000
a

In [None]:
b

## Немного про случайные числа

In [None]:
np.random.randint(0, 10, 2)

In [None]:
np.random.random(10)

## Операции для работы с линейной алгеброй

In [None]:
a = np.array([[1, 2], [3, 4]])
a

### Собственные значения и собственные векторы.

http://mathprofi.ru/sobstvennye_znachenija_i_sobstvennye_vektory.html

In [None]:
np.linalg.eig(a)

### Системы линейных уравнений

http://mathprofi.ru/odnorodnye_sistemy_lineinyh_uravnenij.html

In [None]:
A = np.array([[2, 2, -1], [5, 4, -6], [3, 2, -5]])
B = np.zeros(3)

In [None]:
A, B

In [None]:
np.linalg.solve(A, B)

### Обратная матрица

In [None]:
np.linalg.inv(A)

# Pandas

Используем датасет: https://www.kaggle.com/alextar04/vk-social-network-dataset


In [None]:
# !conda install pandas

In [None]:
import pandas as pd
df = pd.read_csv('newDataBaseVk.csv', index_col=0)

In [None]:
df

## Сбор основных данных о датасете:

In [None]:
df.head()

In [None]:
df.head(10)

In [None]:
df.info()

In [None]:
df.describe()

## Series объекты

In [None]:
import pandas as pd
my_series = pd.Series([1, 2, 3, 4, 5])
my_series

In [None]:
my_series.values, my_series.index

In [None]:
my_series[1]

In [None]:
my_series[[1, 2, 3]]

In [None]:
my_series[[1, 2, 3]] = 0
my_series

In [None]:
my_series = pd.Series([0, 20, 4, 25, 6], index=['a', 'b', 'c', 'd', 'e'])
my_series

In [None]:
my_series > 10

In [None]:
my_series[my_series > 10]

## Обращения по индексу

In [None]:
df.head()

In [None]:
df["countFriends"]

In [None]:
df[["countFriends", "countFollowers"]]

In [None]:
df["sex"].value_counts()

### Доступ к строкам


loc -- доступ по строке
iloc -- доступ по числу

In [None]:
df.loc[3329071]

In [None]:
df.iloc[0]

In [None]:
df.loc[[3329071, 7245154]]

In [None]:
df.loc[[3329071, 7245154], "sex"]

In [None]:
df.loc[[3329071, 7245154], ["sex", "boolComments"]]

In [None]:
df[df.sex > 1]["sex"]

In [None]:
df['followers/friend'] = df['countFollowers'] / df['countFriends']

In [None]:
df['followers/friend']

In [None]:
df.drop(['followers/friend'], axis='columns')

## Группировка и агрегация

In [None]:
df[["countFriends", "countFollowers"]].groupby("countFollowers").mean()

In [None]:
df[["countFriends", "countFollowers"]].groupby("countFollowers").sum()

In [None]:
df[["countFriends", "countFollowers"]].groupby("countFollowers").count()

## Сводная таблица в Pandas

In [None]:
pvt = df.pivot_table(index=['sex'], columns=['boolComments'], values='countFriends', aggfunc='count')
pvt

## Чтение и запись данных

In [None]:
df[["countFriends", "countFollowers"]].groupby("countFollowers").count().to_csv("count.csv")

In [None]:
new_df = pd.read_csv("count.csv")

In [None]:
new_df.to_json("count.json")

In [None]:
new_df.to_json("count.json", indent=4)

In [None]:
new_df = pd.read_json("count.json")

In [None]:
new_df

## Применение функций к столбцам

In [None]:
new_df['countFriends'].apply(lambda x: x / 10)

In [None]:
df.head()

In [None]:
Sex = df.sex.map({2: 'M', 1: 'F'})

In [None]:
df.sex = Sex
df

## Работа с пропусками данных

In [None]:
temp_with_nan = pd.DataFrame({'temp': [+20, +19, +16, np.nan, +22, +35, +25],
                              'visibility': [10, 8, np.nan, 1, 5, 8, 10]},
                             index=[1, 2, 3, 4, 5, 6, 7])
temp_with_nan

In [None]:
temp_with_nan.isnull().any()

In [None]:
temp_with_nan.isnull()

In [None]:
temp_with_nan.isna()

isna == isnull

In [None]:
temp_with_nan.fillna(0)

In [None]:
temp_with_nan.fillna(temp_with_nan.mean())

# MatPlotLib

## Простейший линейный график

In [None]:
!pip install matplotlib

In [None]:
import matplotlib.pyplot as plt

plt.plot((0, 1, 2, 3, 4, 5, 6, 7), (0, 3, 1, 2, 1, 5, 4, 10))
plt.show()

In [None]:
import matplotlib.pyplot as plt
plt.plot((0, 3, 1, 2, 1, 5, 4, 0))
plt.show()

Также можно строить замкнутые фигуры

In [None]:
plt.plot((0, 0, 5, 4, 0), (0, 3, 2, 1, 0))
plt.show()

## Как построить точечны график

In [None]:
plt.scatter((0, 1, 2, 3, 4, 5, 6, 7), (0, 3, 1, 2, 1, 5, 4, 10))
plt.show()

In [None]:
plt.scatter([0, 1, 2, 3, 4 , 5], [0, 1, 2, 3, 4 , 5])
plt.scatter([1, 2, 3, 1, 2 , 1], [2, 3, 4, 3, 4 , 4])
plt.scatter([2, 3, 4, 3, 4 , 4], [1, 2, 3, 1, 2 , 1])
plt.show()

### Гистограммы

In [None]:
plt.bar([6, 7, 8], [10, 15, 21])
plt.show()

In [None]:
plt.barh([6, 7, 8], [10, 15, 21])
plt.show()

In [None]:
plt.barh([6, 7, 8], [10, 15, 21])
plt.barh([6, 7, 8], [4, 3, 2])
plt.show()

## Круговые диаграммы

In [None]:
plt.pie([40, 10, 30, 100])
plt.show()

## BoxPlot

In [None]:
a = np.random.randint(2, 10, 10)

In [None]:
a

In [None]:
plt.boxplot(a)
plt.show()

In [None]:
a = (np.random.randint(2, 10, 10), np.random.randint(2, 10, 10), np.random.randint(2, 10, 10))
a

In [None]:
plt.boxplot(a)
plt.show()

## Улучшаем работу с графиками

In [None]:
fig = plt.figure()
ax = fig.add_subplot(111)

plt.show()

- Создали новый объект Фигура
- Добавили новый объект графика(1 и 1 размер и 1 номер ячейки)

## Наведем красоту

In [None]:
fig = plt.figure()
ax = fig.add_subplot(111)

fig.set(facecolor = 'green')
ax.set(facecolor = 'blue')
plt.show()

In [None]:
fig = plt.figure()
ax = fig.add_subplot(111)

ax.barh([6, 7, 8], [10, 15, 21])
ax.barh([6, 7, 8], [4, 3, 2])

fig.set(facecolor = 'green')
ax.set(facecolor = 'blue')
ax.set_title("Заголовок графика")
ax.set_xlabel('Ось абцис')
ax.set_ylabel('Ось ординат')
plt.show()

In [None]:
fig = plt.figure()
ax = fig.add_subplot(111)

ax.scatter([6, 7, 8], [10, 15, 21], marker="*")
ax.plot([6, 7, 8], [4, 3, 2])

fig.set(facecolor = 'green')
ax.set(facecolor = 'blue')
ax.set_title("Заголовок графика")
ax.set_xlabel('Ось абцис')
ax.set_ylabel('Ось ординат')
plt.show()

In [None]:
fig = plt.figure()
ax = fig.add_subplot(111)

ax.scatter([6, 7, 8], [10, 15, 21], marker="*", color="black")
ax.plot([6, 7, 8], [4, 3, 2], color="red")

fig.set(facecolor = 'green')
ax.set(facecolor = 'blue')
ax.set_title("Заголовок графика")
ax.set_xlabel('Ось абцис')
ax.set_ylabel('Ось ординат')
plt.show()

## Несколько графиков

In [None]:
fig = plt.figure(figsize=(10, 10))
ax1 = fig.add_subplot(231)
ax2 = fig.add_subplot(232)
ax3 = fig.add_subplot(233)
ax4 = fig.add_subplot(234)
ax5 = fig.add_subplot(235)
ax6 = fig.add_subplot(236)

ax1.set_title("ax1")
ax2.set_title("ax2")
ax3.set_title("ax3")
ax4.set_title("ax4")
ax5.set_title("ax5")
ax6.set_title("ax6")

plt.show()

In [None]:
fig = plt.figure(figsize=(10, 10))
ax1 = fig.add_subplot(211)
ax2 = fig.add_subplot(236)
ax3 = fig.add_subplot(325)



ax1.set_title("ax1")
ax2.set_title("ax2")
ax3.set_title("ax3")
ax4.set_title("ax4")
ax5.set_title("ax5")
ax6.set_title("ax6")

plt.show()

### Немного упростим код:

In [None]:
fig, axes = plt.subplots(nrows = 3, ncols = 3, figsize=(15, 15))

axes[0,0].set(title='[0,0]')
axes[0,1].set(title='[0,1]')
axes[0,2].set(title='[0,2]')
axes[1,0].set(title='[1,0]')
axes[1,1].set(title='[1,1]')
axes[1,2].set(title='[1,2]')
axes[2,0].set(title='[2,0]')
axes[2,1].set(title='[2,1]')
axes[2,2].set(title='[2,2]')


plt.show()

## Добавление элементов графика

### Добавим легенду

In [None]:
import numpy as np
import matplotlib.pyplot as plt

x = np.linspace(-2*np.pi, 2*np.pi, 200)
y1 = np.sin(x)
y2 = np.cos(x)

fig, ax = plt.subplots()

ax.plot(x, y1, label = 'sin(x)')
ax.plot(x, y2, label = 'cos(x)')

ax.legend()

plt.show()

In [None]:
import numpy as np
import matplotlib.pyplot as plt

x = np.linspace(-2*np.pi, 2*np.pi, 200)
y1 = np.sin(x)
y2 = np.cos(x) / x

fig, ax = plt.subplots()

ax.plot(x, y1, label = 'sin(x)')
ax.plot(x, y2, label = r'$\frac{cos(x)}{x}$')
ax.set_ylim([-5,5])
ax.legend()

ax.legend(fontsize = 14,
          ncol = 2,
          facecolor = 'oldlace',
          edgecolor = 'r',
          title = 'Формулы',
          title_fontsize = '16'
          )
plt.show()

### Добавим сетку

In [None]:
import numpy as np
import matplotlib.pyplot as plt

x = np.linspace(-2*np.pi, 2*np.pi, 200)
y1 = np.sin(x)
y2 = np.cos(x) / x

fig, ax = plt.subplots()

ax.plot(x, y1, label = 'sin(x)')
ax.plot(x, y2, label = r'$\frac{cos(x)}{x}$')
ax.set_ylim([-5,5])
ax.legend()

ax.legend(fontsize = 14,
          ncol = 2,
          facecolor = 'oldlace',
          edgecolor = 'r',
          title = 'Формулы',
          title_fontsize = '16'
          )
ax.grid()
plt.show()

In [None]:
import numpy as np
import matplotlib.pyplot as plt

x = np.linspace(-2*np.pi, 2*np.pi, 200)
y1 = np.sin(x)
y2 = np.cos(x) / x

fig, ax = plt.subplots()

ax.plot(x, y1, label = 'sin(x)')
ax.plot(x, y2, label = r'$\frac{cos(x)}{x}$')
ax.set_ylim([-5,5])
ax.legend()

ax.legend(fontsize = 14,
          ncol = 2,
          facecolor = 'oldlace',
          edgecolor = 'r',
          title = 'Формулы',
          title_fontsize = '16'
          )
ax.grid(color = 'orange',    #  цвет линий
        linewidth = 2,    #  толщина
        linestyle = '--',
        axis = 'y')
plt.show()

### Добавим подписи делений на осях

In [None]:
import numpy as np
import matplotlib.pyplot as plt

month = ('Январь', 'Февраль', 'Март', 'Апрель', 'Май', 'Июнь', 'Июль', 'Август', 'Сентябрь', 'Октябрь', 'Ноябрь', 'Декабрь')
value = np.random.randint(0, 100, 12)
position = np.arange(12)

fig, ax = plt.subplots()

ax.bar(position, value)

ax.set_xticks(position)

ax.set_xticklabels(month, rotation = 45)

fig.set_figwidth(10)
fig.set_figheight(6)

plt.show()

# Seaborn

In [None]:
!pip install seaborn

In [None]:
import seaborn as sns

In [None]:
import pandas as pd
df = pd.read_csv("newDataBaseVk.csv")

In [None]:
df.head()

## График по точкам

In [None]:
sns.scatterplot(data=df, x="boolComments", y="countFollowers")

## Тепловая карта

In [None]:
import numpy as np
import seaborn as sns
uniform_data = np.random.rand(5, 8)
ax = sns.heatmap(uniform_data)

In [None]:
uniform_data

## Графики разброса

In [None]:
flights = sns.load_dataset("flights")
flights.head()

In [None]:
may_flights = flights.query("month == 'May'")
sns.lineplot(data=may_flights, x="year", y="passengers")

In [None]:
flights_wide = flights.pivot("year", "month", "passengers")
flights_wide.head()

In [None]:
sns.lineplot(data=flights_wide)

In [None]:
sns.lineplot(data=flights, x="year", y="passengers")

## Гистограммы

In [None]:
month_pass = flights[["month", "passengers"]].groupby("month").sum()
month_pass

In [None]:
sns.histplot(data=month_pass)

In [None]:
sns.set_theme(style="ticks")
exercise = sns.load_dataset("exercise")
g = sns.catplot(x="time", y="pulse", hue="kind", data=exercise)

## Pairplot

In [None]:
sns.pairplot(flights)

## Kdeplot

In [None]:
sns.kdeplot(data=np.random.normal(size=1000))

### Нормальное распредление
http://mathprofi.ru/normalnoe_raspredelenie_veroyatnostei.html

Распределение при котором больше всего вариантом полученных с помощью генератора случайных чисел, получены в середине диапазона

# Plotly

In [None]:
!pip install plotly

In [None]:
import plotly
import plotly.graph_objs as go
import plotly.express as px
from plotly.subplots import make_subplots

import numpy as np
import pandas as pd

## Простой и быстрый график по точкам

In [None]:
x = np.arange(0, 5, 0.1)
def f(x):
    return x**2

fig = px.scatter(x=x, y=f(x))
fig.show()

## Простой график

In [None]:
fig = go.Figure()
fig.add_trace(go.Scatter(x=x, y=f(x)))
fig.show()

## Несколько графиков на одной плоскости

In [None]:
fig = go.Figure()
fig.add_trace(go.Scatter(x=x, y=f(x)))
fig.add_trace(go.Scatter(x=x, y=x))
fig.show()

## Добавим подписи

In [None]:
fig = go.Figure()
fig.add_trace(go.Scatter(x=x, y=f(x), name='f(x)=x^2'))
fig.add_trace(go.Scatter(x=x, y=x, name='g(x)=x'))
fig.show()

## Несколько графиков

In [None]:
def h(x):
    return np.sin(x)

def k(x):
    return np.cos(x)

def m(x):
    return np.tan(x)
    
fig = make_subplots(rows=1, cols=2)

fig.update_yaxes(range=[-0.5, 1.5], zeroline=True, zerolinewidth=2, zerolinecolor='LightPink')
fig.update_xaxes(range=[-0.5, 1.5], zeroline=True, zerolinewidth=2, zerolinecolor='#008000')

fig.add_trace(go.Scatter(x=x, y=h(x),  name='h(x)=sin(x)'), 1, 1)
fig.add_trace(go.Scatter(x=x, y=k(x),  name='k(x)=cos(x)'), 1, 1)
fig.add_trace(go.Scatter(visible='legendonly', x=x, y=m(x),  name='m(x)=tg(x)'), 1, 1)

fig.add_trace(go.Scatter(x=x, y=f(x), mode='lines+markers',  name='f(x)=x<sup>2</sup>'), 1, 2)
fig.add_trace(go.Scatter(x=x, y=x, mode='markers',name='g(x)=x',
                         marker=dict(color='LightSkyBlue', size=20, line=dict(color='MediumPurple', width=3))), 1, 2)
fig.update_layout(legend_orientation="h",
                  legend=dict(x=.5, xanchor="center"),
                  hovermode="x",
                  margin=dict(l=0, r=0, t=0, b=0))
fig.update_traces(hoverinfo="all", hovertemplate="Аргумент: %{x}<br>Функция: %{y}")
fig.show()

# Гистограммы

In [None]:
import plotly.express as px
df = px.data.tips()
fig = px.histogram(df, x="total_bill")
fig.show()

## Box plot

In [None]:
import plotly.express as px
df = px.data.tips()
fig = px.box(df, y="total_bill")
fig.show()

In [None]:
import plotly.graph_objects as go
import numpy as np
np.random.seed(1)

y0 = np.random.randn(50) - 1
y1 = np.random.randn(50) + 1

fig = go.Figure()
fig.add_trace(go.Box(y=y0))
fig.add_trace(go.Box(y=y1))

fig.show()

In [None]:
import plotly.graph_objects as go
import numpy as np

x0 = np.random.randn(50)
x1 = np.random.randn(50) + 2 # shift mean

fig = go.Figure()
fig.add_trace(go.Box(x=x0))
fig.add_trace(go.Box(x=x1))

fig.show()

In [None]:
cities = pd.read_csv('https://raw.githubusercontent.com/hflabs/city/master/city.csv')
fig = go.Figure(go.Scattermapbox(lat=cities['geo_lat'], lon=cities['geo_lon']))
capital = cities[cities['region']=='Москва']
map_center = go.layout.mapbox.Center(lat=capital['geo_lat'].values[0], lon=capital['geo_lon'].values[0])
fig.update_layout(mapbox_style="open-street-map", mapbox=dict(center=map_center))
fig.show()

## Pie

In [None]:
import plotly.graph_objects as go
from plotly.subplots import make_subplots

labels = ["Asia", "Europe", "Africa", "Americas", "Oceania"]

fig = go.Figure()

fig.add_trace(go.Pie(labels=labels, values=[4, 7, 1, 7, 0.5], scalegroup='one',
                     name="World GDP 1980"))

fig.update_layout(title_text='World GDP')
fig.show()

# Вопросы для самостоятельного изучения:
- SciPy

# Рекомендуемая литература:
- Pandas:
    - https://khashtamov.com/ru/pandas-introduction/
    - https://pandas.pydata.org/docs/reference/io.html
- matplotlib
    - https://pyprog.pro/mpl/mpl_install.html
    - https://matplotlib.org/stable/tutorials/introductory/usage.html
- SeaBorn
    - https://seaborn.pydata.org/tutorial.html
- Plotly
    - https://plotly.com/python/
    - https://habr.com/ru/post/502958/

# Вопросы к зачету
- Зачем нужны библиотеки numpy, pandas, matplotlib, seaborn? Когда лучше использовать какую-то из них?
- Из чего состоит график matplotlib?
- Какие способы воздействовать на этот график?
- Зачем нужен seaborn?

- Уровни тестирования, типы тестирования
- Git
- Стили документации кода Python
- Системы генерации документации