# Предобработка данных для РФА

**1. Загрузка и чтение файла**

In [1]:
#загрузка библиотек

import pandas as pd
%matplotlib inline
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np #для сложных математических функций
from scipy import stats as st
import math as mth
from plotly.subplots import make_subplots

#для загрузки из внешних ссылок
from urllib.parse import urlencode
import requests

from sklearn.preprocessing import StandardScaler, MinMaxScaler

import warnings
warnings.simplefilter('ignore')

In [2]:
# напишем функцию для считывания файла
# не забудьте при указании ссылки (переменная url) заключить её в одинарные кавычки
def load(url):
    base_url = 'https://cloud-api.yandex.net/v1/disk/public/resources/download?'
    public_key = url
    final_url = base_url + urlencode(dict(public_key=public_key))
    response = requests.get(final_url)
    download_url = response.json()['href']
    result = pd.read_csv(download_url)
    return result 

#другой вариант конструкции для универсальной загрузки датафрейма

#path = 'D://Yandex_Practicum//11_maplotlib//'
#data = pd.read_csv(path + 'Moscow_places.csv') 

In [30]:
#прочитаем данные из файла
try:
    data = pd.read_excel('D:\\WORK\\test_data.xlsx', index_col=0)
except:
    data = load('https://disk.yandex.ru/d/ZVC7GUYYckKnGQ')

In [31]:
#познакомимся с данными
display(data.head())

Unnamed: 0,SiO2,TiO2,Al2O3,Fe2O3,MnO,MgO,CaO,Na2O,K2O,P2O5,F,S
1,60.0,1.0,16.9,6.34,0.14,2.08,4.83,4.64,1.89,0.53,100.0,50.0
2,61.0,0.98,16.5,6.32,0.142523,2.0384,4.714286,4.626647,1.9215,0.5194,97.633136,49.842271
3,60.5,0.96,16.2,6.3,0.141355,,4.628571,4.612006,1.90575,0.5088,95.857988,49.684543
4,40.0,0.92,17.0,6.4,0.093458,1.9136,4.857143,4.685212,1.26,0.4876,100.591716,50.473186
5,82.0,1.05,17.3,6.42,0.191589,2.184,4.942857,4.699854,2.583,0.5565,102.366864,50.630915


In [32]:
#размер таблицы, типы данных, пропуски 
display(data.info())
display(data.isna().sum())

<class 'pandas.core.frame.DataFrame'>
Int64Index: 10 entries, 1 to 10
Data columns (total 12 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   SiO2    10 non-null     float64
 1   TiO2    10 non-null     float64
 2   Al2O3   9 non-null      float64
 3   Fe2O3   10 non-null     float64
 4   MnO     10 non-null     float64
 5   MgO     9 non-null      float64
 6   CaO     10 non-null     float64
 7   Na2O    10 non-null     float64
 8   K2O     10 non-null     float64
 9   P2O5    10 non-null     float64
 10  F       10 non-null     float64
 11  S       10 non-null     float64
dtypes: float64(12)
memory usage: 1.0 KB


None

SiO2     0
TiO2     0
Al2O3    1
Fe2O3    0
MnO      0
MgO      1
CaO      0
Na2O     0
K2O      0
P2O5     0
F        0
S        0
dtype: int64

In [34]:
#доля пропусков в тех столбцах, где они есть
for col in data.columns:
    if data[col].isna().sum() > 0:
        print(
            'Количество пропусков в столбце', col, ':', data[col].isna().sum(),
            'что составляет', (data[col].isna().sum() / data.shape[0])*100,'% от всех данных по этому столбцу')

Количество пропусков в столбце Al2O3 : 1 что составляет 10.0 % от всех данных по этому столбцу
Количество пропусков в столбце MgO : 1 что составляет 10.0 % от всех данных по этому столбцу


**Выводы о пригодности данных. Изменение типов, если нужно.** 

**2. Статистический анализ данных**

In [None]:


#построим общую гистограму для всех столбцов таблицы:
data.hist(figsize=(15,10));



In [None]:
events['event_dt'].hist(grid = True, bins = 100, figsize = (20,8))
plt.title('Гистограмма распределения совершения действий пользователями')
plt.xlabel('Дата совершения действий')
plt.ylabel('Кол-во совершённых действий');

In [None]:
#посмотрим на распределение количества товаров:
data['quantity'].plot(x = 'quantity', kind = 'hist', grid = True, title = 'Гистограмма распределения значений количества товаров');


In [None]:
#распределение величин
for feature in means:
    sns.distplot(data[feature], bins=50)
    plt.show(); 

In [None]:
plt.figure(figsize=(10,4))
sns.set_style('whitegrid')
ax = sns.boxplot(x = 'R_mean', y = 'rock_type', data = data)
plt.title('Боксплот среднего значения R в зависимости от типа породы');

palette='Paired'

In [None]:


#построим диаграмму размаха
data.boxplot(column = 'sales_total', by = 'platform', figsize=(10,10))
plt.xlabel('Платформа')
plt.ylabel('Количество проданных копий, млн.шт')
plt.title('Диаграммы размаха по продажам на актуальных платформах')
plt.ylim(0, 2)
plt.show()



In [None]:
#строим корреляционную матрицу
corr_m = data.corr() 

#нарисуем heatmap
plt.figure(figsize = (10,10))
sns.heatmap(corr_m, square = True, annot = True)
plt.show()

In [None]:


#построим диаграмму рассеяния
pd.plotting.scatter_matrix(data_feedback, figsize = (9,9));



In [None]:
#посчитаем корреляцияю:
corr_crit_total = data_corr['critic_score'].corr(data_corr['sales_total'])
corr_user_total = data_corr['user_score'].corr(data_corr['sales_total'])
print('Корреляция между общими продажами и оценкой критиков равна ', corr_crit_total.round(2))
print('Корреляция между общими продажами и оценкой пользователей равна ', corr_user_total.round(2))

In [None]:
#пример масштабирования матрицы данных игрушки до диапазона [0, 1]:

X_train = #массив 
min_max_scaler = preprocessing.MinMaxScaler()
X_train_minmax = min_max_scaler.fit_transform(X_train)
X_train_minmax
#выводится масштабированный массив

X_test = #массив

X_test_minmax = min_max_scaler.transform(X_test)
X_test_minmax
#выводится масштабированный массив

Можно проанализировать атрибуты масштабатора, чтобы узнать точную природу преобразования, полученного на обучающих данных:
min_max_scaler.scale_
min_max_scaler.min_
#выводятся параметры после масштабирования
