#  <div align = "center"> Ремасштабирование данных литологического описания керна

In [None]:
from google.colab import drive
drive.mount('/MD')

## Блок импорта необходимых библиотек

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

## Загрузим данные

In [None]:
init_data = pd.read_csv('/MD/MyDrive/data.csv',
                        sep = ';',
                        encoding = 'cp1251')

In [None]:
init_data

Unnamed: 0,ZK,ZP,LITO
0,2670.0,2671.0,
1,2653.0,2654.93,Породы кремнисто-глинистые
2,2654.93,2656.53,Породы глинисто-кремнистые
3,2656.53,2656.78,Известняки
4,2656.78,2657.13,Породы кремнисто-глинистые
5,2635.0,2635.59,Породы глинисто-карбонатно-кремнистые
6,2635.59,2637.19,Породы глинисто-карбонатно-кремнистые
7,2637.19,2637.44,Породы глинисто-карбонатно-кремнистые
8,2637.44,2639.02,Породы глинисто-карбонатно-кремнистые
9,2639.02,2641.4,Породы глинисто-кремнистые


## Проверим значения на рост в ячейках ZK ZP

In [None]:
test_order = init_data.ZK[1:].values - init_data.ZP[:-1].values
test_order

array([-18.  ,   0.  ,   0.  ,   0.  , -22.13,   0.  ,   0.  ,   0.  ,
         0.  ,   0.  ,   0.  ,   0.  ,   0.  ,   0.  ,   0.  ,   0.  ,
         0.  ,   0.  ,   0.  ,   0.  ,   0.  ,   0.  ,   0.  ,   0.  ,
         0.  ,   0.  ,   0.  ,   0.  ,   0.  ,   0.  ,   0.  ])

## Наблюдаем значения -18 и -22.13. Проверим их

In [None]:
ind_disorder = np.where(test_order != 0)[0]

for i in range(0 , 3, 2):
  ind_disorder = np.insert(ind_disorder, i + 1, (ind_disorder + 1)[i])

init_data.iloc[ind_disorder]

Unnamed: 0,ZK,ZP,LITO
0,2670.0,2671.0,
1,2653.0,2654.93,Породы кремнисто-глинистые
4,2656.78,2657.13,Породы кремнисто-глинистые
5,2635.0,2635.59,Породы глинисто-карбонатно-кремнистые


## Заметим, что в конце таблицы также есть значение 2653

In [None]:
init_data.iloc[[len(init_data) - 1]]

Unnamed: 0,ZK,ZP,LITO
31,2651.82,2653.0,Породы керогеново-кремнисто-глинистые


## То есть нужно удалить первую строку и переставить строки датафрейма в нужном порядке

In [None]:
red_data = init_data.drop([0])
red_data.reset_index(inplace = True)
red_data.drop(columns = ['index'], inplace = True)
red_data

Unnamed: 0,ZK,ZP,LITO
0,2653.0,2654.93,Породы кремнисто-глинистые
1,2654.93,2656.53,Породы глинисто-кремнистые
2,2656.53,2656.78,Известняки
3,2656.78,2657.13,Породы кремнисто-глинистые
4,2635.0,2635.59,Породы глинисто-карбонатно-кремнистые
5,2635.59,2637.19,Породы глинисто-карбонатно-кремнистые
6,2637.19,2637.44,Породы глинисто-карбонатно-кремнистые
7,2637.44,2639.02,Породы глинисто-карбонатно-кремнистые
8,2639.02,2641.4,Породы глинисто-кремнистые
9,2641.4,2642.17,Породы глинисто-кремнистые


In [None]:
conc_data = red_data.iloc[list(range(ind_disorder[2]))]

red_data.drop(list(range(ind_disorder[2])), inplace = True)

prep_data = pd.concat([red_data, conc_data], ignore_index= True)

In [None]:
prep_data

Unnamed: 0,ZK,ZP,LITO
0,2635.0,2635.59,Породы глинисто-карбонатно-кремнистые
1,2635.59,2637.19,Породы глинисто-карбонатно-кремнистые
2,2637.19,2637.44,Породы глинисто-карбонатно-кремнистые
3,2637.44,2639.02,Породы глинисто-карбонатно-кремнистые
4,2639.02,2641.4,Породы глинисто-кремнистые
5,2641.4,2642.17,Породы глинисто-кремнистые
6,2642.17,2643.04,Породы глинисто-кремнистые
7,2643.04,2643.91,Породы глинисто-кремнистые
8,2643.91,2644.15,Радиоляриты
9,2644.15,2644.57,Породы глинисто-кремнистые


## Объединим пласты с единым составом

In [None]:
gen_data = pd.DataFrame(columns= ['ZK', 'ZP', 'LITO'])
k = 0
for i in range(1, len(prep_data) ):
  if prep_data.LITO[i - 1] == prep_data.LITO[i]:
    continue
  gen_data.loc[k] = [prep_data.ZK[k], prep_data.ZP[i - 1], prep_data.LITO[i - 1]]
  k = i
  if k == len(prep_data) - 1:
    gen_data.loc[k] = [prep_data.ZK[k], prep_data.ZP[k], prep_data.LITO[k]]

In [None]:
gen_data.reset_index(inplace= True)
gen_data.drop(columns='index', inplace = True)
gen_data

Unnamed: 0,ZK,ZP,LITO
0,2635.0,2639.02,Породы глинисто-карбонатно-кремнистые
1,2639.02,2643.91,Породы глинисто-кремнистые
2,2643.91,2644.15,Радиоляриты
3,2644.15,2644.57,Породы глинисто-кремнистые
4,2644.57,2644.81,Радиоляриты
5,2644.81,2645.19,Породы глинисто-кремнистые
6,2645.19,2645.3,Породы керогеново-глинисто-кремнистые
7,2645.3,2645.44,Породы глинисто-кремнистые
8,2645.44,2646.86,Породы керогеново-глинисто-кремнистые
9,2646.86,2647.08,Радиоляриты


## Сделаем ремасштабирование

In [None]:
(prep_data.ZP - prep_data.ZK).min()

0.11000000000012733

### В качестве шага дискретизации выберем шаг в 10 см. Также возьмём 100 см для показа осреднения

#### Шаг 10 см

In [None]:
ZKdiscr10 = np.arange(prep_data.ZK[0], prep_data.ZP[len(prep_data.ZP) - 1], 0.1)[:-1]
ZPdiscr10 = np.arange(prep_data.ZK[0], prep_data.ZP[len(prep_data.ZP) - 1], 0.1)[1:]

In [None]:
prep_data_U10 = pd.DataFrame(columns=['ZK', 'ZP', 'LITO'])
j = 0
for k in range (len(ZKdiscr10)):
  if gen_data.ZP[j] >= ZPdiscr10[k]:
    prep_data_U10.loc[k] = [ZKdiscr10[k], ZPdiscr10[k], gen_data.LITO[j]]
    continue

  if ZPdiscr10[k] - gen_data.ZP[j] < 0.05:
    prep_data_U10.loc[k] = [ZKdiscr10[k], ZPdiscr10[k], gen_data.LITO[j]]
  else:
    prep_data_U10.loc[k] = [ZKdiscr10[k], ZPdiscr10[k], gen_data.LITO[j + 1]]
  
  j += 1

prep_data_U10

Unnamed: 0,ZK,ZP,LITO
0,2635.0,2635.1,Породы глинисто-карбонатно-кремнистые
1,2635.1,2635.2,Породы глинисто-карбонатно-кремнистые
2,2635.2,2635.3,Породы глинисто-карбонатно-кремнистые
3,2635.3,2635.4,Породы глинисто-карбонатно-кремнистые
4,2635.4,2635.5,Породы глинисто-карбонатно-кремнистые
...,...,...,...
216,2656.6,2656.7,Известняки
217,2656.7,2656.8,Известняки
218,2656.8,2656.9,Породы кремнисто-глинистые
219,2656.9,2657.0,Породы кремнисто-глинистые


### Шаг 100 см. При данном шаге придётся усреднять

In [None]:
ZKdiscr100 = np.arange(prep_data.ZK[0], prep_data.ZP[len(prep_data.ZP) - 1], 1)[:-1]
ZPdiscr100 = np.arange(prep_data.ZK[0], prep_data.ZP[len(prep_data.ZP) - 1], 1)[1:]

In [None]:
ZKdiscr100

array([2635., 2636., 2637., 2638., 2639., 2640., 2641., 2642., 2643.,
       2644., 2645., 2646., 2647., 2648., 2649., 2650., 2651., 2652.,
       2653., 2654., 2655., 2656.])

2    0.24
3    0.42
4    0.24
dtype: float64

In [None]:
gen_data['DIFF'] = gen_data.ZP - gen_data.ZK
gen_data

Unnamed: 0,ZK,ZP,LITO,DIFF
0,2635.0,2639.02,Породы глинисто-карбонатно-кремнистые,4.02
1,2639.02,2643.91,Породы глинисто-кремнистые,4.89
2,2643.91,2644.15,Радиоляриты,0.24
3,2644.15,2644.57,Породы глинисто-кремнистые,0.42
4,2644.57,2644.81,Радиоляриты,0.24
5,2644.81,2645.19,Породы глинисто-кремнистые,0.38
6,2645.19,2645.3,Породы керогеново-глинисто-кремнистые,0.11
7,2645.3,2645.44,Породы глинисто-кремнистые,0.14
8,2645.44,2646.86,Породы керогеново-глинисто-кремнистые,1.42
9,2646.86,2647.08,Радиоляриты,0.22


In [None]:
gen_data.loc[[2, 3, 4, 5]].groupby(['LITO'])['DIFF'].sum()[gen_data.loc[[2, 3, 4, 5]].groupby(['LITO'])['DIFF'].sum() == gen_data.loc[[2, 3, 4, 5]].groupby(['LITO'])['DIFF'].sum().max()].keys()[0]

'Породы глинисто-кремнистые'

In [None]:
prep_data_U100 = pd.DataFrame(columns = ['ZK', 'ZP', 'LITO'])

j = 0

for k in range (len(ZKdiscr100)):
  if gen_data.ZP[j] - gen_data.ZK[j] >= 1 and ZPdiscr100[k] <= gen_data.ZP[j]:
    prep_data_U100.loc[k] = [ZKdiscr100[k], ZPdiscr100[k], gen_data.LITO[j]]
    continue

  #if ZPdiscr100[k] > gen_data.ZP[j]:
  if ZPdiscr100[k] - gen_data.ZP[j] < gen_data.ZP[j] - ZKdiscr100[k] and gen_data.ZP[j] - gen_data.ZK[j] >= 1:
    prep_data_U100.loc[k] = [ZKdiscr100[k], ZPdiscr100[k], gen_data.LITO[j]]
    j += 1
  
  elif ZPdiscr100[k] - gen_data.ZP[j] >= gen_data.ZP[j] - ZKdiscr100[k] and gen_data.ZP[j] - gen_data.ZK[j] >= 1:
    prep_data_U100.loc[k] = [ZKdiscr100[k], ZPdiscr100[k], gen_data.LITO[j + 1]]
    j += 1
  
  elif gen_data.ZP[j] - gen_data.ZK[j] < 1:
    temp = j
    tmp = [j]
    while gen_data.ZP[temp] - gen_data.ZK[j] < 1:
      temp += 1
      tmp.append(temp)
    
    lith = gen_data.loc[tmp].groupby(['LITO'])['DIFF'].sum()[gen_data.loc[tmp].groupby(['LITO'])['DIFF'].sum() == gen_data.loc[tmp].groupby(['LITO'])['DIFF'].sum().max()].keys()[0]
    
    prep_data_U100.loc[k] = [ZKdiscr100[k], ZPdiscr100[k], lith]

    j = temp
  #if gen_data.ZP[j] - gen_data.ZK[j] < 1:
  #  while gen_data.ZP[j] < ZPdiscr100[k]

  

prep_data_U100

Unnamed: 0,ZK,ZP,LITO
0,2635.0,2636.0,Породы глинисто-карбонатно-кремнистые
1,2636.0,2637.0,Породы глинисто-карбонатно-кремнистые
2,2637.0,2638.0,Породы глинисто-карбонатно-кремнистые
3,2638.0,2639.0,Породы глинисто-карбонатно-кремнистые
4,2639.0,2640.0,Породы глинисто-кремнистые
5,2640.0,2641.0,Породы глинисто-кремнистые
6,2641.0,2642.0,Породы глинисто-кремнистые
7,2642.0,2643.0,Породы глинисто-кремнистые
8,2643.0,2644.0,Породы глинисто-кремнистые
9,2644.0,2645.0,Породы глинисто-кремнистые


In [None]:
gen_data

Unnamed: 0,ZK,ZP,LITO
0,2635.0,2639.02,Породы глинисто-карбонатно-кремнистые
1,2639.02,2643.91,Породы глинисто-кремнистые
2,2643.91,2644.15,Радиоляриты
3,2644.15,2644.57,Породы глинисто-кремнистые
4,2644.57,2644.81,Радиоляриты
5,2644.81,2645.19,Породы глинисто-кремнистые
6,2645.19,2645.3,Породы керогеново-глинисто-кремнистые
7,2645.3,2645.44,Породы глинисто-кремнистые
8,2645.44,2646.86,Породы керогеново-глинисто-кремнистые
9,2646.86,2647.08,Радиоляриты
