### 아이디어
- 문제만 보면 특공대 + 나누는 횟수가 k번으로 제한된 문제처럼 보인다.
- 점수의 합산은 구간합을 잘 이용하면 될 것 같다. 단, 구간의 길이가 1인 것을 취급하지 않도록 처리를 추가로 해주어야 할 것이다.
- 매번 최대의 값이 나오도록 수열을 자르면 그 값은 최적해가 될까? 된다면 어떻게 증명해야 할까?
  - 우선 문제의 예제 풀이는 최적의 값이 나오도록 풀진 않았다. 하지만 매번 최대가 되도록 잘라도 똑같이 108이 나온다(3 5 1)
    - 이 부분에서 원본 답의 1 3 5와 자리만 바뀐 순열인 것이 관찰되었다. \
    우연일까? 135로 나올 수 있는 모든 순열 6개에 대해 직접 테스트를 해볼 수 있다.
    직접 해보면 `135 153 315 351 513 531`의 결과 모두 108로 최대값임을 알 수 있었다.
    - 위 테스트를 통해 한가지 가설을 세울 수 있다.
    > 매번 최댓값이 나오도록 수열을 자르는 순서로 잘랐을 때 최적해이고, 자르는 순서의 순열 또한 최적해를 만든다.
    - 최적해인진 모르겠지만, 순열이 같은 값을 낸다는건 증명할 수 있을 것 같다.
      - 문제의 최적해가 $G(L)$ 이고, $L$ 을 $k$ 번 나눈 $L$ 의 연속한 부분수열 $g_i (|g_i > 0|)$ 에 대해, $G(L) = \sum (\sum_{x \in g_i} x)$ 이다.\
      따라서 $L = [g_1] + [g_2] + ... + [g_{k+1}]$ 이라고 볼 수 있다. \
      여기서 임의의 나누는 지점 $i(1 \leq i \le k+1)$ 를 기준으로 나눴을 때, i 보다 왼쪽에 있었던 수열을 A, 오른쪽에 있었던 수열을 B 라고 하자.\
      즉, $A = [g_1] + [g_2] + ... + [g_{i-1}]$ 이고, $B = [g_i] + [g_{i+1}] + ... + [g_{k+1}]$ 이다.\
      그런데 위와 똑같은 방법으로 $A$, $B$ 를 나눌 수 있다. 그래서 $G(L) = \sum_{x' \in A} \cdot \sum_{x'' \in B} + G(A) + G(B)$ 이다.\
      $[g_1] + [g_2] + ... + [g_{k+1}]$ 에서 수열을 $k$ 번 나누려면....
      - 표현이 너무 더러운 것 같아 다시 증명한다.\
      > 증명. 최적해를 만들도록 수열을 자르는 방법에 순서는 상관이 없다.
      
      최적해의 방법대로 잘린 최종 수열들을 $L'_1, L'_2, ..., L'_{k+1}$ 이라고 하자.\
      문제에서의 operation에서는 더 이상 나누지 않을 수열에 대해서 수열의 내부 값을 들여다 보지 않는다. \
      따라서 각각의 $L'_i$ 에 대해서 $l_i = \sum_{L'_i}$ 으로 생각해도 된다. 그러한 변형 수열을 $L'$ 라고 하자.\
      $|L'| = k+1$ 이고, 길이가 $k+1$ 인 수열을 $k$ 번 나누기 위해선 각 원소 사이의 모든 구역을 잡아야 한다.\
      이 때, 아무 순서로 수열을 잘라도 그 수열의 전개식이 같은 것을 알 수 있다.\
      따라서 $L'$ 의 순열은 모두 최적해를 만든다.

In [None]:
import io, os, sys
input=io.BytesIO(os.read(0,os.fstat(0).st_size)).readline

def sol() :
  N, K = map(int, input().split())
  L = list(map(int, input().split()))
  acc = [0]
  for i, v in enumerate(L) :
    acc.append(acc[i] + v)
  
  cuts = []
  cuts.append([*enumerate(L)])

  #나눌 수 있는 수열을 둘로 나눴을 때, 그 둘의 곱이 최대인 컷을 찾는다. O(N)
  NONE = -7777777
  ans = 0
  track = []
  for _ in range(K) : #O(KN)
    score = -1
    idx = NONE #잘라야 하는 L상의 위치
    cut_idx = 0
    for j, cut in enumerate(cuts) : #나눌 수 있는 수열 중 자르는 위치 기준으로 그 위치들의 누적합끼리 곱해보면서 잘라야 하는 위치를 찾는다 O(N)
      if len(cut) == 1 : continue
      for i in range(len(cut) - 1) :
        l = acc[cut[i][0] + 1] - acc[cut[0][0]]
        r = acc[cut[0][0] + len(cut)] - acc[cut[i][0] + 1]
        if score < l * r :
          score = l * r
          idx = i + 1
          cut_idx = j
    
    #idx 기준으로 둘로 나눈다
    cut, new_cut = cuts[cut_idx][:idx], cuts[cut_idx][idx:]
    #정렬성을 유지하면서 삽입한다. 임의 인덱스 삽입이므로 O(N)임에 주의
    track.append(cut[-1][0] + 1)
    cuts[cut_idx] = cut
    cuts.insert(cut_idx + 1, new_cut)
    
    ans += score
  sys.stdout.write(str(ans) + '\n')
  # sys.stdout.write(" ".join(map(str, track)))
  print(*track)

sol()

- 매번 최댓값을 고르는 greedy한 접근이 틀린 것 같다. 노트에다가 끄적였을 때 애초에 식을 잘못썼었더라.
  - 수열의 크기가 충분히 크고 어떤 분기엣 수열을 나눴을 때 최댓값이 같은 분할 지점이 여러개 있을 때, 어떤 것을 골랐느냐에 따라서 최종적으로 나오는 값이 달라질 수 있다.\
  따라서 그리디하게 매번 최댓값만 골리서 푸는 것은 틀린 접근이다. (1.in 참고)
- 이쯤에서 답지를 봤지만 도저히 이해가 안가서 못본셈 치고, 좀더 이것저것 해보기로 마음먹었다.

### 아이디어
- 매번 수열을 자를 때 수열이 좌, 우로 나눠진다. 이를 식으로 표현해보자. \
자를 수 있는 길이가 $N$ 이하인 수열을 $L'$ 이라고 하자.\
임의의 $i (1 \leq i < |L'|)$ 에 대해 수열을 나누는 연산 $f$ 는 다음과 같다.\
$f(L) = \begin{cases} f(L[:i]) + f(L[i:]) &\text{(if |L[:i]| > 1 and |L[i:]| > 1)} \\
L[:i] \cdot f(L[i:]) &\text{(if |L[:i]| = 1 and |L[i:]| > 1)} \\
f(L[:i]) \cdot L[i:] &\text{(if |L[:i]| > 1 and |L[i:]| = 1)} \\ 
L[:i] \cdot L[i:] &\text{otherwise}\end{cases}$\
거지같이 적었지만(길이가 1이면 자를 수 없다는 내용을 반영을 못하겠다..), 잘라진 좌우 부분 수열 중 길이가 1이 되면 곱할 수 있다는 의미이다.\
어쨋든 위의 과정을 $k$ 번 반복해야 한다. 챗봇의 힘을 약간 빌려 점화식을 세워보았다.\
$F(L, k) = \max_{1 \leq i < |L|} \bigg( F(L'_{left}, k-1) \cdot F(L'_{right}, k-1) + L'_{left} \cdot L'_{right} \bigg)$\
이제야 CHT 점화식과 비슷한 형태와 잠깐 봤던 풀이에서 본 2차원 DP 구조가 보이는 것 같다. \
이를 적절히 수정하면 CHT 수식을 만들 수 있을 것이다.
- 점화식에 적용할 수 있는 테?크닉의 관점에서 보자면, 대충 다음과 같은 느낌으로 점화식을 변경할 수 있다. \
`DP[k][i] = 길이 i인 수열을 k번 잘랐을 때의 점수의 최댓값`\
이때 길이 $i$ 의 부분 수열에 대해서 $i-1$ 번째의 최적해와는 관련이 없으므로, $j < i$ 에 대해서 모두 확인해주어야 한다. 따라서\
$DP[k][i] = \max_{j<i} \bigg( DP[k-1][j] + \sum L'_{left} \cdot \sum L'_{right} \bigg)$ \
이쯤에서 $O(N^2 \cdot k)$ 풀이가 가능하다.

### 풀이(USACO)
- 4008(특공대)에서 배웠다 싶이, 각 원소가 0 이상인 누적합은 단조증가성을 띔을 알고 있다. \
그리고 위의 틀린 구현에서의 누적합 활용을 조금 변형해보면 다음과 같은 식을 유도할 수 있다. \
$n$ 을 잘려진 수열의 길이, $i$ 를 기준으로 잘려진 누적합 array를 $A$ 라고할 때\
$DP[k][i] = \max_{j < i}(DP[k-1][i] + (A_i - A_j) \cdot (A_{i+n} - A_i))$\
이쯤되니 거의 보이는 것 같다. 전개 후, j에 비례하지 않는 항들을 max 바깥으로 빼는 식으로 위치를 바꾸면 다음과 같다. \
$DP[k][i] = \max_{j < i}(DP[k-1][i] - A_j \cdot (A_{i+n} - A_i) + A_i \cdot (A_{i+n} - A_j))$\
$ax + b$ 의 형태로 봤을 때, 기울기가 $-A_j$, 상수가 $DP[k-1][i]$ 인 CHT 수식이 완성되었다. $x$ 는 $A_{i+n} - A_i$ 이다.\
따라서 $O(Nk)$ 에 풀 수 있다.
- 최적해의 순서 정보가 중요하지 않다는 것을 귀납법으로도 증명할 수 있다.
  - 위의 나눈 수열의 합을 하나의 원소로 보는 아이디어는 그대로 사용하면서, $k = 2$ 일 때 최적해를 계산하는 방법을 고려해보자.
  - 부분 수열의 합을 각각 $A, B, C$ 라고 할 때, $[A, B, C]$ 를 나누는 방법은 두 가지가 있다.
    - $[A], [B, C]$ 로 나눈 경우, $G = A(B + C) + f([B, C]) = A(B + C) + B \cdot C = AB + AC + BC$ 
    - $[A, B], [C]$ 로 나눈 경우, $G = f([A, B]) + C(A + B) = AB + AC + BC$
  - 둘의 전개식이 같았으므로, $k = 2$ 일 때 최적해를 만드는 방법은 순서에 상관없이 같다.
  - 위 명제가 $k$ 일 때 성립한다고 가정하고, $k + 1$ 에 대해서 생각해보자.
  - 일반성을 잃지 않고, $k + 2$ 개의 연속하는 수열들의 합을 $A_1, A_2, ..., A_{k+2}$ 라고 할 수 있다.
  - 배열을 어떻게 골라서 나누든, 결국엔 $k+1$ 번 나누게 되어 $k+2$ 개의 부분 수열들이 생기게 된다.
  - 각 $A_i$ 마다, 모든 다른 $A_j$ 에 대해 정확히 한번씩 짝지어져 곱해져서 최적해에 계산되게 된다.
  - 그러므로, $k+1$ 일 때 최적해를 만드는 방법은 순서에 상관없이 같다.
- 메모리 최적화

In [None]:
import io, os, sys
input=io.BytesIO(os.read(0,os.fstat(0).st_size)).readline

MAX = 101010
def sol() :
  N, K = map(int, input().split())
  L = list(map(int, input().split()))
  acc = [0]
  for i, v in enumerate(L) :
    acc.append(acc[i] + v)
  
  DP = [[0] * MAX for _ in range(2)]
  track = [[0] * MAX for _ in range(201)]
  def case1(x, y, i) :
    return (DP[0][y] - DP[0][x] >= (acc[y] - acc[x]) * (acc[N] - acc[i]))

  def case2(x, y, i) :
    return ((DP[0][y] - DP[0][x]) * (acc[i] - acc[y]) <= (DP[0][i] - DP[0][y]) * (acc[y] - acc[x]))

  l = r = 1
  Q = [0] * MAX
  for i in range(1, K+1) :
    Q[r] = 0
    r += 1
    for j in range(1, N+1) :
      while (r - l > 1 and case1(Q[l], Q[l+1], j)) : l += 1

      x = Q[l]
      DP[1][j] = DP[0][x] + (acc[j] - acc[x]) * (acc[N] - acc[j])
      track[i][j] = x

      while r - l > 1 and case2(Q[r-2], Q[r-1], j): r -= 1
      Q[r] = j
      r += 1
    l = r = 1
    for j in range(1, N+1) :
      DP[0][j] = DP[1][j]

  ans = idx = -1
  for i in range(1, N+1) :
    if DP[0][i] > ans :
      ans = DP[0][i]
      idx = i

  ans2 = [-1]
  for i in range(K) :
    ans2.append(idx)
    idx = track[K-i][idx]
  ans2.sort()
  for i in range(1, K+1) :
    if not ans2[i] : ans2[i] = 1
    if ans2[i] <= ans2[i-1] : ans2[i] = ans2[i-1] + 1

  sys.stdout.write(str(ans) + '\n')
  sys.stdout.write(' '.join(map(str, ans2[1:])))

sol()