In [None]:
from google.colab import files
uploaded = files.upload()

In [None]:
import pandas as pd
import matplotlib.pyplot as plt


In [None]:
df = pd.read_excel('osv4.xlsx')

In [None]:
df.head()

In [None]:
def convert_to_numeric(value):
    if isinstance(value, str):
        value = value.replace(' ', '').replace(',', '.')
    return pd.to_numeric(value, errors='coerce')

numeric_columns = ['Сальдо нач Д', 'Сальдо нач К', 'Обороты Д', 'Обороты К', 'Сальдо кон Д', 'Сальдо К']
for column in numeric_columns:
    df[column] = df[column].apply(convert_to_numeric)


In [None]:
print(df.isna().sum())

In [None]:
numeric_columns = df.select_dtypes(include=['float64', 'int64']).columns

df[numeric_columns] = df[numeric_columns].fillna(df[numeric_columns].mean())



In [None]:
df['Наименование'] = df['Наименование'].fillna('Не указано')

In [None]:
print(df.isna().sum())


In [None]:
numeric_columns = df.select_dtypes(include=['float64', 'int64']).columns
df[numeric_columns] = df[numeric_columns].fillna(df[numeric_columns].mean())


In [None]:
print(df.isna().sum())


In [None]:
descriptive_stats = df[['Сальдо нач Д', 'Сальдо нач К', 'Обороты Д', 'Обороты К', 'Сальдо кон Д', 'Сальдо К']].describe()

print(descriptive_stats)

In [None]:
pd.options.display.float_format = '{:,.2f}'.format
df[['Сальдо нач Д', 'Сальдо нач К', 'Обороты Д', 'Обороты К', 'Сальдо кон Д', 'Сальдо К']] = df[['Сальдо нач Д', 'Сальдо нач К', 'Обороты Д', 'Обороты К', 'Сальдо кон Д', 'Сальдо К']].applymap(lambda x: f'{x:,.2f}')
df = df.round({'Сальдо нач Д': 0, 'Сальдо нач К': 0, 'Обороты Д': 0, 'Обороты К': 0, 'Сальдо кон Д': 0, 'Сальдо К': 0})


In [None]:
print(descriptive_stats)

In [None]:
data = {
    'Сальдо нач Д': [43.00, 160013.55, 522535.64, 0.00, 0.00, 0.00, 0.00, 2291694.76],
    'Сальдо нач К': [43.00, 162308.11, 884798.31, -1802525.28, 0.00, 0.00, 69510.50, 2536000.00],
    'Обороты Д': [43.00, 20867520.00, 45872476.28, -4660167.47, 227384.50, 2317238.00, 38577646.08, 291364523.75],
    'Обороты К': [43.00, 20870792.16, 46046080.00, -9320334.94, 100000.00, 2432716.00, 39630859.00, 291364523.75],
    'Сальдо кон Д': [43.00, 217411.29, 590417.19, 0.00, 0.00, 0.00, 37000.00, 3091947.79],
    'Сальдо К': [43.00, 222901.91, 1895075.40, -5676488.43, 0.00, 0.00, 147188.50, 6037903.65]
}

index = ['count', 'mean', 'std', 'min', '25%', '50%', '75%', 'max']

df = pd.DataFrame(data, index=index)

from IPython.display import display
display(df)


In [None]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_error

data = {
    'Сальдо нач Д': [43.00, 160013.55, 522535.64, 0.00, 0.00, 0.00, 0.00, 2291694.76],
    'Сальдо нач К': [43.00, 162308.11, 884798.31, -1802525.28, 0.00, 0.00, 69510.50, 2536000.00],
    'Обороты Д': [43.00, 20867520.00, 45872476.28, -4660167.47, 227384.50, 2317238.00, 38577646.08, 291364523.75],
    'Обороты К': [43.00, 20870792.16, 46046080.00, -9320334.94, 100000.00, 2432716.00, 39630859.00, 291364523.75],
    'Сальдо кон Д': [43.00, 217411.29, 590417.19, 0.00, 0.00, 0.00, 37000.00, 3091947.79],
    'Сальдо К': [43.00, 222901.91, 1895075.40, -5676488.43, 0.00, 0.00, 147188.50, 6037903.65]
}

index = ['count', 'mean', 'std', 'min', '25%', '50%', '75%', 'max']

df = pd.DataFrame(data, index=index)

X = df[['Сальдо нач Д', 'Сальдо нач К', 'Сальдо кон Д', 'Сальдо К']]
Y = df['Обороты Д']

X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2, random_state=42)

model = LinearRegression()

model.fit(X_train, Y_train)

Y_pred = model.predict(X_test)

mae = mean_absolute_error(Y_test, Y_pred)
print(f"Средняя абсолютная ошибка: {mae}")

new_data = np.array([[250000, 200000, 250000, 200000]])
forecast = model.predict(new_data)
print(f"Прогнозируемые обороты по дебету для новых данных: {forecast}")


In [None]:
columns_to_plot = ['Сальдо нач Д', 'Сальдо нач К', 'Обороты Д', 'Обороты К', 'Сальдо кон Д', 'Сальдо К']

for column in columns_to_plot:
    plt.figure(figsize=(8, 6))
    df[column].hist(bins=20, edgecolor='black')
    plt.title(f'Гистограмма: {column}')
    plt.xlabel(column)
    plt.ylabel('Частота')
    plt.grid(True)
    plt.show()