<a href="https://colab.research.google.com/github/Idaliya19/Fin-markets/blob/Idaliia/Idaliia.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# ШАГ 1: ПОДКЛЮЧАЕМ БИБЛИОТЕКИ
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import yfinance as yf
import os

print("✓ Библиотеки подключены")

✓ Библиотеки подключены


In [None]:
# ШАГ 2: НАСТРОЙКИ

TICKER = "NVDA"  # Измени на "AAPL", "TSLA" и т.д.

PROJECT_PATH = "/content/nvda_agent" # Где сохранять файлы?

YEARS = 5 # Сколько лет данных брать?

print(f"Анализируем компанию: {TICKER}")
print(f"Папка проекта: {PROJECT_PATH}")
print(f"Период: последние {YEARS} лет\n")

Анализируем компанию: NVDA
Папка проекта: /content/nvda_agent
Период: последние 5 лет



In [None]:
# ШАГ 3: СОЗДАЕМ ПАПКИ ДЛЯ ФАЙЛОВ


folders = ["data_raw", "data_clean", "reports"] # Список нужных папок

for folder in folders:                          # Создаем каждую папку
    full_path = f"{PROJECT_PATH}/{folder}"
    os.makedirs(full_path, exist_ok=True)
    print(f"Папка создана: {folder}")

print("\nСтруктура папок готова!\n")

Папка создана: data_raw
Папка создана: data_clean
Папка создана: reports

Структура папок готова!



In [None]:
# ШАГ 4: ЗАГРУЖАЕМ ДАННЫЕ ИЗ ИНТЕРНЕТА

ticker = yf.Ticker(TICKER) # Подключаемся к Yahoo Finance

income_raw = ticker.income_stmt       # Отчет о прибылях и убытках
balance_raw = ticker.balance_sheet    # Баланс компании
cashflow_raw = ticker.cashflow        # Движение денег

print("Данные загружены!\n")

Данные загружены!



In [None]:
# ШАГ 5: СОХРАНЯЕМ СЫРЫЕ ДАННЫЕ

income_raw.to_csv(f"{PROJECT_PATH}/data_raw/income_stmt_raw.csv")
balance_raw.to_csv(f"{PROJECT_PATH}/data_raw/balance_sheet_raw.csv")
cashflow_raw.to_csv(f"{PROJECT_PATH}/data_raw/cashflow_raw.csv")


In [None]:
# ФУНКЦИЯ: ВЗЯТЬ ПОСЛЕДНИЕ N ЛЕТ

def take_recent_years(df, n=YEARS):

    cols_dt = pd.to_datetime(df.columns, errors='coerce')  # Превращаем названия колонок в даты

    mapping = dict(zip(df.columns, cols_dt))  # Связываем каждую колонку с ее датой

    sorted_cols = sorted(df.columns, key=lambda c: mapping[c], reverse=True)   # Сортируем колонки от новых к старым

    take = sorted_cols[:n]     # Берем первые n колонок (самые свежие)

    take_sorted = sorted(take, key=lambda c: mapping[c], reverse=True)     # Сортируем их еще раз по дате (от новых к старым)

    return df.loc[:, take_sorted].copy()     # Возвращаем только эти колонки

In [None]:
# ШАГ 6: ОБРАБАТЫВАЕМ ДАННЫЕ (income statement)

income_5y = take_recent_years(income_raw, YEARS) # Берем последние 5 лет

income_5y.index = (
    income_5y.index
    .str.strip()            # убираем лишние пробелы по краям
    .str.lower()            # делаем строчные буквы
    .str.replace(r"\s+", "_", regex=True)  # заменяем пробелы на подчёркивания
)

keep_income = [
    "total_revenue",             # Общая выручка
    "operating_revenue",         # Операционная выручка
    "cost_of_revenue",           # Себестоимость
    "gross_profit",              # Валовая прибыль
    "operating_income",          # Операционная прибыль
    "ebit",                      # Прибыль до вычета процентов и налогов
    "ebitda",                    # EBITDA
    "net_income",                # Чистая прибыль
    "research_and_development",               # Затраты на R&D
    "selling_general_and_administration",     # Административные расходы
    "operating_expense",                      # Операционные расходы
    "total_expenses",                         # Все расходы
    "interest_expense",           # Процентные расходы
    "interest_income",            # Процентные доходы
    "other_income_expense",       # Прочие доходы/расходы
    "pretax_income",              # Прибыль до налогов
    "tax_provision",              # Налоги
    "basic_eps",                  # Базовая прибыль на акцию
    "diluted_eps",                # Разводненная прибыль на акцию
    "basic_average_shares",       # Среднее число акций (базовое)
    "diluted_average_shares"      # Среднее число акций (разводнённое)
]

income_clean = income_5y.loc[income_5y.index.isin(keep_income)].copy()

income_clean

Unnamed: 0,2025-01-31,2024-01-31,2023-01-31,2022-01-31
ebitda,86137000000.0,35583000000.0,5986000000.0,11351000000.0
ebit,84273000000.0,34075000000.0,4443000000.0,10177000000.0
interest_expense,247000000.0,257000000.0,262000000.0,236000000.0
interest_income,1786000000.0,866000000.0,267000000.0,29000000.0
total_expenses,49044000000.0,27950000000.0,21397000000.0,16873000000.0
diluted_average_shares,24804000000.0,24940000000.0,25070000000.0,25350000000.0
basic_average_shares,24555000000.0,24690000000.0,24870000000.0,24960000000.0
diluted_eps,2.94,1.19,0.174,0.385
basic_eps,2.97,1.21,0.176,0.391
net_income,72880000000.0,29760000000.0,4368000000.0,9752000000.0


In [None]:
# ШАГ 6: ОБРАБАТЫВАЕМ ДАННЫЕ (Balance sheet)

balance_5y = take_recent_years(balance_raw, YEARS)

balance_5y.index = (
    balance_5y.index
    .str.strip()
    .str.lower()
    .str.replace(r"\s+", "_", regex=True)
)

keep_balance = [
    "total_assets",
    "total_liabilities_net_minority_interest",
    "common_stock_equity", "stockholders_equity",
    "current_assets",
    "current_liabilities",
    "inventory",
    "accounts_receivable",
    "accounts_payable",
    "cash_and_cash_equivalents",
    "cash_cash_equivalents_and_short_term_investments",
    "net_debt",
    "total_debt",
    "long_term_debt",
    "current_debt",
    "retained_earnings",
    "net_ppe",
    "invested_capital",
    "working_capital"
]


balance_clean = balance_5y.loc[balance_5y.index.isin(keep_balance)].copy()

balance_clean

Unnamed: 0,2025-01-31,2024-01-31,2023-01-31,2022-01-31,2021-01-31
net_debt,,2429000000.0,7564000000.0,8956000000.0,6116000000.0
total_debt,10270000000.0,11056000000.0,12031000000.0,11831000000.0,
invested_capital,87790000000.0,52687000000.0,33054000000.0,37558000000.0,
working_capital,62079000000.0,33714000000.0,16510000000.0,24494000000.0,
common_stock_equity,79327000000.0,42978000000.0,22101000000.0,26612000000.0,
stockholders_equity,79327000000.0,42978000000.0,22101000000.0,26612000000.0,
retained_earnings,68038000000.0,29817000000.0,10171000000.0,16235000000.0,
total_liabilities_net_minority_interest,32274000000.0,22750000000.0,19081000000.0,17575000000.0,
long_term_debt,8463000000.0,8459000000.0,9703000000.0,10946000000.0,
current_liabilities,18047000000.0,10631000000.0,6563000000.0,4335000000.0,


In [None]:
# ШАГ 6: ОБРАБАТЫВАЕМ ДАННЫЕ (Cash flow)

cashflow_5y = take_recent_years(cashflow_raw, YEARS)

cashflow_5y.index = (
    cashflow_5y.index
    .str.strip()
    .str.lower()
    .str.replace(r"\s+", "_", regex=True)
)

keep_cash = [
    "operating_cash_flow",
    "cash_flow_from_continuing_operating_activities",
    "free_cash_flow",
    "capital_expenditure",
    "purchase_of_ppe",
    "capital_expenditure_reported",
    "depreciation",
    "depreciation_and_amortization",
    "depreciation_amortization_depletion",
    "investing_cash_flow",
    "financing_cash_flow",
    "cash_dividends_paid",
    "common_stock_dividend_paid",
    "repayment_of_debt",
    "issuance_of_debt",
    "long_term_debt_payments",
    "long_term_debt_issuance"
]


cash_clean = cashflow_5y.loc[cashflow_5y.index.isin(keep_cash)].copy()

cash_clean

Unnamed: 0,2025-01-31,2024-01-31,2023-01-31,2022-01-31,2021-01-31
free_cash_flow,60853000000.0,27021000000.0,3808000000.0,8132000000.0,
repayment_of_debt,-1250000000.0,-1250000000.0,0.0,-1000000000.0,
issuance_of_debt,,0.0,0.0,4977000000.0,4968000000.0
capital_expenditure,-3236000000.0,-1069000000.0,-1833000000.0,-976000000.0,
financing_cash_flow,-42359000000.0,-13633000000.0,-11617000000.0,1865000000.0,
cash_dividends_paid,-834000000.0,-395000000.0,-398000000.0,-399000000.0,
common_stock_dividend_paid,-834000000.0,-395000000.0,-398000000.0,-399000000.0,
long_term_debt_payments,-1250000000.0,-1250000000.0,0.0,-1000000000.0,
long_term_debt_issuance,,0.0,0.0,4977000000.0,4968000000.0
investing_cash_flow,-20421000000.0,-10566000000.0,7375000000.0,-9830000000.0,


In [None]:
# ШАГ 7: СОХРАНЯЕМ ОЧИЩЕННЫЕ ДАННЫЕ

income_clean.to_csv(f"{PROJECT_PATH}/data_clean/income_clean.csv")
balance_clean.to_csv(f"{PROJECT_PATH}/data_clean/balance_sheet_clean.csv")
cash_clean.to_csv(f"{PROJECT_PATH}/data_clean/cashflow_clean.csv")

Mounted at /content/drive
