In [2]:
pip install python-binance pandas

Note: you may need to restart the kernel to use updated packages.


In [23]:
from pycoingecko import CoinGeckoAPI
from binance.client import Client
import pandas as pd
import datetime
import time
import warnings
warnings.filterwarnings("ignore", category=DeprecationWarning)


# Инициализация клиентов
cg = CoinGeckoAPI()
binance_client = Client()

# Получаем топ-10 монет с CoinGecko
top_coins = cg.get_coins_markets(vs_currency='usd', order='market_cap_desc', per_page=10, page=1)

# Исключаем стабильные монеты
stablecoins = ['tether', 'usd-coin']
filtered_coins = [coin for coin in top_coins if coin['id'] not in stablecoins]
coin_id_to_symbol = {coin['id']: coin['symbol'].upper() for coin in filtered_coins}

# Выводим отфильтрованный список
print("Топ-10 криптовалют с CoinGecko (без стейблкоинов):")
for i, (cid, sym) in enumerate(coin_id_to_symbol.items(), 1):
    print(f"{i}. {cid} → {sym}USDT")

# Интервал и даты для 2025 года
interval = '1d'
start_date = "2025-01-01 00:00:00"
end_date = "2025-12-31 23:59:59"


# Сбор исторических цен
def get_binance_data(symbol):
    binance_symbol = f"{symbol}USDT"  # Формируем символ для Binance
    try:
        print(f"Загружается {binance_symbol}...")
        klines = binance_client.get_historical_klines(binance_symbol, interval, start_date, end_date)
        
        # Преобразуем данные в DataFrame
        df = pd.DataFrame(klines, columns=[
            'timestamp', 'open', 'high', 'low', 'close', 'volume',
            'close_time', 'quote_asset_volume', 'number_of_trades',
            'taker_buy_base_asset_volume', 'taker_buy_quote_asset_volume', 'ignore'
        ])
        
        # Конвертируем timestamp в datetime и устанавливаем его как индекс
        df['timestamp'] = pd.to_datetime(df['timestamp'], unit='ms')
        df.set_index('timestamp', inplace=True)
        
        # Оставляем только столбец 'close' и переименовываем его
        df = df[['close']].astype(float).rename(columns={'close': binance_symbol})
        
        time.sleep(1)  # Пауза между запросами
        return df
    except Exception as e:
        print(f"Ошибка для {binance_symbol}: {e}")
        return None

# Сбор данных для всех монет
all_data = {}
for coin_id, symbol in coin_id_to_symbol.items():
    df = get_binance_data(symbol)
    if df is not None:
        all_data[symbol] = df

# Объединение данных в один DataFrame
merged_df = pd.concat(all_data.values(), axis=1)
merged_df.dropna(inplace=True)  # Убираем строки с пропущенными значениями

# Сохраняем результат в CSV
merged_df.to_csv('auto_top10_binance_prices_2025.csv')
print("Сохранено в auto_top10_binance_prices_2025.csv")


Топ-10 криптовалют с CoinGecko (без стейблкоинов):
1. bitcoin → BTCUSDT
2. ethereum → ETHUSDT
3. ripple → XRPUSDT
4. binancecoin → BNBUSDT
5. solana → SOLUSDT
6. dogecoin → DOGEUSDT
7. cardano → ADAUSDT
8. tron → TRXUSDT
Загружается BTCUSDT...
Загружается ETHUSDT...
Загружается XRPUSDT...
Загружается BNBUSDT...
Загружается SOLUSDT...
Загружается DOGEUSDT...
Загружается ADAUSDT...
Загружается TRXUSDT...
Сохранено в auto_top10_binance_prices_2025.csv


In [14]:
pip install requests

Note: you may need to restart the kernel to use updated packages.


In [31]:
import requests
import pandas as pd

# Ваш API токен
auth_token = "08ff16993756d5e8c5d677b5300bf5f9ce764a60"

# Указываем криптовалюты, для которых будем собирать новости
cryptos = ['BTC', 'ETH', 'XRP', 'BNB', 'SOL', 'DOGE', 'ADA', 'TRX']

# URL для API запроса
url = f"https://cryptopanic.com/api/v1/posts/?auth_token={auth_token}&currencies={','.join(cryptos)}&public=true"

# Получаем новости
response = requests.get(url)
if response.status_code == 200:
    data = response.json()
    # Преобразуем данные в DataFrame
    posts = data['results']
    news_df = pd.DataFrame(posts)
    news_df.to_csv('crypto_news_2025.csv', index=False)
    print("Новости собраны и сохранены в 'crypto_news_2025.csv'.")
else:
    print(f"Ошибка получения новостей: {response.status_code}")


Новости собраны и сохранены в 'crypto_news_2025.csv'.


In [32]:
import pandas as pd
from scipy import stats
from sklearn.preprocessing import StandardScaler

# Удаление дубликатов
merged_df = merged_df.drop_duplicates()

# Обработка пропусков
merged_df = merged_df.fillna(merged_df.mean())  # Заполнение пропусков средним значением

# Обработка выбросов (фильтрация по межквартильному размаху)
Q1 = merged_df.quantile(0.25)
Q3 = merged_df.quantile(0.75)
IQR = Q3 - Q1
merged_df = merged_df[~((merged_df < (Q1 - 1.5 * IQR)) | (merged_df > (Q3 + 1.5 * IQR))).any(axis=1)]

# Стандартизация данных
scaler = StandardScaler()
merged_df[merged_df.columns] = scaler.fit_transform(merged_df[merged_df.columns])

# Сохранение в файл
merged_df.to_csv('preprocessed_crypto_data.csv')
print("Предобработанные данные сохранены в preprocessed_crypto_data.csv")

Предобработанные данные сохранены в preprocessed_crypto_data.csv


In [33]:
import pandas as pd

# Загрузка новостей и цен
news_df = pd.read_csv('crypto_news_2025.csv')
price_df = pd.read_csv('preprocessed_crypto_data.csv')

# Приводим даты к одному формату
news_df['published_at'] = pd.to_datetime(news_df['published_at']).dt.date
price_df['timestamp'] = pd.to_datetime(price_df['timestamp']).dt.date

# Пример: считаем количество новостей в день
daily_news_count = news_df.groupby('published_at').size().reset_index(name='news_count')

# Объединяем по дате
merged_final_df = price_df.merge(daily_news_count, how='left', left_on='timestamp', right_on='published_at')

# Заполняем пропуски (если в какой-то день не было новостей)
merged_final_df['news_count'] = merged_final_df['news_count'].fillna(0)

# Сохраняем
merged_final_df.to_csv('merged_prices_news.csv', index=False)
print("Синхронизация завершена. Данные сохранены в merged_prices_news.csv")


Синхронизация завершена. Данные сохранены в merged_prices_news.csv


In [34]:
pip install textblob nltk




In [35]:
import pandas as pd
from textblob import TextBlob
import string

# Загружаем данные
news_df = pd.read_csv('crypto_news_2025.csv')

# Функция для очистки текста
def clean_text(text):
    # Приводим к нижнему регистру и удаляем знаки препинания
    text = text.lower()
    text = ''.join([char for char in text if char not in string.punctuation])
    return text

# Применяем очистку текста
news_df['cleaned_text'] = news_df['title'].apply(clean_text)

# Функция для анализа тональности
def get_sentiment(text):
    # Используем TextBlob для анализа тональности
    blob = TextBlob(text)
    sentiment = blob.sentiment.polarity
    # Положительное значение - позитивная, отрицательное - негативная, близкое к 0 - нейтральная
    if sentiment > 0:
        return 'positive'
    elif sentiment < 0:
        return 'negative'
    else:
        return 'neutral'

# Применяем анализ тональности
news_df['sentiment'] = news_df['cleaned_text'].apply(get_sentiment)

# Сохраняем результаты
news_df.to_csv('crypto_news_with_sentiment_2025.csv', index=False)
print("Тональность новостей добавлена и сохранена в 'crypto_news_with_sentiment_2025.csv'.")


Тональность новостей добавлена и сохранена в 'crypto_news_with_sentiment_2025.csv'.
