In [None]:
!pip install selenium webdriver-manager requests beautifulsoup4 pandas openai
!apt-get update
!apt-get install -y chromium-chromedriver
!cp /usr/lib/chromium-browser/chromedriver /usr/bin

In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [None]:
import csv
from bs4 import BeautifulSoup
import requests

# Подключение Google Drive (если уже смонтировано, это действие пропускается)
from google.colab import drive
drive.mount('/content/drive', force_remount=True)

# Получаем HTML содержимое страницы
url = "https://www.artrabbit.com/artist-opportunities/"

try:
    response = requests.get(url)
    response.raise_for_status()  # проверка на успешный ответ
    html_content = response.content
    
    # Парсим HTML с помощью BeautifulSoup
    soup = BeautifulSoup(html_content, 'html.parser')
    
    # Ищем все элементы с классом artopp
    artopp_elements = soup.find_all('div', class_='artopp')
except requests.exceptions.HTTPError as err:
    print(f"HTTP ошибка: {err}")
except Exception as err:
    print(f"Другая ошибка: {err}")
else:
    # Указание заголовков столбцов
    headers = ['Data-d', 'Data-a', 'Heading', 'Alert', 'Title', 'Date Updated', 'Body', 'URL']
    
    # Указываем путь к файлу в Google Drive
    file_path = '/content/drive/My Drive/open_calls_ready_2/artist_opportunities_12.csv'
    
    # Открываем CSV файл для записи
    with open(file_path, 'w', newline='', encoding='utf-8') as csvfile:
        csvwriter = csv.writer(csvfile)
        csvwriter.writerow(headers)  # Записываем заголовки
    
        # Проходим по каждому элементу artopp и извлекаем данные
        for artopp_element in artopp_elements:
            try:
                # Извлекаем значения атрибутов data-d и data-a
                data_d = artopp_element.get('data-d', '')
                data_a = artopp_element.get('data-a', '')
        
                # Извлекаем текстовые поля с проверкой на существование элементов
                h3_text = artopp_element.find('h3', class_='b_categorical-heading mod--artopps').text.strip() if artopp_element.find('h3', class_='b_categorical-heading mod--artopps') else ''
                p_alert_text = artopp_element.find('p', class_='b_ending-alert mod--just-opened').text.strip() if artopp_element.find('p', class_='b_ending-alert mod--just-opened') else ''
                h2_text = artopp_element.find('h2').text.strip() if artopp_element.find('h2') else ''
                p_date_text = artopp_element.find('p', class_='b_date').text.strip() if artopp_element.find('p', class_='b_date') else ''
                main_body_text = artopp_element.find('div', class_='m_body-copy').text.strip() if artopp_element.find('div', class_='m_body-copy') else ''
        
                # Извлечение URL из элемента <a>
                url_element = artopp_element.find('a', class_='b_submit mod--next')
                url = url_element.get('href') if url_element else ''
        
                # Подготовка данных для записи в CSV
                row = [data_d, data_a, h3_text, p_alert_text, h2_text, p_date_text, main_body_text, url]
        
                # Записываем строку в CSV файл
                csvwriter.writerow(row)
            except Exception as err:
                print(f"Ошибка парсинга: {err}")
                continue
            
    print(f"Файл сохранен по пути: {file_path}")


In [None]:
import csv
import pandas as pd
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.chrome.service import Service

# Настройка опций для Selenium
chrome_options = Options()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--no-sandbox')
chrome_options.add_argument('--disable-dev-shm-usage')
chrome_options.add_argument('--remote-debugging-port=9222')
chrome_options.add_argument('--user-data-dir=/tmp/user-data')
chrome_options.add_argument('--disable-gpu')

# Подключение Google Drive (если уже смонтировано, это действие пропускается)
from google.colab import drive
drive.mount('/content/drive', force_remount=True)

# Указываем путь к файлу в Google Drive
file_path = '/content/drive/My Drive/artist_opportunities.csv'

# Чтение существующего CSV файла
df = pd.read_csv(file_path)

# Добавление нового столбца для полного текста
df['Full Text'] = ""

# Настройка Selenium WebDriver с использованием webdriver-manager
service = Service(ChromeDriverManager().install())
driver = webdriver.Chrome(service=service, options=chrome_options)

# Проход по каждой ссылке в CSV и извлечение полного текста
for index, row in df.iterrows():
    url = row['URL']
    if pd.notna(url) and url:  # Проверка на наличие URL
        driver.get(url)

        # Явное ожидание, пока не появится элемент <body> и не загрузится текст
        try:
            WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.TAG_NAME, "body")))
            full_text = driver.find_element(By.TAG_NAME, "body").text.strip()
        except:
            full_text = "Could not load content"

        df.at[index, 'Full Text'] = full_text

# Закрываем браузер
driver.quit()

# Сохранение обновленного CSV файла
df.to_csv(file_path, index=False)

print(f"Файл обновлен и сохранен по пути: {file_path}")


In [None]:
import csv
import requests
from bs4 import BeautifulSoup

# Указываем URL для первой страницы
base_url = "https://www.transartists.org/en/call-artists?page="

# Указываем путь к файлу CSV в Google Drive (или локальный путь)
csv_file_path = '/content/drive/My Drive/open_calls_ready_2/transartists_calls_12.csv'

# Функция для распаковки обфусцированного email
def decode_spamspan(spamspan_element):
    email_parts = spamspan_element.find_all('span')
    email = ''.join(part.get_text(strip=True) for part in email_parts)
    return email.replace('[at]', '@').replace('[dot]', '.')

# Открываем файл для записи данных
with open(csv_file_path, mode='w', newline='', encoding='utf-8') as file:
    writer = csv.writer(file)
    # Записываем заголовки столбцов
    writer.writerow(['Date', 'Title', 'Description', 'Email', 'Website'])

    # Проходим по страницам от 0 до 8
    for page_number in range(9):
        url = f"{base_url}{page_number}"
        try:
            response = requests.get(url)
            response.raise_for_status()  # проверка на успешный ответ
            soup = BeautifulSoup(response.content, 'html.parser')

            # Ищем все элементы <tr> на странице
            rows = soup.find_all('tr')
    
            for row in rows:
                # Извлекаем дату
                date = row.find('td', class_='views-field views-field-created').get_text(strip=True) if row.find('td', class_='views-field views-field-created') else ''
    
                # Извлекаем заголовок и описание
                content_td = row.find('td', class_='views-field views-field-field-your-ad')
                if content_td:
                    title = content_td.find('h2').get_text(strip=True) if content_td.find('h2') else ''
                    description = content_td.find_all('p')
                    description_text = ' '.join([p.get_text(strip=True) for p in description])
    
                    # Извлечение email
                    spamspan_element = content_td.find('a', class_='spamspan')
                    email = decode_spamspan(spamspan_element) if spamspan_element else ''
    
                    # Извлечение веб-сайта
                    website = content_td.find('a', href=lambda href: href and "http" in href).get('href') if content_td.find('a', href=lambda href: href and "http" in href) else ''
    
                    # Записываем данные в CSV-файл
                    writer.writerow([date, title, description_text, email, website])
        except requests.exceptions.HTTPError as err:
            print(f"HTTP ошибка: {err}")
            continue
        except Exception as err:
            print(f"Другая ошибка: {err}")
            continue

print(f"Данные успешно сохранены в {csv_file_path}")


In [None]:
import csv
import requests
from bs4 import BeautifulSoup

# URL первой страницы
base_url = "https://resartis.org/open-calls/"

# Путь к файлу CSV на Google Drive (или локальный путь)
csv_file_path = '/content/drive/My Drive/open_calls_ready/resartis_calls.csv'

# Открываем файл для записи данных
with open(csv_file_path, mode='w', newline='', encoding='utf-8') as file:
    writer = csv.writer(file)
    # Записываем заголовки столбцов
    writer.writerow([
        'Title', 'Deadline', 'Country', 'Description', 'Duration', 'Accommodation',
        'Disciplines', 'Studio/Workspace', 'Fees', 'Expectations',
        'Application Information', 'Application Deadline',
        'Residency Starts', 'Residency Ends', 'Location', 'Link'
    ])

    # Загружаем основную страницу
    try:
        response = requests.get(base_url)
        response.raise_for_status()  # проверка на успешный ответ
        soup = BeautifulSoup(response.content, 'html.parser')
        # Ищем все элементы с классом grid__item postcard
        items = soup.find_all('div', class_='grid__item postcard')
    except requests.exceptions.HTTPError as err:
        print(f"HTTP ошибка: {err}")
    except Exception as err:
        print(f"Другая ошибка: {err}")
    else:            
        for item in items:
            try:
                # Извлекаем заголовок и ссылку на страницу
                link_tag = item.find('a', href=True)
                link = link_tag['href']
                title = item.find('h2', class_='card__title').get_text(strip=True)
        
                # Печать ссылки и заголовка для проверки
                print(f"Title: {title}")
                print(f"Link: {link}")
        
                # Переход по ссылке и парсинг страницы
                detail_response = requests.get(link)
                response.raise_for_status()  # проверка на успешный ответ
                detail_soup = BeautifulSoup(detail_response.content, 'html.parser')
        
                # Извлечение данных со страницы
                description = detail_soup.find('div', class_='entry-content').get_text(strip=True)
                deadline = item.find('dt').get_text(strip=True).replace('Deadline: ', '')
                country = deadline.split('Country: ')[1] if 'Country: ' in deadline else ''
                deadline = deadline.split('Country: ')[0] if 'Country: ' in deadline else deadline
        
                duration = detail_soup.find('h5', text='Duration of residency').find_next('span').get_text(strip=True)
                accommodation = detail_soup.find('h5', text='Accommodation').find_next('span').get_text(strip=True)
                disciplines = detail_soup.find('h5', text='Disciplines, work equipment and assistance').find_next('span').get_text(strip=True)
                studio = detail_soup.find('h5', text='Studio / Workspace').find_next('span').get_text(strip=True)
                fees = detail_soup.find('h5', text='Fees and support').find_next('span').get_text(strip=True)
                expectations = detail_soup.find('h5', text='Expectations towards the artist').find_next('span').get_text(strip=True)
                application_info = detail_soup.find('h5', text='Application information').find_next('span').get_text(strip=True)
        
                application_deadline = detail_soup.find('h5', text='Application deadline').find_next('span').get_text(strip=True)
                residency_starts = detail_soup.find('h5', text='Residency starts').find_next('span').get_text(strip=True)
                residency_ends = detail_soup.find('h5', text='Residency ends').find_next('span').get_text(strip=True)
                location = detail_soup.find('h5', text='Location').find_next('span').get_text(strip=True)
        
                more_info_link = detail_soup.find('h5', text='Link to more information').find_next('a', href=True)['href']
        
                # Записываем данные в CSV-файл
                writer.writerow([
                    title, deadline, country, description, duration, accommodation,
                    disciplines, studio, fees, expectations, application_info,
                    application_deadline, residency_starts, residency_ends, location, more_info_link
                ])
            except Exception as err:
                print(f"Ошибка парсинга: {err}")
                continue

        print(f"Данные успешно сохранены в {csv_file_path}")


In [None]:
import requests
from bs4 import BeautifulSoup
import time

# URL страницы
url = "https://resartis.org/open-calls/"

# Заголовки для имитации запроса от браузера
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3",
    "Referer": "https://www.google.com/",
    "Accept-Language": "en-US,en;q=0.9",
    "Accept-Encoding": "gzip, deflate, br",
    "Connection": "keep-alive"
}

# Попробуем загрузить страницу с заголовками и задержкой
try:
    response = requests.get(url, headers=headers)
    response.raise_for_status()  # проверка на успешный ответ
    # Парсим HTML-контент
    soup = BeautifulSoup(response.content, 'html.parser')
    # Выводим HTML-код страницы
    print(soup.prettify())
except requests.exceptions.HTTPError as err:
    print(f"HTTP ошибка: {err}")
except Exception as err:
    print(f"Другая ошибка: {err}")

# Добавляем задержку между запросами
time.sleep(5)  # задержка в 5 секунд


In [None]:
import requests
from bs4 import BeautifulSoup
import csv
from google.colab import drive
drive.mount('/content/drive', force_remount=True)
# URL страницы
base_url = "https://artistcommunities.org/directory/open-calls"

# Путь к файлу CSV на Google Drive (или локальный путь)
csv_file_path = '/content/drive/My Drive/open_calls_ready_2/artist_communities_open_calls_12.csv'

# Функция для извлечения текста из блока с проверкой наличия элемента
def get_text_or_none(element):
    return element.get_text(strip=True) if element else 'N/A'

# Открываем файл для записи данных
with open(csv_file_path, mode='w', newline='', encoding='utf-8') as file:
    writer = csv.writer(file)
    # Записываем заголовки столбцов
    writer.writerow([
        'Title', 'Associated Residency Program', 'Organization', 'Description',
        'Deadline', 'Application URL', 'Residency Length', 'Languages',
        'Average Number of Artists', 'Collaborative Residency', 'Disciplines',
        'Companions', 'Country of Residence', 'Family Friendly', 'Stage of Career',
        'Additional Expectations', 'Accessible Housing', 'Meals Provided',
        'Studios/Special Equipment', 'Studios/Facilities Accessibility',
        'Type of Housing', 'Additional Eligibility Information',
        'Number of Artists Accepted', 'Total Applicant Pool', 'Artist Stipend',
        'Travel Stipend', 'Residency Fees', 'Grant/Scholarship Support',
        'Application Fee', 'Application Type'
    ])

    # Выполняем запрос к базовой странице
    try:
        response = requests.get(base_url)
        response.raise_for_status()  # проверка на успешный ответ
        soup = BeautifulSoup(response.content, 'html.parser')
    
        # Ищем все ссылки на страницы опен-коллов
        links = soup.select('td.views-field-label a')
    except requests.exceptions.HTTPError as err:
        print(f"HTTP ошибка: {err}")
    except Exception as err:
        print(f"Другая ошибка: {err}")
    else:
        for link in links:
            try:
                # Переход по ссылке на страницу опен-колла
                details_url = "https://artistcommunities.org" + link['href']
                details_response = requests.get(details_url)
                details_soup = BeautifulSoup(details_response.content, 'html.parser')
    
                # Извлечение заголовка
                title = get_text_or_none(details_soup.select_one('h1'))
    
                # Извлечение содержимого блока node__content
                content = details_soup.select_one('.node__content')
    
                associated_residency = get_text_or_none(content.select_one('.field--name-field-associated-residency .field__item a'))
                organization = get_text_or_none(content.select_one('.field-pseudo-field--pseudo-group_node\:organization-link-list .field__item a'))
                description = get_text_or_none(content.select_one('.field--name-field-oc-residency-description .field__item'))
    
                deadline = get_text_or_none(content.select_one('.field--name-field-deadline .datetime'))
                application_url = get_text_or_none(content.select_one('.field--name-field-application-url .field__item a'))
    
                residency_length = get_text_or_none(content.select_one('.field--label-inline.field-pseudo-field--pseudo-residency-length .field__item'))
                languages = get_text_or_none(content.select_one('.field--name-field-languages .field__item'))
                avg_num_artists = get_text_or_none(content.select_one('.field--name-field-average-artists .field__item'))
                collaborative_residency = get_text_or_none(content.select_one('.field--name-field-collaborative-residency .field__item'))
                disciplines = ', '.join([item.get_text(strip=True) for item in content.select('.field--name-field-discipline .field__item')])
    
                companions = get_text_or_none(content.select_one('.field--name-field-companions .field__item'))
                country_of_residence = get_text_or_none(content.select_one('.field--name-field-country-of-residence .field__item'))
                family_friendly = get_text_or_none(content.select_one('.field--name-field-family-friendly .field__item'))
                stage_of_career = get_text_or_none(content.select_one('.field--name-field-stage-of-career .field__item'))
                additional_expectations = get_text_or_none(content.select_one('.field--name-field-additional-expectations .field__item'))
    
                accessible_housing = get_text_or_none(content.select_one('.field--name-field-accessible-housing .field__item'))
                meals_provided = ', '.join([item.get_text(strip=True) for item in content.select('.field--name-field-meals-provided .field__item')])
                studios_equipment = ', '.join([item.get_text(strip=True) for item in content.select('.field--name-field-studios-special-equipment .field__item')])
                studios_accessibility = get_text_or_none(content.select_one('.field--name-field-studios-accessibility .field__item'))
                type_of_housing = get_text_or_none(content.select_one('.field--name-field-type-of-housing .field__item'))
    
                additional_eligibility = get_text_or_none(content.select_one('.field--name-field-additional-eligibility .field__item'))
                num_artists_accepted = get_text_or_none(content.select_one('.field--name-field-number-of-artists-accepted .field__item'))
                total_applicant_pool = get_text_or_none(content.select_one('.field--name-field-applicant-pool .field__item'))
    
                artist_stipend = get_text_or_none(content.select_one('.field--name-field-artist-stipend .field__item'))
                travel_stipend = get_text_or_none(content.select_one('.field--name-field-travel-stipend .field__item'))
                residency_fees = get_text_or_none(content.select_one('.field--name-field-residency-fees .field__item'))
                grant_scholarship_support = get_text_or_none(content.select_one('.field--name-field-grant-scholarship .field__item'))
                application_fee = get_text_or_none(content.select_one('.field--name-field-application-fee .field__item'))
                application_type = get_text_or_none(content.select_one('.field--name-field-application-type .field__item'))
    
                # Записываем данные в CSV-файл
                writer.writerow([
                    title, associated_residency, organization, description, deadline, application_url,
                    residency_length, languages, avg_num_artists, collaborative_residency, disciplines,
                    companions, country_of_residence, family_friendly, stage_of_career, additional_expectations,
                    accessible_housing, meals_provided, studios_equipment, studios_accessibility, type_of_housing,
                    additional_eligibility, num_artists_accepted, total_applicant_pool, artist_stipend,
                    travel_stipend, residency_fees, grant_scholarship_support, application_fee, application_type
                ])
                print(f"Processed: {title}")
    
            except Exception as e:
                print(f"Error processing {link['href']}: {e}")
                continue  # Переходим к следующему опен-коллу в случае ошибки

        print(f"Данные успешно сохранены в {csv_file_path}")


In [None]:
from google.colab import drive
drive.mount('/content/drive')
import requests
from bs4 import BeautifulSoup
import pandas as pd

# Путь к вашему CSV файлу с ссылками на Google Drive
file_path = '/content/drive/MyDrive/open_calls_ready_2/links/links_artist_callforentry_12.csv'

# Загрузка ссылок из CSV файла
links_df = pd.read_csv(file_path)
links = links_df['Link1'].tolist()  # Предполагается, что столбец называется 'Links'
data = []

for link in links:
    try:
        response = requests.get(link)
        response.raise_for_status()  # проверка на успешный ответ
        soup = BeautifulSoup(response.content, 'html.parser')
    
        # Пример парсинга конкретных данных
        fair_name = soup.find('div', class_='fairname').text.strip() if soup.find('div', class_='fairname') else ''
        print(fair_name)
        # Исправленный поиск email
        contact_email_tag = soup.find('a', href=True, string=lambda x: x and '@' in x)
        contact_email = contact_email_tag.text.strip() if contact_email_tag else ''
    
        entry_deadline = soup.find('strong', string='Entry Deadline').next_sibling.strip() if soup.find('strong', string='Entry Deadline') else ''
        entry_fee = soup.find('strong', string='Entry Fee').next_sibling.strip() if soup.find('strong', string='Entry Fee') else ''
    
        # Извлечение всего текста из нужных блоков
        all_text_blocks = soup.find_all(class_='printable')
        all_text = " ".join([block.get_text(separator=" ", strip=True) for block in all_text_blocks])
    
        # Добавление данных в список
        data.append({
            'Fair Name': fair_name,
            'Contact Email': contact_email,
            'Entry Deadline': entry_deadline,
            'Entry Fee': entry_fee,
            'Full Text': all_text
        })
    except requests.exceptions.HTTPError as err:
        print(f"HTTP ошибка: {err}")
        continue
    except Exception as err:
        print(f"Другая ошибка: {err}")
        continue

# Преобразование списка в DataFrame
df = pd.DataFrame(data)
output_file_path = '/content/drive/MyDrive/open_calls_ready_2/parsed_artist_callforentry_12.csv'
df.to_csv(output_file_path, index=False)


In [None]:
from google.colab import drive
drive.mount('/content/drive')
import requests
from bs4 import BeautifulSoup
import pandas as pd

# Путь к вашему CSV файлу с ссылками на Google Drive
file_path = '/content/drive/MyDrive/open_calls_ready_2/links_artconnect.csv'

# Загрузка ссылок из CSV файла
links_df = pd.read_csv(file_path)
links = links_df['Link1'].tolist()  # Предполагается, что столбец называется 'Links'
data = []

for link in links:
    try:
        response = requests.get(link)
        response.raise_for_status()  # проверка на успешный ответ
        soup = BeautifulSoup(response.content, 'html.parser')
    except requests.exceptions.HTTPError as err:
        print(f"HTTP ошибка: {err}")
        continue
    except Exception as err:
        print(f"Другая ошибка: {err}")
        continue
    else:
        # Пример извлечения различных данных
        try:
            title = soup.find('h1', class_='block').text.strip()
            print(title)
        except AttributeError:
            title = ''
    
        try:
            deadline = soup.find('div', class_='text-xs font-normal text-gray-400 mb-1', string='Deadline:').find_next('div').text.strip()
        except AttributeError:
            deadline = ''
    
        try:
            rewards = soup.find('div', class_='text-xs font-normal text-gray-400 mb-1', string='Rewards:').find_next('div').text.strip()
        except AttributeError:
            rewards = ''
    
        try:
            fees = soup.find('div', class_='text-xs font-normal text-gray-400 mb-1', string='Fees:').find_next('div').text.strip()
        except AttributeError:
            fees = ''
    
        try:
            artistic_fields = ", ".join([a.text.strip() for a in soup.find_all('a', class_='text-black-500')])
        except AttributeError:
            artistic_fields = ''
    
        try:
            overview = soup.find('section', class_='text-base font-normal lg:text-sm').get_text(separator=" ", strip=True)
        except AttributeError:
            overview = ''
    
        # Исправленный поиск контактного email
        try:
            contact_email = soup.find('a', href=lambda x: x and 'mailto:' in x)['href'].replace('mailto:', '').strip()
        except (TypeError, AttributeError):
            contact_email = ''
    
        # Поиск и извлечение ссылки на сайт
        try:
            website = soup.find('a', href=True, string='Website')['href'].strip()
        except (TypeError, AttributeError):
            website = ''
    
        # Добавление всех данных в список
        data.append({
            'Title': title,
            'Deadline': deadline,
            'Rewards': rewards,
            'Fees': fees,
            'Artistic Fields': artistic_fields,
            'Overview': overview,
            'Contact Email': contact_email,
            'Website': website
        })

# Преобразование списка в DataFrame
df = pd.DataFrame(data)

output_file_path = '/content/drive/MyDrive/open_calls_ready_2/parsed_links_artconnect.csv'
df.to_csv(output_file_path, index=False)


In [None]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

base_url = "https://www.artjobs.com/open-calls/call-for-artists?page="
links = []

# Проход по страницам с 1 по 25
for page in range(1, 26):
    url = base_url + str(page)
    try:
        response = requests.get(url)
        response.raise_for_status()  # проверка на успешный ответ
        soup = BeautifulSoup(response.content, 'html.parser')
    
        # Поиск всех ссылок внутри элемента <tbody>
        tbody = soup.find('tbody')
        if tbody:
            rows = tbody.find_all('tr')
            for row in rows:
                link_tag = row.find('a', href=True)
                if link_tag:
                    link = "https://www.artjobs.com" + link_tag['href']
                    links.append(link)
    except requests.exceptions.HTTPError as err:
        print(f"HTTP ошибка: {err}")
        continue
    except Exception as err:
        print(f"Другая ошибка: {err}")
        continue

# Сохранение всех ссылок в CSV
df = pd.DataFrame(links, columns=["Link"])
output_file_path = '/content/drive/MyDrive/open_calls_ready_2/links_artjobs.csv'
df.to_csv(output_file_path, index=False)

print(f"Собрано {len(links)} ссылок и сохранено в {output_file_path}")


In [None]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

base_url = "https://www.artjobs.com/open-calls/call-for-artists"
links = []

try:
    response = requests.get(base_url)
    response.raise_for_status()  # проверка на успешный ответ
    soup = BeautifulSoup(response.content, 'html.parser')

    # Поиск всех ссылок внутри элемента <tbody>
    tbody = soup.find('tbody')
    if tbody:
        rows = tbody.find_all('tr')
        for row in rows:
            link_tag = row.find('a', href=True)
            if link_tag:
                link = "https://www.artjobs.com" + link_tag['href']
                links.append(link)
except requests.exceptions.HTTPError as err:
    print(f"HTTP ошибка: {err}")
except Exception as err:
    print(f"Другая ошибка: {err}")
    
# Сохранение всех ссылок в CSV
df = pd.DataFrame(links, columns=["Link"])
output_file_path = '/content/drive/MyDrive/open_calls_ready_2/links_artjobs_1.csv'
df.to_csv(output_file_path, index=False)

print(f"Собрано {len(links)} ссылок и сохранено в {output_file_path}")


In [None]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

# Убедитесь, что файл с ссылками уже существует и загружен
links_file_path = '/content/drive/MyDrive/open_calls_ready_2/links_artjobs.csv'

# Загрузка списка ссылок
try:
    links_df = pd.read_csv(links_file_path)
    links = links_df['Link'].tolist()
except Exception as err:
    print(f"Другая ошибка: {err}")

data = []

# Проход по всем ссылкам
for link in links:
    try:
        response = requests.get(link)
        response.raise_for_status()  # проверка на успешный ответ
        soup = BeautifulSoup(response.content, 'html.parser')
    except requests.exceptions.HTTPError as err:
        print(f"HTTP ошибка: {err}")
        continue
    except Exception as err:
        print(f"Другая ошибка: {err}")
        continue
    else:
        try:
            title = soup.find('h1', class_='title').text.strip()
            print(title)
        except AttributeError:
            title = ''
    
        try:
            call_type = soup.find('div', class_='field-name-field-open-call-type').find('ul').text.strip()
        except AttributeError:
            call_type = ''
    
        try:
            industry = soup.find('div', class_='field-name-field-opencall-industry').find('ul').text.strip()
        except AttributeError:
            industry = ''
    
        try:
            category = soup.find('div', class_='field-name-field-category-addapost').find('ul').text.strip()
        except AttributeError:
            category = ''
    
        try:
            theme = soup.find('div', class_='field-name-field-open-call-theme').find('ul').text.strip()
        except AttributeError:
            theme = ''
    
        try:
            country = soup.find('div', class_='field-name-field-tags-news-country').find('ul').text.strip()
        except AttributeError:
            country = ''
    
        try:
            organisation = soup.find('div', class_='field-name-field-organisation').find('ul').text.strip()
        except AttributeError:
            organisation = ''
    
        try:
            eligibility = soup.find('div', class_='field-name-field-eligibility').find('ul').text.strip()
        except AttributeError:
            eligibility = ''
    
        try:
            keywords = soup.find('div', class_='field-name-field-tags-news').find('ul').text.strip()
        except AttributeError:
            keywords = ''
    
        try:
            description = soup.find('div', class_='field-name-field-description').get_text(separator=' ', strip=True)
        except AttributeError:
            description = ''
    
        try:
            prize_summary = soup.find('div', class_='field-name-field-prize-summary').get_text(separator=' ', strip=True)
        except AttributeError:
            prize_summary = ''
    
        try:
            prizes_details = soup.find('div', class_='field-name-field-opencall-prizes').get_text(separator=' ', strip=True)
        except AttributeError:
            prizes_details = ''
    
        try:
            event_date = soup.find('div', class_='field-name-field-opencall-event-date').get_text(separator=' ', strip=True)
        except AttributeError:
            event_date = ''
    
        try:
            deadline = soup.find('div', class_='field-name-field-deadline-data').get_text(separator=' ', strip=True)
        except AttributeError:
            deadline = ''
    
        try:
            entry_fee = soup.find('div', class_='field-name-field-entry-fee').find('ul').text.strip()
        except AttributeError:
            entry_fee = ''
    
        try:
            fee_detail = soup.find('div', class_='field-name-field-application-fee').get_text(separator=' ', strip=True)
        except AttributeError:
            fee_detail = ''
    
        try:
            contact_links = soup.find('div', class_='field-name-field-post-contact-links').get_text(separator=' ', strip=True)
        except AttributeError:
            contact_links = ''
    
        try:
            instagram = soup.find('div', class_='field-name-field-opencall-instagram').find('a')['href']
        except AttributeError:
            instagram = ''
    
        # Добавление всех данных в список
        data.append({
            'Title': title,
            'Call Type': call_type,
            'Industry': industry,
            'Category': category,
            'Theme': theme,
            'Country': country,
            'Organisation': organisation,
            'Eligibility': eligibility,
            'Keywords': keywords,
            'Description': description,
            'Prize Summary': prize_summary,
            'Prizes Details': prizes_details,
            'Event Date': event_date,
            'Deadline': deadline,
            'Entry Fee': entry_fee,
            'Fee Detail': fee_detail,
            'Contact & Links': contact_links,
            'Instagram': instagram
        })

# Преобразование списка в DataFrame и сохранение в CSV
df = pd.DataFrame(data)
output_file_path = '/content/drive/MyDrive/open_calls_ready_2/parsed_artjobs_details.csv'
df.to_csv(output_file_path, index=False)

print(f"Собрано {len(data)} записей и сохранено в {output_file_path}")


In [None]:
import pandas as pd
import openai
import json
import os

from google.colab import drive

# Подключение Google Drive
drive.mount('/content/drive', force_remount=True)

# Настройте ваш API ключ OpenAI
openai.api_key = 'KEY'

def ask_openai(question, prompt_prefix=""):
    """Задает вопрос OpenAI и возвращает ответ."""
    prompt = f"{prompt_prefix}\n\nQuestion: {question}\nAnswer:"
    try:
        response = openai.chat.completions.create(
            model="gpt-4o",
            messages=[
                {"role": "system", "content": "You are a helpful assistant."},
                {"role": "user", "content": prompt},
            ],
            max_tokens=4000,
            temperature=1
        )
        return response.choices[0].message.content.strip()
    except Exception as e:
        print(f"Ошибка при обращении к OpenAI: {e}")
        return "Error"

def process_csv_files(directory_path):
    """Обрабатывает все CSV файлы в папке, задает вопросы OpenAI и возвращает результаты."""
    results = []

    for file_name in os.listdir(directory_path):
        if file_name.endswith('.csv'):
            file_path = os.path.join(directory_path, file_name)
            try:
                df = pd.read_csv(file_path)
                print(f"Файл {file_path} успешно загружен.")
            except Exception as e:
                print(f"Ошибка при загрузке файла {file_path}: {e}")
                continue

            for _, row in df.iterrows():
                # Объединяем данные из строки с заголовками
                data = " ".join([f"{col}: {str(value)}" for col, value in row.items()])

                # Задаем вопросы OpenAI
                city_country = ask_openai(f"Верни на английском языке ТОЛЬКО страну, если указано. Use UK for United Kingdom and USA for United States and full name for other countries. Данные: {data}. Если информации нет, то напиши Go to the application page for details.")
                print(city_country)
                opencall_title = ask_openai(f"Верни на английском языке ТОЛЬКО название опен-колла. Оно может содержать название галереи, выставки, ярмарки и т.д. Данные: {data}. Если информации нет, то напиши Go to the application page for details.")
                print(opencall_title)
                deadline_date = ask_openai(f"Верни на английском языке ТОЛЬКО дату дедлайна в формате YYYY-MM-DD. Данные: {data}. Если информации нет, то напиши 2024-10-30.")
                print(deadline_date)
                event_date = ask_openai(f"Верни на английском языке ТОЛЬКО дату самого мероприятия (не дату дедлайна) в формате YYYY-MM-DD. Мероприятие всегда позже, чем дата дедлайна. Данные: {data}. Если информации нет, то напиши 2024-10-30.")
                print(event_date)
                application_form_link = ask_openai(f"Верни на английском языке ТОЛЬКО ссылку на форму для подачи заявки. Обычно она находится в графе Website, Application Link, URL. Данные: {data}. Если информации нет, то напиши Go to the application page for details.")
                print(application_form_link)
                selection_criteria = ask_openai(f"Верни на английском языке ТОЛЬКО критерии отбора художников и работ. Данные: {data}. Если информации нет, то напиши Go to the application page for details.")
                print(selection_criteria)
                fee = ask_openai(f"Верни на английском языке ТОЛЬКО стоимость участия (не награду, а стоимость участия).Identify the participation fee based on the following information. Return only fee and nothing more. If there is 'no' or 'no fee' return 'no fee'. Without your thoughts. Данные: {data}. Если информации нет, то напиши Go to the application page for details.")
                print(fee)

                faq = ask_openai(
                    f"Составь на английском языке ТОЛЬКО FAQ по следующему формату (ЭТО ПРИМЕРНЫЙ ФОРМАТ, ТЫ МОЖЕШЬ ДОБАВЛЯТЬ ИЛИ УБИРАТЬ ПУНКТЫ): \n"
                    "Who is eligible for this opportunity?: \n"
                    "When is the deadline?: \n"
                    "How many works can I submit?: \n"
                    "When is the delivery date?: \n"
                    "When do I need to collect my work?: \n"
                    "How much does it cost?: \n"
                    "Are there payments to artists?: \n"
                    "How do you decide on proposals?: \n"
                    "What happens if my proposal is chosen?:\n"
                    "What kind of proposals are you looking for?: \n"
                    "Where is the [OPPORTUNITY NAME] held?: \n"
                    "Why we do it: \n"
                    f"Данные: {data}. Если информации нет, то напиши Go to the application page for details."
                )
                print(faq)

                application_guide = ask_openai(f"Верни на английском языке ТОЛЬКО подробный и написанный простыми словами план для художника, как податься на опен-колл. Без воды и банальностей, а только полезная инфа, основанная на данных опен-колла и основные шаги из общей практики подачи заявок на опен-колл. Так чтобы художник смог скопировать и вставить в свой список дел. Также ты можешь использовать свои знания о площадке проведения опен-колла для уточнения плана. Данные: {data}. Если информации нет, то напиши Go to the application page for details.")
                print(application_guide)

                # Сохраняем результаты
                results.append({
                    "City_Country": city_country,
                    "Open_Call_Title": opencall_title,
                    "Deadline_Date": deadline_date,
                    "Event_Date": event_date,
                    "Application_Form_Link": application_form_link,
                    "Selection_Criteria": selection_criteria,
                    "FAQ": faq,
                    "Application_Guide": application_guide,
                    "Fee": fee
                })

    return results

def save_results(results, output_file):
    """Сохраняет результаты в CSV файл."""
    try:
        df_results = pd.DataFrame(results)
        df_results = df_results.drop_duplicates()
        df_results.to_csv(output_file, index=False, encoding='utf-8-sig')
        print(f"Результаты успешно сохранены в {output_file}")
    except Exception as e:
        print(f"Ошибка при сохранении файла: {e}")

# Основной процесс
directory_path = '/content/drive/MyDrive/open_calls_ready_2'
try:
    results = process_csv_files(directory_path)
    if results:
        save_results(results, '/content/drive/MyDrive/open_calls_ready_2/results.csv')
    else:
        print("Нет данных для сохранения.")
except Exception as e:
    print(f"Ошибка в процессе выполнения: {e}")


In [None]:
import pandas as pd
import requests
import os

from google.colab import drive

# Подключение Google Drive
drive.mount('/content/drive', force_remount=True)

def send_post_request(row):
    """Отправляет POST-запрос на указанный URL с данными из строки файла."""
    url = "https://beta.mirr.art/api/open_calls/"
    headers = {
        "Authorization": "Bearer ed1beebf3ede45c9a55835b5166c10b5",
        "Accept": "application/json"
    }

    data = {
        "city_country": row['City_Country'],
        "open_call_title": row['Open_Call_Title'],
        "deadline_date": row['Deadline_Date'],
        "event_date": row['Event_Date'],
        "application_from_link": row['Application_Form_Link'],
        "selection_criteria": row['Selection_Criteria'],
        "faq": row['FAQ'],
        "fee": row['Fee'],
        "application_guide": row['Application_Guide'],
        "open_call_description": f"Open call in {row['City_Country']} titled {row['Open_Call_Title']}."
    }

    try:
        response = requests.post(url, headers=headers, json=data)
        if response.status_code == 200:
            print(f"Успешно отправлены данные для Open Call: {row['Open_Call_Title']}")
        else:
            print(f"Ошибка при отправке данных для Open Call: {row['Open_Call_Title']}. Статус код: {response.status_code}")
    except Exception as e:
        print(f"Ошибка при отправке POST-запроса: {e}")

def process_csv_and_send_requests(file_path):
    """Читает CSV файл и отправляет POST-запросы по каждой строке."""
    try:
        df = pd.read_csv(file_path)  # Замените кодировку на 'ISO-8859-1'
        print(f"Файл {file_path} успешно загружен.")
    except Exception as e:
        print(f"Ошибка при загрузке файла {file_path}: {e}")
        return

    for _, row in df.iterrows():
        send_post_request(row)
        print(row['Open_Call_Title'])

# Основной процесс
csv_file_path = '/content/drive/MyDrive/open_calls_ready_2/open_calls_after_25_11.csv'
try:
    process_csv_and_send_requests(csv_file_path)
except Exception as e:
    print(f"Ошибка в процессе выполнения: {e}")
