## Задание
*Для изучения CSS селекторов https://flukeout.github.io/*

- Найдите сайт с открытыми таблицами (например, статистика IMDB, погодные данные, вакансии) и с помощью requests + BeautifulSoup извлеките несколько колонок и загрузите в DataFrame.

- Установите заголовок запроса (headers={'User-Agent': 'Mozilla/5.0 ...'}) и добавьте time.sleep(1) между запросами при парсинге нескольких страниц.

- Используйте soup.select() с CSS-селектором, чтобы выбрать интересующие элементы и извлечь текст или атрибуты.

- После получения данных с веба отметьте, как часто встречаются пропущенные значения или некорректные форматы (например, строка вместо числа)  и примените методы Pandas по очистке.

In [None]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import time

url = "https://www.imdb.com/chart/top/"
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)'}
response = requests.get(url, headers=headers)
if response.status_code == 200:
    soup = BeautifulSoup(response.content, "html.parser")
    rows = soup.select('.lister-list tr')
    titles = []
    years = []
    ratings = []
    for row in rows:
        title = row.select_one('.titleColumn a').text.strip()
        year = row.select_one('.titleColumn span').text.strip('()')
        rating = row.select_one('.imdbRating strong').text.strip()
        titles.append(title)
        years.append(year)
        ratings.append(rating)
    df = pd.DataFrame({
        'Title': titles,
        'Year': years,
        'Rating': ratings
    })
    print(df.head())
    print("Пропущенные значения по столбцам:", df.isna().sum())
    print("Типы данных:", df.dtypes)
    df['Year'] = pd.to_numeric(df['Year'], errors='coerce')
    df['Rating'] = pd.to_numeric(df['Rating'], errors='coerce')
    print("\nСтатистика по числовым столбцам:", df.describe())
else:
    print(f"Ошибка при запросе страницы: {response.status_code}")

time.sleep(1)