Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Странное поведение clean_html #25

Closed
b0rman opened this issue Oct 21, 2013 · 2 comments
Closed

Странное поведение clean_html #25

b0rman opened this issue Oct 21, 2013 · 2 comments

Comments

@b0rman
Copy link

b0rman commented Oct 21, 2013

Обратил внимание на странное поведение clean_html:

Например, у нас есть html вроде

Text_part1
<img src="test_img.jpg" width="100%" alt="Test image" />
Text_part2

После применения clean_html(html, safe_attrs=('src', 'href')) img пропадает, не смотря на то, что атрибут src разрешен. Вероятно это происходит потому, что другие атрибуты, которые есть в img не разрешены.

Возможно не стоит удалять тег, если в нем есть хотя бы один разрешенный атрибут?


Want to back this issue? Place a bounty on it! We accept bounties via Bountysource.

@lorien
Copy link
Owner

lorien commented Oct 21, 2013

Погляжу на этой неделе. Вообще clean_html довольно кривая функция, поэтому я вам и не дал на неё ссылку в прошлом вашем вопросе, а дал ссылки на lxml и bleach либы.

@lorien
Copy link
Owner

lorien commented Apr 13, 2015

Сейчас вроде бы всё работает. В пакете weblib куда я вынес модуль grab.tools.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants