Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

SRF Duplicates #904

Closed
vitusson opened this issue Jun 13, 2023 · 3 comments
Closed

SRF Duplicates #904

vitusson opened this issue Jun 13, 2023 · 3 comments

Comments

@vitusson
Copy link

Beim SRF sind seit einiger Zeit fast alle Einträge mehrfach enthalten.

Screenshot_13-06-23--15_56_17
Ja, es sind unterschiedliche URLs, aber die unterscheiden sich nur in ihren Parametern.
Hier mal für eine einzige Tagesschau Ausgabe
Screenshot_13-06-23--16_03_54

Ich weiß nicht ob man das verhindern kann oder was das auslöst dass der Crawler immer ein halbes Dutzend dieser URL für ein und denselben Beitrag findet. Ist nicht gravierend (zumindest für mich) aber kosmetisch unschön und bläht die Liste doch unnötig auf.

@codingPF
Copy link
Member

Das Problem ist die Bereinigung. Was behält man und wie schmeißt man die Duplikate raus wenn der Sender die Dateien nicht bereinigt und wir weiter gültige Links haben. Bis jetzt gibt es dazu kein Programm oder Ähnliches.
Am einfachsten löscht man alles aber dann fällt auch so einiges hinten runter. Wenn nicht muss man dafür einige Klimzüge wegwerfen code produzieren.

@MuenchenSued
Copy link

@vitusson
Copy link
Author

@MuenchenSued
Ich hab das mal weitergeführt und festgestellt daß man die query-Strings alle überhaupt nicht braucht beim SRF und es immer noch prima funktioniert wenn man die komplett weglöscht.

https://srf-vod-amd.akamaized.net/world/hls/ts20/2023/06/ts20_20230609_193000_19199584_v_webcast_h264_,q40,q10,q20,q30,q50,q60,.mp4.csmil/index-f1-v1-a1.m3u8

liefert den gleichen Content wie
https://srf-vod-amd.akamaized.net/world/hls/ts20/2023/06/ts20_20230609_193000_19199584_v_webcast_h264_,q40,q10,q20,q30,q50,q60,.mp4.csmil/index-f1-v1-a1.m3u8?caption=srf/9beefd34-223e-4071-a1d2-e9411ce3810c/episode/de/vod/vod.m3u8
(SRF - Tagesschau vom 09.06.2023: Hauptausgabe)

und bei "Heidi"
https://srf-vod-amd.akamaized.net/world/hls/spielfilm_aud/2023/05/spielfilm_aud_20230523_174137_18967402_v_webcast_h264_,q40,q10,q20,q30,q50,q60,.mp4.csmil/hdntl=exp=1686744466~acl=%2f*~data=hdntl,20.04-5833.2~hmac=c2bf9dfb154961f01020390d5524ca5c4bc7b06354e8fc12338332e0f2c8759c/index-f1-v1-a1.m3u8

ist das selbe wenn man den hdntl=exp=1686744466~acl=%2f*~data=hdntl,20.04-5833.2~hmac=c2bf9dfb154961f01020390d 5524ca5c4bc7b06354e8fc12338332e0f2c8759c Part draußen lässt

https://srf-vod-amd.akamaized.net/world/hls/spielfilm_aud/2023/05/spielfilm_aud_20230523_174137_18967402_v_webcast_h264_,q40,q10,q20,q30,q50,q60,.mp4.csmil/index-f1-v1-a1.m3u8

Funktioniert auch mit nicht doppelt gelisteten Beiträgen vom SRF, alle query-strings konnten bei meinen Tests safe weggelassen werden

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

4 participants