# Pozyskiwanie danych z mediów społecznościowych 

AI nie istnieje bez danych. Dla przykładów lub nauki możemy użyć gotowych, stworzonych już zbiorów danych - niemniej rozważając jakikowlwiek realny problem, będziemy postawieni przed koniecznością zgromadzenia danych własnoręcznie.

Media społecznościowe niechętnie dzielą się swoimi danymi - jest to dla nich jedno z głownych źródeł dochodu ([ciekawy artykuł](https://blog.malwarebytes.com/privacy-2/2020/04/how-social-media-mine-data-sell-personal-information-for-profit/)). Część mediów oferuje interfejs dostępu do swoich danych, najczęściej obwarowany licznymi ograniczeniami. W pozostałych przypadkach pozostaje ręczne scrapowanie danych.

## Dostęp do API

Większość dużych platform społecznościowych umożliwia programistom dostęp do danych serwisu poprzez API. 

Przykładowe linki do dokumentacji API:
* [Facebook](https://developers.facebook.com/docs/graph-api/get-started)
* [Twitter](https://developer.twitter.com/en/docs/twitter-api/getting-started/about-twitter-api)
* [Youtube](https://developers.google.com/youtube/v3/getting-started)
* [Reddit](https://www.reddit.com/dev/api/)
* [Wykop](https://www.wykop.pl/dla-programistow/apiv2docs/)
* [VK](https://vk.com/dev/openapi)

### Plusy używania API
* pełna legalność rozwiazania
* stabilność rozwiazania (przejrzyste zmiany, kompatybilność wsteczna)
* przejrzysty podział na endpointy
* prosta i czytelna zwrotka (JSON/XML)
* istnieją gotowe klienty API do większości serwisów
* możliwość zbudowania biznesu wokół medium społecznościowego

### Wady używania API
* limity ilości danych
* limity tempa pobierania danych
* limity jakościowe danych
* darmowe poziomy dostępu mają często ograniczone możliwości
* płatne poziomy dostępu są drogie
* często dostęp do API uzyskujemy po weryfikacji naszej aplikacji (co najmniej w FB i Twitter)


## Scrapowanie danych

W przypadku gdy portal społecznościowy nie udostępnia API lub z jakiegoś powodu nie chcemy/nie możemy z niego skorzystać, pozostaje nam użyć scrapera.

Scrapowanie stron polega na ściganiu ich zawartości z poziomu skryptu. Scrapujac, niejako "udajemy" normalnego użytkownika i jego request z przegladarki

### Legalność scrapowania danych
Scrapowanie danych, rozumiane jako dostęp do zasobów portalu na takich samych zasadach jak użytkownik przez przegladarkę, najprawdopodobniej nie jest działaniem nielegalnym - jest to nieuregulowane w polskim prawodawstwie. Należy jednocześnie przestrzegać przepisów prawa autorskiego i RODO oraz dbać o niepogorszenie warunków działania strony (unikać [DoS](https://pl.wikipedia.org/wiki/Blokada_us%C5%82ug))

Natomiast wiele portali społecznościowych ma w swoich regulaminach lub warunkach użytkowania (ang. _ToS - Terms of Service_) zapis, w którym zabrania scrapowania, w szczególności w celach komercyjnych. 

### Plusy scrapowania
* potencjalnie nieograniczone możliwości 
* darmowy dostęp
* istnieje wiele narzędzi wspomagających scrapowanie

### Wady scrapowania
* zazwyczaj łamanie ToS
* niestabilność rozwiązania
* konieczność ręcznej analizy strony i "rozgryzienia" jej struktury
* konieczność "walki" z portalem
* koszty poniesione na infrastrukturę i dodatkowe usługi 

### Sposoby w jaki media społecznościowe zabezpieczaja się przed scrapowaniem
* częsta zmiana wygladu strony
* dynamiczne ładowanie danych
* autentykacja requestów
* limit requestów per IP
* badanie anomalii i blokowanie podejrzanych

## Biblioteki Pythona wspomagajace scrapowanie

Scrapowanie można realizować przez natywne funkcjonalności Pythona (np. wyrażenia regularne), ale istnieje szereg bibliotek ułatwiajacych to zadanie:

### [Requests](https://docs.python-requests.org/en/latest/)
Najprostsza biblioteka służaca do wykonywania zapytań i pobierania zawartości stron

### [BeautifulSoup](https://beautiful-soup-4.readthedocs.io/en/latest/)
Podstawowy (lecz wystarczajacy) parser HTMLa - pozwala łatwo przeszukiwać zawartośc stron po ich ściagnięciu

### [Selenium](https://selenium-python.readthedocs.io/)
Poprzez emulację przegladarki, pozwala na interakcję ze strona z użyciem JavaScriptu

### [Scrapy](https://docs.scrapy.org/en/latest/intro/overview.html)
Narzędzie automatyzujace wiele powtarzalnych procesów - paginację, wyszukiwanie danych w HTMLu, zrównoleglenie parsowania, obsługę cookies i requestów. 

### [Twint](https://github.com/twintproject/twint)
Narzędzie do scrapowania danych z Twittera (ostatni commit 2020.12.17)

### [stweet](https://github.com/markowanga/stweet)
Scraper Twittera, używajacy endpointów AJAX do pobrania danych (ostatni commit 2021.10.13)

## Dlaczego nie warto opierać biznesu o dostęp do jednego medium społecznościowego? 

We wrześniu 2019 na łamach amerykańskiej edycji Business Insidera ukazał się [artykuł nt. nielegalnego wykorzystania danych](https://www.businessinsider.com/facebook-review-all-marketing-partners-instagram-data-scraping-2019-8) z portalu Instagram przez szereg firm. Wśród nich wymieniono (niesłusznie) polską firmę monitorujacą Internet [Brand24](https://brand24.pl)

Co ciekawe, artykuł stawiał w niekorzystym świetle nawet bardziej samego Facebooka (właściciela Instagramu) niż wymienione firmy. Reakcją Facebooka było natychmiastowe zablokowanie wszystkiego co powiązane z tymi firmami - kont firmowych, kont prywatnych właścicieli, podpiętych kont API, podpiętych aplikacji, wtyczek Messengera itd - zarówno z Facebooka, jak i Instagrama

Decyzja Facebooka była natychmiastowa, nieodwołalna i bez podania jakiegokolwiek powodu - wg. ToS maja pełne prawo swobodnie dysponować dostępami do swoich zasobów. 

Po prawie rocznej prawnej batalii, w przypadku Brand24 Facebook stwierdził, że nie miał podstaw do takiego działania i dostępy/konta zostały przywrócone - jednak kosztowało to firmę utratę 10% klientów, spadek o 40% wartości giełdowej i konieczność znacznej redukcji zatrudnienia. Wiele spośród wymienionych w artykule firm upadło całkowicie. 