![](http://sigdelta.com/assets/images/sages-sd-logo.png)

# Analiza danych i uczenie maszynowe w Python

Autor notebooka: Jakub Nowacki.

## Dane

Notebook prezentuje różne metody pozyskiwania danych do analiz. Ponadto, prezentujemy najpopularniejsze metody czytania i zapisywania plików z danymi.

## Z sieci

Wiele danych dostępnych jest jako zbiory zdalne na różnych serwerach. Mowa tu o otwartych zbiorach danych ale też zbiorach dostępnych w różnych organizacjach. Python posiada szereg narzędzi do pozyskiwania ogólnych danych z sieci. 

### `urllib.request`

Pakiet [`urllib.request`](https://docs.python.org/3/library/urllib.request.html) jest częścią standardowej biblioteki Pythona i służy do pracy ze zdalnymi serwerami operującymi protokołami HTTP(S) i FTP. Jest to protokół dość niskopoziomowy, więc jego używanie nie zawsze bywa bardzo proste, niemniej, ma wiele przydatnych funkcji. Najlepiej używać go, kiedy nie mamy pewności czy inne pakiety są zainstalowane w dystrybucji Pythona. 

Poniżej przykład użycia funkcji `urlretrieve`, która pobiera zawartość URLa do pliku.

In [5]:
import os
import urllib.request
from tqdm import tqdm_notebook

data_dir = 'data/books'

os.makedirs(data_dir, exist_ok=True)

book_files = {
    'grimms_fairy_tales': 'http://www.gutenberg.org/files/2591/2591-0.txt', 
    'dracula': 'http://www.gutenberg.org/cache/epub/345/pg345.txt',
    'frankenstein': 'http://www.gutenberg.org/cache/epub/84/pg84.txt', 
    'moby_dick': 'http://www.gutenberg.org/files/2701/2701-0.txt',
    'tom_sawyer': 'http://www.gutenberg.org/files/74/74-0.txt',
    'war_and_peace': 'http://www.gutenberg.org/files/2600/2600-0.txt'
}

for book, url in tqdm_notebook(book_files.items()):
    dest_file = os.path.join(data_dir, '{}.txt'.format(book))
    urllib.request.urlretrieve(url, dest_file)

A Jupyter Widget




### Requests

Pakiet [Requests](http://docs.python-requests.org/en/master/) jest pakietem ogólnego przeznaczenia do komunikacji z użyciem protokołu HTTP(S). Jest on wysokopoziomowym pakietem, który zdejmuje dużo operacji z użytkownika. W razie jak jest dostępny, jest zalecany nawet przez dokumentację `urllib`.  

Do bardziej rozbudowanego i regularnego pozyskiwania danych ze stron internetowych można wykorzystać bardziej zaawansowane pakiety, takie jak [Scrapy](https://scrapy.org/)

Poniżej przykład czytania książki z Projektu Gutenberg bezpośrednio z URL.

In [6]:
import requests

In [7]:
url = 'http://www.gutenberg.org/files/2591/2591-0.txt'

r = requests.get(url)
#r
##r.content
#r.content.decode(r.encoding)
#r.text
len(r.text.split())
len(r.text.split())

104148

In [8]:
print('Kod statusu: {}'.format(r.status_code))
print('Nagłówki: {}'.format(r.headers))
print('Ciasteczka: {}'.format(r.cookies.get_dict()))
print('Kodowanie: {}'.format(r.encoding))
print('Zawartość: {}...'.format(r.content[:100]))

Kod statusu: 200
Nagłówki: {'Server': 'Apache', 'Set-Cookie': 'session_id=090fd54f3c60220930f2fa703fbf33c021cf4ed9; Domain=.gutenberg.org; expires=Wed, 14 Feb 2018 08:35:26 GMT; Path=/', 'X-Rate-Limiter': 'zipcat2.php', 'Vary': 'negotiate,accept-encoding', 'Last-Modified': 'Mon, 07 November 2016 11:13:50 GMT', 'ETag': '"56bc3516"', 'Content-Encoding': 'gzip', 'X-Zipcat': '194297 / 560166 = 0.347', 'Accept-Ranges': 'none', 'X-Frame-Options': 'sameorigin', 'X-Connection': 'Close', 'Content-Type': 'text/plain; charset=UTF-8', 'X-Powered-By': '1', 'Content-Length': '194297', 'Date': 'Wed, 14 Feb 2018 08:05:26 GMT', 'X-Varnish': '281978112', 'Age': '0', 'Via': '1.1 varnish'}
Ciasteczka: {'session_id': '090fd54f3c60220930f2fa703fbf33c021cf4ed9'}
Kodowanie: UTF-8
Zawartość: b'\xef\xbb\xbfThe Project Gutenberg EBook of Grimms\xe2\x80\x99 Fairy Tales, by The Brothers Grimm\r\n\r\nThis eBook is for '...


### Zadanie

1. Policz ile słów (w sumie) jest w pobranej książce.


## Parsowanie HTML

Niekiedy istnieje potrzeba parsowania zawartości strony w postaci HTML do bardziej przyjaznej formy. Pakiety jak Requests pozwalają na łatwe czytanie źródła strony, niemniej, niekiedy interesujące nas dane znajdują się w konkretnym jej miejscu. Najpopularniejszą biblioteką w Pythonie do parsowanie HTML i XML jest [Beautiful Soup](https://www.crummy.com/software/BeautifulSoup/).

In [9]:
import bs4

html_doc = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>

<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>

<p class="story">...</p>
"""

soup = bs4.BeautifulSoup(html_doc, 'lxml')
soup

<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>
<p class="story">...</p>
</body></html>

In [10]:
for p in soup.find_all('p'):
    print(p.attrs)
    print(p.contents)

{'class': ['title']}
[<b>The Dormouse's story</b>]
{'class': ['story']}
['Once upon a time there were three little sisters; and their names were\n', <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>, ',\n', <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>, ' and\n', <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>, ';\nand they lived at the bottom of a well.']
{'class': ['story']}
['...']


In [11]:
for a in soup.find_all('a'):
    print(a.attrs)
    print(a.contents)

{'href': 'http://example.com/elsie', 'class': ['sister'], 'id': 'link1'}
['Elsie']
{'href': 'http://example.com/lacie', 'class': ['sister'], 'id': 'link2'}
['Lacie']
{'href': 'http://example.com/tillie', 'class': ['sister'], 'id': 'link3'}
['Tillie']


In [12]:
soup.text

"The Dormouse's story\n\nThe Dormouse's story\nOnce upon a time there were three little sisters; and their names were\nElsie,\nLacie and\nTillie;\nand they lived at the bottom of a well.\n...\n"

### Zadanie

1. Przeczytaj zawartość linka http://sigdelta.com/blog/how-to-install-pyspark-locally/
1. Ile razy pojawia się słowo Spark?
1. Pokaż wszystkie nagłówki sekcji
1. ★ Wypisz zawartość bloków kodu

In [13]:
r=request.get('http://sigdelta.com/blog/how-to-install-pyspark-locally/')
r
r.text(:100)
doc=bs4.BeautifulSoup(r.text,'lxml')
doc.text
len(doc.text.lower().split('spark')-1
import re
re.findall('spark',doc.text,flags=re.IGNORCASE)
for h indoc.find_all(('h1','h2','h3'))
    print(h.text)

SyntaxError: invalid syntax (<ipython-input-13-d5a8f6127906>, line 3)

## Twitter

Wiele usług sieciowych dostarcza API do łączenia się z nimi. Jednym z najpopularniejszych metod projektowania API jest [RESTful](https://en.wikipedia.org/wiki/Representational_state_transfer), który posługuje się protokołem HTTP. Do połączenia z takim API można wykorzystać bibliotekę Requests. Niemniej, istnieje wiele dedykowanych bibliotek do pracy z publicznymi API.

Twitter, jak wiele innych sieci społecznościowych, daje zdalny dostęp do swoich danych przez [swoje API](https://developer.twitter.com/en/docs). Wprawdzie Twitter sam nie dostarcza klienta Pythonowego, dostępne jest [wiele bibliotek](https://developer.twitter.com/en/docs/developer-utilities/twitter-libraries) do pracy z API. Jedną z najbardziej popularnych w języku Python jest [Tweepy](http://www.tweepy.org/).

Do wielu API publicznych wymagana jest autentykacja; najczęściej wykorzystywanym protokołem jest OAuth z zestawem kluczy. Aby uzyskać klucze należy zarejestrować się na stronie [apps.twitter.com](apps.twitter.com) jak opisano [w dokumentacji](https://developer.twitter.com/en/docs/basics/authentication/guides/access-tokens). W poniższym przykładzie klucze czytane są z pliku `tweepy_conf.py`.

In [None]:
import tweepy
import tweepy_conf as tc

auth = tweepy.OAuthHandler(tc.consumer_key, tc.consumer_secret)
auth.set_access_token(tc.access_token, tc.access_token_secret)

api = tweepy.API(auth)

api

Można wyświetlić tweety z własnej strony domowej.

In [None]:
public_tweets = api.home_timeline()
for tweet in public_tweets:
    print("text: {}".format(tweet.text))

Można też użyć innych API np. [Search API](https://developer.twitter.com/en/docs/tweets/search/overview).

In [None]:
for tweet in api.search('python'):
    print("text: {}".format(tweet.text))

In [None]:
t = api.search('python')[0]

print('Tweet ID: {0} (https://twitter.com/statuses/{0}),'.format(t.id))
print('Autor: {}'.format(t.author.name))
print('Data utworzenia: {}'.format(t.created_at))
print('Tekst: {}'.format(t.text))
print('Ile razy przekazywany: {}'.format(t.retweet_count))

### Zadanie

1. Wypisz tweety w kolejności ilości przekazań (retweetów).
1. Wypisz wszystkich unikalnych autorów tweetów.
1. ★ Znajdź i policz wszystkie hashtagi twittach o Pythonie.
1. ★ Wyświetl 100 tweetów dla języka polskiego.

## Istniejące zbiory danych

Oprócz powszechnie dostępnych zbiorów danych w sieci, dostępne jest wiele przetworzonych form danych w pakietach Pythonowych. Poniżej prezentujemy wybór takich źródeł danych z naciskiem na dane tekstowe. Generalnie, ilość dostępnych danych szybko rośnie, więc warto obserwować informacje ze źródeł piszących o Data Science.

### NLTK

Głównym źródłem zbiorów danych tekstowych, czyli korpusów, jest NLTK. Wyczerpujący opis zbioru możemy znaleźć [w manualu NLTK](http://www.nltk.org/book/ch02.html). Wyróżnić można kilka typów korpusów, co zostało przedstawione na poniższym rysunku.

![](http://www.nltk.org/images/text-corpus-structure.png)

In [None]:
import nltk

In [None]:
nltk.corpus.gutenberg.fileids()

In [None]:
book = 'shakespeare-macbeth.txt'

print('Raw:')
print(nltk.corpus.gutenberg.raw(book)[:100])
print('\nSents:')
print(nltk.corpus.gutenberg.sents(book)[:3])
print('\nWords:')
print(nltk.corpus.gutenberg.words(book)[:10])

In [None]:
from nltk.corpus import brown

brown.categories()

In [None]:
print('Brown corpus lengths:')
print('len(all) = {:,}'.format(len(brown.words())))
for c in brown.categories():
    print('len({}) = {:,}'.format(c, len(brown.words(categories=c))))

### Inne zbiory

Inne pakiety również dostarczają gotowe zbiory danych:

* [`sklearn.datasets`](http://scikit-learn.org/stable/datasets/)
    * [20 Newsgroups](http://scikit-learn.org/stable/datasets/index.html#the-20-newsgroups-text-dataset)
* [Kaggle](https://www.kaggle.com)
    * [Twitter Airline Sentiment](https://www.kaggle.com/crowdflower/twitter-airline-sentiment)
    * [Kaggle Survey 2017](https://www.kaggle.com/kaggle/kaggle-survey-2017)
* [Dane Stack Exchange](https://archive.org/details/stackexchange)
* [UCI Machine Learning Repository](https://archive.ics.uci.edu/)
    * [Zbiory tekstowe](https://archive.ics.uci.edu/ml/datasets.html?format=&task=&att=&area=&numAtt=&numIns=&type=text&sort=nameUp&view=table)
* [Lista zbiorów danych do NLP](https://github.com/niderhoff/nlp-datasets)

### Zadanie 

1. Zamień korpus Browna ze słowami i kategoriami na DataFrame Pandas.
1. Ile jest słów dla każdej kategorii.
1. Czy są jakieś wspólne słowa dla kategorii? Podaj przykłady.

## Pandas

Pandas ma szerokie możliwości czytania i zapisywania danych w różnych formatach. Wprawdzie niewiele z wymienionych danych powyżej jest w formacje Pandas, są one najczęściej w formatach które Pandas potrafi albo łatwo czytać, albo da je się łatwo przerobić na DataFrame. Aby sprawdzić wszystkie typy, zobacz [dokumentację](https://pandas.pydata.org/pandas-docs/stable/io.html).

In [None]:
import pandas as pd

In [None]:
for method in dir(pd):
    if method.startswith('read'):
        print('*** {} ***'.format(method))
        doc_lines = getattr(pd, method).__doc__.split('\n')
        if doc_lines[0]:
            print(doc_lines[0].strip())
        else:
            print(doc_lines[1].strip())

In [14]:
book = pd.read_table('data/books/dracula.txt', names=['lines'])
book.head()

Unnamed: 0,lines
0,"The Project Gutenberg EBook of Dracula, by Bra..."
1,This eBook is for the use of anyone anywhere a...
2,almost no restrictions whatsoever. You may co...
3,re-use it under the terms of the Project Guten...
4,with this eBook or online at www.gutenberg.org...


In [16]:
import glob
import re
import os

data_dir = 'data/books'

books = list()
for file_name in glob.glob(os.path.join(data_dir, '*.txt')):
    with open(file_name, encoding='utf-8') as lines: #zwraca wskaznik do pliku
                                                     #alternatywnie lines=open... ale wtedy trzebaby na koncu zamykac plik
        book_name = file_name.split(os.path.sep)[-1].replace('.txt', '')
        for line in lines:
            books.append({'book': book_name, 'line': line})
books[:10]

[{'book': 'dracula',
  'line': '\ufeffThe Project Gutenberg EBook of Dracula, by Bram Stoker\n'},
 {'book': 'dracula', 'line': '\n'},
 {'book': 'dracula',
  'line': 'This eBook is for the use of anyone anywhere at no cost and with\n'},
 {'book': 'dracula',
  'line': 'almost no restrictions whatsoever.  You may copy it, give it away or\n'},
 {'book': 'dracula',
  'line': 're-use it under the terms of the Project Gutenberg License included\n'},
 {'book': 'dracula',
  'line': 'with this eBook or online at www.gutenberg.org/license\n'},
 {'book': 'dracula', 'line': '\n'},
 {'book': 'dracula', 'line': '\n'},
 {'book': 'dracula', 'line': 'Title: Dracula\n'},
 {'book': 'dracula', 'line': '\n'}]

In [None]:
books = pd.DataFrame(books)
books.head()

In [None]:
books.groupby('book').count()

In [None]:
for method in dir(books):
    if method.startswith('to_'):
        print('*** {} ***'.format(method))
        doc_lines = getattr(books, method).__doc__.split('\n')
        if doc_lines[0]:
            print(doc_lines[0].strip())
        else:
            print(doc_lines[1].strip())

### Zadanie

1. Zapisz DataFrame `books` jako plik w 2 wybranych formatach, najlepiej 1 tekstowym i 1 binarnym; porównaj pliki.
1. Odczytaj dane z zapisanego pliku; czy coś się zmieniło?
1. ★ Sprawdź czy da się odczytać plik prosto z sieci.
1. ★ Zamień dane z korpusu Browna na DataFrame Pandas.