# Data Collection

In deze notebook worden er drie mogelijke databronnen bekeken. 
Het eerste waar we gaan naar kijken is hoe je kan omgaan met online datasets.
Daarna geef ik een voorbeeld hoe je kan communiceren met relationele databases vanuit python om je dataset te bekomen en te gebruiken.
Een derde optie is door gebruik te maken van de api's van verschillende bedrijven om data op te vragen.
Dit is een mogelijkheid die veel gebruikt wordt bij social media bedrijven zoals twitter of facebook.
Als laatste voorbeeld geef ik ook voorbeeld code van hoe je een webpagina kan scrapen om de gewenste resultaten te bekomen.

## Online DataSets

Een eerste bron van datasets is het zoeken naar online datasets die beschikbaar zijn online. 
Dit kunnen zowel gratis als betalende zijn. 
Een eerste bron van veel gratis datasets is de site https://www.kaggle.com waar er continue competities zijn in het data science gebied om te oefenen, geld te verdienen of werk te vinden. 
Ook bieden veel overheidsinstanties datasets aan die vrij gebruikt kunnen worden, zie bijvoorbeeld de site van de belgische overheid:  https://statbel.fgov.be/en/

Er zijn twee mogelijheden om te werken met deze datasets. Ofwel download je zelf manueel ofwel gebruik je een script om ze te downloaden. 
Hieronder staat een voorbeeld voor de tweede manier. 
Als je de dataset manueel download mag je de eerste stap (het downloaden) overslaan.

### Downloading

In een eerste stap moeten we de dataset downloaden en inladen. Dit kan door middel van gebruik te maken van de requests module. Meer documentatie kan je vinden op deze site: https://requests.readthedocs.io/en/master/user/quickstart/#raw-response-content

Schrijf nu de functie die de dataset download van een "url" en opslaat naar een bepaald "path".

In [3]:
DATASET_URL = "https://statbel.fgov.be/sites/default/files/files/opendata/Census%202011%20-%20Leeftijd%2C%20Arbeidsmarktsituatie%2C%20Land%20van%20staatsburgerschap%2C%20Verblijfplaats%2C%20Economische%20sector%2C%20Geslacht%2C%20Beroepsstatuut/TF_CENSUS_2011_HC11_L.zip"
DATASET_ZIPPED = "datasets/04_DataCollection.zip"

### Unzippen van de data

Merk op dat deze file die we gedownload hadden gezipped was. Nu moet dit gedownloade bestand geunzipped worden. Dit kan gedaan worden door gebruik te maken van de module "zipfile".

Schrijf nu de functie unzipfile(pathSource, unzipDirectory) die het bestaande bestand unzipt en schrijft in de meegegeven directory.

In [2]:
DIRECTORY_UNZIPPED = "datasets/04_DataCollection"

### Inladen van de data

Als je nu kijkt in de datasets directory die we meegegeven hebben dan zie je dat er 1 file in de directory "datasets/04_downloaded" staat met de naam "TF_CENSUS_2011_HC24_L.txt". 
Open nu dit bestand en bekijk eens welke data erin staat.

Je ziet dat dit een csv bestand is met de headers op de eerste regel. 
De delimiter tussen de verschillende velden is "|".
De volgende stap is deze data in te laden en te bekijken welke gegevens erin staan. 
Gebruik hiervoor de read_csv functie van pandas. 
Schrijf een functie loadDataset die de data in het tekstbestand inlaad. 
Let erop dat de eerste lijn die de headers bevat afgesplits wordt. 
Print ook de header en de eerste 5 data-regels van het bestand uit zodat we gemakkelijk de inhoud van de dataset kunnen zien. Dit kan door gebruik te maken van de display() functie en de data.head() functie.

Over hoeveel personen bevat deze dataset gegevens?

Een andere manier om datasets te downloaden kan door gebruik te maken van de library opendatasets. Indien onderstaande code problemen geeft kan deze package geinstalleerd worden door het uitvoeren van het volgend commando (let op het uitroepingsteken, dat zorgt ervoor dat de lijn niet als python code uitgevoerd wordt maar als commandline commando):

In [1]:
!pip install opendatasets



Meer informatie over deze library vind je [hier](https://pypi.org/project/opendatasets/). 
Met deze library kan je eenvoudig datasets gaan downloaden zonder zelf de code te moeten schrijven om de file te concateneren en alle cases op te vangen die mis kunnen gaan. 
Dit gaat als volgt:

In [3]:
import opendatasets as od

od.download(DATASET_URL)

  0%|                                                                                       | 0/581506 [00:00<?, ?it/s]

Downloading https://statbel.fgov.be/sites/default/files/files/opendata/Census%202011%20-%20Leeftijd%2C%20Arbeidsmarktsituatie%2C%20Land%20van%20staatsburgerschap%2C%20Verblijfplaats%2C%20Economische%20sector%2C%20Geslacht%2C%20Beroepsstatuut/TF_CENSUS_2011_HC11_L.zip to .\TF_CENSUS_2011_HC11_L.zip


581632it [00:20, 3289863.77it/s]                                                                                       

## Connecting to relational databases

Het is mogelijk om te connecteren vanuit Python met een SQL-database en de opgevraagde data te gebruiken als je dataset.
Dit kan door gebruik te maken van bijvoorbeeld de pyodbc of mysql-connector package. 
Voor meer informatie over hoe je deze packages gebruikt zie respectievelijk: https://datatofish.com/sql-to-pandas-dataframe/ en https://pynative.com/python-mysql-database-connection/.

Beide packages voorzien de mogelijkheid om een database connectie op te zetten die gebruikt kan worden door de pandas package om een dataframe in te laden. 
De te volgen procedure is:
* Maak de connectie aan
* Schrijf de gewenste query
* Voer de query uit en maak het dataframe aan
* Sluit de connectie

Installeren van de mysql-connector kan via het commando

In [19]:
!conda install mysql-connector-python

Collecting package metadata (current_repodata.json): ...working... done
Solving environment: ...working... failed with initial frozen solve. Retrying with flexible solve.
Solving environment: ...working... failed with repodata from current_repodata.json, will retry with next repodata source.
Collecting package metadata (repodata.json): ...working... done
Solving environment: ...working... failed with initial frozen solve. Retrying with flexible solve.
Solving environment: ...working... 
Found conflicts! Looking for incompatible packages.
This can take several minutes.  Press CTRL-C to abort.
failed



Building graph of deps:   0%|          | 0/4 [00:00<?, ?it/s]
Examining mysql-connector-python:   0%|          | 0/4 [00:00<?, ?it/s]
Examining python=3.8:  25%|##5       | 1/4 [00:00<00:00,  3.89it/s]    
Examining python=3.8:  50%|#####     | 2/4 [00:00<00:00,  7.78it/s]
Examining @/win-64::__win==0=0:  50%|#####     | 2/4 [00:00<00:00,  7.78it/s]
Examining @/win-64::__win==0=0:  75%|#######5  | 3/4 [00:00<00:00,  5.82it/s]
Examining @/win-64::__archspec==1=x86_64:  75%|#######5  | 3/4 [00:00<00:00,  5.82it/s]
                                                                                       

Determining conflicts:   0%|          | 0/4 [00:00<?, ?it/s]
Examining conflict for mysql-connector-python python:   0%|          | 0/4 [00:00<?, ?it/s]
                                                                                           

UnsatisfiableError: The following specifications were found
to be incompatible with the existing python installation in your environment:

Specifi

De code om dan het dataframe aan te maken voor deze package is:

In [25]:
import mysql.connector

try:
    connection = mysql.connector.connect(host='localhost',
                                         database='test',
                                         user='admin',
                                         password='admin')

    df = pd.read_sql('SELECT * FROM table_name', con=connection)
    print("dataframe loaded correctly")

except mysql.connector.Error as error:
    print("Failed to create dataframe: {}".format(error))
finally:
    if connection.is_connected():
        cursor.close()
        connection.close()
        print("MySQL connection is closed")

Failed to create dataframe: 2003: Can't connect to MySQL server on 'localhost:3306' (10061 No connection could be made because the target machine actively refused it)


NameError: name 'connection' is not defined

### Door gebruik te maken van API's

Sommige bedrijven (vooral social media bedrijven) beiden ook api's aan om data op te vragen die beschikbaar is op hun sites.
In python zijn er vaak wrappers/packages voor geschreven om het zo eenvoudig mogelijk te maken om te werken met deze api's.
Twee voorbeelden van dergelijke packages zijn: 
* Voor facebook: https://pypi.org/project/python-facebook-api/
* Voor Twitter: https://python-twitter.readthedocs.io/en/latest/

Voor elk van deze api's moet je applicatie geregistreerd zijn bij de bedrijven om zo een key te krijgen waarmee je queries kan uitvoeren op de data van deze bedrijven. 
Ik ga deze api's niet uitvoerig beschrijven want de specifieke werking is uniek voor elke toepassing maar als je dit wil doen raad ik je aan de api's te bestuderen want er zijn heel veel verschillende elementen die eenvoudig opgevraagd kunnen worden.

## Web scraping

Dit is een techniek om pagina's van een website op te vragen en de data eruit te gaan filteren en op te slaan.
Deze techniek is minder optimaal dan het gebruik te maken van api's maar niet alle bedrijven bieden deze aan.
Web scraping maakt het mogelijk om toch gegevens vanuit webpagina's te gaan opzoeken.
Om dit te bereiken is er een package scrapy.
Meer informatie over hoe je deze package kan gebruiken kan je vinden op: https://docs.scrapy.org/en/latest/intro/tutorial.html
Hoe deze package gebruikt kan worden in een jupyter notebook (of rechtstreeks gestart kan worden vanuit python) kan je vinden op https://www.jitsejan.com/using-scrapy-in-jupyter-notebook

In grote lijnen moet er een spider klasse gemaakt worden die bepaald welke urls er moeten bestudeerd worden en hoe de webpagina's moeten geinterpreteerd worden en welke links er moeten gevolgd worden.
Voorbeeld code van hoe zo een spider werkt is: 

In [23]:
#Include the package
try:
    import scrapy
except:
    !pip install scrapy
    import scrapy
from scrapy.crawler import CrawlerProcess

import json

# The class must inherit from the Spider class
class QuotesSpider(scrapy.Spider):
    # Name of the spider
    name = "quotes"
    
    # Which urls must be scraped by this Spider
    start_urls = [
        'http://quotes.toscrape.com/page/1/',
    ]   
    
    # These settings define that the result must be stored as a json in a file with the name quoteresult.json
    custom_settings = {
        'FEED_FORMAT':'json',                                 
        'FEED_URI': 'quoteresult.json'                        
    }

    # How the webpages are parsed
    def parse(self, response):
        for quote in response.css('div.quote'):
            # find all quotes on each page en find the attributes: text, author and tags (these are saved when executing the spider)
            yield {
                'text': quote.css('span.text::text').get(),
                'author': quote.css('span small::text').get(),
                'tags': quote.css('div.tags a.tag::text').getall(),
            }

        # find the links on each page that can be followed and continue scraping the site
        next_page = response.css('li.next a::attr(href)').get()
        if next_page is not None:
            yield response.follow(next_page, callback=self.parse)

# Create the crawler process and define how the website will see the process (in this case as a firefox browser)
process = CrawlerProcess({
    'USER_AGENT': 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)'
})

# Define the spider to use en start the process
process.crawl(QuotesSpider)
process.start()

2021-06-10 13:52:30 [scrapy.utils.log] INFO: Scrapy 2.5.0 started (bot: scrapybot)
2021-06-10 13:52:30 [scrapy.utils.log] INFO: Versions: lxml 4.6.3.0, libxml2 2.9.10, cssselect 1.1.0, parsel 1.6.0, w3lib 1.22.0, Twisted 21.2.0, Python 3.8.8 (default, Apr 13 2021, 15:08:03) [MSC v.1916 64 bit (AMD64)], pyOpenSSL 20.0.1 (OpenSSL 1.1.1k  25 Mar 2021), cryptography 3.4.7, Platform Windows-10-10.0.19041-SP0
2021-06-10 13:52:30 [scrapy.utils.log] DEBUG: Using reactor: twisted.internet.selectreactor.SelectReactor
2021-06-10 13:52:30 [scrapy.crawler] INFO: Overridden settings:
{'USER_AGENT': 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)'}
2021-06-10 13:52:30 [scrapy.extensions.telnet] INFO: Telnet Password: daf3cb565ba4a7c7
  exporter = cls(crawler)

2021-06-10 13:52:30 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.feedexport.FeedExporter',
 'scrapy.extensions.logstats.LogStats']
202

2021-06-10 13:52:32 [scrapy.core.scraper] DEBUG: Scraped from <200 http://quotes.toscrape.com/page/2/>
{'text': '“I like nonsense, it wakes up the brain cells. Fantasy is a necessary ingredient in living.”', 'author': 'Dr. Seuss', 'tags': ['fantasy']}
2021-06-10 13:52:32 [scrapy.core.scraper] DEBUG: Scraped from <200 http://quotes.toscrape.com/page/2/>
{'text': '“I may not have gone where I intended to go, but I think I have ended up where I needed to be.”', 'author': 'Douglas Adams', 'tags': ['life', 'navigation']}
2021-06-10 13:52:32 [scrapy.core.scraper] DEBUG: Scraped from <200 http://quotes.toscrape.com/page/2/>
{'text': "“The opposite of love is not hate, it's indifference. The opposite of art is not ugliness, it's indifference. The opposite of faith is not heresy, it's indifference. And the opposite of life is not death, it's indifference.”", 'author': 'Elie Wiesel', 'tags': ['activism', 'apathy', 'hate', 'indifference', 'inspirational', 'love', 'opposite', 'philosophy']}
2021-0

2021-06-10 13:52:33 [scrapy.core.scraper] DEBUG: Scraped from <200 http://quotes.toscrape.com/page/5/>
{'text': '“You believe lies so you eventually learn to trust no one but yourself.”', 'author': 'Marilyn Monroe', 'tags': []}
2021-06-10 13:52:33 [scrapy.core.scraper] DEBUG: Scraped from <200 http://quotes.toscrape.com/page/5/>
{'text': '“If you can make a woman laugh, you can make her do anything.”', 'author': 'Marilyn Monroe', 'tags': ['girls', 'love']}
2021-06-10 13:52:33 [scrapy.core.scraper] DEBUG: Scraped from <200 http://quotes.toscrape.com/page/5/>
{'text': '“Life is like riding a bicycle. To keep your balance, you must keep moving.”', 'author': 'Albert Einstein', 'tags': ['life', 'simile']}
2021-06-10 13:52:33 [scrapy.core.scraper] DEBUG: Scraped from <200 http://quotes.toscrape.com/page/5/>
{'text': '“The real lover is the man who can thrill you by kissing your forehead or smiling into your eyes or just staring into space.”', 'author': 'Marilyn Monroe', 'tags': ['love']}
202

2021-06-10 13:52:35 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://quotes.toscrape.com/page/8/> (referer: http://quotes.toscrape.com/page/7/)
2021-06-10 13:52:35 [scrapy.core.scraper] DEBUG: Scraped from <200 http://quotes.toscrape.com/page/8/>
{'text': '“If I had a flower for every time I thought of you...I could walk through my garden forever.”', 'author': 'Alfred Tennyson', 'tags': ['friendship', 'love']}
2021-06-10 13:52:35 [scrapy.core.scraper] DEBUG: Scraped from <200 http://quotes.toscrape.com/page/8/>
{'text': '“Some people never go crazy. What truly horrible lives they must lead.”', 'author': 'Charles Bukowski', 'tags': ['humor']}
2021-06-10 13:52:35 [scrapy.core.scraper] DEBUG: Scraped from <200 http://quotes.toscrape.com/page/8/>
{'text': '“The trouble with having an open mind, of course, is that people will insist on coming along and trying to put things in it.”', 'author': 'Terry Pratchett', 'tags': ['humor', 'open-mind', 'thinking']}
2021-06-10 13:52:35 [scrapy.cor

2021-06-10 13:52:36 [scrapy.core.scraper] DEBUG: Scraped from <200 http://quotes.toscrape.com/page/10/>
{'text': '“Never tell the truth to people who are not worthy of it.”', 'author': 'Mark Twain', 'tags': ['truth']}
2021-06-10 13:52:36 [scrapy.core.scraper] DEBUG: Scraped from <200 http://quotes.toscrape.com/page/10/>
{'text': "“A person's a person, no matter how small.”", 'author': 'Dr. Seuss', 'tags': ['inspirational']}
2021-06-10 13:52:36 [scrapy.core.scraper] DEBUG: Scraped from <200 http://quotes.toscrape.com/page/10/>
{'text': '“... a mind needs books as a sword needs a whetstone, if it is to keep its edge.”', 'author': 'George R.R. Martin', 'tags': ['books', 'mind']}
2021-06-10 13:52:36 [scrapy.core.engine] INFO: Closing spider (finished)
2021-06-10 13:52:36 [scrapy.extensions.feedexport] INFO: Stored json feed (100 items) in: quoteresult.json
2021-06-10 13:52:36 [scrapy.statscollectors] INFO: Dumping Scrapy stats:
{'downloader/request_bytes': 2866,
 'downloader/request_count'

De resultaten van het scraping process kan gezien worden in de logging maar er is ook een json aangemaakt waar alle data in opgeslagen is. Controleer eens wat erin zit.
De opgeslagen data kan ook ingeladen worden in een dataframe met de volgende lijn:

In [24]:
dfjson = pd.read_json('quoteresult.json')

ValueError: Expected object or value