# Wprowadzenie do ekstrakcji 

Analiza danych wymaga przede wszystkim źródeł danych. Analityk może pracować na odpowiednio przygotowanych danych lub źródłach wewnętrznych dostępnych w ramach danej organizacji i firmie. Natomiast może rówmież skorzystać z danych dostępnych w sieci Internet. 

Obecnie rośnie popularność tzw. otwartych źródeł danych. Są to źródła dostępne w sposób publiczny i nieodpłatnie, które są publikowane najczęściej przez instytucje rządowe lub organizacje pozarządowe. Takie przykładowe źródła to np.:
- https://datausa.io
- https://www.data.gov
- https://data.gov.uk
- https://dane.gov.pl
- https://mojepanstwo.pl

Źródła te oferują dane w różnych postaciach. Spróbujmy sklasyfikować te dane wg formatów, w których są dostępne:
- Dane ustrukturyzowane
  - Dane o strukturze tabelarycznej
    - CSV
    - Excel
  - Dane o strukturze hierarchicznej
    - XML
    - JSON 
    - Bazy danych
- Dane nieustrukturyzowane (lub częściowo ustrukturyzowane)
  - Strony HTML
  - Tekst


## JSON 

Jednym z popularniejszych formatów wykorzystywanym obecnie do przechowywania danych jest JSON (JavaScript Object Notation). Format JSON to prosty format tekstowy. Przykładowe dane w formacie JSON wyglądają następująco:

```json
[{
  "id": 1,
  "first_name": "Jeanette",
  "last_name": "Penddreth",
  "email": "jpenddreth0@census.gov",
  "gender": "Female",
  "ip_address": "26.58.193.2"
}, {
  "id": 2,
  "first_name": "Giavani",
  "last_name": "Frediani",
  "email": "gfrediani1@senate.gov",
  "gender": "Male",
  "ip_address": "229.179.4.212"
}]
```
Jak widać przypomina on krotki w języku Python. Format ten jest bardzo powszechnie wykorzystywane w sieci Internet. Dane w tym formacie można pobrać z serwisów Twitter, Youtube czy też np. GoogleMaps. Poniżej przykład zapisu znaczników z Google Maps:

```json
{
  "markers": [
    {
      "name": "Rixos The Palm Dubai",
      "position": [25.1212, 55.1535],
    },
    {
      "name": "Shangri-La Hotel",
      "location": [25.2084, 55.2719]
    },
    {
      "name": "Grand Hyatt",
      "location": [25.2285, 55.3273]
    }
  ]
}
```

Intensywna praca z tym formaten jest mniej wydajna niż w przypadku baz relacyjnych. Nie daje on takich możliwości przeszukiwania jak SQL bazy relacyjne. Stąd dobrym pomysyłem może być utworzenie lokalnej dedykowanej do analiz bazy, w której bedą gromadzone dane importowane z zewnętrznych źródeł.

Spróbujmy zobaczyć jak pobrać i przeanalizować dane w tym formacie. W tym celu wykorzystamy następujące źródło danych:
https://jsonplaceholder.typicode.com/todos

Zapoznaj się z nim. Jak widać przechowuje dane o zadaniach użytkowników i statusie zadań.

Do pracy z potrzebować będziemy dwóch pakietów:
- **json** - powininen być dostępny bez konieczności instalacji
- **requests** - może wymagać instalacji

Wykonaj poniższą komórkę by zainstalować i sprawdzić czy biblioteki są dostępne.

In [None]:
# Installs a pip package in the current Jupyter kernel
import sys
!"{sys.executable}" -m pip install requests --user
import requests

In [5]:
# Żeby pobrać dane wykorzystaj poniższy kod:
import json
import requests

response = requests.get("https://jsonplaceholder.typicode.com/todos").json()
# todos = json.loads(response.text)

print(result:= response)

# teraz wystarczy coś z nimi zrobić :-)

[{'userId': 1, 'id': 1, 'title': 'delectus aut autem', 'completed': False}, {'userId': 1, 'id': 2, 'title': 'quis ut nam facilis et officia qui', 'completed': False}, {'userId': 1, 'id': 3, 'title': 'fugiat veniam minus', 'completed': False}, {'userId': 1, 'id': 4, 'title': 'et porro tempora', 'completed': True}, {'userId': 1, 'id': 5, 'title': 'laboriosam mollitia et enim quasi adipisci quia provident illum', 'completed': False}, {'userId': 1, 'id': 6, 'title': 'qui ullam ratione quibusdam voluptatem quia omnis', 'completed': False}, {'userId': 1, 'id': 7, 'title': 'illo expedita consequatur quia in', 'completed': False}, {'userId': 1, 'id': 8, 'title': 'quo adipisci enim quam ut ab', 'completed': True}, {'userId': 1, 'id': 9, 'title': 'molestiae perspiciatis ipsa', 'completed': False}, {'userId': 1, 'id': 10, 'title': 'illo est ratione doloremque quia maiores aut', 'completed': True}, {'userId': 1, 'id': 11, 'title': 'vero rerum temporibus dolor', 'completed': True}, {'userId': 1, 'i

### Zadanie nr 1

Pobierz dane z powyższego serwisu i wyświetl je w następujący sposób:
```
userId: 1, id: 1, title: delectus aut autem, completed: False, 
userId: 1, id: 2, title: quis ut nam facilis et officia qui, completed: False, 
userId: 1, id: 3, title: fugiat veniam minus, completed: False, 
userId: 1, id: 4, title: et porro tempora, completed: True,
```

In [1]:
# TO DO zaimplementuj tutaj swoje rozwiązanie
import requests
response = requests.get("https://jsonplaceholder.typicode.com/todos").json()
res = [f"userId: {el['userId']}, id: {el['id']}, title: {el['title']}, completed: {el['completed']}" for el in response]
print(*res, sep="\n")

userId: 1, id: 1, title: delectus aut autem, completed: False
userId: 1, id: 2, title: quis ut nam facilis et officia qui, completed: False
userId: 1, id: 3, title: fugiat veniam minus, completed: False
userId: 1, id: 4, title: et porro tempora, completed: True
userId: 1, id: 5, title: laboriosam mollitia et enim quasi adipisci quia provident illum, completed: False
userId: 1, id: 6, title: qui ullam ratione quibusdam voluptatem quia omnis, completed: False
userId: 1, id: 7, title: illo expedita consequatur quia in, completed: False
userId: 1, id: 8, title: quo adipisci enim quam ut ab, completed: True
userId: 1, id: 9, title: molestiae perspiciatis ipsa, completed: False
userId: 1, id: 10, title: illo est ratione doloremque quia maiores aut, completed: True
userId: 1, id: 11, title: vero rerum temporibus dolor, completed: True
userId: 1, id: 12, title: ipsa repellendus fugit nisi, completed: True
userId: 1, id: 13, title: et doloremque nulla, completed: False
userId: 1, id: 14, title:

### Zadanie 1.1 - rozszerzenie

Zapisz pobrane do bazy danych i następnie wypisz na ekran wszystkie skończone zadania użytkowników o id=1 i id=9.

In [43]:
# TO DO zaimplementuj tutaj swoje rozwiązanie
import sqlite3
import pandas as pd

result = requests.get("https://jsonplaceholder.typicode.com/todos").json()
conn = sqlite3.connect('results.db')
cursor = conn.cursor()

df = pd.json_normalize(result, max_level=0)
df.to_sql('results',con=conn,index=False)

cursor.execute("SELECT * FROM results WHERE userId in (1,9) and completed=1")
query = cursor.fetchall()
print(*query, sep="\n")
conn.close()

(1, 4, 'et porro tempora', 1)
(1, 8, 'quo adipisci enim quam ut ab', 1)
(1, 10, 'illo est ratione doloremque quia maiores aut', 1)
(1, 11, 'vero rerum temporibus dolor', 1)
(1, 12, 'ipsa repellendus fugit nisi', 1)
(1, 14, 'repellendus sunt dolores architecto voluptatum', 1)
(1, 15, 'ab voluptatum amet voluptas', 1)
(1, 16, 'accusamus eos facilis sint et aut voluptatem', 1)
(1, 17, 'quo laboriosam deleniti aut qui', 1)
(1, 19, 'molestiae ipsa aut voluptatibus pariatur dolor nihil', 1)
(1, 20, 'ullam nobis libero sapiente ad optio sint', 1)
(9, 161, 'ex hic consequuntur earum omnis alias ut occaecati culpa', 1)
(9, 162, 'omnis laboriosam molestias animi sunt dolore', 1)
(9, 169, 'ea odio perferendis officiis', 1)
(9, 171, 'fugiat aut voluptatibus corrupti deleniti velit iste odio', 1)
(9, 175, 'laudantium eius officia perferendis provident perspiciatis asperiores', 1)
(9, 178, 'nesciunt itaque commodi tempore', 1)
(9, 179, 'omnis consequuntur cupiditate impedit itaque ipsam quo', 1)
(9,

### Zadanie nr 2

Ciekawym źródłem danych jest strona:
https://github.com/jdorfman/awesome-json-datasets

Z tej strony wykorzystaj następujące źródło:
http://api.nobelprize.org/v1/prize.json

Twoim zadaniem jest wypisanie Laureatów Pokojowej Nagrody Nobla za rok 2014.

In [69]:
# TO DO zaimplementuj tutaj swoje rozwiązanie
laureate = requests.get('http://api.nobelprize.org/v1/prize.json').json()
noble_prizes_2014_peace = list(filter(lambda x: (x["year"] == '2014' and x["category"] == 'peace') , laureate["prizes"]))[0]['laureates']
persons = list(map(lambda x: f'{x["id"]} | fullname: {x["firstname"]} {x["surname"]} | motivation: {x["motivation"]} | share: {x["share"]}', laureates))
print(*persons, sep="\n\n")

913 | fullname: Kailash Satyarthi | motivation: "for their struggle against the suppression of children and young people and for the right of all children to education" | share: 2

914 | fullname: Malala Yousafzai | motivation: "for their struggle against the suppression of children and young people and for the right of all children to education" | share: 2


In [40]:
laureates = requests.get('http://api.nobelprize.org/v1/prize.json').json()

def search_person(surname: str, noble_prize_coll: dict):
    prizes = noble_prize_coll["prizes"]
    for prize in prizes:
        try:
            for laureate in prize["laureates"]:
                if laureate["surname"] == surname:
                    print(laureate, prize["year"])
        except KeyError:
            continue
            
search_person("Obama", laureates)
search_person("Walesa", laureates)

{'id': '845', 'firstname': 'Barack', 'surname': 'Obama', 'motivation': '"for his extraordinary efforts to strengthen international diplomacy and cooperation between peoples"', 'share': '1'} 2009
{'id': '545', 'firstname': 'Lech', 'surname': 'Walesa', 'motivation': '"for non-violent struggle for free trade unions and human rights in Poland"', 'share': '1'} 1983


In [39]:
laureates = requests.get('http://api.nobelprize.org/v1/prize.json').json()

def find_prize(category: str, noble_prize_coll: dict):
    prizes = noble_prize_coll["prizes"]
    for prize in prizes:
        if prize["category"] == "peace":
            print(prize)
            
find_prize("peace", laureates)


{'year': '2021', 'category': 'peace', 'laureates': [{'id': '1005', 'firstname': 'Maria', 'surname': 'Ressa', 'motivation': '"for their efforts to safeguard freedom of expression, which is a precondition for democracy and lasting peace"', 'share': '2'}, {'id': '1006', 'firstname': 'Dmitry', 'surname': 'Muratov', 'motivation': '"for their efforts to safeguard freedom of expression, which is a precondition for democracy and lasting peace"', 'share': '2'}]}
{'year': '2020', 'category': 'peace', 'laureates': [{'id': '994', 'motivation': '"for its efforts to combat hunger, for its contribution to bettering conditions for peace in conflict-affected areas and for acting as a driving force in efforts to prevent the use of hunger as a weapon of war and conflict"', 'share': '1', 'firstname': 'World Food Programme'}]}
{'year': '2019', 'category': 'peace', 'laureates': [{'id': '981', 'firstname': 'Abiy', 'surname': 'Ahmed Ali', 'motivation': '"for his efforts to achieve peace and international coop