# Wprowadzenie do ekstrakcji 

Analiza danych wymaga przede wszystkim źródeł danych. Analityk może pracować na odpowiednio przygotowanych danych lub źródłach wewnętrznych dostępnych w ramach danej organizacji i firmie. Natomiast może rówmież skorzystać z danych dostępnych w sieci Internet. 

Obecnie rośnie popularność tzw. otwartych źródeł danych. Są to źródła dostępne w sposób publiczny i nieodpłatnie, które są publikowane najczęściej przez instytucje rządowe lub organizacje pozarządowe. Takie przykładowe źródła to np.:
- https://datausa.io
- https://www.data.gov
- https://data.gov.uk
- https://dane.gov.pl
- https://mojepanstwo.pl

Źródła te oferują dane w różnych postaciach. Spróbujmy sklasyfikować te dane wg formatów, w których są dostępne:
- Dane ustrukturyzowane
  - Dane o strukturze tabelarycznej
    - CSV
    - Excel
  - Dane o strukturze hierarchicznej
    - XML
    - JSON 
    - Bazy danych
- Dane nieustrukturyzowane (lub częściowo ustrukturyzowane)
  - Strony HTML
  - Tekst


## JSON 

Jednym z popularniejszych formatów wykorzystywanym obecnie do przechowywania danych jest JSON (JavaScript Object Notation). Format JSON to prosty format tekstowy. Przykładowe dane w formacie JSON wyglądają następująco:

```json
[{
  "id": 1,
  "first_name": "Jeanette",
  "last_name": "Penddreth",
  "email": "jpenddreth0@census.gov",
  "gender": "Female",
  "ip_address": "26.58.193.2"
}, {
  "id": 2,
  "first_name": "Giavani",
  "last_name": "Frediani",
  "email": "gfrediani1@senate.gov",
  "gender": "Male",
  "ip_address": "229.179.4.212"
}]
```
Jak widać przypomina on krotki w języku Python. Format ten jest bardzo powszechnie wykorzystywane w sieci Internet. Dane w tym formacie można pobrać z serwisów Twitter, Youtube czy też np. GoogleMaps. Poniżej przykład zapisu znaczników z Google Maps:

```json
{
  "markers": [
    {
      "name": "Rixos The Palm Dubai",
      "position": [25.1212, 55.1535],
    },
    {
      "name": "Shangri-La Hotel",
      "location": [25.2084, 55.2719]
    },
    {
      "name": "Grand Hyatt",
      "location": [25.2285, 55.3273]
    }
  ]
}
```

Intensywna praca z tym formaten jest mniej wydajna niż w przypadku baz relacyjnych. Nie daje on takich możliwości przeszukiwania jak SQL bazy relacyjne. Stąd dobrym pomysyłem może być utworzenie lokalnej dedykowanej do analiz bazy, w której bedą gromadzone dane importowane z zewnętrznych źródeł.

Spróbujmy zobaczyć jak pobrać i przeanalizować dane w tym formacie. W tym celu wykorzystamy następujące źródło danych:
https://jsonplaceholder.typicode.com/todos

Zapoznaj się z nim. Jak widać przechowuje dane o zadaniach użytkowników i statusie zadań.

Do pracy z potrzebować będziemy dwóch pakietów:
- **json** - powininen być dostępny bez konieczności instalacji
- **requests** - może wymagać instalacji

Wykonaj poniższą komórkę by zainstalować i sprawdzić czy biblioteki są dostępne.

In [2]:
# Installs a pip package in the current Jupyter kernel
import json
!"{sys.executable}" -m pip install requests --user
import requests

Collecting requests
  Downloading requests-2.25.1-py2.py3-none-any.whl (61 kB)
Collecting chardet<5,>=3.0.2
  Downloading chardet-4.0.0-py2.py3-none-any.whl (178 kB)
Collecting idna<3,>=2.5
  Downloading idna-2.10-py2.py3-none-any.whl (58 kB)
Collecting urllib3<1.27,>=1.21.1
  Downloading urllib3-1.26.2-py2.py3-none-any.whl (136 kB)
Installing collected packages: chardet, idna, urllib3, requests
Successfully installed chardet-4.0.0 idna-2.10 requests-2.25.1 urllib3-1.26.2


You should consider upgrading via the 'c:\program files\python38\python.exe -m pip install --upgrade pip' command.


In [None]:
# Żeby pobrać dane wykorzystaj poniższy kod:
import json
import requests

response = requests.get("https://jsonplaceholder.typicode.com/todos")
todos = json.loads(response.text)

In [None]:
# Przykład z danymi przechowywanymi w słowniku
data = {'apple': 67, 'mango': 60, 'lichi': 58}
names = data.keys()
values = data.values()
plt.style.use('ggplot') # Jeden ze stylów, więcej na stronie https://matplotlib.org/3.1.0/gallery/style_sheets/style_sheets_reference.html
plt.bar(names,values)
plt.show()

### Zadanie nr 1

Pobierz dane z powyższego serwisu i wyświetl je w następujący sposób:
```
userId: 1, id: 1, title: delectus aut autem, completed: False, 
userId: 1, id: 2, title: quis ut nam facilis et officia qui, completed: False, 
userId: 1, id: 3, title: fugiat veniam minus, completed: False, 
userId: 1, id: 4, title: et porro tempora, completed: True,
```

In [None]:
# TO DO zaimplementuj tutaj swoje rozwiązanie


### Zadanie nr 2

Ciekawym źródłem danych jest strona:
https://github.com/jdorfman/awesome-json-datasets

Z tej strony wykorzystaj następujące źródło:
http://api.nobelprize.org/v1/prize.json

Twoim zadaniem jest wypisanie Laureatów Pokojowej Nagrody Nobla za rok 2014.

In [6]:
# TO DO zaimplementuj tutaj swoje rozwiązanie
