# Importowanie danych

https://www.datacamp.com/tutorial/pandas-read-csv

https://www.shanelynn.ie/python-pandas-read-csv-load-data-from-csv-files/

In [1]:
import pandas as pd

## CSV

Popatrzmy na dane z Eurostatu: 

https://ec.europa.eu/eurostat/databrowser/view/nama_10_gdp/default/table?lang=en

### Opcja 1: Plik znajduje się w tym samym folderze co nasz notebook.


In [2]:
df=pd.read_csv('nama_10_gdp_page_linear.csv')

FileNotFoundError: [Errno 2] No such file or directory: 'nama_10_gdp_page_linear.csv'

### Opcja 2.:  Plik znajduje się w zupełnie innej lokalizacji (absolute path)
Możemy wtedy podać ścieżki do pliku

https://learn.microsoft.com/en-us/dotnet/standard/io/file-path-formats

https://www.macworld.com/article/352788/how-to-find-the-path-of-a-file-in-macos.html




In [None]:
df=pd.read_csv('/Users/kristof/Downloads/nama_10_gdp_page_linear.csv') #macos
#df = pd.read_csv(r"C:\Users\Ron\Desktop\my_products.csv")  #windows

### Opcja 3.: Plik jest gdzieś w pobliżu, na przykład w innym folderze. (relative path)

In [None]:
## tu jest nasz jupyter

import os
print(os.getcwd())

In [None]:
##wszystkie pliki i foldery
os.listdir (os. getcwd ())

In [None]:
df=pd.read_csv('w9/nama_10_gdp_page_linear.csv')

### Możemy także przejść do folderu znajdującego się na zewnątrz (możemy cofać).

In [None]:
#df=pd.read_csv('../wstęp/netflix_titles.csv') 

### Stworzenie lokalizacji

In [None]:
#os.mkdir('nowy_folder/nowy_folder_inside')

In [None]:
df

df.head()

In [None]:
len(df['geo'].unique())

In [None]:
len(df['TIME_PERIOD'].unique())

In [None]:
df.shape

## EXCEL



https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html

In [None]:
#!pip install openpyxl #może być potrzebne

In [None]:
df=pd.read_excel('/Users/kristof/Downloads/nama_10_gdp_page_spreadsheet.xlsx', sheet_name='Sheet 1')

In [None]:
df.head()

In [None]:
df.head()

In [None]:
df[:10]

### Pickle

Pickle, który jest domyślnie częścią biblioteki Pythona, jest ważnym modułem, gdy potrzebujesz trwałości między sesjami użytkownika. Jako moduł, pickle zapewnia zapisywanie obiektów Pythona między procesami. Moduł pickle może przechowywać takie rzeczy, jak typy danych, wartości logiczne, ciągi znaków i tablice bajtów, listy, słowniki, funkcje i inne.



https://docs.python.org/3/library/pickle.html

Do czego się przyda pickle? Stwórzmy prostą transformację danych i zapiszmy jako CSV oraz pickle

In [None]:
### CSV
df=pd.read_csv('/Users/kristof/Downloads/nama_10_gdp_page_linear.csv')
df['TIME_PERIOD']=pd.to_datetime(df['TIME_PERIOD'], format='%Y')
df['TIME_PERIOD'].head()

In [None]:
df['TIME_PERIOD'][0]

In [None]:
from datetime import timedelta
df['TIME_PERIOD'][0]+pd.Timedelta('1 days')

In [None]:
df.to_csv('test.csv')

In [None]:
df.to_pickle('test.pickle')

In [None]:
df=pd.read_csv('test.csv')

In [None]:
df['TIME_PERIOD'].head()

In [None]:
df['TIME_PERIOD'][0]

In [None]:
df['TIME_PERIOD'][0]+pd.Timedelta('1 days')

In [None]:
df=pd.read_pickle('test.pickle')

In [None]:
df['TIME_PERIOD'][0]+pd.Timedelta('1 days')

Jak widzimy, możemy w prosty sposób wczytywać pickle w pandasie. Natomiast ogólniejszym rozwiązaniem jest skorzystanie z funkcji *open*

https://docs.python.org/3/library/functions.html#open

In [None]:
## Zapiszmy dict jako pickle
import pickle
exampleObj = {'Python':3,'KDE':5,'Windows':10}

fileObj = open('data.obj', 'wb')
pickle.dump(exampleObj,fileObj)
fileObj.close()

In [None]:
## Wczytamy pickle

fileObj = open('data.obj', 'rb')
exampleObj = pickle.load(fileObj)
fileObj.close()
print(exampleObj)

### JSON

JSON: JavaScript Object Notation. Mimo nazwy, nie jest on wykorzystywany wyłącznie w JavaScripcie, a ma nawet domyślnie dostępną bibliotekę w Pythonie. Na pierwsszy rzut oka pliki JSON wyglądają podobnie do słowników w Pythonie, i rzeczywiście służą do podobnych celów. JSON to tylko format danych oparty na tekście, słownik to struktura danych. Oba przechowują dane, w obu mamy pary klucz-wartość, w końcu oba używają nawiasów klamrowych i dwukropków. Zobaczmy najpierw prosty przykład.

In [None]:
json_string = '''{
  "first name": "John",
  "last name": "Smith",
  "age": 25,
  "address": {
    "street address": "21 2nd Street",
    "city": "New York",
    "state": "NY",
    "postal code": "10021"
  },
  "phone numbers": [
    {
      "type": "home",
      "number": "212 555-1234"
    },
    {
      "type": "fax",
      "number": "646 555-4567"
    }
  ],
  "sex": {
    "type": "male"
  }
}'''

In [None]:
json_string

In [None]:
import json
j = json.loads(json_string)

In [None]:
j

In [None]:
j['address']

Spróbujmy dodać listę jako kolejny element słownika j, zapiszmy słownik do pliku JSON i wczytajmy go ponownie.

In [None]:
j['address']['building'] = ['red', 'tall', 'large_windows', 'McDonald\'s\"']

In [None]:
j

In [None]:
json.dump(j, open('test.json', 'w'))
j = json.load(open('test.json', 'r'))


In [None]:
j['address']['building'] 

https://realpython.com/python-json/


In [3]:
import json
import requests
import pandas as pd

In [4]:
response = requests.get("https://jsonplaceholder.typicode.com/todos")

In [None]:
#response.text

In [5]:
todos = json.loads(response.text)

In [None]:
len(todos)

In [7]:
df=pd.DataFrame(todos)
df

Unnamed: 0,userId,id,title,completed
0,1,1,delectus aut autem,False
1,1,2,quis ut nam facilis et officia qui,False
2,1,3,fugiat veniam minus,False
3,1,4,et porro tempora,True
4,1,5,laboriosam mollitia et enim quasi adipisci qui...,False
...,...,...,...,...
195,10,196,consequuntur aut ut fugit similique,True
196,10,197,dignissimos quo nobis earum saepe,True
197,10,198,quis eius est sint explicabo,True
198,10,199,numquam repellendus a magnam,True


### TXT

Prostym formatem danych jest TXT. TXT możemy wczytywać z *open* 

https://towardsdatascience.com/an-overview-of-importing-data-in-python-ac6aa46e0889

In [None]:
with open('/Users/kristof/Downloads/sample.txt') as reader:
    print(reader.read())

In [None]:
with open('/Users/kristof/Downloads/sample.txt') as reader:
    data=reader.read()
    

In [None]:
print(data)

Alternatywnie:

In [None]:
file = open("/Users/kristof/Downloads/sample.txt")
data = file.read()
file.close()

In [None]:
data

In [None]:
print(data)

In [None]:
data.split('\n')

### Wczytywanie kilka plików po kolei

Glob: Moduł glob jest użyteczną częścią standardowej biblioteki Pythona. glob (skrót od global) służy do zwracania wszystkich ścieżek plików, które pasują do określonego wzorca. Możemy użyć glob do wyszukania określonego wzorca pliku, a nawet wyszukać pliki, w których nazwa pliku pasuje do określonego wzorca za pomocą symboli wieloznacznych.



https://towardsdatascience.com/the-python-glob-module-47d82f4cbd2d

In [None]:
import glob
path = 'w9'
files = glob.glob(path + '/*.csv')

In [None]:
files

In [None]:
csvs = []
for file in files:
    print(file)
    csv = pd.read_csv(file)
    csvs.append(csv)
    

In [None]:
#csvs

In [None]:
df = pd.concat(csvs, ignore_index=True)

In [None]:
df

## Zadanie
Ściągnij nama_10_gdp_page_linear.csv z https://ec.europa.eu/eurostat/databrowser/view/nama_10_gdp/default/table?lang=en

Zapisz je lokalnie w nowym folderze. Zduplikuj je 2-3 razy żeby folder zawierał kilka plików csv.

Korzystając z glob, przygotuj skrypt który wczytuje pojedynczy pliki po kolei i wykona kolejne operacje:

- usunie kolumnę OBS_FLAG
- zmieni nazwę kolumny OBS_VALUE na gdp
- przekonwertuje TIME_PERIOD na datę
- zapisuje plik jako pickle (pamiętaj, że mamy 3 pliki CSV i potrzebujemy 3 pliki pickle na koniec)



## Dane z Eurostatu

https://ec.europa.eu/eurostat/databrowser/view/tec00118/default/table?lang=en

In [None]:
df=pd.read_csv('/Users/kristof/Downloads/nama_10_gdp_page_linear.csv')
df2=pd.read_csv('/Users/kristof/Downloads/tec00118_page_linear.csv')

In [None]:
pl=df[df['geo']=='PL']

#### Połączmy dane o PKB z inflacją 

Zanim przystąpimy do łączenia (merge), kilka istotnych pytań:

- Czy zakres danych jest identyczny? (dotyczy krajów i lat)
- Które kolumny są istotne?


In [None]:
df.shape


In [None]:
df2.shape 

In [None]:
len(df['geo'].unique())
len(df2['geo'].unique())

In [None]:

for i in df['geo'].unique():
    if i not in df2['geo'].unique():
        print(i)
        

In [None]:
df['TIME_PERIOD'].min()
df2['TIME_PERIOD'].min()

df.columns
df2.columns

df=df.rename(columns={'OBS_VALUE':'GDP'})
df2=df2.rename(columns={'OBS_VALUE':'INF'})



In [None]:
df[['geo', 'TIME_PERIOD', 'GDP']]
df2[['geo', 'TIME_PERIOD', 'INF']]

In [None]:
#Outer join

dfs=pd.merge(df[['geo', 'TIME_PERIOD', 'GDP']],df2[['geo', 'TIME_PERIOD', 'INF']], on=['geo', 'TIME_PERIOD'], how='outer')

##Inner join

dfs2=pd.merge(df[['geo', 'TIME_PERIOD', 'GDP']],df2[['geo', 'TIME_PERIOD', 'INF']], on=['geo', 'TIME_PERIOD'], how='inner')

### Zadanie

Ściągnij dane dot. bezrobocza i połącz z pkb/inflacją (dfs2)

https://ec.europa.eu/eurostat/databrowser/view/tps00203/default/table?lang=en



### World Bank

https://databank.worldbank.org/reports.aspx?source=2&series=EN.ATM.CO2E.KT&country=

In [None]:
df=pd.read_csv('/Users/kristof/Downloads/P_Data_Extract_From_World_Development_Indicators-2/5d88ec92-b911-4f2b-a00e-5ec331e5a2f8_Data.csv')

#### Bardziej problematyczne dane: musimy doprowadzić dane do podobnego formatu, jak w przypadku Eurostat!

In [None]:
#1 usuńmy rzędy, które nie zawierają danych

In [None]:
df['Series Code'].isna()
df=df[df['Series Code'].isna()==False]

In [None]:
#2. zmieńmy format z wide do long

https://pandas.pydata.org/docs/reference/api/pandas.wide_to_long.html

In [None]:
df.columns

In [None]:
#do następnej operacji musimy zmienić nazw kolumn z latami tak,żeby każdy zaczynał się od literki lub kombinacji liter

#list comprehension?

In [None]:
[x for x in df.columns]
[x.split(' ')[1] for x in df.columns if '[' in x]
cols=[x.split(' ')[1].split('[')[1].split(']')[0] for x in df.columns if '[' in x]




In [None]:
[x.split(' ')[1] for x in df.columns if '[' in x]


In [None]:
cols=[x.split(' ')[1].split('[')[1].split(']')[0] for x in df.columns if '[' in x]


In [None]:
df.columns[0]
cols.insert(0, df.columns[0])
cols.insert(1,df.columns[1])
cols.insert(2,df.columns[2])
cols.insert(3,df.columns[3])

In [None]:
# Możemy ręcznie zmienić nazwy kolumn - to może być szybsze.

cols=['Series Name', 'Series Code', 'Country Name', 'Country Code',
       'YR1990', 'YR2000', 'YR2013', 'YR2014',
       'YR2015', 'YR2016', 'YR2017', 'YR2018',
       'YR2019', 'YR2020', 'YR2021', 'YR2022']

In [None]:
df.columns=cols

In [None]:
pd.wide_to_long(df, 'YR','Country Code', 'year')

In [None]:
df=pd.wide_to_long(df, 'YR','Country Code', 'year')

In [None]:
df.columns
df.reset_index(inplace=True, drop=True)
df=df.rename(columns={'YR': 'CO2'})

In [None]:
df.isna()

In [None]:
df['CO2'].iloc[3]


In [None]:
df=df.replace('..', np.nan)
df.isna()

### Zadanie
Ściągnij dane i dostosuj je do odpowiedniego formatu: https://databank.worldbank.org/reports.aspx?source=2&series=BX.KLT.DINV.WD.GD.ZS&country=

