# Pozyskiwanie , przetwarzanie i przechowywanie danych
___

### Odczyt i zapis plikow CSV za pomoca NumPy
___
* `genfromtxt()` - pozwala na odczytywanie danych
> **Atrybuty:**
> * `fname` - (*przyjmuje lancuch znakow*); nazwa pliku lub sziezka do pliku
> * `delimiter` - (*przyjmuje lancuch znakow*); wartosc rozdzilajace lancuch znakow
> * `skip_header` - (*przyjmuje liczbe calkowita*); parametr okreslajacy liczbe wierszy, ktorze chcesz pominac na poczatki pliku

* `savetxt()` - pozwala zapisac dane do pliku

##### Oczyt pliku za pomoca funkcji `genfromtxt ()`

In [16]:
#importuje funkjce genfromtxt
from numpy import genfromtxt

#odczytuje plik csv
product_data = genfromtxt('data/csv/demo.csv', delimiter = ',')
print(product_data)

[[14. 32. 33.]
 [24. 45. 26.]
 [27. 38. 39.]]


##### Zapis pliku za pomoca funkcji `savetxt()`

In [15]:
import numpy as np

#tworze przykladowe dane
sample_array = np.array([ [3,4,5], [6,7,8,], [9,10,11] ])

#zapisuje dane
np.savetxt("data/csv/my_first_demo.csv",sample_array, delimiter= ',')

### Odczyt i zapis plikow CSV za pomoca Pandas
___
* `read_csv()`- sluzy do odczyty plikow csv
> **Atrybuty:**
> * `filepath_or_buffer` - sciezka odczytywanego pliku lub jego adres URL
> * `sep` - wyznacza sepataror w lancuchu znakow. Domyslnym jest ','
> * `header` - sluzy do rozpoznawania nazw kolumn. Domyslna wartosc infer
> * `names` - moge tu wprowadzic liste nazw kolumn. Domyslna wartosc None
* `to_csv()`- sluzy do zapisu plika csv
> **Atrybuty:**
> * `path_or_buf` - sciezka pliku lub lokacje dok ktroteg plik bedzie eksportowany
> * `sep` - separator plikow wejscowych
> * `header` - pozwala umieszczac nazwy kolumn. Domyslna wartosc True
> * `index` - zapisuje indeks do pliku. Domyslna wartosc True

##### Oczyt pliku za pomoca funkcji `pd.read_csv ()`

In [36]:
import pandas as pd

sample_df = pd.read_csv('data/csv/demo.csv', sep = ',', header = None)
sample_df.head()

Unnamed: 0,0,1,2
0,14,32,33
1,24,45,26
2,27,38,39


##### Zapis pliku za pomoca funkcji  `to_csv()`

In [26]:
# Zapisuje obiekt DataFrame w pliku csv
sample_df.to_csv('data/csv/demo_sample_df.csv')

### Odczyt i zapis plikow arkusz kalkulacyjnego Excel
____
* `pd.read_exce()` - sluzy do otrzytania odczytania Excela 
* `df.to_excel()`- sluzy do zapisywanie pliku do Excela
> Atrybut:
> `sheet_name()`- nazwa akrusza

 ##### Oczyt pliku za pomoca funkcji `pd.read_excel()`

In [33]:
import pandas as pd

df = pd.read_excel('data/excel/employee.xlsx', sheet_name = 'performance')
df.head()

Unnamed: 0,name,performance_score
0,Allen Smith,723
1,S Kumar,520
2,Jack Morgan,674
3,Ying Chin,556
4,Dheeraj Patel,711


##### Zapis pliku za pomoca funkcji  `to_excel()`

In [37]:
df.to_excel('data/excel/employee_performance.xlsx')

##### Mozemy takze zapisac wieksza liczbe obiektow DataFrame w jednym pliku Excela (kazda ramka danych w osobobym akruszu) za pomoca funkcji `with pd.ExcelWriter("file") as writer:`

In [50]:
emp_df = pd.read_excel('data/excel/employee.xlsx', sheet_name = 'employee_details')
emp_df.head()

with pd.ExcelWriter('data/excel/new_employee_details.xlsx') as writer:
    emp_df.to_excel(writer,sheet_name = 'employee')
    df.to_excel(writer, sheet_name = 'performance')

### Odczyt i zapis plikow JSON
___
**JSON(ang. JavaScript Object Notation)** - stanowi format wymiany danych pomiedzy aplikacjami siecowymi a serwerami.

* `pd_read_json()`- sluzy do otczytania plikow w formacie json
* `to_json()` - sluzy do zapisywania plikow w formacie json

 ##### Oczyt pliku za pomoca funkcji `pd.read_json()`

In [15]:
import pandas as pd

df = pd.read_json("data/json/employee.json")
df.head()

Unnamed: 0,name,age,income,gender,department,grade
0,Allen Smith,45.0,,,Operations,G3
1,S Kumar,,16000.0,F,Finance,G0
2,Jack Morgan,32.0,35000.0,M,Finance,G2
3,Ying Chin,45.0,65000.0,F,Sales,G3
4,Dheeraj Patel,30.0,42000.0,F,Operations,G2


##### Zapis pliku za pomoca funkcji  `to_json()`

In [13]:
# Zapisuje file w formacie json , jako obiekt DataFrame
df.to_json("data/json/employee_demo.json", orient= "columns")

### Odczyt i zapis plikow HDF5
___
Skrot *HDF* oznacza **hierarchiczny format danych**. Cechuje ten format duza przepustowosc wejscia/wyjscia, mozliwosc przechowywania heterogenicznych danych.
* `pd.read_hdf()` - odczyt plikow hdf5
* `to_hdf()`- zapis plikow hdf5

##### Zapis pliku hdf5 
* `'table'`- sluzy do wyznaczania formatu tabelarycznego. Format tem moze byc wolnejszy ale gwarantuje wieksze mozliwosc np. wyszukiwanie i wybieranie. 
* `append = True` - umozliwia dolaczenia wprowadzonych danych juz do istniejacego pliku

In [17]:
#Zapisuje obiekt DataFrame w pliku hdf5
df.to_hdf("data/hdf5/employee.h5", 'table', append = True)

##### Odczyt pliku hdf5

In [22]:
df = pd.read_hdf("data/hdf5/employee.h5", 'table')
df.head()

Unnamed: 0,name,age,income,gender,department,grade
0,Allen Smith,45.0,,,Operations,G3
1,S Kumar,,16000.0,F,Finance,G0
2,Jack Morgan,32.0,35000.0,M,Finance,G2
3,Ying Chin,45.0,65000.0,F,Sales,G3
4,Dheeraj Patel,30.0,42000.0,F,Operations,G2


### Odczyt i zapis danych z table HTML-a
___
* `read_html()` - odczytuje table HTML z pliku lub adresu URL i zwraca tabele HTML-a w formie listy obiektow DataFrame

In [30]:
table_url = 'https://en.wikipedia.org/wiki/List_of_sovereign_states_and_dependent_territories_in_North_America'
dr_list = pd.read_html(table_url)

#Wypisuje ile wogole jest tablic na danej stonie internetowej
print(f"Liczba ramek: ",{len(dr_list)})

#wypisuje pierwsza tablice
dr_list[0].head()

Liczba ramek:  {8}


Unnamed: 0,Flag,English short name,English long name,Domestic short name(s),Capital,Currency,Population
0,,Antigua and Barbuda[n 1],Antigua and Barbuda,English: Antigua and Barbuda,St. John's,East Caribbean dollar,97118
1,,"Bahamas, The[n 1]",Commonwealth of The Bahamas,English: Bahamas,Nassau,Bahamian dollar,389482
2,,Barbados[n 1],Barbados,English: Barbados,Bridgetown,Barbadian dollar,287025
3,,Belize[n 1][n 2],Belize,English: Belize,Belmopan,Belize dollar,390353
4,,Canada[n 3],Canada,English: CanadaFrench: Canada,Ottawa,Canadian dollar,35151728


In [32]:
##### Zapis obiektu DataFrame w formacie html
dr_list[1].to_html('data/html/country.html')

### Opis i zapis plikow Parquent
___
format pliku Parquent umozliwia kolumnowa serializajce obiektow DataFrame, pozwala na wyjadne odczytywanie i zapisywanie ramek danych.
* `pd.read_parquent()` i silinik `pyarrow`- sluzy do odczytywania pliku parquent
* `df.to_parquent()` i silinik `pyarrow`- sluzy do zapisywanie pliku parquent

#####  Odczyt pliku parquent za pomoca funkcji `pd.read_parquent()` i silnika `pyarrow`

In [1]:
import pandas as pd

data = pd.read_parquet("data/employee.parquet", engine = "pyarrow")
data.head()

Unnamed: 0,name,age,income,gender,department,grade
0,Allen Smith,45.0,,,Operations,G3
1,S Kumar,,16000.0,F,Finance,G0
2,Jack Morgan,32.0,35000.0,M,Finance,G2
3,Ying Chin,45.0,65000.0,F,Sales,G3
4,Dheeraj Patel,30.0,42000.0,F,Operations,G2


##### Zapis pliku parquent za pomoca funkcji pd.read_parquent() i silnika pyarrow

In [2]:
data.to_parquet("data/employee.parquet", engine = 'pyarrow')

### Odczyt i zapis plikow w formacie pickle
___
Biblioteka pandas zawiera dwie funkjci dla formaty pickle:
* `pd.read_pickle` - odczyt pliku w formacie pickle
* `to_pickle` - zapis pliku w formacie pickle

##### Odczyt pliku pickle

In [7]:
import pandas as pd

df = pd.read_pickle("data/pickle/demo_obj.pkl")
df.head()

Unnamed: 0,0,1,2
0,14,32,33
1,24,45,26
2,27,38,39


##### Zapis pliku pickle

In [9]:
df.to_pickle("data/pickle/demo_obj.pkl")

#### Latwty dostep do danych za pomoca modulu sqlite3
___
SQLite jest otwartym silnikiem bazodanowym. jest to najpopularniejszy typ bazy danych. Dzieki modulu `sqlite3` moge przechowywac baze danych w pliku lub w pamieci RAM. Mam takze mozliwosc zapisywania danych w dowolnej bazie danych wykorzystujacej jezyk SQL, bez koniecznosci uzywania osobnego serwera aplikacji bazodanowej. 

In [35]:
#imporuje modul 
import sqlite3

#tworze polaczenia z baza danych pracownikow. Jezeli baza danych nie istnieje, to zostanie utworzona.
conn = sqlite3.connect("data/employeee.db")

#tworzy kursor
cur = conn.cursor()

#realizuje kwerende SQL i tworze tabele bazodanowo:
cur.execute("create table emp(eid int, salary int)")

<sqlite3.Cursor at 0x7f99b481e8f0>

In [36]:
#realizuje kwerende SQL i zapisuje dane w bazie danych:
cur.execute("insert into emp values(104, 57001)")

<sqlite3.Cursor at 0x7f99b481e8f0>

In [37]:
# wprzeprowadzam transakcje
conn.commit()

In [38]:
# Realizuje kwerende SQL i odczytyje dane:
cur.execute("select * from emp")

<sqlite3.Cursor at 0x7f99b481e8f0>

In [39]:
# Pobiera rekordy
print(cur.fetchall())

[(104, 57001)]


In [40]:
#Zamyka polacznia bazodanowe
conn.close()


> * 1. tworzy polaczenia z baza danych , za pomoca funkjci `sqlite3.connect('nazwa.db")``, jezeli taka baza nie istnieje to nia tworze 
 > * 2. dalej musze otworzyc obiekt **Cursor** za pomoca funkcji `cursor()` 
 > * 3. za pomoca metody `execute()`realizuje kwerendy SQL-a
 > * 4. za pomoca metody `commit()` zatwiedzam dabe w bazie danych
 > * 5. za pomoca metody `tetchall()`  pobieram kwerende
 > * 6. zamykam polacznenia za pomoca `close()`


### Odczyt i zapis danych w bazie MySQL
___
klasa `mysql-python`, `mysqlconnector`, `pymysql` - udostepniaja mozliwosc dostepu do danych Pythona z poziomu MySQL-a

In [23]:
import pymysql 

connection = pymysql.connect(
    host = 'localhost',
    user = 'root',
    password = 'root',
    db = 'emp',
    cursorclass = pymysql.cursors.DictCursor
)

OperationalError: (2003, "Can't connect to MySQL server on 'localhost' ([Errno 61] Connection refused)")

# 