# Wczytywanie i zapisywanie danych

`pandas` potrafi wczytywać i zapisywać dane w bardzo wielu formatach. Wydaje się, że najpopularniejsze formaty to pliki Excela (z rozszerzeniem `.xlsx`) oraz pliki CSV (*comma separated values*). W tej części nauczymy się jak wczytywać je za pomocą `pandas`. Na koniec notatnika wspomnimy również krótko o innych formatach (które w zależności od dyscypliny naukowej mogą być nawet częściej spotykane niż Excel i CSV).

In [1]:
import pandas as pd

## Wczytywanie danych w podstawowych formatach: `csv` i pliki Excela

### CSV

Do wczytania danych z pliku `csv` najlepiej użyć funkcji `read_csv` znajdującej się w pakiecie `pandas`. Najczęściej mamy do czynienia z danymi w standardowym formacie, gdzie separatorem kolejnych pól jest `,` a separatorem dziesiętnym jest kropka. Wczytajmy więc dane dotyczące ocen studentów:

In [18]:
data = pd.read_csv('csv_simple.csv') # podajemy nazwę pliku
data

Unnamed: 0,imię i nazwisko,rok studiów,ocena
0,Katarzyna Kowalska,I,4.0
1,Przemysław Nowak,II,3.0
2,Jan Grzybowski,III,4.5


W niektórych krajach Europy (np. w Polsce) przyjmuje się jednak, że znakiem separatora dziesiętnego jest przecinek. Innymi słowy - liczbę cztery-i-pół zapisujemy jako 4,5 (a nie 4.5). Wtedy zazwyczaj jako separatora pól używa się średnika. Wczytajmy nasze dane zapisane w "europejskim" formacie. Dodatkowym problemem jest to, że nie ma w nich nagłówka.

In [20]:
data = pd.read_csv('csv_noheader_comma.csv', # nazwa pliku
                   sep=';', # separator pól
                   header = None, # header=None oznacza, że nie chcemy pierwszego wiersza jako nagłówka
                   decimal = ',') # separator dziesiętny, w Polsce przecinek!
data

Unnamed: 0,0,1,2
0,Katarzyna Kowalska,I,4.0
1,Przemysław Nowak,II,3.0
2,Jan Grzybowski,III,4.5


### XLSX

Do wczytania danych z pliku `xls(x)` najlepiej użyć funkcji `read_excel` znajdującej się w pakiecie `pandas`.

In [26]:
data = pd.read_excel('xlsx_simple.xlsx')
data

Unnamed: 0,Nazwa Pokemona,Typ,Wartość bojowa
0,Pikachu,elektryczny,10
1,Pichu,elektryczny,8
2,Mewtwo,psychiczny,22


Arkusze kalkulacyjne Excela miewają kilka arkuszu w jednym pliku. Aby wczytać dane z jakiegoś określonego arkusza musimy posłużyć się opcją `sheet_name`.

In [30]:
data = pd.read_excel('xlsx_simple.xlsx', sheet_name='Arkusz2')
data

Unnamed: 0,Nazwa Pokemona,Typ,Wartość użytkowa
0,Lapras,wodny,22
1,Poliwag,wodny,21


### Niekompletne obserwacje

Jeżeli wczytujemy dane, w których mamy jakieś niekompletne obserwacje (tzn. dla niektórych obserwacji mamy brakujące wartości) to warto przy wczytywaniu powiedzieć `pandas` jak one są oznaczone w oryginalnym pliku. W trzecim arkuszu pliku `xlsx_simple.xlsx` mamy listę Pokemonów. Niektóre z nich w kolumnie "status" mają znak zapytania, którym oznaczyłem brakującą wartość. Możemy za pomocą argumentu `na_values` powiedzieć, jakie wartości mają być traktowane jako oznaczenie braków (tutaj na przykładzie Excela ale działa z każdym rodzajem plików).

In [32]:
data = pd.read_excel('xlsx_simple.xlsx', 
                     sheet_name='Arkusz3',
                    na_values=['?'])
data

Unnamed: 0,Nazwa Pokemona,Typ,Status
0,Mew,psychiczny,
1,Celebi,roślinny,złapany


## Zapisywanie danych w podstawowych formatach: `csv` i pliki Excela

### CSV

Jeśli chcemy zapisać ramkę danych (`DataFrame`) w pliku CSV, musimy wywołać na niej metodę `to_csv(nazwa_pliku)`. Funkcja ta przyjmuje mniej-więcej te same argumenty co `read_csv`, więc możemy ustalić przy zapisywaniu separator dziesiętny, nagłówki itp.

In [37]:
data = pd.DataFrame({'Nazwa pokemona' : ['Slowbro'],
                     'Miejsce w rankingu' : [2]
                    })
data.to_csv('ranking_pokemonów.csv', 
            index = False) # jeśli nie mamy jakiegoś określonego indeksu nie warto go zapisywać
data

Unnamed: 0,Nazwa pokemona,Miejsce w rankingu
0,Slowbro,2


### XSLX

Pliki Excela zapisujemy analogiczne używając metody `to_excel(nazwa_pliku)`

In [38]:
data.to_excel('ranking_pokemonów.xlsx', 
              sheet_name='ranking') # nie musimy podawać, ale możemy

## Inne formaty

W standardzie `pandas` oferuje obsługę szeregu formatów z danymi. Ich pełna lista i informacje o odpowiednich funkcjach znajduje się w dokumentacji: https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html

# Nie moge wczytać danych! Co zrobić?

Jest kilka możliwości postępowania.

## Chodzi o plik z SPSSa lub z innego programu statystycznego

Generalnie jeśli nie ma tego w standardzie `pandas`, to funkcje z tego pakietu powinny dać radę: https://github.com/Roche/pyreadstat

In [79]:
import pyreadstat
df, meta = pyreadstat.read_sav("semantic_prosody_utterly_totally_Daniel.sav")
df.columns = meta.column_names
df.head()

Unnamed: 0,V1,V2,V3,V4,V5,V6,V7,V8,V9,V10,...,t_competent,t_confident,t_intel,t_capable,t_efficient,t_skillful,tval,Q29,age,gender
0,R_2mWfZJ9VaGH3fj7,Default Response Set,Anonymous,,,removed,0,2014-08-04 08:55:55,2014-08-04 08:59:25,1.0,...,,,,,,,,1.0,25.0,2.0
1,R_50zAgUhb6Wufh7n,Default Response Set,Anonymous,,,removed,0,2014-08-04 08:56:42,2014-08-04 08:59:44,1.0,...,3.0,3.0,4.0,4.0,3.0,4.0,5.0,1.0,19.0,1.0
2,R_1RkGNnicRpNWvhX,Default Response Set,Anonymous,,,removed,0,2014-08-04 08:56:59,2014-08-04 09:03:47,1.0,...,,,,,,,,1.0,32.0,2.0
3,R_dosxrkXUVIAqwDj,Default Response Set,Anonymous,,,removed,0,2014-08-04 08:57:23,2014-08-04 09:02:27,1.0,...,3.0,3.0,3.0,3.0,3.0,3.0,4.0,1.0,31.0,1.0
4,R_2nkqcrfLSiFlcKV,Default Response Set,Anonymous,,,removed,0,2014-08-04 08:57:34,2014-08-04 09:02:07,1.0,...,,,,,,,,1.0,34.0,1.0


## To jakiś dziwny plik tekstowy

Jeśli to jakiś dziwny plik tesktowy, to należy spróbować funkcji `read_table` z pakietu `pandas`. Jeżeli nie zadziała, to trzeba plik otworzyć w edytorze tekstu i przyjrzeć się temu formatowi. Trzeba wywnioskować z treści pliku:
+ jaki znak lub ciąg znaków jest separatorem pola (jeśli to tabulator to zapisujemy go jako `\t`) i ustawić go jako `sep`
+ jaki znak lub ciąg znaków jest używany jako separator dziesiętny i ustawić go jako `decimal`
+ czy w pliku jest nagłówek, jeśli nie to nie wczytywać go (`header=None`)
+ jaki jest znak używany jako cudzysłów (`quotechar="'"`)
+ czy wszystkie linijki w pliku są danymi - jeśli nie, to można je pominąć za pomocą `skiprows` i `skipfooter`

Generalnie musimy pobawić się w detektywa i skonstruować odpowiednie wywołanie `read_table` lub `read_csv`.