# Formaty plików, brakujące wartości

Julian Zubek, 2015, [DELab UW](http://www.delab.uw.edu.pl/)

## Zapis i odczyt plików

Biblioteka pandas oferuje funkcje do odczytu i zapisu kilku popularnych formatów danych. Zajmiemy się tutaj dwoma z nich: prostym formatem tekstowym CSV (*comma separated values*) oraz arkuszami Excela. Na początek przyjrzymy się funkcji .read_csv

In [2]:
def print_file(path):
    f = open(path, "r")
    print(f.read())
    f.close()
    
print_file("../dane/sample1.csv")

Imię,Nazwisko,Wiek
Jan,Kowalski,31
Anna,Kowal,38



In [3]:
import pandas as pd

pd.read_csv("../dane/sample1.csv")

Unnamed: 0,Imię,Nazwisko,Wiek
0,Jan,Kowalski,31
1,Anna,Kowal,38


W podstawowym wariancie funkcja .read_csv oczekuje pliku tekstowego, w którym pierwsza linia zawiera nazwy kolumn a wartości rozdzielone są przecinkami. Można zmodyfikować domyślne zachowanie podając dodatkowe parametry:

In [4]:
print_file("../dane/sample2.csv")

Jan Kowalski 31
Anna Kowal 38



In [5]:
#sep -- znak separujący wartości
#header -- numer wiersza zawierającego nagłówek lub None w przypadku braku nagłówka
pd.read_csv("../dane/sample2.csv", sep=" ", header=None)

Unnamed: 0,0,1,2
0,Jan,Kowalski,31
1,Anna,Kowal,38


W niektórych sytuacjach możemy chcieć użyć istniejącej kolumny danych jako indeksu rekordów.

In [6]:
print_file("../dane/sample3.csv")

Imię,Nazwisko,PESEL,Wiek
Jan,Kowalski,84072516931,31
Anna,Kowal,77080317124,38



In [7]:
#index_col -- numer kolumny zawierającej indeks rekordów
pd.read_csv("../dane/sample3.csv", index_col=2)

Unnamed: 0_level_0,Imię,Nazwisko,Wiek
PESEL,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
84072516931,Jan,Kowalski,31
77080317124,Anna,Kowal,38


Analogicznie możemy wczytać dokument Excela (uwaga: może wymagać doinstalowania pakietu xlrd):

In [8]:
pd.read_excel("../dane/sample3.xlsx", index_col=2)

Unnamed: 0_level_0,Imię,Nazwisko,Wiek
PESEL,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
84072516931,Jan,Kowalski,31
77080317124,Anna,Kowal,38


W przypadku dokumentu z wieloma arkuszami domyślnie zostanie wczytany pierwszy z nich. Możemy wybrać konkretny arkusz dodając parametr:

In [9]:
pd.read_excel("../dane/sample3.xlsx", sheetname="Arkusz2")

Unnamed: 0,Nr telefonu,Należność
0,6522345,10
1,4325633,20


Do zapisu danych służą metody .to_csv oraz .to_excel:

In [10]:
dane = pd.read_csv("../dane/sample3.csv", index_col=2)
dane.loc[59060917274] = ("Otello", "Nijakiewicz", 56)
dane

Unnamed: 0_level_0,Imię,Nazwisko,Wiek
PESEL,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
84072516931,Jan,Kowalski,31
77080317124,Anna,Kowal,38
59060917274,Otello,Nijakiewicz,56


In [11]:
dane.to_csv("../dane/test.csv")
print_file("../dane/test.csv")

PESEL,Imię,Nazwisko,Wiek
84072516931,Jan,Kowalski,31
77080317124,Anna,Kowal,38
59060917274,Otello,Nijakiewicz,56



In [12]:
dane.to_csv("../dane/test.csv", sep=" ", index=False)
print_file("../dane/test.csv")

Imię Nazwisko Wiek
Jan Kowalski 31
Anna Kowal 38
Otello Nijakiewicz 56



In [13]:
dane.to_excel("../dane/test.xlsx")

## Brakujące wartości

Rzeczywistość nie jest idealna i często opiera się pełnemu liczbowemu opisowi – operując na rzeczywistych danych często spotykamy się z brakującymi wartościami. Tabele pandas również pozwalają na ich obsługę w naturalny sposób.

In [14]:
#na_values -- lista symboli oznaczających brak danych
dane = pd.read_csv("../dane/sample4.csv", na_values=["?"]) 
dane

Unnamed: 0,Imię,Nazwisko,PESEL,Wiek
0,Jan,Kowalski,84072516931.0,31.0
1,Anna,Kowal,77080317124.0,38.0
2,Otello,Nijakiewicz,,


Symbol NaN oznacza brakującą wartość. Możemy sprawdzić, czy wartość istnieje przy pomocy funkcji isnull:

In [15]:
pd.isnull(dane.loc[2, "Wiek"])

True

In [16]:
pd.isnull(dane.loc[1, "Wiek"])

False

In [17]:
dane.isnull()

Unnamed: 0,Imię,Nazwisko,PESEL,Wiek
0,False,False,False,False
1,False,False,False,False
2,False,False,True,True


Puste wartości pozostają neutralne względem większości operacji. Można wykonywać na nich działania arytmetyczne, ale wynikiem jest zawsze pusta wartość.

In [18]:
dane["Wiek"] += 2
dane

Unnamed: 0,Imię,Nazwisko,PESEL,Wiek
0,Jan,Kowalski,84072516931.0,33.0
1,Anna,Kowal,77080317124.0,40.0
2,Otello,Nijakiewicz,,


W końcu, możliwe jest automatyczne wypełnienie brakujących wartości przez wartość wybraną przez nas:

In [19]:
dane.fillna(0)

Unnamed: 0,Imię,Nazwisko,PESEL,Wiek
0,Jan,Kowalski,84072516931,33
1,Anna,Kowal,77080317124,40
2,Otello,Nijakiewicz,0,0


In [20]:
dane["Wiek"] = dane["Wiek"].fillna(30)
dane

Unnamed: 0,Imię,Nazwisko,PESEL,Wiek
0,Jan,Kowalski,84072516931.0,33
1,Anna,Kowal,77080317124.0,40
2,Otello,Nijakiewicz,,30


## Ćwiczenie

Otwórz w edytorze tekstu plik "iris.csv". Zbadaj jego format (separator, nagłówek, oznaczenie brakujących wartości). Wczytaj z niego dane przy pomocy metody pd.read_csv() 

In [22]:
iris = pd.read_csv("../dane/iris.csv", sep=";", na_values=["N/A"])
iris

Unnamed: 0,sepal length,sepal width,petal length,petal width,class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
5,5.4,3.9,1.7,0.4,Iris-setosa
6,4.6,3.4,1.4,0.3,Iris-setosa
7,5.0,3.4,1.5,0.2,Iris-setosa
8,4.4,2.9,1.4,0.2,Iris-setosa
9,4.9,3.1,1.5,0.1,Iris-setosa


## Ćwiczenie

Znajdź liczbę brakujących wartości w danych iris. 

Możemy zastąpić brakujące wartości wartością średnią dla każdej kolumny.