# Lab 2 - biblioteka pandas: przetwarzanie danych

Pandas jest biblioteką języka Python umożliwiającą przetwarzanie i wizualizację danych. Dzięki wygodnemu i przejrzystemu interfejsowi, jest jednym z najczęściej wykorzystywanych rozwiązań w analizie danych. 

## Instalacja

W celu instalacji biblioteki pandas należy użyć polecenia **pip install pandas**.

## Pierwsze kroki z biblioteką Pandas

Biblioteka pandas jest narzędziem zewnętrznym, więc w pierwszej kolejności należy ją zaimportować:

In [None]:
import pandas as pd  

### Wczytywanie danych

Dane w celu ich przeanalizowania powinny zostać wczytane z dowolnego zewnętrznego źródła. Jednym z najpopularniejszych formatów transferu ustraukturyzowanych danych są pliki csv. Można je wczytać za pomocą funkcji read_csv z pakietu pandas.

In [None]:
movie: pd.DataFrame = pd.read_csv('movie.csv')  

Dane z pliku csv zostały wczytane do obiektu klasy DataFrame, czyli ramki danych w formie tabeli. Wczytane dane można wyświetlić w łatwy sposób, przy użyciu notatnika Jupyter:

In [None]:
movie  

Ramka danych składa się z nazwanych kolumn oraz z indeksów wierszy w zakresie od 0 do 4915.

W przypadku gdy ramka danych zawiera wiele wierszy, można wykorzystać metodę head wywołaną na obiekcie klasy DataFrame, która wyświetli tylko n pierwszych wierszy:

In [None]:
movie.head(n=3)  

Analogicznie metoda tail wyświetli n ostatnich wierszy:

In [None]:
movie.tail(n=4) 

Plik movie.csv został wczytany za pomocą funkcji read_csv przy wskazaniu jedynie ścieżki. Funkcja read_csv udostępnia więcej opcji, które umożliwiają personalizację wczytywania danych. Przykładowo, plik csv jest klasycznym plikiem tekstowym, w którym wartości są odseparowane dowolnym znakiem. Pliki csv mogą również posiadać nagłówki kolumn, które nie różnią się niczym od pozostałych wierszy. Poniżej znajduje się przykład wczytania zbioru z pliku movies.csv przy jawnym wskazaniu parametrów charakteryzujących zawartość, takich jak separator w postaci przecinka, czy nagłówek w wierszu 0:

In [None]:
movie: pd.DataFrame = pd.read_csv('/content/movie.csv', sep=',', header=0)  

Parametr sep wskazuje separator wartości w pliku csv, którego domyślną wartością jest przecinek. Argument header jest przeznaczony do wskazywania pozycji wiersza nagłówkowego w pliku csv. Jeżeli nagłówek nie istnieje, należy w parametrze header przekazać wartość None, a nazwy kolumn zostaną dopasowane automatycznie. 

### Reprezentacja kolumn oraz wierszy w ramce

W celu uzyskania listy nazw kolumn należy użyć atrybutu columns na obiekcie klasy DataFrame:

In [None]:
movie.columns  

W podobny sposób można uzyskać indeksy (lub nazwy) wierszy:

In [None]:
movie.index 

W przypadku zbioru filmów, wiersze są opatrzone indeksami numerycznymi w zakresie od 0 do 4915 włącznie. Istnieje jednak możliwość nadania dowolnych (w tym tekstowych) indeksów wierszom w ramce.

### Typy wartości w kolumnach ramki danych

W celu sprawdzenia typów danych, które znajdują się w poszczególnych kolumnach należy użyć atrybutu dtypes wywołanego na obiekcie DataFrame:

In [None]:
movie.dtypes  

Metoda value_counts jest przeznaczona do zliczania częstości wystąpień poszczególnych wartości. Można ją z powodzeniem zastosować w podsumowaniu częstości występowania typów danych w konkretnych kolumnach:

In [None]:
movie.dtypes.value_counts()  

### Parametry statystyczne kolumn w ramce

Za pomocą metody describe wywoływanej na obiekcie klasy DataFrame można uzyskać informacje o podstawowych parametrach statystycznych kolumn zawierających wartości numeryczne:

In [None]:
movie.describe()  

## Wybieranie kolumn

Istnieje kilka sposobów na wybór kolumn z ramki danych:

In [None]:
col: pd.Series = movie['genres']  

col

In [None]:
movie.genres 

Kolumny w ramkach danych opatrzone są typem Series, co oznacza że składają się z wartości opatrzonych indeksami wierszy z ramki. Oba sposoby wybierania kolumn zapewniają taki sam efekt, jednak użycie operatora kropki wyklucza wybór kolumny zawierającej w nazwie np. spację.

W podobny sposób można wybrać wiele kolumn z ramki danych przekazując listę ich nazw:

In [None]:
movie[['actor_1_name', 'actor_2_name', 'actor_3_name']].head()  

### Wybór kolumn według typu danych

Kolumny z ramki można również wybrać na podstawie charakteru danych, które się w nich znajdują. Służy do tego metoda select_dtypes wywoływana na obiekcie klasy Dataframe.

In [None]:
movie.select_dtypes(include=['float']).head()  

### Wybór kolumn według frazy w nazwie

Metoda filter wywoływana na obiekcie klasy DataFrame zwróci ramkę danych z kolumnami, które zawierają wskazanę frazę za pomocą parametru like:

In [None]:
movie.filter(like='facebook').head()  

## Praca z wartościami wybrakowanymi

Niektóre wartości w kolumnach ramki mogą być wybrakowane. Metoda isnull wywołana na obiekcie klasy Series zwróci serię wartości logicznych odpowiadających temu czy dana wartośc w kolumnie jest wybrakowana czy nie:

In [None]:
movie['genres'].isnull()  

Za pomocą metody any wywołanej na powstałej w ten sposób ramce można sprawdzić czy występuje tam przynajmniej jedna wartość prawdziwa:

In [None]:
movie['genres'].isnull().any()  

Metoda all umożliwia sprawdzenie czy w ramce występują tylko i wyłącznie wartości prawdziwe.

Jeżeli w kolumnie występują wartości wybrakowane, można je uzupełnić wskazaną wartością, np. zerem:

In [None]:
movie['actor_1_facebook_likes'].fillna(0)  

Aby umieścić wartości wybrakowane w oryginalnej ramce danych należy użyć metody fillna na obiekcie klasy DataFrame przekazując jako parametr słownik mapujący nazwy kolumn na wartości, którymi mają zostać zastąpione wartości wybrakowane:

In [None]:
movie.fillna({  
    'actor_1_facebook_likes': 200,
    'actor_3_facebook_likes': 100,
})  

## Arytmetyka serii danych

Na obiektach klasy Series można stosować podstawowe operatory arytmetyczne. Przykładowo, do pięciu pierwszych wierszy kolumny imdb_score zostanie dodana wartość 1:

In [None]:
movie['imdb_score'].head()  

In [None]:
movie['imdb_score'].head() + 3 

W analogiczny sposób można dokonywać innych operacji arytmetycznych, takich jak odejmowanie, mnożenie, dzielenie.

## Operacje logiczne na serii danych

W wyniku operacji na ramkach danych, zostanie zwrócona nowa ramka zawierająca wartości logiczne będące wynikiem dokonanej operacji. Przykładowo, sprawdzenie czy 5 pierwszych wartości w kolumnie imdb_score są większe od 7.5:


In [None]:
movie['imdb_score'].head() > 7.5  

W analogiczny sposób można dokonywać operacji logicznych porównania, większości, mniejszości itd.

## Ustawianie indeksów w ramce danych

Metoda set_index umożliwia ustawienie wskazanej kolumny jako indeks ramki:

In [None]:
movie_new_idx: pd.DataFrame = movie.set_index('movie_title')  

movie_new_idx

Taki sam efekt można uzyskać wskazując nazwę kolumny przy wczytywaniu pliku csv (funkcja read_csv) w parametrze index_col.

## Zmiana nazw kolumn oraz indeksów wierszy

W tym celu należy użyć metody rename wywołanej na obiekcie klasy DataFrame przekazując słowniki mapujące stare nazwy na nowe:

In [None]:
from typing import Dict

idx_rename: Dict[str, str] = {  
    'Avatar': 'Avatar II',
    'Spectre': 'Spectre II',
}

col_rename: Dict[str, str] = {  
    'director_facebook_likes': 'Director FB likes',
    'num_critic_for_reviews': 'Num critic for reviews',
}

movie_new_idx = movie_new_idx.rename(index=idx_rename, columns=col_rename)  

movie_new_idx.head(n=7)  

## Tworzenie nowych kolumn

Kolumnę ze stałymi wartościami (np. 100) można dodać następująco: (kolumna znajdzie się na końcu ramki)

In [None]:
movie_new_idx['visits_num'] = 100  

movie_new_idx.head()

Biblioteka pandas umożliwia również tworzenie nowych kolumn w ramce na podstawie istniejących. Przykładowo, będzie to kolumna sumująca wszystkie lajki uzyskane przez aktorów i reżysera:

In [None]:
movie_new_idx['total_facebook_likes'] = (movie_new_idx['actor_1_facebook_likes'] + movie_new_idx['actor_2_facebook_likes'] + movie_new_idx['actor_3_facebook_likes'] + movie_new_idx['Director FB likes'])

movie_new_idx.head() 

## Usuwanie kolumn

Do usuwania kolumn z ramki danych można wykorzystać instrukcję del:

In [None]:
del movie_new_idx['color']  

movie_new_idx.head()

## Wybór wierszy

Za pomocą atrybutu tablicowego loc ramki danych można wskazać wiersz lub wiersze do wyboru wskazując indeks:

In [None]:
movie_new_idx.loc['Avatar II']

In [None]:
movie_new_idx.loc[['Avatar II', 'Spectre II']]  

Jeżeli ramka danych posiada indeks numeryczny, w atrybucie loc wystarczy wskazać numeryczne pozycje wierszy:

In [None]:
movie.loc[[0, 1, 2]]  

Atrybut tablicowy iloc (podobnie jak w bibliotece NumPy) służy do wybierania wierszy i kolumn wskazując ich pozycje numerycznie:

In [None]:
movie_new_idx.iloc[0:10, :]  

In [None]:
movie_new_idx.iloc[:, 3:7]  

## Zadania

1. Wczytać zbiór danych z pliku movie_new.csv do ramki movie_new. Przy użyciu parametru names funkcji read_csv nadać następujące nazwy kolumnom: color,director_name,num_critic_for_reviews,duration,director_facebook_likes,actor_3_facebook_likes,actor_2_name,actor_1_facebook_likes,gross,genres,actor_1_name,movie_title,num_voted_users,cast_total_facebook_likes,actor_3_name,facenumber_in_poster,plot_keywords,movie_imdb_link,num_user_for_reviews,language,country,content_rating,budget,title_year,actor_2_facebook_likes,imdb_score,aspect_ratio,movie_facebook_likes.

2. Utworzyć ramkę movie_num, w której będą zawarte jedynie kolumny z wartościami typu numerycznego.

3. Wypełnić brakujące wartości w ramce movie_num średnią arytmetyczną wyznaczoną dla każdej kolumny z osobna. 

4. Znaleźć kolumnę w ramce movie_num, której wartości mają największe odchylenie standardowe.

5. Zastąpić kolumny numeryczne w ramce movie_new nowymi kolumnami z ramki movie_num.

6. Zastąpić wszystkie wartości wybrakowane w ramce movie_new za pomocą pierwszej wartości występującej w kolumnie.

7. Nadać nowe indeksy wierszom w ramce movie_new według następującego schematu: [imie i nazwisko rezysera] - [tytul filmu].

8. Zwiększyć wartość kolumny imdb_score każdego filmu w ramce movie_new o 1.

9. Zmienić nazwy wszystkich kolumn w ramce movie_new w taki sposób aby zlikwidować wszystkie znaki _ oraz pierwsze litery wszystkich słów w nazwach były wielkie.

10. Utworzyć ramkę movie_random, w której zostaną wybrane wiersze o losowej ilości w zakresie pozycji [start, end], gdzie start i end będą liczbami pseudolosowymi.

11. Zwiększyć wartości każdej kolumny numerycznej w ramce movie_random o wartość pseudolosową (po jednej wartości na kolumnę).