# Wczytanie bibliotek

In [1]:
import numpy as np
import pandas as pd
import re

# PANDAS - wstęp

Jeden z najczęściej pobieranych pakietów Python

https://hugovk.github.io/top-pypi-packages/

Nazwa pochodzi od PANel DAta, danych panelowych używanych w ekonometrii (dane zbierane dla tych samych osób w wielu przedziałach czasowych)

Służy do wczytywania i analizowania danych, w szczególności ramek danych (data frames) i szeregów czasowych

Ma bardzo dobrą wydajność - jest zbudowany w oparciu o pakiet numpy

Ramki danych (data frames) w pandas mają bardzo dużo funkcjonalnośći, można robić nanich operacje typu numpy, typu SQL, prezentować graficznie, itd.


Pandas user guide:
https://pandas.pydata.org/docs/user_guide/index.html

## Plan na dzisiaj:

1. Wczytywanie danych

2. Serie i ramki danych (Series and Data Frames)

3. Indeksowanie

4. Typy danych

5. Filtrowanie

6. Dane jakościowe

7. Zmiana kolumn i wierszy

8. Obsługa obserwacji brakujących

9. Dodawanie/usuwanie wierszy i kolumn

10. Sortowanie

11. Grupowanie i agregacja

12. Dane dotyczące daty i godziny

13. Obsługa dużych danych - dzielenie na kawałki

## 1. Wczytywanie danych

https://grouplens.org/datasets/movielens/

https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html#pandas.read_csv

In [2]:
ratings = pd.read_csv("u.data", sep = "\t", header = None)

In [3]:
ratings

Unnamed: 0,0,1,2,3
0,196,242,3,881250949
1,186,302,3,891717742
2,22,377,1,878887116
3,244,51,2,880606923
4,166,346,1,886397596
...,...,...,...,...
99995,880,476,3,880175444
99996,716,204,5,879795543
99997,276,1090,1,874795795
99998,13,225,2,882399156


In [4]:
ratings = pd.read_csv("u.data", sep = "\t", header = None, names = ["user_id", "item_id", "rating", "timestamp"])

In [5]:
ratings

Unnamed: 0,user_id,item_id,rating,timestamp
0,196,242,3,881250949
1,186,302,3,891717742
2,22,377,1,878887116
3,244,51,2,880606923
4,166,346,1,886397596
...,...,...,...,...
99995,880,476,3,880175444
99996,716,204,5,879795543
99997,276,1090,1,874795795
99998,13,225,2,882399156


In [7]:
ratings.shape

(100000, 4)

In [8]:
ratings.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 4 columns):
 #   Column     Non-Null Count   Dtype
---  ------     --------------   -----
 0   user_id    100000 non-null  int64
 1   item_id    100000 non-null  int64
 2   rating     100000 non-null  int64
 3   timestamp  100000 non-null  int64
dtypes: int64(4)
memory usage: 3.1 MB


In [9]:
ratings.head()

Unnamed: 0,user_id,item_id,rating,timestamp
0,196,242,3,881250949
1,186,302,3,891717742
2,22,377,1,878887116
3,244,51,2,880606923
4,166,346,1,886397596


In [10]:
ratings.head(10)

Unnamed: 0,user_id,item_id,rating,timestamp
0,196,242,3,881250949
1,186,302,3,891717742
2,22,377,1,878887116
3,244,51,2,880606923
4,166,346,1,886397596
5,298,474,4,884182806
6,115,265,2,881171488
7,253,465,5,891628467
8,305,451,3,886324817
9,6,86,3,883603013


In [11]:
ratings.tail()

Unnamed: 0,user_id,item_id,rating,timestamp
99995,880,476,3,880175444
99996,716,204,5,879795543
99997,276,1090,1,874795795
99998,13,225,2,882399156
99999,12,203,3,879959583


In [None]:
# items = pd.read_csv("u.item", sep = "|", header = None)

In [13]:
items = pd.read_csv("u.item", sep = "|", header = None, encoding = "ISO-8859-1")

In [14]:
items.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,14,15,16,17,18,19,20,21,22,23
0,1,Toy Story (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?Toy%20Story%2...,0,0,0,1,1,...,0,0,0,0,0,0,0,0,0,0
1,2,GoldenEye (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?GoldenEye%20(...,0,1,1,0,0,...,0,0,0,0,0,0,0,1,0,0
2,3,Four Rooms (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?Four%20Rooms%...,0,0,0,0,0,...,0,0,0,0,0,0,0,1,0,0
3,4,Get Shorty (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?Get%20Shorty%...,0,1,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,5,Copycat (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?Copycat%20(1995),0,0,0,0,0,...,0,0,0,0,0,0,0,1,0,0


In [15]:
items.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1682 entries, 0 to 1681
Data columns (total 24 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   0       1682 non-null   int64  
 1   1       1682 non-null   object 
 2   2       1681 non-null   object 
 3   3       0 non-null      float64
 4   4       1679 non-null   object 
 5   5       1682 non-null   int64  
 6   6       1682 non-null   int64  
 7   7       1682 non-null   int64  
 8   8       1682 non-null   int64  
 9   9       1682 non-null   int64  
 10  10      1682 non-null   int64  
 11  11      1682 non-null   int64  
 12  12      1682 non-null   int64  
 13  13      1682 non-null   int64  
 14  14      1682 non-null   int64  
 15  15      1682 non-null   int64  
 16  16      1682 non-null   int64  
 17  17      1682 non-null   int64  
 18  18      1682 non-null   int64  
 19  19      1682 non-null   int64  
 20  20      1682 non-null   int64  
 21  21      1682 non-null   int64  
 22  

### Zadanie 1: wczytywanie danych

Wczytaj dane u.genre jako genre i u.users jako users. Ramce users nadaj nazwy kolumn takie jak w opisie README, 
zamiast " " użyj "_". Sprawdź liczbę wierszy i kolumn, wyświetl pierwsze 7 obserwacji. 

In [18]:
genre = pd.read_csv("u.genre", sep = "|", header = None)

In [19]:
genre

Unnamed: 0,0,1
0,unknown,0
1,Action,1
2,Adventure,2
3,Animation,3
4,Children's,4
5,Comedy,5
6,Crime,6
7,Documentary,7
8,Drama,8
9,Fantasy,9


In [20]:
users = pd.read_csv("u.user", sep ="|", header = None, names = ["user_id", "age", "gender", "occupation", "zip_code"])

In [23]:
users.head(7)

Unnamed: 0,user_id,age,gender,occupation,zip_code
0,1,24,M,technician,85711
1,2,53,F,other,94043
2,3,23,M,writer,32067
3,4,24,M,technician,43537
4,5,33,F,other,15213
5,6,42,M,executive,98101
6,7,57,M,administrator,91344


## 2. Serie i ramki danych (Series and Data Frames)

In [24]:
users.columns

Index(['user_id', 'age', 'gender', 'occupation', 'zip_code'], dtype='object')

In [25]:
users["gender"]

0      M
1      F
2      M
3      M
4      F
      ..
938    F
939    M
940    M
941    F
942    M
Name: gender, Length: 943, dtype: object

In [26]:
users["gender"].value_counts()

M    670
F    273
Name: gender, dtype: int64

### krojenie ramek danych (slicing)

In [27]:
users.loc[0:2, "age": "occupation"]

Unnamed: 0,age,gender,occupation
0,24,M,technician
1,53,F,other
2,23,M,writer


In [29]:
users.head(5)

Unnamed: 0,user_id,age,gender,occupation,zip_code
0,1,24,M,technician,85711
1,2,53,F,other,94043
2,3,23,M,writer,32067
3,4,24,M,technician,43537
4,5,33,F,other,15213


In [30]:
users.iloc[0:2, 0:2]

Unnamed: 0,user_id,age
0,1,24
1,2,53


## 3. Indeksowanie

In [31]:
genre = pd.read_csv("u.genre", sep = "|", header = None, index_col = 0, names = ["genre", "label"])

In [32]:
genre

Unnamed: 0_level_0,label
genre,Unnamed: 1_level_1
unknown,0
Action,1
Adventure,2
Animation,3
Children's,4
Comedy,5
Crime,6
Documentary,7
Drama,8
Fantasy,9


In [34]:
genre.loc["Comedy"]

label    5
Name: Comedy, dtype: int64

Posortować po indeksie

In [35]:
genre.sort_index(ascending = False)

Unnamed: 0_level_0,label
genre,Unnamed: 1_level_1
unknown,0
Western,18
War,17
Thriller,16
Sci-Fi,15
Romance,14
Mystery,13
Musical,12
Horror,11
Film-Noir,10


### Zadanie 2: indeksy i nazwy kolumn

W ramce danych items dodaj nazwy kolumn i zmień indeks na movie_id. Zmień indeks w ramce danych users na user_id

In [37]:
cnam = ["movie_id", "movie_title", "release_date", "video_release_date", "IMDb_URL"]

In [38]:
cnam

['movie_id', 'movie_title', 'release_date', 'video_release_date', 'IMDb_URL']

In [46]:
[*genre.index]

['unknown',
 'Action',
 'Adventure',
 'Animation',
 "Children's",
 'Comedy',
 'Crime',
 'Documentary',
 'Drama',
 'Fantasy',
 'Film-Noir',
 'Horror',
 'Musical',
 'Mystery',
 'Romance',
 'Sci-Fi',
 'Thriller',
 'War',
 'Western']

In [40]:
cnam = cnam + [*genre.index.values]

In [42]:
cnam = ["movie_id", "movie_title", "release_date", "video_release_date",
              "IMDb_URL", "unknown", "Action", "Adventure", "Animation",
              "Children's", "Comedy", "Crime", "Documentary" , "Drama" , "Fantasy", 
        "Film-Noir", "Horror", "Musical", "Mystery", "Romance", "Sci-Fi", "Thriller", "War", "Western"]

In [43]:
cnam

['movie_id',
 'movie_title',
 'release_date',
 'video_release_date',
 'IMDb_URL',
 'unknown',
 'Action',
 'Adventure',
 'Animation',
 "Children's",
 'Comedy',
 'Crime',
 'Documentary',
 'Drama',
 'Fantasy',
 'Film-Noir',
 'Horror',
 'Musical',
 'Mystery',
 'Romance',
 'Sci-Fi',
 'Thriller',
 'War',
 'Western']

In [44]:
items.columns = cnam

In [47]:
items.head(3)

Unnamed: 0,movie_id,movie_title,release_date,video_release_date,IMDb_URL,unknown,Action,Adventure,Animation,Children's,...,Fantasy,Film-Noir,Horror,Musical,Mystery,Romance,Sci-Fi,Thriller,War,Western
0,1,Toy Story (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?Toy%20Story%2...,0,0,0,1,1,...,0,0,0,0,0,0,0,0,0,0
1,2,GoldenEye (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?GoldenEye%20(...,0,1,1,0,0,...,0,0,0,0,0,0,0,1,0,0
2,3,Four Rooms (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?Four%20Rooms%...,0,0,0,0,0,...,0,0,0,0,0,0,0,1,0,0


In [48]:
items.set_index("movie_id", inplace = True)

In [49]:
items.head(3)

Unnamed: 0_level_0,movie_title,release_date,video_release_date,IMDb_URL,unknown,Action,Adventure,Animation,Children's,Comedy,...,Fantasy,Film-Noir,Horror,Musical,Mystery,Romance,Sci-Fi,Thriller,War,Western
movie_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,Toy Story (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?Toy%20Story%2...,0,0,0,1,1,1,...,0,0,0,0,0,0,0,0,0,0
2,GoldenEye (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?GoldenEye%20(...,0,1,1,0,0,0,...,0,0,0,0,0,0,0,1,0,0
3,Four Rooms (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?Four%20Rooms%...,0,0,0,0,0,0,...,0,0,0,0,0,0,0,1,0,0


In [51]:
users.set_index("user_id", inplace = True)

In [52]:
users.head(3)

Unnamed: 0_level_0,age,gender,occupation,zip_code
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,24,M,technician,85711
2,53,F,other,94043
3,23,M,writer,32067


### Indeksy hierarchiczne (zagnieżdżone)

In [53]:
ratings.head(3)

Unnamed: 0,user_id,item_id,rating,timestamp
0,196,242,3,881250949
1,186,302,3,891717742
2,22,377,1,878887116


In [54]:
ratings.set_index(["item_id", "user_id"], inplace = True)

In [55]:
ratings.head(5)

Unnamed: 0_level_0,Unnamed: 1_level_0,rating,timestamp
item_id,user_id,Unnamed: 2_level_1,Unnamed: 3_level_1
242,196,3,881250949
302,186,3,891717742
377,22,1,878887116
51,244,2,880606923
346,166,1,886397596


In [56]:
ratings.loc[2]

Unnamed: 0_level_0,rating,timestamp
user_id,Unnamed: 1_level_1,Unnamed: 2_level_1
5,3,875636053
268,2,875744173
276,4,874792436
217,3,889069782
87,4,879876074
...,...,...
798,4,875743787
49,1,888069606
807,4,892978338
886,4,876033368


## 4. Typy danych

https://pbpython.com/pandas_dtypes.html

In [57]:
users.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 943 entries, 1 to 943
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   age         943 non-null    int64 
 1   gender      943 non-null    object
 2   occupation  943 non-null    object
 3   zip_code    943 non-null    object
dtypes: int64(1), object(3)
memory usage: 36.8+ KB


In [58]:
users["gender"] = users["gender"].astype("category")

In [59]:
users.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 943 entries, 1 to 943
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype   
---  ------      --------------  -----   
 0   age         943 non-null    int64   
 1   gender      943 non-null    category
 2   occupation  943 non-null    object  
 3   zip_code    943 non-null    object  
dtypes: category(1), int64(1), object(2)
memory usage: 30.5+ KB


## 5. Filtrowanie

Porównania > < >= <=

Kilka wartości zmiennej jakościowej

### Operacje na obiektach typu string

regular expressions

### Zadanie 3: filtrowanie

Sprawdź, ile części Ojca Chrzestnego jest w zbiorze danych.

## 7. Zmiana kolumn i wierszy

### Zadanie 4: zmiana kolumn

Dla danych users, zmiennej gender zamień skróty literowe na słowa: 
    F na Female, M na Male

## 9. Dodawanie/usuwanie wierszy i kolumn

### Zadanie 5: dodawanie/usuwanie wierszy

Do ramki danych items dodaj kolumnę year, w której będzie rok wydania filmu typu integer. 
Jeżeli kolumna video_release_date zawiera same braki danych, usuń ją.

## 10. Sortowanie

### Zadanie 6: sortowanie

Znajdź 20 najmłodszych użytkowników w ramce danych users.

## 11. Grupowanie i agregacja

agregacja

grupowanie

splitting (dzielenie na grupy wedug zadanego kryterium)

applying (użycie fcji do każdej z grup niezależnie)

combining (łączenie wyników)

### Zadanie 7

Policz:

    - jaka jest łączna liczba filmów w danych?
    
    - jakie gatunki filmowe są w zbiorze najczęstsze?
    
    - jaki jest wiek osób w zalezności od płci - policz medianę i średnią
    
    - jaki jest rozkład średnich ocen w zbiorze - znajdź średnią, odchylenie standardowe, kwartyle, maximum i minimum
   

merge

https://towardsdatascience.com/3-key-differences-between-merge-and-concat-functions-of-pandas-ab2bab224b59

### Zadanie 8: najlepszy film często oceniany

Znajdź najlepiej oceniany film pośród filmów ocenianych co najmniej 100 razy.

### Zadanie 9

Kobiety czy mężczyźni oceniają częściej/wyżej? Jaki rozkład częstości ocen jest w grupach wiekowych?

## 12. Dane dotyczące daty i godziny

## 13. Obsługa dużych danych - dzielenie na kawałki