# Ocena czasu potrzebnego na dekodowanie filmu

Na podstawie zbioru (https://archive.ics.uci.edu/dataset/335/online+video+characteristics+and+transcoding+time+dataset)

In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

## Opis danych wejściowych i ich analiza

Rzut oka na pierwsze pięć wierszy dwóch podanych zbiorów danych za pomocą funkcji head(). Dla pierwszego zbioru danych (data1) dostępne są 22 atrybuty podane poniżej. Drugi zbiór danych (data2) reprezentuje 11 atrybutów.

In [3]:
data1 = pd.read_csv('transcoding_mesurment.tsv', sep='\t')
data1.head()

Unnamed: 0,id,duration,codec,width,height,bitrate,framerate,i,p,b,...,p_size,b_size,size,o_codec,o_bitrate,o_framerate,o_width,o_height,umem,utime
0,04t6-jw9czg,130.35667,mpeg4,176,144,54590,12.0,27,1537,0,...,825054,0,889537,mpeg4,56000,12.0,176,144,22508,0.612
1,04t6-jw9czg,130.35667,mpeg4,176,144,54590,12.0,27,1537,0,...,825054,0,889537,mpeg4,56000,12.0,320,240,25164,0.98
2,04t6-jw9czg,130.35667,mpeg4,176,144,54590,12.0,27,1537,0,...,825054,0,889537,mpeg4,56000,12.0,480,360,29228,1.216
3,04t6-jw9czg,130.35667,mpeg4,176,144,54590,12.0,27,1537,0,...,825054,0,889537,mpeg4,56000,12.0,640,480,34316,1.692
4,04t6-jw9czg,130.35667,mpeg4,176,144,54590,12.0,27,1537,0,...,825054,0,889537,mpeg4,56000,12.0,1280,720,58528,3.456


In [4]:
data2 = pd.read_csv('youtube_videos.tsv', sep='\t')
data2.head()

Unnamed: 0,id,duration,bitrate,bitrate(video),height,width,frame rate,frame rate(est.),codec,category,url
0,uDNj-_5ty48,267,373,274,568,320,29.97,0.0,h264,Music,http://r2---sn-ovgq0oxu-5goe.c.youtube.com/vid...
1,uDNj-_5ty48,267,512,396,480,270,29.97,29.97,h264,Music,http://r2---sn-ovgq0oxu-5goe.c.youtube.com/vid...
2,uDNj-_5ty48,267,324,263,400,226,29.97,29.97,flv1,Music,http://r2---sn-ovgq0oxu-5goe.c.youtube.com/vid...
3,uDNj-_5ty48,267,85,55,176,144,12.0,12.0,mpeg4,Music,http://r2---sn-ovgq0oxu-5goe.c.youtube.com/vid...
4,WCgt-AactyY,31,1261,1183,640,480,24.0,0.0,h264,People & Blogs,http://r1---sn-ovgq0oxu-5goe.c.youtube.com/vid...


Zapoznanie się z krótkim opisem danych za pomocą funkcji info().

In [5]:
data1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 68784 entries, 0 to 68783
Data columns (total 22 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   id           68784 non-null  object 
 1   duration     68784 non-null  float64
 2   codec        68784 non-null  object 
 3   width        68784 non-null  int64  
 4   height       68784 non-null  int64  
 5   bitrate      68784 non-null  int64  
 6   framerate    68784 non-null  float64
 7   i            68784 non-null  int64  
 8   p            68784 non-null  int64  
 9   b            68784 non-null  int64  
 10  frames       68784 non-null  int64  
 11  i_size       68784 non-null  int64  
 12  p_size       68784 non-null  int64  
 13  b_size       68784 non-null  int64  
 14  size         68784 non-null  int64  
 15  o_codec      68784 non-null  object 
 16  o_bitrate    68784 non-null  int64  
 17  o_framerate  68784 non-null  float64
 18  o_width      68784 non-null  int64  
 19  o_he

Zbiór pierwszy składa się z 68784 przykładów i wydaje się niezbyt dużym zbiorem na potrzeby uczenia maszynowego, jednak jest idealny do demonstracji jego działania. Zauważyć można, że większość atrybutów zbioru ma wartości numeryczne (float64 i int64). 

Wyjątek stanowią trzy pola: id, codec i o_codec, których typem wartości jest object. Object jest nadrzędną klasą wszystkich klas w języku Python, co oznacza, że pola te mogą przechowywać dowolny obiekt stworzony w Pythonie (czyli dla pliku TSV każdy obiekt tekstowy). Po przyjrzeniu się wynikowi funkcji data1.head() nietrudno zauważyć, że wyniki tych trzech pól są powtarzalne, z czego wywnioskować można, że stanowią one wartości wyliczeniowe enum. 

Warto więc sprawdzić te wartości dodatkowo zliczając częstotliwość ich występowania funkcją value_counts().

In [6]:
data1["id"].value_counts()

id
04t6-jw9czg    841
2ApZ-KZ-pEk    841
3fpg-LlHcks    841
3fmy-4uvR9U    841
3_fF9rtYCQ0    841
              ... 
GXn0-yo-L0I      1
gZDG-8Te3tg      1
h52Y-SSyvoM      1
H5ae-PJpkwI      1
zZKo-QsY86U      1
Name: count, Length: 1099, dtype: int64

In [7]:
data1["codec"].value_counts()

codec
h264     31545
vp8      18387
mpeg4    12012
flv       6840
Name: count, dtype: int64

In [8]:
data1["o_codec"].value_counts()

o_codec
mpeg4    17291
vp8      17277
flv      17135
h264     17081
Name: count, dtype: int64

Id ma więc zarówno te wartości, które się powtarzają, jak i te, które w zbiorze są unikatowe. Pole codec ma 4 różne wartości, które może przybierać i żadna z nich nie występuje w zbiorze tylko jeden raz. Tak samo jest z wartościami o_codec. Dodatkowo zauważyć można, że wartości w kolumnie codec i o_codec są takie same, tylko ich częstotliwość występowania jest różna.

## Analiza eksploracyjna

Analiza reszty pól metodą describe(), która daje możliwość podsumowania atrybutów numerycznych.

In [9]:
data1.describe()

Unnamed: 0,duration,width,height,bitrate,framerate,i,p,b,frames,i_size,p_size,b_size,size,o_bitrate,o_framerate,o_width,o_height,umem,utime
count,68784.0,68784.0,68784.0,68784.0,68784.0,68784.0,68784.0,68784.0,68784.0,68784.0,68784.0,68784.0,68784.0,68784.0,68784.0,68784.0,68784.0,68784.0,68784.0
mean,286.413921,624.934171,412.572226,693701.5,23.241321,100.868312,6531.69221,9.147854,6641.708377,2838987.0,22180570.0,0.0,25022940.0,1395036.0,21.190862,802.336357,503.825541,228224.7179,9.996355
std,287.25765,463.169069,240.615472,1095628.0,7.224848,84.764791,6075.871744,92.516177,6153.342453,4325137.0,50973060.0,0.0,54144020.0,1749352.0,6.668703,609.959797,315.970438,97430.878373,16.107429
min,31.08,176.0,144.0,8384.0,5.705752,7.0,175.0,0.0,192.0,11648.0,33845.0,0.0,191879.0,56000.0,12.0,176.0,144.0,22508.0,0.184
25%,106.765,320.0,240.0,134334.0,15.0,39.0,2374.0,0.0,2417.0,393395.0,1851539.0,0.0,2258222.0,109000.0,15.0,320.0,240.0,216820.0,2.096
50%,239.14166,480.0,360.0,291150.0,25.02174,80.0,5515.0,0.0,5628.0,945865.0,6166260.0,0.0,7881069.0,539000.0,24.0,480.0,360.0,219480.0,4.408
75%,379.32,640.0,480.0,652967.0,29.0,138.0,9155.0,0.0,9232.0,3392479.0,15155060.0,0.0,19773350.0,3000000.0,25.0,1280.0,720.0,219656.0,10.433
max,25844.086,1920.0,1080.0,7628466.0,48.0,5170.0,304959.0,9407.0,310129.0,90828550.0,768997000.0,0.0,806711100.0,5000000.0,29.97,1920.0,1080.0,711824.0,224.574


Z wywołania funkcji describe() wynika, że dla każdej kolumny istnieją 68784 niepuste wartości, co oznacza, że w zbiorze danych nie ma wartości pustych dla żadnej kolumny.

