## ЛУ 3: Манипулация на Количествени Данни

### Теория
Един от двата най-често срещани вида данни са количествените. 

### Работа с количествени данни в Pandas

Pandas позволява широк диапазон методи за работа с количествени данни. Нека заредим количествените колони от набора данни, който създадохме в предишното упражнение:

In [1]:
import pandas as pd

dataframe_length = 100
dict_for_pd_df = {
    'int_column': [i+1 for i in range(dataframe_length)],
    'float_column': [i/10 for i in range(dataframe_length)]
}
my_first_df = pd.DataFrame(dict_for_pd_df)

Pandas ни позволява да извършваме математически действия върху целия набор данни:

In [2]:
my_first_df['int_times_two'] = my_first_df.int_column * 2 #така създаваме нова колонка в рамката данни
my_first_df.head()

Unnamed: 0,int_column,float_column,int_times_two
0,1,0.0,2
1,2,0.1,4
2,3,0.2,6
3,4,0.3,8
4,5,0.4,10


Можем да извършваме математически упражнения и с две колонки едновременно, като тогава действието се извършва за всяка двойка записи:

In [3]:
my_first_df['just_twos'] = my_first_df.int_times_two / my_first_df.int_column
my_first_df.head() 

Unnamed: 0,int_column,float_column,int_times_two,just_twos
0,1,0.0,2,2.0
1,2,0.1,4,2.0
2,3,0.2,6,2.0
3,4,0.3,8,2.0
4,5,0.4,10,2.0


Понеже сме извършили делене, резултатът е float. Въпреки това, методът astype ни позволява да променим вида на данните:

In [4]:
print('Before: ', my_first_df.just_twos.dtype)
my_first_df['just_twos'] = my_first_df.just_twos.astype(int)
print('After: ', my_first_df.just_twos.dtype)

Before:  float64
After:  int32


Разбира се, ако просто искаме колонка с еднакви стойности "2", то тогава можем просто да зададем име и стойност:

In [5]:
my_first_df['just_twos_v2'] = 2
my_first_df.head()

Unnamed: 0,int_column,float_column,int_times_two,just_twos,just_twos_v2
0,1,0.0,2,2,2
1,2,0.1,4,2,2
2,3,0.2,6,2,2
3,4,0.3,8,2,2
4,5,0.4,10,2,2


Нека премахнем ненужните колонки:

In [6]:
my_first_df.drop(
    ['just_twos', 'just_twos_v2'],
    axis = 1, #задаваме ос, за да се премахнат колонки, не редове
    inplace=True # този параметър казва на функцията да се приложи върху самия обект, т.е. става еквивалент на df = df.drop()
)
my_first_df.head()

Unnamed: 0,int_column,float_column,int_times_two
0,1,0.0,2
1,2,0.1,4
2,3,0.2,6
3,4,0.3,8
4,5,0.4,10


Често, работейки с количествени данни, искаме да придобием представа за тяхното разпределение. Това става най-лесно чрез метода describe, който може да бъде приложен както на серия, така и на цяла рамка данни:

In [7]:
my_first_df.int_column.describe()

count    100.000000
mean      50.500000
std       29.011492
min        1.000000
25%       25.750000
50%       50.500000
75%       75.250000
max      100.000000
Name: int_column, dtype: float64

In [8]:
my_first_df.describe()

Unnamed: 0,int_column,float_column,int_times_two
count,100.0,100.0,100.0
mean,50.5,4.95,101.0
std,29.011492,2.901149,58.022984
min,1.0,0.0,2.0
25%,25.75,2.475,51.5
50%,50.5,4.95,101.0
75%,75.25,7.425,150.5
max,100.0,9.9,200.0


### Задача

 - Намерете и заредете набор от данни от https://www.kaggle.com/. 
 - Идентифицирайте количествена променлива.
 - Потърсете в описанието на набора данни какво означава променливата и направете кратко нейно описание с ваши собствени думи.
 - Извлечете дескриптивни статистики за променливата и добавете кратко описание на това какво ни казват данните за конкретния феномен.