# Basic operations with DataFrame Columns:

## Reading and Copying:     
(Recommended always to work on the copy and not on the original)

In [1]:
import pandas as pd
melb_data = pd.read_csv('file://localhost/C:/Users/ALEXA/Desktop/DSPR/Homeworks/Module_Python_10_Pandas_Intro/Data/melb_data.csv', sep=',')
melb_df = melb_data.copy()

## Deleting Columns:

### pandas.DataFrame.drop()     

labels — порядковые номера или имена столбцов, которые подлежат удалению; если их несколько, то передаётся список;     

axis — ось совершения операции, axis=0 — удаляются строки, axis=1 — удаляются столбцы;     

inplace — если параметр выставлен на True, происходит замена изначального DataFrame на новый, при этом метод ничего не возвращает;      
если на False — возвращается копия DataFrame, из которой удалены указанные строки (столбцы),       
при этом первоначальный DataFrame не изменяется; по умолчанию параметр равен False.

In [2]:
melb_df = melb_df.drop(['index', 'Coordinates'], axis=1)
melb_df.head()

'''
Альтернативный вариант:

melb_df.drop(['index','Coordinates'],axis=1,inplace=True)
melb_df.head()

'''

"\nАльтернативный вариант:\n\nmelb_df.drop(['index','Coordinates'],axis=1,inplace=True)\nmelb_df.head()\n\n"

## Mathematical operations with Columns :

→ Pandas поддерживает базовые математические операции между столбцами: столбцы можно складывать, вычитать, умножать, делить между собой, а также возводить в степень.

In [3]:
total_rooms = melb_df['Rooms'] + melb_df['Bedroom'] + melb_df['Bathroom']
display(total_rooms)

0         5.0
1         5.0
2         8.0
3         8.0
4         8.0
         ... 
13575    10.0
13576     8.0
13577     8.0
13578     9.0
13579     9.0
Length: 13580, dtype: float64

In [4]:
melb_df['MeanRoomsSquare'] = melb_df['BuildingArea'] / total_rooms
display(melb_df['MeanRoomsSquare'])

0        25.200000
1        15.800000
2        18.750000
3        15.750000
4        17.750000
           ...    
13575    12.600000
13576    16.625000
13577    15.750000
13578    17.444444
13579    12.444444
Name: MeanRoomsSquare, Length: 13580, dtype: float64

In [5]:
diff_area = melb_df['BuildingArea'] - melb_df['Landsize']
sum_area = melb_df['BuildingArea'] + melb_df['Landsize']
melb_df['AreaRatio'] = diff_area/sum_area
display(melb_df['AreaRatio'])

0       -0.231707
1       -0.327660
2        0.056338
3        0.145455
4        0.083969
           ...   
13575   -0.676093
13576   -0.429185
13577   -0.551601
13578   -0.693060
13579   -0.527426
Name: AreaRatio, Length: 13580, dtype: float64

## Date and Time:

### datetime data format:

YYYY-MM-DD HH: MM: SS

### pandas.to_datetime()     
Convert argument to datetime.      
This function converts a scalar, array-like, Series or DataFrame/dict-like to a pandas datetime object.       


In [6]:
melb_df['Date'] = pd.to_datetime(melb_df['Date'], dayfirst=True)
display(melb_df['Date'])

0       2016-12-03
1       2016-02-04
2       2017-03-04
3       2017-03-04
4       2016-06-04
           ...    
13575   2017-08-26
13576   2017-08-26
13577   2017-08-26
13578   2017-08-26
13579   2017-08-26
Name: Date, Length: 13580, dtype: datetime64[ns]

## datetime attributes:


Аксессор — это атрибут столбца, хранящий переменные, которые были строковым представлением времени,       
а затем были изменены с помощью pd.to_datetime().    


Тип данных datetime позволяет с помощью специального аксессора dt выделять составляющие времени из каждого элемента столбца,       
такие как:   


date — дата;
year, month, day — год, месяц, день;
time — время;
hour, minute, second — час, минута, секунда;
dayofweek — номер дня недели, от 0 до 6, где 0 — понедельник, 6 — воскресенье;
day_name — название дня недели;
dayofyear — порядковый день года;
quarter — квартал (интервал в три месяца).

In [7]:
years_sold = melb_df['Date'].dt.year
print(years_sold)
print('Min year sold:', years_sold.min())
print('Max year sold:', years_sold.max())
print('Mode year sold:', years_sold.mode()[0])

0        2016
1        2016
2        2017
3        2017
4        2016
         ... 
13575    2017
13576    2017
13577    2017
13578    2017
13579    2017
Name: Date, Length: 13580, dtype: int64
Min year sold: 2016
Max year sold: 2017
Mode year sold: 2017


In [8]:
melb_df['MonthSale'] = melb_df['Date'].dt.month
melb_df['MonthSale'].value_counts(normalize=True)

5     0.149411
7     0.145950
9     0.135862
6     0.134757
8     0.114138
11    0.082032
4     0.069882
3     0.049926
12    0.044698
10    0.040574
2     0.032622
1     0.000147
Name: MonthSale, dtype: float64

## Working with intervals:

In [9]:
delta_days = melb_df['Date'] - pd.to_datetime('2016-01-01') 
display(delta_days)

0       337 days
1        34 days
2       428 days
3       428 days
4       155 days
          ...   
13575   603 days
13576   603 days
13577   603 days
13578   603 days
13579   603 days
Name: Date, Length: 13580, dtype: timedelta64[ns]

Time deltas    
Timedeltas are differences in times, expressed in difference units, e.g. days, hours, minutes, seconds.     
They can be both positive and negative.     

Timedelta is a subclass of datetime.timedelta, and behaves in a similar manner,       
but allows compatibility with np.timedelta64 types as well as a host of custom representation, parsing, and attributes.

In [10]:
melb_df['AgeBuilding'] = melb_df['Date'].dt.year - melb_df['YearBuilt']
display(melb_df['AgeBuilding'])

melb_df['AgeBuilding'] = melb_df['Date'].dt.year - melb_df['YearBuilt']
display(melb_df['AgeBuilding'])

0         46.0
1        116.0
2        117.0
3         47.0
4          2.0
         ...  
13575     36.0
13576     22.0
13577     20.0
13578     97.0
13579     97.0
Name: AgeBuilding, Length: 13580, dtype: float64

0         46.0
1        116.0
2        117.0
3         47.0
4          2.0
         ...  
13575     36.0
13576     22.0
13577     20.0
13578     97.0
13579     97.0
Name: AgeBuilding, Length: 13580, dtype: float64

## Creating and modifying Columns with functions:

### pandas.DataFrame.apply    

DataFrame.apply(func, axis=0, raw=False, result_type=None, args=(), **kwargs)[source]
Apply a function along an axis of the DataFrame.

Objects passed to the function are Series objects whose index is either the DataFrame’s index (axis=0) or the DataFrame’s columns (axis=1). By default (result_type=None), the final return type is inferred from the return type of the applied function. Otherwise, it depends on the result_type argument.

In [None]:
print(melb_df['Address'].nunique())


In [None]:
print(melb_df['Address'].loc[177])
print(melb_df['Address'].loc[1812])
print(melb_df['Address'].loc[9001])

In [13]:
def get_street_type(address):
# Создаём список географических пометок exclude_list.
    exclude_list = ['N', 'S', 'W', 'E']
# Метод split() разбивает строку на слова по пробелу.
# В результате получаем список слов в строке и заносим его в переменную address_list.
    address_list = address.split(' ')
# Обрезаем список, оставляя в нём только последний элемент,
# потенциальный подтип улицы, и заносим в переменную street_type.
    street_type = address_list[-1]
# Делаем проверку на то, что полученный подтип является географической пометкой.
# Для этого проверяем его на наличие в списке exclude_list.
    if street_type in exclude_list:
# Если переменная street_type является географической пометкой,
# переопределяем её на второй элемент с конца списка address_list.
        street_type = address_list[-2]
# Возвращаем переменную street_type, в которой хранится подтип улицы.
    return street_type

In [22]:
street_types = melb_df['Address'].apply(get_street_type)
display(street_types.value_counts())

St           8012
Rd           2825
Ct            612
Dr            447
Av            321
Gr            311
Pde           211
Pl            169
Cr            152
Cl            100
La             67
Bvd            53
Tce            47
Wy             40
Avenue         40
Cct            25
Hwy            24
Parade         15
Boulevard      13
Sq             11
Crescent        9
Cir             7
Strand          7
Esplanade       6
Grove           5
Gdns            4
Grn             4
Fairway         4
Mews            4
Crossway        3
Righi           3
Victoria        2
Ridge           2
Crofts          2
Esp             2
Glade           1
Gra             1
Ave             1
Woodland        1
Outlook         1
Hts             1
Highway         1
Athol           1
Summit          1
Grand           1
Res             1
Nook            1
Eyrie           1
Dell            1
East            1
Loop            1
Grange          1
Terrace         1
Cove            1
Qy              1
Corso     

In [None]:
def corr_str(voie):
    new_names = {'Avenue':'Av', 'Boulevard':'Bvd', 'Ave':'Av','Parade':'Pde','Highway': 'Hwy'}
    if voie in new_names.keys():
        voie = new_names[voie]
    return voie

street_types = street_types.apply(corr_str)
print(temp.value_counts())

In [28]:
print(street_types.nunique())

51


In [29]:
popular_stypes =street_types.value_counts().nlargest(10).index
print(popular_stypes)

Index(['St', 'Rd', 'Ct', 'Dr', 'Av', 'Gr', 'Pde', 'Pl', 'Cr', 'Cl'], dtype='object')


In [30]:
melb_df['StreetType'] = street_types.apply(lambda x: x if x in popular_stypes else 'other')
display(melb_df['StreetType'])

0           St
1           St
2           St
3        other
4           St
         ...  
13575       Cr
13576       Dr
13577       St
13578       St
13579       St
Name: StreetType, Length: 13580, dtype: object

In [31]:
print(melb_df['StreetType'].nunique())


11


In [32]:
melb_df = melb_df.drop('Address', axis=1)


## Category data type:

In [None]:
# создаём пустой список
unique_list = []
# пробегаемся по именам столбцов в таблице
for col in melb_df.columns:
    # создаём кортеж (имя столбца, число уникальных значений)
    item = (col, melb_df[col].nunique(),melb_df[col].dtype) 
    # добавляем кортеж в список
    unique_list.append(item) 
# создаём вспомогательную таблицу и сортируем её
unique_counts = pd.DataFrame(
    unique_list,
    columns=['Column_Name', 'Num_Unique', 'Type']
).sort_values(by='Num_Unique',  ignore_index=True)
# выводим её на экран
display(unique_counts)

Самый простой способ преобразования столбцов к типу данных category — это использование уже знакомого нам метода astype(), в параметры которого достаточно передать строку 'category'.

In [None]:
cols_to_exclude = ['Date', 'Rooms', 'Bedroom', 'Bathroom', 'Car'] # список столбцов, которые мы не берём во внимание
max_unique_count = 150 # задаём максимальное число уникальных категорий
for col in melb_df.columns: # цикл по именам столбцов
    if melb_df[col].nunique() < max_unique_count and col not in cols_to_exclude: # проверяем условие
        melb_df[col] = melb_df[col].astype('category') # преобразуем тип столбца
display(melb_df.info())

## Category attributes:

У типа данных category есть свой специальный аксесcор cat