На протяжении всего модуля мы будем производить множество тренировочных преобразований с нашей таблицей. Поэтому, чтобы не переопределять переменную melb_data и тем самым не повредить первоначальный DataFrame, создадим копию melb_df с помощью метода copy():

In [1]:
import pandas as pd

In [3]:
melb_data = pd.read_csv('data/melb_data_ps.csv', sep=',')
melb_df = melb_data.copy()
melb_df.head()

Unnamed: 0,index,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,Coordinates
0,0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,...,1,202.0,126.0,1970,Yarra,-37.7996,144.9984,Northern Metropolitan,4019,"-37.7996, 144.9984"
1,1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,...,0,156.0,79.0,1900,Yarra,-37.8079,144.9934,Northern Metropolitan,4019,"-37.8079, 144.9934"
2,2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,...,0,134.0,150.0,1900,Yarra,-37.8093,144.9944,Northern Metropolitan,4019,"-37.8093, 144.9944"
3,3,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,...,1,94.0,126.0,1970,Yarra,-37.7969,144.9969,Northern Metropolitan,4019,"-37.7969, 144.9969"
4,4,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,...,2,120.0,142.0,2014,Yarra,-37.8072,144.9941,Northern Metropolitan,4019,"-37.8072, 144.9941"


In [None]:
melb_df.groupby('index')['Rooms'].count().sort_values(ascending=True).iloc[:5]

In [21]:

melb_df.groupby('index')['Rooms'].count().sort_values(ascending=False).iloc[:5]



index
13579    1
0        1
1        1
2        1
3        1
Name: Rooms, dtype: int64

На протяжении всего модуля наши данные будут множество раз меняться (будут добавляться и удаляться столбцы), поэтому, чтобы у вас не было расхождений с ответами в заданиях и в уроке, советуем следить за изменениями на протяжении модуля и фиксировать их у себя в ноутбуке.

Представим, что мы хотим построить модель, которая бы предсказывала цену объекта недвижимости в Мельбурне. Даже не будучи профессиональными риелторами, мы можем легко сделать следующие выводы:

- цена объекта никак не зависит от его порядкового номера (столбец index);
- признак, описывающий долготу и широту в виде кортежа Coordinates, дублирует информацию, представленную в столбцах Longitude и Lattitude.

За удаление строк и столбцов в таблице отвечает метод drop().

- labels — порядковые номера или имена столбцов, которые подлежат удалению; если их несколько, то передаётся список;
- axis — ось совершения операции, axis=0 — удаляются строки, axis=1 — удаляются столбцы;
- inplace — если параметр выставлен на True, происходит замена изначального DataFrame на новый, при этом метод ничего не возвращает; если на False — возвращается копия DataFrame, из которой удалены указанные строки (столбцы), при этом первоначальный DataFrame не изменяется; по умолчанию параметр равен False.

In [87]:
#Удалим столбцы index и Coordinates из таблицы с помощью метода drop().
#Выведем первые пять строк таблицы и убедимся, что всё прошло успешно.
melb_df = melb_df.drop(['index', 'Coordinates'], axis=1)
melb_df.info()

##Альтернативный вариант:
#melb_df.drop(['index','Coordinates'],axis=1,inplace=True)
#melb_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13580 entries, 0 to 13579
Data columns (total 21 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Suburb         13580 non-null  object 
 1   Address        13580 non-null  object 
 2   Rooms          13580 non-null  int64  
 3   Type           13580 non-null  object 
 4   Price          13580 non-null  float64
 5   Method         13580 non-null  object 
 6   SellerG        13580 non-null  object 
 7   Date           13580 non-null  object 
 8   Distance       13580 non-null  float64
 9   Postcode       13580 non-null  int64  
 10  Bedroom        13580 non-null  int64  
 11  Bathroom       13580 non-null  int64  
 12  Car            13580 non-null  int64  
 13  Landsize       13580 non-null  float64
 14  BuildingArea   13580 non-null  float64
 15  YearBuilt      13580 non-null  int64  
 16  CouncilArea    12211 non-null  object 
 17  Lattitude      13580 non-null  float64
 18  Longti

Такая производительность достигается за счёт того, что все математические операции со столбцами выполняются на языке программирования С, что значительно повышает скорость вычислений по сравнению с перебором элементов в цикле. 

In [88]:
#Например, давайте создадим переменную total_rooms, в которой будем хранить общее количество комнат в здании. 
#Для этого выполним сложение столбцов с количеством комнат, ванн и спален:
total_rooms = melb_df['Rooms'] + melb_df['Bedroom'] + melb_df['Bathroom']
display(total_rooms)

0         5
1         5
2         8
3         8
4         8
         ..
13575    10
13576     8
13577     8
13578     9
13579     9
Length: 13580, dtype: int64

In [89]:
#А теперь введём признак MeanRoomsArea, который соответствует средней площади одной комнаты для каждого объекта. 
#Для этого разделим площадь здания на полученное ранее общее количество комнат:
melb_df['MeanRoomsArea'] = melb_df['BuildingArea'] / total_rooms
display(melb_df['MeanRoomsArea'])

0        25.200000
1        15.800000
2        18.750000
3        15.750000
4        17.750000
           ...    
13575    12.600000
13576    16.625000
13577    15.750000
13578    17.444444
13579    12.444444
Name: MeanRoomsArea, Length: 13580, dtype: float64

In [90]:
#Можно ввести ещё один интересный признак — AreaRatio, коэффициент соотношения площади здания (BuildingArea) и площади участка (Landsize).
#Для этого разницу двух площадей поделим на их сумму:
diff_area = melb_df['BuildingArea'] - melb_df['Landsize']
sum_area = melb_df['BuildingArea'] + melb_df['Landsize']
melb_df['AreaRatio'] = diff_area/sum_area
display(melb_df['AreaRatio'])

0       -0.231707
1       -0.327660
2        0.056338
3        0.145455
4        0.083969
           ...   
13575   -0.676093
13576   -0.429185
13577   -0.551601
13578   -0.693060
13579   -0.527426
Name: AreaRatio, Length: 13580, dtype: float64

Что показывает такой коэффициент? Если присмотреться, можно увидеть, что AreaRatio лежит в интервале от -1 до 1.

Рассмотрим три случая, чтобы понять его значение:

Если рассматриваемые площади равны, то числитель дроби зануляется и коэффициент тоже равен 0.
Если одна из площадей начинает доминировать над другой, то коэффициент начинает расти в отрицательную сторону, если площадь участка больше площади здания, и в положительную сторону, если наоборот.
Наконец, в предельном случае, если площадь здания равна 0, то числитель дроби равен знаменателю со знаком минус, а коэффициент равен -1, а если площадь участка равна 0, то числитель дроби равен знаменателю со знаком плюс, а коэффициент равен 1.
Таким образом, значение в столбце AreaRatio служит своеобразным указателем соотношения площадей объекта недвижимости. Для пустырей — участков без строений — он будет равен -1, для домов без территории — 1, во всех остальных случаях мы можем увидеть, какая площадь больше — здания или участка.

Задача 2.1 Среди приведённых ниже вариантов кода выберите тот, который найдёт квадрат цены 
объекта недвижимости за наименьшее время и не выдаст ошибку.
Результат должен быть занесён в переменную price_square и представлять собой объект Series:

In [91]:

price_square = []
for price in melb_df['Price']:
    price_square.append(price**2)
price_square = pd.Series(price_square)
display(price_square)

0        2.190400e+12
1        1.071225e+12
2        2.146225e+12
3        7.225000e+11
4        2.560000e+12
             ...     
13575    1.550025e+12
13576    1.062961e+12
13577    1.368900e+12
13578    6.250000e+12
13579    1.651225e+12
Length: 13580, dtype: float64

In [92]:
price_square = melb_df['Price'] **2
display(price_square)

0        2.190400e+12
1        1.071225e+12
2        2.146225e+12
3        7.225000e+11
4        2.560000e+12
             ...     
13575    1.550025e+12
13576    1.062961e+12
13577    1.368900e+12
13578    6.250000e+12
13579    1.651225e+12
Name: Price, Length: 13580, dtype: float64

In [93]:
#Задание 2.2. Задан DataFrame customer_df, содержащий столбцы:
customer_df = pd.DataFrame({
        'number': [0, 1, 2, 3, 4],
        'cust_id': [128, 1201, 9832, 4392, 7472],
        'cust_age': [13, 21, 19, 21, 60],
        'cust_sale': [0, 0, 0.2, 0.15, 0.3],
        'cust_year_birth': [2008, 2000, 2002, 2000, 1961],
        'cust_order': [1400, 14142, 900, 1240, 8430]
    })
customer_df = customer_df.drop(['number', 'cust_age'], axis = 1)
display(customer_df)

Unnamed: 0,cust_id,cust_sale,cust_year_birth,cust_order
0,128,0.0,2008,1400
1,1201,0.0,2000,14142
2,9832,0.2,2002,900
3,4392,0.15,2000,1240
4,7472,0.3,1961,8430


In [103]:
#Задание 2.3 - мое решеине
#Напишите функцию delete_columns(df, col=[]), которая удаляет столбцы из DataFrame и возвращает новую таблицу. 
#Если одного из указанных столбцов не существует в таблице, то функция должна возвращать None.

customer_df = pd.DataFrame({
            'number': [0, 1, 2, 3, 4],
            'cust_id': [128, 1201, 9832, 4392, 7472],
            'cust_age': [13, 21, 19, 21, 60],
            'cust_sale': [0, 0, 0.2, 0.15, 0.3],
            'cust_year_birth': [2008, 2000, 2002, 2000, 1961],
            'cust_order': [1400, 14142, 900, 1240, 8430]
        })
def delete_columns(df, col=[]):
    cust_df = df.copy()
    try:
        for i in df[col]:
            cust_df = cust_df.drop([i], axis = 1)
        return cust_df
    except KeyError:
        return None
print(delete_columns(col = ['number','1'], df = customer_df))

None


In [None]:
#Задание 2.3 - решение ментора
def delete_columns(df, col=[]):
    for cc in col:
        if cc not in df.columns:
            return None
    return df.drop(col, axis=1)

In [108]:
#Задание 2.4 - мое решеиние
#Задан DataFrame countries_df, содержащий следующие столбцы: название страны, 
#население (population) в миллионах человек и площадь страны (area) в квадратных километрах.
countries_df = pd.DataFrame({
    'country': ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    'population': [56.29, 38.05, 322.28, 146.24, 45.5, 9.5, 17.04],
    'area': [133396, 9984670, 9826630, 17125191, 603628, 207600, 2724902]
})
p_ppl = countries_df['population']*1000000/countries_df['area']
print(p_ppl.mean())

84.93080566562001
