Работа с данными в Pandas. Занятие 2.

---



Интеграция с гугл-диском

In [None]:
from google.colab import drive
drive.mount('/content/gdrive')

In [None]:
import pandas as pd

**Ссылка на датасет:** https://drive.google.com/file/d/1D3OXD4lij_2nO1BYtkF-7b045K9gGVfc/view?usp=share_link

In [None]:
df_data = pd.read_csv('/content/gdrive/MyDrive/Dataset/house_prices.csv')

In [None]:
df_data

In [None]:
df_data.info()

Часто наборы данных будут иметь подробные имена столбцов с символами, словами в верхнем и нижнем регистре, пробелами и опечатками. Чтобы упростить выбор данных по имени столбца, мы можем потратить немного времени на очистку их имен.

Вот как напечатать имена столбцов нашего набора данных:

In [None]:
df_data.columns

In [None]:
df_data.rename(columns={
        'date': 'DATE',
        'price': 'PRICE',
        'bedrooms': 'BEDROOMS',
        'bathrooms': 'BATHROOMS'
    }, inplace=True)

In [None]:
df_data.columns

In [None]:
df_data['sqft_living'].describe()

In [None]:
df_data[df_data['sqft_living']>2139]

In [None]:
df_data[['PRICE', 'floors', 'BEDROOMS']]

In [None]:
df_data[['PRICE', 'floors', 'BEDROOMS']][df_data['sqft_living']==df_data['sqft_living'].max()]

In [None]:
df_data[['PRICE', 'sqft_living']][df_data['BEDROOMS']>3]

In [None]:
len(df_data['PRICE'][df_data['BEDROOMS']<3])

In [None]:
subset = df_data[['PRICE', 'floors']]

In [None]:
subset.head()

Условия в Pandas

In [None]:
subset

In [None]:
subset['PRICE'] == 550000

In [None]:
subset[subset['PRICE'] >= 550000]

Мы можем сделать более богатые условные операторы, используя логические операторы | для «или» и & для «и».

In [None]:
subset[(subset['PRICE'] == 45000) | (subset['floors'] > 3)]

In [None]:
subset_60_100 = subset[(subset['PRICE'] > 60000) & (subset['floors']  == 2)]

In [None]:
subset_60_100

In [None]:
subset['floors'].value_counts()

In [None]:
for i, row in subset_60_100.iterrows():
    print (i, row)

Можно перебирать DataFrame или Series так же, как и со списком, но делать это — особенно с большими наборами данных — очень медленно.

Эффективной альтернативой является применение функции apply() к набору данных.

In [None]:
df_data.head()

In [None]:
def floor_counter(x):
    if x == 1:
        return "один этаж"
    elif x == 2:
        return "два этажа"
    elif x == 3:
        return "три этажа"
    else:
        return "c чердаком"

In [None]:
df_data['floors'].apply(floor_counter)

In [None]:
df_data['floors_text'] = df_data['floors'].apply(floor_counter)

In [None]:
df_data.head(2)

In [None]:
df_data['floors_text'].value_counts()

In [None]:
df_data['floors_text'].replace('c чердаком', 'c подвалом', inplace = True)

In [None]:
df_data['floors_text'].value_counts()

**Поиск взаимосвязей в данных:**


Отличным аспектом модуля Pandas является метод corr().

Метод corr() вычисляет взаимосвязь между каждым столбцом в вашем наборе данных.

In [None]:
df_data.shape

In [None]:
df_data.shape[0]

In [None]:
df_data.shape[1]

In [None]:
df_data[['PRICE','BEDROOMS','BATHROOMS','sqft_living','sqft_lot','floors']].corr()

In [None]:
df = df_data[['PRICE','BEDROOMS','BATHROOMS','sqft_living','sqft_lot','floors']].corr()

Объяснение результата
Результатом метода corr() является таблица с большим количеством чисел, которые показывают, насколько существует корреляция между двумя столбцами.

Число варьируется от -1 до 1.

1 означает, что существует отношение 1 к 1 (идеальная корреляция), и для этого набора данных каждый раз, когда значение в первом столбце увеличивалось, другое значение также увеличивалось.

0,9  также является хорошим соотношением, и если вы увеличите одно значение, то, вероятно, увеличится и другое.

-0,9 будет таким же хорошим соотношением, как и 0,9, но если вы увеличите одно значение, другое, вероятно, уменьшится.

0,2 означает низкую корреляцию, а это означает, что если одно значение повышается, это не означает, что другое будет расти.

In [None]:
import matplotlib.pyplot as plt

Рисуем тепловую карту корреляции данных:

In [None]:
plt.rcParams["figure.figsize"] = 7, 7
plt.imshow(df, cmap ='viridis')

# Отображение цветной полосы для понимания
# какой цвет представляет какой диапазон данных
plt.colorbar()

for i in range(df.shape[0]):
    for j in range(df.shape[1]):
        text = plt.text(j, i, round(float(df.iloc[i, j]),2),
                       ha="center", va="center", color="r")
# Присвоение меток оси X
# согласно датафрейму
plt.xticks(range(len(df)), df.columns, rotation = 45)

# Присвоение меток оси y
# согласно датафрейму
plt.yticks(range(len(df)), df.index)

# Рисуем график
plt.show()


Практика:
---



/content/gdrive/MyDrive/Dataset/songs_dataset_homework.csv

**датасет:** https://drive.google.com/file/d/1gwUChVCiAfRbuxenqedG0r2Wf8EnFwl9/view?usp=share_link

*   Скачать датасет.
*   Если при наличии столбца Unnamed: 0, удалите его.
*   Замените в названиях колонок все . на _ , если точки в конце одного слова, удалите их. Все колонки должны быть со строчной буквы

*   Провести анализ на пустые значения, если они есть, заполнить пустые значения средними, либо медианными.
*   Выведите информацию о перцентилях, максимальном, минимальном и среднем значении по всем числовым столбцам датафрейма.
*   Написать функцию которая выводит кол-во строк и столбцов в датафрейме, а также названия этих столбцов.
*   Напишите функцию danceability_calculation, которая на основе колонки Danceability возвращает при значении x меньше или равно 67 low, больше 67, но меньше или равно 73 medium и больше 73 high.
*   Примените функцию danceability_calculation к столбцу Danceability, результат запишите в колонку Danceability_value(ее нужно создать)
*   Создайте матрицу и постройте график корреляции, используя код из занятия
