In [None]:
pip install pandas


In [None]:
pip install seaborn

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.stats import norm
import numpy as np
import plotly.express as px
import plotly.graph_objects as go

# Импорт нужных библиотек:
# pandas для работы с файлом,
# matplotlib & seaborn для отрисовки графиков,
# scipy.stats для проверки нормального распределения
# numpy просто так вдруг понадобится
# plotly для графиков но покруче

In [2]:
"""импорт данных из трех файлов"""
input_file_1 = '/content/AB_NYC_2019.csv'
input_file_2 = '/content/airbnb_last_review.csv'
input_file_3 = '/content/airbnb_room_type.xlsx'

ab_nyc = pd.read_csv(input_file_1)
airbnb_last_review = pd.read_csv(input_file_2)
airbnb_room_type = pd.read_excel(input_file_3)

In [None]:
"""Вывод всех трех файлов"""

print(ab_nyc)
print("##################################")
print(airbnb_last_review)
print("##################################")
print(airbnb_room_type)

In [None]:
"""Очистка данных в колонке цена"""

# Загрузка данных из CSV файла
input_file_path = '/content/AB_NYC_2019.csv'
output_file_path = '/content/AB_NYC_2019_with_no_price.csv'

# Чтение данных из CSV файла
data = pd.read_csv(input_file_path)

# Очистка данных в колонке "Price"
data['price'] = None

# Сохранение очищенных данных в новом файле
data.to_csv(output_file_path, index=False)

print(f"Очищенный файл без колонки price сохранен по пути: {output_file_path}")

In [None]:
"""проверка!"""

file_path = '/content/AB_NYC_2019_with_no_price.csv'
check = pd.read_csv(file_path)
print(check['price'])

In [None]:
new_data = pd.read_csv(input_file_path) # Повторное чтение исходника для дальнейшей работы

In [None]:
""" Расчет средней цены """
avg_price = new_data['price'].mean() # подсчет среднего значения колонки
print("Средняя цена: ", avg_price)

Средняя цена:  152.7206871868289


In [None]:
""" Сравнение затрат на рынке аренды """

# Расчет математического ожидания и стандартного отклонения
mean_price = new_data['price'].mean()
std_dev_price = new_data['price'].std()

# Расчет процента цен, укладывающихся в правило трех сигм

within_3std = ((new_data['price'] >= mean_price - 3 * std_dev_price) & (new_data['price'] <= mean_price + 3 * std_dev_price)).mean() * 100

print(f"Математическое ожидание цен: ${mean_price:.2f}") # .2f -  2 знака после запятой
print(f"Стандартное отклонение цен: ${std_dev_price:.2f}")
print(f"Процент цен, укладывающихся в правило трех сигм: {within_3std:.2f}%")

# Настройка параметров гистограммы

plt.xlabel('Цена')
plt.ylabel('Частота')
plt.xlim(0, 1000)
plt.hist(new_data['price'], bins=2000, color='orange')
plt.show()

In [None]:
""" Очистка данных в колонке room type """

# Чтение данных из csv файла
new_output_file_path = "/content/AB_NYC_2019_with_no_room_type.csv"
roomType = pd.read_csv(input_file_path)

# Очистка данных в нужной колонке
roomType['room_type'] = None

# Сохранение данных без содержимого колонки room_type в новый файл
roomType.to_csv(new_output_file_path, index=False)
print(f"Очищенный файл без колонки room_type сохранен по пути: {new_output_file_path}")

In [None]:
""" проверка """
new_check = pd.read_csv(new_output_file_path)
print(new_check['room_type'])

In [None]:
""" C какими сроками идет работа """

# Вывод информации по Last_review
print("\nИнформация по Last_review:")
print(ab_nyc['last_review'].describe(datetime_is_numeric=True))

# Преобразование Last_review в datetime
ab_nyc['last_review'] = pd.to_datetime(data['last_review'])
# Преобразование в логарифмический формат для большей наглядности данных
fig = px.histogram(ab_nyc['last_review'])
fig.update_layout(
    xaxis_title="Частота",
    yaxis_title="Дата",
)
fig.update_yaxes(type="log")
fig.show()


In [None]:
# Вывод базовой информации по Minimum_nights
print("Статистика по Minimum_nights:")
print(ab_nyc['minimum_nights'].describe())

# Настройка гистограммы для минимального количества ночей
fig = go.Figure()
axis1 = fig.add_trace(go.Histogram(x=ab_nyc[ab_nyc['minimum_nights']<15]['minimum_nights'], name = 'minimum_nights < 15'))
axis2 = fig.add_trace(go.Histogram(x=ab_nyc[(ab_nyc['minimum_nights']>15) & (ab_nyc['minimum_nights']<88)]['minimum_nights'], name = 'minimum_nights > 15'))
fig.update_layout(xaxis_title="Минимальное количество дней", yaxis_title = "Частота")
fig.show()

# ab_nyc[(ab_nyc['minimum_nights']>15)]['minimum_nights'].describe()

In [None]:
""" Объединение датафреймов """

# объединяем датафреймы airbnb_room_type и airbnb_last_review в один по колонке listing_id
merged_one = pd.merge(airbnb_last_review, airbnb_room_type, on='listing_id', how='inner')

In [None]:
# объединяем уже соединенный фрейм с ab_nyc по колонке listing_id
final_merge = pd.merge(merged_one, ab_nyc, left_on='listing_id', right_on='id', how='inner')

In [None]:
merged_one

In [None]:
final_merge

In [None]:
final = final_merge.drop_duplicates(subset='id')

In [None]:
print(final['listing_id'].equals(final_merge['listing_id']))

In [None]:
is_equal = ab_nyc['id'].equals(airbnb_room_type['listing_id'])
print(is_equal)

In [None]:
ab_nyc

In [None]:
airbnb_room_type

In [None]:
""" Проанализируйте цены по различным районам """

In [None]:
# Анализ цен по различным районам
average_prices_by_neighbourhood = ab_nyc.groupby('neighbourhood')['price'].mean()

# Ранжирование цен по районам
ranked_prices_by_neighbourhood = average_prices_by_neighbourhood.sort_values()

# Вывод результатов с названиями районов
print("Средние цены по районам:")
for neighbourhood, average_price in average_prices_by_neighbourhood.items():
    print(f"{neighbourhood}: {average_price:.2f}")

print("\nРанжирование цен по районам:")
for neighbourhood, average_price in ranked_prices_by_neighbourhood.items():
    print(f"{neighbourhood}: {average_price:.2f}")


In [None]:
ab_nyc