# Анализ данных о туристах

Этот ноутбук анализирует данные о туристах из файла 'Свод_Портрет_туриста_лето_зима_с_итогами.xlsx'.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

# Настройка стиля графиков
plt.style.use('seaborn')
plt.rcParams['font.family'] = 'DejaVu Sans'
plt.rcParams['axes.unicode_minus'] = False

# Загрузка данных
df = pd.read_excel('Свод_Портрет_туриста_лето_зима_с_итогами.xlsx')

# Отображение базовой информации о наборе данных
print(df.info())

# Отображение первых нескольких строк набора данных
display(df.head())

## Очистка и предобработка данных

In [None]:
# Проверка на наличие пропущенных значений
print(df.isnull().sum())

# Удаление строк, где все значения NaN
df = df.dropna(how='all')

# Сброс индекса после удаления строк
df = df.reset_index(drop=True)

# Отображение первых нескольких строк после очистки
display(df.head())

## Разведочный анализ данных

In [None]:
# 1. Распределение по возрасту
age_columns = ['18-25', '26-35', '36-45', '46-55', 'старше 55 лет']
age_data = df[age_columns].sum().reset_index()
age_data.columns = ['Возрастная группа', 'Количество']

plt.figure(figsize=(10, 6))
sns.barplot(x='Возрастная группа', y='Количество', data=age_data)
plt.title('Распределение туристов по возрасту')
plt.xlabel('Возрастная группа')
plt.ylabel('Количество')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

In [None]:
# 2. Распределение по полу
gender_data = df[['Мужской', 'Женский']].sum()

plt.figure(figsize=(8, 8))
gender_data.plot(kind='pie', autopct='%1.1f%%')
plt.title('Распределение туристов по полу')
plt.ylabel('')  # Удаление метки оси y
plt.tight_layout()
plt.show()

In [None]:
# 3. Распределение по стране проживания
country_columns = df.columns[7:]  # Предполагаем, что столбцы стран начинаются с индекса 7
country_data = df[country_columns].sum().sort_values(ascending=False).head(10)

plt.figure(figsize=(12, 6))
sns.barplot(x=country_data.index, y=country_data.values)
plt.title('Топ-10 стран проживания туристов')
plt.xlabel('Страна')
plt.ylabel('Количество')
plt.xticks(rotation=45, ha='right')
plt.tight_layout()
plt.show()

In [None]:
# 4. Предпочтения по типу размещения
# Предполагаем, что у нас есть столбцы для разных типов размещения
accommodation_columns = ['Отель 5*', 'Отель 4*', 'Отель 3*', 'Апартаменты', 'Хостел']
accommodation_data = df[accommodation_columns].sum().sort_values(ascending=False)

plt.figure(figsize=(10, 6))
sns.barplot(x=accommodation_data.index, y=accommodation_data.values)
plt.title('Предпочтения туристов по типу размещения')
plt.xlabel('Тип размещения')
plt.ylabel('Количество')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

In [None]:
# 5. Популярные виды туризма
# Предполагаем, что у нас есть столбцы для разных видов туризма
tourism_types = ['Эко-туризм', 'Гастро-туризм', 'Культурный туризм', 'Пляжный отдых', 'Горнолыжный туризм']
tourism_data = df[tourism_types].sum().sort_values(ascending=False)

plt.figure(figsize=(10, 6))
sns.barplot(x=tourism_data.index, y=tourism_data.values)
plt.title('Популярные виды туризма')
plt.xlabel('Вид туризма')
plt.ylabel('Количество')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

In [None]:
# 6. Траты туристов по категориям
# Предполагаем, что у нас есть столбцы для разных категорий трат
spending_categories = ['Проживание', 'Питание', 'Транспорт', 'Развлечения', 'Шоппинг']
spending_data = df[spending_categories].sum()

plt.figure(figsize=(10, 10))
plt.pie(spending_data.values, labels=spending_data.index, autopct='%1.1f%%')
plt.title('Распределение трат туристов по категориям')
plt.axis('equal')
plt.tight_layout()
plt.show()

In [None]:
# 7. Средние расходы в день
# Предполагаем, что у нас есть столбец с данными о средних расходах в день
daily_spending = df['Средние расходы в день'].describe()

print("Статистика по средним расходам в день:")
print(daily_spending)

plt.figure(figsize=(10, 6))
sns.histplot(df['Средние расходы в день'], kde=True)
plt.title('Распределение средних расходов в день')
plt.xlabel('Средние расходы в день')
plt.ylabel('Количество туристов')
plt.tight_layout()
plt.show()

## Статистический анализ

In [None]:
# Выполнение базового статистического анализа числовых столбцов
numerical_columns = df.select_dtypes(include=[np.number]).columns
display(df[numerical_columns].describe())

## Заключение

Этот ноутбук предоставляет базовый анализ данных о туристах. На основе полученных результатов можно сделать следующие выводы:

1. Возрастное распределение туристов показывает, что...
2. Гендерное распределение указывает на...
3. Основные страны происхождения туристов - это...
4. Наиболее популярные типы размещения среди туристов...
5. Предпочтительные виды туризма включают...
6. Большая часть расходов туристов приходится на...
7. Средние ежедневные расходы туристов составляют...

Эти выводы могут быть использованы для разработки маркетинговых стратегий, улучшения туристической инфраструктуры и повышения качества обслуживания туристов.