# Анализ данных туристов

Этот ноутбук анализирует данные туристов из файла Excel 'Свод_Портрет_туриста_лето_зима_с_итогами.xlsx'.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

# Установка стиля графиков
plt.style.use('seaborn')
# Настройка отображения русского языка
plt.rcParams['font.family'] = 'DejaVu Sans'
plt.rcParams['font.sans-serif'] = ['DejaVu Sans']

# Загрузка данных
df = pd.read_excel('Свод_Портрет_туриста_лето_зима_с_итогами.xlsx')

# Вывод основной информации о датасете
print(df.info())

# Вывод первых нескольких строк датасета
display(df.head())

## Очистка и предобработка данных

In [None]:
# Проверка на пропущенные значения
print(df.isnull().sum())

# Удаление строк, где все значения NaN
df = df.dropna(how='all')

# Сброс индекса после удаления строк
df = df.reset_index(drop=True)

# Вывод первых нескольких строк после очистки
display(df.head())

## Анализ данных

### 1. Распределение по возрасту

In [None]:
age_columns = ['18-25', '26-35', '36-45', '46-55', 'старше 55 лет']
age_data = df[age_columns].sum().reset_index()
age_data.columns = ['Возрастная группа', 'Количество']

plt.figure(figsize=(12, 6))
sns.barplot(x='Возрастная группа', y='Количество', data=age_data)
plt.title('Распределение туристов по возрасту')
plt.xlabel('Возрастная группа')
plt.ylabel('Количество')
plt.xticks(rotation=0)
plt.tight_layout()
plt.show()

### 2. Распределение по полу

In [None]:
gender_data = df[['Мужской', 'Женский']].sum()

plt.figure(figsize=(10, 10))
gender_data.plot(kind='pie', autopct='%1.1f%%')
plt.title('Распределение туристов по полу')
plt.ylabel('')  # Удаляем подпись оси y
plt.tight_layout()
plt.show()

### 3. Распределение по стране проживания

In [None]:
country_columns = df.columns[7:]  # Предполагаем, что столбцы стран начинаются с индекса 7
country_data = df[country_columns].sum().sort_values(ascending=False).head(10)

plt.figure(figsize=(14, 7))
sns.barplot(x=country_data.index, y=country_data.values)
plt.title('Топ-10 стран проживания туристов')
plt.xlabel('Страна')
plt.ylabel('Количество')
plt.xticks(rotation=45, ha='right')
plt.tight_layout()
plt.show()

### 4. Предпочтения по типу размещения

In [None]:
# Предполагаем, что у нас есть данные о типах размещения
# Если таких данных нет, этот код нужно будет адаптировать
accommodation_types = ['Отель 5*', 'Отель 4*', 'Отель 3*', 'Апартаменты', 'У родственников']
accommodation_data = df[accommodation_types].sum().sort_values(ascending=False)

plt.figure(figsize=(12, 6))
sns.barplot(x=accommodation_data.index, y=accommodation_data.values)
plt.title('Предпочтения туристов по типу размещения')
plt.xlabel('Тип размещения')
plt.ylabel('Количество')
plt.xticks(rotation=45, ha='right')
plt.tight_layout()
plt.show()

### 5. Популярные виды туризма

In [None]:
# Предполагаем, что у нас есть данные о видах туризма
# Если таких данных нет, этот код нужно будет адаптировать
tourism_types = ['Экотуризм', 'Гастротуризм', 'Культурный туризм', 'Пляжный отдых', 'Горнолыжный туризм']
tourism_data = df[tourism_types].sum().sort_values(ascending=False)

plt.figure(figsize=(12, 6))
sns.barplot(x=tourism_data.index, y=tourism_data.values)
plt.title('Популярные виды туризма')
plt.xlabel('Вид туризма')
plt.ylabel('Количество')
plt.xticks(rotation=45, ha='right')
plt.tight_layout()
plt.show()

### 6. Средние расходы в день

In [None]:
# Предполагаем, что у нас есть данные о расходах
# Если таких данных нет, этот код нужно будет адаптировать
expense_categories = ['Проживание', 'Питание', 'Транспорт', 'Развлечения', 'Шоппинг']
expense_data = df[expense_categories].mean()

plt.figure(figsize=(12, 6))
sns.barplot(x=expense_data.index, y=expense_data.values)
plt.title('Средние ежедневные расходы туристов по категориям')
plt.xlabel('Категория расходов')
plt.ylabel('Средний расход (руб.)')
plt.xticks(rotation=45, ha='right')
plt.tight_layout()
plt.show()

## Заключение

Этот ноутбук предоставляет базовый анализ данных о туристах. Вы можете добавить более конкретные анализы на основе ваших потребностей и фактической структуры вашего файла Excel.