# Úvod

Tento dataset si klade za cíl analyzovat veřejné preference mezi dvěma typy oblíbenými destinacemi dovolené: horami a plážemi. Poskytuje přehled o různých demografických a životních faktorech, které mohou ovlivnit tyto preference. Prozkoumáním tohoto datasetu mohou uživatelé aplikovat různé techniky strojového učení k predikci, zda jednotlivci preferují hory nebo pláže na základě jejich vlastností.

Odkaz na dataset: [Mountains vs Beaches Preferences](https://www.kaggle.com/datasets/jahnavipaliwal/mountains-vs-beaches-preference)

# Načtení knihoven

In [1]:
import pandas as pd

# Explorační analýza dat (Exploratory Data Analysis - EDA)

## Datový slovník

| **Pojem**                  | **Popis**                                  | **Typ**                                                |
|:---------------------------|:-------------------------------------------|:-------------------------------------------------------|
| **Age**                    | Věk jednotlivce                            | Numerický                                              |
| **Gender**                 | Genderová identita jednotlivce             | Kategorický: muž, žena, nebinární                      |
| **Income**                 | Roční příjem jednotlivce                   | Numerický                                              |
| **Education Level**        | Nejvyšší dosažené vzdělání                 | Kategorický: střední škola, bakalář, magistr, doktorát |
| **Travel Frequency**       | Počet dovolených za rok                    | Numerický                                              |
| **Preferred Activities**   | Aktivity preferované během dovolené        | Kategorický: turistika, plavání, lyžování, opalování   |
| **Vacation Budget**        | Rozpočet vyhrazený na dovolené             | Numerický                                              |
| **Location**               | Typ bydliště                               | Kategorický: městský, příměstský, venkovský            |
| **Proximity to Mountains** | Vzdálenost k nejbližším horám (v mílích)   | Numerický                                              |
| **Proximity to Beaches**   | Vzdálenost k nejbližším plážím (v mílích)  | Numerický                                              |
| **Favorite Season**        | Preferované roční období pro dovolenou     | Kategorický: léto, zima, jaro, podzim                  |
| **Pets**                   | Zda jednotlivec vlastní domácí zvířata     | Binární: 0 = Ne, 1 = Ano                               |
| **Environmental Concerns** | Zda jednotlivec má environmentální obavy   | Binární: 0 = Ne, 1 = Ano                               |

## Načtení dat

In [2]:
df = pd.read_csv('../datasets/projects/mountains_vs_beaches_preferences.csv')
df.head()

Unnamed: 0,Age,Gender,Income,Education_Level,Travel_Frequency,Preferred_Activities,Vacation_Budget,Location,Proximity_to_Mountains,Proximity_to_Beaches,Favorite_Season,Pets,Environmental_Concerns,Preference
0,56,male,71477,bachelor,9,skiing,2477,urban,175,267,summer,0,1,1
1,69,male,88740,master,1,swimming,4777,suburban,228,190,fall,0,1,0
2,46,female,46562,master,0,skiing,1469,urban,71,280,winter,0,0,1
3,32,non-binary,99044,high school,6,hiking,1482,rural,31,255,summer,1,0,1
4,60,female,106583,high school,5,sunbathing,516,suburban,23,151,winter,1,1,0


## Základní informace o datasetu

### Počet záznamů a atributů

In [3]:
print(f"Počet záznamů: {df.shape[0]}\nPočet atributů: {df.shape[1]}")

Počet záznamů: 52444
Počet atributů: 14


In [4]:
df.describe()

Unnamed: 0,Age,Income,Travel_Frequency,Vacation_Budget,Proximity_to_Mountains,Proximity_to_Beaches,Pets,Environmental_Concerns,Preference
count,52444.0,52444.0,52444.0,52444.0,52444.0,52444.0,52444.0,52444.0,52444.0
mean,43.50736,70017.27128,4.489265,2741.799062,149.943502,149.888452,0.500858,0.498436,0.250706
std,14.985597,28847.560428,2.87613,1296.922423,86.548644,86.469248,0.500004,0.500002,0.433423
min,18.0,20001.0,0.0,500.0,0.0,0.0,0.0,0.0,0.0
25%,31.0,45048.25,2.0,1622.0,75.0,75.75,0.0,0.0,0.0
50%,43.0,70167.0,4.0,2733.0,150.0,150.0,1.0,0.0,0.0
75%,56.0,95108.5,7.0,3869.0,225.0,225.0,1.0,1.0,1.0
max,69.0,119999.0,9.0,4999.0,299.0,299.0,1.0,1.0,1.0


### Datové typy atributů

In [5]:
df.dtypes

Age                        int64
Gender                    object
Income                     int64
Education_Level           object
Travel_Frequency           int64
Preferred_Activities      object
Vacation_Budget            int64
Location                  object
Proximity_to_Mountains     int64
Proximity_to_Beaches       int64
Favorite_Season           object
Pets                       int64
Environmental_Concerns     int64
Preference                 int64
dtype: object

#### Numerické atributy

In [6]:
numerical_columns = df.select_dtypes(include=['int64', 'float64']).columns
print("\n".join(numerical_columns))

Age
Income
Travel_Frequency
Vacation_Budget
Proximity_to_Mountains
Proximity_to_Beaches
Pets
Environmental_Concerns
Preference


S numeryckými atributy můžeme provést následující analýzy:
- Rozdělení hodnot
- Korelace mezi atributy
- Distribuce hodnot
- Normalizace hodnot
- Transformace hodnot

#### Kategorické atributy

In [7]:
categorical_columns = df.select_dtypes(include=['object']).columns
for column in categorical_columns:
    print(f"{column}: {df[column].unique()}")

Gender: ['male' 'female' 'non-binary']
Education_Level: ['bachelor' 'master' 'high school' 'doctorate']
Preferred_Activities: ['skiing' 'swimming' 'hiking' 'sunbathing']
Location: ['urban' 'suburban' 'rural']
Favorite_Season: ['summer' 'fall' 'winter' 'spring']


V kategorických atributehc nemáme žádné zbytečné hodnoty, které by bylo třeba odstranit. Každý z nich má svůj význam a předpokládame, že budou důležité pro analýzu. Další zpracování bude zahrnuto v dalších krocích.

### Chybějící hodnoty

In [8]:
missing_values = int(df.isnull().sum().sum())
missing_values

0

Paráda, v datasetu nejsou žádné chybějící hodnoty.

### Duplicitní záznamy

In [9]:
duplicates = int(df.duplicated().astype(int).sum())
duplicates

0

Skvělé, v datasetu nejsou ani žádné duplicitní záznamy.