# Used Phones & Tablets Pricing Dataset
* **os**: OS on which the device runs
* **screen_size**: Size of the screen in cm
* **4g**: Whether 4G is available or not
* **5g**: Whether 5G is available or not
* **front_camera_mp**: Resolution of the rear camera in megapixels
* **back_camera_mp**: Resolution of the front camera in megapixels
* **internal_memory**: Amount of internal memory (ROM) in GB
* **ram**: Amount of RAM in GB
* **battery**: Energy capacity of the device battery in mAh
* **weight**: Weight of the device in grams
* **release_year**: Year when the device model was released
* **days_used**: Number of days the used/refurbished device has been used
* **normalized_new_price**: Normalized price of a new device of the same model
* **normalized_used_price** (TARGET): Normalized price of the used/refurbished device

In [None]:
import pandas as pd
import seaborn as sns

In [None]:
input_file = 'data.csv'

data = pd.read_csv(input_file) 

continious_types = [
    'screen_size',
    'front_camera_mp',
    'rear_camera_mp',
    'internal_memory',
    'battery',
    'weight',
    'days_used',
    'normalized_new_price',
    'normalized_used_price'
]

categorical_types = [
    'device_brand',
    'os',
    '4g',
    '5g',
    'ram',
    'release_year'
]

data

In [None]:
data.info()

2. Kiekvienam **tolydinio** tipo atributui paskaičiuoti:
* bendrą reikšmių skaičių,
* trūkstamų reikšmių procentą,
* kardinalumą (**kardinalumas** matematikoje yra aibės savybė, apibendrinanti baigtinės aibės narių kiekio sąvoką. Papraščiau tariant kiek yra skirtingų atributo reikšmių. Pavyzdžiui lyties atributo kardinalumas lygus 2 - t.y., lytis gali turėti tik dvi reikšmes),
* minimalią (_min_) ir maksimalią (_max_) reikšmes,
* 1-ąją ir 3-iąją kvartilius (žr. 2 paskaitą, 37 skaidrę),
* vidurkį (žr. 2 paskaitą, 36 skaidrę),
* medianą (žr. 2 paskaitą, 36 skaidrę),
* standartinį nuokrypį (žr. 2 paskaitą, 36 skaidrę).

In [None]:
rows = []

for type_name in continious_types:
    count = data[type_name].count()
    empty_percentage = (1 - count / len(data[type_name])) * 100
    unique_values = len(data[type_name].unique())
    min_value = data[type_name].min()
    max_value = data[type_name].max()
    quartile_1 = data[type_name].quantile(0.25)
    quartile_3 = data[type_name].quantile(0.75)
    average = data[type_name].mean()
    median = data[type_name].median()
    std_dev = data[type_name].std()

    df = pd.DataFrame({
        'Atributo pavadinimas': [type_name],
        'Kiekis (Eilučių sk.)': [count],
        'Trūkstamos reikšmės (%)': [empty_percentage],
        'Kardinalumas': [unique_values],
        'Minimali reikšmė': [min_value],
        'Maksimali reikšmė': [max_value],
        '1-asis kvartilis': [quartile_1],
        '3-asis kvartilis': [quartile_3],
        'Vidurkis': [average],
        'Mediana': [median],
        'Standartinis nuokrypis': [std_dev]
    })

    rows.append(df)

continious_types_table = pd.concat(rows, ignore_index=True)

continious_types_table
    

3. Kiekvienam **kategorinio** tipo atributui paskaičiuoti:
* bendrą reikšmių skaičių,
* trūkstamų reikšmių procentą,
* kardinalumą,
* modą (**moda** - vadinama dažniausiai pasitaikanti imties reikšmė) (žr. 2 paskaitą, 39 skaidrę),
* modos dažnumo reikšmę (žr. 2 paskaitą, 39 skaidrę).
* modos procentinę reikšmę (žr. 2 pasaitą, 39 skaidrę),
* 2-ąją modą (žr. 2 paskaita, 39 skaidrę),
* 2-osios modos dažnumo reikšmę (žr. 2 paskaitą, 39 skaidrę),
* 2-osios modos procentinę reikšmę (žr. 2 pasaitą, 39 skaidrę).

In [None]:
rows = []

for type_name in categorical_types:
    count = data[type_name].count() # Bendras reikšmių skaičius
    empty_percentage = (1 - count / len(data[type_name])) * 100 # Trūkstamos reikšmės procentais
    unique_values = len(data[type_name].unique()) # Kardinalumas
    mode = data[type_name].mode().values[0] # Moda
    mode_frequency = data[type_name].value_counts().max() # Modos dažnumas
    mode_percentage = (mode_frequency / count) * 100 # Modos dažnumas procentais
    second_mode = data[type_name].value_counts().index[1] # Antra modos reikšmė
    second_mode_frequency = data[type_name].value_counts().iloc[1] # Antros modos dažnumas
    second_mode_percentage = (second_mode_frequency / count) * 100 # Antros modos dažnumas procentais

    df = pd.DataFrame({
        'Atributo pavadinimas': [type_name],
        'Kiekis (Eilučių sk.)': [count],
        'Trūkstamos reikšmės (%)': [empty_percentage],
        'Kardinalumas': [unique_values],
        'Moda': [mode],
        'Modos dažnumas': [mode_frequency],
        'Moda, %' : [mode_percentage],
        '2-oji moda': [second_mode],
        '2-osios Modos dažnumas': [second_mode_frequency],
        '2-oji Moda, %' : [second_mode_percentage]
    })

    rows.append(df)

categorical_types_table = pd.concat(rows, ignore_index=True)

categorical_types_table
    

# Atributų grafikai

## Tolydinio tipo histogramos

In [None]:
import matplotlib.pyplot as plt
import numpy as np
import numpy as np

# Calculate the recommended number of bins
n = len(data)
num_bins = int(1 + 3.22 * np.log(n))

# Draw histograms for each continuous attribute
for column in continious_types:
    plt.figure()
    data[column].hist(bins=num_bins)
    plt.xlabel(column)
    plt.ylabel('Frequency')
    plt.title(f'Histogram of {column}')
    plt.show()


## Kategorinio tipo stulpelinės diagramos

In [None]:
import matplotlib.pyplot as plt
import numpy as np
import numpy as np

# Calculate the recommended number of bins
n = len(data)
num_bins = int(1 + 3.22 * np.log(n))

# Draw histograms for each continuous attribute
for column in categorical_types:
    plt.figure()
    data[column].hist(bins=num_bins)
    plt.xlabel(column)
    plt.ylabel('Frequency')
    plt.title(f'Histogram of {column}')
    plt.show()

# Duomenų kokybės identifikavimas ir sprendimas

In [None]:
import matplotlib.pyplot as plt

columns = [
    "screen_size",
    "rear_camera_mp",
    "front_camera_mp",
    "internal_memory",
    "ram",
    "battery",
    "weight",
    "normalized_used_price",
    "normalized_new_price"
]

data.dropna(inplace=True)

for name in columns:
    fig, axs = plt.subplots(ncols=2, figsize=(12, 6))

    data.boxplot(column=name, ax=axs[0])
    axs[0].set_title("Prieš")

    first_quartile = data[name].quantile(0.25)
    third_quartile = data[name].quantile(0.75)
    top_line = first_quartile - 1.5 * (third_quartile - first_quartile)
    bottom_line = third_quartile + 1.5 * (third_quartile - first_quartile)

    data_clean = data.drop(data[(data[name] < top_line) | (data[name] > bottom_line)].index)
    data_clean.boxplot(column=name, ax=axs[1])
    axs[1].set_title("Po")

    plt.suptitle(f"{name}", fontsize=16)
    plt.tight_layout()
    plt.show()


# Atributų sąryšių nustatymas

## Tolydinio tipo atributų sąryšiai

### Scatter plot

In [None]:
for continious_x in continious_types:
    for continious_y in continious_types:
        if(continious_x != continious_y):
            data_clean.plot.scatter(continious_x, continious_y)
            plt.xlabel(continious_x)
            plt.ylabel(continious_y)
            plt.title(f'{continious_x} vs {continious_y}')
            plt.show()

### SPLOM (Scatter Plot Matrix)

In [None]:
pd.plotting.scatter_matrix(data_clean[continious_types], figsize=(18, 18))
plt.show()

## Kategorinio tipo atributų sąryšiai

### Stulpelinė diagrama

In [None]:
for categorical_x in categorical_types:
    first = data_clean.groupby(categorical_x).size()
    first.plot.bar(rot=90, edgecolor = "black")
    plt.xlabel(None)
    plt.ylabel("Kiekis")
    plt.title(f'{categorical_x}')
    plt.show()
    for categorical_y in categorical_types:
        if categorical_x != categorical_y:
            vars = data_clean[categorical_y].value_counts().keys()
            for var in vars:
                quantity = data_clean[data_clean[categorical_y] == var]
                quantity.groupby(categorical_x).size().plot.bar(rot=90, edgecolor = "black")
                plt.xlabel(None)
                plt.ylabel("Kiekis")
                plt.title(f'{categorical_x}, kai \"{categorical_y}\"={var}')
                plt.show()

## Kategorinio ir tolydinio tipo atributų sąryšiai

## Histograma

In [None]:
for continious_x in continious_types:
    for categorical_y in categorical_types:
        vals = data_clean[categorical_y].unique()
        for val in vals:
            f = data_clean[data_clean[categorical_y] == val]
            f.hist(column=continious_x)
            plt.xlabel(continious_x)
            plt.ylabel('Dažnis')
            plt.title(f'{continious_x}, kai {categorical_y}={val}')
            plt.show()

## Box plot

In [None]:
for continious_x in continious_types:
    for categorical_y in categorical_types:
        fig, ax = plt.subplots(figsize=(25, 6))  # Adjust the figsize parameter to make the figure wider
        data_clean.boxplot(by=categorical_y, column=continious_x, ax=ax)
        plt.xlabel(categorical_y)
        plt.ylabel(continious_x)
        plt.title(f'{continious_x} su {categorical_y}')
        plt.suptitle(None)
        plt.show()

# Kovariacija ir koreliacija

In [None]:
data_continious = data_clean[continious_types]
covariance = data_continious.cov(numeric_only=True)
print(covariance)
correlation = data_continious.corr(numeric_only=True)
sns.heatmap(correlation, annot=True, fmt=".2f")
plt.show()

# Duomenų normalizavimas

## Visų duomenų pavertimas į skaitines reikšmes

In [None]:
numerical_data = data_clean.copy()
numerical_data['device_brand'] = numerical_data['device_brand'].astype('category').cat.codes
numerical_data['os'] = numerical_data['os'].astype('category').cat.codes
numerical_data['4g'] = numerical_data['4g'].astype('category').cat.codes
numerical_data['5g'] = numerical_data['5g'].astype('category').cat.codes

## Duomenų normalizavimas

In [None]:
for column in numerical_data.columns:
    numerical_data[column] = (numerical_data[column] - numerical_data[column].min()) / (numerical_data[column].max() - numerical_data[column].min())
print(numerical_data)