In [337]:
import pandas as pd
import plotly.express as px
import numpy as np
from scipy import stats
from dash import Dash, html, dcc, Input, Output
from sklearn.linear_model import LinearRegression

1.	wstępna analiza danych i czyszczenie:
a.	duplikaty
b.	wartości odstające
c.	spójność
d.	braki w danych
e.	skala wartości
f.	inne
2.	wizualizacja rozkładu zmiennych, zależności ceny od innych zmiennych, liczebność kategorii
3.	budowa modelu regresji ceny od pozostałych zmiennych. Istotne zmienne należy wybrać eliminacją wsteczną lub selekcją postępującą.
4.	wizualizacja modelu regresji
5.	stworzenie dashboardu z powyższymi wizualizacjami i próbką danych w postaci tabeli. Dashboard powinien umożliwiać zmianę parametrów wykresów - np. zależność ceny od innej, wybranej przez użytkownika zmiennej

Wszystkie wizualizacje i dane powinny zostać zaprezentowane w postaci dashboardu. Etapy czyszczenia danych i budowy modelu regresji należy zawrzeć w notatniku Jupytera (.ipynb).


In [338]:
#porządkowanie tabeli
df = pd.read_csv("messy_data.csv", names=['carat', 'clarity' , 'color' ,'cut', 'x dimension', 'y dimension', 'z dimension', 'depth', 'table', 'price'])
df.drop(index=0, inplace=True)

In [339]:
#odrzucenie duplikatów
df.drop_duplicates(subset=None, inplace=True)

In [340]:
#zamiana dziwnych i pustych wartości na NaN
df.replace(r'^\s*$', np.nan, regex=True, inplace=True)

In [341]:
#konwersja na typ float
df['carat'] = df['carat'].astype(float)
df['x dimension'] = df['x dimension'].astype(float)
df['y dimension'] = df['y dimension'].astype(float)
df['z dimension'] = df['z dimension'].astype(float)
df['depth'] = df['depth'].astype(float)
df['table'] = df['table'].astype(float)
df['price'] = df['price'].astype(float)

#zamiana na duże litery
df['cut'] = df['cut'].str.upper()
df['clarity'] = df['clarity'].str.upper()
df['color'] = df['color'].str.upper()

In [342]:
#zamiana NaN na średnią tam gdzie się da
df['carat'].fillna(df["carat"].mean(), inplace=True)
df['x dimension'].fillna(df["x dimension"].mean(), inplace=True)
df['y dimension'].fillna(df["y dimension"].mean(), inplace=True)
df['z dimension'].fillna(df["z dimension"].mean(), inplace=True)
df['depth'].fillna(df["depth"].mean(), inplace=True)
df['table'].fillna(df["table"].mean(), inplace=True)
df['price'].fillna(df["price"].mean(), inplace=True)

#i usunięcie tam gdzie się nie da
df.dropna(inplace=True)

In [343]:
# Usuwanie wartości odstających
numeric_columns = ['carat', 'x dimension', 'y dimension', 'z dimension', 'depth', 'table', 'price']

z = np.abs(stats.zscore(df['carat']))
threshold_z = 2
outlier_indices = np.where(z > threshold_z)[0]
no_outliers = df.drop(outlier_indices)
df = no_outliers

In [344]:

# Enkodowanie danych (zwraca tuple aby można było dodać podpisy)
def encode_categorical(df, column):
    unique_values = df[column].unique()
    encoding = {val: i for i, val in enumerate(unique_values)}
    df[column + '_encoded'] = df[column].map(encoding)
    return df, encoding

def column_contains_strings(df, column_name):
    return df[column_name].dtype == 'object'

In [345]:
colors = {
    'background' :'#ADD8E6',
    'text': '7FDBFF'
}

In [346]:


# Assuming df is your DataFrame containing the data

app = Dash(__name__)

app.layout = html.Div(style={'backgroundColor': colors['background']}, children=[
    html.H1(children="Projekt PAD", style={'textAlign': 'center', 'color': 'black'}),
    html.Div(children="Interaktywny dashboard", style={'textAlign': 'center', 'color': 'black'}),

    dcc.Dropdown(
        options=[
            {'label': 'Carat', 'value': 'carat'},
            {'label': 'Clarity', 'value': 'clarity'},
            {'label': 'Color', 'value': 'color'},
            {'label': 'Cut', 'value': 'cut'},
            {'label': 'X Dimension', 'value': 'x dimension'},
            {'label': 'Y Dimension', 'value': 'y dimension'},
            {'label': 'Z Dimension', 'value': 'z dimension'},
            {'label': 'Depth', 'value': 'depth'},
            {'label': 'Table', 'value': 'table'},
            {'label': 'Price', 'value': 'price'}
        ],
        value='carat', id='xdropdown'),

    dcc.Checklist(
        options=[
            {'label': 'Show Linear Regression', 'value': 'linear_regression'},
        ],
        value=[],
        id='checkbox'
    ),

    dcc.Graph(id='graph'),

    html.Div(id='model-info', style={'textAlign': 'center', 'color': 'black'})
])


@app.callback(
    [Output('graph', 'figure'),
     Output('model-info', 'children')],
    [Input('xdropdown', 'value'),
     Input('checkbox', 'value')]
)
def update_graph(x_column, options):
    model_info = ''
    # Filtrowanie jeżeli zawiera string
    if column_contains_strings(df, x_column):
        df_encoded, encoding = encode_categorical(df.copy(), x_column)
        X = df_encoded[x_column + '_encoded'].values.reshape(-1, 1)
        x_labels = [encoding[val] for val in encoding.keys()]
    else:
        X = df[x_column].values.reshape(-1, 1)
        x_labels = None

    y = df['price']
    fig = px.scatter(df, x=x_column, y='price')

    # Regresja liniowa z użyciem selekcji postępującej
    if 'linear_regression' in options:
        selected_indices = [i for i, val in enumerate(options) if val == 'linear_regression']
        for i in range(len(selected_indices)):
            model = LinearRegression()
            model.fit(X[:selected_indices[i] + 1], y[:selected_indices[i] + 1])
            x_range = np.array([X.min(), X.max()])
            y_pred = model.predict(x_range.reshape(-1, 1))
            fig.add_scatter(x=x_range.flatten(), y=y_pred, mode='lines', name=f'Linear Regression {i + 1}')
            model_info += f'Linear Regression {i + 1}:\n'
            model_info += f'Intercept: {model.intercept_}, Coefficient: {model.coef_}\n\n'

    # Napisy
    if x_labels:
        fig.update_xaxes(type='category', categoryorder='array', categoryarray=x_labels)

    return fig, model_info


if __name__ == '__main__':
    app.run_server(debug=True, use_reloader=False)
