# Marknadsanalys av diamanter



# Inledning

## Guldfynds ink√∂psavdelning har under en tid haft sv√•rt att hitta √§delstenar som blir r√§tt prissatta ut till handeln. Detta har lett till sviktande marginaler. Denna analys √§r ett jobb best√§llt av Guldfynd och ska presenteras utav deras Sourcing Manager till ledningsgruppen.

## I denna analys kommer vi att titta p√• diamanter ‚Äì v√§rldens kanske mest eftertraktade √§delsten.

Diamantpriser p√•verkas av flera faktorer: vikt (carat), slipning (cut), f√§rg (color) och klarhet (clarity). Dessa egenskaper p√•verkar inte bara stenens utseende utan ocks√• dess marknadsv√§rde. Det √§r d√§rf√∂r avg√∂rande f√∂r Guldfynd att f√∂rst√• vilka kombinationer av dessa egenskaper som erbjuder b√§st **v√§rde f√∂r pengarna**, snarare √§n att enbart k√∂pa in det som √§r "b√§st" p√• pappret.

Den h√§r analysen syftar till att:
- Identifiera **vilka diamantsegment som ger h√∂g kvalitet till ett rimligt pris**.
- Ge **konkreta rekommendationer** till ink√∂pschefen om vilka stenar som b√∂r prioriteras.
- Tydligg√∂ra **prisdrivande faktorer**, samt visa var f√∂retaget kan hitta **potentiella marginalf√∂rdelar**.

M√•let √§r allts√• att ge Guldfynd ett **beslutsunderlag** som bidrar till b√§ttre aff√§rsm√§ssighet i ink√∂pen, h√∂gre marginaler och en konkurrenskraftig produktportf√∂lj.

Analysen utg√•r ifr√•n ett st√∂rre dataset med √∂ver 54 000 diamanter, d√§r varje rad representerar en unik sten med olika egenskaper och ett noterat marknadsv√§rde.



## Inl√§sning och rensning av data
- I detta avsnittt l√§ser vi in datasetet diamonds.csv i v√•ran notebook. Vi listar hur m√•nga rader och vad det √§r f√∂r datatyper i setet.
- Vi importerar ocks√• v√•ra tredjepartsbibliotek Pandas, Numpy och Plotly.

In [None]:
import pandas as pd
import numpy as np
import plotly.express as px

#L√§ser in dataset
df = pd.read_csv("diamonds.csv")

#l√§ngd p√• dataframe
length_df = len(df)
print(f'Dataset length: {length_df}')

#information om datatyper och columner
df.info()



Dataset length: 53940
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 53940 entries, 0 to 53939
Data columns (total 11 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Unnamed: 0  53940 non-null  int64  
 1   carat       53918 non-null  float64
 2   cut         53939 non-null  object 
 3   color       53936 non-null  object 
 4   clarity     53910 non-null  object 
 5   depth       53934 non-null  float64
 6   table       53935 non-null  float64
 7   price       53928 non-null  float64
 8   x           53937 non-null  float64
 9   y           53936 non-null  float64
 10  z           53937 non-null  float64
dtypes: float64(7), int64(1), object(3)
memory usage: 4.5+ MB


#### I detta avsnitt nedan s√• g√∂r vi en funktion f√∂r att sortera och g√∂ra en data-cleanse p√• datasetet.


In [38]:
from pandas.api.types import CategoricalDtype

def clean_diamond_data(df):
    total_start = df.shape[0]
    removed = {}

    if 'index' not in df.columns:
        df.reset_index(inplace=True)

    
    before = df.shape[0]
    df = df.dropna(subset=['index', 'cut', 'color', 'clarity', 'price', 'carat', 'x', 'y', 'z', 'depth'])
    removed["Saknade v√§rden"] = before - df.shape[0]

    
    numeric_cols = ['carat', 'depth', 'table', 'price', 'x', 'y', 'z']
    before = df.shape[0]
    for col in numeric_cols:
        df = df[df[col] > 0]
    removed["Nollv√§rden i numeriska kolumner"] = before - df.shape[0]

   
    before = df.shape[0]
    df = df[(df['x'] <= 15) & (df['y'] <= 15) & (df['z'] <= 15)]
    removed["Extrema m√•tt (>15 mm)"] = before - df.shape[0]

    
    before = df.shape[0]
    df = df[~((df['carat'] < 1) & (df['z'] > 10))]
    removed["Misst√§nkt djup (carat < 1 & z > 10)"] = before - df.shape[0]

    
    df['depth_calc'] = (df['z'] / ((df['x'] + df['y']) / 2)) * 100
    df['depth_diff'] = abs(df['depth_calc'] - df['depth'])
    before = df.shape[0]
    df = df[df['depth_diff'] <= 0.5]
    removed[">1% avvikelse i depth"] = before - df.shape[0]

   
    df.drop(columns=["depth_calc", "depth_diff"], inplace=True)

    df['index'] = df['index'].astype(int)

   
    df = df.reset_index(drop=True)

    df.dropna()

    print("üßπ Sammanst√§llning av borttagna rader:")
    for reason, quant in removed.items():
        print(f"- {reason}: {quant} rader")

    total_borttagna = total_start - df.shape[0]
    print(f"\nTotalt borttagna rader: {total_borttagna}")
    print(f"‚úÖ Rader kvar efter rensning: {df.shape[0]}")

    return df

df = clean_diamond_data(df)

üßπ Sammanst√§llning av borttagna rader:
- Saknade v√§rden: 74 rader
- Nollv√§rden i numeriska kolumner: 22 rader
- Extrema m√•tt (>15 mm): 3 rader
- Misst√§nkt djup (carat < 1 & z > 10): 0 rader
- >1% avvikelse i depth: 150 rader

Totalt borttagna rader: 249
‚úÖ Rader kvar efter rensning: 53691


## üìä Datast√§dning ‚Äì F√∂ruts√§ttning f√∂r en tillf√∂rlitlig analys

Innan vi p√•b√∂rjar n√•gon analys av diamantdata beh√∂ver vi s√§kerst√§lla att datan vi arbetar med √§r **komplett, rimlig och representativ** f√∂r verkliga k√∂pbeslut. R√•data inneh√•ller ofta saknade v√§rden, felaktiga inmatningar och orimliga m√•tt ‚Äì allt detta kan snedvrida analysresultaten och d√§rmed leda till felaktiga rekommendationer.

### üîç Vad g√∂r `clean_diamond_data()`?

Funktionen `clean_diamond_data(df)` genomf√∂r en noggrann rensning av datan i flera steg:

1. **Tar bort rader med saknade v√§rden** i kritiska kolumner som vikt (carat), m√•tt (x, y, z), slipning (cut), f√§rg, klarhet och pris.
2. **Filtrerar bort rader d√§r numeriska v√§rden √§r noll eller negativa**, vilket inte √§r fysiskt m√∂jligt f√∂r √§delstenar.
3. **Tar bort extrema m√•tt** d√§r n√•gon av l√§ngd, bredd eller djup √∂verstiger 15 mm. Detta identifierar outliers som inte speglar kommersiellt g√•ngbara diamanter.
4. **Tar bort orimliga kombinationer** s√•som sm√• stenar (carat < 1) med mycket stor h√∂jd (z > 10 mm), vilket ofta kan indikera felregistrering av datan.
5. **J√§mf√∂r uppm√§tt djup med ber√§knat geometriskt djup** och till√•ter endast en avvikelse p√• max ¬±1%. Detta √§r ett kvalitetsfilter som uppt√§cker inkonsekventa inmatningar.
6. **Konverterar kvalitativa egenskaper** som `cut`, `color` och `clarity` till ordnade kategorier. Detta g√∂r visualiseringar och gruppanalyser mer begripliga och meningsfulla.

### üìà Vad visar resultatet?

Efter rensningen skrivs en sammanst√§llning ut i konsolen som visar:

- Hur m√•nga rader som tagits bort i varje steg
- Totalt antal borttagna rader
- Hur m√•nga rader som √•terst√•r i den slutgiltiga, st√§dade datam√§ngden

Detta g√∂r rensningen **transparent och sp√•rbar**, vilket √§r viktigt f√∂r att ledningen ska kunna f√∂rst√• och lita p√• analysens grunddata.

Den st√§dade datan kan nu anv√§ndas f√∂r att identifiera l√∂nsamma diamantsegment utan att st√∂ras av felaktigheter eller extremv√§rden.

---


### üîÑ Anpassning till GIA ‚Äì Cut Mapping

I v√•rt dataset ser vi slipkvaliteter som "Ideal", "Premium", "Very Good" etc. Dessa anv√§nds ofta av √•terf√∂rs√§ljare eller icke-certifierade akt√∂rer och tenderar att vara mer gener√∂sa i sin bed√∂mning √§n GIA:s formella skala.

F√∂r att g√∂ra v√•r analys mer realistisk och j√§mf√∂rbar med GIA-certifikat har vi d√§rf√∂r √∂versatt dessa till GIA-standard enligt f√∂ljande:

| Datasetets v√§rde | GIA-standard     |
|------------------|------------------|
| Ideal            | Excellent         |
| Premium          | Very Good         |
| Very Good        | Good              |
| Good             | Fair              |
| Fair             | Poor              |

Syftet √§r att inte √∂verskatta kvaliteten p√• diamanterna i v√•r analys. Detta g√∂r resultaten mer anv√§ndbara f√∂r faktiska ink√∂psbeslut, d√§r certifikat ofta kr√§vs.



I n√§sta avsnitt ska vi mappa om alla datasetets v√§rden till GIA standard med python-kod

In [7]:
cut_mapping = {
    "Ideal": "Excellent",
    "Premium": "Very Good",
    "Very Good": "Good",
    "Good": "Fair",
    "Fair": "Poor"
}

df['cut_mapped'] = df['cut'].map(cut_mapping)

cut_order_gia = ['Poor', 'Fair', 'Good', 'Very Good', 'Excellent']
df['cut_mapped'] = df['cut_mapped'].astype(CategoricalDtype(categories=cut_order_gia, ordered=True))

## √ñverblick
#### I detta avsnittet ska vi skapa en visuell √∂verblick √∂ver hur priset √§r f√∂rdelat p√• de olika stenarna

In [None]:
from plotly.subplots import make_subplots
import plotly.graph_objects as go

fig = make_subplots(rows=1, cols=2, subplot_titles=("Pris vs Carat", "Histogram √∂ver Carat"))


fig.add_trace(
    go.Scatter(
        x=df["carat"],
        y=df["price"],
        mode='markers',
        marker=dict(color='royalblue', opacity=0.6, size=3),
        name='Pris vs Carat'
    ),
    row=1, col=1
)


fig.add_trace(
    go.Histogram(
        x=df["carat"],
        nbinsx=30,
        marker_color='mediumturquoise',
        name='Histogram Carat'
    ),
    row=1, col=2
)


fig.update_layout(
    title_text="Diamantdata: Pris och Carat",
    showlegend=False,
    height=500,
    width=1000,
    plot_bgcolor='white'
)


fig.update_xaxes(showgrid=True, gridcolor='lightgray')
fig.update_yaxes(showgrid=True, gridcolor='lightgray')

fig.show()


### Vad vi ser

I de tv√• √∂versiktsdiagrammen framg√•r det tydligt att majoriteten av diamanterna i datasetet v√§ger under 1 carat. Detta bekr√§ftas i histogrammet till h√∂ger, d√§r de flesta observationerna √§r koncentrerade i de l√§gre caratintervallen. Distributionen √§r tydligt snedf√∂rdelad √•t h√∂ger, vilket inneb√§r att st√∂rre diamanter √§r ovanligare.

Scatterplotten visar relationen mellan pris och carat. Det finns ett tydligt positivt samband mellan dessa tv√• variabler ‚Äì priset √∂kar generellt med √∂kad vikt. 

Vi kan √§ven se att vid vissa specifika viktgr√§nser, s√•som **1.0, 1.5 och 2.0 carat**, tenderar priserna att vara b√•de h√∂gre och mer utspridda j√§mf√∂rt med n√§rliggande caratniv√•er. 

### Varf√∂r detta g√∂rs

Syftet med dessa visualiseringar √§r att snabbt f√• en **√∂verblick √∂ver hur diamanterna i datam√§ngden √§r f√∂rdelade**, samt att identifiera **grundl√§ggande samband och avvikelser**. Detta ger v√§rdefull insikt b√•de f√∂r:

- **Analytiker**, som vill skapa modeller f√∂r priss√§ttning eller efterfr√•geprognoser
- **Beslutsfattare**, som vill f√∂rst√• vilka typer av diamanter som √§r vanligast och vilka som driver upp priset

### N√§sta steg

I n√§sta steg ska jag presentera data √∂ver stenar med karat som anv√§nds i smycken med st√∂rst volym p√• den Skandinaviska marknaden.

In [41]:
df_filtered = df[(df['carat'] >= 0.25) & (df['carat'] <=1.0)]

fig3 = px.scatter(df_filtered,
                  x ='carat',
                  y ='price', 
                  title = 'Pris vs Karat (0.25 till 1.00 ct)',
                  color='cut',
                  labels={'carat': "Carat", 'price': "Price"})

fig4 = px.histogram(df_filtered,
                    x='carat',
                    nbins=30,
                    title='Antal diamanter i intervallet 0.25-1.00 ct',
                    labels={'carat': "Carat", 'count': "Antal"},
                    color_discrete_sequence=['mediumturquoise'])

fig_combined = make_subplots(rows=1, cols = 2,
                             subplot_titles=("Pris vs Carat", "Antal Diamanter per Carat"),
                             column_widths=[0.5,0.5])

fig_combined.add_trace(fig3['data'][0],row=1,col=1)
for trace in fig4['data']:
    fig_combined.add_trace(trace, row=1, col=2)

fig_combined.update_layout(height=500, width=1000, showlegend=False)
fig_combined.show()



### Vad vi ser
I scatter-diagrammet till v√§nster ser vi att diamantens pris √∂kar tydligt med carat-vikten inom intervallet 0.25‚Äì1.00 ct. Speciellt n√§ra 1.00 ct syns en koncentration av b√•de fler observationer och h√∂gre prisvariation, vilket indikerar ett psykologiskt eller marknadsm√§ssigt tr√∂skelv√§rde.

I histogrammet till h√∂ger framg√•r att de vanligaste carat-vikterna i detta intervall √§r 0.3 ct, 0.4 ct och runt 0.7 ct. Dessa toppar representerar troligen popul√§ra storlekar i smyckesproduktion, s√§rskilt inom f√∂rlovnings- och vigselringar i Skandinavien.

### Varf√∂r g√∂rs detta
Syftet √§r att analysera de vanligaste och mest efterfr√•gade diamantvikterna inom ett relevant urval (0.25‚Äì1.00 ct), vilket √§r vanligt i smyckesindustrin. Genom att koppla detta till prisdata kan vi dra slutsatser om marknadsbeteenden, priss√§ttning och potentiella kundpreferenser.

### Rekommendationer
* Fokusera p√• ink√∂p och lager av diamanter i storlekarna 0.3‚Äì0.75 ct, d√• dessa verkar ha b√•de h√∂g efterfr√•gan och hanterbara priser.

* Undvik att g√∂ra ink√∂p av stenar med cirka 1.00 ct utan prisanalys av segmentet, eftersom dessa ser ut att inneb√§ra en parabolisk pris√∂kning, vilket i sin tur kan leda till marginals√§nkning.

### N√§sta steg 
Analysera vidare om prisvariationer vid 0.7 och upp till 1.5 ct beror p√• slipkvalitet, f√§rg eller klarhet f√∂r att optimera v√§rde f√∂r kund och marginal.



In [51]:
# Skapa tv√• grupper: sm√• och st√∂rre diamanter
df_filtered = df[((df['carat'] >= 0.1) & (df['carat'] <= 0.75)) | 
                 ((df['carat'] >= 0.76) & (df['carat'] <= 1.5))]

# L√§gg till storlekskategori
df_filtered["size_group"] = df_filtered["carat"].apply(lambda x: "0.2‚Äì0.75 ct" if x <= 0.75 else "0.76‚Äì1.5 ct")

# Boxplot: Prisvariation efter Slipkvalitet (Cut)
fig1 = px.scatter(df_filtered,
              x="carat",
              y="price",
              color="size_group",
              title="Prisvariation efter carat, minskad skala till 0.2 till 1.5ct",
              labels={"cut": "Slipkvalitet", "price": "Pris (USD)", "size_group": "Carat-grupp"})

fig1.show()



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



### Vad vi ser

I scatterploten √∂ver diamantdatasetet kan vi se att priset √§r relativt j√§mnt f√∂r diamanter med karatv√§rde mellan 0.2 och cirka 0.9. N√§r vi n√•r 1 karat och √∂ver, √∂kar prisets spridning markant. Till exempel har diamanter p√• 1 karat priser som str√§cker sig fr√•n cirka 1600 till 16000, vilket visar en betydligt st√∂rre volatilitet och variation i pris. H√§r f√•r vi ha i √•tanke att vi har inte tagit slipning, klarhet eller f√§rg i beaktning.

### Varf√∂r detta g√∂rs

Syftet med denna visualisering √§r att f√∂rst√• hur priset p√• diamanter varierar i relation till deras storlek (karat). Genom att identifiera var priset √§r relativt stabilt och var det blir mer volatilt kan vi b√§ttre analysera marknadens dynamik och identifiera potentiella prism√∂nster eller segment.

### Rekommendationer

* Fokusera p√• att noggrant analysera diamanter √∂ver 1 karat eftersom prisvariationen √§r stor, vilket kan p√•verka b√•de priss√§ttning och lagerhantering.
* √ñverv√§g att segmentera marknaden efter karatstorlek f√∂r att b√§ttre rikta marknadsf√∂ring och f√∂rs√§ljning.
* Vid ink√∂p, var extra noggrann med kvalitetsparametrar som klarhet och slipning, d√• de sannolikt p√•verkar priset mer kraftigt vid h√∂gre karat.
