In [2]:
import pandas as pd
import numpy as np
data = pd.read_csv('/Users/grzegorzwawrzeniecki/PycharmProjects/PAD/Projekt/messy_data.csv')

# Dane - pierwsze 5 wierszy

In [3]:
data.head()

Unnamed: 0,carat,clarity,color,cut,x dimension,y dimension,z dimension,depth,table,price
0,0.5,IF,D,Ideal,5.1,5.15,3.2,61.5,,3000
1,0.7,vvs2,E,premium,5.7,,3.52,62.0,59.0,4500
2,,Si2,h,Good,4.3,4.31,,62.3,56.0,700
3,1.2,if,d,ideal,,6.82,4.2,61.7,58.0,10000
4,0.9,I1,J,Fair,6.0,,3.7,61.7,,2400


# Analiza danych - kolumny

- **carat**: Liczba karatów w danym wyrobie. Typ zmiennoprzecinkowy, zawiera puste wiersze
- **clarity**: Przejrzystość/czystość wyrobu - kategoria. Wymaga ujednolicenia
- **color**: Kolor - kategoria. Wymaga ujednolicenia
- **cut**: Szlif - kategoria. Wymaga ujednolicenia
- **x/y/z dimension**: Wymiary. Typ zmiennoprzecinkowy, zawiera puste wiersze
- **depth**: Głębokość. Typ zmiennoprzecinkowy, zawiera puste wiersze
- **table**: Płaska górna powierzchnia diamentu. Typ int, zawiera puste wiersze
- **price**: Cena wyrobu. Typ int, zawiera puste wiersze

# Czyszczenie i ujednolicenie danych

## Nazwy kolumn

In [4]:
# w nazwach kolumn są białe znaki
data.columns = data.columns.str.strip()
data.columns

Index(['carat', 'clarity', 'color', 'cut', 'x dimension', 'y dimension',
       'z dimension', 'depth', 'table', 'price'],
      dtype='object')

## Kolumna clarity

In [5]:
clarity_categories = set(data['clarity'])
clarity_categories

# W nazwach są białe znaki
data['clarity'] = data['clarity'].str.strip()

clarity_categories = set(data['clarity'])
clarity_categories

{'I1',
 'IF',
 'SI2',
 'Si1',
 'Si2',
 'VVS1',
 'VVS2',
 'Vvs1',
 'i1',
 'if',
 'si1',
 'si2',
 'vvs1',
 'vvs2'}

In [6]:
# Mapowanie rodzajów i ustawienie typu na kategorie

mapping = {'i1': 'I1', 'if': 'IF', 'si1': 'Si1', 'si2': 'SI2','Si2': 'SI2' ,'vvs1': 'VVS1', 'Vvs1': 'VVS1', 'vvs2': 'VVS2'}
data['clarity'] = data['clarity'].replace(mapping)

clarity_categories = set(data['clarity'])
clarity_categories

data['clarity'] = data['clarity'].astype('category')
data.dtypes


carat           float64
clarity        category
color            object
cut              object
x dimension      object
y dimension      object
z dimension      object
depth            object
table            object
price            object
dtype: object

## Kolumna **color**

In [7]:
colors = set(data['color'])
colors

# W nazwach kolorów są białe znaki
data['color'] = data['color'].str.strip()

colors = set(data['color'])
colors

{'Colorless',
 'D',
 'E',
 'F',
 'G',
 'H',
 'I',
 'J',
 'colorless',
 'd',
 'e',
 'f',
 'g',
 'h',
 'j'}

In [8]:
# Mapowanie kolorów i ustawienie typu na kategorie

mapping = {'colorless': 'Colorless', 'd': 'D', 'e': 'E', 'f': 'F', 'g': 'G', 'h': 'H', 'j': 'J'}
data['color'] = data['color'].replace(mapping)

colors = set(data['color'])
colors

data['color'] = data['color'].astype('category')
data.dtypes

carat           float64
clarity        category
color          category
cut              object
x dimension      object
y dimension      object
z dimension      object
depth            object
table            object
price            object
dtype: object

## Kolumna cut

In [9]:
cut_categories = set(data['cut'])

# W nazwach są białe znaki
data['cut'] = data['cut'].str.strip()

cut_categories = set(data['cut'])
cut_categories

{'Fair',
 'Good',
 'Ideal',
 'Premium',
 'Very Good',
 'Very good',
 'fair',
 'good',
 'ideal',
 'premium',
 'very Good',
 'very good'}

In [10]:
# Mapowanie szlifów i ustawienie typu na kategorie

mapping = {'fair': 'Fair', 'good': 'Good', 'ideal': 'Ideal', 'premium': 'Premium', 'very good': 'Very Good', 'Very good': 'Very Good', 'very Good': 'Very Good'}
data['cut'] = data['cut'].replace(mapping)

cut_categories = set(data['cut'])
cut_categories

data['cut'] = data['cut'].astype('category')
data.dtypes

carat           float64
clarity        category
color          category
cut            category
x dimension      object
y dimension      object
z dimension      object
depth            object
table            object
price            object
dtype: object

In [11]:
#Ustawienie typu danych dla reszty kolumn

cols_with_empty_strings = data.columns[data.apply(lambda col: col == ' ').any()]
data[cols_with_empty_strings] = data[cols_with_empty_strings].replace(' ', np.nan)

data['x dimension'] = data['x dimension'].astype(float)
data['y dimension'] = data['y dimension'].astype(float)
data['z dimension'] = data['z dimension'].astype(float)
data['depth'] = data['depth'].astype(float)
data['table'] = data['table'].astype('Int32')
data['price'] = data['price'].astype('Int32')

data.dtypes


carat           float64
clarity        category
color          category
cut            category
x dimension     float64
y dimension     float64
z dimension     float64
depth           float64
table             Int32
price             Int32
dtype: object

In [32]:
data.head(15)


Unnamed: 0,carat,clarity,color,cut,x dimension,y dimension,z dimension,depth,table,price
0,1.4,SI2,D,Very Good,7.3,,4.5,62.6,59,11425
1,0.9,IF,G,Very Good,6.3,,3.9,,57,6700
2,0.55,I1,I,Premium,5.3,,3.28,62.3,57,2500
3,1.4,VVS2,H,Good,7.2,,4.45,62.7,58,12000
4,1.4,VVS1,E,Premium,7.1,,4.4,62.7,58,11500
5,1.4,VVS2,H,Good,7.1,,4.39,62.7,59,11200
6,1.4,IF,D,Good,7.1,7.12,,62.4,59,11000
7,1.5,VVS2,F,Good,7.2,7.18,,62.7,59,10800
8,1.35,SI2,E,Ideal,7.2,,4.46,62.8,57,10700
9,1.25,SI2,G,Fair,6.9,6.91,,62.3,58,10500


# Usuwanie wierszy z brakującymi danymi

In [13]:
# Postanowiłem usunąć wiersze gdzie carat jest nan. 
# Myślę, że jest to największy czynnik który ma wpływ na cene wyrobu
# Zmniejszy to rozmiar danych o 50 wierszy ale dane będą dokładniejsze
count = data['carat'].isna().sum()
data = data.dropna(subset=['carat'])

# Brakujące dane w kolumnie price postanowiłem zamienić średnią z wierszy o podobnych wartościach (carat i cut jest taki sam)
# Zobaczmy ile jest wierszy gdzie carat i cut jest taki sam - 82
size = len(data.groupby(['carat', 'cut'], observed=True))
size

82

In [14]:
# Ilosc wierszy bez ceny
price_na_data = data[data['price'].isna()]
print(len(price_na_data)) 

2


In [15]:
# Wyswietlmy wiersze gdzie price jest nan oraz wiersze z takim samym carat i cut
matched_data = pd.merge(data,price_na_data[['carat', 'cut']], on=['carat', 'cut'])
matched_data 

Unnamed: 0,carat,clarity,color,cut,x dimension,y dimension,z dimension,depth,table,price
0,1.0,VVS1,F,Ideal,6.4,,4.0,,58,7500.0
1,1.0,IF,D,Ideal,6.5,6.49,,61.7,58,
2,0.5,Si1,Colorless,Premium,,5.21,3.21,61.6,58,
3,0.5,VVS1,E,Premium,5.2,5.22,,,58,2900.0
4,0.5,VVS2,F,Premium,5.2,5.23,,62.1,58,3200.0
5,0.5,Si1,H,Premium,5.1,,3.16,62.3,57,3000.0
6,0.5,SI2,E,Premium,5.1,5.11,,62.5,55,2900.0


In [16]:
# Liczba wierszy z cena oraz z takim samym cut i caratem
print(len(matched_data[~matched_data['price'].isna()])) # 5

5


In [17]:
mean_prices = data.groupby(['carat', 'cut'], observed=True)['price'].mean().reset_index(name='mean_price')
merged_data = pd.merge(data, mean_prices, on=['carat', 'cut'], how='left')
merged_data['mean_price'] = merged_data['mean_price'].astype('Int32')
price_nan_mask_merged = merged_data['price'].isna()
merged_data['price'] = merged_data['price'].fillna(merged_data['mean_price']) # inplace=true dawalo warning 
merged_data[price_nan_mask_merged]

Unnamed: 0,carat,clarity,color,cut,x dimension,y dimension,z dimension,depth,table,price,mean_price
7,0.5,Si1,Colorless,Premium,,5.21,3.21,61.6,58,3000,3000
12,1.0,IF,D,Ideal,6.5,6.49,,61.7,58,7500,7500


In [18]:
data = merged_data.drop(columns=['mean_price'])
data[price_nan_mask_merged]

Unnamed: 0,carat,clarity,color,cut,x dimension,y dimension,z dimension,depth,table,price
7,0.5,Si1,Colorless,Premium,,5.21,3.21,61.6,58,3000
12,1.0,IF,D,Ideal,6.5,6.49,,61.7,58,7500


# Duplikaty

In [19]:
data.duplicated().sum()
# Nie ma wierszy identycznych

# Sprawdzmy duplikaty biorąc pod uwage ponizsze kolumny
duplicates = data.duplicated(subset=['carat', 'cut', 'clarity', 'x dimension', 'y dimension', 'z dimension'], keep=False)
data[duplicates]

# Znaleziono tylko 2 rekordy, cena moze sie roznic ze wzgledu na kolor

# Wyglada na to ze zbior po wstepnym oczyszczeniu nie ma duplikatow 


Unnamed: 0,carat,clarity,color,cut,x dimension,y dimension,z dimension,depth,table,price
53,1.2,VVS1,E,Premium,6.8,,4.2,62.7,58,10200
102,1.2,VVS1,G,Premium,6.8,,4.2,,58,10100


# Błędne dane

In [20]:
# Po obejrzeniu wykresów z rozkładem zmiennych zauważyłem, że 4 wiersze znacząco odbiegają od reszty
data = data.sort_values(by='price', ascending=False)
data.head(3)

# Tak jak wcześniej, zamienie ceny na średnią cen z podobnych rekordów (carat + cut)
# Najpierw zamienie te ceny na nan 
data.loc[data['price'] > 12000, 'price'] = np.nan

mean_prices = data.groupby(['carat', 'cut'], observed=True)['price'].mean().reset_index(name='mean_price')
merged_data = pd.merge(data, mean_prices, on=['carat', 'cut'], how='left')
merged_data['mean_price'] = merged_data['mean_price'].astype('Int32')

merged_data_na_price_mask = merged_data['price'].isna()

merged_data['price'] = merged_data['price'].fillna(merged_data['mean_price']) # inplace=true dawalo warning 

In [21]:
data = merged_data.drop(columns=['mean_price'])
data[merged_data_na_price_mask]

Unnamed: 0,carat,clarity,color,cut,x dimension,y dimension,z dimension,depth,table,price
0,1.4,SI2,D,Very Good,7.3,,4.5,62.6,59,
1,0.9,IF,G,Very Good,6.3,,3.9,,57,6700.0
2,0.55,I1,I,Premium,5.3,,3.28,62.3,57,2500.0


In [22]:
# Dla tego rekordu nie udało się znaleźć dopasowania
data[data['price'].isna()]

Unnamed: 0,carat,clarity,color,cut,x dimension,y dimension,z dimension,depth,table,price
0,1.4,SI2,D,Very Good,7.3,,4.5,62.6,59,


In [23]:
# Znajdźmy rekordy z takim samym caratem bez takiego samego szlifu
mean = data[data['carat'] == 1.4]['price'].mean()
data['price'] = data['price'].fillna(mean)

In [37]:
data[data['carat'] == 1.4]

Unnamed: 0,carat,clarity,color,cut,x dimension,y dimension,z dimension,depth,table,price
0,1.4,SI2,D,Very Good,7.3,,4.5,62.6,59,11425
3,1.4,VVS2,H,Good,7.2,,4.45,62.7,58,12000
4,1.4,VVS1,E,Premium,7.1,,4.4,62.7,58,11500
5,1.4,VVS2,H,Good,7.1,,4.39,62.7,59,11200
6,1.4,IF,D,Good,7.1,7.12,,62.4,59,11000


In [25]:
# Po ponownym obejrzeniu wykresu zauważyłem poniższy rekord, którego cena znacząco odbiega od normy
data[data['carat'] == 1.6]

Unnamed: 0,carat,clarity,color,cut,x dimension,y dimension,z dimension,depth,table,price
91,1.6,I1,I,Fair,7.3,7.28,4.5,,54,3400


In [26]:
# Jako że nie ma innych wierszy z caratem równym 1.6 na razie go usunę
data = data[data['carat'] != 1.6]

In [27]:
# Cena dwóch ostatnich wierszy też odbiega od normy
data[data['carat']==0.9]

Unnamed: 0,carat,clarity,color,cut,x dimension,y dimension,z dimension,depth,table,price
1,0.9,IF,G,Very Good,6.3,,3.9,,57.0,6700
50,0.9,SI2,G,Premium,6.3,6.31,3.9,,58.0,6900
53,0.9,SI2,H,Premium,6.2,6.21,3.84,,59.0,6800
54,0.9,Si1,I,Very Good,6.2,,3.85,62.2,59.0,6700
55,0.9,Si1,Colorless,Premium,6.2,6.22,,62.3,59.0,6600
114,0.9,SI2,H,Fair,6.1,6.12,3.78,62.4,,2600
121,0.9,I1,J,Fair,6.0,,3.7,61.7,,2400


In [28]:
data.loc[(data['carat'] == 0.9) & (data['price'] == 2400), 'price'] = np.nan
data.loc[(data['carat'] == 0.9) & (data['price'] == 2600), 'price'] = np.nan

In [29]:
data[data['carat']==0.9]

Unnamed: 0,carat,clarity,color,cut,x dimension,y dimension,z dimension,depth,table,price
1,0.9,IF,G,Very Good,6.3,,3.9,,57.0,6700.0
50,0.9,SI2,G,Premium,6.3,6.31,3.9,,58.0,6900.0
53,0.9,SI2,H,Premium,6.2,6.21,3.84,,59.0,6800.0
54,0.9,Si1,I,Very Good,6.2,,3.85,62.2,59.0,6700.0
55,0.9,Si1,Colorless,Premium,6.2,6.22,,62.3,59.0,6600.0
114,0.9,SI2,H,Fair,6.1,6.12,3.78,62.4,,
121,0.9,I1,J,Fair,6.0,,3.7,61.7,,


In [30]:
mean = data[data['carat'] == 0.9]['price'].mean()
data['price'] = data['price'].fillna(mean)

# Zapisanie danych

In [31]:
data.to_csv('prepared_data.csv',index=False)