# # 01 - Explorarea și curățarea datelor
# 
# În acest notebook:
# - Încărcăm datele brute din `products.csv`
# - Explorăm setul de date
# - Curățăm datele lipsă și standardizăm textul
# - Facem inginerie de caracteristici simple
# 
# Acesta este primul pas în pregătirea datelor pentru modelare.

In [3]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import re

# Configurări pentru afișare
pd.set_option('display.max_columns', None)

In [4]:
# Încărcare dataset
df = pd.read_csv("../data/products.csv")

# Privire generală
print("Primele 5 rânduri:")
display(df.head())


Primele 5 rânduri:


Unnamed: 0,product ID,Product Title,Merchant ID,Category Label,Product Code,Number_of_Views,Merchant Rating,Listing Date
0,1,apple iphone 8 plus 64gb silver,1,Mobile Phones,QA-2276-XC,860.0,2.5,5/10/2024
1,2,apple iphone 8 plus 64 gb spacegrau,2,Mobile Phones,KA-2501-QO,3772.0,4.8,12/31/2024
2,3,apple mq8n2b/a iphone 8 plus 64gb 5.5 12mp sim...,3,Mobile Phones,FP-8086-IE,3092.0,3.9,11/10/2024
3,4,apple iphone 8 plus 64gb space grey,4,Mobile Phones,YI-0086-US,466.0,3.4,5/2/2022
4,5,apple iphone 8 plus gold 5.5 64gb 4g unlocked ...,5,Mobile Phones,NZ-3586-WP,4426.0,1.6,4/12/2023


In [5]:
# Informații generale
print("\nInformații despre dataset:")
print(df.info())
print("\nStatistici descriptive:")
display(df.describe(include='all'))


Informații despre dataset:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 35311 entries, 0 to 35310
Data columns (total 8 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   product ID       35311 non-null  int64  
 1   Product Title    35139 non-null  object 
 2   Merchant ID      35311 non-null  int64  
 3   Category Label   35267 non-null  object 
 4   Product Code     35216 non-null  object 
 5   Number_of_Views  35297 non-null  float64
 6   Merchant Rating  35141 non-null  float64
 7   Listing Date     35252 non-null  object 
dtypes: float64(2), int64(2), object(4)
memory usage: 2.2+ MB
None

Statistici descriptive:


Unnamed: 0,product ID,Product Title,Merchant ID,Category Label,Product Code,Number_of_Views,Merchant Rating,Listing Date
count,35311.0,35139,35311.0,35267,35216,35297.0,35141.0,35252
unique,,30860,,13,35216,,,1096
top,,washing machine,,Fridge Freezers,WU-5686-LX,,,8/5/2024
freq,,90,,5495,1,,,53
mean,26150.800176,,120.501883,,,2501.469587,2.998261,
std,13498.19122,,117.045557,,,1438.217697,1.152664,
min,1.0,,1.0,,,0.0,1.0,
25%,14958.5,,17.0,,,1256.0,2.0,
50%,27614.0,,75.0,,,2509.0,3.0,
75%,37508.5,,253.0,,,3735.0,4.0,


In [6]:
# Verificare valori lipsă
print("\nValori lipsă pe coloană:")
print(df.isnull().sum())



Valori lipsă pe coloană:
product ID           0
Product Title      172
Merchant ID          0
Category Label      44
Product Code        95
Number_of_Views     14
Merchant Rating    170
Listing Date        59
dtype: int64


# ## Curățarea datelor
# - Eliminăm rândurile unde lipsesc coloanele esențiale
# - Curățăm textul din `Product Title`


In [7]:
df.dropna(subset=["Product Title", "Category Label"], inplace=True)

# Funcție de curățare titluri
def clean_title(title):
    title = title.lower()
    title = re.sub(r'[^a-z0-9\s]', '', title)
    return title

df["Product Title"] = df["Product Title"].apply(clean_title)


In [8]:
# Exemplu după curățare
print("\nPrimele 5 titluri după curățare:")
display(df["Product Title"].head())



Primele 5 titluri după curățare:


0                      apple iphone 8 plus 64gb silver
1                  apple iphone 8 plus 64 gb spacegrau
2    apple mq8n2ba iphone 8 plus 64gb 55 12mp sim f...
3                  apple iphone 8 plus 64gb space grey
4    apple iphone 8 plus gold 55 64gb 4g unlocked s...
Name: Product Title, dtype: object

# ## Inginerie caracteristici simple
# Adăugăm câteva coloane suplimentare pentru analiză și posibil îmbunătățirea modelului:
# - Lungimea titlului (nr. caractere)
# - Nr. de cuvinte
# - Dacă titlul conține cifre


In [9]:
df["title_length"] = df["Product Title"].apply(len)
df["word_count"] = df["Product Title"].apply(lambda x: len(x.split()))
df["has_number"] = df["Product Title"].apply(lambda x: int(bool(re.search(r'\d', x))))

display(df.head())

Unnamed: 0,product ID,Product Title,Merchant ID,Category Label,Product Code,Number_of_Views,Merchant Rating,Listing Date,title_length,word_count,has_number
0,1,apple iphone 8 plus 64gb silver,1,Mobile Phones,QA-2276-XC,860.0,2.5,5/10/2024,31,6,1
1,2,apple iphone 8 plus 64 gb spacegrau,2,Mobile Phones,KA-2501-QO,3772.0,4.8,12/31/2024,35,7,1
2,3,apple mq8n2ba iphone 8 plus 64gb 55 12mp sim f...,3,Mobile Phones,FP-8086-IE,3092.0,3.9,11/10/2024,68,13,1
3,4,apple iphone 8 plus 64gb space grey,4,Mobile Phones,YI-0086-US,466.0,3.4,5/2/2022,35,7,1
4,5,apple iphone 8 plus gold 55 64gb 4g unlocked s...,5,Mobile Phones,NZ-3586-WP,4426.0,1.6,4/12/2023,53,11,1


# ## Vizualizare distribuția categoriilor
plt.figure(figsize=(12,6))
sns.countplot(data=df, y="Category Label", order=df["Category Label"].value_counts().index)
plt.title("Distribuția categoriilor")
plt.show()


# ### Concluzii explorare și curățare
# - Setul de date este curățat și gata pentru modelare.
# - Avem coloane suplimentare (`title_length`, `word_count`, `has_number`).
# - Următorul pas: modelare ML în `02_modeling_and_evaluation.ipynb`.