<p style="text-align:center">
    <a href="https://skills.network" target="_blank">
    <img src="https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/assets/logos/SN_web_lightmode.png" width="300" alt="Skills Network Logo">
    </a>
</p>


# Test Environment for Generative AI classroom labs

This lab provides a test environment for the codes generated using the Generative AI classroom.

Follow the instructions below to set up this environment for further use.


# Setup


### Install required libraries

In case of a requirement of installing certain python libraries for use in your task, you may do so as shown below.


In [2]:
%pip install seaborn nbformat plotly



In [5]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


### Dataset URL from the GenAI lab
Use the URL provided in the GenAI lab in the cell below.


In [3]:
URL = "https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/IBMDeveloperSkillsNetwork-DA0101EN-Coursera/laptop_pricing_dataset_mod1.csv"

### Downloading the dataset

Execute the following code to download the dataset in to the interface.

> Please note that this step is essential in JupyterLite. If you are using a downloaded version of this notebook and running it on JupyterLabs, then you can skip this step and directly use the URL in pandas.read_csv() function to read the dataset as a dataframe


In [7]:
import requests

def download(url, filename):
    response = requests.get(url, stream=True)
    if response.status_code == 200:
        with open(filename, "wb") as f:
            for chunk in response.iter_content(chunk_size=8192):
                f.write(chunk)
    else:
        print(f"Error downloading file: {response.status_code}")

path = URL

download(path, "/content/drive/My Drive/ColabNotebooks/Coursera/data_scientist/generative_ai/module1_data_science_and_generative_ai/dataset.csv")
file_name  = "dataset.csv"

---


# Test Environment


In [8]:
# Keep appending the code generated to this cell, or add more cells below this to execute in parts
import pandas as pd

df = pd.read_csv(file_name)
display(df.head())

Unnamed: 0.1,Unnamed: 0,Manufacturer,Category,Screen,GPU,OS,CPU_core,Screen_Size_cm,CPU_frequency,RAM_GB,Storage_GB_SSD,Weight_kg,Price
0,0,Acer,4,IPS Panel,2,1,5,35.56,1.6,8,256,1.6,978
1,1,Dell,3,Full HD,1,1,3,39.624,2.0,4,256,2.2,634
2,2,Dell,3,Full HD,1,1,7,39.624,2.7,8,256,2.2,946
3,3,Dell,4,IPS Panel,2,1,5,33.782,1.6,8,128,1.22,1244
4,4,HP,4,Full HD,2,1,7,39.624,1.8,8,256,1.91,837


## Handle Missing Value

In [9]:
missing_data = df.isnull().sum()
missing_data = missing_data[missing_data > 0]

if not missing_data.empty:
    print("Các cột có giá trị bị thiếu và số lượng giá trị bị thiếu:")
    display(missing_data)
else:
    print("Không có giá trị bị thiếu nào trong DataFrame.")

Các cột có giá trị bị thiếu và số lượng giá trị bị thiếu:


Unnamed: 0,0
Screen_Size_cm,4
Weight_kg,5


In [10]:
# Thay thế các giá trị bị thiếu cho 'Screen_Size_cm' bằng giá trị mode
mode_screen_size = df['Screen_Size_cm'].mode()[0]
df['Screen_Size_cm'].fillna(mode_screen_size, inplace=True)

# Thay thế các giá trị bị thiếu cho 'Weight_kg' bằng giá trị trung bình
mean_weight_kg = df['Weight_kg'].mean()
df['Weight_kg'].fillna(mean_weight_kg, inplace=True)

# Kiểm tra lại các giá trị bị thiếu sau khi xử lý
missing_data_after_imputation = df.isnull().sum()
missing_data_after_imputation = missing_data_after_imputation[missing_data_after_imputation > 0]

if not missing_data_after_imputation.empty:
    print("Các cột vẫn còn giá trị bị thiếu sau khi xử lý:")
    display(missing_data_after_imputation)
else:
    print("Tất cả các giá trị bị thiếu đã được xử lý.")

Tất cả các giá trị bị thiếu đã được xử lý.


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Screen_Size_cm'].fillna(mode_screen_size, inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Weight_kg'].fillna(mean_weight_kg, inplace=True)


## Modify data type

In [11]:
df['Screen_Size_cm'] = df['Screen_Size_cm'].astype(float)
df['Weight_kg'] = df['Weight_kg'].astype(float)

print("Kiểu dữ liệu sau khi chuyển đổi:")
display(df[['Screen_Size_cm', 'Weight_kg']].dtypes)

Kiểu dữ liệu sau khi chuyển đổi:


Unnamed: 0,0
Screen_Size_cm,float64
Weight_kg,float64


## Standardization and Normalization

In [12]:
# Chuyển đổi 'Screen_Size_cm' sang 'Screen_Size_inch'
df['Screen_Size_inch'] = df['Screen_Size_cm'] / 2.54

# Xóa cột 'Screen_Size_cm' gốc nếu không còn cần thiết
df.drop('Screen_Size_cm', axis=1, inplace=True)

# Chuyển đổi 'Weight_kg' sang 'Weight_pounds'
df['Weight_pounds'] = df['Weight_kg'] * 2.20462

# Xóa cột 'Weight_kg' gốc nếu không còn cần thiết
df.drop('Weight_kg', axis=1, inplace=True)

print("DataFrame sau khi chuyển đổi và đổi tên thuộc tính:")
display(df[['Screen_Size_inch', 'Weight_pounds']].head())

DataFrame sau khi chuyển đổi và đổi tên thuộc tính:


Unnamed: 0,Screen_Size_inch,Weight_pounds
0,14.0,3.527392
1,15.6,4.850164
2,15.6,4.850164
3,13.3,2.689636
4,15.6,4.210824


In [13]:
# Chuẩn hóa thuộc tính 'CPU_frequency' dựa trên giá trị lớn nhất của nó
max_cpu_frequency = df['CPU_frequency'].max()
df['CPU_frequency'] = df['CPU_frequency'] / max_cpu_frequency

print("Giá trị 'CPU_frequency' sau khi chuẩn hóa:")
display(df['CPU_frequency'].head())

Giá trị 'CPU_frequency' sau khi chuẩn hóa:


Unnamed: 0,CPU_frequency
0,0.551724
1,0.689655
2,0.931034
3,0.551724
4,0.62069


In [14]:
# Chuyển đổi thuộc tính 'Screen' thành các biến chỉ báo
df1 = pd.get_dummies(df['Screen'], prefix='Screen')

# Nối df1 vào DataFrame gốc df
df = pd.concat([df, df1], axis=1)

# Xóa thuộc tính gốc 'Screen' khỏi DataFrame df
df.drop('Screen', axis=1, inplace=True)

print("DataFrame sau khi chuyển đổi 'Screen' thành biến chỉ báo:")
display(df.head())

DataFrame sau khi chuyển đổi 'Screen' thành biến chỉ báo:


Unnamed: 0.1,Unnamed: 0,Manufacturer,Category,GPU,OS,CPU_core,CPU_frequency,RAM_GB,Storage_GB_SSD,Price,Screen_Size_inch,Weight_pounds,Screen_Full HD,Screen_IPS Panel
0,0,Acer,4,2,1,5,0.551724,8,256,978,14.0,3.527392,False,True
1,1,Dell,3,1,1,3,0.689655,4,256,634,15.6,4.850164,True,False
2,2,Dell,3,1,1,7,0.931034,8,256,946,15.6,4.850164,True,False
3,3,Dell,4,2,1,5,0.551724,8,128,1244,13.3,2.689636,False,True
4,4,HP,4,2,1,7,0.62069,8,256,837,15.6,4.210824,True,False


## Practice Problems

In [15]:
conversion_rate_usd_to_euro = 0.86
df['Price_Euro'] = df['Price'] * conversion_rate_usd_to_euro

print("DataFrame sau khi chuyển đổi giá từ USD sang Euro:")
display(df[['Price', 'Price_Euro']].head())

DataFrame sau khi chuyển đổi giá từ USD sang Euro:


Unnamed: 0,Price,Price_Euro
0,978,841.08
1,634,545.24
2,946,813.56
3,1244,1069.84
4,837,719.82


In [16]:
# Thực hiện chuẩn hóa min-max trên thuộc tính 'CPU_frequency'
min_cpu_frequency = df['CPU_frequency'].min()
max_cpu_frequency = df['CPU_frequency'].max()

df['CPU_frequency_min_max_normalized'] = (df['CPU_frequency'] - min_cpu_frequency) / (max_cpu_frequency - min_cpu_frequency)

print("Giá trị 'CPU_frequency' sau khi chuẩn hóa min-max:")
display(df[['CPU_frequency', 'CPU_frequency_min_max_normalized']].head())

Giá trị 'CPU_frequency' sau khi chuẩn hóa min-max:


Unnamed: 0,CPU_frequency,CPU_frequency_min_max_normalized
0,0.551724,0.235294
1,0.689655,0.470588
2,0.931034,0.882353
3,0.551724,0.235294
4,0.62069,0.352941


## Authors


[Abhishek Gagneja](https://www.linkedin.com/in/abhishek-gagneja-23051987/)


## Change Log


|Date (YYYY-MM-DD)|Version|Changed By|Change Description|
|-|-|-|-|
|2023-12-10|0.1|Abhishek Gagneja|Initial Draft created|


Copyright © 2023 IBM Corporation. All rights reserved.
