<a href="https://colab.research.google.com/github/HieuHuyNguyenzz/Federated-Learning/blob/main/FedArtML_1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# FedArtML


---







FedArtML là một công cụ cho phép tạo ra các bộ dữ liệu non-IID (Independent and Identically Distributed) datasets từ một bộ dữ liệu tập chung (Centralized) một cách có hệ thống và kiểm soát nhằm phục vụ cho việc nghiên cứu

File 1 cung cấp cách để mô hình hóa và kiểm tra mức độ non-IID của bộ dữ liệu

## Tải công cụ

In [1]:
!pip install fedartml
!pip show fedartml

Collecting fedartml
  Downloading FedArtML-0.1.28-py3-none-any.whl (16 kB)
Collecting jedi>=0.16 (from ipython>=4.0.0->ipywidgets->fedartml)
  Downloading jedi-0.19.1-py2.py3-none-any.whl (1.6 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.6/1.6 MB[0m [31m15.4 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: jedi, fedartml
Successfully installed fedartml-0.1.28 jedi-0.19.1
Name: FedArtML
Version: 0.1.28
Summary: Federated learning for Artificial Intelligence and Machine Learning library 
Home-page: 
Author: Daniel Mauricio Jimenez Gutierrez, Aris Anagnostopoulos, Ioannis Chatzigiannakis, Andrea Vitaletti
Author-email: jimenezgutierrez@diag.uniroma1.it
License: MIT
Location: /usr/local/lib/python3.10/dist-packages
Requires: ipywidgets, keras, matplotlib, numpy, pandas, scipy, tensorflow
Required-by: 


## Import các thư viện cần thiết

In [2]:
# Import thư viện
from fedartml import InteractivePlots

import seaborn as sns
import pandas as pd
import numpy as np
from fedartml.function_base import get_spaced_colors
from keras.datasets import cifar10

In [3]:
sns.set(style="darkgrid")

# Cài đặt trạng thái ngẫu nhiên nhằm đảm bảo tính tái tạo
random_state = 0

## Thực nghiệm trên bộ dữ liệu CIFAR-10

Bộ dữ liệu bao gồm 60,000 hình ảnh màu trong 10 lớp: máy bay, ô tô, chim, mèo, hươu, chó, ếch, ngựa, thuyền, và xe tải. Khoảng 6,000 hình ảnh đại diện cho mỗi lớp.

In [4]:
# Load CIFAR 10data
(x_train, y_train), (x_test, y_test) = cifar10.load_data()

# Define (centralized) labels to use
CIFAR10_labels = y_train

print("Labels shape:", CIFAR10_labels.shape)

Downloading data from https://www.cs.toronto.edu/~kriz/cifar-10-python.tar.gz
Labels shape: (50000, 1)


### Percentage NonIID-ness method

Phương pháp đầu tiên để kiểm tra là phương pháp Percentage of non-IID-ness-based, đây là một kỹ thuật chia dữ liệu dựa trên tỷ lệ non-iid mong muốn từ tập dữ liệu trung tâm. Thêm vào đó, chúng ta sử dụng khoảng cách Hellinger để đo lường sự tách biệt giữa các phân phối xác suất của các khách hàng.

Biểu đồ dưới đây hiển thị trên trục x số lượng Client mong muốn và trên trục y sự tham gia (xác suất) của mỗi lớp. Ngoài ra, mỗi lớp được biểu đồ với một màu khác nhau.

In [5]:
# Instanciate InteractivePlots object
my_plot = InteractivePlots(labels = CIFAR10_labels, random_state = random_state, distance = "hellinger")

# Show plot
my_plot.show_stacked_distr_percent_noniid()

interactive(children=(FloatSlider(value=0.0, description='Pctg_NonIID', layout=Layout(width='1000px'), readout…

()


Biểu đồ thứ hai hiển thị trên trục x số lượng Client, trục y hiển thị lớp của các nhãn. Ngoài ra, đường kính của mỗi hình tròn đại diện cho số lượng ví dụ trong mỗi khách hàng và mỗi lớp. Điều này có nghĩa là càng nhiều số lượng mẫu trong mỗi khách hàng và lớp, đường kính của các điểm càng lớn.

In [6]:
# Instanciate InteractivePlots object
my_plot = InteractivePlots(labels = CIFAR10_labels, random_state = random_state, distance = "hellinger")

# Show plot
my_plot.show_scatter_distr_percent_noniid()

interactive(children=(FloatSlider(value=0.0, description='Pctg_NonIID', layout=Layout(width='1000px'), readout…

()

Biểu đồ cột dọc thứ ba được chia thành từng khách hàng, hiển thị trên trục x sự tham gia và, trên trục y, các lớp của các nhãn.

In [7]:
# Instanciate InteractivePlots object
my_plot = InteractivePlots(labels = CIFAR10_labels, random_state = random_state, distance = "hellinger")

# Show plot
my_plot.show_bar_divided_distr_percent_noniid()

interactive(children=(FloatSlider(value=0.0, description='Pctg_NonIID', layout=Layout(width='1000px'), readout…

()

### Dirichlet method

Phương pháp thứ hai để kiểm tra là phương pháp "Dirichlet" - một kỹ thuật sử dụng phân phối Dirichlet (DD) để phân chia dữ liệu. DD là một phân phối xác suất tạo ra một tập hợp các số ngẫu nhiên có tổng bằng 1, được kiểm soát bởi tham số alpha.

In [8]:
# Instanciate InteractivePlots object
my_plot = InteractivePlots(labels = CIFAR10_labels, random_state = random_state, distance = "hellinger")

# Show plot
my_plot.show_stacked_distr_dirichlet()

interactive(children=(FloatLogSlider(value=1000.0, description='Alpha', layout=Layout(width='1000px'), max=3.0…

()

In [9]:
# Instanciate InteractivePlots object
my_plot = InteractivePlots(labels = CIFAR10_labels, random_state = random_state, distance = "hellinger")

# Show plot
my_plot.show_scatter_distr_dirichlet()

interactive(children=(FloatLogSlider(value=1000.0, description='Alpha', layout=Layout(width='1000px'), max=3.0…

()

In [10]:
# Instanciate InteractivePlots object
my_plot = InteractivePlots(labels = CIFAR10_labels, random_state = random_state, distance = "hellinger")

# Show plot
my_plot.show_bar_divided_distr_dirichlet()

interactive(children=(FloatLogSlider(value=1000.0, description='Alpha', layout=Layout(width='1000px'), max=3.0…

()

## Custom

User có thể thay đổi các đặc tính liên quan đến thanh trượt và biểu đồ.

### Cập nhật thanh trượt cho các biểu đồ (Dirichlet)


Đoạn code dưới đây mô tả các tham số mặc định của thanh trượt cho biểu đồ cột chồng với phương pháp Dirichlet.

Chú ý: Các tham số và tùy chọn vẽ được kế thừa từ ipywidgets.interact. Điều này có nghĩa là bạn có thể sử dụng các tham số (như min, width, value, v.v.) giống như trong một biểu đồ từ ipywidgets.interact.

In [11]:
# Defining the default values of sliders
alpha_slider_kwargs = {'min': -2, 'max': 3, 'value': 1000, 'readout_format': '.4'}
alpha_slider_lout_kwargs ={'width': '1000px'}
loc_nodes_slider_kwargs = {'min': 1, 'max': 10, 'step': 1, 'value': 4}
loc_nodes_slider_lout_kwargs = {'width': '1000px'}

slider_kwargs = {'alpha_slider_kwargs':alpha_slider_kwargs,'alpha_slider_lout_kwargs':alpha_slider_lout_kwargs
          , 'loc_nodes_slider_kwargs':loc_nodes_slider_kwargs, 'loc_nodes_slider_lout_kwargs':loc_nodes_slider_lout_kwargs}

# Instanciate InteractivePlots object
my_plot = InteractivePlots(labels = CIFAR10_labels, random_state = random_state, distance = "hellinger")

# Show plot
my_plot.show_stacked_distr_dirichlet(**slider_kwargs)

interactive(children=(FloatLogSlider(value=1000.0, description='Alpha', layout=Layout(width='1000px'), max=3.0…

()

Bây giờ, giả sử bạn muốn thay đổi giá trị mặc định của Alpha và số lượng tối đa khách hàng (nút cục bộ). Vì vậy, chúng ta có thể đặt các tham số như sau:
- value from alpha_slider_kwargs to 0.01.
- max from loc_nodes_slider_kwargs to 15.

In [12]:
# Defining the default values of sliders
alpha_slider_kwargs = {'min': -2, 'max': 3, 'value': 0.01, 'readout_format': '.4'}
alpha_slider_lout_kwargs ={'width': '1000px'}
loc_nodes_slider_kwargs = {'min': 1, 'max': 15, 'step': 1, 'value': 4}
loc_nodes_slider_lout_kwargs = {'width': '1000px'}

slider_kwargs = {'alpha_slider_kwargs':alpha_slider_kwargs,'alpha_slider_lout_kwargs':alpha_slider_lout_kwargs
          , 'loc_nodes_slider_kwargs':loc_nodes_slider_kwargs, 'loc_nodes_slider_lout_kwargs':loc_nodes_slider_lout_kwargs}

# Instanciate InteractivePlots object
my_plot = InteractivePlots(labels = CIFAR10_labels, random_state = random_state, distance = "hellinger")

# Show plot
my_plot.show_stacked_distr_dirichlet(**slider_kwargs)

interactive(children=(FloatLogSlider(value=0.01, description='Alpha', layout=Layout(width='1000px'), max=3.0, …

()

### Cập nhật thanh trượt cho các biểu đồ (Percentage non-IID-ness)

Tương tự như với ở trên.

In [13]:
# Defining the default values of sliders
pctg_noniid_slider_kwargs = {'min': 0, 'max': 100, 'value': 0, 'readout_format': '.4'}
pctg_noniid_slider_lout_kwargs ={'width': '1000px'}
loc_nodes_slider_kwargs = {'min': 1, 'max': 15, 'step': 1, 'value': 4}
loc_nodes_slider_lout_kwargs = {'width': '1000px'}

slider_kwargs = {'pctg_noniid_slider_kwargs':pctg_noniid_slider_kwargs,'pctg_noniid_slider_lout_kwargs':pctg_noniid_slider_lout_kwargs
          , 'loc_nodes_slider_kwargs':loc_nodes_slider_kwargs, 'loc_nodes_slider_lout_kwargs':loc_nodes_slider_lout_kwargs}

### Chỉnh sửa tính thẩm mĩ

Các tham số default cho biểu đồ cột như sau:

In [14]:
# Defining the default aesthetics of plots shown
stack_plot_kwargs = {'figsize':(15, 7), 'fontsize':20, 'rot':0, 'ylim':(0, 110), 'color':get_spaced_colors(len(np.unique(CIFAR10_labels)))}
stack_legend_kwargs = {'loc':'center left', 'bbox_to_anchor':(1.0, 0.5), 'fontsize':12}
stack_xlabel_kwargs = {'xlabel': 'Local Node', 'fontsize':20}
stack_ylabel_kwargs = {'ylabel':'Distribution (%)', 'fontsize':20}
stack_title_kwargs = {'label':"Label's classes distribution across local nodes", 'fontsize':25}
stack_text_DIST_kwargs = {'x':-0.3, 'y':103.5, 'fontsize':20,'backgroundcolor':'#007f88', 'color':'#FFFFFF'}

# Insert all parameters the in a dictionary
stack_plot_kwargs = {'stack_plot_kwargs':stack_plot_kwargs, 'stack_legend_kwargs':stack_legend_kwargs, 'stack_xlabel_kwargs':stack_xlabel_kwargs
               , 'stack_ylabel_kwargs':stack_ylabel_kwargs, 'stack_title_kwargs':stack_title_kwargs, 'stack_text_DIST_kwargs':stack_text_DIST_kwargs}

# Instanciate the plot
my_plot = InteractivePlots(labels = CIFAR10_labels, random_state = random_state, distance = "hellinger", **stack_plot_kwargs)

my_plot.show_stacked_distr_dirichlet()

interactive(children=(FloatLogSlider(value=1000.0, description='Alpha', layout=Layout(width='1000px'), max=3.0…

()

Tính thẩm mĩ của biểu đồ có thể được thay đổi bằng cách thay đổi các tham số trên. Giả sử bạn muốn giảm kích thước của toàn bộ biểu đồ. Do đó, bạn cần thay đổi giá trị tham số figsize bên trong stack_plot_kwargs. Trong trường hợp này, chúng ta sẽ giảm kích thước của nó xuống (10, 7).

In [15]:
# Defining the aesthetics of plots shown
stack_plot_kwargs = {'figsize':(10, 3), 'fontsize':20, 'rot':0, 'ylim':(0, 110), 'color':get_spaced_colors(len(np.unique(CIFAR10_labels)))}
stack_legend_kwargs = {'loc':'center left', 'bbox_to_anchor':(1.0, 0.5), 'fontsize':12}
stack_xlabel_kwargs = {'xlabel': 'Local Node', 'fontsize':20}
stack_ylabel_kwargs = {'ylabel':'Distribution (%)', 'fontsize':20}
stack_title_kwargs = {'label':"Label's classes distribution across local nodes", 'fontsize':25}
stack_text_DIST_kwargs = {'x':-0.3, 'y':103.5, 'fontsize':20,'backgroundcolor':'#007f88', 'color':'#FFFFFF'}

# Insert all parameters the in a dictionary
stack_plot_kwargs = {'stack_plot_kwargs':stack_plot_kwargs, 'stack_legend_kwargs':stack_legend_kwargs, 'stack_xlabel_kwargs':stack_xlabel_kwargs
               , 'stack_ylabel_kwargs':stack_ylabel_kwargs, 'stack_title_kwargs':stack_title_kwargs, 'stack_text_DIST_kwargs':stack_text_DIST_kwargs}

# Instanciate the plot
my_plot = InteractivePlots(labels = CIFAR10_labels, random_state = random_state, distance = "hellinger", **stack_plot_kwargs)

my_plot.show_stacked_distr_dirichlet()

interactive(children=(FloatLogSlider(value=1000.0, description='Alpha', layout=Layout(width='1000px'), max=3.0…

()

Tương tự đối với biểu đồ chấm

In [16]:
colors = ["#00cfcc", "#e6013b", "#007f88", "#00cccd", "#69e0da", "darkblue", "#FFFFFF"]

# Defining the default aesthetics of plots shown
scatter_plot_kwargs = {'figsize': (15, 8), 'fontsize': 17, 'xlim': (0.5), 'ylim': (-2, len(np.unique(CIFAR10_labels)) + 1), 'color': colors[0]}
scatter_xlabel_kwargs = {'xlabel': 'Local Node', 'fontsize': 20}
scatter_ylabel_kwargs = {'ylabel': 'Classes', 'fontsize': 20}
scatter_title_kwargs = {'label': "Number of examples across classes and local nodes", 'fontsize': 25}
scatter_text_DIST_kwargs = {'x': 0.6, 'y': len(np.unique(CIFAR10_labels)), 'fontsize': 20, 'backgroundcolor': colors[2], 'color': colors[6]}
# Insert all parameters the in a dictionary
scatter_plot_kwargs = {'scatter_plot_kwargs':scatter_plot_kwargs, 'scatter_xlabel_kwargs':scatter_xlabel_kwargs
               , 'scatter_ylabel_kwargs':scatter_ylabel_kwargs, 'scatter_title_kwargs':stack_title_kwargs, 'scatter_text_DIST_kwargs':scatter_text_DIST_kwargs}

# Instanciate the plot
# my_plot = InteractivePlots(labels = CIFAR10_labels, random_state = random_state, distance = "hellinger", **scatter_plot_kwargs)

# my_plot.show_scatter_distr_percent_noniid()

và biểu đồ thanh

In [17]:
# Defining the default aesthetics of plots shown
bar_div_subplots_kwargs = {'figsize': (70, 20)}
bar_div_plot_kwargs = {'alpha': 1, 'color': colors[0]}
bar_div_xlabel_kwargs = {'xlabel': 'Particip. (%)', 'fontsize': 60}
bar_div_ylabel_kwargs = {'ylabel': 'Classes', 'fontsize': 60}
# bar_div_title_kwargs = {'label': "Local node " + str(1), 'fontsize': 60}
bar_div_xticks_kwargs = {'fontsize': 30}
bar_div_yticks_kwargs = {'fontsize': 30}
bar_div_xlim_kwargs = {'left': 0, 'right': None}
# bar_div_text_DIST_kwargs = {'x': 0.5, 'y': 0.97, 'ha': 'center', 'va': 'top', 'fontsize': 60, 'color': colors[6], 'backgroundcolor': colors[2]}

# Insert all parameters the in a dictionary
all_bar_div_plot_kwargs = {'bar_div_subplots_kwargs':bar_div_subplots_kwargs, 'bar_div_plot_kwargs':bar_div_plot_kwargs
               , 'bar_div_xlabel_kwargs':bar_div_xlabel_kwargs, 'bar_div_ylabel_kwargs':bar_div_ylabel_kwargs #, 'bar_div_title_kwargs':bar_div_title_kwargs
               , 'bar_div_xticks_kwargs':bar_div_xticks_kwargs, 'bar_div_xticks_kwargs':bar_div_xticks_kwargs, 'bar_div_yticks_kwargs':bar_div_yticks_kwargs
               , 'bar_div_xlim_kwargs':bar_div_xlim_kwargs#, 'bar_div_text_DIST_kwargs':bar_div_text_DIST_kwargs
               }