# `analyzing-KPop`
K-pop is growing popularity, and there's no sign of stopping. With this, let's find out its various trends! Simply put, this program analyzes trends within **K-Pop idols, groups, and music videos from 1992 to 2020.** For more information, kindly read the [informational document](https://github.com/buzz-lightsnack-2007/analyzing-KPop/blob/main/ReadMe.md). 

## Load It Up!

### Loading Functions
Let's load the necessary modules and functions. **Please always run this function first.**

In [1]:
# Loading Functions
# Formatting
formatting = {
	'clear': '\033[0m',
	'color': {
		'purple': '\033[95m',
		'cyan': '\033[96m',
		'cyan_dark': '\033[36m',
		'blue': '\033[94m',
		'green': '\033[92m',
		'yellow': '\033[93m',
		'red': '\033[91m'
	},
	'font': {
		'bold': '\033[1m',
		'underline': '\033[4m'
	}
}

# Screen messages
def info_status(message):
	print(formatting['font']['bold'] + 'Status: \t' + formatting['clear'] + message)
def info_err(message):
	print(formatting['font']['bold'] + formatting['color']['red'] + '🗙 Error: \t' + formatting['clear'] + formatting['clear'] + message)
def info_warning(message):
	print(formatting['font']['bold'] + formatting['color']['yellow'] + '⚠ Warning: \t' + formatting['clear'] + formatting['clear'] + message)
def info_success(message):
	print(formatting['font']['bold'] + formatting['color']['green'] + '✓ Success: \t' + formatting['clear'] + formatting['clear'] + message)

try: 
	# Import modules. 
	import os
	import pandas
	import matplotlib
	
except: 
	info_err("Your runtime is missing either pandas or MatPlotLib.")
	exit()
else: 
	info_success("The necessary modules have been loaded properly. ")

[1m[92m✓ Success: 	[0m[0mThe necessary modules have been loaded properly. 


### Loading Files
Let's check if the files are there!

In [2]:
# Loading Files
def load_check_files(): 
	"""
		This function checks if there are any files inside the data/kpop_idols folder. 

		Parameters: none
		Returns: dictionary containing the major data folder directory and the list of CSV files
	"""
	# Create return variable. 
	directory_suggested = {}

	# Generate list of directories. Kindly change this if you placed the four files elsewhere. 
	directory_list_names_expected = ['data/', 'data/kpop_idols/']

	for directory_name in directory_list_names_expected:
		# Generate the folder's details. 
		directory_contents = sorted(os.listdir(directory_name))

		# expected contents
		directory_expected_contents = ['kpop_idols_boy_groups.csv', 'kpop_idols_girl_groups.csv', 'kpop_idols.csv', 'kpop_music_videos.csv']

		if (sorted(directory_contents) == sorted(directory_expected_contents)): 
			directory_suggested['path'] = directory_name
			directory_suggested['contents'] = directory_contents

			# Let the user know that it is working. 
			info_success(("Files found at folder " + directory_name + " relative to this file."))

			# Return the data. 
			return(directory_suggested)
		
	else: 
		info_err("Folder not found! You might have probably selected the wrong directory; in this case, you may edit the directory_list_names_expected variable. If not, make sure that the files are named properly. ")

try: 
	data_source = load_check_files()
except NameError as e: 
	print("Please always run the first function above when opening this notebook.")
except: 
	info_err("Folder not found! You might have probably selected the wrong directory; in this case, you may edit the directory_list_names_expected variable.")

[1m[92m✓ Success: 	[0m[0mFiles found at folder data/kpop_idols/ relative to this file.


## Convert
Convert the list to a readable type. _You must have already run the previous two cells._

In [3]:
def data_convert(data_source): 
	"""
		Convert the data to a pandas dataframe. 

		Parameters: 
			data_source: (str)the CSV file
		Returns: pandas dataframe
	"""

	# Convert to pandas data frame. 
	data = pandas.read_csv(data_source)

	# Return the data frame. 
	return(data)

def data_convert_all(data_source): 
	"""
		Convert all of the databases. 

		Parameters: 
			data_source: (dict) containing the directory and the CSV name
		Returns: dictionary containing the datas
	"""

	# Create the database dictionary. 
	data_all = {}

	# Convert the data. 
	for data_source_CSV in data_source['contents']: 
		data_all[data_source_CSV[:-4]] = data_convert((data_source['path']+ data_source_CSV))
	
	# Return the dictionary. 
	return(data_all)

# Save the data into a database. 
database = data_convert_all(data_source)

# database as output 
database

{'kpop_idols':      Stage Name      Full Name Korean Name K. Stage Name Date of Birth  \
 0           A.M  Seong Hyunwoo         성현우           에이엠    1996-12-31   
 1           Ace  Jang Wooyoung         장우영           에이스    1992-08-28   
 2          Aeji      Kwon Aeji         권애지            애지    1999-10-25   
 3          AhIn       Lee Ahin         이아인            아인    1999-09-27   
 4          Ahra        Go Ahra         고아라            아라    2001-02-21   
 ...         ...            ...         ...           ...           ...   
 1305        Ziu    Park Heejun         박희준            지우    1997-06-16   
 1306         ZN      Bae Jinye         배진예            지엔    1994-06-09   
 1307        Zoa     Cho Hyewon         조혜원            조아    2005-05-31   
 1308       Zuho       Bae Juho         백주호            주호    1996-07-04   
 1309       Zuny      Kim Joomi         김주미            주니    1994-12-08   
 
              Group      Country Birthplace Other Group Gender  
 0        Limitless

## On Idols
Let's gather up some statistics on the idols. 

### Surnames
How much are their surnames different? 

In [14]:
def name_extract(name, section = 1): 
	"""
		Extract the specified part of the name following the East Asian naming format, which always has surnames at the front.

		Parameters: 
			name: (str) the name
			section: (int) the part of the name to use, in which "0" means no change, "1" stands for the last name while "2" stands for the first name
		Returns: cleaned name
	"""

	# Make sure that the input is correct. 
	section = abs(int(section))
	if (section > 2): 
		section = 0

	# Return the correct section of the name. 
	if section == 1: 
		return(name[0])
	elif section == 2: 
		return(name[1:3])
	else: 
		return(name)

def analyze_surnames(dataset, column_name_key): 
	"""
		Analyze the surnames following the East Asian naming format.  

		Parameters: 
			dataset: (pandas dataframe) the dataset containing names
			column_name_key: (str) the key of the column containing the names
		Returns: none
	"""

	# Get the specific data. 
	names_data = dataset[column_name_key]

	# Convert the values to a list. 
	names = names_data.values.tolist()

	# Create placeholder for surnames list. 
	names_surnames = []

	# Extract the surnames. 
	for index in range(len(names)): 
		print(names[index][0])

	return(names_surnames)
	
analyze_surnames(database['kpop_idols'], 'Korean Name')

성
장
권
이
고
조
강
이
김
허
김
송
앨
엠
이
엔
손
박
김
황
전
최
곽
하
애
양
박
노
이
김
김
이
이
김
김
강
변
꾼
방
차
최
진
김
최
최
진
배
최
유
남
김
배
김
이
정
매
권
김
김
김
김
박
윤
최
김
김
최
윤
김
전
진
이
최
방
차
저
손
차
김
최
김
채
윤
이
박
이
맹
김
김
송
정
김
이
손
이
박
정
강
조
서
우
송
최
이
이
강
김
황
박
김
김
김
청
중
장
지
최
박
허
최
최
박
김
이
김
이
신
홍
이
조
도
이
장
정
김
강
정
대
이
황
송
김
정
송
유
김
이
이
홍
후
박
강
전
안
박
김
이
남
이
조
이
김
김
임
김
박
김
이
디
이
김
김
윤
남
김
김
전
나
송
이
김
이
이
김
김
김
김
문
곤
손
이
장
손
윤
윤
김
김
김
전
박
김
이
노
전
박
엘
쫑
김
정
방
손
김
이
홍
이
최
권
권
권
정
신
이
허
곽
정
홍
안
마
문
박
최
함
홍
서
이
손
이
정
차
주
추
왕
이
권
최
정
김
박
조
이
리
이
손
범
허
김
백
김
김
이
박
정
김
고
김
공
박
문
김
김
곽
양
이
이
조
권
한
박
장
유
한
이
염
이
전
이
정
나
윤
이
박
이
이
조
한
한
한
한
신
정
안
한
이
이
안
신
도
김
구
주


TypeError: 'float' object is not subscriptable