# 데이터프레임 생성

In [2]:
import numpy as np
import pandas as pd

print(np.__version__)
print(pd.__version__)

2.1.1
2.2.3


- 첫번째 방법 : 리스트 활용
- 두번째 방법 : 딕셔너리 활용(강사 선호)

In [4]:
data = [
    ["039900", "알파코", 1000000, 10.05],
    ["039910", "A", 500000, 1.05],
    ["039920", "B", 1000, 1.28]
]

columns = ['종목코드', '종목명', '현재가', '등락률']
df = pd.DataFrame(data = data, columns = columns)
df

Unnamed: 0,종목코드,종목명,현재가,등락률
0,39900,알파코,1000000,10.05
1,39910,A,500000,1.05
2,39920,B,1000,1.28


In [11]:
data2 = {
    "종목코드" : ['039900', '0399910', '039920'],
    '종목명' : ['알파코', 'A', 'B']
}

df2 = pd.DataFrame(data = data2)
df2

Unnamed: 0,종목코드,종목명
0,39900,알파코
1,399910,A
2,39920,B


In [12]:
import numpy as np
import random
import string

# 랜덤한 회사 이름 생성 함수 (2~10자의 알파벳으로 구성)
def random_company_name():
    length = random.randint(1, 10)  # 회사 이름의 길이 (1~10자)
    return ''.join(random.choices(string.ascii_uppercase, k=length))

# 10,000개의 가상 데이터 생성
data = []
for _ in range(10000):
    stock_code = ''.join(random.choices(string.digits, k=6))  # 6자리 숫자로 주식 코드 생성
    company_name = random_company_name()  # 회사 이름 생성
    price = random.randint(1000, 1000000)  # 주가 (1000 ~ 1000000)
    price_change = round(random.uniform(0, 30), 2)  # 주가 상승률 (0 ~ 30, 소수점 둘째 자리까지)
    data.append([stock_code, company_name, price, price_change])

# 생성된 데이터 확인
for i in range(5):  # 처음 5개 항목 출력
    print(data[i])

['134849', 'C', 214885, 6.55]
['235793', 'EH', 182853, 18.62]
['613896', 'KLPTXYQFHI', 322691, 24.63]
['966587', 'IBI', 371161, 20.33]
['631416', 'PSNAS', 674291, 25.04]


In [26]:
import pandas as pd
import random
import string


# Regenerating the dictionary where each key (종목코드, 종목명, 현재가, 등락률) has a list of values

data_dict = {
    "종목코드": [],
    "종목명": [],
    "현재가": [],
    "등락률": []
}

# Function to generate simpler 종목코드 and 종목명 ensuring the 종목코드 starts with '0'
def generate_code_name_for_dict(existing_codes):
    while True:
        code = '0' + ''.join(random.choices(string.digits, k=5))  # Ensure it starts with '0'
        name = ''.join(random.choices(string.ascii_uppercase, k=2))  # Simpler 종목명 with 2 letters
        if code not in existing_codes:
            return code, name

# Generating 10,000 rows of data
existing_codes_for_dict = set()

for _ in range(10000):
    code, name = generate_code_name_for_dict(existing_codes_for_dict)
    existing_codes_for_dict.add(code)
    current_price = random.randint(1000, 1000000)  # Simpler current price
    change_rate = round(random.uniform(-5, 5), 2)  # Simpler change rate
    
    data_dict["종목코드"].append(code)
    data_dict["종목명"].append(name)
    data_dict["현재가"].append(current_price)
    data_dict["등락률"].append(change_rate)

# Previewing a portion of the dictionary
data_dict_preview = {k: data_dict[k][:5] for k in data_dict}

# data_dict_previw 로 기재하면 5개
df2 = pd.DataFrame(data_dict)
df2

Unnamed: 0,종목코드,종목명,현재가,등락률
0,098520,NN,860651,-3.53
1,028650,RQ,419217,2.65
2,050143,PY,285878,-2.48
3,006083,ZV,459085,-3.25
4,069452,GN,410996,-2.13
...,...,...,...,...
9995,061235,DR,965084,3.78
9996,074748,TE,638818,-1.55
9997,050704,EC,423821,-0.16
9998,019132,XM,256710,3.43


In [27]:
# 데이터 상단부터 (n)개 조회
df2.head(2)

Unnamed: 0,종목코드,종목명,현재가,등락률
0,98520,NN,860651,-3.53
1,28650,RQ,419217,2.65


In [28]:
# 데이터 하단부터 (n)개 조회
df2.tail(1)

Unnamed: 0,종목코드,종목명,현재가,등락률
9999,8112,IU,876581,-2.08


In [29]:
df2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   종목코드    10000 non-null  object 
 1   종목명     10000 non-null  object 
 2   현재가     10000 non-null  int64  
 3   등락률     10000 non-null  float64
dtypes: float64(1), int64(1), object(2)
memory usage: 312.6+ KB
