# 데이터프레임 생성

In [1]:
import pandas as pd
import numpy as np

print(np.__version__)
print(pd.__version__)

2.1.1
2.2.3


## 생성 장법 2가지
- 1) 리스트 활용
- 2) 딕셔너리 활용 (강사 선호)

## 리스트 활용
- 중첩리스트로 만들어야 한다

In [7]:
data = [
    ["039900", "알파코", "100000", 10.05],
    ["039910", "A", "5000", 1.05],
    ["039920", "B", "100", 1.28]
]

columns = ["종목코드", "종목명", "현재가", "등락률" ]

df = pd.DataFrame(data = data , columns = columns) # colmns 라는 매개변수 써야 열 맞게 들어감
df

Unnamed: 0,종목코드,종목명,현재가,등락률
0,39900,알파코,100000,10.05
1,39910,A,5000,1.05
2,39920,B,100,1.28


## 딕셔너리 활용
- 

In [8]:
data2 = {
    "종목코드" : ['039900' , '039910', '039920'],
    "종목명" : ["알파코", "A", "B"]
}

df2=pd.DataFrame(data = data2)
df2

Unnamed: 0,종목코드,종목명
0,39900,알파코
1,39910,A
2,39920,B


In [10]:
# 망분리된 프로젝트 진행할 때, 패턴만 챗지피티 한테 주고 난수로 데이터 만들어서, 시험해볼 수 있음.
# 해보시고

In [18]:
import pandas as pd
import random
import string

# 그게 이거임

# Regenerating the dictionary where each key (종목코드, 종목명, 현재가, 등락률) has a list of values

data_dict = {
    "종목코드": [],
    "종목명": [],
    "현재가": [],
    "등락률": []
}

# Function to generate simpler 종목코드 and 종목명 ensuring the 종목코드 starts with '0'
def generate_code_name_for_dict(existing_codes):
    while True:
        code = '0' + ''.join(random.choices(string.digits, k=5))  # Ensure it starts with '0'
        name = ''.join(random.choices(string.ascii_uppercase, k=2))  # Simpler 종목명 with 2 letters
        if code not in existing_codes:
            return code, name

# Generating 10,000 rows of data
existing_codes_for_dict = set()

for _ in range(10000):
    code, name = generate_code_name_for_dict(existing_codes_for_dict)
    existing_codes_for_dict.add(code)
    current_price = random.randint(1000, 1000000)  # Simpler current price
    change_rate = round(random.uniform(-5, 5), 2)  # Simpler change rate
    
    data_dict["종목코드"].append(code)
    data_dict["종목명"].append(name)
    data_dict["현재가"].append(current_price)
    data_dict["등락률"].append(change_rate)

# Previewing a portion of the dictionary
data_dict_preview = {k: data_dict[k][:5] for k in data_dict} # 실행시 5개만 보겠다. 


df3=pd.DataFrame(data_dict_preview)
df3

Unnamed: 0,종목코드,종목명,현재가,등락률
0,19915,UL,619875,-2.25
1,40838,MX,91872,0.48
2,9434,LG,2010,-3.63
3,75238,IZ,434433,3.84
4,52075,TW,859853,4.24


## 체크해야할 메서드

In [14]:
df3.head()

Unnamed: 0,종목코드,종목명,현재가,등락률
0,2169,AQ,768739,1.64
1,15379,TH,299707,2.97
2,2547,NW,298506,2.41
3,27552,HP,761520,-3.91
4,78164,FH,991308,-4.33


In [15]:
df3.head(1)

Unnamed: 0,종목코드,종목명,현재가,등락률
0,2169,AQ,768739,1.64


In [17]:
# 끝 쪽 값 확인 : .tail()
df3.tail()

Unnamed: 0,종목코드,종목명,현재가,등락률
0,2169,AQ,768739,1.64
1,15379,TH,299707,2.97
2,2547,NW,298506,2.41
3,27552,HP,761520,-3.91
4,78164,FH,991308,-4.33


In [19]:
df3.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   종목코드    5 non-null      object 
 1   종목명     5 non-null      object 
 2   현재가     5 non-null      int64  
 3   등락률     5 non-null      float64
dtypes: float64(1), int64(1), object(2)
memory usage: 292.0+ bytes


In [20]:
# 프로젝트 하다가 보면 결측값 존재 함, 
# ?? RangeIndex 랑 non-null ??

In [22]:
df3.describe() # 수치 데이터에 대한 기술 통계량들 나옴

Unnamed: 0,현재가,등락률
count,5.0,5.0
mean,401608.6,0.536
std,358581.021262,3.526915
min,2010.0,-3.63
25%,91872.0,-2.25
50%,434433.0,0.48
75%,619875.0,3.84
max,859853.0,4.24


In [23]:
# 습관적으로 dataframe 불러오면 head, tail, info, describe 활용해서 
# 데이터가 잘 불러와졌는지
# 샘플링이 잘 되었는지 확인

In [24]:
data2 = {
    "종목코드" : ['039900', '039910', '039920'], 
    "종목명" : ["알파코", "A", "B"], 
    "현재가" : [10000000, 500000, 1000], 
    "등락률" : [10.05, 1.05, 1.28]
}

df2 = pd.DataFrame(data = data2)
df2

Unnamed: 0,종목코드,종목명,현재가,등락률
0,39900,알파코,10000000,10.05
1,39910,A,500000,1.05
2,39920,B,1000,1.28


## coulumn to Index

In [25]:
df2 = df2.set_index("종목코드")
df2

Unnamed: 0_level_0,종목명,현재가,등락률
종목코드,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
39900,알파코,10000000,10.05
39910,A,500000,1.05
39920,B,1000,1.28


In [26]:
# 리셋 되면서 인덱스가 원래 컬럼 형태로 돌아감
df2.reset_index()

Unnamed: 0,종목코드,종목명,현재가,등락률
0,39900,알파코,10000000,10.05
1,39910,A,500000,1.05
2,39920,B,1000,1.28


In [27]:
# df2.reset_index(drop=True) : 원래 갖고 있던 인덱스 컬럼을 아예 삭제하곘다.

In [28]:
df2.reset_index(drop=True)

Unnamed: 0,종목명,현재가,등락률
0,알파코,10000000,10.05
1,A,500000,1.05
2,B,1000,1.28


In [30]:
# 둘 차이 보고 필요할 때 쓸 것
# 일반적으로는 drop=True 하게됨. 왜냐면 결국 컬럼이었던 종목코드를 지우는 경우 많기 때문

In [33]:
from pandas import DataFrame

data = [
    ["알파코", 10000000, 10.05], 
    ["A", 500000, 1.05], 
    ["B", 1000, 1.28]
]

index = ["039900", "039910", "039900"] # index 칼럼 지정한 것, set_index랑 또 다름
columns = ["종목명", "현재가", "등락률"]
df = DataFrame(data=data, index=index, columns=columns)
df

Unnamed: 0,종목명,현재가,등락률
39900,알파코,10000000,10.05
39910,A,500000,1.05
39900,B,1000,1.28


In [34]:
df.index

Index(['039900', '039910', '039900'], dtype='object')

In [35]:
df.index.shape

(3,)

In [38]:
# 1차원 배열임을 알수 있음

In [37]:
df.values

array([['알파코', 10000000, 10.05],
       ['A', 500000, 1.05],
       ['B', 1000, 1.28]], dtype=object)

In [39]:
# 머가 numpy라는 거임?

In [11]:
# 만든 데이터 프레임을 내보내고 불러오기 해야함.