In [2]:
import pandas as pd
import numpy as np

print(np.__version__)
print(pd.__version__)

2.1.1
2.2.3


# Create DataFrame
- 데이터프레임을 생성하는 방법은 2가지가 있다.
  + 1) 리스트 활용
    2) 딕셔너리 활용 (추천)

## 리스트 활용
- 중첩 리스트로 만들어야 한다.

In [18]:
# 가상의 주가 데이터를 만들어보자

data = [
    ['039900', 'A', '1000', 10.05],
    ['039910', 'B', '5000', 1.05],
    ['039920', 'C', '100' , 1.28]
]

# 칼럼명 지정
columns = ['종목코드', '종목명', '현재가', '등락률']

# 데이터프레임 생성, 출력
df = pd.DataFrame(data = data, columns = columns)
df

Unnamed: 0,종목코드,종목명,현재가,등락률
0,39900,A,1000,10.05
1,39910,B,5000,1.05
2,39920,C,100,1.28


## 딕셔너리 활용

In [6]:
data2 = {
    '종목코드' : ['039900' , '039910', '039920'],
    '종목명' : ['A', 'B', 'C']
}

df2=pd.DataFrame(data = data2)
df2

Unnamed: 0,종목코드,종목명
0,39900,A
1,39910,B
2,39920,C


In [7]:
# 금융권 -> 망분리
# 패턴만 파악해서(외워서), 테스트 해본다.
# 이 때 챗지피티 이용하면 좋다.

import pandas as pd
import random
import string

# 그게 이거임

# Regenerating the dictionary where each key (종목코드, 종목명, 현재가, 등락률) has a list of values

data_dict = {
    "종목코드": [],
    "종목명": [],
    "현재가": [],
    "등락률": []
}

# Function to generate simpler 종목코드 and 종목명 ensuring the 종목코드 starts with '0'
def generate_code_name_for_dict(existing_codes):
    while True:
        code = '0' + ''.join(random.choices(string.digits, k=5))  # Ensure it starts with '0'
        name = ''.join(random.choices(string.ascii_uppercase, k=2))  # Simpler 종목명 with 2 letters
        if code not in existing_codes:
            return code, name

# Generating 10,000 rows of data
existing_codes_for_dict = set()

for _ in range(10000):
    code, name = generate_code_name_for_dict(existing_codes_for_dict)
    existing_codes_for_dict.add(code)
    current_price = random.randint(1000, 1000000)  # Simpler current price
    change_rate = round(random.uniform(-5, 5), 2)  # Simpler change rate
    
    data_dict["종목코드"].append(code)
    data_dict["종목명"].append(name)
    data_dict["현재가"].append(current_price)
    data_dict["등락률"].append(change_rate)

# Previewing a portion of the dictionary
data_dict_preview = {k: data_dict[k][:5] for k in data_dict} # 실행시 5개만 보겠다. 


df3=pd.DataFrame(data_dict_preview)
df3

Unnamed: 0,종목코드,종목명,현재가,등락률
0,63831,KE,256242,-2.12
1,34068,HA,831438,2.56
2,11307,MQ,581319,3.24
3,49314,HA,590577,-0.56
4,7971,ZE,972849,-3.48


# DataFrame Methods
- head, tail, info, describe
- by using those four methods, check dataframe 

In [19]:
df.head(1)

Unnamed: 0,종목코드,종목명,현재가,등락률
0,39900,A,1000,10.05


In [20]:
df.tail(1)

Unnamed: 0,종목코드,종목명,현재가,등락률
2,39920,C,100,1.28


In [21]:
df.info() # 컬럼명, 타입, 결측치 여부 등

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   종목코드    3 non-null      object 
 1   종목명     3 non-null      object 
 2   현재가     3 non-null      object 
 3   등락률     3 non-null      float64
dtypes: float64(1), object(3)
memory usage: 228.0+ bytes


In [22]:
df.describe() # 기술통계량

Unnamed: 0,등락률
count,3.0
mean,4.126667
std,5.131046
min,1.05
25%,1.165
50%,1.28
75%,5.665
max,10.05


# Column to Index
- .set_index("컬럼명") : 지정 컬럼을 인덱스로 만듦
- .reset_index() : 리셋되며, 인덱스가 원래 컬럼 형태로 돌아감
- .reset_index(drop=True) : 리셋되며, 인덱스였던 칼럼이 삭제됨
- .index : 인덱스 명, type 나옴

In [23]:
# 인덱스를 만들어보자
df = df.set_index('종목코드')
df

Unnamed: 0_level_0,종목명,현재가,등락률
종목코드,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
39900,A,1000,10.05
39910,B,5000,1.05
39920,C,100,1.28


In [24]:
df.index

Index(['039900', '039910', '039920'], dtype='object', name='종목코드')

In [25]:
df.values

array([['A', '1000', 10.05],
       ['B', '5000', 1.05],
       ['C', '100', 1.28]], dtype=object)

## 컬럼 호출
- square brackets 개수에 따라 type 다름
- [[]] : DataFrame
- [] : Series

In [26]:
df['종목명']

종목코드
039900    A
039910    B
039920    C
Name: 종목명, dtype: object

In [27]:
df[['종목명']]

Unnamed: 0_level_0,종목명
종목코드,Unnamed: 1_level_1
39900,A
39910,B
39920,C


In [28]:
type(df['종목명']), type(df[['종목명']])

(pandas.core.series.Series, pandas.core.frame.DataFrame)

In [15]:
# 인덱스 리셋
df.reset_index()

Unnamed: 0,종목코드,종목명,현재가,등락률
0,39900,A,1000,10.05
1,39910,B,5000,1.05
2,39920,C,100,1.28


In [16]:
# 인덱스 리셋 하며 인덱스 컬럼 삭제
df.reset_index(drop=True)

Unnamed: 0,종목명,현재가,등락률
0,A,1000,10.05
1,B,5000,1.05
2,C,100,1.28


# Indexing
- iloc, loc
  + loc: : Label 기준 인덱싱
  + iloc : Index 기준 인덱싱
- loc가 우선은 더 간편하다.
  + 컬럼명을 바로 볼 수 있다.
  + 협업에 좋다.
  + iloc를 하면, 숫자를 세야하기에 귀찮다. 주석을 필수적으로 달아야 한다.

In [29]:
import seaborn as sns
sns.__version__

'0.13.2'

In [31]:
iris = sns.load_dataset("iris")
iris.head(1) # methods 활용해 data 잘 불러와졌는 지, 습관적으로 확인한다.

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa


## iloc
- .loc[ 행 , 열 ]

In [32]:
iris.loc[[0,1], :]

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa


In [33]:
iris.iloc[[0,1], :]

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa


In [34]:
iris.loc[[0,1], ['sepal_width' , 'species']]

Unnamed: 0,sepal_width,species
0,3.5,setosa
1,3.0,setosa


In [35]:
iris.iloc[[0,1], [1, 4]]

Unnamed: 0,sepal_width,species
0,3.5,setosa
1,3.0,setosa


# 행 추출
- True가 되는 조건 식을 먼저 구하고
- 그 조건을 복사해서, loc나 iloc랑 결합해서 행 추출 식으로 만든다.
- 처음부터 행추출 위한 라인 한번에 쓰면 실수 위험 높다

In [36]:
# True 가 되는 조건식 만들기
iris['sepal_width'] >= 4.0

0      False
1      False
2      False
3      False
4      False
       ...  
145    False
146    False
147    False
148    False
149    False
Name: sepal_width, Length: 150, dtype: bool

In [37]:
# 위 조건 식 활용하면 행 추출 할 수 있다.
iris.loc[iris['sepal_width'] >= 4.0, :]

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
14,5.8,4.0,1.2,0.2,setosa
15,5.7,4.4,1.5,0.4,setosa
32,5.2,4.1,1.5,0.1,setosa
33,5.5,4.2,1.4,0.2,setosa


## 행 추출 후 정렬
- 추출과, 인덱스 처리 즉 정렬까지 해야 전처리 된 거임
- 위에 추출된 것을 보면, 인덱스 번호가 14, 15, 32, 33 등 정리 안되어 있음

In [39]:
iris.loc[iris['sepal_width'] >= 4.0, :].reset_index(drop=True) 
# .reset_index : 인덱스 해제 하면서(.reset_index), 인덱스 컬럼 삭제(drop = True)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.8,4.0,1.2,0.2,setosa
1,5.7,4.4,1.5,0.4,setosa
2,5.2,4.1,1.5,0.1,setosa
3,5.5,4.2,1.4,0.2,setosa


In [41]:
# 추출한 게 원하는 결과가 맞으면, 따로 추출 하면 됨. 
result = iris.loc[iris['sepal_width'] >= 4.0, :].reset_index(drop=True) 
result

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.8,4.0,1.2,0.2,setosa
1,5.7,4.4,1.5,0.4,setosa
2,5.2,4.1,1.5,0.1,setosa
3,5.5,4.2,1.4,0.2,setosa


In [43]:
result2 = iris.loc[iris['sepal_width'] >= 4.0, ['sepal_length', 'species']].reset_index(drop=True) 
result2

Unnamed: 0,sepal_length,species
0,5.8,setosa
1,5.7,setosa
2,5.2,setosa
3,5.5,setosa


## 문자열 기반 조건 만들기

In [45]:
iris.loc[iris['species'] == 'setosa', :].reset_index(drop=True).head(1)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa


## 다중조건

- and
  + iris.loc[(조건식 1) & (조건식 2), :]
- or
  + iris.loc[(조건식 1) | (조건식 2), :]

- 처음에 이렇게 안하면 계속 문법 error 뜸

In [47]:
iris.loc[(iris['species'] == 'setosa') & (iris['sepal_width']>3.2), :].head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
5,5.4,3.9,1.7,0.4,setosa
6,4.6,3.4,1.4,0.3,setosa
7,5.0,3.4,1.5,0.2,setosa


In [48]:
# 다중 조건이 2개 초과여도 가능하다.
iris.loc[(iris['species'] == 'virginica') & (iris['sepal_width']>=3.2) & (iris['petal_length']>=6.2), :]

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
117,7.7,3.8,6.7,2.2,virginica
131,7.9,3.8,6.4,2.0,virginica


# 컬럼 추가/삭제/수정
- 작업하다 보면 원본데이터에 여향 갈 수 있으니, 복사 한 후에 작업하자

In [50]:
iris2=iris.copy()
iris2.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


## 컬럼 추가

In [51]:
iris2['NewCol'] = 0
iris2.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species,NewCol
0,5.1,3.5,1.4,0.2,setosa,0
1,4.9,3.0,1.4,0.2,setosa,0
2,4.7,3.2,1.3,0.2,setosa,0
3,4.6,3.1,1.5,0.2,setosa,0
4,5.0,3.6,1.4,0.2,setosa,0


### 컬럼 끼리 연산한 새로운 컬럼 추가

In [52]:
iris2['sepals'] = iris2['sepal_length'] + iris2['sepal_width']
iris2.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species,NewCol,sepals
0,5.1,3.5,1.4,0.2,setosa,0,8.6
1,4.9,3.0,1.4,0.2,setosa,0,7.9
2,4.7,3.2,1.3,0.2,setosa,0,7.9
3,4.6,3.1,1.5,0.2,setosa,0,7.7
4,5.0,3.6,1.4,0.2,setosa,0,8.6


## 컬럼 삭제
- axis = 0 -> 행
- axis = 1 -> 열

In [55]:
from pandas import DataFrame
data = [
    ["알파코", 10000000, 10.05], 
    ["A", 500000, 1.05], 
    ["B", 1000, 1.28]
]

index = ["039900", "039910", "039900"]
columns = ["종목명", "현재가", "등락률"]
df = DataFrame(data=data, index=index, columns=columns)

df2=df.copy()
df2.head()

Unnamed: 0,종목명,현재가,등락률
39900,알파코,10000000,10.05
39910,A,500000,1.05
39900,B,1000,1.28


In [57]:
# 컬럼 삭제
df2.drop('039910', axis=0)

Unnamed: 0,종목명,현재가,등락률
39900,알파코,10000000,10.05
39900,B,1000,1.28


In [58]:
df2.drop('종목명', axis=1)

Unnamed: 0,현재가,등락률
39900,10000000,10.05
39910,500000,1.05
39900,1000,1.28
