# Pandas

### pandas 이용해서 데이터 만들기, 빈데이터에 추가하기, 데이터 합치기

In [23]:
import pandas as pd

#1번째 방법
data = {
    '종목코드': ['037730', '036360', '005760'],
    '종목명': ['3R', '3SOFT', 'ACTS'],
    '현재가': [1510, 1790, 1185]
}
df = pd.DataFrame(data)           # DataFrame 클래스의 객체 생성 (생성자 호출)
print("1번째 방법\n",df)

#2번째 방법
df2 = pd.DataFrame({
    '종목코드': ['037730', '036360', '005760'],
    '종목명': ['3R', '3SOFT', 'ACTS'],
    '현재가': [1510, 1790, 1185]
}) 
print("\n2번째 방법\n",df2)

# 3번째 방법
data2 = [
    ["3R", 1510, 7.36],
    ["3SOFT", 1790, 1.65],
    ["ACTS", 1185, 1.28],
]
index = ["037730", "036360", "005760"]
columns = ["종목명", "현재가", "등락률"]

df3 = pd.DataFrame(data=data2, index=index, columns=columns)
df3.index.name = "종목코드"
print("\n3번째 방법\n",df3)

##########################################
#기존의 데이터를 합치는 방법으로 생성
##########################################
#4번째 Series , append 이용 방법
df_s = pd.DataFrame(columns = df3.columns)
s = pd.Series(data=["3R", 1510,7.36], index=df3.columns)
df_s.loc["066570"] = s
df_s.loc["036360"] = ["3SOFT", 1790,1.65]
s = pd.Series(data=["ACTS", 1185,1.28], index=df3.columns, name="005760")
df_s = df_s.append(s)
print("\n4번째 Series 사용 방법\n",df_s)

#5번째 append 이용 방법 
df4 = pd.DataFrame(columns = df3.columns) # df2의 칼럼만 복사
df4 = df4.append({'종목코드' :'037730','종목명': '3R' ,'현재가': 1510 },ignore_index=True)
df4 = df4.append({'종목코드' :'036360','종목명': '3SOFT' ,'현재가': 1790 },ignore_index=True)
df4 = df4.append({'종목코드' :'005760','종목명': 'ACTS' ,'현재가': 1185 },ignore_index=True)
print("\n5번째 append 사용 방법\n",df4)

#6번째 방법 concat에 join을 넣어줘서 어느 쪽에 있는 것만 합칠 수도 있음. 
df5 = pd.DataFrame({'종목코드' :['037730'],'종목명': ['3R'] ,'현재가': [1510] })
df6 = pd.DataFrame({'종목코드' :['036360','005760'],'종목명': ['3SOFT','ACTS'] ,'현재가': [1790 , 1185]})
df7 = pd.concat([df5,df6], axis=0)       #행방향
df8 = pd.concat([df5,df6], axis=1)       #열방향
print("\n6번째 concat axis=0 일때 방법\n",df7)
print("\n6번째 concat axis=1 일때 방법\n",df8)

#7번째 방법 
df9 = pd.merge(df5,df6, how='outer', left_index=False, right_index=False)
print("\n7번째 merge 방법 \n",df9)

1번째 방법
      종목코드    종목명   현재가
0  037730     3R  1510
1  036360  3SOFT  1790
2  005760   ACTS  1185

2번째 방법
      종목코드    종목명   현재가
0  037730     3R  1510
1  036360  3SOFT  1790
2  005760   ACTS  1185

3번째 방법
           종목명   현재가   등락률
종목코드                     
037730     3R  1510  7.36
036360  3SOFT  1790  1.65
005760   ACTS  1185  1.28

4번째 Series 사용 방법
           종목명   현재가   등락률
066570     3R  1510  7.36
036360  3SOFT  1790  1.65
005760   ACTS  1185  1.28

5번째 append 사용 방법
      종목명   현재가  등락률    종목코드
0     3R  1510  NaN  037730
1  3SOFT  1790  NaN  036360
2   ACTS  1185  NaN  005760

6번째 concat axis=0 일때 방법
      종목코드    종목명   현재가
0  037730     3R  1510
0  036360  3SOFT  1790
1  005760   ACTS  1185

6번째 concat axis=1 일때 방법
      종목코드  종목명     현재가    종목코드    종목명   현재가
0  037730   3R  1510.0  036360  3SOFT  1790
1     NaN  NaN     NaN  005760   ACTS  1185

7번째 merge 방법 
      종목코드    종목명   현재가
0  037730     3R  1510
1  036360  3SOFT  1790
2  005760   ACTS  1185


  df_s = df_s.append(s)
  df4 = df4.append({'종목코드' :'037730','종목명': '3R' ,'현재가': 1510 },ignore_index=True)
  df4 = df4.append({'종목코드' :'036360','종목명': '3SOFT' ,'현재가': 1790 },ignore_index=True)
  df4 = df4.append({'종목코드' :'005760','종목명': 'ACTS' ,'현재가': 1185 },ignore_index=True)


### 인덱스 

In [24]:
print("원본\n", df9, "\n")
df9 = df9.set_index('종목코드')
print("index 변경후\n",df9, "\n")
df9 = df9.reset_index()
print("reset 후\n",df9,"\n")

원본
      종목코드    종목명   현재가
0  037730     3R  1510
1  036360  3SOFT  1790
2  005760   ACTS  1185 

index 변경후
           종목명   현재가
종목코드               
037730     3R  1510
036360  3SOFT  1790
005760   ACTS  1185 

reset 후
      종목코드    종목명   현재가
0  037730     3R  1510
1  036360  3SOFT  1790
2  005760   ACTS  1185 



### 칼럼 인덱싱, 슬라이싱

In [25]:
# 종목코드에 해당하는 현재가 칼럼만 받아오기
df9 = df9.set_index('종목코드')
print(df9[ '현재가' ])      # 시리즈로 반환  인덱싱
print(type(df9[ '현재가' ]))
print(df9[ [ '현재가' ] ])    # 데이터프레임으로 반환  슬라이싱
print(type(df9[ [ '현재가' ] ]))

종목코드
037730    1510
036360    1790
005760    1185
Name: 현재가, dtype: int64
<class 'pandas.core.series.Series'>
         현재가
종목코드        
037730  1510
036360  1790
005760  1185
<class 'pandas.core.frame.DataFrame'>


### 로우 인덱싱, 슬라이싱 (loc, iloc)
 - loc 인덱스를 기준으로 로우 데이터 추출
 - iloc 행 번호를 기준으로 로우 데이터 추출

In [45]:
data = [
    ["3R", 1510, 7.36],
    ["3SOFT", 1790, 1.65],
    ["ACTS", 1185, 1.28]
]

index = ["037730", "036360", "005760"]
columns = ["종목명", "현재가", "등락률"]
df = pd.DataFrame(data=data, index=index, columns=columns)
# 인덱싱
print("인덱싱\nloc\n",df.loc["037730"])
print("\niloc\n",df.iloc[ 0 ])

#슬라이싱
print("\n슬라이싱\nloc\n",df.loc[ [ "037730", "036360" ] ])
print("\niloc\n",df.iloc[ [ 0, 1 ] ])

인덱싱
loc
 종목명      3R
현재가    1510
등락률    7.36
Name: 037730, dtype: object

iloc
 종목명      3R
현재가    1510
등락률    7.36
Name: 037730, dtype: object

슬라이싱
loc
           종목명   현재가   등락률
037730     3R  1510  7.36
036360  3SOFT  1790  1.65

iloc
           종목명   현재가   등락률
037730     3R  1510  7.36
036360  3SOFT  1790  1.65


# ========================================================

# 같이 사용가능
# 행 번호로 행 선택 후 시리즈 인덱싱 
* print(df.iloc[0].iloc[1])               # 시리즈 행 번호
* print(df.iloc[0][1])
* print(df.iloc[0].loc["현재가"])         # 시리즈 인덱스 
* print(df.iloc[0]["현재가"])            # 시리즈 인덱스
* print(df.iloc[0, 1])

# 인덱스로 행 선택 후 시리즈 인덱싱 
* print(df.loc["037730"].iloc[1])        # 시리즈 행 번호
* print(df.loc["037730"].loc["현재가"])  # 시리즈 인덱스 
* print(df.loc["037730"]["현재가"])     # 시리즈 인덱스
* print(df.loc["037730", "현재가"])
* print(df["현재가"]["037730"])

In [27]:
# 같이 사용가능
# 행 번호로 행 선택 후 시리즈 인덱싱 
print(df.iloc[0].iloc[1])               # 시리즈 행 번호
print(df.iloc[0][1])
print(df.iloc[0].loc["현재가"])         # 시리즈 인덱스 
print(df.iloc[0]["현재가"])            # 시리즈 인덱스
print(df.iloc[0, 1])

# 인덱스로 행 선택 후 시리즈 인덱싱 
print(df.loc["037730"].iloc[1])        # 시리즈 행 번호
print(df.loc["037730"].loc["현재가"])  # 시리즈 인덱스 
print(df.loc["037730"]["현재가"])     # 시리즈 인덱스
print(df.loc["037730", "현재가"])
print(df["현재가"]["037730"])

1510
1510
1510
1510
1510
1510
1510
1510
1510
1510


In [28]:
# 특정행 가져오기
print(df.iloc[[0, 2], [0, 1]])
print(df.loc[["037730", "036360"], ["종목명", "현재가"]])

         종목명   현재가
037730    3R  1510
005760  ACTS  1185
          종목명   현재가
037730     3R  1510
036360  3SOFT  1790


In [46]:
# 1500 이상의 값만 받아오기
temp = df['현재가'] >= 1500
print(df.loc[temp],"\n")
print(df.loc[df['현재가'] >= 1500],"\n")

print(df.loc[~temp])

          종목명   현재가   등락률
037730     3R  1510  7.36
036360  3SOFT  1790  1.65 

          종목명   현재가   등락률
037730     3R  1510  7.36
036360  3SOFT  1790  1.65 

         종목명   현재가   등락률
005760  ACTS  1185  1.28


In [30]:
# 현재가만 받아오기
print(df.loc[temp]["현재가"])
print(df.loc[temp, "현재가"])

037730    1510
036360    1790
Name: 현재가, dtype: int64
037730    1510
036360    1790
Name: 현재가, dtype: int64


In [31]:
temp = (df['현재가'] >= 1500) & (df['현재가'] < 1700)
print("==== 데이터 어떻게 나오는지 확인 \n",df['현재가'] >= 1500)
print(df['현재가'] < 1700,"\n==================")

print(df.loc[temp],"\n")
print(df.loc[(df['현재가'] >= 1500) & (df['현재가'] < 1700)],"\n")
print(df[(df['현재가'] >= 1500) & (df['현재가'] < 1700)],"\n")

print(df.loc[~temp])

==== 데이터 어떻게 나오는지 확인 
 037730     True
036360     True
005760    False
Name: 현재가, dtype: bool
037730     True
036360    False
005760     True
Name: 현재가, dtype: bool 
       종목명   현재가   등락률
037730  3R  1510  7.36 

       종목명   현재가   등락률
037730  3R  1510  7.36 

       종목명   현재가   등락률
037730  3R  1510  7.36 

          종목명   현재가   등락률
036360  3SOFT  1790  1.65
005760   ACTS  1185  1.28


### 칼럼 추가

In [32]:
df

Unnamed: 0,종목명,현재가,등락률
37730,3R,1510,7.36
36360,3SOFT,1790,1.65
5760,ACTS,1185,1.28


In [33]:
#round 활용 (반올림 함수)
cash = 100000
df['비중'] = round(100/3,1)
df['투입금액'] = round(cash * df['비중']/100, -2)
df['보유주식수'] = round( df['투입금액']/ df['현재가'] )
df

Unnamed: 0,종목명,현재가,등락률,비중,투입금액,보유주식수
37730,3R,1510,7.36,33.3,33300.0,22.0
36360,3SOFT,1790,1.65,33.3,33300.0,19.0
5760,ACTS,1185,1.28,33.3,33300.0,28.0


### 삭제하기

In [34]:
df = df.drop('현재가', axis=1)
df

Unnamed: 0,종목명,등락률,비중,투입금액,보유주식수
37730,3R,7.36,33.3,33300.0,22.0
36360,3SOFT,1.65,33.3,33300.0,19.0
5760,ACTS,1.28,33.3,33300.0,28.0


In [35]:
df = df.drop("005760", axis=0)
df

Unnamed: 0,종목명,등락률,비중,투입금액,보유주식수
37730,3R,7.36,33.3,33300.0,22.0
36360,3SOFT,1.65,33.3,33300.0,19.0


In [36]:
data123 = {
    '종목코드': ['037730', '036360', '005760','000821','149231'],
    '종목명': ['3R', '3SOFT', 'ACTS', 'abc','bcd'],
    '현재가': [1510, 1790, 1185, 1231 , 5643]
}
index1 = [1 , 2 , 3, 4 , 5]
df123 = pd.DataFrame(data = data123, index = index1)
df123

Unnamed: 0,종목코드,종목명,현재가
1,37730,3R,1510
2,36360,3SOFT,1790
3,5760,ACTS,1185
4,821,abc,1231
5,149231,bcd,5643


In [37]:
df123 = df123.drop(2, axis=0) # 인덱스 2 삭제
df123

Unnamed: 0,종목코드,종목명,현재가
1,37730,3R,1510
3,5760,ACTS,1185
4,821,abc,1231
5,149231,bcd,5643


In [38]:
drop_list = [1,4]
df123 = df123.drop(drop_list, axis=0) 
df123

Unnamed: 0,종목코드,종목명,현재가
3,5760,ACTS,1185
5,149231,bcd,5643


### GroupBy

In [47]:
data = [
    ["2차전지(생산)", "SK이노베이션", 10.19, 1.29],
    ["해운", "팬오션", 21.23, 0.95],
    ["시스템반도체", "티엘아이", 35.97, 1.12],
    ["해운", "HMM", 21.52, 3.20],
    ["시스템반도체", "아이에이", 37.32, 3.55],
    ["2차전지(생산)", "LG화학", 83.06, 3.75]
]

columns = ["테마", "종목명", "PER", "PBR"]
df = pd.DataFrame(data=data, columns=columns)
df1 = df[df['테마'] == "2차전지(생산)"]
df2 = df[df['테마'] == "해운"]
df3 = df[df['테마'] == "시스템반도체"]
df

Unnamed: 0,테마,종목명,PER,PBR
0,2차전지(생산),SK이노베이션,10.19,1.29
1,해운,팬오션,21.23,0.95
2,시스템반도체,티엘아이,35.97,1.12
3,해운,HMM,21.52,3.2
4,시스템반도체,아이에이,37.32,3.55
5,2차전지(생산),LG화학,83.06,3.75


### 문제 각 테마별로 PER 평균 구하고 해당 테마별로 시리즈에 저장해보세요.

In [40]:
mean1 = df1['PER'].mean()
mean2 = df2['PER'].mean()   
mean3 = df3['PER'].mean()

data = [mean1, mean2, mean3]
index = ["2차전지(생산)", "해운", "시스템반도체"]
s = pd.Series(data=data, index=index)
# ss = pd.Series({"2차전지(생산)":mean1, "해운":mean2, "시스템반도체":mean3})
# print(ss)
print(s)

2차전지(생산)    46.625
해운          21.375
시스템반도체      36.645
dtype: float64


In [54]:
# 위 과정을 한번에
# df.groupby("테마")["PER"].mean()
df.groupby(["테마","PER"]).mean()


Unnamed: 0_level_0,Unnamed: 1_level_0,PBR
테마,PER,Unnamed: 2_level_1
2차전지(생산),10.19,1.29
2차전지(생산),83.06,3.75
시스템반도체,35.97,1.12
시스템반도체,37.32,3.55
해운,21.23,0.95
해운,21.52,3.2


### DataFrame 저장

#### CSV 파일로 저장 (csv 파일 용량이 작기 때문에 excel보다 csv확장자 사용 추천)

In [42]:
# CSV파일로 저장하기
data = [
    ["2차전지(생산)", "SK이노베이션", 10.19, 1.29],
    ["해운", "팬오션", 21.23, 0.95],
    ["시스템반도체", "티엘아이", 35.97, 1.12],
    ["해운", "HMM", 21.52, 3.20],
    ["시스템반도체", "아이에이", 37.32, 3.55],
    ["2차전지(생산)", "LG화학", 83.06, 3.75]
]
columns = ["테마", "종목명", "PER", "PBR"]
df = pd.DataFrame(data=data, columns=columns)

df.to_csv("test.csv",sep=',', na_rep='NaN', encoding='cp949')  # index=False, 넣어보고 차이점 비교 , seperator, delimiter (구분자)
"""
encoding 옵션: csv 파일에서 한글 (컬럼 혹은 내용) 읽어올 때 
encoding='cp949' (혹은 encoding='euc-kr') 옵션 사용, 엑셀의 csv 파일 utf-8 인코딩 (유니코드) 인식 버그
"""
# CSV파일 읽기

df1 = pd.read_csv("test.csv", encoding='cp949')
df1

Unnamed: 0.1,Unnamed: 0,테마,종목명,PER,PBR
0,0,2차전지(생산),SK이노베이션,10.19,1.29
1,1,해운,팬오션,21.23,0.95
2,2,시스템반도체,티엘아이,35.97,1.12
3,3,해운,HMM,21.52,3.2
4,4,시스템반도체,아이에이,37.32,3.55
5,5,2차전지(생산),LG화학,83.06,3.75


### 실습 Unnamed: 0 칼럼 이름을 number로 바꿔보고 인덱스로 변경 해보기기

In [43]:
df1 = df1.rename(columns = {'Unnamed: 0' : 'number'}, inplace = True)
# df1 = df1['number'].set_index()
df9 = df9.set_index('종목코드') #[] ()안에 리스트를 사용하면 멀티 가능
df1

TypeError: 'NoneType' object is not subscriptable

#### excel 파일로 저장 (파일이 커서 저장, 불러오기 데이티어가 많아 질 수록 느려진다)

In [None]:
# 엑셀로 저장하기

df.to_excel("test.xlsx")

# 엑셀파일 읽기

df = pd.read_excel("test.xlsx")

### pickle, html, SQLite3 DB로 저장하기 방법이 더 있지만 필요하면 google에 찾아보시면 되겠습니다.

### 시간 날짜 datetime 형식으로 바꾸기

In [56]:
from datetime import datetime
df = pd.DataFrame(data=[20161011, 20171013, 20181031], columns=["d"])
print("========전")
print(df.info(),"\n")

print("칼럼 d 타입",df["d"].dtype)
df["d"] = df["d"].astype(str)      # int -> str(object) 데이터 타입 변경
print("칼럼 d 타입",df["d"].dtype)

df["date"] = df["d"].str[0:4] + "-" + df["d"].str[4:6] + "-" + df["d"].str[6:8]
df["date"] = df["date"].astype('datetime64[ns]') # str(object) -> datetime64[ns] 데이터 타입 변경
df['date1'] = df["date"].dt.strftime("%Y/%m/%d") # datetime64[ns] -> str(object) 형식으로 변경
df['date2'] = pd.to_datetime(df['date'], infer_datetime_format=True) # str(object) -> datetime64[ns] 데이터 타입 변경
df['date3'] = df["date"].dt.strftime("%Y-%m-%d")
print("\n변경된 date\n",df,"\n")
print("칼럼 date 타입",df["date"].dtype,"\n")

print("========후")
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   d       3 non-null      int64
dtypes: int64(1)
memory usage: 152.0 bytes
None 

칼럼 d 타입 int64
칼럼 d 타입 object

변경된 date
           d       date       date1      date2       date3
0  20161011 2016-10-11  2016/10/11 2016-10-11  2016-10-11
1  20171013 2017-10-13  2017/10/13 2017-10-13  2017-10-13
2  20181031 2018-10-31  2018/10/31 2018-10-31  2018-10-31 

칼럼 date 타입 datetime64[ns] 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   d       3 non-null      object        
 1   date    3 non-null      datetime64[ns]
 2   date1   3 non-null      object        
 3   date2   3 non-null      datetime64[ns]
 4   date3   3 non-null      object        
dtypes: datetime64[ns](2), object(3

In [62]:
df['date4'] = df["date1"].str[2:4]
df

Unnamed: 0,d,date,date1,date2,date3,date4
0,20161011,2016-10-11,2016/10/11,2016-10-11,2016-10-11,16
1,20171013,2017-10-13,2017/10/13,2017-10-13,2017-10-13,17
2,20181031,2018-10-31,2018/10/31,2018-10-31,2018-10-31,18


In [69]:
# date_range나 period_range함수를 이용하면 특정기간에 대해 일정한 간격으로 데이터를 만들 수 있다.
print(pd.Series(pd.date_range('2000', freq='D', periods=3)))
print(pd.Series(pd.date_range('1/1/2011', freq='M', periods=3)))
print(pd.Series(pd.period_range('1/1/2011', freq='Y', periods=3)))
print(pd.Series(pd.period_range('1/1/2011', freq='W', periods=3)))
print(pd.Series(pd.period_range('1/1/2011', freq='2M', periods=3)))

0   2000-01-01
1   2000-01-02
2   2000-01-03
dtype: datetime64[ns]
0   2011-01-31
1   2011-02-28
2   2011-03-31
dtype: datetime64[ns]
0    2011
1    2012
2    2013
dtype: period[A-DEC]
0    2010-12-27/2011-01-02
1    2011-01-03/2011-01-09
2    2011-01-10/2011-01-16
dtype: period[W-SUN]
0    2011-01
1    2011-03
2    2011-05
dtype: period[2M]


### 날짜 시간 더하거나 빼기기

In [71]:
print(df)
df["date_1m"] = df["date"] + pd.DateOffset(months=1)
print(df['date_1m'])
df["date_1d"] = df["date"] + pd.DateOffset(days=1)
print(df['date_1d'])
df["date_1y"] = df["date"] + pd.DateOffset(years=1)
print(df['date_1y'])

          d       date       date1      date2       date3 date4    date_1m  \
0  20161011 2016-10-11  2016/10/11 2016-10-11  2016-10-11    16 2016-11-11   
1  20171013 2017-10-13  2017/10/13 2017-10-13  2017-10-13    17 2017-11-13   
2  20181031 2018-10-31  2018/10/31 2018-10-31  2018-10-31    18 2018-11-30   

     date_1d    date_1y  
0 2016-10-12 2017-10-11  
1 2017-10-14 2018-10-13  
2 2018-11-01 2019-10-31  
0   2016-11-11
1   2017-11-13
2   2018-11-30
Name: date_1m, dtype: datetime64[ns]
0   2016-10-12
1   2017-10-14
2   2018-11-01
Name: date_1d, dtype: datetime64[ns]
0   2017-10-11
1   2018-10-13
2   2019-10-31
Name: date_1y, dtype: datetime64[ns]


### 필요한 날짜와 시간 정의 찾기

In [73]:
# "데이터프레임명[칼럼명].dt.항목명" 과 같이 사용
df["date"].dt.year
df["date"].dt.month

0    10
1    10
2    10
Name: date, dtype: int64

![날짜와 시간 Property](https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=http%3A%2F%2Fcfile30.uf.tistory.com%2Fimage%2F994F8D375CD9DFA71358A8)

### Merge
- merge 함수는 두 데이터 프레임의 공통 열 혹은 인덱스를 기준으로 두 개의 테이블을 합친다.
  이 때 기준이 되는 열, 행의 데이터를 키(key)라고 한다
- pd.merge(df_left, df_right, how='inner', on=None)
  두개의 데이터프레임에서 key 값의 이름이 다를 때(기준열 이름이 다를 때) left_on = ' ' ,right_on = ' '으로 
  on= ' ' 대체 가능함
- 조인 방식 , how(default는 inner)
    - outer 양쪽 키값에 해당하는 값이 없어도 전체 합치기
    - inner 양쪽에 겹치는 값만 합치기
    - left  왼쪽 데이터프레임을 기준으로 합치기
    - right 오른쪽 데이터프레임을 기준으로 합치기

![KakaoTalk_20220421_161021807](https://user-images.githubusercontent.com/92857078/164399948-98d552b6-4e2d-4801-b0f7-a77c0f70fb26.png)


In [74]:
df1 = pd.DataFrame({
    '고객번호': [1001, 1002, 1003, 1004, 1005, 1006, 1007],
    '이름': ['둘리', '도우너', '또치', '길동', '희동', '마이콜', '영희']
}, columns=['고객번호', '이름'])
df1

Unnamed: 0,고객번호,이름
0,1001,둘리
1,1002,도우너
2,1003,또치
3,1004,길동
4,1005,희동
5,1006,마이콜
6,1007,영희


In [75]:
df2 = pd.DataFrame({
    '고객번호': [1001, 1001, 1005, 1006, 1008, 1001],
    '금액': [10000, 20000, 15000, 5000, 100000, 30000]
}, columns=['고객번호', '금액'])
df2

Unnamed: 0,고객번호,금액
0,1001,10000
1,1001,20000
2,1005,15000
3,1006,5000
4,1008,100000
5,1001,30000


In [85]:
'''
merge 함수로 위의 두 데이터프레임 df1, df2 를 합치면 공통 열인 고객번호 열을 기준으로 데이터를 찾아서 합친다. 
이 때 기본적으로는 양쪽 데이터프레임에 모두 키가 존재하는 데이터만 보여주는 inner join 방식을 사용한다.
'''
pd.merge(df1, df2, on = '고객번호') 

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000
1,1001,둘리,20000
2,1001,둘리,30000
3,1005,희동,15000
4,1006,마이콜,5000


In [77]:
# outer join 방식은 키 값이 한쪽에만 있어도 데이터를 보여준다.
pd.merge(df1, df2, how='outer')

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000.0
1,1001,둘리,20000.0
2,1001,둘리,30000.0
3,1002,도우너,
4,1003,또치,
5,1004,길동,
6,1005,희동,15000.0
7,1006,마이콜,5000.0
8,1007,영희,
9,1008,,100000.0


In [78]:
# left, right 방식은 각각 첫번째, 혹은 두번째 데이터프레임의 키 값을 모두 보여준다.
pd.merge(df1, df2, how='left')

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000.0
1,1001,둘리,20000.0
2,1001,둘리,30000.0
3,1002,도우너,
4,1003,또치,
5,1004,길동,
6,1005,희동,15000.0
7,1006,마이콜,5000.0
8,1007,영희,


In [79]:
pd.merge(df1, df2, how='right')

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000
1,1001,둘리,20000
2,1005,희동,15000
3,1006,마이콜,5000
4,1008,,100000
5,1001,둘리,30000


### 실습  아래 두 데이터를 이용해서 merge 4가지 방법으로 합쳐보고(회사코드는 지워주세요) 차이점을 비교해 보세요.(최종 inner 방법으로 data_test에 저장하세요)

In [None]:
df_name = pd.DataFrame({
    '종목코드': [95570, 68400, 27410, 282330, 138930, 1460],
    '회사이름': ['AJ네트웍스', 'SK렌터카', 'AK홀딩스', 'BGF리테일', 'BNK금융지주', 'BYC']
}, columns=['종목코드', '회사이름'])

df_money = pd.DataFrame({
    '회사코드': [95570, 68400, 6840, 27410, 138930, 1460],
    '종가': [20000, 24000, 15000, 5000, 100000, 30000]
}, columns=['회사코드', '종가'])
print('df_name데이터 \n',df_name,'\n')
print('df_money데이터 \n',df_money)

In [None]:
# 방법1 left_on, right_on 지정해서 합쳐주고 하나 삭제
data_test = pd.merge(df_name, df_money, left_on = '종목코드',right_on='회사코드')
# data_test = pd.merge(df_name, df_money, how='outer', left_on = '종목코드',right_on='회사코드')
# data_test = pd.merge(df_name, df_money, how='right', left_on = '종목코드',right_on='회사코드')
# data_test = pd.merge(df_name, df_money, how='left', left_on = '종목코드',right_on='회사코드')
data_test = data_test.drop('회사코드',axis=1)
print(data_test)

# 방법2 칼럼 이름을 바꿔주고 진행
# df_money.rename(columns = {'회사코드' : '종목코드'}, inplace = True)
# data_test1 = pd.merge(df_name, df_money, on = '종목코드')
# data_test1 = pd.merge(df_name, df_money, how='outer', on = '종목코드')
# data_test1 = pd.merge(df_name, df_money, how='right', on = '종목코드')
# data_test1 = pd.merge(df_name, df_money, how='left', on = '종목코드')
# print(data_test1)

### 실습 비율 칼럼을 만들고 동일 비중으로 값을 넣어주세요. 

In [None]:
data_test['비율'] = 1/len(data_test)* 100
print(data_test)

### 실습 (총 투입금액 1,000,000원) 현재 투자를 한다 각 회사마다 보유주식수를를 계산해 보세요.   

In [None]:
cash = 1000000
same_money = cash * data_test['비율'][0] /100
data_test['보유주식수'] = round(same_money / data_test['종가'],0)
data_test

### 실습 data_test에서 회사이름이 SK렌터카인 종목을 추출해 보세요

In [None]:
data_test[ data_test['회사이름'] == 'SK렌터카' ]

### 실습 data_test에서 보유주식수가 8이상 35이하의 종목을 추출해 보세요

In [None]:
data_test[ (data_test['보유주식수'] >= 8) & (data_test['보유주식수'] < 35) ]

### Concat
- concat 함수를 사용하면 기준 열(key column)을 사용하지 않고 단순히 데이터를 연결(concatenate)한다.

기본적으로는 위/아래로 데이터 행을 연결한다(defalut axis=0). 단순히 두 시리즈나 데이터프레임을 연결하기 때문에 인덱스 값이 중복될 수 있다.

In [None]:
s1 = pd.Series([0, 1], index=['A', 'B'])
s2 = pd.Series([2, 3, 4], index=['A', 'B', 'C'])

In [None]:
s1

In [None]:
s2

In [None]:
pd.concat([s1, s2])

In [None]:
# 만약 옆으로 데이터 열을 연결하고 싶으면 axis=1로 인수를 설정한다.
df1 = pd.DataFrame(
    np.arange(6).reshape(3, 2),
    index=['a', 'b', 'c'],
    columns=['데이터1', '데이터2'])
df1
print(df1.describe)

In [None]:
df2 = pd.DataFrame(
    6 + np.arange(4).reshape(2, 2),
    index=['a', 'c'],
    columns=['데이터3', '데이터4'])
df2

In [None]:
pd.concat([df1, df2], axis=1)

### 실습 아래 두 데이터프레임을 concat을 활용해서 합쳐보고 merge를 concat처럼 사용해 보세요

In [None]:
df1 = pd.DataFrame({
    '고객번호': [1001, 1002, 1003, 1004, 1005, 1006, 1007],
    '이름': ['둘리', '도우너', '또치', '길동', '희동', '마이콜', '영희']
}, columns=['고객번호', '이름'])
print(df1)

df2 = pd.DataFrame({
    '고객번호': [1008, 1009, 1010, 1011, 1012, 1013, 1014],
    '이름': ['둘리1', '도우너1', '또치1', '길동1', '희동1', '마이콜1', '영희1']
}, columns=['고객번호', '이름'])
print(df2)

In [None]:
print(pd.merge(df1,df2, how = 'outer', left_index=True, right_index=True))
print(pd.merge(df1,df2, how = 'outer', on = ['고객번호','이름']))

### 정렬 (Sort)
- sort_index 메서드
- sort_values 메서드

In [None]:
df = df.drop

In [None]:
np.random.seed(1)

s = pd.Series(range(10))
s[3] = np.nan

s2 = pd.Series(np.random.randint(6, size=100))
s2.value_counts()

In [None]:
s2.value_counts().sort_index()

In [None]:
# sort_values() : default값이 오름차순정렬
# 결측치가 있는경우 가장 나중으로 배치 됨
s.sort_values()

In [None]:
s.sort_values(ascending=False) # 내림차순 정렬

In [None]:
data = [
    ["037730", "3R", 1510],
    ["036360", "3SOFT", 1790],
    ["005670", "ACTS", 1185],
    ["999999", "BLABLA", 9999]
]

columns = ["종목코드", "종목명", "현재가"]
df = pd.DataFrame(data=data, columns=columns)
# df.set_index("종목코드", inplace=True)

df

In [None]:
df.sort_values(by=['종목코드', '현재가'])

In [None]:
df = pd.DataFrame([
    [14, 7, 12],
    [16, 8, 11],
    [12, 8, 19],
    [13, 8, 13],
    [15, 9, 10]],
    columns = ['a', 'b', 'c'],
    index = [1, 2, 3, 4, 5]
)
df

In [None]:
# 프레임의 정렬, 리스트로 반환
df.sort_values(['b','c'], ascending=False)

### 결측치 다루기

#### 데이터 확인

- [2019 COVID-19 Data Set in Korean](https://www.kaggle.com/datasets/yjunwoo14/2019-covid19-ncov19-data-set-in-korean)

In [None]:
from google.colab import drive
drive.mount('/content/drive')

import pandas as pd
df=pd.read_csv('/content/drive/MyDrive/튜터링/datasets/COVID-19_Korean (1).csv') # colab 용
# df=pd.read_csv('./datasets/COVID-19_Korean (1).csv') # jupyter notebook 용
df.head()

In [None]:
korea_data=df[df['국가/지역']=='대한민국']
korea_data.head()

In [None]:
# 가독성을 위해 행의 수를 줄입니다.
korea_data=korea_data.head()

# reset_index함수를 사용하여 행 인덱스 재설정
korea_data=korea_data.reset_index(drop=True)

# 예제 데이터 수정
korea_data.iloc[[0],0]='서울'
korea_data.loc[3]=None
korea_data.iloc[3,[6,7]]=0
korea_data.loc[3,'사망자']=None
korea_data.loc[4]=None

In [None]:
korea_data

#### 결측치 입력
- 결측치를 입력할 때에는 None도 가능하지만 np.nan, pd.NaT가 모두 가능합니다

In [None]:
import numpy as np 
korea_data.iloc[1,0]=np.nan
korea_data.iloc[2,0]=pd.NaT
korea_data

#### 결측치 확인

- info() / notnull() / notna()
- isnull() / isna()

#### 결측치가 아닌 데이터 개수

In [None]:
korea_data.info()

In [None]:
korea_data.notnull()

In [None]:
korea_data.notnull().sum()

In [None]:
korea_data.notna()

In [None]:
korea_data.notna().sum()

#### 결측치 데이터 개수

In [None]:
korea_data.isnull()

In [None]:
korea_data.isnull().sum()

In [None]:
korea_data.isna()

In [None]:
korea_data.isna().sum()

#### 결측치 제거
 - [DataFrame.dropna(self, axis=0, how='any', thresh=None, subset=None, inplace=False)](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.dropna.html)

In [None]:
korea_data

In [None]:
# dropna - 매개변수 axis의 default값이 0, how의 default값이 'any'이므로 결측값이 있는 행은 모두 삭제

korea_data.dropna()

In [None]:
# 결측치가 하나라도 있으면 삭제할 것인지(any)
korea_data.dropna(how='any')

In [None]:
# 모든 값이 결측치여야 삭제할 것인지를(all) 결정
korea_data.dropna(how='all')

#### 결측치 대체
- [DataFrame.fillna(self, value=None, method=None, axis=None, inplace=False, limit=None, downcast=None)](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.fillna.html)

In [None]:
# 결측치를 원하는 값(고정값)으로 대체 
korea_data.fillna(0) # '0' 으로 대체

In [None]:
# 고정 값이 아닌 원하는 값을 유연하게 입력
# 딕셔너리로 칼럼명과 데이터를 넘겨주면 해당 칼럼의 결측치가 데이터로 변경
korea_data.fillna({'확진자':korea_data['확진자'].mean()})

In [None]:
# 앞의 데이터로 뒤의 결측치를 대체하는 ffill,pad
# 뒤의 데이터로 앞의 결측치를 대체하는 backfill,bfill
korea_data.fillna(method='ffill')

#### 결측치 대체 실습

- 위 배운 내용을 바탕으로 'korea_data' 데이터프레임의 결측치를 대체해 보시오

>- 행정구역 결측치 = 서울  
>- 국가/지역 결측치 = 대한민국  
>- 확진자 결측치 = 평균값  
>- 그 외 결측치 = 앞의 데이터로 대체

|      | 행정구역 | 국가/지역 | 위도 |  경도 |       날짜 |   확진자 | 사망자 | 회복자 |
| ---: | -------: | --------: | ---: | ----: | ---------: | -------: | -----: | -----: |
|    0 |     서울 |  대한민국 | 36.0 | 128.0 | 2020-01-22 | 1.000000 |    0.0 |    0.0 |
|    1 |     서울 |  대한민국 | 36.0 | 128.0 | 2020-01-23 | 1.000000 |    0.0 |    0.0 |
|    2 |     서울 |  대한민국 | 36.0 | 128.0 | 2020-01-24 | 2.000000 |    0.0 |    0.0 |
|    3 |     서울 |  대한민국 | 36.0 | 128.0 | 2020-01-24 | 1.333333 |    0.0 |    0.0 |
|    4 |     서울 |  대한민국 | 36.0 | 128.0 | 2020-01-24 | 1.333333 |    0.0 |    0.0 |



In [None]:
korea_data.fillna({'행정구역':'서울',
                   '국가/지역':'대한민국',
                   '확진자':korea_data['확진자'].mean()},
                  inplace=True)
korea_data.fillna(method='ffill')

### 데이터 시각화 (matplotlib)

#### line 차트

In [None]:
import matplotlib.pyplot as plt 

fig = plt.figure()
subplot1 = fig.add_subplot(1, 2, 1)  # 1행 1열의 액자에 첫 번째 종이를 만들라는 뜻
subplot2 = fig.add_subplot(1, 2, 2)  # 1행 2열 형태로 종이를 붙이고 그중에 두번째 종이
subplot1.plot([1, 2, 3, 4])
subplot2.plot([4, 3, 2, 1])
plt.show()

In [None]:
fig, axes = plt.subplots(2, 2)

axes[0][0].plot([1, 2, 3, 4])
axes[0][1].plot([4, 3, 2, 1])
axes[1][0].plot([1, 2, 2, 1])
axes[1][1].plot([2, 1, 1, 2])
plt.show()

#### bar 차트

In [None]:
plt.bar([1, 3, 5, 7, 9], [2, 3, 2, 2, 8])
plt.show()

#### hist 차트

In [None]:
data = [1, 2, 2, 3, 3, 3, 4, 4, 4, 4]   # 1이 1개, 2가 2개, 3이 3개, 4가 4개
plt.hist(data)
plt.show()

#### heatmap (주류 데이터 상관관계)

In [None]:
url = 'https://raw.githubusercontent.com/justmarkham/DAT8/master/data/drinks.csv'
drink_df = pd.read_csv(url, ',')

In [None]:
drink_df.columns

In [None]:
cols = ['beer_servings', 'spirit_servings', 'wine_servings', 'total_litres_of_pure_alcohol']
corr = drink_df[cols].corr(method='pearson')
corr

In [None]:
corr_column_names = ['beer', 'spirit', 'wine', 'alcohol']

In [None]:
# heatmap
import seaborn as sns

sns.set(font_scale=1.5)
hm = sns.heatmap(corr.values,
                    cbar=True,  #오른쪽에 있는 막대(범주)를 표시
                    annot=True,  #상관계수를 표시
                    square=True, # 정사각형으로 지정하는 것이며, False로 설정 시 직사각형이 됨
                    fmt='.2f', #상관계수의 소수점 자리수를 지정
                    annot_kws={'size': 15}, # 상관계수의 글자 크기를 지정
                    yticklabels=corr_column_names, # y축 레이블 값
                    xticklabels=corr_column_names) # x축 레이블 값
plt.title('Drink Correlation Coefficient')
plt.tight_layout()
plt.show()

"""
피어슨의 상관계수는 일반적으로
-값이 -1.0 ~ -0.7 이면, 강한 음적 상관관계
-값이 -0.7 ~ -0.3 이면, 뚜렷한 음적 상관관계
-값이 -0.3 ~ -0.1 이면, 약한 음적 상관관계
-값이 -0.1 ~ +0.1 이면, 없다고 할 수 있는 상관관계
-값이 +0.1 ~ +0.3 이면, 약한 양적 상관관계
-값이 +0.3 ~ +0.7 이면, 뚜렷한 양적 상관관계
-값이 +0.7 ~ +1.0 이면, 강한 양적 상관관계
"""

In [None]:
# pairplot 선형
sns.set(style='whitegrid')
sns.pairplot(drink_df[['beer_servings', 'spirit_servings', 
                     'wine_servings', 'total_litres_of_pure_alcohol']],kind='reg')
#plt.title('Drink Pair Plot')
plt.show()

#### 다른 시각화 방법 (https://dining-developer.tistory.com/30) 참고

### 실습 Merge & KRX API 활용 스크래핑
 - https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.merge.html 참고
 - DataFrame.merge(right, how='inner', on=None, left_on=None, right_on=None, 
   left_index=False, right_index=False, sort=False, suffixes=('_x', '_y'), copy=True, indicator=False, validate=None)
 - KRX 스크래핑 정리된 깃허브 https://github.com/sharebook-kr/pykrx 참고

### 실습
 - 참고 스크래핑을 많이 할 시(반복문)에는 time.sleep(1)을 주어 아이피 차단 당하지 않도록 주의한다.
 - KRX 스크래핑을 활용하여 2020년 4월 20일에 KOSDAQ 시장의 티커를 받아오기.
 - 티커 중 앞에서 10번째부터 20번째까지 티커 ticker 저장하기
 - ticker-> 2020년 4월 (시가/고가/저가/종가/거래량)정보 받아와 df_ohlcv 저장하기 
   (칼럼은 날짜/시가/고가/저가/종가/거래량/티커)
 - ticker-> 2020년 4월 20일 (PER/EPS/PBR)정보 받아와 df_fundamental 저장하기 (칼럼 PER/EPS/PBR/티커)
 - get_market_net_purchases_of_equities을 활용하여 연기금 데이터 (2020년 4월 20일) 받아오고 ticker에 해당하는 종목들만      df_purchases_of_equities 저장하기
 - df_purchases_of_equities의 칼럼을 종목명/매도거래량/매수거래량만 저장하기
 - df_fundamental와 df_purchases_of_equities를 합치기
 - csv 파일로 저장해 보기 , 불러와 보기
 - 각 티커별로 주가데이터 그래프 그려보기