# 2. 데이터 분석 복습

파이썬 투자 포트폴리오 만들기

## 2.1. 시리즈(Series)

시리즈: 데이터가 순차적으로 나열된 1차원 배열
- index와 value가 일대일 대응 관계
- 딕셔너리와 유사
- Series() 함수로 만들 수 있음

### 2.1.1. 시리즈 만들기

In [2]:
import pandas as pd

dict_data = {'a': 1, 'b': 2, 'c': 3}
series = pd.Series(dict_data)

print(series)

a    1
b    2
c    3
dtype: int64


In [3]:
type(series)

pandas.core.series.Series

In [4]:
# 인덱스 뽑기

series.index

Index(['a', 'b', 'c'], dtype='object')

In [5]:
# 값 뽑기

series.values

array([1, 2, 3], dtype=int64)

In [6]:
# 리스트로 시리즈 만들기

list_data = ['a', 'b', 'c']
series_2 = pd.Series(list_data)

print(series_2)

0    a
1    b
2    c
dtype: object


In [7]:
# 리스트에 인덱스 지정해서 시리즈 만들기

series_3 = pd.Series(list_data, index=['index1', 'index2', 'index3'])

print(series_3)

index1    a
index2    b
index3    c
dtype: object


In [8]:
# 리스트 연산

series_1 = pd.Series([1, 2, 3])
series_2 = pd.Series([4, 5, 6])

series_1 + series_2

0    5
1    7
2    9
dtype: int64

## 2.2. 데이터프레임(Dataframe)

 데이터프레임은 2차원 배열로, 엑셀에서 사용하는 행(row)과 열(column)로 이루어진 표 형태
 - 데이터프레임의 각 열은 시리즈 객체 -> 이러한 시리즈가 모여 데이터프레임을구성

### 2.2.1. 데이터프레임 만들기와 수정하기

In [9]:
# DataFrame() 함수 사용

dict_data = {'col1': [1, 2, 3], 'col2': [4, 5, 6], 'col3': [7, 8, 9]}
df = pd.DataFrame(dict_data)

df 

Unnamed: 0,col1,col2,col3
0,1,4,7
1,2,5,8
2,3,6,9


In [10]:
type(df)

pandas.core.frame.DataFrame

In [11]:
# list 활용 데이터프레임 만들기

df2 = pd.DataFrame([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

df2

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


In [12]:
# 인덱스와 열 명칭 직접 지정

df3 = pd.DataFrame([[1, 2, 3], [4, 5, 6], [7, 8, 9]],
                   index = ['index1', 'index2', 'index3'],
                   columns=['col1', 'col2', 'col3'])

df3

Unnamed: 0,col1,col2,col3
index1,1,2,3
index2,4,5,6
index3,7,8,9


In [13]:
# 인덱스와 열 명칭 변경

df3.index = ['행1', '행2', '행3']
df3.columns = ['열1', '열2', '열3']

df3

Unnamed: 0,열1,열2,열3
행1,1,2,3
행2,4,5,6
행3,7,8,9


In [15]:
# 원하는 부분만 명칭 변경

df3.rename(index={'행1': '첫번째 행'}, inplace=True)
df3.rename(columns={'열1': '첫번째 열'}, inplace=True)

df3

Unnamed: 0,첫번째 열,열2,열3
첫번째 행,1,2,3
행2,4,5,6
행3,7,8,9


inplace=True
- 원본 데이터 수정을 허용한다는 의미

In [16]:
# 행과 열 삭제

df3.drop('행3', axis=0, inplace=True)
df3.drop('열3', axis=1, inplace=True)

df3

Unnamed: 0,첫번째 열,열2
첫번째 행,1,2
행2,4,5


### 2.2.2. 열과 행 선택하기
열을 하나만 선택할 때는 대괄호([]) 안에 열 이름을 따옴표와 함께 입력하거나, 도트(,) 다음에 열 이름을 입력하면 됨
- DataFrame['열 이름']
- DataFrame.열 이름  -> 열 이름이 문자열이여야 함

In [18]:
# 샘플 데이터프레임

dict_data = {'col1': [1, 2, 3, 4], 'col2': [5, 6, 7, 8],
             'col3': [9, 10, 11, 12], 'col4': [13, 14, 15,16]}

df = pd.DataFrame(dict_data, index=['index1', 'index2', 'index3', 'index4'])

df

Unnamed: 0,col1,col2,col3,col4
index1,1,5,9,13
index2,2,6,10,14
index3,3,7,11,15
index4,4,8,12,16


In [19]:
# 열 선택하기

df['col1']

index1    1
index2    2
index3    3
index4    4
Name: col1, dtype: int64

In [20]:
df.col1

index1    1
index2    2
index3    3
index4    4
Name: col1, dtype: int64

In [21]:
# 데이터프레임 형태로 불러오기

df[['col1']]

Unnamed: 0,col1
index1,1
index2,2
index3,3
index4,4


In [22]:
# 2개 이상의 열 추출

df[['col1', 'col2']]

Unnamed: 0,col1,col2
index1,1,5
index2,2,6
index3,3,7
index4,4,8


In [24]:
# 행 선택

df.loc['index1']

col1     1
col2     5
col3     9
col4    13
Name: index1, dtype: int64

인덱서 loc, iloc
- loc: 인덱스 이름을 기준으로 행을 선택
- iloc: 위치 인덱스를 기준으로 행을 선택

In [25]:
df.iloc[0]

col1     1
col2     5
col3     9
col4    13
Name: index1, dtype: int64

In [26]:
# 데이터프레임 형태로 가져오기

df.loc[['index1']]

Unnamed: 0,col1,col2,col3,col4
index1,1,5,9,13


In [27]:
df.iloc[[0]]

Unnamed: 0,col1,col2,col3,col4
index1,1,5,9,13


In [28]:
# 슬라이싱 기능 사용

df.loc['index1':'index3']

Unnamed: 0,col1,col2,col3,col4
index1,1,5,9,13
index2,2,6,10,14
index3,3,7,11,15


In [29]:
df.iloc[0:3]

Unnamed: 0,col1,col2,col3,col4
index1,1,5,9,13
index2,2,6,10,14
index3,3,7,11,15


In [30]:
# 행과 열 동시 선택

df.loc['index1', 'col1']

1

원소 선택법
- DataFrame.loc['행 인덱스', '열 이름]
- DataFrame.iloc[행 위치, 열 위치]

In [31]:
df.loc[['index1', 'index3'], ['col1', 'col4']]

Unnamed: 0,col1,col4
index1,1,13
index3,3,15


In [32]:
df.loc['index1':'index2', 'col1':'col3']

Unnamed: 0,col1,col2,col3
index1,1,5,9
index2,2,6,10


In [33]:
df.iloc[0,0]

1

In [34]:
df.iloc[[0,2], [0,3]]

Unnamed: 0,col1,col4
index1,1,13
index3,3,15


In [35]:
df.iloc[0:2, 0:3]

Unnamed: 0,col1,col2,col3
index1,1,5,9
index2,2,6,10


## 2.3. 데이터 불러오기 및 저장하기

In [37]:
# 인터넷에서 데이터 불러오기

data_csv = pd.read_csv(
    'https://raw.githubusercontent.com/hyunyulhenry/quant_py/main/kospi.csv')

data_csv

Unnamed: 0,Date,Close,Ret
0,2020-01-02,2175.17,-1.02
1,2020-01-03,2176.46,0.06
2,2020-01-06,2155.07,-0.98
3,2020-01-07,2175.54,0.95
4,2020-01-08,2151.31,-1.11
...,...,...,...
243,2020-12-23,2759.82,0.96
244,2020-12-24,2806.86,1.70
245,2020-12-28,2808.60,0.06
246,2020-12-29,2820.51,0.42


In [38]:
# 데이터 csv로 저장하기

data_csv.to_csv('data.csv')

## 2.4. 데이터 요약 정보 및 통계값 살펴보기

## 2.5. 결측치 처리하기

## 2.6. 인덱스 다루기

## 2.7. 필터링(Filtering)

## 2.8. 새로운 열 만들기

## 2.9. 데이터프레임 합치기

## 2.10. 데이터 재구조화

## 2.11. 데이터프레임에 함수 적용

## 2.12. 그룹 연산하기

## 2.13. 시계열 데이터 다루기