In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

### 1. 데이터 오브젝트 생성하기
- series
    - 1차원 배열의 형태를 가짐. 
    - 리스트를 넘겨주면 만들 수 있음. 
    - 위치하고 있는 정보인 인덱스가 같이 저장되게 됨
    - 따로 전달해주지 않는 이상 기본적으로 0~n 정수 인덱스를 가지게 됨
- DataFrame
    여러 형태의 데이터를 받아 생성할 수 있음
    1. numpy array를 받아 생성할 수 있음
        - 2차원 배열의 형태를 띄고 있음
        - 배열, 인덱스, 컬럼명 순서로 작성
    2. 딕셔너리 형태로 만들 수 있음
        - dict의 key값이 열을 정의하는 컬럼이 됨
        - 행을 정의하는 index는 자동으로 0부터 시작하여 1씩 증가하는 정수 인덱스가 사용됨

In [6]:
dates = pd.date_range('20221026', periods=6)
dates

DatetimeIndex(['2022-10-26', '2022-10-27', '2022-10-28', '2022-10-29',
               '2022-10-30', '2022-10-31'],
              dtype='datetime64[ns]', freq='D')

In [7]:
df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=list('ABCD'))
df

Unnamed: 0,A,B,C,D
2022-10-26,1.239788,0.009124,0.221657,-0.380609
2022-10-27,-0.148007,0.68848,2.869126,-1.360317
2022-10-28,0.449262,-0.745872,-0.036021,-0.179717
2022-10-29,-0.038179,-1.363583,-0.572041,0.029549
2022-10-30,0.042069,0.166434,0.096564,0.163112
2022-10-31,-0.530795,0.999491,0.364012,-2.145749


In [9]:
df.dtypes

A    float64
B    float64
C    float64
D    float64
dtype: object

### 2. 데이터 확인하기
- 맨앞이나 맨뒤 데이터 확인하는 방법
    - head(), tail()
- 인덱스명이나 컬럼명, 값을 보는 방법
    - index(), columns(), values()
- 간단한 통계 정보를 보는 방법
    - describe()
- 열과 행을 바꾸는 방법
    - T : 속성임, ()작성시 에러
- 정렬하기
    - sort_index()
        - axis=n : n번째 인덱스를 기준으로 정렬함
        - by="columns" : "columns"를 기준으로 값 정렬
        

In [11]:
df.describe()

Unnamed: 0,A,B,C,D
count,6.0,6.0,6.0,6.0
mean,0.169023,-0.040988,0.49055,-0.645622
std,0.612271,0.883898,1.208928,0.911962
min,-0.530795,-1.363583,-0.572041,-2.145749
25%,-0.12055,-0.557123,-0.002875,-1.11539
50%,0.001945,0.087779,0.15911,-0.280163
75%,0.347464,0.557969,0.328423,-0.022767
max,1.239788,0.999491,2.869126,0.163112


### 3. 데이터 선택하기
- 특정 열의 data를 추출 : df['column'] or df.column
    - 리턴값은 seies 형태를 가짐
- 특정 행의 data를 선택 : df['index':'index']
    - default index인 경우 [0:n] 
    - index를 지정한 경우 [index: index]
- index, columns를 사용하여 원하는 데이터 선택 : df.loc[index, 'columns']
    - 특정 한 개의 값을 가져옴 : df.at[index, 'columns']
- 위치를 이용하여 선택하기 : df.iloc[index, columns_index]
    - 특정 한 개의 값을 가져옴 : df.iat[index, columns_index]
    
    
- 조건을 이용하여 선택하기
    - df[df['columns'] > 0]
- 필터링 이용하기
    - isin([존재여부 확인할 값])
    
    
- 데이터 변경하기
    - 바꾸려고 하는 위치를 고름
    - 바꾸고자 하는 값을 넣어줌

In [21]:
s1 = pd.Series([1, 2, 3, 4, 5, 6], index=pd.date_range('20221026', periods=6))
s1

2022-10-26    1
2022-10-27    2
2022-10-28    3
2022-10-29    4
2022-10-30    5
2022-10-31    6
Freq: D, dtype: int64

In [22]:
df['F'] = s1
df

Unnamed: 0,A,B,C,D,F
2022-10-26,1.239788,0.009124,0.221657,-0.380609,1
2022-10-27,-0.148007,0.68848,2.869126,-1.360317,2
2022-10-28,0.449262,-0.745872,-0.036021,-0.179717,3
2022-10-29,-0.038179,-1.363583,-0.572041,0.029549,4
2022-10-30,0.042069,0.166434,0.096564,0.163112,5
2022-10-31,-0.530795,0.999491,0.364012,-2.145749,6


In [12]:
df[df>0]

Unnamed: 0,A,B,C,D
2022-10-26,1.239788,0.009124,0.221657,
2022-10-27,,0.68848,2.869126,
2022-10-28,0.449262,,,
2022-10-29,,,,0.029549
2022-10-30,0.042069,0.166434,0.096564,0.163112
2022-10-31,,0.999491,0.364012,


In [15]:
df2 = df.copy()
df2['E'] = ['one', 'two', 'three', 'four', 'five', 'six']
df2

Unnamed: 0,A,B,C,D,E
2022-10-26,1.239788,0.009124,0.221657,-0.380609,one
2022-10-27,-0.148007,0.68848,2.869126,-1.360317,two
2022-10-28,0.449262,-0.745872,-0.036021,-0.179717,three
2022-10-29,-0.038179,-1.363583,-0.572041,0.029549,four
2022-10-30,0.042069,0.166434,0.096564,0.163112,five
2022-10-31,-0.530795,0.999491,0.364012,-2.145749,six


In [16]:
df2[df2['E'].isin(['one', 'three'])]

Unnamed: 0,A,B,C,D,E
2022-10-26,1.239788,0.009124,0.221657,-0.380609,one
2022-10-28,0.449262,-0.745872,-0.036021,-0.179717,three


### 4. 결측치
- 결측치가 하나라도 존재하는 행 자체를 버릴 때
    - dropna()
- 결측치가 있는 부분을 다른 값으로 채우로 싶을 때
    - fillna(채우고 싶은 값)
- 결측치인지 아닌지 여부를 알고 싶을 때
    - isna()

In [23]:
df1 = df.reindex(index=dates[0:4], columns=list(df.columns) + ['E'])

In [24]:
df1

Unnamed: 0,A,B,C,D,F,E
2022-10-26,1.239788,0.009124,0.221657,-0.380609,1,
2022-10-27,-0.148007,0.68848,2.869126,-1.360317,2,
2022-10-28,0.449262,-0.745872,-0.036021,-0.179717,3,
2022-10-29,-0.038179,-1.363583,-0.572041,0.029549,4,


### 5. 연산
- 통계적 지표들
    

### 6. 합치기 (merge)

### 7. 묶기 (Group)

### 8. 변형하기 (reshape)

### 9. 시계열 다루기

### 10. 범주형 데이터 다루기

### 11. 그래프로 표현하기

### 데이터 입/출력