# pandas 기초.pdf
# 판다스(Pandas) 기초
< 참고자료 및 코드 출처>
1. DANDYRILLA 님의 github "판다스(pandas) 기본 사용법 익히기"
2. 파이썬 머신러닝 완벽 가이드 (권철민 저)
3. 김도형의 데이터 사이언스 스쿨
4. R,Python 분석과 프로그래밍의 친구(by R Friend)

##### pandas 외에도 배열구조나 랜더 값 생성 등의 기능을 활용하기 위한 numpy 와 그래프를 그리기 위한 matplotlib 패키지들도 함께 import

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

## 데이터 object 생성하기
- 데이터 object 는 '데이터를 담고 있는 그릇'이라고 생각하면 이해하기 쉽다
- 판다스에서 자주 사용하게 될 데이터 object는 'Series'와 'DataFrame'이 있다
- Series는 데이터를 1차원 배열(칼럼1개)로 담고 있고, DataFrame을 데이터를 2차원배열(칼럼이 여러개)로 담고 있다.

### Series는 다음과 같이 리스트를 넘겨줘서 만들 수 있다
- index의 경우, 0부터 시작해서 1씩 증가하는 정수 index가 사용된다

In [3]:
s = pd.Series([1,3,5,np.nan,6,8])
s

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

### DataFrame은 여러 형태의 데이터를 받아 생성할 수 있다
- numpy array를 받아서 생성
- pd.DataFrame()이라는 클래스 생성자를 사용

In [4]:
# 날짜 값들을 만들기
dates = pd.date_range('20220801', periods= 6)
# 행 : index, 열 : columns
# 참고 : np.random.randn(m,n)은 평균 0, 표준편차 1의 표준정규분포 난수
df = pd.DataFrame(np.random.randn(6,4),index=dates, columns=list("ABCD"))
df

Unnamed: 0,A,B,C,D
2022-08-01,-0.105818,-0.531284,-0.538712,-1.157917
2022-08-02,-0.334733,0.567517,0.051116,-0.968098
2022-08-03,-0.316085,-1.295673,-1.401836,1.039669
2022-08-04,1.655381,0.060956,-2.252284,-1.274215
2022-08-05,0.702529,1.153751,1.05724,-1.010675
2022-08-06,-0.067756,-0.898653,0.308734,-0.872713


- 여러 종류의 자료들이 담긴 딕셔너리(dict)을 받아서 생성
    - 딕셔너리의 key값이 열을 정의하는 column
    - 행을 정의하는 index는 0부터 1씩 증가하는 정수 index

In [5]:
df2 = pd.DataFrame({'A' : 1.,
                    'B' : pd.Timestamp('20220802'),
                    'C' : pd.Series(1,index = list(range(4)),dtype = 'float32'),
                    'D' : np.array([3]*4, dtype = 'int32'),
                    'E' : pd.Categorical(['test','train','test','train']),
                    'F' : 'foo'})
df2

Unnamed: 0,A,B,C,D,E,F
0,1.0,2022-08-02,1.0,3,test,foo
1,1.0,2022-08-02,1.0,3,train,foo
2,1.0,2022-08-02,1.0,3,test,foo
3,1.0,2022-08-02,1.0,3,train,foo


In [7]:
df2.dtypes

A           float64
B    datetime64[ns]
C           float32
D             int32
E          category
F            object
dtype: object

## 데이터 확인하기
- 데이터 프레임에 있는 자료들 중, 몇 개의 자료들만 확인해보고 싶다면 .head()와 .tail() 사용

In [10]:
df.head()

Unnamed: 0,A,B,C,D
2022-08-01,-0.105818,-0.531284,-0.538712,-1.157917
2022-08-02,-0.334733,0.567517,0.051116,-0.968098
2022-08-03,-0.316085,-1.295673,-1.401836,1.039669
2022-08-04,1.655381,0.060956,-2.252284,-1.274215
2022-08-05,0.702529,1.153751,1.05724,-1.010675


In [11]:
df.tail(3)

Unnamed: 0,A,B,C,D
2022-08-04,1.655381,0.060956,-2.252284,-1.274215
2022-08-05,0.702529,1.153751,1.05724,-1.010675
2022-08-06,-0.067756,-0.898653,0.308734,-0.872713


In [12]:
df.index

DatetimeIndex(['2022-08-01', '2022-08-02', '2022-08-03', '2022-08-04',
               '2022-08-05', '2022-08-06'],
              dtype='datetime64[ns]', freq='D')

In [13]:
df.columns

Index(['A', 'B', 'C', 'D'], dtype='object')

In [14]:
df.values

array([[-0.10581774, -0.53128442, -0.53871236, -1.15791701],
       [-0.33473275,  0.56751677,  0.05111629, -0.9680976 ],
       [-0.31608525, -1.29567256, -1.40183572,  1.03966927],
       [ 1.65538104,  0.06095641, -2.25228356, -1.27421469],
       [ 0.70252936,  1.15375082,  1.05723963, -1.01067513],
       [-0.06775615, -0.89865278,  0.30873379, -0.87271273]])

- 데이터 프레임의 기초통계량 확인 : .describe() 메소드 사용
    - count
    - mean
    - std
    - min
    - 4분위수(25%, 50%, 75%)
    - max

In [15]:
df.describe()

Unnamed: 0,A,B,C,D
count,6.0,6.0,6.0,6.0
mean,0.255586,-0.157231,-0.462624,-0.707325
std,0.783534,0.924901,1.204964,0.867613
min,-0.334733,-1.295673,-2.252284,-1.274215
25%,-0.263518,-0.806811,-1.186055,-1.121107
50%,-0.086787,-0.235164,-0.243798,-0.989386
75%,0.509958,0.440877,0.244329,-0.896559
max,1.655381,1.153751,1.05724,1.039669


In [16]:
# 데이터 프레임을 transpose 시키기 : .T
df.T

Unnamed: 0,2022-08-01,2022-08-02,2022-08-03,2022-08-04,2022-08-05,2022-08-06
A,-0.105818,-0.334733,-0.316085,1.655381,0.702529,-0.067756
B,-0.531284,0.567517,-1.295673,0.060956,1.153751,-0.898653
C,-0.538712,0.051116,-1.401836,-2.252284,1.05724,0.308734
D,-1.157917,-0.968098,1.039669,-1.274215,-1.010675,-0.872713


- 행과 열 이름을 정렬하기 : sort_index() 메소드
    - axis = 0 : index를 기준으로 정렬
    - axis = 1 : column을 기준으로 정렬
    - ascending = True : 오름차순 정렬
    - ascending = False : 내림차순 정렬

In [18]:
df.sort_index(axis=1, ascending = False) # 내림차순으로 정렬

Unnamed: 0,D,C,B,A
2022-08-01,-1.157917,-0.538712,-0.531284,-0.105818
2022-08-02,-0.968098,0.051116,0.567517,-0.334733
2022-08-03,1.039669,-1.401836,-1.295673,-0.316085
2022-08-04,-1.274215,-2.252284,0.060956,1.655381
2022-08-05,-1.010675,1.05724,1.153751,0.702529
2022-08-06,-0.872713,0.308734,-0.898653,-0.067756


- 데이터 프레임 내부에 있는 값으로 정렬하기 : sort_values()
- dataframe은 sort()가 없음

In [20]:
# 'B' column 에 대해 정렬
df.sort_values(by='B') # B 컬럼의 값이 커지는 순으로 행의 인덱스가 정리

Unnamed: 0,A,B,C,D
2022-08-03,-0.316085,-1.295673,-1.401836,1.039669
2022-08-06,-0.067756,-0.898653,0.308734,-0.872713
2022-08-01,-0.105818,-0.531284,-0.538712,-1.157917
2022-08-04,1.655381,0.060956,-2.252284,-1.274215
2022-08-02,-0.334733,0.567517,0.051116,-0.968098
2022-08-05,0.702529,1.153751,1.05724,-1.010675


## 데이터 선택하기
- 슬라이싱 사용

In [21]:
# 컬럼 'A' 출력
df['A']

2022-08-01   -0.105818
2022-08-02   -0.334733
2022-08-03   -0.316085
2022-08-04    1.655381
2022-08-05    0.702529
2022-08-06   -0.067756
Freq: D, Name: A, dtype: float64

In [22]:
type(df['A'])

pandas.core.series.Series

In [23]:
# 0,1,2행을 추출 (특정 '행 범위'의 데이터 추출)
df[0:3]

Unnamed: 0,A,B,C,D
2022-08-01,-0.105818,-0.531284,-0.538712,-1.157917
2022-08-02,-0.334733,0.567517,0.051116,-0.968098
2022-08-03,-0.316085,-1.295673,-1.401836,1.039669


In [24]:
# index명에 해당하는 값들 추출
df['20220802':'20220804']

Unnamed: 0,A,B,C,D
2022-08-02,-0.334733,0.567517,0.051116,-0.968098
2022-08-03,-0.316085,-1.295673,-1.401836,1.039669
2022-08-04,1.655381,0.060956,-2.252284,-1.274215


##### **특정 행 하나**를 선택하고 싶은 경우(컬럼선택과 헷갈릴 수 있음)

In [25]:
df['20220802':'20220802']

Unnamed: 0,A,B,C,D
2022-08-02,-0.334733,0.567517,0.051116,-0.968098


<요약>
- 데이터프레임 자체가 갖고 있는 슬라이싱은 다음과 같은 형태로 사용 가능!
    - df[컬럼명]
    - df[시작인뎃스:끝 인덱스+1]
    - df[시작인덱스명: 끝인덱스명]

### 라벨의 이름을 이용(명칭 기반 인덱싱)하여 데이터 선택하기:.loc

In [28]:
df

Unnamed: 0,A,B,C,D
2022-08-01,-0.105818,-0.531284,-0.538712,-1.157917
2022-08-02,-0.334733,0.567517,0.051116,-0.968098
2022-08-03,-0.316085,-1.295673,-1.401836,1.039669
2022-08-04,1.655381,0.060956,-2.252284,-1.274215
2022-08-05,0.702529,1.153751,1.05724,-1.010675
2022-08-06,-0.067756,-0.898653,0.308734,-0.872713


In [27]:
df.loc[dates[0]]
#df.loc['20220801']
#df.loc['2022-08-01']

A   -0.105818
B   -0.531284
C   -0.538712
D   -1.157917
Name: 2022-08-01 00:00:00, dtype: float64

In [30]:
# column 'A','B'에 대한 모든 값 추출
df.loc[:,['A','B']]

Unnamed: 0,A,B
2022-08-01,-0.105818,-0.531284
2022-08-02,-0.334733,0.567517
2022-08-03,-0.316085,-1.295673
2022-08-04,1.655381,0.060956
2022-08-05,0.702529,1.153751
2022-08-06,-0.067756,-0.898653


In [31]:
# index '2022-08-02'부터 '2022-08-04'까지의 column 'A','B'의 값 추출
df.loc['20220802':'20220804',['A','B']]

Unnamed: 0,A,B
2022-08-02,-0.334733,0.567517
2022-08-03,-0.316085,-1.295673
2022-08-04,1.655381,0.060956


In [32]:
# 특정 index 값의 column 'A','B' 값을 추출
df.loc[dates[0],['A','B']]

A   -0.105818
B   -0.531284
Name: 2022-08-01 00:00:00, dtype: float64

In [33]:
# 특정 index 값과 특정 column에 있는 값을 추출
df.at[dates[0],'A']

-0.10581774118363481

### 위치를 나타내는 index 번호를 이용(위치 기반 인덱싱)하여 데이터 선택하기 : .iloc
- 행과 열 값으로 정수형 또는 정수형의 슬라이싱, 팬시 리스트(인덱스의 집합을 리스트로 만든 것)값을 입력
- iloc에 위치 인덱싱이 아닌 명칭을 입력하면 오류가 발생
    - ex) data_df.iloc[0,'Name'] (X)
- iloc에 문자열 인덱스를 행 위치에 입력하도 오류가 밸생
    - ex) data_df.iloc['one',0] (X)
- iloc는 슬라이싱과 팬시 인덱싱은 제공하나, 명확한 위치 기반 인덱싱이 사용되어야 하는 제약으로 인해 불린 인덱싱은 제공하지 않음

In [35]:
df

Unnamed: 0,A,B,C,D
2022-08-01,-0.105818,-0.531284,-0.538712,-1.157917
2022-08-02,-0.334733,0.567517,0.051116,-0.968098
2022-08-03,-0.316085,-1.295673,-1.401836,1.039669
2022-08-04,1.655381,0.060956,-2.252284,-1.274215
2022-08-05,0.702529,1.153751,1.05724,-1.010675
2022-08-06,-0.067756,-0.898653,0.308734,-0.872713


In [37]:
# index 번호 3행 출력
df.iloc[3]

A    1.655381
B    0.060956
C   -2.252284
D   -1.274215
Name: 2022-08-04 00:00:00, dtype: float64

### 불린 인덱싱(조건 설정)을 사용하여 데이터 선택하기
- 가장 많이 사용
- 특정한 열의 값들을 기준으로 조건을 만들어서, 해당 조건에 만족하는 '행'만 선택

## 데이터 변경하기
- 데이터 프레임의 특정 값들을 다른 값으로 변경

### DataFrame과 리스트, 딕셔너리, 넘파이 ndarray 상호 변환
##### **리스트, ndarray에서 DataFrame 변환**

##### **딕셔너리(dict)에서 DataFrame변환**

##### **DataFrame을 ndarray로 변환**

##### **DataFrame을 리스트와 딕셔너리로 변환**

## DataFrame 데이터 삭제하기
- drop() 메소드 사용
- DataFrame.drop(labels=None, axis =0,index=None, columns=None,level=None,inplace=False,errors='raise')
    - axis = 0 : row 방향 축 --> 이상치 데이터 삭제하는 경우
    - axis = 1 : column 방향 축 --> 기존 column 값을 가공해서 새로운 column을 만들고 삭제
    - inplace = False : 원본 DataFrame을 유지하고 drop된 DataFrame을 새롭게 만들고 싶은 경우
    - inplcae = True : 원본 DataFrame에 drop된 결과를 적용할 경우

##### **inplace = True와 False 둘 중, 하나를 딱 정해서 사용**

## Index 객체 
- DataFrame, Series에서 Index 객체만 추출하려면, DataFrame.index 또는 Series.index 속성을 통해 가능
- Index는 오직 식별용으로만 사용
- 한번 만들어진 DataFrame 및 Series의 Index 객체는 함부로 변경할 수 없다
- DataFrame 및 Series에 reset_index() 메소드를 수행하면, 새롭게 인덱스를 연속 숫자형으로 할당하여 기존 인덱스는 'index'라는 새로운 칼럼명으로 추가
    - 인덱스가 연속된 int 숫자형 데이터가 아닐 경우에, 다시 이를 연속 int 숫자형 데이터로 만들 때 사용
    - Series에 reset_index()를 적용하면, Series가 아닌 DataFreame이 반환
    - rest_index()의 파라미터 중, drop=True를 설명하면 기존 인덱스는 새로운 칼럼으로 추가되지 않고 삭제(drop)됨!

## 결측치(Missing Data) 처리하기
- 결측 데이터는 column에 값이 없는 NULL인 경우
- 기본적으로 머신러닝 알고리즘은 이 NaN 값을 처리하지 않으므로, 이 값을 다른 값으로 대체해야 함
    - NaN 값은 평균, 총합 등의 함수 연산 시 제외
- 판다스(pandas)에서는 결측치를 np.nan으로 나타내며, 기본적으로 연산에서 제외

## 연산(Operations)
### 통계적 지표들(Stats)

### 데이터 프레임에 함수 적용하기 (Apply)
- 판다스는 apply 함수에 lambda 식을 결합해 DataFrame 이나 Series의 레코드 별로 데이터를 가공하는 기능을 제공
- apply lambda 식으로 데이터를 가공하는 방법은 자주 사용함
    - ex) lambda x:x**2
    - 위 예시에서 앞 x는 입력인자, 뒤 x**2는 입력인자를 기반으로 계산한 식
- lambda 식을 이용할 때, 여러 개의 값을 입력 인자로 사용해야 할 경우, map() 함수 결합
    - ex) a = [1,2,3]; squares = map(lambda x:x**2,a); list(squares)

### 히스토그램 구하기 (Histogramming)

### 문자열 관련 메소드들(String Methods)

## 합치기(Merging)
- 다양한 자료들을 합쳐 새로운 자료를 만들 때 사용

### Concat
- 같은 형태의 자료들을 이어 하나로 만듬

### Join
- 데이터베이스에서 사용하는 SQL 스타일의 합치기 가능
- merge 메소드를 통해 이루어짐

## 그룹화 = 묶기(Grouping)
- 어떠한 기준을 바탕으로 데이터를 나눔(splitting)
- 각 그룹에 어떤 함수를 독립적으로 적용(applying)
- 적용되어 나온 결과들을 통합(combining)

## 변형하기(Reshaping)
- 데이터 프레임을 다른 형태로 변환

### Stack 메소드
- column들을 index의 레벨로 만들어 '압축'한다

### Pivot Tables

## 시계열 데이터 다루기(Time Series)
- Pandas는 시계열 단위인 주기(frequency)를 다시 샘플링할 수 있다
- 특히 금융데이터를 다룰 때 사용

### pd.to_datetime()
- 날짜/시간을 나타내는 문자열을 자동으로 datetime 자료형으로 바꾸고, DatetimeIndex 자료형 index를 생성

### pd.date_range() 함수
- 모든 날짜/시간을 일일히 입력할 필요 없이, 시작일과 종료일 또는 시작일과 기간을 읿력하면 범위 내에 index를 생성

### shift 연산
- 

#### 1228에 이어서 함

## 범주형 데이터 다루기(Categoricals)