여기에 사전과제를 진행해주시면 됩니다!

# 판다스의 정의

- 판다스(pandas)란 테이블 형태, 즉 행과 열로 이루어진 데이터 객체와 그러한 데이터 구조를 편하게 다루기 위한 패키지입니다.
- 데이터 분석 시에 유용하게 사용됩니다.
- 행렬의 계산이 용이한 numpy를 기반으로 작성되었기 때문에 데이터 조작 및 분석에 특화되어 있습니다.

# 데이터프레임의 구성

- 데이터프레임은 시리즈(Series)의 집합으로 이루어져 있습니다.
- 시리즈란, 값(value)과 인덱스만으로 구성된 가장 간단한 1차원 자료구조입니다.
- 여기서 인덱스는 파이썬 딕셔너리의 키와 대응한다는 점에서 딕셔너리와 다소 유사한 구조라고도 볼 수 있습니다.
    - 인덱스에는 이름을 붙여줄 수 있고, 별도의 인덱스 레이블을 지정하지 않는다면 0부터 시작되는 디폴트 정수 인덱스가 자동으로 사용됩니다.
- 시리즈는 배열, 리스트와 같은 일련의 시퀀스데이터(순서가 있는 데이터)들을 받아 인덱스가 있는 객체를 생성합니다.

- 데이터프레임은 행과 열로 이루어진 2차원 배열 구조입니다.
- 축이 인덱스 하나밖에 없는 시리즈와 달리, 컬럼이라는 새로운 축이 등장합니다.
- 보통 행을 구분해주는 것을 행 인덱스(row index), 열을 구분해주는 것을 열 이름(column name)이라고 표현합니다.

# 데이터 프레임 조작법

## 데이터프레임 생성

- 먼저 데이터프레임을 만들어주는 함수로는 pd.DataFrame()이 있습니다.
- dictionary형 데이터에 사용할 수 있으며 이때 dict의 key는 열 이름으로, dict의 value는 열의 값으로 지정됩니다.
    - 인덱스는 따로 지정해주지 않으면 디폴트 정수 인덱스로 자동 지정됩니다.
- 딕셔너리 외에도 리스트, 2차원 ndarray, 시리즈를 이용해서 데이터프레임 객체를 생성할 수 있습니다. 

In [22]:
# 예시
import numpy as np
import pandas as pd
df = pd.DataFrame(np.arange(12).reshape([3,4]))
df

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


## 데이터 확인

- 데이터프레임을 다룰 때 필수적으로 확인해야하는 사항이 몇가지 있습니다.
- 일단 가장 먼저 데이터의 구조(행, 열의 개수)를 파악해야 하는데, 이는 df.shape를 통해 가능합니다.
- 또 df.head, df.tail을 통해 데이터프레임의 상위/하위 행들을 간단하게 확인할 수 있습니다.
- 데이터의 컬럼별 자료형은 df.dtypes를 통해 확인할 수 있습니다. 만약 컬럼과 맞지 않는 데이터타입이 있다면, 오류 데이터를 의심해봐야 합니다.
- df.info는 앞서 말한 내용들을 한눈에 확인할 수 있도록 해줍니다.

In [23]:
# 예시
df.shape

(3, 4)

In [24]:
df.head(2)

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7


In [25]:
df.dtypes

0    int32
1    int32
2    int32
3    int32
dtype: object

In [26]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   0       3 non-null      int32
 1   1       3 non-null      int32
 2   2       3 non-null      int32
 3   3       3 non-null      int32
dtypes: int32(4)
memory usage: 180.0 bytes


## 인덱스/컬럼명 변경

- 데이터프레임의 인덱스와 컬럼을 가져오고 싶을 땐, df.index와 df.column을 사용하면 됩니다.
- 인덱스/컬럼의 이름을 바꾸고 싶다면 리스트 등의 형태로 값을 전달해주면 됩니다.
- 다만 위의 방법은 인덱스/컬럼명을 전부 바꾸게 되므로 일부만 변경하고 싶다면 rename을 사용하면 됩니다.

In [27]:
# 예시
print(df.index)
print(df.columns)
df.columns = ['a','b','c','d']
df.rename(columns={'a':'A'}, inplace = True)
print(df.columns)

RangeIndex(start=0, stop=3, step=1)
RangeIndex(start=0, stop=4, step=1)
Index(['A', 'b', 'c', 'd'], dtype='object')


## 행/열 삭제

- 데이터프레임을 다룰 땐 굳이 볼 필요가 없는 행이나 열은 삭제해주는 편이 좋습니다.
- drop()을 통해 이것을 실현할 수 있으며 이때 삭제하고 싶은 것이 행인지 열인지에 따라 방향 설정을 달리 해야하므로 주의가 필요합니다.
- 행을 삭제하고 싶을 땐 axis=0(디폴트), 열을 삭제하고 싶을 땐 axis=1이 되도록 지정해주면 됩니다.
- drop은 원본 데이터를 변형시킬수도 있는 파괴적인 함수기 때문에 기존 객체가 아닌 새로운 객체에 대해 반환됩니다. 만약 원본을 직접적으로 바꾸고 싶다면 inplace = True 옵션을 추가하면 됩니다.

In [28]:
# 예시
df = df.drop(0)
df.drop('d', axis = 1, inplace = True)
df

Unnamed: 0,A,b,c
1,4,5,6
2,8,9,10


## 행 선택

- 데이터프레임을 자유자재로 다루기 위해서는 원하는 행과 열을 선택하는 방법에 대해 알아야 합니다.
- loc과 iloc은 행을 선택할 때 유용하게 사용되는 메서드입니다.
- loc은 인덱스 이름을 기준으로 하고, iloc은 정수형 위치 인덱스를 기준으로 한다는 점에서 약간 차이가 있습니다.
- loc과 iloc은 행뿐만 아니라 열, 그리고 개별적인 데이터에까지 접근할 수 있기 때문에 사용법을 잘 익혀두면 좋습니다.

In [29]:
# 예시
df.loc[1] # 인덱스 이름이 1인 행을 찾는다

A    4
b    5
c    6
Name: 1, dtype: int32

In [31]:
df.iloc[1] # 정수형 위치 인덱스가 1인 행을 찾는다 (항상 시작은 0부터)

A     8
b     9
c    10
Name: 2, dtype: int32

In [33]:
df.loc[:,'A'] # 열 선택

1    4
2    8
Name: A, dtype: int32

In [34]:
df.iloc[0,0] # 개별적인 값 선택

4

In [43]:
df.loc[[1,2]] # 여러 행 선택 (데이터프레임 형태로 추출됨)

Unnamed: 0,A,b,c
1,4,5,6
2,8,9,10


## 열 선택

- loc과 iloc을 통해서도 열을 선택할 수 있었지만, df['열이름']을 통해 더 쉽게 열을 불러올 수 있습니다.
    - 열이름이 영어인 경우 df.열이름 도 가능한 방법입니다.
- 여러 열을 선택하고 싶으면 리스트로 묶어주면 됩니다.

In [40]:
# 예시
df['A']

1    4
2    8
Name: A, dtype: int32

In [41]:
df.b

1    5
2    9
Name: b, dtype: int32

In [42]:
df[['A','c']]

Unnamed: 0,A,c
1,4,6
2,8,10


## 데이터 정렬

- 데이터를 순서대로 정렬시켜놓고 관찰하고 싶을 땐 기준이 행 인덱스인지, 특정 열인지에 따라 sort_index()나 sort_values()를 사용할 수 있습니다.
- ascending 옵션을 통해 오름차순으로 정렬시킬지(디폴트), 내림차순으로 정렬시킬지 결정할 수 있습니다.
- value_counts()를 통해 데이터들의 빈도 또한 알 수 있습니다.

In [68]:
# 예시
df1 = pd.DataFrame(np.arange(12)[::-1].reshape(3,4), columns=['a','b','c','d']) # 새로운 데이터프레임 생성
df1.replace(0,4, inplace = True)
df1

Unnamed: 0,a,b,c,d
0,11,10,9,8
1,7,6,5,4
2,3,2,1,4


In [62]:
df1.sort_index(ascending=False)

Unnamed: 0,a,b,c,d
2,3,2,1,0
1,7,6,5,4
0,11,10,9,8


In [64]:
df1.sort_values(by='b')

Unnamed: 0,a,b,c,d
2,3,2,1,0
1,7,6,5,4
0,11,10,9,8


In [70]:
df1['d'].value_counts()

d
4    2
8    1
Name: count, dtype: int64

## 데이터프레임 병합

- 서로 다른 두 데이터프레임을 pd.concat 함수를 사용하여 병합시킬 수 있습니다.
- 이때도 행방향으로 병합할지, 열방향으로 병합할지에 따라 axis를 잘 설정해주어야 합니다.
- df 병합 시 병합되는 df의 개별적인 값들은 자신의 인덱스/컬럼명을 찾아 들어갑니다. 해당사항이 없다면 새로운 인덱스/컬럼명이 만들어지고, 빈자리는 결측치(NaN)로 채워지게 됩니다.

In [71]:
# 예시
pd.concat([df,df1]) # 행방향 (axis=0), 디폴트값
# df와 df1간에 공통되는 컬럼명은 'b','c'뿐이기에 이곳을 중심으로 병합되고, 빈자리는 결측치로 처리됨

Unnamed: 0,A,b,c,a,d
1,4.0,5,6,,
2,8.0,9,10,,
0,,10,9,11.0,8.0
1,,6,5,7.0,4.0
2,,2,1,3.0,4.0


In [72]:
pd.concat([df,df1], axis=1) # 열방향
# 인덱스 1,2가 서로 겹치지만, df에는 0이라는 인덱스가 존재하지 않기 때문에 해당부분들은 결측치로 처리됨

Unnamed: 0,A,b,c,a,b.1,c.1,d
1,4.0,5.0,6.0,7,6,5,4
2,8.0,9.0,10.0,3,2,1,4
0,,,,11,10,9,8


- 단순히 데이터프레임을 이어붙이는 concat과 달리, merge방식을 사용하면 형태가 다르더라도 공통된 항목을 기준으로 데이터프레임을 병합시킬 수 있습니다.
- 집합 연산과 유사한 측면이 있는데, A와 B를 결합시킬 때 left join은 A를 기준으로, Inner join은 교집합을 기준으로, outer join은 합집합을 기준으로 병합됩니다.

## 결측치 처리

- 데이터는 완전 무결하지 않기 때문에, 데이터를 다루다 보면 결측치를 마주하는 경우가 많습니다.
- 상황에 따라 다르지만, 결측치가 분석을 방해할 수 있기 때문에 필요에 따라 이를 특정값으로 대체하거나 제거해야 합니다.
- fillna()는 결측치들을 특정값으로 대체할 수 있게 해줍니다.

In [91]:
# 예시
dfc = pd.concat([df,df1])
dfc.fillna(df1.mean().mean(), inplace = True) # 병합한 데이터프레임의 결측치를 df1의 평균값으로 대체
dfc

Unnamed: 0,A,b,c,a,d
1,4.0,5,6,5.833333,5.833333
2,8.0,9,10,5.833333,5.833333
0,5.833333,10,9,11.0,8.0
1,5.833333,6,5,7.0,4.0
2,5.833333,2,1,3.0,4.0


## 그룹화

- 원하는 그룹에 대해서만 연산처리를 하고 싶을 땐 그룹화를 해주는 groupby 메서드를 사용할 수 있습니다.
- 추후 상위 레벨에서 그룹을 계층화시키는 Hierarchical Indexing에서도 활용할 수 있습니다.

In [93]:
# 예시
dfc.groupby('A')['d'].mean() # 컬럼 A의 값들을 기준으로 그룹화를 진행한 뒤 컬럼 d에 대한 평균값 계산

A
4.000000    5.833333
5.833333    5.333333
8.000000    5.833333
Name: d, dtype: float64