# 5. 판다스 라이브러리의 활용

![banner](../image/5-2.jpg)

자, 앞선 강의에서 파이썬에 대한 기본적인 부분을 공부했으니 이번엔 파이썬을 이용해서 실질적인 업무를 진행해볼꺼에요. 이걸 위해 pandas, numpy, OpenPyXL 라이브러리를 활용해볼꺼에요

## 판다스(Pandas)

> 자료를 다루기 위해선 여러가지 자료구조가 필요해요. 앞에서 배운 리스트(`list`)는 자료를 처리하고 내보내는데 다소 불편하고 힘들지 않았나요? 게다가 만약에 여러분이 받은 자료에 결측치가 있고 이를 처리해야 한다면 반복문을 여러개 써야할지도 몰라요... 이런 작업을 효율적으로 하기 위해서 우리는 판다스(`pandas`)는 라이브러리를 활용해볼꺼에요. 먼저 아래 명령어를 이용해서 판다스를 설치해볼까요.
```python
    pip install pandas
```
판다스에는 시리즈(`Series`)과 데이터프레임(`DataFrame`)이라는 두가지 자료형이 있어요. 하나씩 학습해볼까요?

### Series

> `Series`는 엑셀에서 한개 열(column)과 같습니다. 마치 1차원 리스트와 같은 구조에요. 리스트를 떠올리면서 천천히 따라해볼까요?

In [1]:
import pandas as pd # pandas 패키지를 pd라는 이름으로 불러와요

In [2]:
series = pd.Series([1, 1, 3, 4, 5])
# 왼쪽에는 Series의 인덱스(index)를, 오른쪽은 값(value)를 보여줘요
series

0    1
1    1
2    3
3    4
4    5
dtype: int64

몇가지 함수를 활용해볼까요? 여기서 팁!! 객체의 `.`뒤에 `Tab`키를 누르면 활용할수 있는 함수를 확인할 수 있어요. 또한 `Shift + Tab`을 누르면 함수에 대한 정보를 확인할수 있습니다.

#### 값 출력

In [3]:
# values는 값을 출력해줍니다
series.values

array([1, 1, 3, 4, 5])

In [4]:
# value_counts 함수는 각 값의 개수를 출력해줍니다
series.value_counts()

1    2
5    1
4    1
3    1
dtype: int64

#### 값 접근

In [5]:
# 리스트처럼 인덱스 접근도 가능합니다
series[1]

1

In [6]:
# 안에 조건식도 올 수 있어요
series[series > 2]

2    3
3    4
4    5
dtype: int64

#### 값 추가 제거

In [7]:
# 인덱스를 이용해 값을 제거할수도 있습니다
series.drop(0)

1    1
2    3
3    4
4    5
dtype: int64

In [8]:
# append 함수를 이용하여 값을 추가할수도 있어요. 이때 값은 Series 형태의 값만 추가가 가능합니다
series = series.append(pd.Series([6, 7]))
series

0    1
1    1
2    3
3    4
4    5
0    6
1    7
dtype: int64

In [9]:
# 값을 추가하니 인덱스가 꼬였죠? reindex 함수를 통해 재정의할 수 있어요
series = series.reset_index(drop=True)
series

0    1
1    1
2    3
3    4
4    5
5    6
6    7
dtype: int64

![5-1](../image/5-1.jpg)

널(`null`)이란 아무것도 없는 값을 말해요. 0과는 다르죠. 널은 엑셀에서 빈셀(cell)을 읽어올때 자주 마주치게 될꺼에요. 이제 여러분은 위의 짤을 이해하실수 있을꺼에요! 실제로 `Series`에 널값을 넣어볼까요?

In [10]:
# 파이썬에서 널(null)값은 None으로 생성할수 있습니다.
series = pd.Series([None, 1, 2, 3])
series

0    NaN
1    1.0
2    2.0
3    3.0
dtype: float64

In [11]:
# null값 확인
series.isnull()

0     True
1    False
2    False
3    False
dtype: bool

### DataFrame

> Series가 엑셀에서 한개 줄을 말한다면 DataFrame은 표 형태의 값을 말해요. 즉 Series가 여러개 모이면 Dataframe이 됩니다. 실제로 활용해 볼까요?

In [12]:
# DataFrame은 마치 사전과 같은 형태로 초기화 시킵니다
dataframe = pd.DataFrame({'힘':[1, 2, 3], '지력':[-2 ,3 ,4], '마력': [2, 1, 0]})
dataframe

Unnamed: 0,힘,지력,마력
0,1,-2,2
1,2,3,1
2,3,4,0


#### 값 출력

In [13]:
# values 함수는 데이터프레임을 다차원 배열형태로 반환합니다
dataframe.values

array([[ 1, -2,  2],
       [ 2,  3,  1],
       [ 3,  4,  0]])

In [14]:
# 절대값을 반환합니다
dataframe.abs()

Unnamed: 0,힘,지력,마력
0,1,2,2
1,2,3,1
2,3,4,0


In [15]:
# 열(column)값을 반환할수도 있습니다
dataframe.columns

Index(['힘', '지력', '마력'], dtype='object')

In [16]:
# loc을 이용하면 row의 인덱스와 column의 이름을 이용해서 접근할 수 있습니다
dataframe.loc[0, '마력']

2

In [17]:
# iloc을 이용하면 인덱스들만을 이용해 값에 접근할 수 있습니다
dataframe.iloc[0, 1]

-2

In [18]:
# 이렇게 이중포문을 이용해 접근할수도 있습니다
for rows in dataframe.values:
    for row in rows:
        print(row, end='\t')
    print()

1	-2	2	
2	3	1	
3	4	0	


#### 값 추가 제거

In [19]:
# 열을 이렇게 간단하게 추가할 수 있습니다
dataframe['행운'] = [1, 3, None]
dataframe

Unnamed: 0,힘,지력,마력,행운
0,1,-2,2,1.0
1,2,3,1,3.0
2,3,4,0,


In [20]:
# 행은 이런식으로 추가할 수 있습니다
dataframe.append({"마력":1, "지력":None, "힘":None, "행운":None}, ignore_index=True)

Unnamed: 0,힘,지력,마력,행운
0,1.0,-2.0,2.0,1.0
1,2.0,3.0,1.0,3.0
2,3.0,4.0,0.0,
3,,,1.0,


In [21]:
# Series의 형태로 추가할수도 있습니다. 이때 반드시 index값을 설정해주어야 합니다
dataframe.append(pd.Series([3, 4, 5, 6], index=dataframe.columns), ignore_index=True)

Unnamed: 0,힘,지력,마력,행운
0,1,-2,2,1.0
1,2,3,1,3.0
2,3,4,0,
3,3,4,5,6.0


데이터프레임을 합칠수 도 있습니다. 이것에 대해서는 나중에 데이터베이스에 대해서 다룰때 이야기해보도록 합시다.
물론! 관심있으신 분들은 따로 찾아보세요!

In [22]:
# axis를 0으로 설정하면 행(row)를 제거할 수 있습니다
dataframe.drop(0, axis=0)

Unnamed: 0,힘,지력,마력,행운
1,2,3,1,3.0
2,3,4,0,


In [23]:
# axis를 1으로 설정하면 열(column)를 제거할 수 있습니다
dataframe.drop("마력", axis=1)

Unnamed: 0,힘,지력,행운
0,1,-2,1.0
1,2,3,3.0
2,3,4,


In [24]:
# dropna 함수를 이용하면 NaN이 있는 행(row)를 없앨수 있어요
dataframe.dropna()

Unnamed: 0,힘,지력,마력,행운
0,1,-2,2,1.0
1,2,3,1,3.0


In [25]:
# dropna 함수는 기본적으로 axis값이 0으로 되어있어요. 열을 없애고 싶으면 axis값을 1로 바꿔주세요
dataframe.dropna(axis=1)

Unnamed: 0,힘,지력,마력
0,1,-2,2
1,2,3,1
2,3,4,0
