# 5. 판다스 라이브러리의 활용

자, 앞선 강의에서 파이썬에 대한 기본적인 부분을 공부했으니 이번엔 파이썬을 이용해서 실질적인 업무를 진행해볼꺼에요. 이걸 위해 pandas, numpy, OpenPyXL 라이브러리를 활용해볼꺼에요

## 판다스(Pandas)

> 자료를 다루기 위해선 여러가지 자료구조가 필요해요. 앞에서 배운 리스트(list)는 자료를 처리하고 내보내는데 다소 불편하고 힘들지 않았나요? 게다가 만약에 여러분이 받은 자료에 결측치가 있고 이를 처리해야 한다면 반복문을 여러개 써야할지도 몰라요... 이런 작업을 효율적으로 하기 위해서 우리는 판다스(pandas)는 라이브러리를 활용해볼꺼에요. 먼저 아래 명령어를 이용해서 판다스를 설치해볼까요.
```python
    pip install pandas
```
판다스에는 시리즈(Series)과 데이터프레임(DataFrame)이라는 두가지 자료형이 있어요. 먼저 Series 객체를 활용해볼꺼에요.

### Series

> Series는 1차원 리스트와 같은 구조에요. 리스트를 떠올리면서 천천히 따라해볼까요?

In [1]:
import pandas as pd # pandas 패키지를 pd라는 이름으로 불러와요

In [2]:
series = pd.Series([1, 1, 3, 4, 5])
# 왼쪽에는 Series의 인덱스(index)를, 오른쪽은 값(value)를 보여줘요
series

0    1
1    1
2    3
3    4
4    5
dtype: int64

몇가지 함수를 활용해볼까요? 주피터노트북 팁을 드리자면, 객체에 `.`뒤에 `Tab`키를 누르면 활용할수 있는 함수를 확인할 수 있어요. 또한 `Shift + Tab`을 누르면 함수에대한 정보를 모두 확인할수 있습니다.

#### 값 출력

In [3]:
# values는 값을 출력해줍니다
series.values

array([1, 1, 3, 4, 5])

In [4]:
# value_counts 함수는 각 값의 개수를 출력해줍니다
series.value_counts()

1    2
5    1
4    1
3    1
dtype: int64

#### 값 접근

In [5]:
# 리스트처럼 인덱스 접근도 가능합니다
series[1]

1

In [6]:
# 안에 조건식도 올 수 있어요
series[series > 2]

2    3
3    4
4    5
dtype: int64

#### 값 추가 제거

In [7]:
# 인덱스를 이용해 값을 제거할수도 있습니다
series.drop(0)

1    1
2    3
3    4
4    5
dtype: int64

In [8]:
# append 함수를 이용하여 값을 추가할수도 있어요. 이때 값은 Series 형태의 값만 추가가 가능합니다
series = series.append(pd.Series([6, 7]))
series

0    1
1    1
2    3
3    4
4    5
0    6
1    7
dtype: int64

In [9]:
# 값을 추가하니 인덱스가 꼬였죠? reindex 함수를 통해 재정의할 수 있어요
series = series.reset_index(drop=True)
series

0    1
1    1
2    3
3    4
4    5
5    6
6    7
dtype: int64

![5-1](../image/5-1.jpg)

null이란 아무것도 없는 값을 말해요. 0과는 다르죠. null은 엑셀에서 빈셀(cell)을 읽어올때 자주 마주치게 될꺼에요. 이제 여러분은 위의 짤을 이해하실수 있을꺼에요! 실제로 Series에 null값을 넣어볼까요?

In [10]:
series = pd.Series([None, 1, 2, 3])
series

0    NaN
1    1.0
2    2.0
3    3.0
dtype: float64

In [11]:
# null값 확인
series.isnull()

0     True
1    False
2    False
3    False
dtype: bool

### DataFrame

> Series가 엑셀에서 한개 줄을 말한다면 DataFrame은 표 형태의 값을 말해요. 즉 Series가 여러개 모이면 Dataframe이 됩니다. 실제로 활용해 볼까요?

In [48]:
# DataFrame은 마치 사전과 같은 형태로 초기화 시킵니다
dataframe = pd.DataFrame({'힘':[1, 2, 3], '지력':[-2 ,3 ,4], '마력': [2, 1, 0]})
dataframe

Unnamed: 0,마력,지력,힘
0,2,-2,1
1,1,3,2
2,0,4,3


#### 값 출력

In [49]:
# values 함수는 데이터프레임을 다차원 배열형태로 반환합니다
dataframe.values

array([[ 2, -2,  1],
       [ 1,  3,  2],
       [ 0,  4,  3]])

In [50]:
# 절대값을 반환합니다
dataframe.abs()

Unnamed: 0,마력,지력,힘
0,2,2,1
1,1,3,2
2,0,4,3


In [51]:
# 열(column)값을 반환할수도 있습니다
dataframe.columns

Index(['마력', '지력', '힘'], dtype='object')

In [52]:
# loc을 이용하면 row의 인덱스와 column의 이름을 이용해서 접근할 수 있습니다
dataframe.loc[0, '마력']

2

In [53]:
# iloc을 이용하면 인덱스들만을 이용해 값에 접근할 수 있습니다
dataframe.iloc[0, 1]

-2

In [54]:
# 이렇게 이중포문을 이용해 접근할수도 있습니다
for rows in dataframe.values:
    for row in rows:
        print(row, end='\t')
    print()

2	-2	1	
1	3	2	
0	4	3	


#### 값 추가 제거

In [63]:
# 열을 이렇게 간단하게 추가할 수 있습니다
dataframe['행운'] = [1, 3, None]
dataframe

Unnamed: 0,마력,지력,힘,행운
0,2,-2,1,1.0
1,1,3,2,3.0
2,0,4,3,


In [67]:
# 행은 이런식으로 추가할 수 있습니다
dataframe.append({"마력":1, "지력":None, "힘":None, "행운":None}, ignore_index=True)

Unnamed: 0,마력,지력,힘,행운
0,2.0,-2.0,1.0,1.0
1,1.0,3.0,2.0,3.0
2,0.0,4.0,3.0,
3,1.0,,,


In [70]:
# Series의 형태로 추가할수도 있습니다. 이때 반드시 index값을 설정해주어야 합니다
dataframe.append(pd.Series([3, 4, 5, 6], index=dataframe.columns), ignore_index=True)

Unnamed: 0,마력,지력,힘,행운
0,2,-2,1,1.0
1,1,3,2,3.0
2,0,4,3,
3,3,4,5,6.0


데이터프레임을 합칠수 도 있습니다. 이것에 대해서는 나중에 데이터베이스에 대해서 다룰때 이야기해보도록 합시다.
물론! 관심있으신 분들은 따로 찾아보세요!

In [35]:
# axis를 0으로 설정하면 행(row)를 제거할 수 있습니다
dataframe.drop(0, axis=0)

Unnamed: 0,마력,지력,힘,행운
1,1,3,2,3.0
2,0,4,3,


In [39]:
# axis를 1으로 설정하면 열(column)를 제거할 수 있습니다
dataframe.drop("마력", axis=1)

Unnamed: 0,지력,힘,행운
0,-2,1,1.0
1,3,2,3.0
2,4,3,


In [20]:
# dropna 함수를 이용하면 NaN이 있는 행(row)를 없앨수 있어요
dataframe.dropna()

Unnamed: 0,마력,지력,힘,행운
0,2,-2,1,1.0
1,1,3,2,3.0


In [21]:
# dropna 함수는 기본적으로 axis값이 0으로 되어있어요. 열을 없애고 싶으면 axis값을 1로 바꿔주세요
dataframe.dropna(axis=1)

Unnamed: 0,마력,지력,힘
0,2,-2,1
1,1,3,2
2,0,4,3


## 과제

read_csv 함수를 이용하면 csv파일을 DataFrame 형식으로 읽어올수 있습니다. 비슷한 방식으로 엑셀, html, json 등도 가능하죠.

데이터를 읽고 과제를 해결해 보세요

In [89]:
dataset = pd.read_csv('../data/googleplaystore.csv')

In [90]:
# 상위 5개를 보려면 head 메소드를 사용해요
dataset.head(5)

Unnamed: 0,App,Category,Rating,Reviews,Size,Installs,Type,Price,Content Rating,Genres,Last Updated,Current Ver,Android Ver
0,Photo Editor & Candy Camera & Grid & ScrapBook,ART_AND_DESIGN,4.1,159,19M,"10,000+",Free,0,Everyone,Art & Design,"January 7, 2018",1.0.0,4.0.3 and up
1,Coloring book moana,ART_AND_DESIGN,3.9,967,14M,"500,000+",Free,0,Everyone,Art & Design;Pretend Play,"January 15, 2018",2.0.0,4.0.3 and up
2,"U Launcher Lite – FREE Live Cool Themes, Hide ...",ART_AND_DESIGN,4.7,87510,8.7M,"5,000,000+",Free,0,Everyone,Art & Design,"August 1, 2018",1.2.4,4.0.3 and up
3,Sketch - Draw & Paint,ART_AND_DESIGN,4.5,215644,25M,"50,000,000+",Free,0,Teen,Art & Design,"June 8, 2018",Varies with device,4.2 and up
4,Pixel Draw - Number Art Coloring Book,ART_AND_DESIGN,4.3,967,2.8M,"100,000+",Free,0,Everyone,Art & Design;Creativity,"June 20, 2018",1.1,4.4 and up


In [91]:
# 하위 5개는 tail 메소드를 사용하면 확인할수 있습니다
dataset.tail(5)

Unnamed: 0,App,Category,Rating,Reviews,Size,Installs,Type,Price,Content Rating,Genres,Last Updated,Current Ver,Android Ver
10836,Sya9a Maroc - FR,FAMILY,4.5,38,53M,"5,000+",Free,0,Everyone,Education,"July 25, 2017",1.48,4.1 and up
10837,Fr. Mike Schmitz Audio Teachings,FAMILY,5.0,4,3.6M,100+,Free,0,Everyone,Education,"July 6, 2018",1.0,4.1 and up
10838,Parkinson Exercices FR,MEDICAL,,3,9.5M,"1,000+",Free,0,Everyone,Medical,"January 20, 2017",1.0,2.2 and up
10839,The SCP Foundation DB fr nn5n,BOOKS_AND_REFERENCE,4.5,114,Varies with device,"1,000+",Free,0,Mature 17+,Books & Reference,"January 19, 2015",Varies with device,Varies with device
10840,iHoroscope - 2018 Daily Horoscope & Astrology,LIFESTYLE,4.5,398307,19M,"10,000,000+",Free,0,Everyone,Lifestyle,"July 25, 2018",Varies with device,Varies with device


[기초] Category별 값의 빈도수를 출력하세요

<예시 출력>
<pre>
MAPS_AND_NAVIGATION     137
FOOD_AND_DRINK          127
HOUSE_AND_HOME           88
LIBRARIES_AND_DEMO       85
AUTO_AND_VEHICLES        85
</pre>

[기초] Size의 값이 "Varies with device"인 것들을 전부 None으로 바꾸세요

[기초] None으로 바꾼 행을 모두 제거하세요

[기초] Rating의 평균값을 출력하세요

<예시출력>
<pre>
평균값:  4.1739349993525865
</pre>