# Python의 라이브러리 - Pandas & Matplotlib

## 학습목표
- Pandas의 주요 특성을 파악한다.
- Pandas의 DataFrame 개념을 이해한다.
- Pandas의 기본 기능을 이용해 데이터를 불러와 조건에 맞는 데이터를 필터링해본다.
- Pandas의 핵심 기능을 익히고 실습을 통해 이해한다.
- Pandas로 분석한 결과를 Matplotlib을 이용해 그래프로 작성해 본다.

# Pandas

- pandas는 오픈소스
- 고성능의 사용이 쉬운 데이터구조와 python 프로그래밍언어를 위한 데이터분석 도구
- **pandas is an open source, BSD-licensed library providing high-performance, easy-to-use data structures and data analysis tools for the Python programming language**
- 2008년, AQR 투자 운용 회사(Capital Management)에 다니던 Wes McKinney가 개발 시작



- 데이터프레임을 제공하여 테이블 구조의 데이터 처리를 편리하게 해줌, R의 data.frame 구조체와 같은 용도로 사용됨
- numpy의 배열에는 모두 숫자만 들어올 수 있으나, 데이터프레임에는 임의의 타입의 데이터를 담을 수 있음
- numpy를 기반으로 개발된 도구
- 다량의 데이터를 처리
- 다양한 데이터가 섞여 있을 경우도 분석이 가능
- numpy가 수치 계산에 최적화된 패키지라면 pandas는 데이터 처리에 최적화된 패키지

## import and set

In [1]:
import numpy as np
import pandas as pd
from pandas import DataFrame, Series     

## Data Structure

### DataFrame의 구성 - 자료화된 구조

<img src="http://bookdata.readthedocs.io/en/latest/_images/base_01_pandas_5_0.png">

In [12]:
import pandas as pd

customer = {'Name': ["John", "Anna", "Peter", "Linda"],
        'Location' : ["New York", "Paris", "Berlin", "London"],
        'Age' : [24, 13, 53, 33]
       }
customer

{'Name': ['John', 'Anna', 'Peter', 'Linda'],
 'Location': ['New York', 'Paris', 'Berlin', 'London'],
 'Age': [24, 13, 53, 33]}

In [14]:
a = pd.DataFrame(customer)       # DataFrame 함수로 data객체를 데이터프레임으로 만들어 a라는 객체에 저장
a

Unnamed: 0,Name,Location,Age
0,John,New York,24
1,Anna,Paris,13
2,Peter,Berlin,53
3,Linda,London,33


In [16]:
a.sum()                  
                         

Name               JohnAnnaPeterLinda
Location    New YorkParisBerlinLondon
Age                               123
dtype: object

In [None]:
# 나이 합계만 보고 싶다면?

In [7]:
a.mean()

Age    30.75
dtype: float64

In [18]:
a.Age

0    24
1    13
2    53
3    33
Name: Age, dtype: int64

In [8]:
# 사는 곳이 New York인 사람의 관련 데이터가 궁금하다면?

In [12]:
# 나이가 30세 이상인 사람의 관련 데이터들이 보고싶다면?

# Pandas를 활용한 데이터 살펴보기 실습

- 데이터를 불러와 살펴보기

In [1]:
import pandas as pd
import os           

In [11]:
# 데이터 불러오기(read_csv() 사용)

In [1]:
# 데이터 테이블(데이터 프레임) 크기 살펴보기, len() --> length

In [2]:
# key값 살펴보기                           # Dictionary에서 key값 보기

In [3]:
# 데이터 테이블의 앞부분 살펴 보기

In [4]:
# 데이터 테이블의 뒷부분 살펴 보기

In [141]:
apt.head(10)

Unnamed: 0,지역,번지,본번,부번,아파트,면적,계약년월,계약일,가격,층,건축년도,도로명
0,강원도 강릉시 견소동,202,202,0,송정한신,59.8,201910,4,10900,5,1997,경강로2539번길 8
1,강원도 강릉시 견소동,202,202,0,송정한신,116.175,201910,31,18500,10,1997,경강로2539번길 8
2,강원도 강릉시 견소동,289,289,0,송정해변신도브래뉴아파트,84.99,201910,5,25000,6,2005,경강로2539번길 22
3,강원도 강릉시 견소동,289,289,0,송정해변신도브래뉴아파트,84.99,201910,12,20600,3,2005,경강로2539번길 22
4,강원도 강릉시 견소동,289,289,0,송정해변신도브래뉴아파트,84.99,201910,20,20500,1,2005,경강로2539번길 22
5,강원도 강릉시 교동,1984,1984,0,강릉 교동 풍림아이원 아파트,84.9964,201910,5,29200,14,2017,화부산로40번길 29
6,강원도 강릉시 교동,1982,1982,0,강릉교동롯데캐슬1단지,135.1727,201910,21,34300,9,2009,화부산로99번길 12
7,강원도 강릉시 교동,1983,1983,0,강릉교동롯데캐슬2단지,118.0686,201910,1,32500,2,2009,화부산로111번길 24
8,강원도 강릉시 교동,1750,1750,0,교동1주공,59.89,201910,2,16200,10,1999,가작로 78
9,강원도 강릉시 교동,1750,1750,0,교동1주공,84.84,201910,18,21550,9,1999,가작로 78


In [142]:
apt.tail(10)

Unnamed: 0,지역,번지,본번,부번,아파트,면적,계약년월,계약일,가격,층,건축년도,도로명
42748,충청북도 충주시 호암동,1052,1052,0,우미린에듀시티,119.9162,201910,17,35400,14,2019,호암수청1로 13
42749,충청북도 충주시 호암동,135,135,0,진도,76.43,201910,19,8500,10,1994,호암중앙2로 27
42750,충청북도 충주시 호암동,547-6,547,6,호반현대,84.96,201910,6,9800,8,1994,신촌2길 29
42751,충청북도 충주시 호암동,547-6,547,6,호반현대,84.96,201910,13,10000,2,1994,신촌2길 29
42752,충청북도 충주시 호암동,547-6,547,6,호반현대,84.96,201910,26,9050,1,1994,신촌2길 29
42753,충청북도 충주시 호암동,547-6,547,6,호반현대,59.76,201910,29,7000,3,1994,신촌2길 28
42754,충청북도 충주시 호암동,221-23,221,23,호암리버빌(1단지),84.68,201910,5,12000,15,2002,원호암5길 32
42755,충청북도 충주시 호암동,221-23,221,23,호암리버빌(1단지),84.68,201910,15,11000,7,2002,원호암5길 32
42756,충청북도 충주시 호암동,221-23,221,23,호암리버빌(1단지),84.68,201910,17,12000,14,2002,원호암5길 32
42757,충청북도 충주시 호암동,221-23,221,23,호암리버빌(1단지),84.68,201910,26,11200,11,2002,원호암5길 32


In [5]:
# '가격' 데이터를 보고 싶다면?

In [7]:
# apt.가격 > 20000                     

In [1]:
# 2억 원 이상되는 아파트의 관련 데이터를 전부 보고 싶다면?           

>**Q. 면적이 130(제곱미터) 넘는 아파트의 가격만 보고 싶다면 어떻게 해야할까요?**

In [1]:
# 해봅시다.^^.

In [None]:
# 가격 외에 지역도 함께 보고 싶다면? ✔ List 활용

>**Q. 가격이 2억 원 미만이면서 면적이 150 이상인 아파트가 있는 지역을 보려면 어떻게 할까요?**

In [21]:
# 해봅시다.^^.

- 데이터 프레임에서 좀 더 정교하게 조건을 추가해서 원하는 자료 살펴보기
> - loc 함수 --> '데이터 프레임 분석'에 가장 많이 사용되는 함수 중 하나, ✔ 조건은 반드시 [ ] 사용, 행과 열의 조건 지정
>> - location

In [None]:
# loc 함수 실습(행과 열 조건 지정)

In [8]:
# 10억 원을 초과하는 가격으로 거래된 아파트 출력(지역, 아파트명, 가격을 보고 싶을 때) → loc 함수 이용한다면?


In [None]:
# loc 함수 이용 시, 원하는 조건을 행 조건으로 걸어줄 수도 있음


- 데이터 프레임에 새로운 열 추가하기

In [150]:
# 아파트의 단가를 계산해서 표에 넣고 싶을 때 → Dictionary 기억 떠올리기!!


In [151]:
apt.head()

Unnamed: 0,지역,번지,본번,부번,아파트,면적,계약년월,계약일,가격,층,건축년도,도로명,단가
0,강원도 강릉시 견소동,202,202,0,송정한신,59.8,201910,4,10900,5,1997,경강로2539번길 8,182.274247
1,강원도 강릉시 견소동,202,202,0,송정한신,116.175,201910,31,18500,10,1997,경강로2539번길 8,159.242522
2,강원도 강릉시 견소동,289,289,0,송정해변신도브래뉴아파트,84.99,201910,5,25000,6,2005,경강로2539번길 22,294.152253
3,강원도 강릉시 견소동,289,289,0,송정해변신도브래뉴아파트,84.99,201910,12,20600,3,2005,경강로2539번길 22,242.381457
4,강원도 강릉시 견소동,289,289,0,송정해변신도브래뉴아파트,84.99,201910,20,20500,1,2005,경강로2539번길 22,241.204848


In [9]:
# loc 함수를 이용해 지역, 아파트, 가격, 면적, 단가를 보고 싶다면?

- 데이터 프레임에서 데이터 정렬하기

In [10]:
# 아파트의 가격을 기준으로 정렬


In [23]:
apt.sort_values(by = '가격', ascending = False).loc[:,('지역','가격')]   

Unnamed: 0,지역,가격
31258,서울특별시 용산구 한남동,485000
27061,서울특별시 강남구 도곡동,461000
29946,서울특별시 서초구 반포동,415000
26805,부산광역시 해운대구 우동,376640
27036,서울특별시 강남구 대치동,373000
...,...,...
17027,경상북도 구미시 원평동,800
17025,경상북도 구미시 원평동,800
17637,경상북도 칠곡군 약목면 관호리,750
17022,경상북도 구미시 원평동,700


In [None]:
# 문자열을 다루는 것도 당연히 가능
## 특정한 문자를 포함하는 열을 추출 가능
### str.find() 함수 사용

In [11]:
# apt.csv 파일에서 '지역' 중 '강릉'만 추출하고 싶다면?



In [12]:
# '강릉'지역 아파트 가격 평균을 보고자 할 때



- 데이터 전처리(e.g. ','포함된 문자처리 등)도 가능

In [28]:
# os.chdir(r'C:\Users~')
apt = pd.read_csv('apt_comma.csv', encoding = 'cp949')

In [30]:
apt.가격 > 200000

In [13]:
# `,`를 포함하는 숫자를 '문자'로 인식
## `,`를 없애주기 위해 str.replace() 함수 사용




# Pandas 이론 기초 학습

## Series (DataFrame의 열벡터)

### 생성

- Series는 일련의 객체를 담을 수 있는 1차원 배열 자료구조
- 색인(index)이라고 하는 배열의 데이터에 연관된 이름을 가지고 있음
- 가장 간단한 Series객체는 배열 데이터로부터 생성 할수 있음
- 행이 Series가 될 수도 있음, 단 서로 다른 속성의 data가 올 수도 있음(고차원의 데이터로 속성 결정, 문자>실수>정수)

첫 번쨰 컬럼|두 번째 컬럼
--|--
Index Label|Series 객체의 Value

In [31]:
from pandas import Series, DataFrame

In [32]:
import pandas as pd

In [33]:
a = Series([4,7,-5,3])

In [34]:
a

0    4
1    7
2   -5
3    3
dtype: int64

In [11]:
a.values

array([ 4,  7, -5,  3], dtype=int64)

In [37]:
s = Series([10000, 2000, 30000, 40000], index=['Seatle', 'Seoul', 'San Hose', 'Beijing'])
s

Seatle      10000
Seoul        2000
San Hose    30000
Beijing     40000
dtype: int64

In [38]:
s.index

Index(['Seatle', 'Seoul', 'San Hose', 'Beijing'], dtype='object')

In [39]:
s.values

array([10000,  2000, 30000, 40000], dtype=int64)

In [40]:
s

Seatle      10000
Seoul        2000
San Hose    30000
Beijing     40000
dtype: int64

In [41]:
#배열에서 값을 선택하거나 대입할 때는 색인을 이용해서 접근
s['Seatle']

10000

In [42]:
# '베이징'의 값을 알아봅시다.^^

In [20]:
'Beijing' in s

True

In [45]:
# 'Japan' 데이터가 s에 있는지 알려면?

### indexing and slicing
- 특정 조건에 맞는 값은 불러내기

In [22]:
s['Seoul']

2000

In [23]:
s[['Seatle', 'San Hose']]            

Seatle      10000
San Hose    30000
dtype: int64

In [46]:
# 'Seatle'~'San Hose'값 출력하려면?           

### 3) Time Series

In [53]:
import pandas as pd
import numpy as np

In [55]:
dates = pd.date_range('2020-05-01', '2020-05-07')
dates

DatetimeIndex(['2020-05-01', '2020-05-02', '2020-05-03', '2020-05-04',
               '2020-05-05', '2020-05-06', '2020-05-07'],
              dtype='datetime64[ns]', freq='D')

## DataFrame
- 데이터를 쉽게 처리하기 위한 일종의 틀
- 데이터 프레임에 데이터를 넣으면 다양한 방법의 데이터 가공이 가능
- 데이터 프레임을 여러 개 중첩하면 패널(Panel)

### 생성

In [56]:
tmp1 = Series([80, 92, 82, 85, 97, 84, 78], index=dates)

In [57]:
tmp1

2020-05-01    80
2020-05-02    92
2020-05-03    82
2020-05-04    85
2020-05-05    97
2020-05-06    84
2020-05-07    78
Freq: D, dtype: int64

In [58]:
tmp2 = Series(np.random.randint(60, 100, size=7), index=dates)

In [59]:
tmp1

2020-05-01    80
2020-05-02    92
2020-05-03    82
2020-05-04    85
2020-05-05    97
2020-05-06    84
2020-05-07    78
Freq: D, dtype: int64

In [60]:
tmp2

2020-05-01    78
2020-05-02    70
2020-05-03    68
2020-05-04    90
2020-05-05    62
2020-05-06    86
2020-05-07    62
Freq: D, dtype: int32

In [61]:
# pandas의 DataFrame으로 위 두개의 column을 이용해 테이블을 작성

exam = DataFrame({
        'Math': tmp1,
        'English': tmp2
    })                     # Dictionary 형식을 이용해서 'exam'이라는 새로운 테이블 생성
exam

Unnamed: 0,Math,English
2020-05-01,80,78
2020-05-02,92,70
2020-05-03,82,68
2020-05-04,85,90
2020-05-05,97,62
2020-05-06,84,86
2020-05-07,78,62


### 데이터 살펴보기

In [62]:
exam['Math']

2020-05-01    80
2020-05-02    92
2020-05-03    82
2020-05-04    85
2020-05-05    97
2020-05-06    84
2020-05-07    78
Freq: D, Name: Math, dtype: int64

In [34]:
exam.loc['2020-05-06']        

Math       84
English    60
Name: 2020-05-06 00:00:00, dtype: int64

In [63]:
# 5월 2일의 수학과 영어 성적을 보고 싶다면?

In [35]:
# iloc 함수
exam.iloc[0]               

Math       80
English    87
Name: 2020-05-01 00:00:00, dtype: int64

In [36]:
exam.iloc[[0]]

Unnamed: 0,Math,English
2020-05-01,80,87


In [40]:
exam.iloc[0:3]

Unnamed: 0,Math,English
2020-05-01,80,87
2020-05-02,92,92
2020-05-03,82,87


In [45]:
# 5월 1일 ~ 3일까지 영어성적을 보려면? iloc함수 사용

Unnamed: 0,English
2020-05-01,87
2020-05-02,92
2020-05-03,87


### 연산

In [72]:
avg = np.mean(exam, axis=1)  
avg

2020-05-01    79.0
2020-05-02    81.0
2020-05-03    75.0
2020-05-04    87.5
2020-05-05    79.5
2020-05-06    85.0
2020-05-07    70.0
Freq: D, dtype: float64

In [315]:
a = exam.Math - exam.English

In [316]:
a

2020-05-01     6
2020-05-02    -2
2020-05-03    17
2020-05-04    -2
2020-05-05    32
2020-05-06    -7
2020-05-07     0
Freq: D, dtype: int64

### 컬럼 추가

In [74]:
# exam 테이블에 'avg'라는 새로운 column을 만들어 주고 값은 위의 객체 avg로 채우려면?

In [75]:
# 'Diff'라는 열을 추가하고 값을 위의 a로 채우기


### 컬럼 이름 바꾸기

In [1]:
# Column이름을 바꾸고 싶을 때


In [76]:
exam

### 컬럼 지우기

In [77]:
# 'Difference' column을 지우려면?


In [78]:
# 'Difference' column을 복구하려면?

In [3]:
# remove a single column (axis=1 refers to columns)
# 컬럼 지우기, drop함수 이용하기


### 그래프로 그려보기

In [341]:
%matplotlib inline 

# 주피터 노트북에서만 실행되는, 같은 브라우저 창에 그래프 보여주는 매직 명령어(즉각적인 시각화)
## plt.show()를 계속 써주지 않아도 plot을 보여줌
### matplotlib: python의 2D 플로팅(plotting) 라이브러리


In [342]:
import matplotlib.pyplot as plt

In [80]:
 # Table이름.plot() --> graph그리기

> **Q. Title, x label, y label을 넣어보고 plot size도 늘려 봅시다.**

In [79]:
# 같이 해봅시다.^^

> **Q. 다른 형태의 그래프는 어떻게 그릴 수 있을까요?**

#### matplotlib
- 그래프용 라이브러리로 히스토그램, 산포도 등을 그리는데 사용됨
- 쥬피터 노트북에 결과 그래프가 나타나게 하려면 %matplotlib inline 매크로를 실행해야 함
- (또는 matplotlib.pyplot.show 함수로 그림을 그릴 수도 있음)