## Pandas(Python Data Analysis Library)를 활용한 데이터 분석

- python 데이터 분석 라이브러리
- Numpy와 통합하여 다양한 처리기능을 제공
- 인덱싱, 연산용 함수, 전처리 함수 등을 제공

pip를 통해, pandas를 설치 한다

In [1]:
!pip install pandas

[31mtextract 1.6.1 has requirement chardet==2.3.0, but you'll have chardet 3.0.4 which is incompatible.[0m
[31mspyder-kernels 0.2.6 has requirement ipykernel>=4.8.2, but you'll have ipykernel 4.8.1 which is incompatible.[0m
[31mspyder-kernels 0.2.6 has requirement jupyter-client>=5.2.3, but you'll have jupyter-client 5.2.2 which is incompatible.[0m
[31mspyder-kernels 0.2.6 has requirement pyzmq>=17, but you'll have pyzmq 16.0.4 which is incompatible.[0m
[33mYou are using pip version 10.0.1, however version 18.1 is available.
You should consider upgrading via the 'pip install --upgrade pip' command.[0m


## Pandas 

- Series : 1차원 데이터를 다루는 자료구조
- Dataframe : 2차원 데이터를 다루는 자료구조

In [2]:
import pandas as pd

### Series

#### 기존 파이썬의 리스트와는 어떻게 다를까?

- 파이썬의 리스트와 비슷하면서도 파이썬의 Dictionary와도 비슷한거 같으면서도.... 그런 Series

예시로 다음과 같은 주식 데이터가 있다고 생각해보겠습니다.

| Date | Company A |
|------|-----------|
|2018-11-01| 92600|
|2018-11-02| 92400|
|2018-11-03| 92100|
|2018-11-04| 92300|

In [3]:
#그냥 리스트라면 주식 값을 저장하게 되면
[92600, 92400, 92100, 92300]

[92600, 92400, 92100, 92300]

In [4]:
# Series는 인덱스 + 값을 동시에 저장합니다.
company_a = pd.Series([92600, 92400, 92100, 92300])
company_a

0    92600
1    92400
2    92100
3    92300
dtype: int64

In [5]:
# 따라서 내가 원하는 인덱스를 부여하는 것도 가능합니다.
company_a2 = pd.Series([92600, 92400, 92100, 92300], index=['2018-11-01',
                                                        '2018-11-02',
                                                        '2018-11-03',
                                                        '2018-11-04'])
company_a2

2018-11-01    92600
2018-11-02    92400
2018-11-03    92100
2018-11-04    92300
dtype: int64

In [6]:
# Series는 인덱스 값으로 저장했기 때문에, 인덱스 문자열을 이용해 데이터를 찾을 수 있습니다
# 파이썬의 dictionary와 비슷하죠
company_a2['2018-11-01']

92600

In [7]:
# 각 index값에 접근하려면
for date in company_a2.index:
    print(date)

2018-11-01
2018-11-02
2018-11-03
2018-11-04


In [8]:
# 각 value에 접근하려면
for value in company_a2.values:
    print(value)

92600
92400
92100
92300


###  Series 연산 시의 인덱싱

In [9]:
# 다른 Series객체 인덱싱의 순서가 다를 수 있지만, 같은 인덱싱끼리 연상을 수행하여줍니다.
student1 = pd.Series([70, 80, 90], index=['math', 'english', 'science'])
student1

math       70
english    80
science    90
dtype: int64

In [10]:
student2 = pd.Series([60, 80, 90], index=['english', 'science', 'math'])
student2

english    60
science    80
math       90
dtype: int64

In [11]:
student1 + student2

english    140
math       160
science    170
dtype: int64

## Dataframe

- 여러 컬럼으로 구성된 2차원의 자료구조

### Dataframe 생성

- Dictionary 형태로 구성하는 것이 제일 간편합니다

In [12]:
student_grades = {'math': [70, 80, 90],
                 'english': [60, 50, 90],
                 'science':[50, 90, 80]}
student_grades

{'english': [60, 50, 90], 'math': [70, 80, 90], 'science': [50, 90, 80]}

In [13]:
# key 값들은 컬럼을 인덱싱하는데 활용됩니다
df_grades = pd.DataFrame(student_grades)
df_grades

Unnamed: 0,english,math,science
0,60,70,50
1,50,80,90
2,90,90,80


In [14]:
# 특이점으로는 컬럼의 순서가, 처음에 Dictionary의 순서와 다릅니다
# 이를 원하는 순서로 지정하기 위해서 컬럼 값을 추가하는 것이 가능합니다.
pd.DataFrame(student_grades, columns=['math', 'english', 'science'])

Unnamed: 0,math,english,science
0,70,60,50
1,80,50,90
2,90,90,80


In [15]:
# 컬럼 값을 기반으로 데이터가 접근이 가능해집니다
df_grades['english']

0    60
1    50
2    90
Name: english, dtype: int64

In [16]:
# 위와 동일하게 작동합니다
df_grades.english

0    60
1    50
2    90
Name: english, dtype: int64

#### 각 컬럼은 Series 타입입니다

In [17]:
type(df_grades.english)

pandas.core.series.Series

In [18]:
# index 값을 지정할 수 있습니다
test_date = ['18.10.01', '18.10.30', '18.11.07']

df_tests = pd.DataFrame(student_grades, columns=['math', 'english', 'science'], index=test_date)
df_tests

Unnamed: 0,math,english,science
18.10.01,70,60,50
18.10.30,80,50,90
18.11.07,90,90,80


### 컬럼

In [19]:
df_tests['math']

18.10.01    70
18.10.30    80
18.11.07    90
Name: math, dtype: int64

### 로우

- 로우 접을 위해서는 loc를 통해 인덱스 값을 넘겨주면 됩니다

In [20]:
df_tests.loc['18.10.01']

math       70
english    60
science    50
Name: 18.10.01, dtype: int64

## at, iat

- Dataframe의 셀 값을 추출하기

In [21]:
df_tests.at['18.10.01', 'math']

70

In [22]:
df_tests.iat[0, 0]

70

#### loc는 로우, 컬럼 값을 기반으로 인덱싱이 가능합니다

In [23]:
df_tests.loc['18.10.01', 'english']

60

### loc로 데이터 추가도 가능합니다

In [24]:
df_tests.loc['18.11.10'] = [90, 90, 90]

In [25]:
df_tests

Unnamed: 0,math,english,science
18.10.01,70,60,50
18.10.30,80,50,90
18.11.07,90,90,80
18.11.10,90,90,90


### Slice

In [26]:
# 파이썬에서도 리스트 슬라이스가 존재합니다
num_list = list(range(10))
num_list

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [27]:
# 인덱스로 접근할때는
num_list[2]

2

In [28]:
# 앞에 두 원소를 추출하고싶다
num_list[:2]

[0, 1]

In [29]:
# 뒤에 세 원소를 추출하고싶다
num_list[-3:]

[7, 8, 9]

In [30]:
# 2-5까지 꺼내고 싶다
num_list[2:7]

[2, 3, 4, 5, 6]

### Dataframe에서 loc

- slice는 [앞 인덱스: 뒤 인덱스] -> 뒤 인덱스 값을 포함하지 않는다
- loc에서 활용할때는 [앞 인덱스 : 뒤 인덱스] -> 뒤 인덱스 값까지 포함한다

In [31]:
df_tests.loc['18.10.01':'18.11.07', 'math':'english']

Unnamed: 0,math,english
18.10.01,70,60
18.10.30,80,50
18.11.07,90,90


In [32]:
df_tests.loc[:'18.10.30', :]

Unnamed: 0,math,english,science
18.10.01,70,60,50
18.10.30,80,50,90


#### iloc는 순서(0에서 dataframe길이 만큼, 0에서 컬럼 길이 만큼)값을 기반으로 데이터를 찾게해줍니다

In [33]:
df_tests.iloc[0:2]

Unnamed: 0,math,english,science
18.10.01,70,60,50
18.10.30,80,50,90


In [34]:
df_tests.iloc[2]

math       90
english    90
science    80
Name: 18.11.07, dtype: int64

In [35]:
# final 컬럼만
df_tests.iloc[:, 2]

18.10.01    50
18.10.30    90
18.11.07    80
18.11.10    90
Name: science, dtype: int64

In [36]:
df_tests.iloc[0, 0:2]

math       70
english    60
Name: 18.10.01, dtype: int64

In [37]:
df_tests

Unnamed: 0,math,english,science
18.10.01,70,60,50
18.10.30,80,50,90
18.11.07,90,90,80
18.11.10,90,90,90


## at, iat

- Dataframe의 셀 값을 추출하기

In [38]:
df_tests.at['18.10.01', 'math']

70

In [39]:
df_tests.iat[0, 0]

70

### Filtering

- 조건 만족(True), 불만족(False)값을 기반으로 필터링이 가능합니다

In [40]:
df_tests[df_tests.english > 60]

Unnamed: 0,math,english,science
18.11.07,90,90,80
18.11.10,90,90,90


In [41]:
df_tests[df_tests.english > 60]['english']

18.11.07    90
18.11.10    90
Name: english, dtype: int64

In [42]:
# 컬럼 단위로 필터링
df_tests.filter(items=['math', 'english'])

Unnamed: 0,math,english
18.10.01,70,60
18.10.30,80,50
18.11.07,90,90
18.11.10,90,90


## Index Reset

In [43]:
# 날짜 인덱스가 별로 인 것 같아서 인덱스를 리셋할 수 있습니다.
df_tests.reset_index(inplace=True)
df_tests

Unnamed: 0,index,math,english,science
0,18.10.01,70,60,50
1,18.10.30,80,50,90
2,18.11.07,90,90,80
3,18.11.10,90,90,90


In [44]:
# index 컬럼 명은 변환해줄 수 있습니다.
df_tests.rename(columns={'index':'date'}, inplace=True)
df_tests

Unnamed: 0,date,math,english,science
0,18.10.01,70,60,50
1,18.10.30,80,50,90
2,18.11.07,90,90,80
3,18.11.10,90,90,90


## 컬럼 추가

- axis =1 row에 대해서 axis=0 column에 대해

In [45]:
df_tests['avg'] = df_tests.mean(axis=1)
df_tests

Unnamed: 0,date,math,english,science,avg
0,18.10.01,70,60,50,60.0
1,18.10.30,80,50,90,73.333333
2,18.11.07,90,90,80,86.666667
3,18.11.10,90,90,90,90.0


In [46]:
df_tests.mean(axis=0)

math       82.5
english    72.5
science    77.5
avg        77.5
dtype: float64

## Sorting

In [47]:
df_tests.sort_values(['avg'], ascending=False)

Unnamed: 0,date,math,english,science,avg
3,18.11.10,90,90,90,90.0
2,18.11.07,90,90,80,86.666667
1,18.10.30,80,50,90,73.333333
0,18.10.01,70,60,50,60.0


## map

- Datframe이 아니라, Series에만 적용 가능하다. 즉 Dataframe의 하나의 컬럼은 Series로 구성되기 때문에, 각 컬럼에 적용하는 것이 가능하다

In [48]:
def get_letter_grade(grade):
    if grade>=90:
        return 'A'
    elif grade>= 80: #else if
        return 'B'
    else:
        return 'C'

In [49]:
get_letter_grade(90)

'A'

In [50]:
df_tests.math.map(lambda x: get_letter_grade(x))

0    C
1    B
2    A
3    A
Name: math, dtype: object

## apply

- Dataframe의 여러 복수 컬럼을 활용 할때 사용합니다

In [51]:
# 위의 평균 계산 예시를 apply를 활용해보도록 하겠습니다
# 여기서 x = 하나의 row

df_tests.apply(lambda x: (x['math'] + x['english'] + x['science'])/3, axis=1)

0    60.000000
1    73.333333
2    86.666667
3    90.000000
dtype: float64

In [52]:
# 각 과목의 Letter Grade를 합쳐서 표기할 수 있는 apply를 활용해보도록 하겠습니다

# 여기서 x = 하나의 row
df_tests.apply(lambda x: ','.join([get_letter_grade(x['math']),
                                 get_letter_grade(x['english']),
                                 get_letter_grade(x['science'])]), axis=1)

0    C,C,C
1    B,C,A
2    A,A,B
3    A,A,A
dtype: object

## applymap

- 위의 apply는 컬럼과 로우에 대해서 적용한다면 applymap은 각 항목(셀)에 대해 적용하기 위해서 활용한다

In [53]:
df_tests

Unnamed: 0,date,math,english,science,avg
0,18.10.01,70,60,50,60.0
1,18.10.30,80,50,90,73.333333
2,18.11.07,90,90,80,86.666667
3,18.11.10,90,90,90,90.0


In [54]:
# 각 점수에 대해 Letter Grade를 얻고 싶다
# 목표가 되는 부분만 선택한다
df_tests_letter = df_tests.loc[:, 'math':'avg']
df_tests_letter

Unnamed: 0,math,english,science,avg
0,70,60,50,60.0
1,80,50,90,73.333333
2,90,90,80,86.666667
3,90,90,90,90.0


In [55]:
df_letters = df_tests_letter.applymap(lambda x : get_letter_grade(x))
df_letters

Unnamed: 0,math,english,science,avg
0,C,C,C,C
1,B,C,A,C
2,A,A,B,B
3,A,A,A,A


## Query

In [56]:
df_tests.query("math>80")

Unnamed: 0,date,math,english,science,avg
2,18.11.07,90,90,80,86.666667
3,18.11.10,90,90,90,90.0


### 추가적인 Dataframe 메소드들

- https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.html