# pandas
pandas: 효과적인 데이터 분석을 위한 고수준의 자료구조와 데이터 분석 도구를 제공하는 라이브러리
- pandas Series: 1차원 데이터를 다루는 데 효과적인 자료구조
- pandas DataFrame: 행과 열로 구성된 2차원의 데이터를 다루는 데 효과적인 자료구조

참고1) 파이썬으로 배우는 트레이딩 알고리즘 (https://wikidocs.net/4367) <br>
참고2) Python for Data Analysis <br>
참고3) pandas documentation (https://pandas.pydata.org/pandas-docs/stable/dsintro.html)

In [1]:
import pandas as pd

# Series
- 어떤 면에서는 파이썬의 리스트와 비슷하고 어떤 면에서는 딕셔너리와 닮은 자료구조
- 일차원 배열과 달리 값뿐만 아니라 각 값에 연결된 인덱스 값도 저장<br>

<font size = 4.7><center>< __Structure of Series__ ></center></font>
<img src="https://wikidocs.net/images/page/4364/r13.02.png" alt="Drawing" style="width: 300px;"/>

In [2]:
from pandas import Series

In [3]:
kakao = Series([92600, 92400, 92100, 94300, 92300])
kakao

0    92600
1    92400
2    92100
3    94300
4    92300
dtype: int64

In [4]:
kakao2 = Series([92600, 92400, 92100, 94300, 92300], 
                index=['2016-02-19', '2016-02-18', '2016-02-17', '2016-02-16', '2016-02-15'])
kakao2

2016-02-19    92600
2016-02-18    92400
2016-02-17    92100
2016-02-16    94300
2016-02-15    92300
dtype: int64

# DataFrame
- pandas의 주요 자료 구조
- 행과 열로 구성된 2차원 형태의 자료구조 (일반적인 엑셀 문서의 형태)
- Series 객체를 담는 사전이라고 생각할 수 있음<br><br>

<font size = 4.7><center>< __Structure of DataFrame__ ></center></font>
<img src="https://wikidocs.net/images/page/4367/r13.10.png" alt="Drawing" style="width: 550px;"/>
<br>
<br>
<font size = 4.7><center>< __DataFrame as dictionary of Series__ ></center></font>
<img src="https://wikidocs.net/images/page/4367/r13.11.png" alt="Drawing" style="width: 650px;"/>

In [5]:
from pandas import DataFrame

In [6]:
raw_data = {'col0': [1, 2, 3, 4],
            'col1': [10, 20, 30, 40],
            'col2': [100, 200, 300, 400]}

data = DataFrame(raw_data)
data

Unnamed: 0,col0,col1,col2
0,1,10,100
1,2,20,200
2,3,30,300
3,4,40,400


In [7]:
daeshin = {'open':  [11650, 11100, 11200, 11100, 11000],
           'high':  [12100, 11800, 11200, 11100, 11150],
           'low' :  [11600, 11050, 10900, 10950, 10900],
           'close': [11900, 11600, 11000, 11100, 11050]}

date = ['16.02.29', '16.02.26', '16.02.25', '16.02.24', '16.02.23']

daeshin_day = DataFrame(daeshin, columns=['open', 'high', 'low', 'close'], index=date)
daeshin_day

Unnamed: 0,open,high,low,close
16.02.29,11650,12100,11600,11900
16.02.26,11100,11800,11050,11600
16.02.25,11200,11200,10900,11000
16.02.24,11100,11100,10950,11100
16.02.23,11000,11150,10900,11050


# Getting Started with pandas

In [8]:
import numpy as np
import pandas as pd
from pandas import Series, DataFrame

## Creating Series & DataFrame
#### Series
- from ndarray
- from dict
- from scalar value
<br>

#### DataFrame
- from dict of Series or dicts
- from dict of ndarrays / lists
- from structured or record array
- from a list of dicts
- from a dict of tuples
- from a Series

*참고: pandas documentation (https://pandas.pydata.org/pandas-docs/stable/dsintro.html)

## Load Data
- CSV
- Excel
- Database
- URL

*참고: http://www.gregreda.com/2013/10/26/intro-to-pandas-data-structures/

## Read csv
- csv 파일 읽어오기

tips data description
- customer_id: customer id
- total_bill: total bill (cost of the meal), including tax, in US dollars
- tip: tip (gratuity) in US dollars
- sex: sex of person paying for the meal (male, Female)
- smoker: somker in party? (No, Yes)
- day: Thur, Fri, Sat, Sun
- time: Lunch, Dinner
- size: size of the party

In [9]:
# read_csv 함수
tips = pd.read_csv('tips.csv')
tips

Unnamed: 0,customer_id,total_bill,tip,sex,smoker,day,time,size
0,1,16.99,1.01,Female,No,Sun,Dinner,2.0
1,2,10.34,1.66,Male,No,Sunday,Dinner,3.0
2,3,21.01,3.50,Male,No,Sun,Dinner,3.0
3,4,23.68,3.31,Male,No,Sun,Dinner,2.0
4,5,24.59,3.61,Female,No,Sun,Dinner,4.0
5,6,25.29,4.71,Male,No,Sun,Dinner,4.0
6,7,8.77,2.00,Male,No,Sun,Dinner,2.0
7,8,26.88,3.12,Male,No,Sunday,Dinner,4.0
8,9,15.04,1.96,Male,No,Sun,Dinner,2.0
9,10,14.78,3.23,Male,No,Sun,Dinner,2.0


## Looking through data

전체적으로 데이터 훑어보기

In [10]:
tips.describe()

Unnamed: 0,customer_id,total_bill,tip,size
count,251.0,251.0,248.0,250.0
mean,124.191235,19.987689,2.998347,2.58
std,71.523558,9.046846,1.38207,0.950375
min,1.0,3.07,1.0,1.0
25%,62.5,13.405,2.0,2.0
50%,124.0,17.82,2.855,2.0
75%,185.5,24.535,3.5625,3.0
max,248.0,50.81,10.0,6.0


In [11]:
tips.head(6)

Unnamed: 0,customer_id,total_bill,tip,sex,smoker,day,time,size
0,1,16.99,1.01,Female,No,Sun,Dinner,2.0
1,2,10.34,1.66,Male,No,Sunday,Dinner,3.0
2,3,21.01,3.5,Male,No,Sun,Dinner,3.0
3,4,23.68,3.31,Male,No,Sun,Dinner,2.0
4,5,24.59,3.61,Female,No,Sun,Dinner,4.0
5,6,25.29,4.71,Male,No,Sun,Dinner,4.0


In [12]:
tips.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 251 entries, 0 to 250
Data columns (total 8 columns):
customer_id    251 non-null int64
total_bill     251 non-null float64
tip            248 non-null float64
sex            250 non-null object
smoker         250 non-null object
day            251 non-null object
time           251 non-null object
size           250 non-null float64
dtypes: float64(3), int64(1), object(4)
memory usage: 15.8+ KB


## Indexing, selection
- 데이터 검색하기

### column 이름으로 접근

In [13]:
tips[["total_bill", 'tip']]

Unnamed: 0,total_bill,tip
0,16.99,1.01
1,10.34,1.66
2,21.01,3.50
3,23.68,3.31
4,24.59,3.61
5,25.29,4.71
6,8.77,2.00
7,26.88,3.12
8,15.04,1.96
9,14.78,3.23


In [14]:
tips['total_bill']

0      16.99
1      10.34
2      21.01
3      23.68
4      24.59
5      25.29
6       8.77
7      26.88
8      15.04
9      14.78
10     10.27
11     35.26
12     15.42
13     18.43
14     14.83
15     21.58
16     10.33
17     16.29
18     16.97
19     20.65
20     17.92
21     20.29
22     15.77
23     39.42
24     19.82
25     17.81
26     13.37
27     12.69
28     21.70
29     19.65
       ...  
221    28.17
222    12.90
223    28.15
224    11.59
225     7.74
226    30.14
227    12.16
228    13.42
229     8.58
230    15.98
231    13.42
232    16.27
233    10.09
234    20.45
235    13.28
236    22.12
237    24.01
238    15.69
239    11.61
240    10.77
241    15.53
242    10.07
243    12.60
244    32.83
245    35.83
246    29.03
247    27.18
248    22.67
249    17.82
250    18.78
Name: total_bill, Length: 251, dtype: float64

In [15]:
tips.total_bill

0      16.99
1      10.34
2      21.01
3      23.68
4      24.59
5      25.29
6       8.77
7      26.88
8      15.04
9      14.78
10     10.27
11     35.26
12     15.42
13     18.43
14     14.83
15     21.58
16     10.33
17     16.29
18     16.97
19     20.65
20     17.92
21     20.29
22     15.77
23     39.42
24     19.82
25     17.81
26     13.37
27     12.69
28     21.70
29     19.65
       ...  
221    28.17
222    12.90
223    28.15
224    11.59
225     7.74
226    30.14
227    12.16
228    13.42
229     8.58
230    15.98
231    13.42
232    16.27
233    10.09
234    20.45
235    13.28
236    22.12
237    24.01
238    15.69
239    11.61
240    10.77
241    15.53
242    10.07
243    12.60
244    32.83
245    35.83
246    29.03
247    27.18
248    22.67
249    17.82
250    18.78
Name: total_bill, Length: 251, dtype: float64

In [16]:
tips.day.values

array(['Sun', 'Sunday', 'Sun', 'Sun', 'Sun', 'Sun', 'Sun', 'Sunday',
       'Sun', 'Sun', 'Sun', 'Sunday', 'Sun', 'Sun', 'Sunday', 'Sun',
       'Sunday', 'Sunday', 'Sun', 'Saturday', 'Sat', 'Sat', 'Sat', 'Sat',
       'Sat', 'Sat', 'Sat', 'saturday', 'Sat', 'Sat', 'saturday', 'Sat',
       'Sat', 'Sat.', 'Sat', 'Sat.', 'Sat', 'Sat', 'Sat', 'Saturday',
       'Saturday', 'Sun', 'Sun', 'Sun', 'Sunday', 'Sunday', 'Sunday',
       'Sun', 'Sun', 'Sun', 'Sun', 'Sun.', 'Sun.', 'Sun.', 'Sun', 'Sun',
       'Sun', 'Sat', 'Sat', 'Sat', 'Sat', 'Sat', 'Sat', 'Sat.',
       'Saturday', 'Sat', 'Saturday', 'Sat', 'Sat', 'Thur', 'Sat', 'Sat',
       'Sat', 'Sat', 'Sat', 'Sat', 'Sat', 'Sat', 'Sat', 'Sat', 'Thur',
       'Thur', 'Thur', 'Thur', 'Thur', 'Thur', 'Thur', 'Thur', 'Thur',
       'Thur', 'Thur', 'Thur', 'Thur', 'Thur', 'Thur', 'Fri', 'Fri',
       'Friday', 'friday', 'Fri', 'Fri', 'Fri', 'Friday', 'Fri', 'Fri',
       'Fri', 'Friday', 'Sat', 'Sat', 'Sat', 'Fri', 'Sat', 'Sat', 'Sat',
       '

### index로 접근

In [17]:
tips[0:7]

Unnamed: 0,customer_id,total_bill,tip,sex,smoker,day,time,size
0,1,16.99,1.01,Female,No,Sun,Dinner,2.0
1,2,10.34,1.66,Male,No,Sunday,Dinner,3.0
2,3,21.01,3.5,Male,No,Sun,Dinner,3.0
3,4,23.68,3.31,Male,No,Sun,Dinner,2.0
4,5,24.59,3.61,Female,No,Sun,Dinner,4.0
5,6,25.29,4.71,Male,No,Sun,Dinner,4.0
6,7,8.77,2.0,Male,No,Sun,Dinner,2.0


### loc, iloc
- loc: 라벨 이름으로 검색 (원래 인덱스가 정수인 경우는 예외적으로 허용)
- iloc: 정숫값 인덱스로 검색<br>

*참고: https://datascienceschool.net/view-notebook/704731b41f794b8ea00768f5b0904512/

In [18]:
tips.loc[[1, 2], ['tip', 'sex']]
# tips.loc[:, [1, 2, 3]] -> 에러 발생

Unnamed: 0,tip,sex
1,1.66,Male
2,3.5,Male


In [19]:
tips.loc[[1, 3, 6], ['tip', 'sex']]

Unnamed: 0,tip,sex
1,1.66,Male
3,3.31,Male
6,2.0,Male


In [20]:
tips.iloc[[2, 5, 7], 1:4]

Unnamed: 0,total_bill,tip,sex
2,21.01,3.5,Male
5,25.29,4.71,Male
7,26.88,3.12,Male


## Exploring data

### 데이터 구성 파악

In [21]:
tips.columns

Index(['customer_id', 'total_bill', 'tip', 'sex', 'smoker', 'day', 'time',
       'size'],
      dtype='object')

In [22]:
tips.sex.unique()

array(['Female', 'Male', nan], dtype=object)

In [23]:
tips.day.unique()

array(['Sun', 'Sunday', 'Saturday', 'Sat', 'saturday', 'Sat.', 'Sun.',
       'Thur', 'Fri', 'Friday', 'friday'], dtype=object)

In [24]:
tips.sex.value_counts()S

SyntaxError: invalid syntax (<ipython-input-24-b19a129008d6>, line 1)

### Sorting

In [None]:
tips.sort_values('total_bill', ascending=False)

### filtering
- 특정 조건을 만족하는 데이터만 추출

흡연자가 없었던 경우만 검색

In [None]:
tips.smoker == 'No'

In [None]:
tips[tips.smoker == 'No']

총 지출액이 15달러 이상이었던 경우만 검색

In [None]:
tips['total_bill'] >= 15

In [None]:
tips[tips['total_bill'] >= 15]

### 실습 1) loc 또는 iloc을 이용하여 '흡연자이면서 팁을 5달러 이상 낸 고객'의 'size' 값의 구성을 파악하여라.

In [None]:
(tips['smoker'] == 'Yes') & (tips['tip'] >= 5)

In [None]:
tips.loc[(tips['smoker'] == 'Yes') & (tips['tip'] >= 5), 'size']

In [None]:
tips.loc[(tips['smoker'] == 'Yes') & (tips['tip'] >= 5), 'size'].value_counts()

In [None]:
# iloc은 boolean indexxing으로 안 됨
#tips.iloc[(tips['smoker'] == 'Yes') & (tips['tip'] >= 5), 7]

## Handling missing data

#### find missing data
*참고: https://stackoverflow.com/questions/29530232/how-to-check-if-any-value-is-nan-in-a-pandas-dataframe

In [None]:
tips.isnull()

In [None]:
tips.notnull()

특정 column의 null 값 찾기

In [None]:
tips.isnull()

In [None]:
tips.isnull().any()

In [None]:
tips.isnull().sum() # sum 함수는 summarizing and computing descriptive statistics  참조

특정 row의 null 값 찾기

In [None]:
tips.isnull().any(axis=1)

In [None]:
tips[tips.isnull().any(axis=1)]

#### Filtering out missing data

In [None]:
tips.dropna() # how='all' 조건을 넣어줄 경우 모든 값이 Null인 row만 제거

In [None]:
tips

#### Filling in Missing Data
* 참고: https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.fillna.html

### 실습2) dropna 함수를 사용하지 않고 null 값을 제거하여라.

In [None]:
tips.notnull().all()

In [None]:
tips[tips.notnull().all(axis=1)]

In [None]:
tips = tips[tips.notnull().all(axis=1)]

## Handling duplicated data

In [None]:
tips

In [None]:
tips.duplicated()

In [None]:
tips.drop_duplicates()

### 실습2) 중복 값을 확인하고 모두 제거하여라. (함수의 parameter 기능을 읽어보고 활용할 것)
1. 중복 값 확인
2. 제거

In [None]:
tips[tips.customer_id.duplicated(keep=False)]

In [None]:
tips[tips.customer_id.duplicated()]

In [None]:
tips.drop_duplicates(subset='customer_id', keep=False, inplace=True)
tips

## Summarizing and Computing Descriptive Statistics

In [None]:
tips.describe()

In [None]:
tips.total_bill.mean()

In [None]:
tips.total_bill.quantile(0.25)

In [None]:
tips.cumsum()

In [None]:
tips.tip.idxmax()

In [None]:
tips.tip.max()

In [None]:
tips.loc[177, 'tip']

In [None]:
tips.tip / tips.total_bill

In [None]:
tips.tip + 1

## Function application and mapping

#### 숫자 다루기

In [None]:
tips[['total_bill', 'tip']]

In [None]:
def f(x):
    return x.max()

In [None]:
tips[['total_bill', 'tip']].apply(lambda x: x.max())

In [None]:
tips[['total_bill', 'tip']].apply(f)

In [None]:
tips[['total_bill', 'tip']].apply(lambda x: x.max() - x.min())

In [None]:
tips[['total_bill', 'tip']].apply(lambda x: x.max() - x.min(), axis=1)

In [None]:
tips['tip'].apply(lambda x: x - 0.5)

In [None]:
def f(x):
    return x*2
tips['tip'].apply(f)

#### 문자 다루기

In [None]:
tips.day.replace('Friday', 'Fri')

In [None]:
tips.day.replace(['Friday', 'fri'], 'Fri')

In [None]:
dict_day = {'Friday': 'Fri'}
tips.day.map(dict_day)

In [None]:
tips['day'].apply(str.lower) # tips['day'].apply(lambda x: str.lower(x))도 가능

#### 참고: apply, map, applymap의 차이: http://www.leejungmin.org/post/2018/04/21/pandas_apply_and_map/

### 실습 3) apply 함수를 이용하여 describe 함수를 구현하라. (tips[['total_bill', 'tip']]에만 적용 가능하면 됨)
1. count, mean, std, min, 25%, 50%, 75%, max 값을 인덱스로 하는 Series를 return 하는 함수 정의
2. apply 함수로 tips[['total_bill', 'tip']]에 1에서 정의한 함수 적용

In [None]:
tips.describe()

In [None]:
def f(x):
    return Series([x.count(), x.mean(), x.std(), x.min(), 
                   x.quantile(0.25), x.quantile(0.5), x.quantile(0.75), x.max()], 
                  index=['count', 'mean', 'std', 'min', '25%', '50%', '75%', 'max'])

In [None]:
tips[['total_bill', 'tip']].apply(f)

### 실습 4) tips 데이터의 day 값을 4가지 분류로 통일하여라.
1. tips 데이터의 day 값 구성 파악
2. day 값을 4가지 분류로 나누는 dictionary 정의
3. map 또는 replace를 이용하여 day 값을 4가지 분류로 통일

In [None]:
tips['day'] = tips['day'].apply(str.lower)

In [None]:
tips.day.value_counts()

In [None]:
day_dict = {'sunday': 'sun', 'saturday': 'sat', 'friday': 'fri', 'sun.': 'sun', 'sat.': 'sat'}

In [None]:
tips.day.replace(day_dict)

In [None]:
tips.day = tips.day.replace(day_dict)

In [None]:
tips.day.value_counts()

## Data Aggregation and Group Operations
- split: 특정 기준으로 데이터를 그룹핑
- apply: 각 그룹에 특정 함수를 적용
- combine: 각 그룹에 함수를 적용한 결과를 묶어서 제시
<br>
<img src="https://i.stack.imgur.com/sgCn1.jpg" alt="Drawing" style="width: 450px;"/>

In [None]:
tips.groupby('sex')

In [None]:
tips.groupby('sex').groups

In [None]:
grouped_sex = tips.groupby('sex')
grouped_sex.mean()
# tips.groupby('sex').mean()

In [None]:
tips.groupby(['sex', 'day']).count()

In [None]:
tips.groupby(['sex', 'day']).count()['customer_id']

### Iterating over groups

In [None]:
for name, group in tips.groupby('smoker'):
    print (name)
    print (group)

In [None]:
for (name1, name2), group in tips.groupby(['sex', 'smoker']):
    print (name1, name2)
    print (group)

In [None]:
for name, group in tips.groupby(['sex', 'smoker']):
    print (name)
    print (group)

### Apply function

In [None]:
def f(x):
    return x.head()
tips.groupby(['sex', 'smoker']).apply(f)
#tips.groupby(['sex','smoker'])

### 실습 5) 성별과 흡연 여부로 그룹핑 했을 때, 각 그룹에서 tip을 가장 많이 준 순서대로 5개씩의 전체 데이터를 보여라.
1. tip을 가장 많이 준 순서대로 5개씩 보여주는 함수 정의
2. groupby 함수를 이용해서 1에서 정의한 함수 적용

In [None]:
def f(x):
    return x.sort_values('tip', ascending=False).iloc[:5, :]

tips.groupby(['sex', 'smoker']).apply(f)

## Data transformation

### Stack & Unstack

In [None]:
tips.groupby(['sex', 'day']).count()['customer_id']

In [None]:
tips.groupby(['sex', 'day']).count()['customer_id'].unstack()

### Pivot table

In [None]:
tips

In [None]:
tips.pivot_table(values='tip', index='sex', columns='day', aggfunc='mean')

In [None]:
tips.pivot_table(values='customer_id', index='sex', columns='day', aggfunc='count')

### 실습 6) 각 요일별 성별별 지출 대비 팁의 비율(%)의 평균을 구하라.
1. 지출 대비 팁의 비율의 평균을 구하는 함수 정의
2. groupby 함수를 이용하여 1에서 정의한 함수를 각 그룹에 적용
3. stack 또는 unstack을 이용해 dataframe 변형

In [None]:
def f(x):
    return (x.tip / x.total_bill).mean()*100

tips.groupby(['day', 'sex']).apply(f).unstack()

In [None]:
def f(x):
    return (x.tip / x.total_bill).mean()*100

tips.groupby(['day', 'sex']).apply(f)