In [1]:
import numpy as np
import pandas as pd

In [2]:
pd.set_option('display.max_columns', 50)
pd.set_option('display.width', 100)
pd.set_option('display.max_colwidth', 250)

## 데이터프레임 필터링
* 조건을 만족하는 특정 데이터를 추출하려면
* []에 조건연산자를 사용한 조건식을 작성하면 됨

In [3]:
prods = pd.read_csv('./data/Products.csv')
prods.head()

Unnamed: 0,prodid,prodname,stock,price,maker
0,p01,그냥만두,5000,4500,대한식품
1,p02,매운쫄면,2500,5500,민국푸드
2,p03,쿵떡파이,3600,2600,한빛제과
3,p04,맛난초콜렛,1250,2500,한빛제과
4,p05,얼큰라면,2200,1200,대한식품


In [4]:
# 제조업체가 한빛제과인 상품, 가격 추출
find = prods.maker == '한빛제과'
prods[find]

Unnamed: 0,prodid,prodname,stock,price,maker
2,p03,쿵떡파이,3600,2600,한빛제과
3,p04,맛난초콜렛,1250,2500,한빛제과
6,p07,달콤비스켓,1650,1500,한빛제과


In [9]:
# 조건과 일치하는 특정 컬럼 출력
prods[find]['prodname']

2     쿵떡파이
3    맛난초콜렛
6    달콤비스켓
Name: prodname, dtype: object

In [10]:
# 조건과 일치하는 특정 컬럼들 출력
prods[find][['prodname','price']]

Unnamed: 0,prodname,price
2,쿵떡파이,2600
3,맛난초콜렛,2500
6,달콤비스켓,1500


In [18]:
# 민국푸드에서 생산중인 상품중 가격이 3000원 이상인 상품과 가격은?
find = (prods.maker == '민국푸드') & (prods.price >= 3000)
prods[find][['prodname','price']]

Unnamed: 0,prodname,price
1,매운쫄면,5500


#### 핸드폰 사용현황 데이터에 대한 블리언 인덱싱

In [19]:
phone = pd.read_csv('./data/phone02.csv')
phone.head()

Unnamed: 0,makeyear,buyyear,dispsize,age,height,weight,phonetime,pctime,lteamount
0,2015,2015,5.0,45,173,75,60,500,100
1,2014,2015,4.5,27,176,59,70,30,50
2,2015,2015,5.0,29,183,65,120,300,200
3,2015,2016,5.0,28,172,63,80,60,190
4,2015,2015,5.0,24,179,65,90,30,500


In [28]:
# 1. 제조년이 2015년인 핸드폰을 사용하는 소비자는?
find = phone.makeyear == 2015
phone[find].head()

Unnamed: 0,makeyear,buyyear,dispsize,age,height,weight,phonetime,pctime,lteamount
0,2015,2015,5.0,45,173,75,60,500,100
2,2015,2015,5.0,29,183,65,120,300,200
3,2015,2016,5.0,28,172,63,80,60,190
4,2015,2015,5.0,24,179,65,90,30,500
9,2015,2014,5.0,42,177,79,40,480,30


In [29]:
# 2. 구매년이 2015년인 핸드폰을 사용하는 소비자는?
find = phone.buyyear == 2015
phone[find].head()

Unnamed: 0,makeyear,buyyear,dispsize,age,height,weight,phonetime,pctime,lteamount
0,2015,2015,5.0,45,173,75,60,500,100
1,2014,2015,4.5,27,176,59,70,30,50
2,2015,2015,5.0,29,183,65,120,300,200
4,2015,2015,5.0,24,179,65,90,30,500
10,2014,2015,4.5,32,167,62,130,300,400


In [24]:
# 3. 크기가 4.5인 핸드폰을 구매한 소비자의 나이, 키, 몸무게 조회하세요
find = phone.dispsize == 4.5
phone[find][['age', 'height', 'weight']]

Unnamed: 0,age,height,weight
1,27,176,59
8,30,175,70
10,32,167,62
18,29,188,83


In [27]:
# 4. 나이가 35세이상인 소비자들이 구매한 핸드폰의 제조년, 화면크기 조회
find = phone.age >= 35
phone[find][['makeyear', 'dispsize']]

Unnamed: 0,makeyear,dispsize
0,2015,5.0
6,2016,6.0
7,2014,5.0
9,2015,5.0
11,2015,5.5
12,2015,5.5
13,2015,6.0
15,2015,5.0
16,2016,5.5


### 데이터프레임 그룹핑
* 특정조건에 따라 데이터들을 그룹으로 묶어서
  집계함수를 적용하고 통계함수를 이용한 정보 출력
* 이로서 해당 그룹의 특성을 알아볼수 있음
* groupby(조건열).(집계함수)

In [42]:
pd.set_option('display.float_format', '{:,.2f}'.format)

In [30]:
city = ['서울', '서울', '서울', '부산', '부산', '부산', '인천', '인천']
year = [2015, 2010, 2005, 2015, 2010, 2005, 2015, 2010]
pop = [9904312, 9631482, 9762546, 3448737, 3393191, 3512547, 2890451, 263203]
region = ['수도권', '수도권', '수도권', '경상권', '경상권', '경상권', '수도권', '수도권']

In [31]:
data = {'도시':city, '년도':year, '인구':pop, '지역':region}
df = pd.DataFrame(data)
df.head()

Unnamed: 0,도시,년도,인구,지역
0,서울,2015,9904312,수도권
1,서울,2010,9631482,수도권
2,서울,2005,9762546,수도권
3,부산,2015,3448737,경상권
4,부산,2010,3393191,경상권


#### 도시별 인구수 알아보기

In [33]:
# 먼저, 도시별로 그룹핑 시도
groupby = df.groupby('도시')
groupby.groups  # 그룹핑 결과 확인

{'부산': [3, 4, 5], '서울': [0, 1, 2], '인천': [6, 7]}

In [34]:
# 반복처리를 통해 그룹핑 결과 확인
for nm, gp in groupby:
    print(f'{nm}{gp}')

부산   도시    년도       인구   지역
3  부산  2015  3448737  경상권
4  부산  2010  3393191  경상권
5  부산  2005  3512547  경상권
서울   도시    년도       인구   지역
0  서울  2015  9904312  수도권
1  서울  2010  9631482  수도권
2  서울  2005  9762546  수도권
인천   도시    년도       인구   지역
6  인천  2015  2890451  수도권
7  인천  2010   263203  수도권


In [35]:
# 그룹핑 결과에 집계함수 적용
groupby.sum()  # 연도와 지역까지 합쳐짐

Unnamed: 0_level_0,년도,인구,지역
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,6030,10354475,경상권경상권경상권
서울,6030,29298340,수도권수도권수도권
인천,4025,3153654,수도권수도권


In [None]:
groupby.mean()  # 지역때문에 평균 계산시 오류발생!

In [51]:
# 그룹핑 결과에서 특정 컬럼 필터 후 집계처리
# groupby['인구'].sum()
df.groupby('도시')['인구'].sum().apply('{:,}'.format)

도시
부산    10,354,475
서울    29,298,340
인천     3,153,654
Name: 인구, dtype: object

In [50]:
# groupby['인구'].mean()
df.groupby('도시')['인구'].mean()

도시
부산   3,451,491.67
서울   9,766,113.33
인천   1,576,827.00
Name: 인구, dtype: float64

### 년도별 인구수

In [59]:
# df.groupby('년도').groups
df.groupby('년도')['인구'].sum().apply('{:,}'.format)

년도
2005    13,275,093
2010    13,287,876
2015    16,243,500
Name: 인구, dtype: object

### 지역별 년도별 인구수

In [63]:
# df.groupby('지역').groups
# df.groupby(['지역', '년도']).groups
df.groupby(['지역', '년도'])['인구'].sum().apply('{:,}'.format)

지역   년도  
경상권  2005     3,512,547
     2010     3,393,191
     2015     3,448,737
수도권  2005     9,762,546
     2010     9,894,685
     2015    12,794,763
Name: 인구, dtype: object

### 미국 질병통제센터에서 수집한 연도별 신생아 성별 출생수 데이터
* 1969 ~ 2008 까지의 데이터

In [65]:
birth = pd.read_csv('./data/births.csv')
birth.head()

Unnamed: 0,year,month,day,gender,births
0,1969,1,1.0,F,4046
1,1969,1,1.0,M,4440
2,1969,1,2.0,F,4454
3,1969,1,2.0,M,4548
4,1969,1,3.0,F,4548


In [87]:
# 1989년부터는 day컬럼은 null로 작성되어 있음
# 결측치가 생겨버렸넹~
birth.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15547 entries, 0 to 15546
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   year    15547 non-null  int64  
 1   month   15547 non-null  int64  
 2   day     15067 non-null  float64
 3   gender  15547 non-null  object 
 4   births  15547 non-null  int64  
dtypes: float64(1), int64(3), object(1)
memory usage: 607.4+ KB


In [90]:
# 연도별 출생수는?
grp_year = birth.groupby('year')['births'].sum()
grp_year.apply('{:,}명'.format).head()

year
1969    3,600,206명
1970    3,737,800명
1971    3,563,548명
1972    3,266,235명
1973    3,146,125명
Name: births, dtype: object

In [91]:
grp_year.apply('{:,}명'.format).tail()

year
2004    4,118,907명
2005    4,145,619명
2006    4,273,225명
2007    4,324,008명
2008    4,255,156명
Name: births, dtype: object

In [92]:
# 월별 출생수는?
grp_month = birth.groupby('month')['births'].sum()
grp_month.apply('{:,}명'.format).head()

month
1    12,364,197명
2    11,541,178명
3    12,678,844명
4    12,085,891명
5    12,624,972명
Name: births, dtype: object

In [93]:
grp_month.apply('{:,}명'.format).tail()

month
8     13,528,007명
9     13,252,831명
10    12,954,950명
11    12,197,967명
12    12,656,915명
Name: births, dtype: object

In [96]:
# 1969년의 월별출생수는?
find = birth.year == 1969
b1969 = birth[find]
b1969.head()

Unnamed: 0,year,month,day,gender,births
0,1969,1,1.0,F,4046
1,1969,1,1.0,M,4440
2,1969,1,2.0,F,4454
3,1969,1,2.0,M,4548
4,1969,1,3.0,F,4548


In [98]:
grp_month_1969 = b1969.groupby(['year', 'month'])['births'].sum()
grp_month_1969.apply('{:,}명'.format).head()

year  month
1969  1        293,940명
      2        270,786명
      3        296,550명
      4        282,638명
      5        289,124명
Name: births, dtype: object

In [99]:
grp_month_1969.apply('{:,}명'.format).tail()

year  month
1969  8        321,034명
      9        312,620명
      10       311,972명
      11       297,054명
      12       314,522명
Name: births, dtype: object

In [100]:
# 성별 출생수는?
grp_gender = birth.groupby('gender')['births'].sum()
grp_gender.apply('{:,}명'.format).head()

gender
F    74,035,823명
M    77,738,555명
Name: births, dtype: object

In [101]:
# 연도별 성별 출생수?
grp_gender_year = birth.groupby(['year', 'gender'])['births'].sum()
grp_gender_year.apply('{:,}명'.format).head()

year  gender
1969  F         1,753,634명
      M         1,846,572명
1970  F         1,819,164명
      M         1,918,636명
1971  F         1,736,774명
Name: births, dtype: object

In [102]:
grp_gender_year.apply('{:,}명'.format).tail()

year  gender
2006  M         2,188,268명
2007  F         2,111,890명
      M         2,212,118명
2008  F         2,077,929명
      M         2,177,227명
Name: births, dtype: object

## 피벗 테이블
* 소량의 데이터는 별 다른 수고없이 통계분석 가능
* 하지만, 대량의 데이터는 통계분석하기 어려움
* 수 많은 데이터 중에서 원하는 데이터만 골라서 테이블을 재구성한 것을 의미
* pivot(행, 열, 대상)
* pivot_table()

In [115]:
df.index = np.arange(1, len(df.도시)+1)
df.head()

Unnamed: 0,도시,년도,인구,지역
1,서울,2015,9904312,수도권
2,서울,2010,9631482,수도권
3,서울,2005,9762546,수도권
4,부산,2015,3448737,경상권
5,부산,2010,3393191,경상권


In [116]:
# 도시별 연도별 인구수 조회 : wide(unstack) 형식 출력 (파악하기 쉬움)
pv = df.pivot(index='도시', columns='년도', values='인구')
pv

년도,2005,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


In [118]:
for c in pv.columns:
    pv[c] = pv[c].apply('{:,.0f}'.format)
pv

년도,2005,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,3512547.0,3393191,3448737
서울,9762546.0,9631482,9904312
인천,,263203,2890451


In [119]:
# groupby 형식과 비교 : long(stack) 형식으로 출력 (다소 파악 어려움)
df.groupby(['도시','년도'])['인구'].sum()

도시  년도  
부산  2005    3512547
    2010    3393191
    2015    3448737
서울  2005    9762546
    2010    9631482
    2015    9904312
인천  2010     263203
    2015    2890451
Name: 인구, dtype: int64

In [120]:
# 연도별 도시별 인구수 조회 : wide(unstack) 형식 출력 (파악하기 쉬움)
pv = df.pivot(index='년도', columns='도시', values='인구')
pv

도시,부산,서울,인천
년도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2005,3512547.0,9762546.0,
2010,3393191.0,9631482.0,263203.0
2015,3448737.0,9904312.0,2890451.0


## pivot_table
* pivot과 groupby를 적당히 섞은 함수
* pivot에서 지원하지 않는 다양한 집계함수를 지원
* pivot_table(대상, 행, 열, 집계함수, 총계여부)

In [123]:
# 도시별 연도별 인구수 조회
pv = df.pivot_table('인구', '도시', '년도')
pv.style.format('{:,.0f}')

년도,2005,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,3512547.0,3393191,3448737
서울,9762546.0,9631482,9904312
인천,,263203,2890451


In [125]:
# 연도별 도시별 인구수 조회
pv = df.pivot_table('인구', '년도', '도시')
pv.style.format('{:,.0f}')

도시,부산,서울,인천
년도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2005,3512547,9762546,
2010,3393191,9631482,263203.0
2015,3448737,9904312,2890451.0


In [131]:
# 도시별 연도별 평균 인구수 조회
pv = df.pivot_table('인구', '도시', '년도', aggfunc=np.mean)
pv.style.format('{:,.0f}')

년도,2005,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,3512547.0,3393191,3448737
서울,9762546.0,9631482,9904312
인천,,263203,2890451


In [133]:
# 도시별 연도별 평균 인구수 조회, 총계도 함께 표시
pv = df.pivot_table('인구', '도시', '년도', aggfunc=np.mean, margins=True, margins_name='총 평균')
pv.style.format('{:,.0f}')

년도,2005,2010,2015,총 평균
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
부산,3512547.0,3393191,3448737,3451492
서울,9762546.0,9631482,9904312,9766113
인천,,263203,2890451,1576827
총 평균,6637546.0,4429292,5414500,5350809


In [134]:
# 도시별 연도별 평균 인구수 조회, 총계도 함께 표시
pv = df.pivot_table('인구', '도시', '년도', aggfunc=np.sum, margins=True, margins_name='총계')
pv.style.format('{:,.0f}')

년도,2005,2010,2015,총계
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
부산,3512547.0,3393191,3448737,10354475
서울,9762546.0,9631482,9904312,29298340
인천,,263203,2890451,3153654
총계,13275093.0,13287876,16243500,42806469


### tips 데이터셋을 이용한 피벗테이블 예제

In [142]:
import seaborn as sns

In [144]:
tips = sns.load_dataset("tips")
tips.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


In [147]:
# 성별 요일별 팁 현황
tips.pivot_table('tip', 'sex', 'day')

day,Thur,Fri,Sat,Sun
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Male,2.98,2.69,3.08,3.22
Female,2.58,2.78,2.8,3.37


In [161]:
# 성별 요일별 팁 현황
tips.pivot_table('tip', 'sex', 'day', aggfunc=sum)

day,Thur,Fri,Sat,Sun
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Male,89.41,26.93,181.95,186.78
Female,82.42,25.03,78.45,60.61


In [149]:
# 팁을 준 고객의 성별 분류
tips.pivot_table('tip', 'sex', aggfunc='count')['total_bill']

sex
Male      157
Female     87
Name: total_bill, dtype: int64

In [162]:
tips.groupby('sex')['tip'].count()

sex
Male      157
Female     87
Name: tip, dtype: int64

In [164]:
# 성별 흡연/비흡연 고객 분류
tips.pivot_table('tip', 'sex', 'smoker', aggfunc='count')

smoker,Yes,No
sex,Unnamed: 1_level_1,Unnamed: 2_level_1
Male,60,97
Female,33,54


In [166]:
tips.groupby(['sex', 'smoker'])['tip'].count()

sex     smoker
Male    Yes       60
        No        97
Female  Yes       33
        No        54
Name: tip, dtype: int64

## 2016년 미국 대통령 선거 데이터 분석 예제
* primary_results.txt (변수명 : primary)
 => 각 주, 정당, 후보자 및 득표수
* county_facts.csv (변수명 : counties)
 => 각 유권자별 투표 데이터

In [168]:
primary = pd.read_csv('./data/primary_results.txt')
primary.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 24611 entries, 0 to 24610
Data columns (total 8 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   state               24611 non-null  object 
 1   state_abbreviation  24611 non-null  object 
 2   county              24611 non-null  object 
 3   fips                24511 non-null  float64
 4   party               24611 non-null  object 
 5   candidate           24611 non-null  object 
 6   votes               24611 non-null  int64  
 7   fraction_votes      24611 non-null  float64
dtypes: float64(2), int64(1), object(5)
memory usage: 1.5+ MB


In [169]:
# 주
primary.state.value_counts().head()

state
Massachusetts    2808
Texas            1778
Vermont          1722
Iowa             1485
Georgia          1113
Name: count, dtype: int64

In [173]:
# 카운티 (시)
primary.county.value_counts().head()

county
Washington    182
Franklin      158
Jefferson     154
Jackson       140
Madison       138
Name: count, dtype: int64

In [175]:
# 정당
primary.party.value_counts().head()

party
Republican    15652
Democrat       8959
Name: count, dtype: int64

In [172]:
# 후보군
primary.candidate.value_counts().head()

candidate
Bernie Sanders     4205
Hillary Clinton    4205
Donald Trump       3586
John Kasich        3586
Ted Cruz           3586
Name: count, dtype: int64

In [180]:
# 후보자별 득표수
votes = primary.groupby('candidate')['votes'].sum()\
    .sort_values(ascending=False)
votes.apply('{:,}'.format).head()

candidate
Hillary Clinton    15,692,452
Donald Trump       13,302,541
Bernie Sanders     11,959,102
Ted Cruz            7,603,006
John Kasich         4,159,949
Name: votes, dtype: object

In [184]:
# 공화당 후보자별 득표수
find = primary.party == 'Republican'
primary[find].groupby('candidate')['votes'].sum()\
    .sort_values(ascending=False).head()

candidate
Donald Trump    13302541
Ted Cruz         7603006
John Kasich      4159949
Marco Rubio      3321076
Ben Carson        564553
Name: votes, dtype: int64

In [185]:
# 민주당 후보자별 득표수
find = primary.party == 'Democrat'
primary[find].groupby('candidate')['votes'].sum()\
    .sort_values(ascending=False).head()

candidate
Hillary Clinton    15692452
Bernie Sanders     11959102
 No Preference         8152
Martin O'Malley         752
 Uncommitted             43
Name: votes, dtype: int64

In [188]:
# 경선에서 당선된 후보의 지역별 득표수 (공화당)
find = primary.candidate == 'Donald Trump'
primary[find].groupby('state')['votes'].sum()\
    .sort_values(ascending=False).head()

state
California      1174829
Florida         1077221
Pennsylvania     892702
Texas            757618
Ohio             727585
Name: votes, dtype: int64

In [189]:
# 경선에서 당선된 후보의 지역별 득표수 (민주당)
find = primary.candidate == 'Hillary Clinton'
primary[find].groupby('state')['votes'].sum()\
    .sort_values(ascending=False).head()

state
California    1940580
Florida       1097400
New York      1054083
Illinois      1012175
Texas          935080
Name: votes, dtype: int64