## Pandas에서 제공하는 대표적인 자료구조
    
    1) Series
        값 -> index
     
    2) DataFrame
        여러 개의 series를 묶어놓은 형태
        
    3) http://pandas.pydata.org

In [3]:
import pandas as pd
import numpy as np

## Series

In [2]:
s=pd.Series([896,325,888,345])
print(s)

0    896
1    325
2    888
3    345
dtype: int64


In [4]:
for i in enumerate([896,325,888,345]):
    print(i)

(0, 896)
(1, 325)
(2, 888)
(3, 345)


In [11]:
#인덱스를 자유롭게 지정
s=pd.Series([896,325,888,345], index=["서울","부산","인천","대구"])
print(s)
print("--------------------------")
print(s.values)
print(s.index)
print("--------------------------")
s.index.name="도시"
s.name="도시별 인구"
print(s)

서울    896
부산    325
인천    888
대구    345
dtype: int64
--------------------------
[896 325 888 345]
Index(['서울', '부산', '인천', '대구'], dtype='object')
--------------------------
도시
서울    896
부산    325
인천    888
대구    345
Name: 도시별 인구, dtype: int64


In [12]:
#백터화 연산
s1=s/100
print(s1)

도시
서울    8.96
부산    3.25
인천    8.88
대구    3.45
Name: 도시별 인구, dtype: float64


In [32]:
# 인덱싱

print(s[1],s["부산"])
print(s[0:3:1],s[['서울','대구','부산']])
print(s[(800<s) & (s<1000)])
print("-----------------------------------")
print(s[1:3])
print(s["부산":"대구"])
print("-----------------------------------")
print(s.부산," , ",s.서울)

325 325
도시
서울    896
부산    325
인천    888
Name: 도시별 인구, dtype: int64 도시
서울    896
대구    345
부산    325
Name: 도시별 인구, dtype: int64
도시
서울    896
인천    888
Name: 도시별 인구, dtype: int64
-----------------------------------
도시
부산    325
인천    888
Name: 도시별 인구, dtype: int64
도시
부산    325
인천    888
대구    345
Name: 도시별 인구, dtype: int64
-----------------------------------
325  ,  896


In [41]:
# Series와 dict 

print("서울" in s)
print("대전" in s)

print(s.item)
for i,j in s.items():
    print("key : {} value : {}".format(i,j))
print("--------------------------------------------")
s2=pd.Series({"서울":959,"부산":465,"인천":286,"대전":146})
print(s2)

True
False
<bound method IndexOpsMixin.item of 도시
서울    896
부산    325
인천    888
대구    345
Name: 도시별 인구, dtype: int64>
key : 서울 value : 896
key : 부산 value : 325
key : 인천 value : 888
key : 대구 value : 345
--------------------------------------------
서울    959
부산    465
인천    286
대전    146
dtype: int64


In [46]:
#인덱스 기반 연산

print(s)
print(s2)

df=s-s2
print(df)
print("--------------")

dfs=s.values-s2.values
print(dfs)

도시
서울    896
부산    325
인천    888
대구    345
Name: 도시별 인구, dtype: int64
서울    959
부산    465
인천    286
대전    146
dtype: int64
대구      NaN
대전      NaN
부산   -140.0
서울    -63.0
인천    602.0
dtype: float64
--------------
[ -63 -140  602  199]


In [51]:
#결측치 제거
print(df)
print(df.notnull())
print(df[df.notnull()])
print("------------------")

#인구 증가율((끝연도-시작연도)/시작연도 *100)
dfs=(s2-s)/s*100
print(dfs)

대구      NaN
대전      NaN
부산   -140.0
서울    -63.0
인천    602.0
dtype: float64
대구    False
대전    False
부산     True
서울     True
인천     True
dtype: bool
부산   -140.0
서울    -63.0
인천    602.0
dtype: float64
------------------
대구          NaN
대전          NaN
부산    43.076923
서울     7.031250
인천   -67.792793
dtype: float64


In [55]:
#데이터의 수정, 삭제, 갱신
s2["부산"]=564
print(s2)

s2["대구"]=256
print(s2)

del s2["서울"]
print(s2)

서울    959
부산    564
인천    286
대전    146
대구    256
dtype: int64
서울    959
부산    564
인천    286
대전    146
대구    256
dtype: int64
부산    564
인천    286
대전    146
대구    256
dtype: int64


## DataFrame

In [56]:
data = {
    "2015": [9904312, 3448737, 2890451, 2466052],
    "2010": [9631482, 3393191, 2632035, 2431774],
    "2005": [9762546, 3512547, 2517680, 2456016],
    "2000": [9853972, 3655437, 2466338, 2473990],
    "지역": ["수도권", "경상권", "수도권", "경상권"],
    "2010-2015 증가율": [0.0283, 0.0163, 0.0982, 0.0141]
}

In [59]:
dt=pd.DataFrame(data)
print(dt)

      2015     2010     2005     2000   지역  2010-2015 증가율
0  9904312  9631482  9762546  9853972  수도권         0.0283
1  3448737  3393191  3512547  3655437  경상권         0.0163
2  2890451  2632035  2517680  2466338  수도권         0.0982
3  2466052  2431774  2456016  2473990  경상권         0.0141


In [60]:
#컬럼의 위치 변경
cxis=['지역','2005','2010','2015','2000','2010-2015 증가율']
dt=pd.DataFrame(data, columns=cxis)
print(dt)

    지역     2005     2010     2015     2000  2010-2015 증가율
0  수도권  9762546  9631482  9904312  9853972         0.0283
1  경상권  3512547  3393191  3448737  3655437         0.0163
2  수도권  2517680  2632035  2890451  2466338         0.0982
3  경상권  2456016  2431774  2466052  2473990         0.0141


In [61]:
#인덱스 변경
idx=["서울",'부산','인천','대구']
dt=pd.DataFrame(data, columns=cxis, index=idx)
print(dt)

     지역     2005     2010     2015     2000  2010-2015 증가율
서울  수도권  9762546  9631482  9904312  9853972         0.0283
부산  경상권  3512547  3393191  3448737  3655437         0.0163
인천  수도권  2517680  2632035  2890451  2466338         0.0982
대구  경상권  2456016  2431774  2466052  2473990         0.0141


In [63]:
#컬럼과 인덱스에서 이름 부여
dt.index.name="도시"
dt.columns.name="년도"
print(dt)

년도   지역     2005     2010     2015     2000  2010-2015 증가율
도시                                                        
서울  수도권  9762546  9631482  9904312  9853972         0.0283
부산  경상권  3512547  3393191  3448737  3655437         0.0163
인천  수도권  2517680  2632035  2890451  2466338         0.0982
대구  경상권  2456016  2431774  2466052  2473990         0.0141


In [65]:
#전치 가능
dt.T
dt

년도,지역,2005,2010,2015,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9762546,9631482,9904312,9853972,0.0283
부산,경상권,3512547,3393191,3448737,3655437,0.0163
인천,수도권,2517680,2632035,2890451,2466338,0.0982
대구,경상권,2456016,2431774,2466052,2473990,0.0141


In [67]:
dt["지역"] #Series 행이 아닌 열 우선
dt[["지역"]] #DataFrame

년도,지역
도시,Unnamed: 1_level_1
서울,수도권
부산,경상권
인천,수도권
대구,경상권


In [72]:
#행 인덱스 (반드시 :으로 슬라이싱을 해야한다)

dt[:]
dt[:1]
dt[1:3]
dt["서울":"부산"]

년도,지역,2005,2010,2015,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9762546,9631482,9904312,9853972,0.0283
부산,경상권,3512547,3393191,3448737,3655437,0.0163


In [81]:
#동시에 행과 열에 접근
dt["2005"]["서울"]
dt[["2005","2010"]][:"서울"]

년도,2005,2010
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,9762546,9631482


In [85]:
#열 데이터의 갱신, 추가, 삭제

dt['2010-2015 증가율']=dt['2010-2015 증가율']*100
dt['2005-2010 증가율']=((dt["2010"]-dt["2005"])/dt["2005"]*100).round(2)
dt

#삭제
del dt['2005-2010 증가율']
dt

년도,지역,2005,2010,2015,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9762546,9631482,9904312,9853972,2830000.0
부산,경상권,3512547,3393191,3448737,3655437,1630000.0
인천,수도권,2517680,2632035,2890451,2466338,9820000.0
대구,경상권,2456016,2431774,2466052,2473990,1410000.0


## 실습

In [86]:
data={
    "국어":[80,90,70,30],
    "영어":[90,70,60,40],
    "수학":[90,60,80,70]
}

In [1]:
#인덱스를 춘향 몽룡 향단 병자로 구성된 데이터 프레임 df를 작성하시오
df=pd.DataFrame(data, index=["춘향","몽룡","향단","병자"])
df
#모든 학생의 수학점수를 나타내시오
df["수학"]
#모든 학생의 국어와 영어 점수를 나타내시오
df[["국어","영어"]]
#모든 학생의 각 과목 평균 점수를 새로운 열로 추가하시오
df["과목평균"]=(df["국어"]+df["수학"]+df["영어"])/3
df
#병자의 영어점수를 80으로 수정하고 평균점수도 다시 수정하시오
df["영어"]["병자"]=80
df["과목평균"]=(df["국어"]+df["수학"]+df["영어"])/3
df
# 춘향의 점수를 데이터 프레임으로 나타내시오
df["춘향":"춘향"]
#향단의 점수를 Series로 나타내시오
df.loc["춘향"]

NameError: name 'pd' is not defined

## 데이터 입출력

    -read_csv()
    -to_csv()
    -read_table()

In [120]:
!pip install pandas



In [141]:
%%writefile data/example.csv
c1,c2,c3
1, 11, 111, one
2, 22, 222, two
3, 33, 333, three

Overwriting data/example.csv


In [142]:
sample1=pd.read_csv("data/example.csv") #dataframe 형으로 불러온다
sample1

Unnamed: 0,c1,c2,c3
1,11,111,one
2,22,222,two
3,33,333,three


In [143]:
%%writefile data/example2.csv
1, 11, 111, one
2, 22, 222, two
3, 33, 333, three

Overwriting data/example2.csv


In [144]:
sample2=pd.read_csv("data/example2.csv") #dataframe 형으로 불러온다
sample2
sample2=pd.read_csv("data/example2.csv",names=['c1','c2','c3']) #dataframe 형으로 불러온다
sample2

Unnamed: 0,c1,c2,c3
1,11,111,one
2,22,222,two
3,33,333,three


In [152]:
#특정한 열을 인덱스로 지정하고자 할때

sample1=pd.read_csv("data/example.csv",index_col=0)
sample1

Unnamed: 0,c1,c2,c3
1,11,111,one
2,22,222,two
3,33,333,three


In [153]:
%%writefile data/example3.txt
파일제목 : example3.txt
데이터 포맷 설명:
c1,c2,c3
1,11,111,one
2,22,222,two
3,33,333,three

Writing data/example3.txt


In [155]:
smaple3=pd.read_csv("data/example3.txt",skiprows=[0,1])
smaple3

Unnamed: 0,c1,c2,c3
1,11,111,one
2,22,222,two
3,33,333,three


In [160]:
%%writefile data/example5.csv
c1,c2,c3
1,11,111,one
2, , ,two
누락,3,33,three

Overwriting data/example5.csv


In [170]:
smaple5=pd.read_csv("data/example5.csv",na_values=["누락",' '])
df=smaple5

In [171]:
df.to_csv("data/save1.csv")
df.to_csv("data/save2.txt",sep="|")
df.to_csv("data/save3.csv",index=False,header=False)
df.to_csv("data/save4.txt",sep="|",na_rep="누락")
smaple5

Unnamed: 0,c1,c2,c3
1.0,11.0,111.0,one
2.0,,,two
,3.0,33.0,three


In [172]:

#https://fred.stlouisfed.org/series/GDP #국가 총생산
#https://fred.stlouisfed.org/series/CPIAUCSL : 소비자 가격지수
#https://fred.stlouisfed.org/series/CPILFESL : 식ㄽ품 및 연료를 제외한 소비자 가격지수

In [174]:
#!pip install pandas_datareader

Collecting pandas_datareader
  Downloading https://files.pythonhosted.org/packages/14/52/accb990baebe0063977f26e02df36aa7eb4015ed4e86f828cd76273cd6f1/pandas_datareader-0.8.1-py2.py3-none-any.whl (107kB)
Installing collected packages: pandas-datareader
Successfully installed pandas-datareader-0.8.1


In [176]:
import pandas_datareader as pdr

gdp=pdr.get_data_fred("GDP")
gdp

Unnamed: 0_level_0,GDP
DATE,Unnamed: 1_level_1
2015-04-01,18219.405
2015-07-01,18344.713
2015-10-01,18350.825
2016-01-01,18424.283
2016-04-01,18637.253
2016-07-01,18806.743
2016-10-01,18991.883
2017-01-01,19190.431
2017-04-01,19356.649
2017-07-01,19611.704


In [178]:
inflation=pdr.get_data_fred(["CPIAUCSL","CPILFESL"])
inflation

Unnamed: 0_level_0,CPIAUCSL,CPILFESL
DATE,Unnamed: 1_level_1,Unnamed: 2_level_1
2015-02-01,235.236,240.141
2015-03-01,236.005,240.739
2015-04-01,236.156,241.337
2015-05-01,236.974,241.628
2015-06-01,237.684,242.036
2015-07-01,238.053,242.504
2015-08-01,238.028,242.79
2015-09-01,237.506,243.324
2015-10-01,237.781,243.786
2015-11-01,238.016,244.33


## 고급 인덱싱 : 인덱서(indexer)

    -loc : 라벨값 기반의 2차원 인덱싱을 지원하는 인덱서
    -iloc : 순서를 나타내는 정수 기반의 2차원 인덱서   i(int)
    -ix(추천 x) 
    -at : 비슷하다 + 스칼라값(하나의 값)
    -iat

### loc

In [198]:
df=pd.DataFrame(np.arange(10,22).reshape(3,4), index=['a','b','c'],
            columns=['A','B','C','D'])
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [199]:
df.loc['a'] #행부터 접근함
print(df.loc['a'])
print(type(df.loc['a']))

df.loc['a':'b']

df.loc[df.A>15]

def select_rows(df,num):
    return df.A>num

select_rows(df,15)
df.loc[select_rows(df,15)]

A    10
B    11
C    12
D    13
Name: a, dtype: int32
<class 'pandas.core.series.Series'>


Unnamed: 0,A,B,C,D
c,18,19,20,21


In [209]:
#indexing으로 행과열을 모두 다룰경우

df["A"]['b']

df.loc['b']['A']
df.loc['b':,'A']
df.loc['a',:]
df.loc[['a','b'],["B","C"]]

#모든 행에 대해서 첫번쨰 행에 있는 값이 11보다 작거나 같은 행의 컬럼을 추출
df.loc[:,df.loc['a',:]<=11]

Unnamed: 0,A,B
a,10,11
b,14,15
c,18,19


### iloc -숫자

In [215]:
df.iloc[0]

df.iloc[:2,:3]

Unnamed: 0,A,B,C
a,10,11,12
b,14,15,16


In [218]:
df.iloc[2:3,1:3]

Unnamed: 0,B,C
c,19,20


### at,iat

In [223]:
%timeit df.loc['a','A']

6.33 µs ± 147 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [224]:
%timeit df.at['a','A']

3.97 µs ± 75.9 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


## 데이터 조작

In [238]:
#데이터 갯수
import random
a=pd.Series(range(10))
a.count()

a[3]=np.nan
a.count()   #결측치는 갯수로 세지 않는다

np.random.seed(2)
df=pd.DataFrame(np.random.randint(5, size=(4,4)), dtype=float)
print(df.count())

df.iloc[2,3] = np.nan
print(df.count())

import seaborn as sns
titanic=sns.load_dataset("titanic")
titanic.count()

0    4
1    4
2    4
3    4
dtype: int64
0    4
1    4
2    4
3    3
dtype: int64


survived       891
pclass         891
sex            891
age            714
sibsp          891
parch          891
fare           891
embarked       889
class          891
who            891
adult_male     891
deck           203
embark_town    889
alive          891
alone          891
dtype: int64

In [4]:
#카테고리별로 값 세기 : value_counts() //Series에서만 사용가능 DataFrame이면 

np.random.seed(1)

d2=pd.Series(np.random.randint(6, size=100))
d2.head(10)

d2.value_counts()
df[2].value_counts()

NameError: name 'df' is not defined

In [8]:
#정렬 : sort()_index() sort_values()
d2.value_counts().sort_index()
d2.value_counts().sort_values()
d2.value_counts().sort_values(ascending=False)  #ASC(ascending) 오름차순 

1    22
0    18
4    17
5    16
3    14
2    13
dtype: int64

In [10]:
person=pd.DataFrame({"seq":[1,3,2],"name":["park","lee","che"],"age":[30,20,40]})
person

Unnamed: 0,seq,name,age
0,1,park,30
1,3,lee,20
2,2,che,40


In [15]:
#seq기준으로 정렬
person.sort_values(by=["seq"]) #person.sort_values(by=["seq"],axis=0) 무조건 axis가 0이여야함
person.sort_values(by=["seq"],axis=0, ascending=False) 

Unnamed: 0,seq,name,age
1,3,lee,20
2,2,che,40
0,1,park,30


In [19]:
person.sort_index()
person.sort_index(axis=1)

Unnamed: 0,age,name,seq
0,30,park,1
1,20,lee,3
2,40,che,2


In [23]:
#replace
person = person.sort_values(by=['seq'])
person
#----------------------------------------
person.sort_index(axis=1,inplace=True)   #inplace는 정렬된 값을 저장하는 옵션이다 대부분의 정렬함수에 포함되는 경우가 많다
person

Unnamed: 0,age,name,seq
0,30,park,1
2,40,che,2
1,20,lee,3


In [29]:
#결측치의 위치선정
person=pd.DataFrame({"seq":[1,3,np.nan],"name":["park","lee","che"],"age":[30,20,40]})
person

person = person.sort_values(by=['seq'],na_position='first')   #nan 위치 지정 기본값은 last
person

Unnamed: 0,seq,name,age
2,,che,40
0,1.0,park,30
1,3.0,lee,20


In [30]:
#행, 열의 합계
np.random.seed(1)
df=pd.DataFrame(np.random.randint(10, size=(4,8)))
df

Unnamed: 0,0,1,2,3,4,5,6,7
0,5,8,9,5,0,0,1,7
1,6,9,2,4,5,2,4,2
2,4,7,7,9,1,7,0,6
3,9,9,7,6,9,1,0,1


In [35]:
df.sum() #defult 열
df.sum(axis=1) # 행
df["sum"]=df.sum()
df

Unnamed: 0,0,1,2,3,4,5,6,7,sum
0,5,8,9,5,0,0,1,7,24
1,6,9,2,4,5,2,4,2,33
2,4,7,7,9,1,7,0,6,25
3,9,9,7,6,9,1,0,1,24


### apply
    -행이나 열 단위로 더 복잡한 처리를 하고자 할때 사용
    -인수로 행또는 열을 받는 함수를 apply()의 인수로 넣으면 각 열(또는 행)을 반복하여 그 함수에 적용

In [36]:
df=pd.DataFrame({
    "A":[1,3,4,3,4],
    "B":[2,3,1,2,3],
    "C":[1,5,2,4,4]
})
df

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [38]:
def diff(x):
    return x.max()-x.min()
df.apply(diff)
df.apply(diff,axis=1)

0    1
1    2
2    3
3    2
4    1
dtype: int64

In [41]:
df.apply(lambda x : x.max()-x.min())

A    3
B    2
C    4
dtype: int64

In [42]:
#각 열에 대해 어떤값이 얼마나 사용되었는지 알고싶다.
#원래는 각 열마다 value_counts() 해줘야함


df=pd.DataFrame({
    "A":[np.nan,3,4,3,4],
    "B":[2,3,1,np.nan,3],
    "C":[1,5,2,np.nan,4]
})
df
df.apply(pd.value_counts).fillna(3)  #null 값을 지정한 값으로 채워줌

Unnamed: 0,A,B,C
1.0,3.0,1.0,1.0
2.0,3.0,1.0,1.0
3.0,2.0,2.0,3.0
4.0,2.0,3.0,1.0
5.0,3.0,3.0,1.0


In [56]:
#실수값(양적 데이터)을 카테고리(질적 데이터)로 변경 : cut(), qcut()

#cut 기준을 만들어 줄수 있음
ages=[0,2,10,21,23,37,31,61,20,41,32,100] #양적데이터 - 연속데이터(나이)

bin=[1,15,25,35,65,90]
label=["미성년자","청년","중년","장년","노년"] 

cut=pd.cut(x=ages, bins=bin, labels=label)
print(cut)

print(type(cut))
print(cut.categories)
print(cut.codes)

df=pd.DataFrame(ages, columns=['ages'])
df
df["age_categories"]=cut
df

[NaN, 미성년자, 미성년자, 청년, 청년, ..., 장년, 청년, 장년, 중년, NaN]
Length: 12
Categories (5, object): [미성년자 < 청년 < 중년 < 장년 < 노년]
<class 'pandas.core.arrays.categorical.Categorical'>
Index(['미성년자', '청년', '중년', '장년', '노년'], dtype='object')
[-1  0  0  1  1  3  2  3  1  3  2 -1]


Unnamed: 0,ages,age_categories
0,0,
1,2,미성년자
2,10,미성년자
3,21,청년
4,23,청년
5,37,장년
6,31,중년
7,61,장년
8,20,청년
9,41,장년


In [62]:
data=np.random.randn(1000)
cat=pd.qcut(data,4,labels=["Q1","Q2","Q3","Q4"])
pd.value_counts(cat)

Q4    250
Q3    250
Q2    250
Q1    250
dtype: int64

## 인덱스 조작
    
    set_index()
    reset_index()

In [69]:
np.random.seed(0)

df1=pd.DataFrame(np.vstack([list("ABCDE"),np.random.rand(3,5).round(2)]).T,columns=['C1','C2','C3','C4'])
df1

Unnamed: 0,C1,C2,C3,C4
0,A,0.55,0.65,0.79
1,B,0.72,0.44,0.53
2,C,0.6,0.89,0.57
3,D,0.54,0.96,0.93
4,E,0.42,0.38,0.07


In [68]:
list("ABCDE")
np.random.rand(3,5)
np.vstack([list("ABCDE"),np.random.rand(3,5).round(2)]).T

array([['A', '0.04', '0.79', '0.8'],
       ['B', '0.47', '0.8', '0.57'],
       ['C', '0.76', '0.87', '0.41'],
       ['D', '0.99', '0.31', '0.06'],
       ['E', '0.23', '0.13', '0.01']], dtype='<U32')

In [80]:
df2=df1.set_index("C1")
df2

Unnamed: 0_level_0,C2,C3,C4
C1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,0.55,0.65,0.79
B,0.72,0.44,0.53
C,0.6,0.89,0.57
D,0.54,0.96,0.93
E,0.42,0.38,0.07


In [88]:
df2.set_index("C2")
df2
df2.reset_index() # option drop=True : 기존 인덱스를 삭제하면서 가져옴


Unnamed: 0,C2,C3,C4
0,0.55,0.65,0.79
1,0.72,0.44,0.53
2,0.6,0.89,0.57
3,0.54,0.96,0.93
4,0.42,0.38,0.07


## 다중 인덱스 조작

In [100]:
np.random.seed(0)

df3=pd.DataFrame(np.random.randn(5,4).round(2),columns=[['A','A','B','B'], ['C1','C2','C3','C4']])
df3

df3.columns.names=['Cidx1','Cidx2']
df3

Cidx1,A,A,B,B
Cidx2,C1,C2,C3,C4
0,1.76,0.4,0.98,2.24
1,1.87,-0.98,0.95,-0.15
2,-0.1,0.41,0.14,1.45
3,0.76,0.12,0.44,0.33
4,1.49,-0.21,0.31,-0.85


In [134]:
np.random.seed(0)

df4=pd.DataFrame(np.random.randn(6,4).round(2),columns=[['A','A','B','B'], ['C','D','C','D']],
                index=[["M","M","M","F","F","F"],["id_"+str(i+1) for i in range(3)]*2])
df4

df4.columns.names=['Cidx1','Cidx2']
df4.index.names=["F/M","id_num"]
df4

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
F/M,id_num,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,1.76,0.4,0.98,2.24
M,id_2,1.87,-0.98,0.95,-0.15
M,id_3,-0.1,0.41,0.14,1.45
F,id_1,0.76,0.12,0.44,0.33
F,id_2,1.49,-0.21,0.31,-0.85
F,id_3,-2.55,0.65,0.86,-0.74


In [111]:
#행 인덱스와 열 인덱스 교환 : stack()-열을 행으로 바꾸어줌, unstack()-행을 열으로

df4.stack("Cidx1")
df4.stack(1)

df4.unstack("id_num")
df4.unstack("F/M")

Cidx1,A,A,A,A,B,B,B,B
Cidx2,C,C,D,D,C,C,D,D
F/M,F,M,F,M,F,M,F,M
id_num,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3
id_1,0.76,1.76,0.12,0.4,0.44,0.98,0.33,2.24
id_2,1.49,1.87,-0.21,-0.98,0.31,0.95,-0.85,-0.15
id_3,-2.55,-0.1,0.65,0.41,0.86,0.14,-0.74,1.45


In [113]:
np.random.seed(0)

df3=pd.DataFrame(np.random.randn(5,4).round(2),columns=[['A','A','B','B'], ['C1','C2','C1','C2']])
df3

df3.columns.names=['Cidx1','Cidx2']
df3

Cidx1,A,A,B,B
Cidx2,C1,C2,C1,C2
0,1.76,0.4,0.98,2.24
1,1.87,-0.98,0.95,-0.15
2,-0.1,0.41,0.14,1.45
3,0.76,0.12,0.44,0.33
4,1.49,-0.21,0.31,-0.85


In [116]:
print(df3)
print("---------------------------------")

df3["B","C2"][0]

Cidx1     A           B      
Cidx2    C1    C2    C1    C2
0      1.76  0.40  0.98  2.24
1      1.87 -0.98  0.95 -0.15
2     -0.10  0.41  0.14  1.45
3      0.76  0.12  0.44  0.33
4      1.49 -0.21  0.31 -0.85
---------------------------------


2.24

In [119]:
df3.loc[0,("B","C2")]
df3.loc[0:2,("B","C2")]

0    2.24
1   -0.15
2    1.45
Name: (B, C2), dtype: float64

In [140]:
#df4를 이용한 인덱싱
df4
#첫번째행 첫번쨰 열에있는 1.76
df4["A","C"][0]
#첫번쨰열 1.76~-2.55 까지 출력
df4["A","C"][:]
#첫번째행에 모든 컬럼값을 출력
df4.iloc[0]
#맨 마지막 행에 ALL이란 인덱스를 추가해서 각 열의 합을 출력
df4.loc[:,"ALL"]=df4.sum(axis=1)
df4

Unnamed: 0_level_0,Cidx1,A,A,B,B,ALL
Unnamed: 0_level_1,Cidx2,C,D,C,D,Unnamed: 6_level_1
F/M,id_num,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
M,id_1,1.76,0.4,0.98,2.24,16.14
M,id_2,1.87,-0.98,0.95,-0.15,5.07
M,id_3,-0.1,0.41,0.14,1.45,5.7
F,id_1,0.76,0.12,0.44,0.33,4.95
F,id_2,1.49,-0.21,0.31,-0.85,2.22
F,id_3,-2.55,0.65,0.86,-0.74,-5.34
ALL,,,,,,0.0


In [131]:
## 다중 인덱스의 인덱스 순서교환 : swaplevel(i, j, axis)
## axis의 defult 0

df5 = df4.swaplevel("F/M","id_num")
df5

df6 = df4.swaplevel("Cidx1","Cidx2",axis=1) #열 교환 axis 무조건 1
df6

Unnamed: 0_level_0,Cidx2,C,D,C,D,Unnamed: 6_level_0
Unnamed: 0_level_1,Cidx1,A,A,B,B,ALL
F/M,id_num,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
M,id_1,1.76,0.4,0.98,2.24,10.76
M,id_2,1.87,-0.98,0.95,-0.15,3.38
M,id_3,-0.1,0.41,0.14,1.45,3.8
F,id_1,0.76,0.12,0.44,0.33,3.3
F,id_2,1.49,-0.21,0.31,-0.85,1.48
F,id_3,-2.55,0.65,0.86,-0.74,-3.56


In [137]:
#정렬 : sort_index(level)

df4.sort_index(level=0)
df4.sort_index(level=0,axis=1)

Unnamed: 0_level_0,Cidx1,A,A,ALL,B,B
Unnamed: 0_level_1,Cidx2,C,D,Unnamed: 4_level_1,C,D
F/M,id_num,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
M,id_1,1.76,0.4,5.38,0.98,2.24
M,id_2,1.87,-0.98,1.69,0.95,-0.15
M,id_3,-0.1,0.41,1.9,0.14,1.45
F,id_1,0.76,0.12,1.65,0.44,0.33
F,id_2,1.49,-0.21,0.74,0.31,-0.85
F,id_3,-2.55,0.65,-1.78,0.86,-0.74


In [141]:
df_score1 = pd.DataFrame({
    "반":["A", "A", "B", "A", "B", "B", "B", "A", "B", "A"],
    "번호" : [1, 2, 1, 3, 2, 3, 4, 4, 5, 5],
    "국어" : [79, 67, 88, 68, 92, 54, 67, 88, 97, 85],
    "영어" : [55, 77, 44, 67, 86, 45, 78, 58, 90, 67],
    "수학" : [57, 45, 76, 68, 89, 67, 99, 78, 89, 90]
})
df_score1

Unnamed: 0,반,번호,국어,영어,수학
0,A,1,79,55,57
1,A,2,67,77,45
2,B,1,88,44,76
3,A,3,68,67,68
4,B,2,92,86,89
5,B,3,54,45,67
6,B,4,67,78,99
7,A,4,88,58,78
8,B,5,97,90,89
9,A,5,85,67,90


In [142]:
"""
        국어	영어	수학
반	번호	
A	1	79	55	57
2	67	77	45
3	68	67	68
4	88	58	78
5	85	67	90
B	1	88	44	76
2	92	86	89
3	54	45	67
4	67	78	99
5	97	90	89
"""

'\n        국어\t영어\t수학\n반\t번호\t\nA\t1\t79\t55\t57\n2\t67\t77\t45\n3\t68\t67\t68\n4\t88\t58\t78\n5\t85\t67\t90\nB\t1\t88\t44\t76\n2\t92\t86\t89\n3\t54\t45\t67\n4\t67\t78\t99\n5\t97\t90\t89\n'

## 데이터 프레임 병합(합성)


### merge()
    
    - 두 데이터 프레임의 공통 열 또는 인덱스를 기준으로 두 개의 테이블을 합친다
    이때 기준이 되는 열, 행의 데이터를 key라고 한다.
   

In [143]:
df1 = pd.DataFrame({
    "고객번호":[1001, 1002, 1003, 1004, 1005, 1006, 1007],
    "이름":["둘리", "도우너", "또치", "길동", "희동", "마이콜", "영희"]
})
df1

df2 = pd.DataFrame({
    "고객번호":[1001, 1001, 1005, 1006, 1008, 1001],
    "금액":[10000, 20000, 15000, 5000, 100000, 30000]
})
df2

Unnamed: 0,고객번호,금액
0,1001,10000
1,1001,20000
2,1005,15000
3,1006,5000
4,1008,100000
5,1001,30000


In [145]:
pd.merge(df1,df2) # SQL의 조인과 비슷하다

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000
1,1001,둘리,20000
2,1001,둘리,30000
3,1005,희동,15000
4,1006,마이콜,5000


In [146]:
pd.merge(df1,df2,how="left") # left outer join이랑 비슷하다

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000.0
1,1001,둘리,20000.0
2,1001,둘리,30000.0
3,1002,도우너,
4,1003,또치,
5,1004,길동,
6,1005,희동,15000.0
7,1006,마이콜,5000.0
8,1007,영희,


In [147]:
pd.merge(df1,df2,how="outer") # left outer join이랑 비슷하다

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000.0
1,1001,둘리,20000.0
2,1001,둘리,30000.0
3,1002,도우너,
4,1003,또치,
5,1004,길동,
6,1005,희동,15000.0
7,1006,마이콜,5000.0
8,1007,영희,
9,1008,,100000.0


In [148]:
df1 = pd.DataFrame({
    "품종":["setosa", "setosa", "virginica", "virginica"],
    "꽃잎길이":[1.4, 1.3, 1.5, 1.3]
})
print(df1)
print("----------------------")

df2 = pd.DataFrame({
    "품종":["setosa", "virginica", "virginica", "virsicolor"],
    "꽃잎너비":[0.4, 0.3, 0.5, 0.3]
})
print(df2)

          품종  꽃잎길이
0     setosa   1.4
1     setosa   1.3
2  virginica   1.5
3  virginica   1.3
----------------------
           품종  꽃잎너비
0      setosa   0.4
1   virginica   0.3
2   virginica   0.5
3  virsicolor   0.3


In [149]:
# 키가 여러개인 경우

df1 = pd.DataFrame({
    "고객명":["춘향", "춘향", "몽룡"],
    "날짜":["2019-01-01", "2019-01-02", "2019-01-03"], 
    "데이터":["20000", "30000", "100000"]
})

df2 = pd.DataFrame({
    "고객명":["춘향", "몽룡"],
    "데이터":["여자", "남자"]
})

In [151]:
pd.merge(df1,df2,on="고객명")

Unnamed: 0,고객명,날짜,데이터_x,데이터_y
0,춘향,2019-01-01,20000,여자
1,춘향,2019-01-02,30000,여자
2,몽룡,2019-01-03,100000,남자


In [152]:
#공통된 키가 없는 경우

df1 = pd.DataFrame({
    "이름":["영희", "철수", "철수"],
    "성적":[1, 2, 3]
})

df2 = pd.DataFrame({
    "성명":["영희", "영희", "철수"],
    "점수":[4, 5, 6]
})

In [153]:
pd.merge(df1,df2,left_on="이름",right_on="성명")

Unnamed: 0,이름,성적,성명,점수
0,영희,1,영희,4
1,영희,1,영희,5
2,철수,2,철수,6
3,철수,3,철수,6


In [2]:
#한쪽은 컬럼 한쪽은 인덱스로 되어있음
df1 = pd.DataFrame({
    '도시': ['서울', '서울', '서울', '부산', '부산'],
    '연도': [2000, 2005, 2010, 2000, 2005],
    '인구': [9853972, 9762546, 9631482, 3655437, 3512547]})
print(df1)
print("------------------------------")


df2 = pd.DataFrame(
    np.arange(12).reshape((6, 2)),
    index=[['부산', '부산', '서울', '서울', '서울', '서울'],
           [2000, 2005, 2000, 2005, 2010, 2015]],
    columns=['데이터1', '데이터2'])
print(df2)
print("------------------------------")

   도시    연도       인구
0  서울  2000  9853972
1  서울  2005  9762546
2  서울  2010  9631482
3  부산  2000  3655437
4  부산  2005  3512547
------------------------------
         데이터1  데이터2
부산 2000     0     1
   2005     2     3
서울 2000     4     5
   2005     6     7
   2010     8     9
   2015    10    11
------------------------------


In [3]:
pd.merge(df1,df2,left_on=['도시','연도'],right_index=True) #왼쪽은 두 개의 리스트가 오른쪽의 인덱스 과 같이 머지 시켜준다

Unnamed: 0,도시,연도,인구,데이터1,데이터2
0,서울,2000,9853972,4,5
1,서울,2005,9762546,6,7
2,서울,2010,9631482,8,9
3,부산,2000,3655437,0,1
4,부산,2005,3512547,2,3


In [4]:
#둘다 인덱스 인경우
df1 = pd.DataFrame(
    [[1., 2.], [3., 4.], [5., 6.]],
    index=['a', 'c', 'e'],
    columns=['서울', '부산'])
print(df1)
print("------------------------------")


df2 = pd.DataFrame(
    [[7., 8.], [9., 10.], [11., 12.], [13, 14]],
    index=['b', 'c', 'd', 'e'],
    columns=['대구', '광주'])
print(df2)
print("------------------------------")

    서울   부산
a  1.0  2.0
c  3.0  4.0
e  5.0  6.0
------------------------------
     대구    광주
b   7.0   8.0
c   9.0  10.0
d  11.0  12.0
e  13.0  14.0
------------------------------


In [7]:
pd.merge(df1,df2,left_index=True,right_index=True)
pd.merge(df1,df2,left_index=True,right_index=True,how="outer")

Unnamed: 0,서울,부산,대구,광주
a,1.0,2.0,,
b,,,7.0,8.0
c,3.0,4.0,9.0,10.0
d,,,11.0,12.0
e,5.0,6.0,13.0,14.0


In [8]:
df1.join(df2)  #머지랑 비슷한 함수이다 JOIN

Unnamed: 0,서울,부산,대구,광주
a,1.0,2.0,,
c,3.0,4.0,9.0,10.0
e,5.0,6.0,13.0,14.0


In [9]:
df1.join(df2,how='outer')

Unnamed: 0,서울,부산,대구,광주
a,1.0,2.0,,
b,,,7.0,8.0
c,3.0,4.0,9.0,10.0
d,,,11.0,12.0
e,5.0,6.0,13.0,14.0


### concat()

In [12]:
x1= pd.Series([0,1],index=["A","B"])
x2= pd.Series([0,1,2],index=["A","B","C"])

pd.concat([x1,x2])

A    0
B    1
A    0
B    1
C    2
dtype: int64

In [13]:
df1 = pd.DataFrame(
    np.arange(6).reshape(3, 2),
    index=['a', 'b', 'c'],
    columns=['데이터1', '데이터2'])
print(df1)
print("------------------------------")

df2 = pd.DataFrame(
    5 + np.arange(4).reshape(2, 2),
    index=['a', 'c'],
    columns=['데이터3', '데이터4'])
print(df2)
print("------------------------------")

   데이터1  데이터2
a     0     1
b     2     3
c     4     5
------------------------------
   데이터3  데이터4
a     5     6
c     7     8
------------------------------


In [16]:
pd.concat([df1,df2])
pd.concat([df1,df2],axis=0)
pd.concat([df1,df2],axis=1)

of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=True'.


  """Entry point for launching an IPython kernel.
of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=True'.


  
of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=True'.


  This is separate from the ipykernel package so we can avoid doing imports until


Unnamed: 0,데이터1,데이터2,데이터3,데이터4
a,0,1,5.0,6.0
b,2,3,,
c,4,5,7.0,8.0


## 피봇 테이블과 그룹 분석(ㅅㅎ)

### pivot
    
    -DataFrame.pivot(self, index=None, columns=None, values=None)

In [17]:
data = {
    "도시": ["서울", "서울", "서울", "부산", "부산", "부산", "인천", "인천"],
    "연도": ["2015", "2010", "2005", "2015", "2010", "2005", "2015", "2010"],
    "인구": [9904312, 9631482, 9762546, 3448737, 3393191, 3512547, 2890451, 263203],
    "지역": ["수도권", "수도권", "수도권", "경상권", "경상권", "경상권", "수도권", "수도권"]
}
df=pd.DataFrame(data)
df

Unnamed: 0,도시,연도,인구,지역
0,서울,2015,9904312,수도권
1,서울,2010,9631482,수도권
2,서울,2005,9762546,수도권
3,부산,2015,3448737,경상권
4,부산,2010,3393191,경상권
5,부산,2005,3512547,경상권
6,인천,2015,2890451,수도권
7,인천,2010,263203,수도권


In [28]:
# 각 도시에서 연도별로 인구수를 알고 싶다.

df.pivot(index="도시", columns="연도",values="인구")
df.pivot("도시","연도","인구")

df.set_index(["도시","연도"])[["인구"]].unstack()

Unnamed: 0_level_0,인구,인구,인구
연도,2005,2010,2015
도시,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


### groupby
    -특정 조건에 맞는 데이터가 하나 이상, 즉 그룹을 이루는 경우에 사용
    pivot() 와는 달리 키에 의해서 결정되는 데이터가 여러 개 있어도 괜찮다.
    
    -DataFrame.groupby(self, by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=False, observed=False, **kwargs)
    
    - 그룹 연산 메서드
        size() count() : 갯수
        mean(), median(), min(), max()
        sum()-합, prod()-곱, std()-표준편차, var()-분산,quantile()-사분위수
        first(),last()
        agg(),aggregate()
        apply()
        describe()
        transfrom()

In [29]:
df2 = pd.DataFrame({
    "key1":["A", "A", "B", "B", "A"],
    "key2":["one", "two", "one", "two", "one"],
    "data1":[1, 2, 3, 4, 5],
    "data2":[10, 20, 30, 40, 50]
})
df2

Unnamed: 0,key1,key2,data1,data2
0,A,one,1,10
1,A,two,2,20
2,B,one,3,30
3,B,two,4,40
4,A,one,5,50


In [32]:
k1=df2.groupby(by="key1")
k1.sum()

Unnamed: 0_level_0,data1,data2
key1,Unnamed: 1_level_1,Unnamed: 2_level_1
A,8,80
B,7,70


In [43]:
print(df2.groupby(df2.key1).sum())
print("-------------------------------------")
print(df2.data1.groupby(df2.key1).sum())
print("-------------------------------------")
print(df2.groupby(df2.key1)["data1"].sum())
print("-------------------------------------")
print(df2.groupby(df2.key1).sum()["data1"])
print("-------------------------------------")
print(df2.groupby(df2.key1).sum()[["data1"]])

      data1  data2
key1              
A         8     80
B         7     70
-------------------------------------
key1
A    8
B    7
Name: data1, dtype: int64
-------------------------------------
key1
A    8
B    7
Name: data1, dtype: int64
-------------------------------------
key1
A    8
B    7
Name: data1, dtype: int64
-------------------------------------
      data1
key1       
A         8
B         7


In [46]:
df2.data1.groupby([df2.key1,df2.key2]).sum()
df2.data1.groupby([df2.key1,df2.key2]).sum().unstack()

key2,one,two
key1,Unnamed: 1_level_1,Unnamed: 2_level_1
A,6,2
B,3,4


In [47]:
"""
# 연도 2005, 2010, 2015
#지역
경상권....
수도권...
"""


'\n# 연도 2005, 2010, 2015\n#지역\n경상권....\n수도권...\n'

In [60]:
#groupby
dfd=pd.DataFrame(data)
df.인구.groupby([dfd.지역,dfd.연도]).sum().unstack()

연도,2005,2010,2015
지역,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
경상권,3512547,3393191,3448737
수도권,9762546,9894685,12794763


In [2]:
import seaborn as sns
irls=sns.load_dataset("iris")
irls.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [65]:
# 각 부꽃별로 가장 큰값과 가장 작은값의 비율로 구해보자.

def pick_to_pick_ratis(a):
    return a.max()/a.min()
print(irls.groupby(irls.species).agg(pick_to_pick_ratis))
print("-----------------------------------------------------------")
print(irls.groupby(irls.species).apply(pick_to_pick_ratis))

            sepal_length  sepal_width  petal_length  petal_width
species                                                         
setosa          1.348837     1.913043      1.900000     6.000000
versicolor      1.428571     1.700000      1.700000     1.800000
virginica       1.612245     1.727273      1.533333     1.785714
-----------------------------------------------------------
            petal_length  petal_width  sepal_length  sepal_width
species                                                         
setosa          1.900000     6.000000      1.348837     1.913043
versicolor      1.700000     1.800000      1.428571     1.700000
virginica       1.533333     1.785714      1.612245     1.727273


In [67]:
# 각 붓꽃별로 가장 꽃잎 길이가 작은것 3개의 데이터를 추출하시오.

def min3(df):
    return df.sort_values(by="petal_length")[:3]

print(irls.groupby(irls.species).apply(min3))
print("-------------------------------------------------------------")
print(irls.groupby(irls.species).agg(min3))

#apply같은 경우 특정행이나 열에 적용됨
#aggregate(agg)는 모든 행이나 열에 대하여 적용됨

                sepal_length  sepal_width  petal_length  petal_width  \
species                                                                
setosa     22            4.6          3.6           1.0          0.2   
           13            4.3          3.0           1.1          0.1   
           14            5.8          4.0           1.2          0.2   
versicolor 98            5.1          2.5           3.0          1.1   
           93            5.0          2.3           3.3          1.0   
           57            4.9          2.4           3.3          1.0   
virginica  106           4.9          2.5           4.5          1.7   
           126           6.2          2.8           4.8          1.8   
           138           6.0          3.0           4.8          1.8   

                   species  
species                     
setosa     22       setosa  
           13       setosa  
           14       setosa  
versicolor 98   versicolor  
           93   versicolor  
    

ValueError: Shape of passed values is (3, 5), indices imply (3, 4)

In [6]:
#어떻게 적용되는 지 알아보자
def agg_apply_test(df):
    return 1

g=irls.groupby("species")

print(g.apply(agg_apply_test))
print("------------------------------")
print(g.agg(agg_apply_test))
print("------------------------------")

species
setosa        1
versicolor    1
virginica     1
dtype: int64
------------------------------
            sepal_length  sepal_width  petal_length  petal_width
species                                                         
setosa               1.0          1.0           1.0          1.0
versicolor           1.0          1.0           1.0          1.0
virginica            1.0          1.0           1.0          1.0
------------------------------


In [7]:
irls.groupby("species").agg([np.sum, np.mean, np.std])

Unnamed: 0_level_0,sepal_length,sepal_length,sepal_length,sepal_width,sepal_width,sepal_width,petal_length,petal_length,petal_length,petal_width,petal_width,petal_width
Unnamed: 0_level_1,sum,mean,std,sum,mean,std,sum,mean,std,sum,mean,std
species,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2
setosa,250.3,5.006,0.35249,171.4,3.428,0.379064,73.1,1.462,0.173664,12.3,0.246,0.105386
versicolor,296.8,5.936,0.516171,138.5,2.77,0.313798,213.0,4.26,0.469911,66.3,1.326,0.197753
virginica,329.4,6.588,0.63588,148.7,2.974,0.322497,277.6,5.552,0.551895,101.3,2.026,0.27465


In [10]:

irls.groupby("species").describe().T

Unnamed: 0,species,setosa,versicolor,virginica
petal_length,count,50.0,50.0,50.0
petal_length,mean,1.462,4.26,5.552
petal_length,std,0.173664,0.469911,0.551895
petal_length,min,1.0,3.0,4.5
petal_length,25%,1.4,4.0,5.1
petal_length,50%,1.5,4.35,5.55
petal_length,75%,1.575,4.6,5.875
petal_length,max,1.9,5.1,6.9
petal_width,count,50.0,50.0,50.0
petal_width,mean,0.246,1.326,2.026


In [17]:
def func_cut(df):
    return pd.qcut(df,3,labels=["대","중","소"])

irls.head()

irls["petal_length_class"]=irls.groupby(irls.species)["petal_length"].apply(func_cut)
irls.head()

irls["petal_length_class"]=irls.groupby(irls.species)["petal_length"].transform(func_cut)
irls.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species,petal_length_class
0,5.1,3.5,1.4,0.2,setosa,대
1,4.9,3.0,1.4,0.2,setosa,대
2,4.7,3.2,1.3,0.2,setosa,대
3,4.6,3.1,1.5,0.2,setosa,중
4,5.0,3.6,1.4,0.2,setosa,대


In [104]:
df = pd.DataFrame({
    'city': ['부산', '부산', '부산', '부산', '서울', '서울', '서울'],
    'fruits': ['apple', 'orange', 'banana', 'banana', 'apple', 'apple', 'banana'],
    'price': [100, 200, 250, 300, 150, 200, 400],
    'quantity': [1, 2, 3, 4, 5, 6, 7]
})
df

#도시별로 과일의 가격 평균과 수량 평균을 구하시오
df.groupby(["city"]).mean()
#도시별 과일별 가격평균과 수량평균을 구해보시오
df.groupby(["city","fruits"]).mean()
#groupby라벨을 인덱스로 하고싶지 않을 경우
df.groupby(["city","fruits"], as_index=False).mean()
#가격의 평균과 수량의 합계를 동시에 구하고자 했을 떄
df.groupby('city').agg({'price': "mean", 'quantity': "sum"})

Unnamed: 0_level_0,price,quantity
city,Unnamed: 1_level_1,Unnamed: 2_level_1
부산,212.5,10
서울,250.0,18


### pivot_table()

    -.pivot_table(self, values=None, index=None, columns=None, aggfunc='mean', fill_value=None, margins=False, dropna=True, margins_name='All', observed=False)
    
       -data : 분석할 데이터 프레임 
       -values : 분석할 데이터 프레임에서 분석할 열
       -aggfunc : 분석 매서드
       -fill_value : NaN 대체값
       -dropna: NaN에 해당되는 값을 버릴지 여부
       -margins : 행과 열 끝에 소개 추가

In [38]:
data = {
    "도시": ["서울", "서울", "서울", "부산", "부산", "부산", "인천", "인천"],
    "연도": ["2015", "2010", "2005", "2015", "2010", "2005", "2015", "2010"],
    "인구": [9904312, 9631482, 9762546, 3448737, 3393191, 3512547, 2890451, 263203],
    "지역": ["수도권", "수도권", "수도권", "경상권", "경상권", "경상권", "수도권", "수도권"]
}
df=pd.DataFrame(data)
df

df.pivot("도시","연도","인구")

연도,2005,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


In [47]:
df.pivot_table("인구","도시","연도")
pd.pivot_table(df,"인구","도시","연도",aggfunc="mean",margins=True,margins_name="합계",
              fill_value=0)

연도,2005,2010,2015,합계
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
부산,3512547,3393191,3448737,3451492.0
서울,9762546,9631482,9904312,9766113.0
인천,0,263203,2890451,1576827.0
합계,6637546,4429292,5414500,5350809.0


In [49]:
df.pivot_table("인구",index=["연도","도시"])

Unnamed: 0_level_0,Unnamed: 1_level_0,인구
연도,도시,Unnamed: 2_level_1
2005,부산,3512547
2005,서울,9762546
2010,부산,3393191
2010,서울,9631482
2010,인천,263203
2015,부산,3448737
2015,서울,9904312
2015,인천,2890451


## 활용 예제

In [53]:
# Tip 데이터: 식사 대금 대비 팁의 비율이 어떤 경우에 가장 높아지는지를 찾는 데이터
import seaborn as sns
tips = sns.load_dataset("tips")
tips.head()
#tips.tail()
#tips.describe()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


In [105]:
# 식사 대금과 팁의 비율을 나타내는 tip_pct를 추가
tips["tip_pct"]=(tips.tip/tips.total_bill*100).round(2)
print(tips.head())
print("-------------------------------")
#성별로 인원수 파악
tips_by_sex=tips.groupby("sex")["size"].sum()
print(tips.groupby("sex")["size"].sum())
print("-------------------------------")

#성별, 흡연유무별로 인원수 파악
tips_by_sex_smok=tips.groupby(["sex","smoker"])["size"].sum()
print(tips.groupby(["sex","smoker"])["size"].sum())
print("-------------------------------")

#위의 두 정보를 하나의 테이블로 출력
print(pd.pivot_table(tips,"size","sex","smoker", aggfunc="sum", margins=True))
print("-------------------------------")

#성별에 따른 평균 팁 비율
print(tips.groupby("sex")["tip_pct"].mean().round(2))
print("-------------------------------")

#흡연 여부에 따른 팁 비율
print(tips.groupby("smoker")["tip_pct"].mean().round(2))
print("-------------------------------")

#위의 정보를 하나의 테이블로 구현
print(pd.pivot_table(tips,"tip_pct","sex","smoker",aggfunc="mean",margins=True).round(2))
print("-------------------------------")

#팁의 비율이 요일과 점심/저녁 여부, 인원수에 어떤 영향을 받는지 살펴보자.
print(tips.groupby(["day","time","size"])["tip"].mean())
print("-------------------------------")
#성별 흡연 유무별로 가장 많은 팁과 가장적은 팁의 차이
print(tips.groupby(["sex","smoker"])["tip"].max()-tips.groupby(["sex","smoker"])["tip"].min())

   total_bill   tip     sex smoker  day    time  size  tip_pct
0       16.99  1.01  Female     No  Sun  Dinner     2     5.94
1       10.34  1.66    Male     No  Sun  Dinner     3    16.05
2       21.01  3.50    Male     No  Sun  Dinner     3    16.66
3       23.68  3.31    Male     No  Sun  Dinner     2    13.98
4       24.59  3.61  Female     No  Sun  Dinner     4    14.68
-------------------------------
sex
Male      413
Female    214
Name: size, dtype: int64
-------------------------------
sex     smoker
Male    Yes       150
        No        263
Female  Yes        74
        No        140
Name: size, dtype: int64
-------------------------------
smoker   No  Yes  All
sex                  
Female  140   74  214
Male    263  150  413
All     403  224  627
-------------------------------
sex
Male      15.76
Female    16.65
Name: tip_pct, dtype: float64
-------------------------------
smoker
Yes    16.32
No     15.93
Name: tip_pct, dtype: float64
-------------------------------
smoker

SyntaxError: invalid syntax (<ipython-input-83-8bfbee6ac19b>, line 2)