## Pandas에서 제공하는 대표적인 자료구조 

    1) Series : 하나의 열 (데이터프레임을 구성하는 최소단위)
        값 + index
    
    2) DataFrame : 시리즈가 모이면 데이터프레임
        여러 개의 Series를 묶어 놓은 형태
        
    3) https://pandas.pydata.org





In [2]:
import pandas as pd 
import numpy as np

### Series  p.58-68

In [4]:
s=pd.Series([9904312, 3448737, 2890451,2466052])
print(s)
print(type(s))

0    9904312
1    3448737
2    2890451
3    2466052
dtype: int64
<class 'pandas.core.series.Series'>


In [6]:
for i in enumerate([9904312, 3448737, 2890451,2466052]):
    print(i)

(0, 9904312)
(1, 3448737)
(2, 2890451)
(3, 2466052)


In [16]:
# 인덱스를 자유롭게 지정
s=pd.Series([9904312, 3448737, 2890451,2466052], 
            index=["서울", "부산", "인천", "대구"])
print(s)

print("----------------------------------------------------------")

print(s.values, type(s.values)) # 값만 따로 뽑아오는 / 자동으로 배열로 바뀐다 .
print(s.index)
print("----------------------------------------------------------")

s.index.name = "도시" #인덱스의 이름 지정
print(s)
s.name = "인구"#시리즈 전체에다가 이름을 지정
print(s)

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64
----------------------------------------------------------
[9904312 3448737 2890451 2466052] <class 'numpy.ndarray'>
Index(['서울', '부산', '인천', '대구'], dtype='object')
----------------------------------------------------------
도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64
도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64


In [17]:
# 벡터화 연산 (벡터와 벡터끼리 계산 / 리스트는 불가능하지만 배열은 가능하다 - 브로드캐스팅)
s1 =s / 1000000 #인덱스에는 영향이 없고 값에만 영향을 준다. 
print(s1)

도시
서울    9.904312
부산    3.448737
인천    2.890451
대구    2.466052
Name: 인구, dtype: float64


In [26]:
# 인덱싱 

print(s[1]) #부산의 인구 수
print(s["부산"]) # 인덱스 이름으로 접근 가능 
print("------------------------------")
print(s[[0, 3, 1]]) # 순서도 마음대로 가능 원하는 행만 뽑아오는 것도 가능
print(s[["서울","대구","부산"]]) # 인덱스 이름으로도 마찬가지로 접근 가능 
print("------------------------------")
print(s[(s>250e4) & (s<500e4)])  
print("------------------------------")
print(s[1:3])
print(s["부산":"대구"]) #인덱스로하면 n-1할 필요가 없다.
print("------------------------------")
print(s.부산,",",s.서울) #[]를 쓰지않고 .을이용해서 접근 가능 

3448737
3448737
------------------------------
도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64
도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64
------------------------------
도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64
------------------------------
도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64
도시
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64
------------------------------
3448737 , 9904312


In [33]:
# Series와 dict 

print("서울" in s) # 키 값으로 검색 가능 
print("대전" in s)
print("------------------------------")
print(s.items())
for item in s.items():
    print(item)
for k,v in s.items(): #언박싱
    print("%s=%d"%(k,v))
print("------------------------------")    

s2= pd.Series({"서울":9631482,"부산":3448737, "인천":2632035, "대전":1490158})
print(s2)



True
False
------------------------------
<zip object at 0x0000026E245CED00>
('서울', 9904312)
('부산', 3448737)
('인천', 2890451)
('대구', 2466052)
서울=9904312
부산=3448737
인천=2890451
대구=2466052
------------------------------
서울    9631482
부산    3448737
인천    2632035
대전    1490158
dtype: int64


In [39]:
#인덱스 기반 연산 

print(s)
print("-----------------------------")
print(s2)
print("-----------------------------")

ds = s-s2 #인덱스가 달라 서로 뺄 수 없는 것은 NaN 
print(ds)

print("-----------------------------")

print(s.values - s2.values) #인덱스와 상관없이 순서대로 계산 

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64
-----------------------------
서울    9631482
부산    3448737
인천    2632035
대전    1490158
dtype: int64
-----------------------------
대구         NaN
대전         NaN
부산         0.0
서울    272830.0
인천    258416.0
dtype: float64
-----------------------------
[272830      0 258416 975894]


In [51]:
# 결측치 제거 
print(ds)
print("-----------------------------")
print(ds.notnull())
print("-----------------------------")
print(ds[ds.notnull()]) #결측치값을 제외하고 가져오기
print("-----------------------------")

#인구 증가율 : (끝연도 - 시작연도 / 시작연도 * 100)
ds2= (s2-s)/s*100
print(ds2)
print("-----------------------------")
ds2=ds2[ds2.notnull()]
print(ds2)

대구         NaN
대전         NaN
부산         0.0
서울    272830.0
인천    258416.0
dtype: float64
-----------------------------
대구    False
대전    False
부산     True
서울     True
인천     True
dtype: bool
-----------------------------
부산         0.0
서울    272830.0
인천    258416.0
dtype: float64
-----------------------------
대구         NaN
대전         NaN
부산    0.000000
서울   -2.754659
인천   -8.940335
dtype: float64
-----------------------------
부산    0.000000
서울   -2.754659
인천   -8.940335
dtype: float64


In [55]:
# 데이터를 수정, 삭제, 갱신 

ds2["부산"] = 1.63
print(ds2)
print("-----------------------------")
ds2["대구"] = 1.41
print(ds2)
print("-----------------------------")
del ds2["서울"]
print(ds2)

부산    1.630000
서울   -2.754659
인천   -8.940335
대구    1.410000
dtype: float64
-----------------------------
부산    1.630000
서울   -2.754659
인천   -8.940335
대구    1.410000
dtype: float64
-----------------------------
부산    1.630000
인천   -8.940335
대구    1.410000
dtype: float64


### DataFrame

In [3]:
data = {
    "2015": [9904312, 3448737, 2890451, 2466052],
    "2010": [9631482, 3393191, 2632035, 2431774],
    "2005": [9762546, 3512547, 2517680, 2456016],
    "2000": [9853972, 3655437, 2466338, 2473990],
    "지역": ["수도권", "경상권", "수도권", "경상권"],
    "2010-2015 증가율": [0.0283, 0.0163, 0.0982, 0.0141]
}

In [58]:
print(type(data))
print(data)

<class 'dict'>
{'2015': [9904312, 3448737, 2890451, 2466052], '2010': [9631482, 3393191, 2632035, 2431774], '2005': [9762546, 3512547, 2517680, 2456016], '2000': [9853972, 3655437, 2466338, 2473990], '지역': ['수도권', '경상권', '수도권', '경상권'], '2010-2015 증가율': [0.0283, 0.0163, 0.0982, 0.0141]}


In [7]:
df=pd.DataFrame(data)
print(type(df))
#print(df)
df

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,2015,2010,2005,2000,지역,2010-2015 증가율
0,9904312,9631482,9762546,9853972,수도권,0.0283
1,3448737,3393191,3512547,3655437,경상권,0.0163
2,2890451,2632035,2517680,2466338,수도권,0.0982
3,2466052,2431774,2456016,2473990,경상권,0.0141


In [8]:
# 컬럼의 위치 변경
cols = ["지역","2015","2010","2005","2000","2010-2015 증가율"]
df=pd.DataFrame(data, columns=cols)
df

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
0,수도권,9904312,9631482,9762546,9853972,0.0283
1,경상권,3448737,3393191,3512547,3655437,0.0163
2,수도권,2890451,2632035,2517680,2466338,0.0982
3,경상권,2466052,2431774,2456016,2473990,0.0141


In [9]:
# 인덱스 변경
idx = ["서울", "부산", " 인천", "대구"]
df=pd.DataFrame(data, columns=cols, index=idx) #index를 생략하면 0,1,2,....
df
#시리즈들이 가지고 있는 특징들을 데이터프레임역시 가지고 있다.

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [11]:
#값만 뽑아내기
print(df.values)
#컬럼 이름만 뽑아내기
print(df.columns)

[['수도권' 9904312 9631482 9762546 9853972 0.0283]
 ['경상권' 3448737 3393191 3512547 3655437 0.0163]
 ['수도권' 2890451 2632035 2517680 2466338 0.0982]
 ['경상권' 2466052 2431774 2456016 2473990 0.0141]]
Index(['지역', '2015', '2010', '2005', '2000', '2010-2015 증가율'], dtype='object')


In [13]:
# 컬럼과 인덱스 이름 붙이기 
df.index.name = "도시"
df.columns.name="특성"
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [14]:
# 전치 가능
df.T

도시,서울,부산,인천,대구
특성,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
지역,수도권,경상권,수도권,경상권
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2431774
2005,9762546,3512547,2517680,2456016
2000,9853972,3655437,2466338,2473990
2010-2015 증가율,0.0283,0.0163,0.0982,0.0141


In [20]:
# 열 인덱싱 

print(df)
print("-----------------------------------")
#지역이라는 열에 접근
print(df["지역"]) #하나의 열은 시리즈!!!
print(type(df["지역"]))
print("-----------------------------------")
print(df[["지역"]])
print(type(df[["지역"]])) #[] 를 하나 더 묶어주면 데이터프레임으로 뽑아 낼 수 있다. / 시리즈는 1차원배열이기 때문에
print("-----------------------------------")
df["2015"]
#df["2015","2010"] 시리즈가 두개 이상 묶이면 에러 
df[["2015", "2010"]] #두개 이상을 선택할 때에는 무조건 데이터프레임으로 뽑아내야한다.
print("-----------------------------------")
#df[0] 숫자로는 접근 불가
#df["2010":"2000"] 슬라이싱도 불가
  

특성    지역     2015     2010     2005     2000  2010-2015 증가율
도시                                                         
서울   수도권  9904312  9631482  9762546  9853972         0.0283
부산   경상권  3448737  3393191  3512547  3655437         0.0163
 인천  수도권  2890451  2632035  2517680  2466338         0.0982
대구   경상권  2466052  2431774  2456016  2473990         0.0141
-----------------------------------
도시
서울     수도권
부산     경상권
 인천    수도권
대구     경상권
Name: 지역, dtype: object
<class 'pandas.core.series.Series'>
-----------------------------------
특성    지역
도시      
서울   수도권
부산   경상권
 인천  수도권
대구   경상권
<class 'pandas.core.frame.DataFrame'>
-----------------------------------


특성,2015,2010
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774


In [25]:
#행 인덱싱  (2개 이상 데어티를 뽑아올 때 반드시 : 으로 슬라이싱해야한다.)
print(df[:]) #모든행
print("-----------------------------------")
print(df[:1])
print("-----------------------------------")
print(df[1:2])
print("-----------------------------------")
print(df["서울":"부산"])

특성    지역     2015     2010     2005     2000  2010-2015 증가율
도시                                                         
서울   수도권  9904312  9631482  9762546  9853972         0.0283
부산   경상권  3448737  3393191  3512547  3655437         0.0163
 인천  수도권  2890451  2632035  2517680  2466338         0.0982
대구   경상권  2466052  2431774  2456016  2473990         0.0141
-----------------------------------
특성   지역     2015     2010     2005     2000  2010-2015 증가율
도시                                                        
서울  수도권  9904312  9631482  9762546  9853972         0.0283
-----------------------------------
특성   지역     2015     2010     2005     2000  2010-2015 증가율
도시                                                        
부산  경상권  3448737  3393191  3512547  3655437         0.0163
-----------------------------------
특성   지역     2015     2010     2005     2000  2010-2015 증가율
도시                                                        
서울  수도권  9904312  9631482  9762546  9853972         0.0283
부

In [31]:
# 동시에 행과 열에 접근하는 방법
#데이터프레임에서는 열이 우선이기 때문에 열에 먼저 접근 
df["2005"]["서울"]
print("-----------------------------------")
#2005년도와 2010년도의 서울 인구
df[["2005", "2010"]][:"서울"]


-----------------------------------


특성,2005,2010
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,9762546,9631482


In [36]:
# 열 데이터 갱신, 추가, 삭제 
#수정 
df["2010-2015 증가율"] = df["2010-2015 증가율"] *100
df
df["2005-2010 증가율"] = ((df["2010"]-df["2005"])/df["2005"]*100).round(2)
df

del df["2010-2015 증가율"]
df

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,-1.34
부산,경상권,3448737,3393191,3512547,3655437,-3.4
인천,수도권,2890451,2632035,2517680,2466338,4.54
대구,경상권,2466052,2431774,2456016,2473990,-0.99


### 실습


In [81]:
data = {
    "국어" : [80, 90, 70, 30],
    "영어" : [90, 70, 60, 40],
    "수학" : [90, 60, 80, 70]
}


In [82]:
# 1. 인덱스를 춘향,몽룡, 향단, 방자로 구성된 데이터 프레임 df를 작성
cols = ["국어", "영어", "수학"]
name = ["춘향", "몽룡", "향단", "방자"]
df=pd.DataFrame(data, index= name, columns=cols)
df

Unnamed: 0,국어,영어,수학
춘향,80,90,90
몽룡,90,70,60
향단,70,60,80
방자,30,40,70


In [83]:
# 모든 학생의 수학점수를 나타내시오
print(df["수학"])

춘향    90
몽룡    60
향단    80
방자    70
Name: 수학, dtype: int64


In [84]:
#모든 학생의 국어와 영어점수를 나타내시오
print(df[["국어","영어"]])

    국어  영어
춘향  80  90
몽룡  90  70
향단  70  60
방자  30  40


In [85]:
#모든 학생의 각 과목 평균 점수를 새로운 열로 추가하시오
#df["평균 점수"] = ((df["국어"]+df["수학"]+df["영어"])/3).round(2)
#df
df["평균 점수"] = (df[:].mean(axis=1)).round(2)
df

Unnamed: 0,국어,영어,수학,평균 점수
춘향,80,90,90,86.67
몽룡,90,70,60,73.33
향단,70,60,80,70.0
방자,30,40,70,46.67


In [88]:
# 방자의 영어점수를 80점으로 수정하고 평균점수도 다시 수정하시오.
df["영어"]["방자"] = 80
#df["평균 점수"] = ((df["국어"]+df["수학"]+df["영어"])/3).round(2)
#df
df["평균 점수"]["방자"] = (df[["국어","영어","수학"]]["방자":"방자"].mean(axis=1)).round(2)
df

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df["영어"]["방자"] = 80
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df["평균 점수"]["방자"] = (df[["국어","영어","수학"]]["방자":"방자"].mean(axis=1)).round(2)


Unnamed: 0,국어,영어,수학,평균 점수
춘향,80,90,90,86.67
몽룡,90,70,60,73.33
향단,70,60,80,70.0
방자,30,80,70,60.0


In [100]:
#춘향의 점수를 데이터 프레임으로 나타내시오
print(df[:1])
print(type(df[:1]))

    국어  영어  수학  평균 점수
춘향  80  90  90  86.67
    국어  영어  수학  평균 점수
춘향  80  90  90  86.67
<class 'pandas.core.frame.DataFrame'>


In [98]:
#향단의 점수를 Series로 나타내시오.
print(df.T["향단"])
print(type(df.T["향단"]))

국어       70.0
영어       60.0
수학       80.0
평균 점수    70.0
Name: 향단, dtype: float64
<class 'pandas.core.series.Series'>


In [104]:
#향단의 점수를 Series로 나타내시오
result = pd.Series([i for i in df["향단":"향단"].values],index=[i for i in df[2:3].index])
result


pandas.core.series.Series

### 데이터 입출력  기능 

+ read_csv() -읽어올 때
+ to_csv() - 저장할 때
+ read_table() -읽어올 때

In [105]:
%%writefile data/sample1.csv
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three


Writing data/sample1.csv


In [106]:
sample1 = pd.read_csv("data/sample1.csv")
sample1

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [107]:
%%writefile data/sample2.csv
1, 1.11, one
2, 2.22, two
3, 3.33, three


Writing data/sample2.csv


In [108]:
sample2 = pd.read_csv("data/sample2.csv", names=["c1","c2","c3"])
sample2

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [109]:
# 특정한 열을 인덱스로 지정할 수 있다.

sample3 = pd.read_csv("data/sample1.csv", index_col="c1") #c1이 인덱스로 잡힘
sample3

Unnamed: 0_level_0,c2,c3
c1,Unnamed: 1_level_1,Unnamed: 2_level_1
1,1.11,one
2,2.22,two
3,3.33,three


In [110]:
%%writefile data/sample3.txt
c1      c2      c3       c4
0.23    0.33    0.354    0.2389
0.123   0.345   0.567    0.986

Writing data/sample3.txt


In [111]:
sample3=pd.read_table("data/sample3.txt", sep="\s+") #정규표현식 사용 가능
sample3

Unnamed: 0,c1,c2,c3,c4
0,0.23,0.33,0.354,0.2389
1,0.123,0.345,0.567,0.986


In [112]:
%%writefile data/sample4.txt
파일 제목 : sample4.txt
데이터 포맷의 설명 : 
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three

Writing data/sample4.txt


In [115]:
#sample4 = pd.read_csv("data/sample4.txt", skiprows=[0, 1])
sample4 = pd.read_csv("data/sample4.txt", skiprows=2)
sample4

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [118]:
%%writefile data/sample5.csv
c1, c2, c3
1, 1.11, 
2, ,two
누락, 3.33, three

Overwriting data/sample5.csv


In [119]:
sample5 = pd.read_csv("data/sample5.csv", na_values=[" ", "누락"])
sample5

Unnamed: 0,c1,c2,c3
0,1.0,1.11,
1,2.0,,two
2,,3.33,three


In [128]:
# csv로 저장 
df.to_csv("data/sample6.csv")
df.to_csv("data/sample7.txt", sep="|")
df.to_csv("data/sample8.csv", index=False, header=False)
sample5.to_csv("data/sample9.csv", sep=":", na_rep="누락")

In [126]:
sample5

Unnamed: 0,c1,c2,c3
0,1.0,1.11,
1,2.0,,two
2,,3.33,three


### Indexer : 인덱스를 해준는 애들
+ 행이 우선이다


+ loc    : 라벨값 기반의 2차원 인덱싱을 지원하는 인덱서
+ iloc   : 순서를 나타내는 정수기반의 인덱서
+ ix     
+ at     : 값을 하나만 뽑을 때 사용 / loc
+ iat    : 값을 하나만 뽑을 때 사용 / iloc
 

#### loc 

In [131]:
df = pd.DataFrame(np.arange(10, 22).reshape(3, 4),index=["a", "b", "c"], columns=["A", "B", "C","D"])
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [141]:
# 첫번째 행 추출
print(df[:1])
print(df[:"a"])

print("--------")

print(df.loc["a"])
print(type(df.loc["a"]))

print("--------")

print(df.loc[df.A > 15])

print("--------")

def select_row(df, num):
    return df.A > num

print(df.loc[select_row(df, 15)])




    A   B   C   D
a  10  11  12  13
    A   B   C   D
a  10  11  12  13
--------
A    10
B    11
C    12
D    13
Name: a, dtype: int32
<class 'pandas.core.series.Series'>
--------
    A   B   C   D
c  18  19  20  21
--------
    A   B   C   D
c  18  19  20  21


In [162]:
### 행과 열을 모두 받을 경우

# a행 A열에 있는 하나의 값 추출 
print(df["A"]["a"]) #기본 인덱스 방식
#print(df["A","a"]) #기본 인덱스 방식에서는 불가능 

print("----------------------------------")

print(df.loc["a"]["A"])
print(df.loc["a","A"])

print("----------------------------------")

print(df.loc["b":, "B":]) #행과 열에 모두 슬라이싱을 할 수있다. 
print(df.loc[["a","c"],["B","C"]]) #특정행과 열만 뽑아오는 것도 가능하다. 

#모든 행에 대해서 첫번째 행에 있는 값이 11보다 작거나 같은 행의 컬럼들을 추출

print(df.loc[:, df.loc["a",:]<= 11])


10
----------------------------------
10
10
----------------------------------
    B   C   D
b  15  16  17
c  19  20  21
    B   C
a  11  12
c  19  20
    A   B
a  10  11
b  14  15
c  18  19


#### iloc

In [182]:
#df[1] 
#df["A"]

#df.loc[0,1]
df.iloc[0,1] #반복문이나 프로그래밍할 때 주로 사용 
#df.iloc["a","B"]
print(df.iloc[:2,2])
print(df.iloc[0,-2:])

"""
    B  C
c   19 20 
"""
print(df.iloc[2:3,1:3])

res=df.iloc[2, 1:3]
print((pd.DataFrame(res)).T)

df.iloc[[2], [1, 2]]

a    12
b    16
Name: C, dtype: int32
C    12
D    13
Name: a, dtype: int32
    B   C
c  19  20
    B   C
c  19  20


Unnamed: 0,B,C
c,19,20


#### at

In [187]:
%timeit df.loc["a","A"]
%timeit df.at["a","A"]

5.97 µs ± 22.4 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
3.61 µs ± 27.5 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


----
### 데이터 조작 

In [204]:
### 데이터 갯수 세기

s = pd.Series(range(10))
s.count()

s[3]=np.nan
s.count() #결측치는 제외하고 카운트

print("---------------------------------------------")

np.random.seed(2)
df=pd.DataFrame(np.random.randint(5, size=(4,4)),dtype=float)
df
df.count() #시리즈의 합

df.iloc[2,3] = np.nan
df.count()

#titanic
import seaborn  as sns
titanic = sns.load_dataset("titanic")
titanic.head()
titanic.count() 

---------------------------------------------


survived       891
pclass         891
sex            891
age            714
sibsp          891
parch          891
fare           891
embarked       889
class          891
who            891
adult_male     891
deck           203
embark_town    889
alive          891
alone          891
dtype: int64

In [213]:
### 카테고리별로 갯수 세기  (R에서 table과 비슷한) : value_count() 시리즈에서만 사용 가능 

np.random.seed(1)

s2 = pd.Series(np.random.randint(6, size=100 ))
s2.head(10)

s2.value_counts()
# DataFrame 
df
df[0].value_counts() #데이터프레임에서 사용하기 위해서는 시리즈로 뽑아낸 이후에 사용해야한다.

     0    1    2    3
0  0.0  0.0  3.0  2.0
1  3.0  0.0  2.0  1.0
2  3.0  2.0  4.0  NaN
3  4.0  3.0  4.0  2.0


3.0    2
4.0    1
0.0    1
Name: 0, dtype: int64

In [248]:
### 정렬 기능  : sort_index(), sort_value()
# 결측치는 정렬의 대상이 되지 않는다.

s2
s2.value_counts().sort_index()
s
s.sort_values() # 결측치는 따로 빠진다.   
s.sort_values(ascending=False) #내림차순

print(df)
df.sort_values(by=2) #by 컬럼명 지정하여 그 컬럼을 기준으로 정렬
df.sort_values(by=[1, 2]) #1번컬럼으로 정렬하고 같으면 2번컬럼으로 정렬 

print("--------------------------------------------")
personDf=pd.DataFrame({"seq":[1,3,2], "name":["park","lee","choi"],"age":[30,20,40]})
print(personDf)

# seq기준으로 정렬
personDf.sort_values(by=["seq"], axis=0, ascending=False)  

#index로 정렬
personDf.sort_index()
personDf.sort_index(axis=1)
personDf.sort_index(axis=1, ascending=False) # 알파벳 순서대로

#inplace  원본 자체를 바꿔버리는
personDf = personDf.sort_index(axis=1) 
personDf
#또는
personDf.sort_values(by=["seq","name"], axis=0, ascending=False, inplace=True)
personDf
print("--------------------------------------------")
print(personDf)
#결측치 위치 선정
personDf=pd.DataFrame({"seq":[1,3,np.nan], "name":["park","lee","choi"],"age":[30,20,40]})
print(personDf)

personDf.sort_values(by="seq") #따로 지정하지 않으면 가장 밑에 깔린다.
personDf.sort_values(by="seq", na_position="first")  #기본값은 last 


     0    1    2    3
0  0.0  0.0  3.0  2.0
1  3.0  0.0  2.0  1.0
2  3.0  2.0  4.0  NaN
3  4.0  3.0  4.0  2.0
--------------------------------------------
   seq  name  age
0    1  park   30
1    3   lee   20
2    2  choi   40
--------------------------------------------
   age  name  seq
1   20   lee    3
2   40  choi    2
0   30  park    1
   seq  name  age
0  1.0  park   30
1  3.0   lee   20
2  NaN  choi   40


Unnamed: 0,seq,name,age
2,,choi,40
0,1.0,park,30
1,3.0,lee,20


In [254]:
### 행, 열의 합계

np.random.seed(1)
df=pd.DataFrame(np.random.randint(10, size=(4,8)))
print(df)

print("--------------------------------------------")

df.sum() #열의 합계
df.sum(axis=0)
df.loc["ColSum", : ] = df.sum(axis=0)
df

df["RowSum"] = df.sum(axis=1)
df




   0  1  2  3  4  5  6  7
0  5  8  9  5  0  0  1  7
1  6  9  2  4  5  2  4  2
2  4  7  7  9  1  7  0  6
3  9  9  7  6  9  1  0  1
--------------------------------------------


Unnamed: 0,0,1,2,3,4,5,6,7,RowSum
0,5.0,8.0,9.0,5.0,0.0,0.0,1.0,7.0,35.0
1,6.0,9.0,2.0,4.0,5.0,2.0,4.0,2.0,34.0
2,4.0,7.0,7.0,9.0,1.0,7.0,0.0,6.0,41.0
3,9.0,9.0,7.0,6.0,9.0,1.0,0.0,1.0,42.0
ColSum,24.0,33.0,25.0,24.0,15.0,10.0,5.0,16.0,152.0


### apply 
- 행이나 열 단위로 더 복잡한 처리를 하고자 할 때 사용
- 인수로 행 또는 열을 받는 함수를 apply()의 인수로 넣으면 각 열(또는 행)을 반복하여 그 함수에 적용

In [2]:
df = pd.DataFrame({
    "A":[1, 3, 4, 3, 4],
    "B":[2, 3, 1, 2, 3],
    "C":[1, 5, 2, 4, 4],
})
df



Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [4]:
#행별 최대값과 최소값의 차이
def diff(x):              #x 는 행이나 열을 넘겨주면 
    return x.max() - x.min()
##################################################

df.apply(diff) #기본값은 열이 기준 
df.apply(diff, axis=1) #axis를 1로하면 행별로

0    1
1    2
2    3
3    2
4    1
dtype: int64

In [6]:
#람다 함수
df.apply(lambda x : x.max()-x.min(), axis=0 )

A    3
B    2
C    4
dtype: int64

In [13]:
# 각 열에 대해 어떤 값이 얼마나 사용되었는지 알고 싶다. : value_counts()
print(df["A"].value_counts())
print(df["B"].value_counts())
print(df["C"].value_counts())
print("-----------------------------------")
df.apply(pd.value_counts)
df.apply(pd.value_counts).fillna(0)

4    2
3    2
1    1
Name: A, dtype: int64
3    2
2    2
1    1
Name: B, dtype: int64
4    2
5    1
2    1
1    1
Name: C, dtype: int64
-----------------------------------


Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0


#### 실수값을 카테고리로 변경 (양적 데이터 -> 질적 데이터) : cut(), qcut()



In [18]:
ages = [0, 2, 10, 21, 23, 37, 31, 61, 20, 41, 32, 100]
cat = pd.cut(x=ages, bins=[1, 15, 25, 35, 60, 99], labels=["미성년자","청년","중년","장년","노년"])
print(cat)

[NaN, 미성년자, 미성년자, 청년, 청년, ..., 노년, 청년, 장년, 중년, NaN]
Length: 12
Categories (5, object): [미성년자 < 청년 < 중년 < 장년 < 노년]


In [21]:
print(type(cat))
print(cat.categories)
print(cat.codes)

<class 'pandas.core.arrays.categorical.Categorical'>
Index(['미성년자', '청년', '중년', '장년', '노년'], dtype='object')
[-1  0  0  1  1  3  2  4  1  3  2 -1]


In [24]:
df = pd.DataFrame(ages, columns = ["ages"])
df
df["age_cat"] = cat
df

Unnamed: 0,ages,age_cat
0,0,
1,2,미성년자
2,10,미성년자
3,21,청년
4,23,청년
5,37,장년
6,31,중년
7,61,노년
8,20,청년
9,41,장년


In [28]:
# qcut() # qcut은 무조건 균일하게 잘라내는 방식 (알아서 균등하게 잘라냄)
data=np.random.randn(1000)
cat=pd.qcut(data, 4, labels=["Q1","Q2","Q3","Q4"])
cat
pd.value_counts(cat)

Q4    250
Q3    250
Q2    250
Q1    250
dtype: int64

---
### 인덱스 조작

#### set_index(), reset_index()

In [38]:
np.random.seed(0)

df1=pd.DataFrame(np.vstack([list("ABCDE"),np.round(np.random.rand(3,5))]).T, columns=["C1","C2","C3","C4"])
df1

Unnamed: 0,C1,C2,C3,C4
0,A,1.0,1.0,1.0
1,B,1.0,0.0,1.0
2,C,1.0,1.0,1.0
3,D,1.0,1.0,1.0
4,E,0.0,0.0,0.0


In [40]:
# 기본인덱스를 C1으로 변경
df2 = df1.set_index("C1")
df2

Unnamed: 0_level_0,C2,C3,C4
C1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,1.0,1.0,1.0
B,1.0,0.0,1.0
C,1.0,1.0,1.0
D,1.0,1.0,1.0
E,0.0,0.0,0.0


In [41]:
df2.set_index("C2") # 기존에 있던 인덱스 C1 이 삭제되고 C2가 새로운 인덱스가 된다.  
#원본은 안바뀜 

Unnamed: 0_level_0,C3,C4
C2,Unnamed: 1_level_1,Unnamed: 2_level_1
1.0,1.0,1.0
1.0,0.0,1.0
1.0,1.0,1.0
1.0,1.0,1.0
0.0,0.0,0.0


In [44]:
#df2.reset_index() #인덱스를 잘못 지정하면 원래대로 돌릴때 
df2.reset_index(drop=True) #현재 인덱스는 삭제하고 기존 인덱스만 복구

Unnamed: 0,C2,C3,C4
0,1.0,1.0,1.0
1,1.0,0.0,1.0
2,1.0,1.0,1.0
3,1.0,1.0,1.0
4,0.0,0.0,0.0


#### 다중 인덱스 조작

In [52]:
np.random.seed(0)
df3=pd.DataFrame(np.vstack([list("ABCDE"),np.round(np.random.rand(3,5))]).T, columns=[["A","A","B","B"], ["C1","C2","C1","C2"]])
df3

df3.columns.names=["Cidx1","Cidx2"]
df3

Cidx1,A,A,B,B
Cidx2,C1,C2,C1,C2
0,A,1.0,1.0,1.0
1,B,1.0,0.0,1.0
2,C,1.0,1.0,1.0
3,D,1.0,1.0,1.0
4,E,0.0,0.0,0.0


In [61]:
# 기본 인덱싱 


print(df3[("A", "C1")]) #튜플로 묶어 A전체 컬럼에 있는 C1컬럼
print(df3[("B", "C1")][0:])

print("--------------------------")
#인덱서
print(df3.loc[0, ("B","C1")])
print(df3.loc[0 :, ("B","C1")])

print("--------------------------")

#iloc
print(df3.iloc[0:,2])

0    A
1    B
2    C
3    D
4    E
Name: (A, C1), dtype: object
0    1.0
1    0.0
2    1.0
3    1.0
4    0.0
Name: (B, C1), dtype: object
--------------------------
1.0
0    1.0
1    0.0
2    1.0
3    1.0
4    0.0
Name: (B, C1), dtype: object
--------------------------
0    1.0
1    0.0
2    1.0
3    1.0
4    0.0
Name: (B, C1), dtype: object


In [148]:
df4 = pd.DataFrame(np.round(np.random.rand(6,4),2), columns=[["A","A","B","B"], ["C","D","C","D"]], 
                   index=[["M","M","M","F","F","F"],["id_"+str(i+1) for i in range(3)]*2])
df4.columns.names=["Cidx1","Cidx2"]
df4.index.names=["Ridx1","Ridx2"]
df4

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,0.87,0.29,0.85,0.62
M,id_2,0.01,0.35,0.15,0.98
M,id_3,0.48,0.5,0.64,0.37
F,id_1,0.14,0.82,0.19,0.51
F,id_2,0.22,0.1,0.86,0.97
F,id_3,0.96,0.91,0.77,0.33


In [147]:
# 행 인덱스와 열 인덱스를 교환 : stack()-열을 행으로, unstack()-행을 열로

df4.stack("Cidx1") #원본은 바뀌지 않음. 
df4.stack(1) #이름을 안줬을때는 인덱스 숫자로 접근해도 된다.

df4.unstack("Ridx2")
df4.unstack(0)

Cidx1,A,A,A,A,B,B,B,B
Cidx2,C,C,D,D,C,C,D,D
Ridx1,F,M,F,M,F,M,F,M
Ridx2,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3
id_1,0.59,0.08,0.06,0.55,0.49,0.58,0.98,0.96
id_2,0.88,0.29,0.34,0.24,0.96,0.1,0.23,0.02
id_3,0.95,0.93,0.94,0.67,0.8,0.79,0.63,0.28


In [112]:
### 인덱싱
print(df4)
print("---------------------------------------------")

# 첫번째 행과 첫번째 열에 있는 0.59값을 출력
print(df4.loc[("M","id_1"), ("A","C")])

# 첫번째 열에 있는 0.59부터 0.87까지 출력
print(df4.loc[:,("A","C")])
print(df4.iloc[:5,0])

#첫번째 행에 모든 컬럼값을 출력
print(df4.loc[("M","id_1"),:])

#맨 마지막 행에 "ALL"이라는 인덱스를 추가하여 각열의 합을 출력
df4.loc[("ALL",""), : ] = df4.sum(axis=0)
df4



Cidx1           A            B      
Cidx2           C     D      C     D
Ridx1 Ridx2                         
M     id_1   0.45  0.54   0.90  0.99
      id_2   0.22  0.66   0.26  0.02
      id_3   0.76  0.32   0.38  0.59
F     id_1   0.83  0.63   0.87  0.27
      id_2   0.80  0.19   0.95  0.69
      id_3   0.22  0.95   0.73  0.25
ALL          9.84  9.87  12.27  8.43
---------------------------------------------
0.45
Ridx1  Ridx2
M      id_1     0.45
       id_2     0.22
       id_3     0.76
F      id_1     0.83
       id_2     0.80
       id_3     0.22
ALL             9.84
Name: (A, C), dtype: float64
Ridx1  Ridx2
M      id_1     0.45
       id_2     0.22
       id_3     0.76
F      id_1     0.83
       id_2     0.80
Name: (A, C), dtype: float64
Cidx1  Cidx2
A      C        0.45
       D        0.54
B      C        0.90
       D        0.99
Name: (M, id_1), dtype: float64


Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,0.45,0.54,0.9,0.99
M,id_2,0.22,0.66,0.26,0.02
M,id_3,0.76,0.32,0.38,0.59
F,id_1,0.83,0.63,0.87,0.27
F,id_2,0.8,0.19,0.95,0.69
F,id_3,0.22,0.95,0.73,0.25
ALL,,13.12,13.16,16.36,11.24


In [118]:
# 인덱스의 순서 교환  : swaplevel(i, j, axis=0) #기본값 axis=0 열을 기준
# 첫번째 컬럼또는 행과 두번째 컬럼 또는 행의 순서를 바꿀때(Cidx1 <-> Cidx2)

df5 = df4.swaplevel("Ridx1", "Ridx2")  #열의 위치 바꾸기
df5
df6 = df4.swaplevel("Cidx1", "Cidx2", axis=1)  #행의 위치 바꾸기 
df6

Unnamed: 0_level_0,Cidx2,C,D,C,D
Unnamed: 0_level_1,Cidx1,A,A,B,B
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,0.45,0.54,0.9,0.99
M,id_2,0.22,0.66,0.26,0.02
M,id_3,0.76,0.32,0.38,0.59
F,id_1,0.83,0.63,0.87,0.27
F,id_2,0.8,0.19,0.95,0.69
F,id_3,0.22,0.95,0.73,0.25
ALL,,13.12,13.16,16.36,11.24


In [128]:
# 정렬 :sort_index(level)

print(df4)
print("-----------------------------------------------------")
df4.sort_index(level=0, axis=0)  #level=0 Ridx1를 기준으로 정렬 (All , F, M)
df4.sort_index(level=1, axis=0)  #level1= Ridx2를 기준으로 정렬 (id_1, id_1, id2_, id_2, id_3, id_3)
print("-----------------------------------------------------")
df4.sort_index(level=0, axis=1)    #Cdix1 를 기준으로 정렬 (A, B)
df4.sort_index(level=1, axis=1)   #Cdix2 를 기준으로 정렬(C, C, D, D )

Cidx1            A             B       
Cidx2            C      D      C      D
Ridx1 Ridx2                            
M     id_1    0.45   0.54   0.90   0.99
      id_2    0.22   0.66   0.26   0.02
      id_3    0.76   0.32   0.38   0.59
F     id_1    0.83   0.63   0.87   0.27
      id_2    0.80   0.19   0.95   0.69
      id_3    0.22   0.95   0.73   0.25
ALL          13.12  13.16  16.36  11.24
-----------------------------------------------------
-----------------------------------------------------


Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,0.45,0.54,0.9,0.99
M,id_2,0.22,0.66,0.26,0.02
M,id_3,0.76,0.32,0.38,0.59
F,id_1,0.83,0.63,0.87,0.27
F,id_2,0.8,0.19,0.95,0.69
F,id_3,0.22,0.95,0.73,0.25
ALL,,13.12,13.16,16.36,11.24


In [1]:
df_score1 = pd.DataFrame({
    "반":["A", "A", "B", "A", "B", "B", "B", "A", "B", "A"],
    "번호" : [1, 2, 1, 3, 2, 3, 4, 4, 5, 5],
    "국어" : [79, 67, 88, 68, 92, 54, 67, 88, 97, 85],
    "영어" : [55, 77, 44, 67, 86, 45, 78, 58, 90, 67],
    "수학" : [57, 45, 76, 68, 89, 67, 99, 78, 89, 90]
})
df_score1

Unnamed: 0,반,번호,국어,영어,수학
0,A,1,79,55,57
1,A,2,67,77,45
2,B,1,88,44,76
3,A,3,68,67,68
4,B,2,92,86,89
5,B,3,54,45,67
6,B,4,67,78,99
7,A,4,88,58,78
8,B,5,97,90,89
9,A,5,85,67,90


In [3]:
#1. 1차 인덱스로 "반", 2차 행 인덱스로 "번호"를 가지는 데이터 프레임을 작성

df2= df_score1.set_index(["반", "번호"])

df2=df2.sort_index(level=0, axis=0)
df2

Unnamed: 0_level_0,Unnamed: 1_level_0,국어,영어,수학
반,번호,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
A,1,79,55,57
A,2,67,77,45
A,3,68,67,68
A,4,88,58,78
A,5,85,67,90
B,1,88,44,76
B,2,92,86,89
B,3,54,45,67
B,4,67,78,99
B,5,97,90,89


In [187]:
#2. 학생의 평균을 나타내는 행을 오른쪽에 추가

df2["평균 점수"] = (df2[:].mean(axis=1)).round(2)
df2

Unnamed: 0_level_0,Unnamed: 1_level_0,국어,영어,수학,평균 점수
반,번호,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
A,1,79,55,57,63.67
A,2,67,77,45,63.0
A,3,68,67,68,67.67
A,4,88,58,78,74.67
A,5,85,67,90,80.67
B,1,88,44,76,69.33
B,2,92,86,89,89.0
B,3,54,45,67,55.33
B,4,67,78,99,81.33
B,5,97,90,89,92.0


In [188]:
#3. 행 인덱스로 "번호"를 1차 열 인덱스로 "국어","영어","수학"을 2차 열 인덱스로 "반"을 가지는 데이터 프레임 작성

df2=df2.unstack("반")
df2

Unnamed: 0_level_0,국어,국어,영어,영어,수학,수학,평균 점수,평균 점수
반,A,B,A,B,A,B,A,B
번호,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
1,79,88,55,44,57,76,63.67,69.33
2,67,92,77,86,45,89,63.0,89.0
3,68,54,67,45,68,67,67.67,55.33
4,88,67,58,78,78,99,74.67,81.33
5,85,97,67,90,90,89,80.67,92.0


In [191]:
#4. 각 반별 각 과목의 평균을 나타내는 행을 아래에 추가.
df2.loc[("평균점수"), : ] = df2.mean(axis=0)
df2

Unnamed: 0_level_0,국어,국어,영어,영어,수학,수학,평균 점수,평균 점수
반,A,B,A,B,A,B,A,B
번호,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
1,79.0,88.0,55.0,44.0,57.0,76.0,63.67,69.33
2,67.0,92.0,77.0,86.0,45.0,89.0,63.0,89.0
3,68.0,54.0,67.0,45.0,68.0,67.0,67.67,55.33
4,88.0,67.0,58.0,78.0,78.0,99.0,74.67,81.33
5,85.0,97.0,67.0,90.0,90.0,89.0,80.67,92.0
평균점수,77.4,79.6,64.8,68.6,67.6,84.0,69.936,77.398


---
### 데이터 프레임 합성(병합)

+ merge()
   두 데이터 프레임의 공통 열 또는 인덱스를 기준으로 두 개의 테이블을 합친다.<br>
   이때 기준이 되는 열, 행의 데이터를 key라고 한다.
+ concat()
    기준열을 사용하지 않고 단순히 데이터를 연결할 때 사용한다.

#### merge()

In [3]:
df1 = pd.DataFrame({
    "고객번호":[1001, 1002, 1003, 1004, 1005, 1006, 1007],
    "이름":["둘리", "도우너", "또치", "길동", "희동", "마이콜", "영희"]
})
print(df1)

df2 = pd.DataFrame({
    "고객번호":[1001, 1001, 1005, 1006, 1008, 1001],
    "금액":[10000, 20000, 15000, 5000, 100000, 30000]
})
print(df2)

   고객번호   이름
0  1001   둘리
1  1002  도우너
2  1003   또치
3  1004   길동
4  1005   희동
5  1006  마이콜
6  1007   영희
   고객번호      금액
0  1001   10000
1  1001   20000
2  1005   15000
3  1006    5000
4  1008  100000
5  1001   30000


In [144]:
# 가장 기본적인 merge 
pd.merge(df1, df2) #공통된 것들만 가져다가 병합 / inner join
pd.merge(df1, df2, how="left") # left outer join
pd.merge(df1, df2, how="right") #right outer join
pd.merge(df1, df2, how="outer") #full outer join 

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000.0
1,1001,둘리,20000.0
2,1001,둘리,30000.0
3,1002,도우너,
4,1003,또치,
5,1004,길동,
6,1005,희동,15000.0
7,1006,마이콜,5000.0
8,1007,영희,
9,1008,,100000.0


In [13]:
# 키가 여러개인 경우
df1 = pd.DataFrame({
    "고객명":["춘향", "춘향", "몽룡"],
    "날짜":["2019-01-01", "2019-01-02", "2019-01-03"], 
    "데이터":["20000", "30000", "100000"]
})

df2 = pd.DataFrame({
    "고객명":["춘향", "몽룡"],
    "데이터":["여자", "남자"]
})


In [14]:
pd.merge(df1, df2 , on="고객명")


Unnamed: 0,고객명,날짜,데이터_x,데이터_y
0,춘향,2019-01-01,20000,여자
1,춘향,2019-01-02,30000,여자
2,몽룡,2019-01-03,100000,남자


In [21]:
# 공통된 키가 없는 경우 
df1 = pd.DataFrame({
    "이름":["영희", "철수", "철수"],
    "성적":[1, 2, 3]
})

df2 = pd.DataFrame({
    "성명":["영희", "영희", "철수"],
    "점수":[4, 5, 6]
})

In [22]:
#컬럼이름이 다른 경우
pd.merge(df1, df2, left_on="이름", right_on="성명")


Unnamed: 0,이름,성적,성명,점수
0,영희,1,영희,4
1,영희,1,영희,5
2,철수,2,철수,6
3,철수,3,철수,6


In [23]:
# 인덱스를 기준열로 사용하는 경우 (한쪽은 컬럼 / 다른 한쪽은 인덱스)
df1 = pd.DataFrame({
    '도시': ['서울', '서울', '서울', '부산', '부산'],
    '연도': [2000, 2005, 2010, 2000, 2005],
    '인구': [9853972, 9762546, 9631482, 3655437, 3512547]})
print(df1)
print("------------------------------")


df2 = pd.DataFrame(
    np.arange(12).reshape((6, 2)),
    index=[['부산', '부산', '서울', '서울', '서울', '서울'],
           [2000, 2005, 2000, 2005, 2010, 2015]],
    columns=['데이터1', '데이터2'])
print(df2)
print("------------------------------")
df2


   도시    연도       인구
0  서울  2000  9853972
1  서울  2005  9762546
2  서울  2010  9631482
3  부산  2000  3655437
4  부산  2005  3512547
------------------------------
         데이터1  데이터2
부산 2000     0     1
   2005     2     3
서울 2000     4     5
   2005     6     7
   2010     8     9
   2015    10    11
------------------------------


Unnamed: 0,Unnamed: 1,데이터1,데이터2
부산,2000,0,1
부산,2005,2,3
서울,2000,4,5
서울,2005,6,7
서울,2010,8,9
서울,2015,10,11


In [24]:
pd.merge(df1, df2, left_on=["도시","연도"], right_index=True)

Unnamed: 0,도시,연도,인구,데이터1,데이터2
0,서울,2000,9853972,4,5
1,서울,2005,9762546,6,7
2,서울,2010,9631482,8,9
3,부산,2000,3655437,0,1
4,부산,2005,3512547,2,3


In [27]:
# 인덱스를 기준열로 사용하는 경우 (둘다 인덱스인 경우)
df1 = pd.DataFrame(
    [[1., 2.], [3., 4.], [5., 6.]],
    index=['a', 'c', 'e'],
    columns=['서울', '부산'])
print(df1)
print("------------------------------")
df1

df2 = pd.DataFrame(
    [[7., 8.], [9., 10.], [11., 12.], [13, 14]],
    index=['b', 'c', 'd', 'e'],
    columns=['대구', '광주'])
print(df2)
print("------------------------------")
df2

    서울   부산
a  1.0  2.0
c  3.0  4.0
e  5.0  6.0
------------------------------
     대구    광주
b   7.0   8.0
c   9.0  10.0
d  11.0  12.0
e  13.0  14.0
------------------------------


Unnamed: 0,대구,광주
b,7.0,8.0
c,9.0,10.0
d,11.0,12.0
e,13.0,14.0


In [30]:
pd.merge(df1, df2, left_index = True, right_index=True)
pd.merge(df1, df2, left_index = True, right_index=True, how = "outer")

Unnamed: 0,서울,부산,대구,광주
a,1.0,2.0,,
b,,,7.0,8.0
c,3.0,4.0,9.0,10.0
d,,,11.0,12.0
e,5.0,6.0,13.0,14.0


In [32]:
# merge() 대신에 join() 이라는 함수를 사용할 수 있다. 

df1.join(df2, how = "outer")

Unnamed: 0,서울,부산,대구,광주
a,1.0,2.0,,
b,,,7.0,8.0
c,3.0,4.0,9.0,10.0
d,,,11.0,12.0
e,5.0,6.0,13.0,14.0


#### concat

In [34]:
s1 = pd.Series([0, 1], index=["A","B"])
s2 = pd.Series([2, 3, 4], index=["A","B","C"])
pd.concat([s1, s2])

A    0
B    1
A    2
B    3
C    4
dtype: int64

In [41]:
df1 = pd.DataFrame(
    np.arange(6).reshape(3,2),
    index=['a', 'b', 'c'],
    columns=['데이터1', '데이터2'])
print(df1)
print("-----------------------------------")
df2 = pd.DataFrame(
    5 + np.arange(4).reshape(2,2),
    index=['a', 'c'],
    columns=['데이터3', '데이터4'])
print(df2)
print("-----------------------------------")
#pd.concat([df1, df2], axis=0)
pd.concat([df1, df2], axis=1)

   데이터1  데이터2
a     0     1
b     2     3
c     4     5
-----------------------------------
   데이터3  데이터4
a     5     6
c     7     8
-----------------------------------


Unnamed: 0,데이터1,데이터2,데이터3,데이터4
a,0,1,5.0,6.0
b,2,3,,
c,4,5,7.0,8.0


---
### 피봇 테이블과 그룹 분석

+ pivot()

    - DataFrame.pivot(index=None, columns=None, values=None)

+ groupby()

    - DataFrame.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=`<object object>`, observed=False, dropna=True)
    
+ pivot_table()

    - DataFrame.pivot_table(values=None, index=None, columns=None, aggfunc='mean', fill_value=None, margins=False, dropna=True, margins_name='All', observed=False)

#### pivot

In [56]:
data = {
    "도시": ["서울", "서울", "서울", "부산", "부산", "부산", "인천", "인천"],
    "연도": ["2015", "2010", "2005", "2015", "2010", "2005", "2015", "2010"],
    "인구": [9904312, 9631482, 9762546, 3448737, 3393191, 3512547, 2890451, 263203],
    "지역": ["수도권", "수도권", "수도권", "경상권", "경상권", "경상권", "수도권", "수도권"]
}
df = pd.DataFrame(data)
df

Unnamed: 0,도시,연도,인구,지역
0,서울,2015,9904312,수도권
1,서울,2010,9631482,수도권
2,서울,2005,9762546,수도권
3,부산,2015,3448737,경상권
4,부산,2010,3393191,경상권
5,부산,2005,3512547,경상권
6,인천,2015,2890451,수도권
7,인천,2010,263203,수도권


In [58]:
# 각 도시에서 연도별로 인구수를 알고 싶을 때 
df.pivot(index="도시", columns="연도", values="인구")
df.pivot("도시", "연도", "인구") 


연도,2005,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


In [61]:
df.set_index(["도시","연도"])[["인구"]].unstack()

Unnamed: 0_level_0,인구,인구,인구
연도,2005,2010,2015
도시,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


#### groupby

-  집계함수( 그룹 연산 메서드)
    size(), count() : 갯수 <br>
    mean(), median(),min(),max()<br>
    sum(),prod(),std(),var(), quantile()<br>
    first(), last()<br>
    agg(), aggregate()<br>
    describe()<br>
    apply()<br>
    transform()<br>

In [62]:
df2 = pd.DataFrame({
    "key1":["A", "A", "B", "B", "A"],
    "key2":["one", "two", "one", "two", "one"],
    "data1":[1, 2, 3, 4, 5],
    "data2":[10, 20, 30, 40, 50]
})
df2

Unnamed: 0,key1,key2,data1,data2
0,A,one,1,10
1,A,two,2,20
2,B,one,3,30
3,B,two,4,40
4,A,one,5,50


In [68]:
g=df2.groupby(by="key1") #by : 무엇으로 그룹을 묶을것인지
#g
g.sum() #집계함수를 써야 그룹으로 나눈 것에 대한 결과값을 서머리하여 보여준다 / 집계함수를 쓰지 않으면 값이 나오지 않음.

Unnamed: 0_level_0,data1,data2
key1,Unnamed: 1_level_1,Unnamed: 2_level_1
A,8,80
B,7,70


In [74]:
print(df2.groupby(df2.key1).sum())
print("---------------------------------------")
print(df2.data1.groupby(df2.key1).sum())
print("---------------------------------------")
print(df2.groupby(df2.key1)["data1"].sum())
print("---------------------------------------")
print(df2.groupby(df2.key1).sum()["data1"])
print("---------------------------------------")
print(df2.groupby(df2.key1).sum()[["data1"]])

      data1  data2
key1              
A         8     80
B         7     70
---------------------------------------
key1
A    8
B    7
Name: data1, dtype: int64
---------------------------------------
key1
A    8
B    7
Name: data1, dtype: int64
---------------------------------------
key1
A    8
B    7
Name: data1, dtype: int64
---------------------------------------
      data1
key1       
A         8
B         7


In [109]:
# 복합키(키가 여러개 있을 때)
df2.data1.groupby([df2.key1, df2.key2]).sum()
df2.data1.groupby([df2.key1, df2.key2]).sum().unstack()

#각 도시에서 연도별로 인구수 (df를 사용)
df.groupby([df.도시, df.연도])["인구"].first().unstack()
df.groupby(["도시","연도"])[["인구"]].sum().unstack()

"""
연도 2005 2010 2015
지역 
경상권
수도권
"""
df.groupby(["지역","연도"])[["인구"]].sum().unstack()
df.groupby([df["지역"],df["연도"]]).sum().unstack() #값이 하나일떄는 이렇게 사용해도 된다.
df["인구"].groupby([df["지역"],df["연도"]]).sum().unstack()
df["인구"].groupby([df["지역"],df["연도"]]).sum().unstack("연도")

연도,2005,2010,2015
지역,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
경상권,3512547,3393191,3448737
수도권,9762546,9894685,12794763


In [111]:
import seaborn as sns
iris = sns.load_dataset("iris")
iris.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [114]:
# 각 붓꽃별로 가장 큰값과 가장 작은 값의 비율을 알아보자. 
def peak_to_peak_ratio(x):
    return x.max()/x.min()
#####################################################################

print(iris.groupby(iris.species).apply(peak_to_peak_ratio))
print("------------------------------------------------------------")
print(iris.groupby(iris.species).agg(peak_to_peak_ratio))

            sepal_length  sepal_width  petal_length  petal_width
species                                                         
setosa          1.348837     1.913043      1.900000     6.000000
versicolor      1.428571     1.700000      1.700000     1.800000
virginica       1.612245     1.727273      1.533333     1.785714
------------------------------------------------------------
            sepal_length  sepal_width  petal_length  petal_width
species                                                         
setosa          1.348837     1.913043      1.900000     6.000000
versicolor      1.428571     1.700000      1.700000     1.800000
virginica       1.612245     1.727273      1.533333     1.785714


In [123]:
# 각 붓꽃별로 가장 꽃잎 길이가 작은 것 3개의 데이터를 추출 

def min3(x):
    return x.sort_values(by="petal_length")[:3]
###################################################################
print(iris.groupby(iris.species).apply(min3))
print("----------------------------------------------")
#print(iris.groupby(iris.species).agg(min3))

#apply 품종별로 데이터를 접근하여 품종별로 데이터를 처리 / agg 품종별 전체 데이터프레임으로 접근  
#apply는 함수를 하나만 사용 가능/ agg 는 함수를 여러개 사용할 수 있음.

                sepal_length  sepal_width  petal_length  petal_width  \
species                                                                
setosa     22            4.6          3.6           1.0          0.2   
           13            4.3          3.0           1.1          0.1   
           14            5.8          4.0           1.2          0.2   
versicolor 98            5.1          2.5           3.0          1.1   
           93            5.0          2.3           3.3          1.0   
           57            4.9          2.4           3.3          1.0   
virginica  106           4.9          2.5           4.5          1.7   
           126           6.2          2.8           4.8          1.8   
           138           6.0          3.0           4.8          1.8   

                   species  
species                     
setosa     22       setosa  
           13       setosa  
           14       setosa  
versicolor 98   versicolor  
           93   versicolor  
    

In [124]:
iris.groupby("species").agg([np.sum,np.mean,np.std])

Unnamed: 0_level_0,sepal_length,sepal_length,sepal_length,sepal_width,sepal_width,sepal_width,petal_length,petal_length,petal_length,petal_width,petal_width,petal_width
Unnamed: 0_level_1,sum,mean,std,sum,mean,std,sum,mean,std,sum,mean,std
species,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2
setosa,250.3,5.006,0.35249,171.4,3.428,0.379064,73.1,1.462,0.173664,12.3,0.246,0.105386
versicolor,296.8,5.936,0.516171,138.5,2.77,0.313798,213.0,4.26,0.469911,66.3,1.326,0.197753
virginica,329.4,6.588,0.63588,148.7,2.974,0.322497,277.6,5.552,0.551895,101.3,2.026,0.27465


In [128]:
iris.groupby("species").describe().T

Unnamed: 0,species,setosa,versicolor,virginica
sepal_length,count,50.0,50.0,50.0
sepal_length,mean,5.006,5.936,6.588
sepal_length,std,0.35249,0.516171,0.63588
sepal_length,min,4.3,4.9,4.9
sepal_length,25%,4.8,5.6,6.225
sepal_length,50%,5.0,5.9,6.5
sepal_length,75%,5.2,6.3,6.9
sepal_length,max,5.8,7.0,7.9
sepal_width,count,50.0,50.0,50.0
sepal_width,mean,3.428,2.77,2.974


In [133]:
#transform()
def func_cut(s):
    return pd.qcut(s, 3, labels=["대","중","소"])
#####################################################################
#iris.groupby(iris.species)["petal_length"].apply(func_cut)
#iris.groupby(iris.species)["petal_length"].agg(func_cut) 에러발생
iris["petal_length_class"]=iris.groupby(iris.species)["petal_length"].transform(func_cut) 
iris

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species,petal_length_class
0,5.1,3.5,1.4,0.2,setosa,대
1,4.9,3.0,1.4,0.2,setosa,대
2,4.7,3.2,1.3,0.2,setosa,대
3,4.6,3.1,1.5,0.2,setosa,중
4,5.0,3.6,1.4,0.2,setosa,대
...,...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica,대
146,6.3,2.5,5.0,1.9,virginica,대
147,6.5,3.0,5.2,2.0,virginica,대
148,6.2,3.4,5.4,2.3,virginica,중


In [152]:
#apply, agg, trasform 
def test(x):
    return 1
####################
g = iris.groupby("species")
print(g.apply(test))
print("------------------------------")
print(g.agg(test))  # 데이터프레임을 통째로 전달해서 종류별로 처리 
print("-----------------------------")
print(g.transform(test)) #모든 데이터를 풀어가지고 전체를 넘김

species
setosa        1
versicolor    1
virginica     1
dtype: int64
------------------------------
            sepal_length  sepal_width  petal_length  petal_width  \
species                                                            
setosa               1.0          1.0           1.0          1.0   
versicolor           1.0          1.0           1.0          1.0   
virginica            1.0          1.0           1.0          1.0   

            petal_length_class  
species                         
setosa                       1  
versicolor                   1  
virginica                    1  
------------------------------
     sepal_length  sepal_width  petal_length  petal_width  petal_length_class
0               1            1             1            1                   1
1               1            1             1            1                   1
2               1            1             1            1                   1
3               1            1             1       

In [193]:
df = pd.DataFrame({
    'city': ['부산', '부산', '부산', '부산', '서울', '서울', '서울'],
    'fruits': ['apple', 'orange', 'banana', 'banana', 'apple', 'apple', 'banana'],
    'price': [100, 200, 250, 300, 150, 200, 400],
    'quantity': [1, 2, 3, 4, 5, 6, 7]
})
df

Unnamed: 0,city,fruits,price,quantity
0,부산,apple,100,1
1,부산,orange,200,2
2,부산,banana,250,3
3,부산,banana,300,4
4,서울,apple,150,5
5,서울,apple,200,6
6,서울,banana,400,7


In [215]:
#도시별로 과일의 가격 평균과 수량 평균을 구하시오.
df.groupby("city").mean()


Unnamed: 0_level_0,price,quantity
city,Unnamed: 1_level_1,Unnamed: 2_level_1
부산,212.5,2.5
서울,250.0,6.0


In [216]:
#도시별 과일별 가격평군과 수량 평균을 구하시오.
df.groupby([df.city, df.fruits])[["price","quantity"]].mean()


Unnamed: 0_level_0,Unnamed: 1_level_0,price,quantity
city,fruits,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,apple,100.0,1.0
부산,banana,275.0,3.5
부산,orange,200.0,2.0
서울,apple,175.0,5.5
서울,banana,400.0,7.0


In [217]:
#위의 문제에서 도시별 과일별 라벨을 인덱스로 하고 싶지 않은 경우 
df.groupby([df.city, df.fruits],as_index=False)[["price","quantity"]].mean()


Unnamed: 0,city,fruits,price,quantity
0,부산,apple,100.0,1.0
1,부산,banana,275.0,3.5
2,부산,orange,200.0,2.0
3,서울,apple,175.0,5.5
4,서울,banana,400.0,7.0


In [220]:
#도시별로 가격의 평균과 수량의 합계를 동시에 구하시오.
df.groupby("city").agg({"price":np.mean,"quantity":np.sum})

Unnamed: 0_level_0,price,quantity
city,Unnamed: 1_level_1,Unnamed: 2_level_1
부산,212.5,10
서울,250.0,18


In [None]:
#1. 1차 인덱스로 "반", 2차 행 인덱스로 "번호"를 가지는 데이터 프레임을 작성

df2= df_score1.set_index(["반", "번호"])
df2=df2.sort_index(level=0, axis=0)
df2

#2. 학생의 평균을 나타내는 행을 오른쪽에 추가

df2["평균 점수"] = (df2[:].mean(axis=1)).round(2)
df2

#3. 행 인덱스로 "번호"를 1차 열 인덱스로 "국어","영어","수학"을 2차 열 인덱스로 "반"을 가지는 데이터 프레임 작성

df2=df2.unstack("반")
df2

#4. 각 반별 각 과목의 평균을 나타내는 행을 아래에 추가.

df2.loc[("평균점수"), : ] = df2.mean(axis=0)
df2

#도시별로 과일의 가격 평균과 수량 평균을 구하시오.
df.groupby("city").mean()

#도시별 과일별 가격평군과 수량 평균을 구하시오.
df.groupby([df.city, df.fruits])[["price","quantity"]].mean()

#위의 문제에서 도시별 과일별 라벨을 인덱스로 하고 싶지 않은 경우 
df.groupby([df.city, df.fruits],as_index=False)[["price","quantity"]].mean()

#도시별로 가격의 평균과 수량의 합계를 동시에 구하시오.
df.groupby("city").agg({"price":np.mean,"quantity":np.sum})

#### pivot_table

- values : 분석할 데이터 프레임에서 분석할 열을 지정 
- aggfunc : 분석 메서드
- fill_value : NaN 대체값
- dropna : NaN에 해당하는 값을 버릴지 여부
- margins : 행과 열 끝에 소계 추가


In [4]:
data = {
    "도시": ["서울", "서울", "서울", "부산", "부산", "부산", "인천", "인천"],
    "연도": ["2015", "2010", "2005", "2015", "2010", "2005", "2015", "2010"],
    "인구": [9904312, 9631482, 9762546, 3448737, 3393191, 3512547, 2890451, 263203],
    "지역": ["수도권", "수도권", "수도권", "경상권", "경상권", "경상권", "수도권", "수도권"]
}
df = pd.DataFrame(data)
df

Unnamed: 0,도시,연도,인구,지역
0,서울,2015,9904312,수도권
1,서울,2010,9631482,수도권
2,서울,2005,9762546,수도권
3,부산,2015,3448737,경상권
4,부산,2010,3393191,경상권
5,부산,2005,3512547,경상권
6,인천,2015,2890451,수도권
7,인천,2010,263203,수도권


In [10]:
# 도시에서 연도별로 인구수를 알고 싶다.

#dfpivot("도시","연도","인구")

#df.pivot_table(values="인구", index="도시", columns="연도")

df.pivot_table("인구","도시","연도")
pd.pivot_table(df, "인구","도시","연도")



연도,2005,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


In [16]:
df.pivot_table("인구","도시","연도", aggfunc="sum", margins=True, 
              margins_name="합계", fill_value=0) #aggfunc 기본값은 평균 / margins는 aggfunc에 따라 달라진다./fill_value NAN값 대체


연도,2005,2010,2015,합계
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
부산,3512547,3393191,3448737,10354475
서울,9762546,9631482,9904312,29298340
인천,0,263203,2890451,3153654
합계,13275093,13287876,16243500,42806469


In [19]:
#연도별 도시별 인구수를 알고 싶다.
df.pivot_table("인구",["연도","도시"])
df.groupby(["연도","도시"])[["인구"]].mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,인구
연도,도시,Unnamed: 2_level_1
2005,부산,3512547
2005,서울,9762546
2010,부산,3393191
2010,서울,9631482
2010,인천,263203
2015,부산,3448737
2015,서울,9904312
2015,인천,2890451


---
### 활용 예제

#### 데이터 준비

In [3]:
import seaborn as sns
tips = sns.load_dataset("tips")
tips
#total_bill 식사 요금 / tip 팁 / size 
#어떤 손님들이 팁을 많이 줄까? tip 종속변수 
tips.describe()

Unnamed: 0,total_bill,tip,size
count,244.0,244.0,244.0
mean,19.785943,2.998279,2.569672
std,8.902412,1.383638,0.9511
min,3.07,1.0,1.0
25%,13.3475,2.0,2.0
50%,17.795,2.9,2.0
75%,24.1275,3.5625,3.0
max,50.81,10.0,6.0


In [34]:
# 식사 대금과 팁의 비율 (tip/total_bill)을 나타내는 tip_pct를 추가

tips["tip_pct"] = (tips["tip"]/tips["total_bill"])
tips

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,tip_pct
0,16.99,1.01,Female,No,Sun,Dinner,2,0.06
1,10.34,1.66,Male,No,Sun,Dinner,3,0.16
2,21.01,3.50,Male,No,Sun,Dinner,3,0.17
3,23.68,3.31,Male,No,Sun,Dinner,2,0.14
4,24.59,3.61,Female,No,Sun,Dinner,4,0.15
...,...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3,0.20
240,27.18,2.00,Female,Yes,Sat,Dinner,2,0.07
241,22.67,2.00,Male,Yes,Sat,Dinner,2,0.09
242,17.82,1.75,Male,No,Sat,Dinner,2,0.10


In [69]:
# 성별로 인원수를 파악 
tips.groupby("sex").count()
#tips.groupby(["sex"])[["size"]].count()
#tips["sex"].value_counts()
#tips.groupby("sex").size()



Unnamed: 0_level_0,total_bill,tip,smoker,day,time,size,tip_pct
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Male,157,157,157,157,157,157,157
Female,87,87,87,87,87,87,87


In [57]:
# 성별 흡연유무별로 인원수 파악
tips.groupby(["sex", "smoker"]).count()
tips.groupby(["sex", "smoker"]).size()

sex     smoker
Male    Yes       60
        No        97
Female  Yes       33
        No        54
dtype: int64

In [60]:
# 위의 두 정보를 하나의 테이블로 출력(pivot_table 사용)
tips.pivot_table("tip_pct", "sex", "smoker", aggfunc="count", margins=True, magins_name="합계")
tips.pivo_table("tip_pct",["sex","smoker"])

smoker,Yes,No,All
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Male,60,97,157
Female,33,54,87
All,93,151,244


In [61]:
# 성별에 따른 평균 팁 비율
tips.groupby("sex")[["tip_pct"]].mean()

Unnamed: 0_level_0,tip_pct
sex,Unnamed: 1_level_1
Male,0.157834
Female,0.166552


In [62]:
# 흡연여부에 따라서 평균 팁 비율
tips.groupby("smoker")[["tip_pct"]].mean()

Unnamed: 0_level_0,tip_pct
smoker,Unnamed: 1_level_1
Yes,0.163226
No,0.159536


In [51]:
#위의 정보를 하나의 테이블로 출력
tips.pivot_table("tip_pct", "sex", "smoker")

smoker,Yes,No
sex,Unnamed: 1_level_1,Unnamed: 2_level_1
Male,0.152667,0.161031
Female,0.182424,0.156852


In [95]:
#팁의 비율이 요일과 점심/저녁 여부, 인원수에 어떤 영향을 받는지 살표보자
#tips.pivot_table("tip_pct", "day")
#tips.pivot_table("tip_pct", "time")
#tips.pivot_table("tip_pct", "size")
#tips.pivot_table("tip_pct", ["day", "time"], "size")
tips.pivot_table("tip_pct", ["day", "time", "size"])
tips.groupby(["day","time","size"])[["tip_pct"]].mean().dropna()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,tip_pct
day,time,size,Unnamed: 3_level_1
Thur,Lunch,1,0.18
Thur,Lunch,2,0.16383
Thur,Lunch,3,0.145
Thur,Lunch,4,0.146
Thur,Lunch,5,0.12
Thur,Lunch,6,0.173333
Thur,Dinner,2,0.16
Fri,Lunch,1,0.22
Fri,Lunch,2,0.182
Fri,Lunch,3,0.19


In [114]:
#성별 흡연 유무별로 가장 많은 팁과 가장 적은 팁의 차이는 얼마인가?
def peak_to_peak(x):             
    return x.max() - x.min()

tips.groupby(["sex","smoker"])[["tip"]].apply(peak_to_peak)
tips.groupby(["sex","smoker"])[["tip"]].agg(peak_to_peak)
#tips.groupby(["sex","smoker"])[["tip"]].transform(peak_to_peak)

tips.groupby(["sex","smoker"]).agg({"tip_pct":np.mean, "total_bill":peak_to_peak})

Unnamed: 0_level_0,Unnamed: 1_level_0,tip_pct,total_bill
sex,smoker,Unnamed: 2_level_1,Unnamed: 3_level_1
Male,Yes,0.152667,43.56
Male,No,0.161031,40.82
Female,Yes,0.182424,41.23
Female,No,0.156852,28.58


### 활용예제 2

In [51]:
# 데이터 준비
titanic = sns.load_dataset("titanic")
#titanic.count()
titanic.head(5)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [63]:
# 나이대별 클래스를 만들어서 파생변수로 추가 (age_class)
# 1, 20, 60, 100 으로 3등분해서 미성년, 성년, 노년으로 분류 
# qcut() # qcut은 무조건 균일하게 잘라내는 방식 (알아서 균등하게 잘라냄)
titanic["age_class"] = pd.cut(x="age", bins=[1, 20, 60, 100], labels=["미성년", "성년","노년"])




ValueError: Input array must be 1 dimensional

In [None]:
#성별, 나이대별, 객실별로 생존 여부의 평균값을 조회 (생존여부가 가장 높은가? 낮은가 ?)
titanic["alive_1"] = (tips["alive"]/tips["total_bill"])
titanic.groupby(["sex","age_class","pclass"])[["alive"]].mean()

---
### 시계열 데이터

+ DateTimeIndex 자료형 <br>
    -pd.to_datetime() : 문자열을 날짜 타입으로 변환 <br>
    -pd.date_range(): 날짜의 범위를 지정  

In [121]:
date_str=["2020, 1, 1", "2020, 1, 4", "2020, 1, 6", "2020, 1, 9"]
idx=pd.to_datetime(date_str)
idx

DatetimeIndex(['2020-01-01', '2020-01-04', '2020-01-06', '2020-01-09'], dtype='datetime64[ns]', freq=None)

In [123]:
 # 날짜를 인덱스로 활용 
np.random.seed(0)
s = pd.Series(np.random.randn(4), index=idx)
s

2020-01-01    1.764052
2020-01-04    0.400157
2020-01-06    0.978738
2020-01-09    2.240893
dtype: float64

In [130]:
# 날짜 데이터 생성 
pd.date_range("2020-1-1", "2020-4-30")
pd.date_range("2020-1-1", periods=30) #30일간의 날짜 데이터를 만들겠다.


DatetimeIndex(['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-04',
               '2020-01-05', '2020-01-06', '2020-01-07', '2020-01-08',
               '2020-01-09', '2020-01-10', '2020-01-11', '2020-01-12',
               '2020-01-13', '2020-01-14', '2020-01-15', '2020-01-16',
               '2020-01-17', '2020-01-18', '2020-01-19', '2020-01-20',
               '2020-01-21', '2020-01-22', '2020-01-23', '2020-01-24',
               '2020-01-25', '2020-01-26', '2020-01-27', '2020-01-28',
               '2020-01-29', '2020-01-30'],
              dtype='datetime64[ns]', freq='D')

In [None]:
#freq 어떤걸 기준으로해서 반복을 만들어 냈는가
"""
freq
    S : 초
    T : 분
    H : 시
    D : 일
    B : 주말이 아닌 평일
    W : 주(일요일)
    W-MON : 주(월요일이 시작)
    M : 각 달의 마지막 날 
    MS : 각 달의 첫째 날
    BM : 주말이 아닌 평일 중에서 각 달의 마지막 날 
    BMS : 주말이 아닌 평일 중에서 각 달의 첫째 날 
    WOM-2THU : 각 달의 두 번 째 목요일 
    Q-JAN : 각 분기의 첫 달의 마지막 날 
    Q-DEC : 각 분기의 마지막달의 마지막 날
    
    
    
    
"""

In [133]:
pd.date_range("2020-1-1", "2020-1-31", freq = "B")

DatetimeIndex(['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-06',
               '2020-01-07', '2020-01-08', '2020-01-09', '2020-01-10',
               '2020-01-13', '2020-01-14', '2020-01-15', '2020-01-16',
               '2020-01-17', '2020-01-20', '2020-01-21', '2020-01-22',
               '2020-01-23', '2020-01-24', '2020-01-27', '2020-01-28',
               '2020-01-29', '2020-01-30', '2020-01-31'],
              dtype='datetime64[ns]', freq='B')

In [9]:
#shift
np.random.seed(0)
ts=pd.Series(np.random.randn(4),index=pd.date_range("2020-1-1",periods=4,freq="M"))
print(ts)
print("-------------------------------")
print(ts.shift(1))
print("-------------------------------")
print(ts.shift(-1))
print("-------------------------------")
print(ts.shift(1, freq="M")) # 인덱스를 이동시키기 위해서 
print("-------------------------------")
print(ts.shift(1, freq="W"))

2020-01-31    1.764052
2020-02-29    0.400157
2020-03-31    0.978738
2020-04-30    2.240893
Freq: M, dtype: float64
-------------------------------
2020-01-31         NaN
2020-02-29    1.764052
2020-03-31    0.400157
2020-04-30    0.978738
Freq: M, dtype: float64
-------------------------------
2020-01-31    0.400157
2020-02-29    0.978738
2020-03-31    2.240893
2020-04-30         NaN
Freq: M, dtype: float64
-------------------------------
2020-02-29    1.764052
2020-03-31    0.400157
2020-04-30    0.978738
2020-05-31    2.240893
Freq: M, dtype: float64
-------------------------------
2020-02-02    1.764052
2020-03-01    0.400157
2020-04-05    0.978738
2020-05-03    2.240893
Freq: WOM-1SUN, dtype: float64


In [36]:
# resampling : 시간 간격을 재조정
# 시간구간(날짜간격)이 작아지면 데이터 양이 증가 : 업 샘플링
# 시간구간이 커지면 데이터 양이 감소 : 다운 샘플링 
# 시간구간이 커지면 30개였던(일)데이터가 4개로 감소(주)
ts=pd.Series(np.random.randn(100), index=pd.date_range("2020-1-1",periods=100, freq="D"))
ts.head(20)


# 다운 샘플링 
ts.resample("W").mean() #일단위 였던것을 주단위로 줄이는 / 줄어든 데이터를 처리하기 위한 대표치를 구하는 함수가 필요하다. 
print(ts.resample("M").sum()) 
print("---------------------------------")
ts=pd.Series(np.random.randn(60), index=pd.date_range("2020-1-1",periods=60, freq="T"))
ts.head(10)

print("---------------------------------")
ts.resample("10T").mean()

2020-01-31   -6.021121
2020-02-29   -1.482352
2020-03-31   -2.864348
2020-04-30   -0.271418
Freq: M, dtype: float64
---------------------------------
---------------------------------


2020-01-01 00:00:00    0.107448
2020-01-01 00:10:00   -0.397149
2020-01-01 00:20:00    0.209672
2020-01-01 00:30:00   -0.290273
2020-01-01 00:40:00    0.000196
2020-01-01 00:50:00   -0.099770
Freq: 10T, dtype: float64

In [42]:
# up-sampling
# forward filling  #앞에서 나온 데이터를 그대로 사용
# backward filling  #뒤에서 나올 데이터를 앞에서 미리 사용 

print(ts.head(10))
print("---------------------------------")
print(ts.resample("30S").ffill(10)) #앞에 있는 것을 그대로 가져다가 쓴다.
print("---------------------------------")
print(ts.resample("30S").bfill(10))


2020-01-01 00:00:00   -0.745023
2020-01-01 00:01:00    1.012261
2020-01-01 00:02:00   -1.527632
2020-01-01 00:03:00    0.928742
2020-01-01 00:04:00    1.081056
2020-01-01 00:05:00    1.572330
2020-01-01 00:06:00   -0.342492
2020-01-01 00:07:00   -0.999430
2020-01-01 00:08:00    0.793880
2020-01-01 00:09:00   -0.699215
Freq: T, dtype: float64
---------------------------------
2020-01-01 00:00:00   -0.745023
2020-01-01 00:00:30   -0.745023
2020-01-01 00:01:00    1.012261
2020-01-01 00:01:30    1.012261
2020-01-01 00:02:00   -1.527632
                         ...   
2020-01-01 00:57:00   -0.417429
2020-01-01 00:57:30   -0.417429
2020-01-01 00:58:00   -0.453553
2020-01-01 00:58:30   -0.453553
2020-01-01 00:59:00   -0.991628
Freq: 30S, Length: 119, dtype: float64
---------------------------------
2020-01-01 00:00:00   -0.745023
2020-01-01 00:00:30    1.012261
2020-01-01 00:01:00    1.012261
2020-01-01 00:01:30   -1.527632
2020-01-01 00:02:00   -1.527632
                         ...   
2020-

In [1]:
a = {"c" : [1, 2, 3], "d": [2, 4, 5]}
for i in range(1, 10):
    a

{'c': [1, 2, 3], 'd': [2, 4, 5]}