## Pandas에서 제공하는 대표적인 자료구조

    1) Series
        값 + index                (enumerate와 같은 역할)
        
    2) DataFrame
        여러 개의 series를 묶어놓은 형태
        
    3) https://pandas.pydata.org

In [1]:
import pandas as pd
import numpy as np                         # 이 두개는 항상 import 해두기

## Series

In [3]:
s = pd.Series([9904312, 3448737, 2890451, 2466052])          # list를 series 형태로 바꿔주기
print(s)
print(type(s))

0    9904312
1    3448737
2    2890451
3    2466052
dtype: int64
<class 'pandas.core.series.Series'>


In [4]:
for i in enumerate([9904312, 3448737, 2890451, 2466052]):
    print(i)

(0, 9904312)
(1, 3448737)
(2, 2890451)
(3, 2466052)


In [5]:
# 인덱스를 자유롭게 지정
s = pd.Series([9904312, 3448737, 2890451, 2466052], index=["서울", "부산", "인천", "대구"])  
print(s)
print("----------------------------")
print(s.values)                                 # 값 따로
print(s.index)                                  # 인덱스 따로
print("----------------------------")
s.index.name = "도시"                           # 인덱스에도 이름을 지정할 수 있다.
print(s)
print("----------------------------")
s.name = "인구"                                 # Series의 이름을 지정할 수 있다.
print(s)

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64
----------------------------
[9904312 3448737 2890451 2466052]
Index(['서울', '부산', '인천', '대구'], dtype='object')
----------------------------
도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64
----------------------------
도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64


In [13]:
# 벡터화 연산(값에만 영향을 준다)

s1 = s/1000000                     # 시리즈 안에 인덱스도 있지만 값만 연산이 가능하다
print(s1)

도시
서울    9.904312
부산    3.448737
인천    2.890451
대구    2.466052
Name: 인구, dtype: float64


In [8]:
# 인덱싱

print(s[1], s["부산"])                                    #'1'번째 데이터에 접근 / '부산' 값에 접근(가독성이 더 뛰어남)
print("----------------------------------------------")

print(s[[0, 3, 1]], s[["서울", "대구", "부산"]])
print("----------------------------------------------")

print(s[(250e4<s) & (s<500e4)])                           # 지수 사용 가능, 조건문을 이용하여 인덱스 사용가능
print("----------------------------------------------")

print(s[1:3])                                              # 슬라이싱 가능
print("----------------------------------------------")

print(s["부산":"대구"])                                    # 위에껀 n-1로 끝나지만, 이건 부산부터 대구까지 결과가 입력됨
print("----------------------------------------------")

print(s.부산, ",", s.서울)                                  # 인덱스 '.'으로도 접근 가능

3448737 3448737
----------------------------------------------
도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64 도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64
----------------------------------------------
도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64
----------------------------------------------
도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64
----------------------------------------------
도시
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64
----------------------------------------------
3448737 , 9904312


In [9]:
# Series와 dict

print("서울" in s)           # 시리즈에서 내가 찾고자하는 값이 있는지 확인
print("대전" in s)
print("----------------------------------------------")

print(s.items())
for k, v in s.items():
    print("%s = %d"%(k,v))         
print("----------------------------------------------")

s2 = pd.Series({"서울":9631482, "부산":3448737, "인천":5632035, "대전":1490158})  # series에서 dict형식으로 작성 가능
print(s2)

True
False
----------------------------------------------
<zip object at 0x000000000887E548>
서울 = 9904312
부산 = 3448737
인천 = 2890451
대구 = 2466052
----------------------------------------------
서울    9631482
부산    3448737
인천    5632035
대전    1490158
dtype: int64


In [10]:
# 인덱스 기반 연산

print(s)
print("----------------------------------------------")   # s와 s2 대구, 대전 이외의 모든 것은 동일
print(s2)
print("----------------------------------------------")

ds = s - s2                                              # 같은 인덱스를 찾아 연산함
print(ds)                                                # NaN (Not a Number): 숫자가 아니다 / 맞는 인덱스가 없어서 NaN으로 표기됨
print("----------------------------------------------")

print(s.values - s2.values)                              # 인덱스 배제한 상태에서 값으로만 계산. 순서대로 계산해준 것


도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64
----------------------------------------------
서울    9631482
부산    3448737
인천    5632035
대전    1490158
dtype: int64
----------------------------------------------
대구          NaN
대전          NaN
부산          0.0
서울     272830.0
인천   -2741584.0
dtype: float64
----------------------------------------------
[  272830        0 -2741584   975894]


In [11]:
# 결측치 제거

print(ds)                         # 대구와 대전 결측치(값이 빠져있는) 상태임을 알 수 있음
print("----------------------------------------------")
print(ds.notnull())               # 값이 있는 것 True, 값이 없는 것 False
print("----------------------------------------------")
print(ds[ds.notnull()])           # True인 것 만 나타내기
print("----------------------------------------------")
# 인구 증가율 : (끝연도 - 시작연도/시작연도)*100 : s(2010년), s2(2015년) 인구 증가율 알
ds2 = (s2-s)/s *100
print(ds2)
print("----------------------------------------------")
ds2 = ds2[ds.notnull()]
print(ds2)

대구          NaN
대전          NaN
부산          0.0
서울     272830.0
인천   -2741584.0
dtype: float64
----------------------------------------------
대구    False
대전    False
부산     True
서울     True
인천     True
dtype: bool
----------------------------------------------
부산          0.0
서울     272830.0
인천   -2741584.0
dtype: float64
----------------------------------------------
대구          NaN
대전          NaN
부산     0.000000
서울    -2.754659
인천    94.849696
dtype: float64
----------------------------------------------
부산     0.000000
서울    -2.754659
인천    94.849696
dtype: float64


In [57]:
# 데이터를 수정, 삭제, 갱신
ds2["부산"] = 1.63                # 수정
print(ds2)

ds2["대구"] = 1.41                # 삽입
print(ds2)

del ds2["서울"]                  # 삭제
print(ds2)

부산     1.630000
서울    -2.754659
인천    94.849696
대구     1.410000
dtype: float64
부산     1.630000
서울    -2.754659
인천    94.849696
대구     1.410000
dtype: float64
부산     1.630000
인천    94.849696
대구     1.410000
dtype: float64


## DataFrame

In [249]:
data = {
    "2015": [9904312, 3448737, 2890451, 2466052],
    "2010": [9631482, 3393191, 2632035, 2431774],
    "2005": [9762546, 3512547, 2517680, 2456016],
    "2000": [9853972, 3655437, 2466338, 2473990],
    "지역": ["수도권", "경상권", "수도권", "경상권"],
    "2010-2015 증가율": [0.0283, 0.0163, 0.0982, 0.0141]
}

In [250]:
print(type(data))
print(data)

<class 'dict'>
{'2015': [9904312, 3448737, 2890451, 2466052], '2010': [9631482, 3393191, 2632035, 2431774], '2005': [9762546, 3512547, 2517680, 2456016], '2000': [9853972, 3655437, 2466338, 2473990], '지역': ['수도권', '경상권', '수도권', '경상권'], '2010-2015 증가율': [0.0283, 0.0163, 0.0982, 0.0141]}


In [251]:
df = pd.DataFrame(data)          # dict가 데이터 프레임 형식으로 바뀜 / 키값이 필드명으로 변함 / 인덱스(0부터)가 자동으로 붙게됨
print(type(df))
print(df)                        # table형태

<class 'pandas.core.frame.DataFrame'>
      2015     2010     2005     2000   지역  2010-2015 증가율
0  9904312  9631482  9762546  9853972  수도권         0.0283
1  3448737  3393191  3512547  3655437  경상권         0.0163
2  2890451  2632035  2517680  2466338  수도권         0.0982
3  2466052  2431774  2456016  2473990  경상권         0.0141


In [252]:
# 컬럼의 위치 변경
cols = ["지역","2015", "2010", "2005", "2000", "2010-2015 증가율"]
df = pd.DataFrame(data, columns=cols)                                # 원래 있는 정보에서 컬럼의 정보는 따로 입력하겠다
print(df)

    지역     2015     2010     2005     2000  2010-2015 증가율
0  수도권  9904312  9631482  9762546  9853972         0.0283
1  경상권  3448737  3393191  3512547  3655437         0.0163
2  수도권  2890451  2632035  2517680  2466338         0.0982
3  경상권  2466052  2431774  2456016  2473990         0.0141


In [253]:
# 인덱스 변경
idx = ["서울", "부산", "인천", "대구"]
df = pd.DataFrame(data, columns=cols, index=idx)                      # 인덱스 옵션
print(df)

     지역     2015     2010     2005     2000  2010-2015 증가율
서울  수도권  9904312  9631482  9762546  9853972         0.0283
부산  경상권  3448737  3393191  3512547  3655437         0.0163
인천  수도권  2890451  2632035  2517680  2466338         0.0982
대구  경상권  2466052  2431774  2456016  2473990         0.0141


In [254]:
print(df.values)     # 값에만 접근
print(df.columns)    # 컬럼에만 접근
print(df.index)      # 인덱스에만 접근

[['수도권' 9904312 9631482 9762546 9853972 0.0283]
 ['경상권' 3448737 3393191 3512547 3655437 0.0163]
 ['수도권' 2890451 2632035 2517680 2466338 0.0982]
 ['경상권' 2466052 2431774 2456016 2473990 0.0141]]
Index(['지역', '2015', '2010', '2005', '2000', '2010-2015 증가율'], dtype='object')
Index(['서울', '부산', '인천', '대구'], dtype='object')


In [255]:
# 컬럼과 인덱스에도 이름 부여
df.index.name = "도시"
df.columns.name = "특성"
print(df)

특성   지역     2015     2010     2005     2000  2010-2015 증가율
도시                                                        
서울  수도권  9904312  9631482  9762546  9853972         0.0283
부산  경상권  3448737  3393191  3512547  3655437         0.0163
인천  수도권  2890451  2632035  2517680  2466338         0.0982
대구  경상권  2466052  2431774  2456016  2473990         0.0141


In [256]:
# 전치 가능
print(df.T)

df.T                  # jupyter에서만 사용가능

도시                  서울       부산       인천       대구
특성                                               
지역                 수도권      경상권      수도권      경상권
2015           9904312  3448737  2890451  2466052
2010           9631482  3393191  2632035  2431774
2005           9762546  3512547  2517680  2456016
2000           9853972  3655437  2466338  2473990
2010-2015 증가율   0.0283   0.0163   0.0982   0.0141


도시,서울,부산,인천,대구
특성,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
지역,수도권,경상권,수도권,경상권
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2431774
2005,9762546,3512547,2517680,2456016
2000,9853972,3655437,2466338,2473990
2010-2015 증가율,0.0283,0.0163,0.0982,0.0141


In [257]:
# 열(↓) 인덱싱

print(type(df["지역"]))        # dataframe은 기본값이 열(→) 우선, 열 자체가 하나의 series이기 때문
print(type(df[["지역"]]))

df[["2005", "2010"]]          # 두개 이상일땐 두개로 묶어주기, 같은 열일때 가능

# df[0]                       # 인덱스로 접근할때 숫자로 접근하면 안됨

<class 'pandas.core.series.Series'>
<class 'pandas.core.frame.DataFrame'>


특성,2005,2010
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,9762546,9631482
부산,3512547,3393191
인천,2517680,2632035
대구,2456016,2431774


In [258]:
# 행(→) 인덱스 (반드시 : 으로 슬라이싱)

df[:]                            # 행 인덱스는 반드시 ':'로 범위를 지정해야함
df[:1]
df[1:2]
df["서울":"부산"]

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163


In [179]:
# 동시에 행과 열에 접근

df["2005"]["서울"]                    # 열 먼저 지정해줘야함
df[["2005", "2010"]][:"서울"]
# df["2005", "서울"]                  # 이런 형태로는 사용 못함

특성,2005,2010
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,9762546,9631482


In [181]:
# 열 데이터의 갱신, 추가, 삭제

df["2010-2015 증가율"] = df["2010-2015 증가율"] * 100
df

df["2005-2010 증가율"] = ((df["2010"] - df["2005"])/df["2005"]*100).round(2)         # 컬럼 새로 만들기
df

# del df["2010-2015 증가율"]                                                           # 삭제
# df

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,-1.34
부산,경상권,3448737,3393191,3512547,3655437,-3.4
인천,수도권,2890451,2632035,2517680,2466338,4.54
대구,경상권,2466052,2431774,2456016,2473990,-0.99


## 실습  ★시험 2번부터 6개 0.2점씩

In [186]:
data = {
    "국어":[80, 90, 70, 30],
    "영어":[90, 70, 60, 40],
    "수학":[90, 60, 80, 70]
}

df = pd.DataFrame(data)
print(df)

   국어  영어  수학
0  80  90  90
1  90  70  60
2  70  60  80
3  30  40  70


In [247]:
# 1. 인덱스를 춘향, 몽룡, 향단, 방자로 구성된 데이터프레임 df를 작성하시오.
idx = ["춘향", "몽룡", "향단", "방자"]
df = pd.DataFrame(data, index=idx)
print(df)

# 2. 모든 학생의 수학점수를 나타내시오.
df["수학"]


# 3. 모든 학생의 국어와 영어 점수를 나타내시오.
df[["국어","영어"]]

# 4. 모든 학생의 각 과목 평균 점수를 새로운 열로 추가하시오.

# (df["국어"]["춘향"]+df["국어"]["몽룡"]+df["국어"]["향단"]+df["국어"]["방자"])/4

# 5. 방자의 영어 점수를 80점으로 수정하고 평균 점수도 다시 수정하시오.

# 6. 춘향의 점수를 데이터 프레임으로 나타내시오.

# 7. 향단의 점수를 Series로 나타내시오.

    국어  영어  수학
춘향  80  90  90
몽룡  90  70  60
향단  70  60  80
방자  30  40  70


KeyError: 0

## 데이터 입출력

    - read_csv()
    - to_csv()
    - read_table()

In [None]:
# %% 매직명령은 박스 맨위에서 시작해야함
# 현재 작성하는 모든 내용을 파일로 저장할수있다
# 주석을 달아도 그내용도 같이 저장하게됨

In [201]:
%%writefile data/sample1.csv       
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three

Overwriting data/sample1.csv


In [202]:
sample1 = pd.read_csv("data/sample1.csv")           # dataframe의 형태로 불러옴
sample1

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [203]:
%%writefile data/sample2.csv       
1, 1.11, one
2, 2.22, two
3, 3.33, three

Writing data/sample2.csv


In [205]:
sample2 = pd.read_csv("data/sample2.csv", names=["c1", "c2", "c3"])    # 컬럼의 이름 따로 지정 가능
sample2

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [207]:
# 특정한 열을 인덱스로 지정하고자 할때

sample1 = pd.read_csv("data/sample1.csv", index_col="c1") 
sample1

Unnamed: 0_level_0,c2,c3
c1,Unnamed: 1_level_1,Unnamed: 2_level_1
1,1.11,one
2,2.22,two
3,3.33,three


In [208]:
%%writefile data/sample3.txt
c1      c2      c3       c4
0.23    0.33    0.354    0.2389
0.123   0.345   0.567    0.986

Writing data/sample3.txt


In [210]:
sample3 = pd.read_table("data/sample3.txt", sep="\s+")         # txt 파일을 csv로 불러오고싶으면 _table을 입력/ sep(seperate)에는 \s+ 입력하여 한개이상의 반복 공백 나타내줌
sample3

Unnamed: 0,c1,c2,c3,c4
0,0.23,0.33,0.354,0.2389
1,0.123,0.345,0.567,0.986


In [211]:
%%writefile data/sample4.txt
파일제목 : sample4.txt
데이터포맷의 설명:
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three

Writing data/sample4.txt


In [213]:
sample4 = pd.read_csv("data/sample4.txt", skiprows=[0,1])  # '파일제목, 데이터포맷의 설명'건너뛰고 가져오겠습니다~~/ 건너뛸 행의 위치 알려주면됨
sample4

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [215]:
%%writefile data/sample5.csv
c1, c2, c3
1, 1.11, one
2, , two
누락, 3.33, three

Writing data/sample5.csv


In [218]:
sample5 = pd.read_csv("data/sample5.csv", na_values=["누락", " "]) # 결측치 처리해야함/ 불러올때 아예 결측치 빼고 가져오는 방법
sample5   #"누락"빼고 NaN으로 가져오겠다, list로 되어있으니 여러개 입력 가능 / 그럼 나중에 NaN만 골라서 가져올수있음

Unnamed: 0,c1,c2,c3
0,1.0,1.11,one
1,2.0,,two
2,,3.33,three


In [223]:
# csv 파일로 저장

df.to_csv("data/sample6.csv")
df.to_csv("data/sample7.txt", sep="|")   # 구분자 지정
df.to_csv("data/sample8.csv", index=False, header=False) #인덱스 제거, 제목 제거
sample5.to_csv("data/sample9.txt", sep="|", na_rep="누락")  # Nam 값으로 지정한거, 비어있는 값 na_rep 로 입력해줘서 보기 좋게 만들어주기


In [225]:
# 데이터 바로(direct) 다운받아서 쓸수 있게 해주는 사이트
# https://pandas-datareader.readthedocs.io/en/latest/index.html

#데이터 저장소 사이트
# https://fred.stlouisfed.org/series/GDP : 국가 총생산
# https://fred.stlouisfed.org/series/CPIAUCSL : 소비자 가격지수
# https://fred.stlouisfed.org/series/CPILFESL : 식료품 및 연료를 제외한 소비자 가격지수

In [226]:
# !pip install pandas_datareader

Collecting pandas_datareader
  Downloading https://files.pythonhosted.org/packages/14/52/accb990baebe0063977f26e02df36aa7eb4015ed4e86f828cd76273cd6f1/pandas_datareader-0.8.1-py2.py3-none-any.whl (107kB)
Installing collected packages: pandas-datareader
Successfully installed pandas-datareader-0.8.1


In [228]:
import pandas_datareader as pdr

gdp = pdr.get_data_fred("GDP")            # 위 GDP에서 제공하는 데이터 파일 바로 가져올수있음
gdp

Unnamed: 0_level_0,GDP
DATE,Unnamed: 1_level_1
2015-04-01,18219.405
2015-07-01,18344.713
2015-10-01,18350.825
2016-01-01,18424.283
2016-04-01,18637.253
2016-07-01,18806.743
2016-10-01,18991.883
2017-01-01,19190.431
2017-04-01,19356.649
2017-07-01,19611.704


In [244]:
inflation = pdr.get_data_fred(["CPIAUCSL", "CPILFESL"])
inflation

Unnamed: 0_level_0,CPIAUCSL,CPILFESL
DATE,Unnamed: 1_level_1,Unnamed: 2_level_1
2015-02-01,235.236,240.141
2015-03-01,236.005,240.739
2015-04-01,236.156,241.337
2015-05-01,236.974,241.628
2015-06-01,237.684,242.036
2015-07-01,238.053,242.504
2015-08-01,238.028,242.79
2015-09-01,237.506,243.324
2015-10-01,237.781,243.786
2015-11-01,238.016,244.33


## 고급 인덱싱 : indexer

    - loc : 라벨값 기반의 2차원 인덱싱을 지원하는 인덱서
    - iloc : 순서를 나타내는 정수 기반의 2차원 인덱서
    - ix 
    - at : 스칼라값
    - iat

### loc

In [261]:
df = pd.DataFrame(np.arange(10, 22).reshape(3, 4), index=["a", "b","c"],
            columns=["A", "B", "C", "D"])
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [262]:
# df[:"a"]                       # 기본인덱스 에선 : 써줬었는데
df.loc["a"]                      # 고급 인덱스 이므로 [] 사용 # : 쓸 필요없이 행으로 나열해준다 # 고급 인덱스는 '행'이 우선, 기본인덱스는 '열'이 우선
print(type(df.loc["a"]))         # 시리즈 타입인거 확인

df.loc["a":"b"]                  # 범위를 이용하여 원하는 행 필터링 하여 이용하기
df["a":"b"]                      # 범위 이용하는거는 기본, 고급 인덱스 둘다 똑같음

df.A > 15                        # A열에 있는 값이 15보다 큰지의 여부 T, F로 알아보기 / 이걸로 인덱스 사용할수있음
df.loc[df.A>15]                  # 기준에 맞는 하나의 행만을 뽑아서 나옴. '행'이 우선이기 때문에

def select_rows(df, num):        # 위에 거  df.loc[df.A>15]  를 함수로 만들어보기
    return df.A > num

select_rows(df, 15)
df.loc[select_rows(df, 15)]

<class 'pandas.core.series.Series'>


Unnamed: 0,A,B,C,D
c,18,19,20,21


In [271]:
# 인덱싱을 행과 열로 모두 받을 경우

df["A"]["b"]
df.loc["b"]["A"]

# df["A", "b"]       # 기본은 이런 형식 안됨
df.loc["b", "A"]     # 고급은 나름 자유로움
df.loc["b":, "A"]    # 행은 b부터 끝까지 열은 A열만
df.loc["a", :]
df.loc[["a", "b"], ["B", "C"]]

# 모든 행에 대해서 첫번째 행에 있는 값이 11보다 작거나 같은 행의 컬럼을 추출
df.loc[:, df.loc["a", :] <= 11]

Unnamed: 0,A,B
a,10,11
b,14,15
c,18,19


### iloc

In [277]:
# df.loc[0, 1]
df.iloc[0, 1]     # 숫자로 처리해야할때

# df.iloc["a", "B"]  # iloc 문자 처리 못함
df.iloc[:2, 2]
df.iloc[0, -2:]

"""
아래와 같은 형식이 나오게 작성하기

    B     C
c   19    20

"""

df.iloc[2:, 1:3]

Unnamed: 0,B,C
c,19,20


### at

In [280]:
%timeit df.loc["a", "A"]
%timeit df.at["a", "A"]          # loc 보다 시간이 덜 걸렸음을 알수있음

6.21 µs ± 50.9 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
3.9 µs ± 44.9 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


## 데이터 조작

In [61]:
# 데이터의 개수

s = pd.Series(range(10))
s.count()            # 10이 나옴

s[3] = np.nan       # 3 결측치
s.count()           # 결측치 3의 값은 세지 않았기에 9가 나옴

np.random.seed(2)
df = pd.DataFrame(np.random.randint(5, size=(4, 4)), dtype=float)
df.count()                                                             # 각각의 카테고리별로 개수를 세줬음을 볼수있음

df.iloc[2, 3] = np.nan           # 2행 3열에 있는 값 결측치
df.count()                       # 결측치가 세어지지 않았음을 볼 수 있음

import seaborn as sns
tatinic = sns.load_dataset("titanic")
tatinic.count()

survived       891
pclass         891
sex            891
age            714
sibsp          891
parch          891
fare           891
embarked       889
class          891
who            891
adult_male     891
deck           203
embark_town    889
alive          891
alone          891
dtype: int64

In [62]:
# 카테고리별로 값 세기 : value_counts()

np.random.seed(1)

s2 = pd.Series(np.random.randint(6, size=100))        # 0부터 6사이의 값 100개를 만들겠다
s2.head(10)    # s2.tail(10)  : 뒤에서부터 원하는 데이터 받을수있다

s2.value_counts()        # 각 값별로 몇개가 나왔는지 개수 세어주는것
# df.value_counts()      # 얘는 series에서만 쓸수 있는 함수다 
df[0].value_counts()     # series를 별도로 뽑아서 사용해야한다

3.0    2
4.0    1
0.0    1
Name: 0, dtype: int64

In [63]:
# 정렬 : sort_index(), sort_values()
# 결측치는 정렬의 대상이 되지 않는다.

s2.value_counts().sort_index()              # 이름대로 나열
s.sort_values()                             # 결측치는 가장 밑으로 가게 된다
s.sort_values(ascending=False)             # 기본값이 오름값이므로 ascending=False 로 하면 내림차순, Nan값은 정렬의 대상이 되지 않음

print(df)
df.sort_values(by=2)                       # 2번째 열을 기준으로 하여 정렬을 시킬 수 있다 / 2번째열의 오름차순으로 정렬 된 것을 볼 수 있다.
df.sort_values(by=[1, 2])                  # 정렬된 것 안에 같은 값이 있을 경우, 2번째 기준을 지정할 수 있다

     0    1    2    3
0  0.0  0.0  3.0  2.0
1  3.0  0.0  2.0  1.0
2  3.0  2.0  4.0  NaN
3  4.0  3.0  4.0  2.0


Unnamed: 0,0,1,2,3
1,3.0,0.0,2.0,1.0
0,0.0,0.0,3.0,2.0
2,3.0,2.0,4.0,
3,4.0,3.0,4.0,2.0


In [30]:
personDf = pd.DataFrame({"seq":[1, 3, 2], "name":["park", "lee", "choi"], "age":[30, 20, 40]})
personDf

Unnamed: 0,seq,name,age
0,1,park,30
1,3,lee,20
2,2,choi,40


In [71]:
### seq를 기준으로 정렬 : by는 필수
personDf.sort_values(by=["seq"], axis=0)                      # 축 기준 axis, 0 열 기준, 1 행기준 / 기본적으로 values는 axis=0으로 잡혀있음
# personDf.sort_values()                                      # dataframe에서 정렬할때는 by를 필수적으로 써야한다  
personDf.sort_values(by=["seq"], axis=0, ascending=False) 

# personDf.sort_index()
# personDf.sort_index(axis=1)                                  # index에서 axis 하면 기준을 바꿔줄수있다
# personDf.sort_index(axis=1, ascending=False)

### inplace : 원본 자체를 바꿔버리는거 
# personDf = personDf.sort_index(axis=1)                      # 대입(할당)하는 방법
# personDf

personDf.sort_values(by=["seq","name"], axis=0, ascending=False, inplace=True)                    # inplace 사용하면 바로 위에처럼 값을 할당하지 않아도 원본 자체를 바꿔버린다.
personDf

### 결측치의 위치 선정
personDf = pd.DataFrame({"seq":[1, 3, np.nan], "name":["park", "lee", "choi"], "age":[30, 20, 40]})
personDf

personDf.sort_values(by=["seq"], na_position="first")       # 기본값은 결측치 맨 밑(na_position="last")에 쌓이게 되지만, "first"로 입력시 처음에 입력됨
personDf.sort_values(by=["seq"], na_position="last")  

Unnamed: 0,seq,name,age
0,1.0,park,30
1,3.0,lee,20
2,,choi,40


In [81]:
# 행, 열의 합계
np.random.seed(1) # 난수 고정

df = pd.DataFrame(np.random.randint(10, size=(4, 8)))
df

Unnamed: 0,0,1,2,3,4,5,6,7
0,5,8,9,5,0,0,1,7
1,6,9,2,4,5,2,4,2
2,4,7,7,9,1,7,0,6
3,9,9,7,6,9,1,0,1


In [82]:
df.sum()            # 열(↓)의 합계
df.sum(axis=1)      # axis=0 열(↓)의 기준값, axis=1 행(→)의 기준값

df.loc["ColSum", :] = df.sum(axis=0)         # 행에 둘거니까 :
df

Unnamed: 0,0,1,2,3,4,5,6,7
0,5.0,8.0,9.0,5.0,0.0,0.0,1.0,7.0
1,6.0,9.0,2.0,4.0,5.0,2.0,4.0,2.0
2,4.0,7.0,7.0,9.0,1.0,7.0,0.0,6.0
3,9.0,9.0,7.0,6.0,9.0,1.0,0.0,1.0
colsum,24.0,33.0,25.0,24.0,15.0,10.0,5.0,16.0


In [83]:
df.sum(axis=1)
df["RowSum"]=df.sum(axis=1)
df

Unnamed: 0,0,1,2,3,4,5,6,7,RowSum
0,5.0,8.0,9.0,5.0,0.0,0.0,1.0,7.0,35.0
1,6.0,9.0,2.0,4.0,5.0,2.0,4.0,2.0,34.0
2,4.0,7.0,7.0,9.0,1.0,7.0,0.0,6.0,41.0
3,9.0,9.0,7.0,6.0,9.0,1.0,0.0,1.0,42.0
colsum,24.0,33.0,25.0,24.0,15.0,10.0,5.0,16.0,152.0


### apply
    
    행이나 열 단위로 더 복잡한 처리를 하고자 할때 사용
    인수로 행 또는 열을 받는 함수를 apply()의 인수로 넣으면 각 열(또는 행)을 반복하여 그 함수에 적용
    (파이썬의 map 함수와 비슷)
    (원하는 함수를 호출해주는 함수)

In [86]:
df = pd.DataFrame({
    "A":[1, 3, 4, 3, 4],
    "B":[2, 3, 1, 2, 3],
    "C":[1, 5, 2, 4, 4]    
})

df

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [89]:
def diff(x):                        # 열별로 '최대값 - 최소값' 알려주는 함수
    return x.max() - x.min()

df.apply(diff)                      # 함수값을 x에 넣어주는방법

df.apply(diff, axis=1)              # 행별로 알고싶을때

0    1
1    2
2    3
3    2
4    1
dtype: int64

In [90]:
df.apply(lambda x:x.max() - x.min())

A    3
B    2
C    4
dtype: int64

In [94]:
### 각 열에 대해 어떤 값이 얼마나 사용되었는지 알고 싶다
# df["A"].value_counts()
# df["B"].value_counts()
# df["C"].value_counts()

df.apply(pd.value_counts)               # 주소를 넘겨주어 apply가 반복하여 각 열마다 함수를 처리할 수 있게끔해준다.

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,,2.0,1.0
3,2.0,2.0,
4,2.0,,2.0
5,,,1.0


In [95]:
### NaN값을 원하는 값으로 변경 : fillna()
df.apply(pd.value_counts).fillna(0)            # NaN값을 0으로 변경

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0


#### 자료에 대한 구분

    * 질적 : 숫자X
        -> 명목

    * 양적 : 숫자 0
        -> 이산 : 셀수있음 ex) 아파트 15층
        -> 연속 : 셀수없음 ex) 몸무게의 증가(87->90 점점 증가하는거니)
                                나이 (23살 몇월 몇일 몇분.....)

In [103]:
# 실수값을 카테고리로 변경(양적 데이터 -> 질적 데이터) : cut(), qcut()

ages = [0, 2, 10, 21, 23, 37, 31, 61, 20, 41, 32, 100]

bins = [1, 15, 25, 35, 60, 99]      # bins 기준값 입력 # ages의 값들을 bins으로 구분짓겠다 1-15세, 15-25세 등등
labels = ["미성년자", "청년", "중년", "장년", "노년"]

cat = pd.cut(x=ages, bins=bins, labels=labels)
print(cat)

print("------------------------------------------------------------------------------------")

print(type(cat))                # 질적데이터 중 명목
print(cat.categories)
print(cat.codes)

print("------------------------------------------------------------------------------------")

df = pd.DataFrame(ages, columns=["ages"])
df
df["age_cat"] = cat
df

[NaN, 미성년자, 미성년자, 청년, 청년, ..., 노년, 청년, 장년, 중년, NaN]
Length: 12
Categories (5, object): [미성년자 < 청년 < 중년 < 장년 < 노년]
------------------------------------------------------------------------------------
<class 'pandas.core.arrays.categorical.Categorical'>
Index(['미성년자', '청년', '중년', '장년', '노년'], dtype='object')
[-1  0  0  1  1  3  2  4  1  3  2 -1]
------------------------------------------------------------------------------------


Unnamed: 0,ages,age_cat
0,0,
1,2,미성년자
2,10,미성년자
3,21,청년
4,23,청년
5,37,장년
6,31,중년
7,61,노년
8,20,청년
9,41,장년


In [107]:
data = np.random.randn(1000)                                         # 평균 0 분산, 표준편차 1 인 정규분포안에서 난수 뽑아줌
cat = pd.qcut(data, 4, labels=["Q1", "Q2", "Q3", "Q4"])              # 전체 데이터 4등분으로 나누겠다(개수 동일하게 나눠줌)
cat

pd.value_counts(cat) # 동일하게 나눠졌는지 개수 확인

Q4    250
Q3    250
Q2    250
Q1    250
dtype: int64

## 인덱스 조작

    set_index()
    reset_index()

In [114]:
np.random.seed(0)

df1 = pd.DataFrame(np.vstack([list("ABCDE"), np.round(np.random.rand(3, 5), 2)]).T,
                   columns=["C1", "C2", "C3", "C4"])
df1

Unnamed: 0,C1,C2,C3,C4
0,A,0.55,0.65,0.79
1,B,0.72,0.44,0.53
2,C,0.6,0.89,0.57
3,D,0.54,0.96,0.93
4,E,0.42,0.38,0.07


In [117]:
list("ABCDE")
np.random.rand(3, 5)            # 임의의 난수 3행 5열로 만들기

np.vstack([list("ABCDE"), np.round(np.random.rand(3, 5), 2)]).T   # np.vstack을 이용해서 list를 위로 쌓기 
                                                                  # / np.round(  ,2) : 소숫점자리 2 / .T 하면 전치 시켜줘서 4열 갖음

# 이거 이용해서 위에꺼 만들기

array([['A', '0.26', '0.62', '0.36'],
       ['B', '0.77', '0.61', '0.44'],
       ['C', '0.46', '0.62', '0.7'],
       ['D', '0.57', '0.94', '0.06'],
       ['E', '0.02', '0.68', '0.67']], dtype='<U32')

In [118]:
# 내가 원하는 컬럼으로 인덱스를 변경하고자 할때
df2 = df1.set_index("C1")            # C1 컬럼에 있는것을 index로 삼겠다
df2

Unnamed: 0_level_0,C2,C3,C4
C1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,0.55,0.65,0.79
B,0.72,0.44,0.53
C,0.6,0.89,0.57
D,0.54,0.96,0.93
E,0.42,0.38,0.07


In [126]:
# df2.set_index("C2")          # 이 결과값은 별도로 따로 보관된 값이기 때문에
df2                            # df2의 본래의 값이 변하진 않음

df2.reset_index()              # df2가 가져온 원래의 값을 보여줌 # 이것도 별도로 따로 보관됨, df2의 본래의 값이 변하진 않음
df2.reset_index(drop=True)    # 그전에 인덱스한거(C1) 버리기

Unnamed: 0,C2,C3,C4
0,0.55,0.65,0.79
1,0.72,0.44,0.53
2,0.6,0.89,0.57
3,0.54,0.96,0.93
4,0.42,0.38,0.07


## 다중 인덱스 조작

In [143]:
np.random.seed(0)

df3 = pd.DataFrame(np.round(np.random.randn(5, 4), 2),
                 columns=[["A", "A", "B", "B"], ["C1", "C2", "C1", "C2"]])  #C1, C2 묶어서 A, C3, C4 묶어서 B로 만듦. 2중 인덱스
df3

df3.columns.names = ["Cidx1", "Cidx2"]  # 각 컬럼에 이름붙이기, 컬럼이 2개이니 이름도 2개 붙이기 가능
df3

Cidx1,A,A,B,B
Cidx2,C1,C2,C1,C2
0,1.76,0.4,0.98,2.24
1,1.87,-0.98,0.95,-0.15
2,-0.1,0.41,0.14,1.45
3,0.76,0.12,0.44,0.33
4,1.49,-0.21,0.31,-0.85


In [134]:
np.random.seed(0)

df4 = pd.DataFrame(np.round(np.random.randn(6, 4), 2),
                 columns=[["A", "A", "B", "B"], ["C", "D", "C", "D"]],
                  index=[["M","M","M","F","F","F"], ["id_" + str(i+1) for i in range(3)]*2])
df4

df4.columns.names = ["Cidx1", "Cidx2"]  # 각 컬럼에 이름 붙이기, 컬럼이 2개이니 이름도 2개 붙이기 가능
df4.index.names = ["Ridx1", "Ridx2"]    # 각 인덱스에 이름 붙이기
df4

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,1.76,0.4,0.98,2.24
M,id_2,1.87,-0.98,0.95,-0.15
M,id_3,-0.1,0.41,0.14,1.45
F,id_1,0.76,0.12,0.44,0.33
F,id_2,1.49,-0.21,0.31,-0.85
F,id_3,-2.55,0.65,0.86,-0.74


In [132]:
#위의 식에 넣기 

["id_" + str(i+1) for i in range(3)]*2      # index[M(0) M(1) M(2) F(0) F(1) F(2)] 시키는거 

['id_1', 'id_2', 'id_3']

In [139]:
# 행 인덱스와 열 인덱스 교환 : stack() - 열을 행으로 바꿔주기, unstack() - 행을 열로 바꿔주기

df4.stack("Cidx1")
df4.stack(1)          # Cidx1 이 '0', Cidx2 는 '1'

df4.unstack("Ridx2")
df4.unstack(0)

Cidx1,A,A,A,A,B,B,B,B
Cidx2,C,C,D,D,C,C,D,D
Ridx1,F,M,F,M,F,M,F,M
Ridx2,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3
id_1,0.76,1.76,0.12,0.4,0.44,0.98,0.33,2.24
id_2,1.49,1.87,-0.21,-0.98,0.31,0.95,-0.85,-0.15
id_3,-2.55,-0.1,0.65,0.41,0.86,0.14,-0.74,1.45


In [166]:
# 인덱싱
print(df3)
print("----------------------------------------------------")

df3[("B", "C1")]
df3[("B", "C1")][0]            # 열로 먼저 접근, 후에 행 접근

df3.loc[0, ("B", "C1")]        # 행으로 먼저 접근하는 방법
df3.loc[0:2, ("B", "C1")]

df3.iloc[0, 2]  

Cidx1     A           B      
Cidx2    C1    C2    C1    C2
0      1.76  0.40  0.98  2.24
1      1.87 -0.98  0.95 -0.15
2     -0.10  0.41  0.14  1.45
3      0.76  0.12  0.44  0.33
4      1.49 -0.21  0.31 -0.85
----------------------------------------------------


0.98

In [289]:
#### df4를 이용해서 인덱

# 첫번째 행, 첫번째 열에 있는 1.76 출력
df4.iloc[0,0]

df4.loc[("M", "id_1"), ("A","C")]

# 첫번째 열 1.76 ~ -2.55까지 출력
df4.loc[:, ("A", "C")]

# 첫번째 행의 모든 컬럼값을 출력
df4.loc[("M", "id_1"), :]

# 맨 마지막 행에 "All"이란 인덱스를 추가해서 각 열의 합을 출력
df4.loc[("ALL","ALL"),:] = df4.sum()
df4

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,1.76,0.4,0.98,2.24
M,id_2,1.87,-0.98,0.95,-0.15
M,id_3,-0.1,0.41,0.14,1.45
F,id_1,0.76,0.12,0.44,0.33
F,id_2,1.49,-0.21,0.31,-0.85
F,id_3,-2.55,0.65,0.86,-0.74
ALL,ALL,3.23,0.39,3.68,2.28


In [178]:
### 다중 인덱스의 인덱스 순서 교환 : swaplevel(i, j, axis)
# axis의 default는 0

df5 = df4.swaplevel("Ridx1", "Ridx2", axis=0)
df5

df6 = df4.swaplevel("Cidx1", "Cidx2", axis=1)         # 행으로 바꿀것이므로 axis=1
df6

Unnamed: 0_level_0,Cidx2,C,D,C,D
Unnamed: 0_level_1,Cidx1,A,A,B,B
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,1.76,0.4,0.98,2.24
M,id_2,1.87,-0.98,0.95,-0.15
M,id_3,-0.1,0.41,0.14,1.45
F,id_1,0.76,0.12,0.44,0.33
F,id_2,1.49,-0.21,0.31,-0.85
F,id_3,-2.55,0.65,0.86,-0.74


In [184]:
# 정렬 : sort_index(level)

df4.sort_index(level=0)                 # index All, F, M 영문 순으로 나열하게됨
df4.sort_index(level=0, axis=1)         

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,1.76,0.4,0.98,2.24
M,id_2,1.87,-0.98,0.95,-0.15
M,id_3,-0.1,0.41,0.14,1.45
F,id_1,0.76,0.12,0.44,0.33
F,id_2,1.49,-0.21,0.31,-0.85
F,id_3,-2.55,0.65,0.86,-0.74


In [185]:
# 실습

df_score1 = pd.DataFrame({
    "반":["A", "A", "B", "A", "B", "B", "B", "A", "B", "A"],
    "번호" : [1, 2, 1, 3, 2, 3, 4, 4, 5, 5],
    "국어" : [79, 67, 88, 68, 92, 54, 67, 88, 97, 85],
    "영어" : [55, 77, 44, 67, 86, 45, 78, 58, 90, 67],
    "수학" : [57, 45, 76, 68, 89, 67, 99, 78, 89, 90]
})
df_score1

Unnamed: 0,반,번호,국어,영어,수학
0,A,1,79,55,57
1,A,2,67,77,45
2,B,1,88,44,76
3,A,3,68,67,68
4,B,2,92,86,89
5,B,3,54,45,67
6,B,4,67,78,99
7,A,4,88,58,78
8,B,5,97,90,89
9,A,5,85,67,90


In [None]:
"""
        국어	영어	수학
반	번호	
A	1	79	55	57
    2	67	77	45
    3	68	67	68
    4	88	58	78
    5	85	67	90
B	1	88	44	76
    2	92	86	89
    3	54	45	67
    4	67	78	99
    5	97	90	89
"""

"""
        국어	영어	수학	평균
반	번호	
A	1	79	55	57	63.67
    2	67	77	45	63.00
    3	68	67	68	67.67
    4	88	58	78	74.67
    5	85	67	90	80.67
B	1	88	44	76	69.33
    2	92	86	89	89.00
    3	54	45	67	55.33
    4	67	78	99	81.33
    5	97	90	89	92.00
"""

"""
        국어	영어	수학
반	A	B	A	B	A	B
번호	
1	79	88	55	44	57	76
2	67	92	77	86	45	89
3	68	54	67	45	68	67
4	88	67	58	78	78	99
5	85	97	67	90	90	89
"""

"""
국어	영어	수학
반	A	B	A	B	A	B
번호	
1	79.0	88.0	55.0	44.0	57.0	76.0
2	67.0	92.0	77.0	86.0	45.0	89.0
3	68.0	54.0	67.0	45.0	68.0	67.0
4	88.0	67.0	58.0	78.0	78.0	99.0
5	85.0	97.0	67.0	90.0	90.0	89.0
평균	77.4	79.6	64.8	68.6	67.6	84.0
"""

## 데이터 프레임 병합(합성)

### merge()

    - 두 데이터 프레임의 공통 열 또는 인덱스를 기준으로 두 개의 테이블을 합친다
    이때 기준이 되는 열, 행의 데이터를 key라고 한다.

In [186]:
df1 = pd.DataFrame({
    "고객번호":[1001, 1002, 1003, 1004, 1005, 1006, 1007],
    "이름":["둘리", "도우너", "또치", "길동", "희동", "마이콜", "영희"]
})
print(df1)

df2 = pd.DataFrame({
    "고객번호":[1001, 1001, 1005, 1006, 1008, 1001],
    "금액":[10000, 20000, 15000, 5000, 100000, 30000]
})
print(df2)

   고객번호   이름
0  1001   둘리
1  1002  도우너
2  1003   또치
3  1004   길동
4  1005   희동
5  1006  마이콜
6  1007   영희
   고객번호      금액
0  1001   10000
1  1001   20000
2  1005   15000
3  1006    5000
4  1008  100000
5  1001   30000


In [190]:
pd.merge(df1, df2)               # sql의 join 역할 # 금액이 있는 고객만 나오는 중 / '도우너', '또치', '1008' 등등 빠진 형태

pd.merge(df1, df2, how="left")   # sql의 left outer join 역할

pd.merge(df1, df2, how="right")  # sql의 right outer join 역할

pd.merge(df1, df2, how="outer")  # full outer join 역할 : 양쪽 테이블에 있는거 다 가져오기

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000.0
1,1001,둘리,20000.0
2,1001,둘리,30000.0
3,1002,도우너,
4,1003,또치,
5,1004,길동,
6,1005,희동,15000.0
7,1006,마이콜,5000.0
8,1007,영희,
9,1008,,100000.0


In [191]:
df1 = pd.DataFrame({
    "품종":["setosa", "setosa", "virginica", "virginica"],
    "꽃잎길이":[1.4, 1.3, 1.5, 1.3]
})
print(df1)
print("----------------------")

df2 = pd.DataFrame({
    "품종":["setosa", "virginica", "virginica", "virsicolor"],
    "꽃잎너비":[0.4, 0.3, 0.5, 0.3]
})
print(df2)

          품종  꽃잎길이
0     setosa   1.4
1     setosa   1.3
2  virginica   1.5
3  virginica   1.3
----------------------
           품종  꽃잎너비
0      setosa   0.4
1   virginica   0.3
2   virginica   0.5
3  virsicolor   0.3


In [192]:
pd.merge(df1, df2)

Unnamed: 0,품종,꽃잎길이,꽃잎너비
0,setosa,1.4,0.4
1,setosa,1.3,0.4
2,virginica,1.5,0.3
3,virginica,1.5,0.5
4,virginica,1.3,0.3
5,virginica,1.3,0.5


In [194]:
# 키가 여러 개 인 경우

df1 = pd.DataFrame({
    "고객명":["춘향", "춘향", "몽룡"],
    "날짜":["2019-01-01", "2019-01-02", "2019-01-03"], 
    "데이터":["20000", "30000", "100000"]
})

print(df1)
print("---------------------------------------------------")

df2 = pd.DataFrame({
    "고객명":["춘향", "몽룡"],
    "데이터":["여자", "남자"]
})

print(df2)

  고객명          날짜     데이터
0  춘향  2019-01-01   20000
1  춘향  2019-01-02   30000
2  몽룡  2019-01-03  100000
---------------------------------------------------
  고객명 데이터
0  춘향  여자
1  몽룡  남자


In [195]:
 pd.merge(df1, df2, on="고객명")   # 키 값이 여러개 있을 경우 지정해준다 # 위 예시에는 '고객명', '데이터'가 키값이 될 수 있다.

Unnamed: 0,고객명,날짜,데이터_x,데이터_y
0,춘향,2019-01-01,20000,여자
1,춘향,2019-01-02,30000,여자
2,몽룡,2019-01-03,100000,남자


In [197]:
# 공통된 키가 없는 경우

df1 = pd.DataFrame({
    "이름":["영희", "철수", "철수"],
    "성적":[1, 2, 3]
})

print(df1)
print("-------------------------------------------")

df2 = pd.DataFrame({
    "성명":["영희", "영희", "철수"],
    "점수":[4, 5, 6]
})

print(df2)

   이름  성적
0  영희   1
1  철수   2
2  철수   3
-------------------------------------------
   성명  점수
0  영희   4
1  영희   5
2  철수   6


In [198]:
pd.merge(df1, df2, left_on="이름", right_on="성명")      # '이름'과 '성명' 비슷한 성질들끼리 묶어주기

Unnamed: 0,이름,성적,성명,점수
0,영희,1,영희,4
1,영희,1,영희,5
2,철수,2,철수,6
3,철수,3,철수,6


In [206]:
# 인덱스를 기준열로 사용하는 경우(한쪽은 컬럼, 한쪽은 인덱스)

df1 = pd.DataFrame({
    '도시': ['서울', '서울', '서울', '부산', '부산'],
    '연도': [2000, 2005, 2010, 2000, 2005],
    '인구': [9853972, 9762546, 9631482, 3655437, 3512547]})

print(df1)


df2 = pd.DataFrame(
    np.arange(12).reshape((6, 2)),
    index=[['부산', '부산', '서울', '서울', '서울', '서울'],
           [2000, 2005, 2000, 2005, 2010, 2015]],
    columns=['데이터1', '데이터2'])

df2

   도시    연도       인구
0  서울  2000  9853972
1  서울  2005  9762546
2  서울  2010  9631482
3  부산  2000  3655437
4  부산  2005  3512547


Unnamed: 0,Unnamed: 1,데이터1,데이터2
부산,2000,0,1
부산,2005,2,3
서울,2000,4,5
서울,2005,6,7
서울,2010,8,9
서울,2015,10,11


In [207]:
# 비슷한 성질을 가진 애들을 보면 / 한쪽은 컬럼, 한쪽은 인덱스로 구성되어있음
# df2 는 도시명과 연도가 index로 한번에 묶여있음. 그래서 df1도 도시와 연도를묶어줘야한다

pd.merge(df1, df2, left_on = ["도시", "연도"], right_index=True) 

Unnamed: 0,도시,연도,인구,데이터1,데이터2
0,서울,2000,9853972,4,5
1,서울,2005,9762546,6,7
2,서울,2010,9631482,8,9
3,부산,2000,3655437,0,1
4,부산,2005,3512547,2,3


In [209]:
# 인덱스를 기준열로 사용하는 경우(둘 다 인덱스)

df1 = pd.DataFrame(
    [[1., 2.], [3., 4.], [5., 6.]],
    index=['a', 'c', 'e'],
    columns=['서울', '부산'])
print(df1)
print("------------------------------")


df2 = pd.DataFrame(
    [[7., 8.], [9., 10.], [11., 12.], [13, 14]],
    index=['b', 'c', 'd', 'e'],
    columns=['대구', '광주'])
print(df2)
print("------------------------------")

    서울   부산
a  1.0  2.0
c  3.0  4.0
e  5.0  6.0
------------------------------
     대구    광주
b   7.0   8.0
c   9.0  10.0
d  11.0  12.0
e  13.0  14.0
------------------------------


In [213]:
pd.merge(df1, df2, left_index=True, right_index=True)                 # 양쪽 매칭되는 것만 가져옴
pd.merge(df1, df2, left_index=True, right_index=True, how="outer")    # 매칭 안되는것까지 다 가져옴

Unnamed: 0,서울,부산,대구,광주
a,1.0,2.0,,
b,,,7.0,8.0
c,3.0,4.0,9.0,10.0
d,,,11.0,12.0
e,5.0,6.0,13.0,14.0


In [216]:
df1.join(df2)                   # 왼쪽에 먼저사용하는 함수를 이용해서 왼쪽의 값 전체를 가져옴
df1.join(df2, how="outer")      # 왼쪽으로 기준으로 하고 다 가져옴

Unnamed: 0,서울,부산,대구,광주
a,1.0,2.0,,
b,,,7.0,8.0
c,3.0,4.0,9.0,10.0
d,,,11.0,12.0
e,5.0,6.0,13.0,14.0


## concat()
    - 기준 열을 사용하지 않고 단순히 데이터를 연결

In [217]:
s1 = pd.Series([0, 1], index=["A", "B"])
s2 = pd.Series([2, 3, 4], index=["A", "B", "C"])

pd.concat([s1, s2])    # 두개라서 []리스트로 묶어줘야함

A    0
B    1
A    2
B    3
C    4
dtype: int64

In [218]:
df1 = pd.DataFrame(
    np.arange(6).reshape(3, 2),
    index=['a', 'b', 'c'],
    columns=['데이터1', '데이터2'])
print(df1)
print("------------------------------")

df2 = pd.DataFrame(
    5 + np.arange(4).reshape(2, 2),
    index=['a', 'c'],
    columns=['데이터3', '데이터4'])
print(df2)
print("------------------------------")

   데이터1  데이터2
a     0     1
b     2     3
c     4     5
------------------------------
   데이터3  데이터4
a     5     6
c     7     8
------------------------------


In [221]:
pd.concat([df1, df2])
pd.concat([df1, df2], axis=0)           # 열을 기준으로
pd.concat([df1, df2], axis=1)           # 행을 기준으로

of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  """Entry point for launching an IPython kernel.
of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  
of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  This is separate from the ipykernel package so we can avoid doing imports until


Unnamed: 0,데이터1,데이터2,데이터3,데이터4
a,0,1,5.0,6.0
b,2,3,,
c,4,5,7.0,8.0


In [None]:
"""
어느 회사의 전반기(1월 ~ 6월) 실적을 나타내는 데이터프레임과 
후반기(7월 ~ 12월) 실적을 나타내는 데이터프레임을 만든 뒤 합친다. 
실적 정보는 "매출", "비용", "이익" 으로 이루어진다. (이익 = 매출 - 비용).
또한 1년간의 총 실적을 마지막 행으로 덧붙인다.
(만들때는 매출, 비용/ 이익 컬럼은 따로 추가/ 맨 마지막 해에는 총 실적으로 합계 내주기)

전반기실적
==========
매출	비용
1월	1000	1500
2월	1500	2000
3월	3000	2500
4월	4000	2700
5월	5000	3000
6월	6000	3200

후반기실적
==========
매출	비용
7월	4500	2800
8월	4000	2700
9월	5000	3000
10월	6000	3200
11월	3000	2500
12월	2000	2000
"""

## 피봇 테이블과 그룹 분석 : pivot(), groupby(), pivot_table()

### pivot
    - DataFrame.pivot(self, index=None, columns=None, values=None)

In [222]:
data = {
    "도시": ["서울", "서울", "서울", "부산", "부산", "부산", "인천", "인천"],
    "연도": ["2015", "2010", "2005", "2015", "2010", "2005", "2015", "2010"],
    "인구": [9904312, 9631482, 9762546, 3448737, 3393191, 3512547, 2890451, 263203],
    "지역": ["수도권", "수도권", "수도권", "경상권", "경상권", "경상권", "수도권", "수도권"]
}

df = pd.DataFrame(data)
df

Unnamed: 0,도시,연도,인구,지역
0,서울,2015,9904312,수도권
1,서울,2010,9631482,수도권
2,서울,2005,9762546,수도권
3,부산,2015,3448737,경상권
4,부산,2010,3393191,경상권
5,부산,2005,3512547,경상권
6,인천,2015,2890451,수도권
7,인천,2010,263203,수도권


In [234]:
### 각 도시에서 연도별로 인구수를 알고싶다
# 먼저 기준으로 삼고싶은 애 index로 
# 그다음으로 나누고픈거는? 연도, 결국 컬럼으로 나누어준다 
# 결국 궁극적으로 알고 싶은것 values

df.pivot(index="도시", columns="연도", values="인구")    

# 순서대로 값을 넘겨줄것같으면
df.pivot("도시", "연도", "인구")

# 원본이 바뀐것은 아니다 / 별도로 따로 보관되어있음
df

# 하나의 인덱스로 묶어주기 / 컬럼 지정 / 테이블 돌려보기
df.set_index(["도시", "연도"])[["인구"]].unstack()

Unnamed: 0_level_0,인구,인구,인구
연도,2005,2010,2015
도시,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


### groupby

    - 특정 조건에 맞는 데이터가 하나 이상, 즉 그룹을 이루는 경우에 사용
        pivot() 와는 달리 키에 의해서 결정되는 데이터가 여러 개 있어도 괜찮다.
        
    - DataFrame.groupby(self, by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=False, observed=False, **kwargs)
    
    - 그룹 연산 메서드
        size(), count() : 개수 
        mean(), median(), min(), max()
        sum(), prod(), std(), var(), quantile() : 합계, 곱, 표준편차, 분산, 사분위수
        first(), last()
        agg(), aggregate()
        describe()
        apply()
        transform()        

In [3]:
# 키 가 될 수 있는애가 두개 있음

df2 = pd.DataFrame({
    "key1":["A", "A", "B", "B", "A"],
    "key2":["one", "two", "one", "two", "one"],
    "data1":[1, 2, 3, 4, 5],
    "data2":[10, 20, 30, 40, 50]
})
df2

Unnamed: 0,key1,key2,data1,data2
0,A,one,1,10
1,A,two,2,20
2,B,one,3,30
3,B,two,4,40
4,A,one,5,50


In [5]:
g = df2.groupby(by="key1")    # 객체로 따로 보관중 # by 생략 가능
g
print(g.sum())

      data1  data2
key1              
A         8     80
B         7     70


In [255]:
print(df2.groupby(df2.key1).sum())                      # 위에꺼랑 같은식, 형태만 다른거
print(type(df2.groupby(df2.key1).sum()))                # 데이터 타입 DataFrame
print("--------------------------------------------")

print(df2.data1.groupby(df2.key1).sum())                # 전체에서 data1으로 먼저 그룹짓기
print(type(df2.data1.groupby(df2.key1).sum()))          # 데이터 타입 series
print("--------------------------------------------")

print(df2.groupby(df2.key1)["data1"].sum())             # 전체에서 key1으로 먼저 그룹짓기
print(type(df2.groupby(df2.key1)["data1"].sum()))       # 데이터 타입 series
print("--------------------------------------------")

print(df2.groupby(df2.key1).sum()["data1"])              # 전체 합계 낸것중에서 data1 뽑기
print(type(df2.groupby(df2.key1).sum()["data1"]))        # 데이터 타입 series
print("--------------------------------------------")

print(df2.groupby(df2.key1).sum()[["data1"]])            # dataframe 시켜주고 프면 [[]]로 묶어주기
print(type(df2.groupby(df2.key1).sum()[["data1"]]))      # 데이터 타입 DataFrame

      data1  data2
key1              
A         8     80
B         7     70
<class 'pandas.core.frame.DataFrame'>
--------------------------------------------
key1
A    8
B    7
Name: data1, dtype: int64
<class 'pandas.core.series.Series'>
--------------------------------------------
key1
A    8
B    7
Name: data1, dtype: int64
<class 'pandas.core.series.Series'>
--------------------------------------------
key1
A    8
B    7
Name: data1, dtype: int64
<class 'pandas.core.series.Series'>
--------------------------------------------
      data1
key1       
A         8
B         7
<class 'pandas.core.frame.DataFrame'>


In [262]:
# 같은 그룹 내에서 또 다시 그룹으로 묶기 
df2.data1.groupby([df2.key1, df2.key2]).sum()
df2.data1.groupby([df2.key1, df2.key2]).sum().unstack()    # 행과 열 바꿔서 보기

key2,one,two
key1,Unnamed: 1_level_1,Unnamed: 2_level_1
A,6,2
B,3,4


In [278]:
"""
연도   2005   2010   2015
지역
경상권 ...
수도권 ...

df 틀 이용해서
"""

df["인구"].groupby([df.지역, df.연도]).sum().unstack()

연도,2005,2010,2015
지역,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
경상권,3512547,3393191,3448737
수도권,9762546,9894685,12794763


In [2]:
import seaborn as sns
iris = sns.load_dataset("iris")
iris.head()                        # 데이터 많으니까 그냥 일부만 보려고

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [3]:
# 각 붓꽃별로 가장 큰 값과 가장 작은 값의 비율로 구해보자.

def peak_to_peak_ratio(x):
    return x.max() / x.min()

print(iris.groupby(iris.species).agg(peak_to_peak_ratio))       # 내가 만든 함수라서 데이터 불러와야함. agg 써주기. apply랑 같은 개념
print("------------------------------------------------------------------------")
print(iris.groupby(iris.species).apply(peak_to_peak_ratio))     # 이 예제에서는 agg와 apply의 결과가 같다

            sepal_length  sepal_width  petal_length  petal_width
species                                                         
setosa          1.348837     1.913043      1.900000     6.000000
versicolor      1.428571     1.700000      1.700000     1.800000
virginica       1.612245     1.727273      1.533333     1.785714
------------------------------------------------------------------------
            sepal_length  sepal_width  petal_length  petal_width
species                                                         
setosa          1.348837     1.913043      1.900000     6.000000
versicolor      1.428571     1.700000      1.700000     1.800000
virginica       1.612245     1.727273      1.533333     1.785714


In [4]:
# 각 붓꽃별로 가장 꽃잎 길이가 작은것 3개의 데이터를 추출하시오.

def min3(df):      # 데이터프레임 통째로 전달받을거
    return df.sort_values(by="petal_length")[:3]

print(iris.groupby(iris.species).apply(min3))      
print("-------------------------------------------")
# print(iris.groupby(iris.species).agg(min3))             # 얘 에러 뜸 why? apply는 특정한 열이나 행에 대해서 적용된다/ aggregate는 모든 행과 열에 대해 각각 다 적용된다.

                sepal_length  sepal_width  petal_length  petal_width  \
species                                                                
setosa     22            4.6          3.6           1.0          0.2   
           13            4.3          3.0           1.1          0.1   
           14            5.8          4.0           1.2          0.2   
versicolor 98            5.1          2.5           3.0          1.1   
           93            5.0          2.3           3.3          1.0   
           57            4.9          2.4           3.3          1.0   
virginica  106           4.9          2.5           4.5          1.7   
           126           6.2          2.8           4.8          1.8   
           138           6.0          3.0           4.8          1.8   

                   species  
species                     
setosa     22       setosa  
           13       setosa  
           14       setosa  
versicolor 98   versicolor  
           93   versicolor  
    

In [8]:
def agg_apply_test(df):
    return 1

g = iris.groupby("species")

print(g.apply(agg_apply_test))                        # 지정한 열과 행에만 # 하나의 함수만 적용 가능
print("-----------------------------------")
print(g.agg(agg_apply_test))                          # 모든 행과 열에 젹용됨 # 함수 여러개 동시에 적용 가능

species
setosa        1
versicolor    1
virginica     1
dtype: int64
-----------------------------------
            sepal_length  sepal_width  petal_length  petal_width
species                                                         
setosa               1.0          1.0           1.0          1.0
versicolor           1.0          1.0           1.0          1.0
virginica            1.0          1.0           1.0          1.0


In [10]:
iris.groupby("species").agg([np.sum, np.mean, np.std])         # apply는 이렇게 여러개 함수 쓰는거 적용 안됨

Unnamed: 0_level_0,sepal_length,sepal_length,sepal_length,sepal_width,sepal_width,sepal_width,petal_length,petal_length,petal_length,petal_width,petal_width,petal_width
Unnamed: 0_level_1,sum,mean,std,sum,mean,std,sum,mean,std,sum,mean,std
species,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2
setosa,250.3,5.006,0.35249,171.4,3.428,0.379064,73.1,1.462,0.173664,12.3,0.246,0.105386
versicolor,296.8,5.936,0.516171,138.5,2.77,0.313798,213.0,4.26,0.469911,66.3,1.326,0.197753
virginica,329.4,6.588,0.63588,148.7,2.974,0.322497,277.6,5.552,0.551895,101.3,2.026,0.27465


In [13]:
iris.groupby("species").describe().T   # 각각의 컬럼에 대해서 count, mean, std 등등 한번에 기술해줌 # T 쓰면 보기 더 쉬워지는 형태

Unnamed: 0,species,setosa,versicolor,virginica
sepal_length,count,50.0,50.0,50.0
sepal_length,mean,5.006,5.936,6.588
sepal_length,std,0.35249,0.516171,0.63588
sepal_length,min,4.3,4.9,4.9
sepal_length,25%,4.8,5.6,6.225
sepal_length,50%,5.0,5.9,6.5
sepal_length,75%,5.2,6.3,6.9
sepal_length,max,5.8,7.0,7.9
sepal_width,count,50.0,50.0,50.0
sepal_width,mean,3.428,2.77,2.974


In [18]:
def func_cut(s):
    return pd.qcut(s, 3, labels=["대", "중", "소"])            # cut, 골고루 나눠주기 : 이건 3등분

iris.head()

iris["petal_length_class"] = iris.groupby(iris.species)["petal_length"].transform(func_cut) # 이건 특정열에만 적용시키는 것이라 aggregate사용못함
iris.head()

# transform, apply와 비슷한 역할을 갖는다

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species,petal_length_class
0,5.1,3.5,1.4,0.2,setosa,대
1,4.9,3.0,1.4,0.2,setosa,대
2,4.7,3.2,1.3,0.2,setosa,대
3,4.6,3.1,1.5,0.2,setosa,중
4,5.0,3.6,1.4,0.2,setosa,대


In [22]:
df = pd.DataFrame({
    'city': ['부산', '부산', '부산', '부산', '서울', '서울', '서울'],
    'fruits': ['apple', 'orange', 'banana', 'banana', 'apple', 'apple', 'banana'],
    'price': [100, 200, 250, 300, 150, 200, 400],
    'quantity': [1, 2, 3, 4, 5, 6, 7]
})
df

Unnamed: 0,city,fruits,price,quantity
0,부산,apple,100,1
1,부산,orange,200,2
2,부산,banana,250,3
3,부산,banana,300,4
4,서울,apple,150,5
5,서울,apple,200,6
6,서울,banana,400,7


In [138]:
df = pd.DataFrame({
    'city': ['부산', '부산', '부산', '부산', '서울', '서울', '서울'],
    'fruits': ['apple', 'orange', 'banana', 'banana', 'apple', 'apple', 'banana'],
    'price': [100, 200, 250, 300, 150, 200, 400],
    'quantity': [1, 2, 3, 4, 5, 6, 7]
})
df

# 도시별로 과일의 가격 평균과 수량 평#균을 구해보시오
print(df.groupby("city").mean())
print("--------------------------------------------------------------")

# 도시별, 과일별 가격평균과 수량 평균을 구해보시오
print(df.groupby(["city", "fruits"]).mean())
print("--------------------------------------------------------------")

# 위의 문제에서 도시별, 과일별 라벨을 인덱스로 하고 싶지 않을 경우
# groupby() 안에 쓰이는거 잘 살펴보기
print(df.groupby(["city", "fruits"], as_index=False).mean())
print("--------------------------------------------------------------")

# 도시별로 가격의 평균과 수량의 합계를 동시에 구하고자 했을 때
print(df.groupby("city").agg({"price":np.mean, "quantity":np.sum}))

      price  quantity
city                 
부산    212.5       2.5
서울    250.0       6.0
--------------------------------------------------------------
             price  quantity
city fruits                 
부산   apple   100.0       1.0
     banana  275.0       3.5
     orange  200.0       2.0
서울   apple   175.0       5.5
     banana  400.0       7.0
--------------------------------------------------------------
  city  fruits  price  quantity
0   부산   apple  100.0       1.0
1   부산  banana  275.0       3.5
2   부산  orange  200.0       2.0
3   서울   apple  175.0       5.5
4   서울  banana  400.0       7.0
--------------------------------------------------------------
      price  quantity
city                 
부산    212.5        10
서울    250.0        18


### pivot_table() 

    DataFrame.pivot_table(self, values=None, index=None, columns=None, aggfunc='mean', fill_value=None, margins=False, dropna=True, margins_name='All', observed=False)
    
    - data : 분석할 데이터 프레임
        pd.pivot_table(df, ...               -> 특정개체와는 상관없이 dataframe을 불러왔을 경우 data를 입력해줘야함
        df.pivot_table(                      -> 특정개체가 지정되있으므로 괜찮음
        
    - values : 분석할 데이터 프레임에서 분석할 열
    - aggfunc : 분석 메서드
    - fill_value : NaN 대체값
    - dropna : NaN에 해당하는 값을 버릴지 여부
    - margins : 행과 열 끝에 소계 추가


In [50]:
data = {
    "도시": ["서울", "서울", "서울", "부산", "부산", "부산", "인천", "인천"],
    "연도": ["2015", "2010", "2005", "2015", "2010", "2005", "2015", "2010"],
    "인구": [9904312, 9631482, 9762546, 3448737, 3393191, 3512547, 2890451, 263203],
    "지역": ["수도권", "수도권", "수도권", "경상권", "경상권", "경상권", "수도권", "수도권"]
}

df = pd.DataFrame(data)
df

Unnamed: 0,도시,연도,인구,지역
0,서울,2015,9904312,수도권
1,서울,2010,9631482,수도권
2,서울,2005,9762546,수도권
3,부산,2015,3448737,경상권
4,부산,2010,3393191,경상권
5,부산,2005,3512547,경상권
6,인천,2015,2890451,수도권
7,인천,2010,263203,수도권


In [51]:
df.pivot("도시", "연도", "인구")

연도,2005,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


In [52]:
df.pivot_table("인구", "도시", "연도")        # pivot과 인자의 순서만 다르고 역할은 같음
pd.pivot_table(df, "인구", "도시", "연도")    # 객체의 위치를 어디에 지정하느냐에 따라 사용법이 조금씩 달라짐

연도,2005,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


In [54]:
df.pivot_table("인구", "도시", "연도", aggfunc="sum", margins=True, margins_name="합계", 
              fill_value=0)   # aggfunc: 그룹으로 묶은 후 어떤 연산자를 쓸 것인지, 함수 이름만 적어주면됨  # aggfunc : 이 데이터는 연산할수잇는 값이 없어서 그냥 똑같음
                               # margins : 합계  # fill_value : NaN 값 0으로 지정해주었다

연도,2005,2010,2015,합계
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
부산,3512547,3393191,3448737,10354475
서울,9762546,9631482,9904312,29298340
인천,0,263203,2890451,3153654
합계,13275093,13287876,16243500,42806469


In [56]:
df.pivot_table("인구", index=["연도", "도시"])    # 다중 인덱스

Unnamed: 0_level_0,Unnamed: 1_level_0,인구
연도,도시,Unnamed: 2_level_1
2005,부산,3512547
2005,서울,9762546
2010,부산,3393191
2010,서울,9631482
2010,인천,263203
2015,부산,3448737
2015,서울,9904312
2015,인천,2890451


## 활용 예제 ★6차 Test★

In [104]:
# Tip 데이터 : 식사 대금 대비 팁의 비율이 어떤 경우에 가장 높아지는지를 찾는 데이터
import seaborn as sns
tips = sns.load_dataset("tips")
tips.head()
tips.tail()
# tips.describe()


Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
239,29.03,5.92,Male,No,Sat,Dinner,3
240,27.18,2.0,Female,Yes,Sat,Dinner,2
241,22.67,2.0,Male,Yes,Sat,Dinner,2
242,17.82,1.75,Male,No,Sat,Dinner,2
243,18.78,3.0,Female,No,Thur,Dinner,2


In [171]:
# 식사 대금과 팁의 비율(tip/total_bill)을 나타내는 tip_pct를 추가
tips["tip_pct"] = tips["tip"]/ tips["total_bill"]
tips

# 성별로 인원수 파악
tips.groupby("sex").count()
tips.groupby("sex").size()

# 성별, 흡연유무별로 인원수 파악
tips.groupby(["sex", "smoker"]).size()

# 위의 두 정보(1, 3번)를 하나의 테이블로 출력(pivot_table 사용)
tips.pivot_table(values="tip_pct", index="sex", columns="smoker", aggfunc="count", margins=True)

# 성별에 따른 평균 팁 비율
tips.groupby("sex")[["tip_pct"]].mean()

# 흡연여부에 따른 팁 비율
tips.groupby("smoker")[["tip_pct"]].mean()

# 위의 정보를 하나의 테이블로 구현
tips.pivot_table("tip_pct", "sex")
tips.pivot_table("tip_pct", "sex", "smoker")
tips.pivot_table("tip_pct", ["sex", "smoker"])

# 팁의 비율이 요일과 점심/저녁 여부, 인원수에 어떤 영향을 받는지 살펴보자
tips.pivot_table("tip_pct", "day")
tips.pivot_table("tip_pct", "time")
tips.pivot_table("tip_pct", "size")

 # 한번에 보기
tips.pivot_table("tip_pct", ["day", "time", "size"])
tips.groupby(["day", "time", "size"])[["tip_pct"]].mean().dropna()         # NaN값 삭제

# 성별, 흡연 유무별로 가장 많은 팁과 가장 적은 팁의 차이 

def peak_to_peak(x):
    return x.max()-x.min()

tips.groupby(["sex", "smoker"])[["tip"]].agg(peak_to_peak)
tips.groupby(["sex", "smoker"])[["tip"]].apply(peak_to_peak)

tips.groupby(["sex", "smoker"]).agg({"tip_pct":"mean", "total_bill":peak_to_peak})

Unnamed: 0_level_0,Unnamed: 1_level_0,tip_pct,total_bill
sex,smoker,Unnamed: 2_level_1,Unnamed: 3_level_1
Male,Yes,0.152771,43.56
Male,No,0.160669,40.82
Female,Yes,0.18215,41.23
Female,No,0.156921,28.58


In [176]:
# Titanic

titanic = sns.load_dataset("titanic")
titanic.count()
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [179]:
bins = [1, 20, 60, 100]
labels = ["미성년", "성년", "노년"]

# titanic["age_class"] = pd.cut(titanic["age"], bins=bins, labels=labels)  # 내가 정한대로 label이 나눠짐
# titanic.head()

titanic["age_class"] = pd.cut(titanic["age"], 3, labels=labels)            # 균동하게 3등분으로 label이 나눠짐
titanic.head()


Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,age_class
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False,미성년
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,성년
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True,미성년
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False,성년
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True,성년


In [191]:
# 성별(sex), 나이대별(age_class), 객실별(class)로 생존여부(survived)의 평균값 조회

titanic.groupby(["sex", "age_class", "class"])[["survived"]].mean().unstack()

titanic.pivot_table("survived",index=["sex", "age_class"], columns="class")

Unnamed: 0_level_0,class,First,Second,Third
sex,age_class,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
female,미성년,0.931034,0.933333,0.514706
female,성년,0.978723,0.926829,0.333333
female,노년,1.0,0.666667,1.0
male,미성년,0.533333,0.27027,0.157143
male,성년,0.453125,0.075472,0.149533
male,노년,0.136364,0.111111,0.0


## 시계열 데이터

    - DateTimeIndex 자료형
        pd.to_datetime() : 문자열을 날짜타입으로 변환
        pd.date_range() : 날짜의 범위를 지정

In [193]:
date_str = ["2020, 1, 1", "2020, 1, 4", "2020, 1, 6", "2020, 1, 9"]
idx = pd.to_datetime(date_str)
idx                                     # datetimeindex라는 calss형으로 바뀜

DatetimeIndex(['2020-01-01', '2020-01-04', '2020-01-06', '2020-01-09'], dtype='datetime64[ns]', freq=None)

In [195]:
# 날짜를 인덱스로 활용

np.random.seed(0)
s = pd.Series(np.random.randn(4), index=idx)   # 날짜로 인덱스 지정 가능해짐
s

2020-01-01    1.764052
2020-01-04    0.400157
2020-01-06    0.978738
2020-01-09    2.240893
dtype: float64

In [199]:
# 날짜 데이터 생성

pd.date_range("2020-1-1", "2020-4-30")         # 날짜 인덱스로 사용 가능
pd.date_range("2020-4-1", periods=30)          # 4월 1일부터 30일 주기로 사용하겠다 / freq = 'D' : freq단위를 알려줌 Day

DatetimeIndex(['2020-04-01', '2020-04-02', '2020-04-03', '2020-04-04',
               '2020-04-05', '2020-04-06', '2020-04-07', '2020-04-08',
               '2020-04-09', '2020-04-10', '2020-04-11', '2020-04-12',
               '2020-04-13', '2020-04-14', '2020-04-15', '2020-04-16',
               '2020-04-17', '2020-04-18', '2020-04-19', '2020-04-20',
               '2020-04-21', '2020-04-22', '2020-04-23', '2020-04-24',
               '2020-04-25', '2020-04-26', '2020-04-27', '2020-04-28',
               '2020-04-29', '2020-04-30'],
              dtype='datetime64[ns]', freq='D')

In [None]:
"""
freq(frequency)에서 지정할 수 있는 각각의 단위
    s : 초
    T : 분
    H : 시간
    D : 일
    B : 주말이 아닌 평일
    W : 주(일요일)
    W-MON : 주(월요일)
    M : 각 달의 마지막 날
    MS : 각 달의 첫 날
    BM : 주말이 아닌 평일중에서 각 달의 마지막 날
    BMS : 주말이 아닌 평일 중에서 각 달의 첫날
    WOM-2THU : 각 달의 두번째 목요일
    Q-JAN : 각 분기의 첫 달의 마지막 날
    Q-DEC : 각 분기의 마지막 달의 마지막 날
"""

In [202]:
pd.date_range("2020-1-1", "2020-1-31", freq="B")

DatetimeIndex(['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-06',
               '2020-01-07', '2020-01-08', '2020-01-09', '2020-01-10',
               '2020-01-13', '2020-01-14', '2020-01-15', '2020-01-16',
               '2020-01-17', '2020-01-20', '2020-01-21', '2020-01-22',
               '2020-01-23', '2020-01-24', '2020-01-27', '2020-01-28',
               '2020-01-29', '2020-01-30', '2020-01-31'],
              dtype='datetime64[ns]', freq='B')

In [211]:
# shift연산 : 값이 이동하는 연산

np.random.seed(0)

ts = pd.Series(np.random.randn(4), index=pd.date_range("2020-1-1", periods=4, freq = "M"))
print(ts)

print("-----------------------------------------")

print(ts.shift(1))    # 값이 한칸씩 이동함

print("-----------------------------------------")

print(ts.shift(1, freq="M"))

print("-----------------------------------------")

print(ts.shift(1, freq="W"))

2020-01-31    1.764052
2020-02-29    0.400157
2020-03-31    0.978738
2020-04-30    2.240893
Freq: M, dtype: float64
-----------------------------------------
2020-01-31         NaN
2020-02-29    1.764052
2020-03-31    0.400157
2020-04-30    0.978738
Freq: M, dtype: float64
-----------------------------------------
2020-02-29    1.764052
2020-03-31    0.400157
2020-04-30    0.978738
2020-05-31    2.240893
Freq: M, dtype: float64
-----------------------------------------
2020-02-02    1.764052
2020-03-01    0.400157
2020-04-05    0.978738
2020-05-03    2.240893
Freq: WOM-1SUN, dtype: float64


In [None]:
# resampling : 시간 간격을 다시 재조정
"""
    up-sampling : 시간 구간이 작아지면서 데이터 양은 증가
    down-sampling : 구간이 커지면서 데이터양은 감소 / 더 많이 사용
"""

In [213]:
ts = pd.Series(np.random.randn(100), index=pd.date_range("2020-1-1", periods=100, freq="D"))
ts.tail(10)

2020-03-31    0.523277
2020-04-01   -0.171546
2020-04-02    0.771791
2020-04-03    0.823504
2020-04-04    2.163236
2020-04-05    1.336528
2020-04-06   -0.369182
2020-04-07   -0.239379
2020-04-08    1.099660
2020-04-09    0.655264
Freq: D, dtype: float64

In [218]:
ts.resample("W").mean()            # 일요일, 일주일의 평균값을 나타냄
ts.resample("M").first()          # 각 달의 마지막 날, 각달의 첫번째 날이 가진 값   : resample("#")에 들어간 값에 자르고 , 그 뒤에 그 구간안에서 어떠한 값을 나타낼것인지 쓴거...

2020-01-31   -1.173123
2020-02-29    0.676433
2020-03-31   -1.225436
2020-04-30   -0.171546
Freq: M, dtype: float64

In [227]:
# ohlc(open high low close)시고저종(처음, 높, 낮, 마지막 주식값)
ts = pd.Series(np.random.randn(60), index=pd.date_range("2020-1-1", periods=60, freq="T"))   # 1분단위로 60개가 만들어짐
ts.resample("5T").ohlc()                       # 각각의 주식에 대해 5분 간격으로 나누기 
ts.resample("10T").sum()                       # 10분 단위로 합계 내기

2020-01-01 00:00:00   -0.513429
2020-01-01 00:10:00    2.779635
2020-01-01 00:20:00   -0.811157
2020-01-01 00:30:00   -3.672095
2020-01-01 00:40:00   -6.957855
2020-01-01 00:50:00    4.665502
Freq: 10T, dtype: float64

In [229]:
# up-sampling 
"""
    forward filling : 앞에서 나온 데이터를 그대로 사용
    backward filling : 뒤에서 나올 데이터를 앞에서 미리 사용
"""

ts.resample('30s').ffill().head(20)    # 30초 단위로 쪼개고 앞에썼던(ffill) 데이터 그대로 사용
ts.resample('30s').bfill().head(20) 

2020-01-01 00:00:00   -0.375147
2020-01-01 00:00:30   -1.226196
2020-01-01 00:01:00   -1.226196
2020-01-01 00:01:30    0.183339
2020-01-01 00:02:00    0.183339
2020-01-01 00:02:30    1.670943
2020-01-01 00:03:00    1.670943
2020-01-01 00:03:30   -0.056133
2020-01-01 00:04:00   -0.056133
2020-01-01 00:04:30   -0.001385
2020-01-01 00:05:00   -0.001385
2020-01-01 00:05:30   -0.687299
2020-01-01 00:06:00   -0.687299
2020-01-01 00:06:30   -0.117475
2020-01-01 00:07:00   -0.117475
2020-01-01 00:07:30    0.466166
2020-01-01 00:08:00    0.466166
2020-01-01 00:08:30   -0.370242
2020-01-01 00:09:00   -0.370242
2020-01-01 00:09:30   -0.453804
Freq: 30S, dtype: float64