In [1]:
import numpy as np
import pandas as pd

## Pandas에서 제공하는 대표적인 자료 구조

    1) Series : 데이터 저장 자료구조(데이터를 한 줄로 저장)
        - index + 값, index + 값, ..  (인덱스 모양 지정 가능)
        
        - 하나의 열에 해당하는 데이터
    
    2) Dataframe : 데이터 저장 자료구조(Seires로 묶어서 테이블처럼 사용할 수 있도록 저장)
        - 가장 많이 쓰이는 객체: 데이터 친숙한 모양으로 저장(테이블)
        
        - 데이터 보관 + 보기 좋게 가독성↑
        
    3) Document : https://pandas.pydata.org/

### Series

In [2]:
s = pd.Series([9904312, 3448737, 2890451, 2466052])
print(s)
print(type(s))

0    9904312
1    3448737
2    2890451
3    2466052
dtype: int64
<class 'pandas.core.series.Series'>


In [3]:
# 함수 enumerate() 이용한 key:값

for i in enumerate([9904312, 3448737, 2890451, 2466052]):
    print(i)

(0, 9904312)
(1, 3448737)
(2, 2890451)
(3, 2466052)


In [4]:
# 인덱스 지정

s = pd.Series([9904312, 3448737, 2890451, 2466052], index=["서울", "부산", "인천", "대구"])
print(s)
print("-------------------------")

print(s.values)  # 배열로 묶어서 출력 (type()으로 확인시 numpy.ndarray로 출력)
print(s.index)
print("-------------------------")

s.index.name = "도시"  # 인덱스에 제목 부여
print(s)
print("-------------------------")

s.name = "인구"  # 시리즈 자체에 이름 부여
print(s)

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64
-------------------------
[9904312 3448737 2890451 2466052]
Index(['서울', '부산', '인천', '대구'], dtype='object')
-------------------------
도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64
-------------------------
도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64


In [5]:
# 벡터화 연산 : 값에만 영향

s1 = s / 100000 
print(s1)

도시
서울    99.04312
부산    34.48737
인천    28.90451
대구    24.66052
Name: 인구, dtype: float64


In [6]:
# 인덱싱

s = pd.Series([9904312, 3448737, 2890451, 2466052], index=["서울", "부산", "인천", "대구"])  # 인덱스 별도 부여

print(s[1], s["부산"])  # 인덱스 이름 부여했어도 기본적인 숫자 인덱스 사용 가능(인덱스 수정이 아닌 인덱스 추가)
print("-------------------1")

print(s[[0, 3, 1]])  # 선별 출력
print("-------------------2")

print(s[(250e4<s) & s<500e4])  # fancy indexing
print("-------------------3")

print(s[1:3])  # 슬라이싱(마지막 n-1)
print("-------------------4")

print(s["부산":"대구"])  # '대구' 포함
print("-------------------5")

print(s.부산,",", s.서울)

3448737 3448737
-------------------1
서울    9904312
대구    2466052
부산    3448737
dtype: int64
-------------------2
서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64
-------------------3
부산    3448737
인천    2890451
dtype: int64
-------------------4
부산    3448737
인천    2890451
대구    2466052
dtype: int64
-------------------5
3448737 , 9904312


In [7]:
# Series와 dict

print("서울" in s)  # 포함 여부 확인
print("대전" in s)
print("--------------------------------1")

print(s.items())  # 키와 값을 전체적으로 묶은 것에 대한 주소
for k, v in s.items():  # 반복문 통해 하나씩 가져온다
    print("%s = %d"%(k, v))
print("--------------------------------2")

s2 = pd.Series({"서울":9631482, "부산":3448737, "인천":2890451, "대구":2466052})  
    # 데이터 dict형으로 입력(dict형을 Series형으로 변환)
print(s2)
print("--------------------------------3")

s3 = pd.Series({"서울":9631482, "부산":3448737, "인천":2890451, "대전":2466052}, index=["인천", "대전", "서울", "부산"])
    # 인덱스 다시 부여 : 기존 인덱스 순서 바꾸기
print(s3)

True
False
--------------------------------1
<zip object at 0x0000000008187708>
서울 = 9904312
부산 = 3448737
인천 = 2890451
대구 = 2466052
--------------------------------2
서울    9631482
부산    3448737
인천    2890451
대구    2466052
dtype: int64
--------------------------------3
인천    2890451
대전    2466052
서울    9631482
부산    3448737
dtype: int64


In [8]:
# 인덱스 기반 연산

print(s2)
print(s3)

ds = s2-s3  # 대응되는 값 없음(Not a Num. 결측치), 같은 인덱스끼리 연산
print(ds)

print(s2.values - s3.values)  # 인덱스 상관 없이 같은 순서끼리 연산(인덱스 배제)
print("--------------------------------1")

print(ds.notnull())  # .notnull() : null값이 아닌 것 구분(True/False)
print(ds[ds.notnull()])  # 결측치 제거한 나머지 연산 후 출력 -> 1-NumPy의 fancy index 참고

서울    9631482
부산    3448737
인천    2890451
대구    2466052
dtype: int64
인천    2890451
대전    2466052
서울    9631482
부산    3448737
dtype: int64
대구    NaN
대전    NaN
부산    0.0
서울    0.0
인천    0.0
dtype: float64
[ 6741031   982685 -6741031  -982685]
--------------------------------1
대구    False
대전    False
부산     True
서울     True
인천     True
dtype: bool
부산    0.0
서울    0.0
인천    0.0
dtype: float64


In [9]:
# 인구 증가율((끝연도s3 - 시작연도s) / 시작연도s *100)

ds2 = ((s3-s)/s) * 100
ds3 = ds2[ds2.notnull()]
print(ds3)

부산    0.000000
서울   -2.754659
인천    0.000000
dtype: float64


In [10]:
# 데이터 추가/갱신/삭제가 자유롭다

ds3["부산"] = 1.63  # 데이터 있으면 갱신
print(ds3)
print("--------------------1")

ds3["대구"] = 1.41  # 데이터 없으면 추가
print(ds3)
print("--------------------2")

del ds3["인천"]  # 데이터 삭제
print(ds3)

부산    1.630000
서울   -2.754659
인천    0.000000
dtype: float64
--------------------1
부산    1.630000
서울   -2.754659
인천    0.000000
대구    1.410000
dtype: float64
--------------------2
부산    1.630000
서울   -2.754659
대구    1.410000
dtype: float64


### Dataframe

In [11]:
# DataFrame 방법

data = {
    "2015": [9904312, 3448737, 2890451, 2466052],
    "2010": [9631482, 3393191, 2632035, 2431774],
    "2005": [9762546, 3512547, 2517680, 2456016],
    "2000": [9853972, 3655437, 2466338, 2473990],
    "지역": ["수도권", "경상권", "수도권", "경상권"],
    "2010-2015 증가율": [0.0283, 0.0163, 0.0982, 0.0141]}
print(type(data))
print(data)
print("--------------------------------------------1")

df = pd.DataFrame(data)  # dict형을 Dataframe으로 변환(key값을 컴럼명으로 활용)
print(type(df))
print(df)
print("--------------------------------------------2")

cols = ["지역", "2015", "2010", "2005", "2000", "2010-2015 증가율"]  # 데이터 순서 변경
idx = ["서울", "부산", "인천", "대구"]  # 인덱스명 변환
df = pd.DataFrame(data, columns=cols, index=idx)  # columns, index 옵션 사용
print(df)

<class 'dict'>
{'2015': [9904312, 3448737, 2890451, 2466052], '2010': [9631482, 3393191, 2632035, 2431774], '2005': [9762546, 3512547, 2517680, 2456016], '2000': [9853972, 3655437, 2466338, 2473990], '지역': ['수도권', '경상권', '수도권', '경상권'], '2010-2015 증가율': [0.0283, 0.0163, 0.0982, 0.0141]}
--------------------------------------------1
<class 'pandas.core.frame.DataFrame'>
      2015     2010     2005     2000   지역  2010-2015 증가율
0  9904312  9631482  9762546  9853972  수도권         0.0283
1  3448737  3393191  3512547  3655437  경상권         0.0163
2  2890451  2632035  2517680  2466338  수도권         0.0982
3  2466052  2431774  2456016  2473990  경상권         0.0141
--------------------------------------------2
     지역     2015     2010     2005     2000  2010-2015 증가율
서울  수도권  9904312  9631482  9762546  9853972         0.0283
부산  경상권  3448737  3393191  3512547  3655437         0.0163
인천  수도권  2890451  2632035  2517680  2466338         0.0982
대구  경상권  2466052  2431774  2456016  2473990         0.014

In [12]:
print(df.values)  # 값만 출력
print(df.columns)  # 컬럼만 출력
print(df.index)  # 인덱스만 출력

[['수도권' 9904312 9631482 9762546 9853972 0.0283]
 ['경상권' 3448737 3393191 3512547 3655437 0.0163]
 ['수도권' 2890451 2632035 2517680 2466338 0.0982]
 ['경상권' 2466052 2431774 2456016 2473990 0.0141]]
Index(['지역', '2015', '2010', '2005', '2000', '2010-2015 증가율'], dtype='object')
Index(['서울', '부산', '인천', '대구'], dtype='object')


In [13]:
# .name

df.index.name = "도시"  # 인덱스에 이름 부여
df.columns.name = "특성"  # 컬럼에 이름 부여
print(df)

특성   지역     2015     2010     2005     2000  2010-2015 증가율
도시                                                        
서울  수도권  9904312  9631482  9762546  9853972         0.0283
부산  경상권  3448737  3393191  3512547  3655437         0.0163
인천  수도권  2890451  2632035  2517680  2466338         0.0982
대구  경상권  2466052  2431774  2456016  2473990         0.0141


In [14]:
# 행과 열의 위치 전환(전치 : 축 기준 변경)

df.T

도시,서울,부산,인천,대구
특성,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
지역,수도권,경상권,수도권,경상권
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2431774
2005,9762546,3512547,2517680,2456016
2000,9853972,3655437,2466338,2473990
2010-2015 증가율,0.0283,0.0163,0.0982,0.0141


In [15]:
# 컬럼(열 데이터) 추가/갱신/삭제

print(type(df["2010-2015 증가율"]))  # 컬럼 지정(열 정보 우선). DataFrame = Series의 집합
print("-----------------------1")

df["2010-2015 증가율"] = df["2010-2015 증가율"] * 100  # 갱신
df
print("-----------------------2")

df["2005-2010 증가율"] = (((df["2010"]-df["2005"])/df["2005"])*100).round(2)  # 추가
df
print("-----------------------3")

del df["2010-2015 증가율"]
df

<class 'pandas.core.series.Series'>
-----------------------1
-----------------------2
-----------------------3


특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,-1.34
부산,경상권,3448737,3393191,3512547,3655437,-3.4
인천,수도권,2890451,2632035,2517680,2466338,4.54
대구,경상권,2466052,2431774,2456016,2473990,-0.99


In [21]:
# 열 인덱싱

df["지역"]  # Series이기 때문에 Series의 기능만 사용 가능(1차원 데이터)
df[["지역"]]  # DataFrame으로 출력-DataFrame 기능 사용 가능(2차원 데이터)

#df["2005", "2010"]  # Series를 2개의 컬럼으로 구성할 수 없기 때문에 에러 발생
df[["2005", "2010"]]  # DataFrame으로 불러와야 한다

#df[0]  # 인덱스값을 대체했기 때문에 NumPy처럼 숫자로 검색x

특성,2005,2010
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,9762546,9631482
부산,3512547,3393191
인천,2517680,2632035
대구,2456016,2431774


In [25]:
# 행 인덱싱 : 반드시 : 으로 슬라이싱

df[:1]  # 첫번째 행
df[1:2]  # 두번째 행
df["서울":"부산"]  # 인덱스 통해서도 출력 가능

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,-1.34
부산,경상권,3448737,3393191,3512547,3655437,-3.4


In [29]:
df["2015"]["서울"]  # 열 먼저 접근([열][행])
#df["2015", :1]  # 같이 지정시 에러 발생

9904312

## 실습

In [57]:
data = {
    "국어":[80, 90, 70, 30],
    "영어":[90, 70, 60, 40],
    "수학":[90, 60, 80, 70]}

df = pd.DataFrame(data, index=["춘향", "몽룡", "향단", "방자"])
df

Unnamed: 0,국어,영어,수학
춘향,80,90,90
몽룡,90,70,60
향단,70,60,80
방자,30,40,70


In [79]:
# 모든 학생의 수학 점수를 나타내시오
print(df["수학"])
print("------------------------1")

# 모든 학생의 국어와 영어 점수를 나타내시오
print(df[["국어", "영어"]])
print("------------------------2")

# 모든 학생의 각 과목 평균 점수를 새로운 열로 추가하시오
avg = (df["국어"]+df["영어"]+df["수학"])/3
df1 = df["평균 점수"] = round(avg, 2)
print(df1)
print("------------------------3")

# 방자의 영어 점수를 80점으로 수정하고, 평균 점수를 다시 수정하시오
df["영어"]["방자"] = 80
df2=df["평균 점수"] = round(avg, 2)
print(df2)
print("------------------------4")

# 춘향의 점수를 데이터 프레임으로 나타내시오
print(df[:1])
print("------------------------5")

# 향단의 점수를 Series로 나타내시오
print(df.T["향단"])
print("------------------------6")

춘향    90
몽룡    60
향단    80
방자    70
Name: 수학, dtype: int64
------------------------1
    국어  영어
춘향  80  90
몽룡  90  70
향단  70  60
방자  30  80
------------------------2
춘향    86.67
몽룡    73.33
향단    70.00
방자    60.00
dtype: float64
------------------------3
춘향    86.67
몽룡    73.33
향단    70.00
방자    60.00
dtype: float64
------------------------4
    국어  영어  수학  평균 점수
춘향  80  90  90  86.67
------------------------5
국어       70.0
영어       60.0
수학       80.0
평균 점수    70.0
Name: 향단, dtype: float64
------------------------6


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  app.launch_new_instance()


## 데이터 입출력

    - read_csv() : csv형식의 파일을 DataFrame으로 읽어오기 위한 메서드
    
    - to_csv() : 파일로 저장(csv 외 다른 형식으로 저장 가능)
    
    - read_table() : csv형식이 아닌 파일 DataFrame으로 읽어오기 위한 메서드
    
    
    cf. %%writefile  파일 생성하여 저장(%% : jupyter notebook에서만 사용 가능한 매직 명령어. 가장 첫 줄에서 사용해야 한다. 주석도x)

In [71]:
%%writefile data/sampl1.csv

c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three

Writing data/sampl1.csv


In [73]:
sample1 = pd.read_csv("data/sampl1.csv")  # csv파일을 DataFile로 읽어온다
sample1

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [74]:
%%writefile data/sampl2.csv

1, 1.11, one
2, 2.22, two
3, 3.33, three

Writing data/sampl2.csv


In [75]:
# 컬럼 이름이 없는 데이터 불러오는 경우

sample2 = pd.read_csv("data/sampl2.csv", names=["c1", "c2", "c3"])  # 불러올 때 컬럼 이름 부여해서 불러온다
sample2

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [76]:
# 특정한 열을 인덱스로 지정

sample1 = pd.read_csv("data/sampl1.csv", index_col="c1")  # index_col 옵션 통해 원하는 열 인덱스 지정
sample1

Unnamed: 0_level_0,c2,c3
c1,Unnamed: 1_level_1,Unnamed: 2_level_1
1,1.11,one
2,2.22,two
3,3.33,three


In [81]:
%%writefile data/sample.txt
c1          c2          c3          c4
0.60053128  0.83796282  0.51366364  0.43776684
0.81468834  0.56956372  0.84303384  0.76323599
0.28059843  0.85981333  0.19803743  0.79236294

Writing data/sample.txt


In [84]:
# 읽어오려는 파일 확장자가 csv가 아닌 경우

pd.read_table("data/sample.txt", sep="\s+")  # 공백문자 기준으로 분리

  This is separate from the ipykernel package so we can avoid doing imports until


Unnamed: 0,c1,c2,c3,c4
0,0.600531,0.837963,0.513664,0.437767
1,0.814688,0.569564,0.843034,0.763236
2,0.280598,0.859813,0.198037,0.792363


In [85]:
%%writefile data/sample4.txt
파일제목:sample4.txt
데이터 포맷의 설명:
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three

Writing data/sample4.txt


In [87]:
# skiprows : 파일 내 설명 제외하고 필요한 data만 읽어오기

pd.read_csv("data/sample4.txt", skiprows=[0, 1])  # 0번과 1번 행은 skip


Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [88]:
%%writefile data/sample5.csv
c1, c2, c3
1, 1.11, one
2,  , two
누락, 3.33, three

Writing data/sample5.csv


In [92]:
# 일관성 있게 데이터를 읽기 위함(결측치 표기=NaN)

df = pd.read_csv("data/sample5.csv", na_values=["누락", "  "])  # na_values() : 누락과 공백을 "NaN"으로 표시
df

Unnamed: 0,c1,c2,c3
0,1.0,1.11,one
1,2.0,,two
2,,3.33,three


In [96]:
# csv 파일로 저장

df.to_csv("data/sample6.csv")  # 인덱스도 같이 저장된다

df.to_csv("data/sample7.txt", sep="|")  # 다른 형식으로도 저장 가능

df.to_csv("data/sample8.txt", sep="|", na_rep="누락")  # na_rep : NaN값을 다른 형태로 바꿔서 저장

df.to_csv("data/sample9.csv", index=False, header=False)  # 인덱스 제외, 제목(header값) 제외하고 저장

In [2]:
# 인터넷상의 csv파일 입력

# 참고 : https://pandas-datareader.readthedocs.io/en/latest/index.html
#        국가 총 생산 https://fred.stlouisfed.org/series/GDP 
#        소비자 가격지수 https://fred.stlouisfed.org/series/CPIAUCSL
#        식료품 및 연료 제외한 소비자 가격지수 https://fred.stlouisfed.org/series/CPILFESL

!pip install pandas_datareader

Collecting pandas_datareader
  Downloading https://files.pythonhosted.org/packages/d1/db/c6c72242179251ed9ead7af852296ae9558b1d0cfd972eef6c3398b131d1/pandas_datareader-0.7.4-py2.py3-none-any.whl (113kB)
Installing collected packages: pandas-datareader
Successfully installed pandas-datareader-0.7.4


In [5]:
import pandas_datareader as pdr

gdp = pdr.get_data_fred("GDP")
gdp

Unnamed: 0_level_0,GDP
DATE,Unnamed: 1_level_1
2010-01-01,14721.35
2010-04-01,14926.098
2010-07-01,15079.917
2010-10-01,15240.843
2011-01-01,15285.828
2011-04-01,15496.189
2011-07-01,15591.85
2011-10-01,15796.46
2012-01-01,16019.758
2012-04-01,16152.257


In [6]:
inflation = pdr.get_data_fred(["CPIAUCSL", "CPILFESL"])
inflation

Unnamed: 0_level_0,CPIAUCSL,CPILFESL
DATE,Unnamed: 1_level_1,Unnamed: 2_level_1
2010-01-01,217.488,220.633
2010-02-01,217.281,220.731
2010-03-01,217.353,220.783
2010-04-01,217.403,220.822
2010-05-01,217.290,220.962
2010-06-01,217.199,221.194
2010-07-01,217.605,221.363
2010-08-01,217.923,221.509
2010-09-01,218.275,221.711
2010-10-01,219.035,221.830


## 고급 인덱싱 (인덱서: 인덱스를 전문으로 도와주는 기능. 기본 인덱스 지원. 행 우선)

    - loc[] : 라벨값(인덱스명) 기반의 2차원 인덱싱을 지원하는 인덱서(정수형 접근x)
    
    - iloc[] : 순서를 나타내는 정수 기반의 2차원 인덱서(정수형 접근. loc[] 보완)
    
    - at[] : 라벨값으로 접근하여 스칼라값(단 한 개의 값) 가져올 때. 성능상의 차이로 인해 사용(loc에 비해 성능↑. 실제로는 사용↓)
    
    - iat[] : 정수형 접근하여 스칼라값(단 한 개의 값) 가져올 때

In [270]:
# loc

df = pd.DataFrame(np.arange(10, 22).reshape(3, 4), index=["a", "b", "c"], columns=["A", "B", "C", "D"])
    # 10~22까지의 숫자로 이루어진 1차원 임의의 데이터를 reshape() 통해 3행 4열의 2차원 배열로 변경. 인덱스와 컬럼명 부여
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [14]:
df.loc["a"]  # 행 우선. Series형으로 가져온다

df.loc["b":"c"]  # 범위로 출력. DataFrame형으로 가져온다. df["b":"c"]와 동일한 결과값

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


In [17]:
# fancy index

df.A  # 열(컬럼)은 . 으로도  접근 가능 - 기본 인덱스
df.A > 15

df.loc[df.A>15]  # A 컬럼의 값 중 15보다 큰 값의 행만 출력

Unnamed: 0,A,B,C,D
c,18,19,20,21


In [19]:
# 함수 호출

def select_rows(df, num):
    return df.A > num

select_rows(df, 15)
df.loc[select_rows(df, 15)]  # loc[] 안에서 함수 호출

Unnamed: 0,A,B,C,D
c,18,19,20,21


In [25]:
# 인덱싱을 행과 열로 모두 받을 경우

df["A"]["b"]  # 기본 인덱스: 열-행
df.loc["b", "A"]  # 인덱서: 행-열. 기본 인덱스와 달리 한번에 묶어서 호출 가능

df.loc["b":, "A"]  # A열 값 중 b/c행 출력
df.loc["a", :]  # a행의 모든 열의 값
df.loc[["a", "b"], ["B", "C"]]  # 원하는 행과 열의 데이터 출력

Unnamed: 0,B,C
a,11,12
b,15,16


In [32]:
'''모든 행에 대해서 첫번째 행에 있는 값이 11보다 작거나 같은 행의 컬럼 추출'''

df.loc[:, df.loc["a", :] <= 11]
df.loc[:, df]

Unnamed: 0,A,B
a,10,11
b,14,15
c,18,19


In [37]:
# iloc : loc와 사용법 동일

df.iloc[0, 1]  # 인덱스 부여되어 있어도 정수형으로 접근 가능(인덱스명으로는 접근x)

df.iloc[:2, 2]
df.iloc[0, -2:]

C    12
D    13
Name: 0, dtype: int32

In [41]:
'''
   B   C
c  19  20
'''

df.iloc[2, 1:3]

B    19
C    20
Name: 2, dtype: int32

In [47]:
# at

%timeit df.loc["a", "A"]
%timeit df.at["a", "A"]  # 약 2배의 성능 차이

6.16 µs ± 44.4 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
3.99 µs ± 58.7 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


## 데이터 조작

In [273]:
# 데이터 개수 확인 

s = pd.Series(range(10))
s.count()

s[3] = np.nan
s.count()  # 결측치 제외한 나머지 개수 확인


np.random.seed(2)  # seed() 통해 난수 고정
df = pd.DataFrame(np.random.randint(5, size=(4, 4)), dtype=float)  # 실수값으로 배열 구성
df.count()  # DataFrame은 Series의 집합. Series 개수 확인
df.iloc[2, 3] = np.nan  # NaN값 입력하면 실수
df.count()  # 결측치 제외한 나머지 개수 확인(결측치 위치 파악)

0    4
1    4
2    4
3    3
dtype: int64

In [258]:
'''
타이타닉 실습
'''
import seaborn as sns  # 그래프 그리기 위한 모듈(간단한 타이타닉 샘플 제공)

t = sns.load_dataset("titanic")
t.count()

survived       891
pclass         891
sex            891
age            714
sibsp          891
parch          891
fare           891
embarked       889
class          891
who            891
adult_male     891
deck           203
embark_town    889
alive          891
alone          891
dtype: int64

In [263]:
# 카테고리별로 개수 구하기 : value_counts() -> Series에서만 사용 가능

np.random.seed(1)
s2 = pd.Series(np.random.randint(6, size=100))
s2.head(10)  # 기본적으로 5개 잘라서 보여준다(MySQL의 limit와 같은 기능). tail()은 뒤에서부터

s2.value_counts()
#df[0].value_counts()  # DataFrame에서 사용 위해서는 컬럼을 하나씩 뽑아서 사용해야 한다

1    22
0    18
4    17
5    16
3    14
2    13
dtype: int64

In [276]:
# 정렬 : sort_index(), sort_values()

s2.value_counts().sort_index()  # 카테고리별로 파악한 값 개수를 인데스별로 정렬
s2.value_counts().sort_values()  # 값으로 정렬
s2.value_counts().sort_values(ascending=False)  # ascending 옵션 통해 내림차순 정렬

df.sort_values(by=1)  # DataFrame 정렬 위해서는 by 옵션 통한 기준열 설정 필요. 1열 값 오름차순
df.sort_values(by=[1, 2])  # 1열을 우선으로, 2열을 차선으로 정렬

Unnamed: 0,0,1,2,3
1,3.0,0.0,2.0,1.0
0,0.0,0.0,3.0,2.0
2,3.0,2.0,4.0,
3,4.0,3.0,4.0,2.0


In [284]:
# 행/열 합계

np.random.seed(1)
df2 = pd.DataFrame(np.random.randint(10, size=(4, 8)))
df2

df2.sum()  # 열 기준 합계(axis=0 이 기본)
df2.sum(axis=1) # 행 기준 합계

df2["RowSum"]=df2.sum(axis=1)  # RowSum 컬럼 추가
df2

df2.loc["ColSum",:]=df2.sum()
df2

Unnamed: 0,0,1,2,3,4,5,6,7,RowSum
0,5.0,8.0,9.0,5.0,0.0,0.0,1.0,7.0,35.0
1,6.0,9.0,2.0,4.0,5.0,2.0,4.0,2.0,34.0
2,4.0,7.0,7.0,9.0,1.0,7.0,0.0,6.0,41.0
3,9.0,9.0,7.0,6.0,9.0,1.0,0.0,1.0,42.0
ColSum,24.0,33.0,25.0,24.0,15.0,10.0,5.0,16.0,152.0


In [86]:
# apply() : 자동으로 반복하여 함수를 대신 호출

df = pd.DataFrame({
    "A":[1, 3, 4, 3, 4],
    "B":[2, 3, 1, 2, 3],
    "C":[1, 5, 2, 4, 4]})
df

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [93]:
'''각각의 열마다 최대값-최소값'''

def diff(x):
    return x.max() - x.min()

diff(df.A)  # 반복문으로 하나하나 호출

df.apply(diff)  # 함수 설정 따라 열 개수(기본)만큼 자동으로 반복
df.apply(diff, axis=1)  # 행 개수만큼 자동으로 반복


df.apply(lambda x : x.max()-x.min())  # 람다함수 이용한 apply() 활용


A    3
B    2
C    4
dtype: int64

In [102]:
df.A.value_counts()
df.B.value_counts()
df.C.value_counts()

df.apply(pd.value_counts)  # apply() 이용한 value_counts 반복 호출
df.apply(pd.value_counts).fillna(0)  # fillna() : 결측치 NaN을 원하는 값으로 채워 출력
df.apply(pd.value_counts).fillna(0).astype(int)  # astype() : 전체 결과값 타입 변경

Unnamed: 0,A,B,C
1,1,1,1
2,0,2,1
3,2,2,0
4,2,0,2
5,0,0,1


In [111]:
# 카테고리 값으로 변환(데이터를 카테고리로 묶는다) : cut(): 내가 임의로 나눔, qcut(): 전체 데이터를 균등하게 나눔(기준x)

ages = [0, 2, 10, 21, 23, 37, 31, 61, 20, 41, 32, 100]

cats = pd.cut(x=ages, labels=["미성년자", "청년", "중년", "장년", "노년"],
              bins=[1, 15, 25, 35, 60, 99])  # x=data명, bins=기준, labels=카테고리명. 기준 외 값들은 결측치로
print(cats)

print(type(cats))  # Categorical 형식

print(cats.categories)  # 카테고리만 출력
print(cats.codes)  # bins에 따른 코드값 출력(-1은 결측치)


df4 = pd.DataFrame(ages, columns=["ages"])
df4["age_cat"] = cats  # DataFrame에 만든 카테고리값 추가
df4

[NaN, 미성년자, 미성년자, 청년, 청년, ..., 노년, 청년, 장년, 중년, NaN]
Length: 12
Categories (5, object): [미성년자 < 청년 < 중년 < 장년 < 노년]
<class 'pandas.core.arrays.categorical.Categorical'>
Index(['미성년자', '청년', '중년', '장년', '노년'], dtype='object')
[-1  0  0  1  1  3  2  4  1  3  2 -1]


Unnamed: 0,ages,age_cat
0,0,
1,2,미성년자
2,10,미성년자
3,21,청년
4,23,청년
5,37,장년
6,31,중년
7,61,노년
8,20,청년
9,41,장년


In [114]:
# qcut()

data = np.random.randn(100)
cats = pd.qcut(data, 4, labels=["Q1", "Q2", "Q3", "Q4"])  # 데이터명, 데이터를 몇 개로 나눌건가, 카테고리명
cats

cats.value_counts()
pd.value_counts(cats)

Q4    25
Q3    25
Q2    25
Q1    25
dtype: int64

## 인덱스 조작

In [279]:
# 인덱스 설정 및 제거 : set_index(): 설정, reset_index(): 제거

np.random.seed(1)
df1 = pd.DataFrame(np.vstack([list("ABCDE"), np.round(np.random.rand(3, 5), 2)]).T, columns=["C1", "C2", "C3", "C4"])
    # 데이터 마련: list와 3행5열의 난수로 만든 배열을 vstack으로 결합
df1

Unnamed: 0,C1,C2,C3,C4
0,A,0.42,0.09,0.42
1,B,0.72,0.19,0.69
2,C,0.0,0.35,0.2
3,D,0.3,0.4,0.88
4,E,0.15,0.54,0.03


In [280]:
df2 = df1.set_index("C1")  # C1을 인덱스로 사용
df2

Unnamed: 0_level_0,C2,C3,C4
C1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,0.42,0.09,0.42
B,0.72,0.19,0.69
C,0.0,0.35,0.2
D,0.3,0.4,0.88
E,0.15,0.54,0.03


In [281]:
df2.set_index("C2")  # 새로운 인덱스 지정하면 기존의 인덱스는 제거(변수로 주지 않아 적용 df2에 적용x)

Unnamed: 0_level_0,C3,C4
C2,Unnamed: 1_level_1,Unnamed: 2_level_1
0.42,0.09,0.42
0.72,0.19,0.69
0.0,0.35,0.2
0.3,0.4,0.88
0.15,0.54,0.03


In [129]:
df2.reset_index()  # 인덱스에 있던 값이 원래 자리로 돌아온다
df2.reset_index(drop=True)  # 인덱스로 잡았던 C1을 삭제

Unnamed: 0,C2,C3,C4
0,0.42,0.09,0.42
1,0.72,0.19,0.69
2,0.0,0.35,0.2
3,0.3,0.4,0.88
4,0.15,0.54,0.03


## 다중 인덱스

In [139]:
np.random.seed(1)
df = pd.DataFrame(np.round(np.random.randn(5, 4), 2), columns=[["A", "A", "B", "B"], ["C1", "C2", "C3", "C4"]])
    # 다중 컬럼 : 대분류 - 중분류 - 소분류 (컬럼 개수가 서로 일치해야 한다)
df

df.columns.names = ["Cidx1", "Cidx2"]  # 각 컬럼에 이름 부여
df

Cidx1,A,A,B,B
Cidx2,C1,C2,C3,C4
0,1.62,-0.61,-0.53,-1.07
1,0.87,-2.3,1.74,-0.76
2,0.32,-0.25,1.46,-2.06
3,-0.32,-0.38,1.13,-1.1
4,-0.17,-0.88,0.04,0.58


In [145]:
np.random.seed(1)
df = pd.DataFrame(np.round(np.random.randn(6, 4), 2), columns=[["A", "A", "B", "B"], ["C1", "C2", "C3", "C4"]],
                 index=[["M", "M", "M", "F", "F", "F"], ["id_" + str(i+1) for i in range(3)]*2])  
    # 다중 인덱스
    # id_1, id_2 로 증가되도록 반복문으로 index 구성. 3까지 증가시킨 후 전체적으로 2번 반복 - 다중 인덱스 분류에 맞춰서
df

df.columns.names = ["Cidx1", "Cidx2"]
df.index.names = ["Ridx1", "Ridx2"]
df

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C1,C2,C3,C4
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,1.62,-0.61,-0.53,-1.07
M,id_2,0.87,-2.3,1.74,-0.76
M,id_3,0.32,-0.25,1.46,-2.06
F,id_1,-0.32,-0.38,1.13,-1.1
F,id_2,-0.17,-0.88,0.04,0.58
F,id_3,-1.1,1.14,0.9,0.5


In [149]:
# 열 인덱스와 행 인덱스 교환 
# stack(열) : 열 -> 행,  unstack(행) : 행 -> 열

df.stack("Cidx1")  # 인덱스에 맞게끔 재구성. 다른 메모리에 따로 저장(df 원본 수정x)
df.stack(1)  # Cidx2를 행으로

df.unstack(0)  # 행을 열로
df.unstack("Ridx2")

Cidx1,A,A,A,A,A,A,B,B,B,B,B,B
Cidx2,C1,C1,C1,C2,C2,C2,C3,C3,C3,C4,C4,C4
Ridx2,id_1,id_2,id_3,id_1,id_2,id_3,id_1,id_2,id_3,id_1,id_2,id_3
Ridx1,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3,Unnamed: 10_level_3,Unnamed: 11_level_3,Unnamed: 12_level_3
F,-0.32,-0.17,-1.1,-0.38,-0.88,1.14,1.13,0.04,0.9,-1.1,0.58,0.5
M,1.62,0.87,0.32,-0.61,-2.3,-0.25,-0.53,1.74,1.46,-1.07,-0.76,-2.06


In [285]:
# 인덱싱

np.random.seed(1)
df = pd.DataFrame(np.round(np.random.randn(5, 4), 2), columns=[["A", "A", "B", "B"], ["C1", "C2", "C1", "C2"]])
df.columns.names = ["Cdix1", "Cdix2"]
df

Cdix1,A,A,B,B
Cdix2,C1,C2,C1,C2
0,1.62,-0.61,-0.53,-1.07
1,0.87,-2.3,1.74,-0.76
2,0.32,-0.25,1.46,-2.06
3,-0.32,-0.38,1.13,-1.1
4,-0.17,-0.88,0.04,0.58


In [286]:
df[("B", "C1")]  # B열의 C1에 접근
df[("B", "C1")][0]  # B열의 C1 첫 행에 접근

df.loc[0, ("B", "C1")]  # B와 C1 둘 다 열 이름이기 때문에 묶어서 접근
df.loc[0, ("B", "C1")] = 100  # 값 수정
df.iloc[0, 2]  # 단순하지만 코드 가독성이 떨어진다 

100.0

In [313]:
np.random.seed(0)
df = pd.DataFrame(np.round(np.random.randn(6, 4), 2), columns=[["A", "A", "B", "B"], ["C", "D", "C", "D"]],
                 index=[["M", "M", "M", "F", "F", "F"], ["id_" + str(i+1) for i in range(3)]*2])

df.columns.names = ["Cidx1", "Cidx2"]
df.index.names = ["Ridx1", "Ridx2"]
df

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,1.76,0.4,0.98,2.24
M,id_2,1.87,-0.98,0.95,-0.15
M,id_3,-0.1,0.41,0.14,1.45
F,id_1,0.76,0.12,0.44,0.33
F,id_2,1.49,-0.21,0.31,-0.85
F,id_3,-2.55,0.65,0.86,-0.74


In [326]:
# 첫번째 행, 첫번째 열에 있는 1.76 출력
df.loc[("M", "id_1"), ("A", "C")]

# 첫번째 열 1.76 ~ -2.55까지 출력
df.loc[:, ("A", "C")]

# 첫번째 행의 모든 컬럼값 출력
df.loc[("M", "id_1")]

# 맨 마지막 행에 "All"이라는 인덱스를 추가하여 각 열의 합 출력
df.loc[("Gll", "All"), :] = df.sum()
df

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,1.76,0.4,0.98,2.24
M,id_2,1.87,-0.98,0.95,-0.15
M,id_3,-0.1,0.41,0.14,1.45
F,id_1,0.76,0.12,0.44,0.33
F,id_2,1.49,-0.21,0.31,-0.85
F,id_3,-2.55,0.65,0.86,-0.74
All,All,3.23,0.39,3.68,2.28
Gll,All,6.46,0.78,7.36,4.56


In [327]:
# 다중 인덱스의 인덱스 순서 교환 : swaplevel(바꾸고자 하는 i, 바꾸고자 하는 j, 기준 축 axis)
# axis = 0은 행, 1은 열, default=0

df1 = df.swaplevel("Ridx1", "Ridx2")
df1

df2 = df.swaplevel("Cidx1", "Cidx2", axis=1)
df2

Unnamed: 0_level_0,Cidx2,C,D,C,D
Unnamed: 0_level_1,Cidx1,A,A,B,B
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,1.76,0.4,0.98,2.24
M,id_2,1.87,-0.98,0.95,-0.15
M,id_3,-0.1,0.41,0.14,1.45
F,id_1,0.76,0.12,0.44,0.33
F,id_2,1.49,-0.21,0.31,-0.85
F,id_3,-2.55,0.65,0.86,-0.74
All,All,3.23,0.39,3.68,2.28
Gll,All,6.46,0.78,7.36,4.56


In [328]:
# 다중 인덱스의 정렬 : sort_index(level=기준인덱스)

df.sort_index(level=0)  # 1차 행의 문자 오름차순으로 정렬
df.sort_index(axis=1, level=0)

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
All,All,3.23,0.39,3.68,2.28
F,id_1,0.76,0.12,0.44,0.33
F,id_2,1.49,-0.21,0.31,-0.85
F,id_3,-2.55,0.65,0.86,-0.74
Gll,All,6.46,0.78,7.36,4.56
M,id_1,1.76,0.4,0.98,2.24
M,id_2,1.87,-0.98,0.95,-0.15
M,id_3,-0.1,0.41,0.14,1.45


In [None]:
'''
A 반 학생 5명과 B반 학생 5명의 국어, 영어, 수학 점수를 나타내는 데이터프레임을 다음과 같이 만든다.

"반", "번호", "국어", "영어", "수학" 을 열로 가지는 데이터프레임 df_score1을 만든다.

df_score1을 변형하여 1차 행 인덱스로 "반"을 2차 행 인덱스로 "번호"을 가지는 데이터프레임 df_score2을 만든다.

데이터 프레임 df_score2에 각 학생의 평균을 나타내는 행을 오른쪽에 추가한다.

df_score1을 변형하여 행 인덱스로 "번호"를, 1차 열 인덱스로 "국어", "영어", "수학"을, 2차 열 인덱스로 "반"을 가지는 데이터프레임 df_score3을 만든다.

데이터 프레임 df_score3에 각 반별 각 과목의 평균을 나타내는 행을 아래에 추가한다.
'''

In [250]:
# A 반 학생 5명과 B반 학생 5명의 국어, 영어, 수학 점수를 나타내는 데이터프레임을 다음과 같이 만든다.
data = {
    "반":["A", "A", "A", "A", "A", "B", "B", "B", "B", "B"],
    "번호":["a1", "a2", "a3", "a4", "a5", "b1", "b2", "b3", "b4", "b5"],
    "국어":[100, 90, 50, 80, 75, 80, 85, 90, 60, 70],
    "영어":[40, 80, 55, 75, 85, 90, 100, 95, 20, 80],
    "수학":[60, 55, 15, 80, 85, 60, 65, 80, 80, 75]}

# "반", "번호", "국어", "영어", "수학" 을 열로 가지는 데이터프레임 df_score1을 만든다.
df_score1 = pd.DataFrame(data)
df_score1

# df_score1을 변형하여 1차 행 인덱스로 "반"을 2차 행 인덱스로 "번호"을 가지는 데이터프레임 df_score2을 만든다.
df_score2 = df_score1.set_index(["반", "번호"])
df_score2

# 데이터 프레임 df_score2에 각 학생의 평균을 나타내는 행을 오른쪽에 추가한다.
df_score2["평균"] = round(df_score2.T.mean(), 2)
df_score2

# df_score1을 변형하여 행 인덱스로 "번호"를, 1차 열 인덱스로 "국어", "영어", "수학"을, 2차 열 인덱스로 "반"을 가지는 데이터프레임 df_score3을 만든다.
df_score3 = df_score1.set_index(["번호", "반"]).unstack("반")
df_score3

# 데이터 프레임 df_score3에 각 반별 각 과목의 평균을 나타내는 행을 아래에 추가한다.
df_score3.loc["평균", :] = df_score3.mean()
df_score3

Unnamed: 0_level_0,국어,국어,영어,영어,수학,수학
반,A,B,A,B,A,B
번호,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
a1,100.0,,40.0,,60.0,
a2,90.0,,80.0,,55.0,
a3,50.0,,55.0,,15.0,
a4,80.0,,75.0,,80.0,
a5,75.0,,85.0,,85.0,
b1,,80.0,,90.0,,60.0
b2,,85.0,,100.0,,65.0
b3,,90.0,,95.0,,80.0
b4,,60.0,,20.0,,80.0
b5,,70.0,,80.0,,75.0


In [201]:
df_score2 = df_score1.set_index(["반", "번호"])
df_score2

Unnamed: 0_level_0,Unnamed: 1_level_0,국어,영어,수학
반,번호,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
A,a1,100,40,60
A,a2,90,80,55
A,a3,50,55,15
A,a4,80,75,80
A,a5,75,85,85
B,b1,80,90,60
B,b2,85,100,65
B,b3,90,95,80
B,b4,60,20,80
B,b5,70,80,75


In [208]:
df_score2["평균"] = round(df_score2.T.mean(), 2)
df_score2

Unnamed: 0_level_0,Unnamed: 1_level_0,국어,영어,수학,평균
반,번호,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
A,a1,100,40,60,66.67
A,a2,90,80,55,75.0
A,a3,50,55,15,40.0
A,a4,80,75,80,78.33
A,a5,75,85,85,81.67
B,b1,80,90,60,76.67
B,b2,85,100,65,83.33
B,b3,90,95,80,88.33
B,b4,60,20,80,53.33
B,b5,70,80,75,75.0


In [245]:
df_score3 = df_score1.set_index(["번호", "반"]).unstack("반")
df_score3

Unnamed: 0_level_0,국어,국어,영어,영어,수학,수학
반,A,B,A,B,A,B
번호,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
a1,100.0,,40.0,,60.0,
a2,90.0,,80.0,,55.0,
a3,50.0,,55.0,,15.0,
a4,80.0,,75.0,,80.0,
a5,75.0,,85.0,,85.0,
b1,,80.0,,90.0,,60.0
b2,,85.0,,100.0,,65.0
b3,,90.0,,95.0,,80.0
b4,,60.0,,20.0,,80.0
b5,,70.0,,80.0,,75.0


In [249]:
df_score3.loc["평균", :] = df_score3.mean()
df_score3

Unnamed: 0_level_0,국어,국어,영어,영어,수학,수학
반,A,B,A,B,A,B
번호,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
a1,100.0,,40.0,,60.0,
a2,90.0,,80.0,,55.0,
a3,50.0,,55.0,,15.0,
a4,80.0,,75.0,,80.0,
a5,75.0,,85.0,,85.0,
b1,,80.0,,90.0,,60.0
b2,,85.0,,100.0,,65.0
b3,,90.0,,95.0,,80.0
b4,,60.0,,20.0,,80.0
b5,,70.0,,80.0,,75.0


## 데이터프레임 병합(합성)  = join

In [5]:
# merge() : 두 데이터프레임의 공통 열 또는 인덱스를 기준으로 두 테이블을 병합(기준 열or행 데이터는 key라고 한다)

df1 = pd.DataFrame({
    "고객번호":[1001, 1002, 1003, 1004, 1005, 1006, 1007],
    "이름":["둘리", "도우너", "또치", "길동", "희동", "마이클", "영희"]})

df2 = pd.DataFrame({
    "고객번호":[1001, 1001, 1005, 1006, 1008, 1001],
    "금액":[10000, 20000, 15000, 5000, 100000, 3000]})

# 두 데이터프레임 크기 다름(열 개수는 같으나 행 개수 다름). 고객번호 열 동일. 일대 다 관계

Unnamed: 0,고객번호,금액
0,1001,10000
1,1001,20000
2,1005,15000
3,1006,5000
4,1008,100000
5,1001,3000


In [9]:
pd.merge(df1, df2)  # inner join과 동일하게 병합

pd.merge(df1, df2, how="left")  # how 옵션 통한 outer join
pd.merge(df1, df2, how="right")
pd.merge(df1, df2, how="outer")  # full outer join

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000.0
1,1001,둘리,20000.0
2,1001,둘리,3000.0
3,1002,도우너,
4,1003,또치,
5,1004,길동,
6,1005,희동,15000.0
7,1006,마이클,5000.0
8,1007,영희,
9,1008,,100000.0


In [12]:
# key값이 같은 데이터가 여러 개 있는 경우. 다대 다 관계

df1 = pd.DataFrame({
    "품종":["setosa", "setosa", "virginica", "virginica"],
    "꽃잎길이":[1.4, 1.3, 1.5, 1.3]})
print(df1)
print("--------------------------------")

df2 = pd.DataFrame({
    "품종":["setosa", "virginica", "virginica", "virsicolor"],
    "꽃잎너비":[0.1, 0.3, 0.5, 0.3]})
print(df2)

          품종  꽃잎길이
0     setosa   1.4
1     setosa   1.3
2  virginica   1.5
3  virginica   1.3
--------------------------------
           품종  꽃잎너비
0      setosa   0.1
1   virginica   0.3
2   virginica   0.5
3  virsicolor   0.3
--------------------------------


In [13]:
pd.merge(df1, df2)  # 두 DataFrame의 동일한 값 추출(모든 경우의 수 조합)

Unnamed: 0,품종,꽃잎길이,꽃잎너비
0,setosa,1.4,0.1
1,setosa,1.3,0.1
2,virginica,1.5,0.3
3,virginica,1.5,0.5
4,virginica,1.3,0.3
5,virginica,1.3,0.5


In [15]:
# 키가 여러 개인 경우

df1 = pd.DataFrame({
    "고객명":["춘향", "춘향", "몽룡"],
    "날짜":["2019-01-01", "2019-01-02", "2019-01-03"],
    "데이터":[20000, 30000, 100000]})

df2 = pd.DataFrame({
    "고객명":["춘향", "몽룡"],
    "데이터":["여성", "남성"]})

# 고객명(값 의미 같음)과 데이터(값 의미 다름) 공통 컬럼(정확히 어떤 컬럼을 키로 할 것인지 지정 필요)

In [16]:
pd.merge(df1, df2, on="고객명")  # on 옵션 통해 정확한 기준 지정

Unnamed: 0,고객명,날짜,데이터_x,데이터_y
0,춘향,2019-01-01,20000,여성
1,춘향,2019-01-02,30000,여성
2,몽룡,2019-01-03,100000,남성


In [23]:
# 공통 키가 없을 경우(값 의미는 같으나 필드명이 다를 경우)

df1 = pd.DataFrame({
    "이름":["영희", "철수", "철수"],
    "성적":[1, 2, 3]})

df2 = pd.DataFrame({
    "성명":["영희", "영희", "철수"],
    "점수":[4, 5, 6]})

In [24]:
pd.merge(df1, df2, left_on="이름", right_on="성명")  # left_on으로 왼쪽 테이블, right_on으로 오른쪽 테이블의 기준 설정

Unnamed: 0,이름,성적,성명,점수
0,영희,1,영희,4
1,영희,1,영희,5
2,철수,2,철수,6
3,철수,3,철수,6


In [25]:
# 인덱스를 기준열로 사용(컬럼 + 인덱스)

df1 = pd.DataFrame({
    '도시': ['서울', '서울', '서울', '부산', '부산'],
    '연도': [2000, 2005, 2010, 2000, 2005],
    '인구': [9853972, 9762546, 9631482, 3655437, 3512547]})
print(df1)
print("------------------------------")


df2 = pd.DataFrame(
    np.arange(12).reshape((6, 2)),
    index=[['부산', '부산', '서울', '서울', '서울', '서울'],
           [2000, 2005, 2000, 2005, 2010, 2015]],
    columns=['데이터1', '데이터2'])  # 다중 인덱스(도시-연도)
print(df2)
print("------------------------------")

# 두 DataFrame 간 도시와 연도가 공통점

   도시    연도       인구
0  서울  2000  9853972
1  서울  2005  9762546
2  서울  2010  9631482
3  부산  2000  3655437
4  부산  2005  3512547
------------------------------
         데이터1  데이터2
부산 2000     0     1
   2005     2     3
서울 2000     4     5
   2005     6     7
   2010     8     9
   2015    10    11
------------------------------


In [26]:
pd.merge(df1, df2, left_on=["도시", "연도"], right_index=True)  # 왼쪽의 컬럼(left_on)과 오른쪽의 인덱스(right_index) 통해 서로 병합

Unnamed: 0,도시,연도,인구,데이터1,데이터2
0,서울,2000,9853972,4,5
1,서울,2005,9762546,6,7
2,서울,2010,9631482,8,9
3,부산,2000,3655437,0,1
4,부산,2005,3512547,2,3


In [27]:
# 인덱스를 기준열로 사용(인덱스 + 인덱스)

df1 = pd.DataFrame(
    [[1., 2.], [3., 4.], [5., 6.]],
    index=['a', 'c', 'e'],
    columns=['서울', '부산'])
print(df1)
print("------------------------------")


df2 = pd.DataFrame(
    [[7., 8.], [9., 10.], [11., 12.], [13, 14]],
    index=['b', 'c', 'd', 'e'],
    columns=['대구', '광주'])
print(df2)
print("------------------------------")

# 공통 컬럼x. 인덱스 일부 공통(행 공통)

    서울   부산
a  1.0  2.0
c  3.0  4.0
e  5.0  6.0
------------------------------
     대구    광주
b   7.0   8.0
c   9.0  10.0
d  11.0  12.0
e  13.0  14.0
------------------------------


In [31]:
pd.merge(df1, df2, left_index=True, right_index=True)  # inner join : 공통된 부분만 추출

pd.merge(df1, df2, how="outer", left_index=True, right_index=True)  # how 옵션 통해 공통되지 않은 부분도 추출

df1.join(df2, how="outer")  # DataFrame에서 제공하는 join 메서드 이용한 병합(기본=left outer join)

Unnamed: 0,서울,부산,대구,광주
a,1.0,2.0,,
b,,,7.0,8.0
c,3.0,4.0,9.0,10.0
d,,,11.0,12.0
e,5.0,6.0,13.0,14.0


In [32]:
# concat() : 기준 열 사용하지 않고 단순히 데이터를 연결

s1 = pd.Series([0, 1], index=["A", "B"])
s2 = pd.Series([2, 3, 4], index=["A", "B", "C"])

pd.concat([s1, s2])  # DataFrame이 아닌 단순히 Series 2개를 서로 연결

A    0
B    1
A    2
B    3
C    4
dtype: int64

In [35]:
df1 = pd.DataFrame(
    np.arange(6).reshape(3, 2),
    index=['a', 'b', 'c'],
    columns=['데이터1', '데이터2'])
print(df1)
print("------------------------------")

df2 = pd.DataFrame(
    5 + np.arange(4).reshape(2, 2),
    index=['a', 'c'],
    columns=['데이터3', '데이터4'])
print(df2)
print("------------------------------")

pd.concat([df1, df2])  # DataFrame 2개를 단순히 서로 연결(기본값 axis=0)
pd.concat([df1, df2], axis=1)  # 열로 연결 

   데이터1  데이터2
a     0     1
b     2     3
c     4     5
------------------------------
   데이터3  데이터4
a     5     6
c     7     8
------------------------------


of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  from ipykernel import kernelapp as app
of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  app.launch_new_instance()


Unnamed: 0,데이터1,데이터2,데이터3,데이터4
a,0,1,5.0,6.0
b,2,3,,
c,4,5,7.0,8.0


In [None]:
'''
어느 회사의 전반기(1월 ~ 6월) 실적을 나타내는 데이터프레임과 
후반기(7월 ~ 12월) 실적을 나타내는 데이터프레임을 만든 뒤 합친다. 
실적 정보는 "매출", "비용", "이익" 으로 이루어진다. (이익 = 매출 - 비용).
또한 1년간의 총 실적을 마지막 행으로 덧붙인다.

매출	비용
1월	1000	1500
2월	1500	2000
3월	3000	2500
4월	4000	2700
5월	5000	3000
6월	6000	3200

매출	비용
7월	4500	2800
8월	4000	2700
9월	5000	3000
10월	6000	3200
11월	3000	2500
12월	2000	2000
'''

In [218]:
df1 = pd.DataFrame({
    "전반기":["1월", "2월", "3월", "4월", "5월", "6월"],
    "매출":[100, 1500, 3000, 4000, 5000, 6000],
    "비용":[1500, 2000, 2500, 2700, 3000, 3200]})

df2 = pd.DataFrame({
    "후반기":["7월", "8월", "9월", "10월", "11월", "12월"],
    "매출":[4500, 4000, 5000, 6000, 3000, 2000],
    "비용":[2800, 2700, 3000, 3200, 2500, 2000]})

df3 = pd.concat([df1, df2])

df3["이익"] = df3["매출"] - df3["비용"]

df3.loc["총 실적"] = df3.sum()
df3

of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  # This is added back by InteractiveShellApp.init_path()


Unnamed: 0,매출,비용,전반기,후반기,이익
0,100.0,1500.0,1월,,-1400.0
1,1500.0,2000.0,2월,,-500.0
2,3000.0,2500.0,3월,,500.0
3,4000.0,2700.0,4월,,1300.0
4,5000.0,3000.0,5월,,2000.0
5,6000.0,3200.0,6월,,2800.0
0,4500.0,2800.0,,7월,1700.0
1,4000.0,2700.0,,8월,1300.0
2,5000.0,3000.0,,9월,2000.0
3,6000.0,3200.0,,10월,2800.0


## 피벗(pivot)

In [45]:
# DataFrame.pivot(index=None, columns=None, values=None)[source] : 사용자가 보기 쉽게 데이터 구조 변환

data = {
    "도시": ["서울", "서울", "서울", "부산", "부산", "부산", "인천", "인천"],
    "연도": ["2015", "2010", "2005", "2015", "2010", "2005", "2015", "2010"],
    "인구": [9904312, 9631482, 9762546, 3448737, 3393191, 3512547, 2890451, 263203],
    "지역": ["수도권", "수도권", "수도권", "경상권", "경상권", "경상권", "수도권", "수도권"]}

df1 = pd.DataFrame(data)
df1

# 각 도시에서 연도별로 인구수 확인(행을 도시로, 열을 연도로)
df1.pivot(index="도시", columns="연도", values="인구")  # 필요한 정보를 피벗테이블로 재구성
df1.pivot("도시", "연도", "인구")  # 순서대로 작성했기 때문에 인자 이름 생략해도 상관 없다

연도,2005,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


In [48]:
try:
    df1.pivot("지역", "연도", "인구")  # Error 발생 : 인덱스 중복
except ValueError as e:
    print("에러 메시지: ", e)

에러 메시지:  Index contains duplicate entries, cannot reshape


In [46]:
# 다중 인덱스 배열 통한 DataFrame 재구성

df1.set_index(["도시", "연도"])[["인구"]].unstack()
    # set_index 사용해서 도시를 인덱스로, [] 통해 value를 인구로 2차원 배열, unstack 통해 행과 열 변환

Unnamed: 0_level_0,인구,인구,인구
연도,2005,2010,2015
도시,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


## 그룹 분석

     - 특정 조건에 맞는 데이터가 하나 이상, 즉 그룹을 이루는 경우에 사용
     
     - 피벗 테이블과 달리 키에 의해서 결정되는 데이터가 여러 개 있어도 괜찮다
     
     - 문법
         DataFrame.groupby(self, by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=False, observed=False, **kwargs)
         
     - 그룹 연산 메서드
         size(), count() : 개수(NaN값 포함 여부 - size는 포함, count는 포함x)
         mean(), median(), min(), max()
         sum(), prod(), std(), var(), quantile() : 합계, 곱, 표준편차, 분산, 사분위수
         first(), last()
         describe() : 그룹별 요약(기술통계)
         agg(), aggreate() : 함수 자동 호출(그룹화)
         apply() : 함수 자동 호출(개별)
         transform() : 함수 자동 호출 + 현재 DataFrame 형태 결과값으로 변형
         

In [50]:
np.random.seed(0)
df2 = pd.DataFrame({
    "key1":["A", "A", "B", "B", "A"],
    "key2":["one", "two", "one", "two", "one"],
    "data1":[1, 2, 3, 4, 5],
    "data2":[10, 20, 30, 40, 50]})

df2

Unnamed: 0,key1,key2,data1,data2
0,A,one,1,10
1,A,two,2,20
2,B,one,3,30
3,B,two,4,40
4,A,one,5,50


In [62]:
g = df2.groupby("key1")  # key1의 데이터를 기준으로 묶음
g
g.groups  # A와 B라는 그룹으로 데이터들을 묶음

g.sum()  # 그룹에 대한 합계

# 다양한 표현 방법
print(df2.groupby(df2.key1).sum())  # 일회용 사용. 전체 데이터에 접근 후 그룹화하여 합계 출력
print("----------------------------")
print(df2.data1.groupby(df2.key1).sum())  # 특정 데이터(data1)에 접근 후 그룹화하여 합계 출력
print("----------------------------")
print(df2.groupby(df2.key1)["data1"].sum())  # 전체 데이터 가져온 후 그 중 dat1에 접근하여 합계 출력
print("----------------------------")
print(df2.groupby(df2.key1).sum()["data1"])  # 전체 데이터의 합계 구한 후 data1만 출력
print("----------------------------")
print(df2.groupby(df2.key1).sum()[["data1"]])  # DataFrame 형태로 출력

      data1  data2
key1              
A         8     80
B         7     70
----------------------------
key1
A    8
B    7
Name: data1, dtype: int64
----------------------------
key1
A    8
B    7
Name: data1, dtype: int64
----------------------------
key1
A    8
B    7
Name: data1, dtype: int64
----------------------------
      data1
key1       
A         8
B         7


In [65]:
print(df2.data1.groupby([df2.key1, df2.key2]).sum())  # 복합키. 다중 인덱스(key1을 1차, key2를 2차 인덱스로 부여)
print("----------------------------")
print(df2.data1.groupby([df2.key1, df2.key2]).sum().unstack())  # key1에 대해서 key2를 열 인덱스로

key1  key2
A     one     6
      two     2
B     one     3
      two     4
Name: data1, dtype: int64
----------------------------
key2  one  two
key1          
A       6    2
B       3    4


In [81]:
# 각 도시에서 연도별로 인구수 확인(행을 도시로, 열을 연도로)

data = {
    "도시": ["서울", "서울", "서울", "부산", "부산", "부산", "인천", "인천"],
    "연도": ["2015", "2010", "2005", "2015", "2010", "2005", "2015", "2010"],
    "인구": [9904312, 9631482, 9762546, 3448737, 3393191, 3512547, 2890451, 263203],
    "지역": ["수도권", "수도권", "수도권", "경상권", "경상권", "경상권", "수도권", "수도권"]}

df1 = pd.DataFrame(data)
df1

df1["인구"].groupby([df1.지역, df1["연도"]]).sum().unstack()  # 한글도 . 접근 가능

연도,2005,2010,2015
지역,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
경상권,3512547,3393191,3448737
수도권,9762546,9894685,12794763


In [82]:
import seaborn as sns

iris = sns.load_dataset("iris")
iris.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [86]:
# 각 붓꽃별로 가장 큰 값과 가장 작은 값의 차이를 비율로 확인

def peak_to_peak_ratio(x):
    return x.max() / x.min()  # 함수로 큰 값과 작은 값 차이의 비율 적용 : 개별적 값=apply(), 그룹화=agg()

iris.groupby(iris.species)  # 종류별로 그룹화
print(iris.groupby(iris.species).agg(peak_to_peak_ratio))  # 그룹화한 data 개수만큼 자동으로 함수 호출(각 그룹의 컬럼별로 적용)
print("-----------------------------"*3)
print(iris.groupby(iris.species).apply(peak_to_peak_ratio))  # 하나의 그룹별로 적용

            sepal_length  sepal_width  petal_length  petal_width
species                                                         
setosa          1.348837     1.913043      1.900000     6.000000
versicolor      1.428571     1.700000      1.700000     1.800000
virginica       1.612245     1.727273      1.533333     1.785714
---------------------------------------------------------------------------------------
            sepal_length  sepal_width  petal_length  petal_width
species                                                         
setosa          1.348837     1.913043      1.900000     6.000000
versicolor      1.428571     1.700000      1.700000     1.800000
virginica       1.612245     1.727273      1.533333     1.785714


In [93]:
# 각 붓꽃별로 가장 꽃잎 길이가 작은 3개의 데이터 추출

def max3(df):  # sort 통해 정렬 후 맨 위 3개의 값 추출
    return df.sort_values(by="petal_length")[:3]

iris.groupby(iris.species)  # 종류별로 그룹화
print(iris.groupby(iris.species).apply(max3))
print("----------------------------")
#iris.groupby(iris.species).agg(max3)  # species는 최대값 없기 때문에 Error 발생
# agg와 apply는 서로 비슷. agg에서 Error 발생할 경우 apply 대체 사용 가능

                sepal_length  sepal_width  petal_length  petal_width  \
species                                                                
setosa     22            4.6          3.6           1.0          0.2   
           13            4.3          3.0           1.1          0.1   
           14            5.8          4.0           1.2          0.2   
versicolor 98            5.1          2.5           3.0          1.1   
           93            5.0          2.3           3.3          1.0   
           57            4.9          2.4           3.3          1.0   
virginica  106           4.9          2.5           4.5          1.7   
           126           6.2          2.8           4.8          1.8   
           138           6.0          3.0           4.8          1.8   

                   species  
species                     
setosa     22       setosa  
           13       setosa  
           14       setosa  
versicolor 98   versicolor  
           93   versicolor  
    

In [97]:
# apply() vs agg()

def agg_apply_test(df):
    return 1

g = iris.groupby(iris.species)
g

print(g.apply(agg_apply_test))  # species별(그룹별)로 리턴
print("-------------------------")
print(g.agg(agg_apply_test))  # 그룹의 각 컬럼별로 리턴

species
setosa        1
versicolor    1
virginica     1
dtype: int64
-------------------------
            sepal_length  sepal_width  petal_length  petal_width
species                                                         
setosa               1.0          1.0           1.0          1.0
versicolor           1.0          1.0           1.0          1.0
virginica            1.0          1.0           1.0          1.0


In [99]:
# describe() : 그룹별로 전체적인 기술통계 출력 

iris.groupby("species").describe().T  # 가시성 위해 .T (행과 열 전환) 사용

Unnamed: 0,species,setosa,versicolor,virginica
sepal_length,count,50.0,50.0,50.0
sepal_length,mean,5.006,5.936,6.588
sepal_length,std,0.35249,0.516171,0.63588
sepal_length,min,4.3,4.9,4.9
sepal_length,25%,4.8,5.6,6.225
sepal_length,50%,5.0,5.9,6.5
sepal_length,75%,5.2,6.3,6.9
sepal_length,max,5.8,7.0,7.9
sepal_width,count,50.0,50.0,50.0
sepal_width,mean,3.428,2.77,2.974


In [105]:
# transform()

def q3cut(s):  # Series로 전달받는다
    return pd.qcut(s, 3, labels=["소", "중", "대"])  # qcut() 통해 균등 분리

iris.groupby(iris.species)["petal_length"]  # Series groupby
iris.groupby(iris.species)["petal_length"].transform(q3cut)  # Series로 넘겨서 Series로 결과값 받음

iris["petal_length_class"] = iris.groupby(iris.species)["petal_length"].transform(q3cut)
    # 새로운 컬럼 추가하여 기존 DataFrame 변형. 지속적으로 사용
iris.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species,petal_length_class
0,5.1,3.5,1.4,0.2,setosa,소
1,4.9,3.0,1.4,0.2,setosa,소
2,4.7,3.2,1.3,0.2,setosa,소
3,4.6,3.1,1.5,0.2,setosa,중
4,5.0,3.6,1.4,0.2,setosa,소


In [106]:
df = pd.DataFrame({
    'city': ['부산', '부산', '부산', '부산', '서울', '서울', '서울'],
    'fruits': ['apple', 'orange', 'banana', 'banana', 'apple', 'apple', 'banana'],
    'price': [100, 200, 250, 300, 150, 200, 400],
    'quantity': [1, 2, 3, 4, 5, 6, 7]})
df

Unnamed: 0,city,fruits,price,quantity
0,부산,apple,100,1
1,부산,orange,200,2
2,부산,banana,250,3
3,부산,banana,300,4
4,서울,apple,150,5
5,서울,apple,200,6
6,서울,banana,400,7


In [115]:
# 각 도시별로 과일의 가격 평균과 수량 평균
df.groupby(df.city)["price", "quantity"].mean()
print(df.groupby(df.city).mean())
print("-------------------------------")

# 도시별, 과일별 가격 평균과 수량 평균
print(df.groupby(["city", "fruits"]).mean())
print("-------------------------------")

# groupby 라벨을 인덱스로x
print(df.groupby([df.city, df.fruits], as_index=False).mean())  # as_index=True / False 통해 인덱스 설정
print("-------------------------------")

# 가격의 평균과 수량의 합계
df.groupby([df.city, df.fruits]).agg({"price":np.mean, "quantity":np.sum})  # 동시에 여러 작업을 따로 하기 위해 agg() 사용

      price  quantity
city                 
부산    212.5       2.5
서울    250.0       6.0
-------------------------------
             price  quantity
city fruits                 
부산   apple   100.0       1.0
     banana  275.0       3.5
     orange  200.0       2.0
서울   apple   175.0       5.5
     banana  400.0       7.0
-------------------------------
  city  fruits  price  quantity
0   부산   apple  100.0       1.0
1   부산  banana  275.0       3.5
2   부산  orange  200.0       2.0
3   서울   apple  175.0       5.5
4   서울  banana  400.0       7.0
-------------------------------


Unnamed: 0_level_0,Unnamed: 1_level_0,price,quantity
city,fruits,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,apple,100,1
부산,banana,275,7
부산,orange,200,2
서울,apple,175,11
서울,banana,400,7


## pivot_table() = pivot() + groupby()

    - pandas.pivot_table(data, values=None, index=None, columns=None, aggfunc='mean', fill_value=None, margins=False, dropna=True, margins_name='All', observed=False)
    
        > data : 분석할 데이터 프레임
        > values : 분석할 열
        > aggfunc : 분석 메서드(평균? 합계?). dafault=평균
        > fill_value : NaN 대체값
        > dropna : NaN에 해당하는 값 버릴지 여부
        > margins_name(margins) : 행과 열 끝에 소계 추가

In [132]:
print(df1)

df1.pivot("도시", "연도", "인구")  # pivot() 통한 재구성

df1.pivot_table("인구", "도시", "연도")
#pd.pivot_table(df1, ..)
# pivot과 결과값 동일

df1.pivot_table("인구", "도시", "연도", aggfunc="sum", margins=True, margins_name="합계", fill_value=0)

df1.pivot_table("인구", index=["연도", "도시"])

   도시    연도       인구   지역
0  서울  2015  9904312  수도권
1  서울  2010  9631482  수도권
2  서울  2005  9762546  수도권
3  부산  2015  3448737  경상권
4  부산  2010  3393191  경상권
5  부산  2005  3512547  경상권
6  인천  2015  2890451  수도권
7  인천  2010   263203  수도권


Unnamed: 0_level_0,Unnamed: 1_level_0,인구
연도,도시,Unnamed: 2_level_1
2005,부산,3512547
2005,서울,9762546
2010,부산,3393191
2010,서울,9631482
2010,인천,263203
2015,부산,3448737
2015,서울,9904312
2015,인천,2890451


## 활용 예제

In [134]:
# Tip 데이터 활용한 예제 : 식사 대비 팁 비율이 어떤 경우에 가장 높아지는가

import seaborn as sns

tips = sns.load_dataset("tips")
tips.describe()  # 전체 기술통계 확인

Unnamed: 0,total_bill,tip,size
count,244.0,244.0,244.0
mean,19.785943,2.998279,2.569672
std,8.902412,1.383638,0.9511
min,3.07,1.0,1.0
25%,13.3475,2.0,2.0
50%,17.795,2.9,2.0
75%,24.1275,3.5625,3.0
max,50.81,10.0,6.0


In [161]:
tips.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,tip_pct
0,16.99,1.01,Female,No,Sun,Dinner,2,0.059447
1,10.34,1.66,Male,No,Sun,Dinner,3,0.160542
2,21.01,3.5,Male,No,Sun,Dinner,3,0.166587
3,23.68,3.31,Male,No,Sun,Dinner,2,0.13978
4,24.59,3.61,Female,No,Sun,Dinner,4,0.146808


In [185]:
# 식사 대금과 팁의 비율(tip/total_bill)을 나타내는 tip_pct 추가
tips["tip_pct"] = tips["tip"] / tips["total_bill"]
tips.tail()  # tail() : 맨 뒤 5개 데이터 출력

# 성별로 인원수 파악
tips.groupby(tips.sex).size()  # 결측치 있을 경우 size(), 없을 경우 count() / size() 사용
tips.groupby(tips.sex).count()

# 성별 , 흡연 유무별 인원수 파악
tips.groupby([tips.sex, tips.smoker]).size()

# 위의 두 정보를 하나의 테이블로 출력(pivot_table)
tips.pivot_table("tip_pct", "sex", "smoker", aggfunc=np.size, margins=True)
    # size는 다른 모듈에 같은 이름의 함수가 있기 때문에 출동 발생(모듈 정해야 한다)
    
# 성별에 따른  평균 팁 비율
tips.groupby(tips.sex)[["tip_pct"]].mean()  # DataFrame 형태로 출력 위해 [[]] 사용

# 흡연 여부에 따른 평균 팁 비율
tips.groupby(tips.smoker)[["tip_pct"]].mean()

# 위의 정보를 pivot_table()로 구현
tips.pivot_table("tip_pct", "sex", "smoker", aggfunc="mean", margins=True, margins_name="팁 비율")
tips.pivot_table("tip_pct", ["sex", "smoker"])  # 다중인덱스 사용

# 팁의 비율이 요일과 점심/저녁 여부, 인원수에 어떤 영향을 받는지 확인
print(tips.pivot_table("tip_pct", "day"))  # 요일별 팁 비율 : 금요일이 가장 높다
print(tips.pivot_table("tip_pct", "time"))  # 점심/저녁 여부 팁 비율 : 점심이 가장 높다
print(tips.pivot_table("tip_pct", "size"))  # 인원 수에 따른 팁 비율 : 1명일 때 가장 높다
print("---------------------------")
print(tips.pivot_table("tip_pct", ["day", "time", "size"]))
print("---------------------------")
print(tips.groupby(["day", "time", "size"])["tip_pct"].mean().dropna())  # groupby로 표현(결측치 제외-dropna())

# 성별, 흡연 유무별로 가장 많은 팁과 가장 적은 팁의 차이
def diff(x):
    return x.max() - x.min()

print(tips.groupby(["sex", "smoker"])[["tip"]].agg(diff))

# 팁 비율의 평균과 팁 합계의 차이를 성별, 흡연 유무별로 출력
print(tips.groupby(["sex", "smoker"]).agg({"tip_pct":"mean", "total_bill":diff}))

       tip_pct
day           
Thur  0.161276
Fri   0.169913
Sat   0.153152
Sun   0.166897
         tip_pct
time            
Lunch   0.164128
Dinner  0.159518
       tip_pct
size          
1     0.217292
2     0.165719
3     0.152157
4     0.145949
5     0.141495
6     0.156229
---------------------------
                   tip_pct
day  time   size          
Thur Lunch  1     0.181728
            2     0.164024
            3     0.144599
            4     0.145515
            5     0.121389
            6     0.173706
     Dinner 2     0.159744
Fri  Lunch  1     0.223776
            2     0.181969
            3     0.187735
     Dinner 2     0.162659
            4     0.117750
Sat  Dinner 1     0.231832
            2     0.155289
            3     0.151439
            4     0.138289
            5     0.106572
Sun  Dinner 2     0.180870
            3     0.152662
            4     0.153168
            5     0.159839
            6     0.103799
---------------------------
day   time    size

In [187]:
'''
타이타닉 예제
'''

titanic = sns.load_dataset("titanic")
titanic.count()
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [225]:
# age_class 컬럼 추가하여 age를 미성년, 성년, 노년으로 구분하여 저장
cats = pd.qcut(titanic.age, 3, labels=["미성년", "성년", "노년"])
titanic["age_class"] = cats
titanic

# 성별, age_class별, 객실(class)별 생존 여부의 평균 출력
titanic.pivot_table("survived", ["sex", "age_class", "class"]).unstack("class")

titanic.groupby(["sex", "age_class", "class"])["survived"].mean().unstack("class")


Unnamed: 0_level_0,class,First,Second,Third
sex,age_class,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
female,미성년,0.954545,1.0,0.508475
female,성년,0.947368,0.909091,0.481481
female,노년,0.977273,0.857143,0.25
male,미성년,0.5,0.357143,0.158879
male,성년,0.5,0.076923,0.195652
male,노년,0.347826,0.0625,0.055556


In [None]:
'''
항공 운항 데이터

http://data.gov  미국 공공 데이터(https://catalog.data.gov/dataset/crimes-2001-to-present-398a4)
http://stat-computing.org  통계 관련 데이터(/ Dataexpo / 2009 Airline on Time)
'''

In [2]:
df1 = pd.read_csv("data/airline/2007.csv", sep=",")
df1.head()

# df2 = pd.read_csv("data/airline/2008.csv", sep=",")
# df2.head()

Unnamed: 0,Year,Month,DayofMonth,DayOfWeek,DepTime,CRSDepTime,ArrTime,CRSArrTime,UniqueCarrier,FlightNum,...,TaxiIn,TaxiOut,Cancelled,CancellationCode,Diverted,CarrierDelay,WeatherDelay,NASDelay,SecurityDelay,LateAircraftDelay
0,2007,1,1,1,1232.0,1225,1341.0,1340,WN,2891,...,4,11,0,,0,0,0,0,0,0
1,2007,1,1,1,1918.0,1905,2043.0,2035,WN,462,...,5,6,0,,0,0,0,0,0,0
2,2007,1,1,1,2206.0,2130,2334.0,2300,WN,1229,...,6,9,0,,0,3,0,0,0,31
3,2007,1,1,1,1230.0,1200,1356.0,1330,WN,1355,...,3,8,0,,0,23,0,0,0,3
4,2007,1,1,1,831.0,830,957.0,1000,WN,2278,...,3,9,0,,0,0,0,0,0,0


In [None]:
df1.shape  # 크기 확인

In [3]:
df1.columns  # 컬럼 확인

# Year, Month, ArrDelay, DepDelay 선택하여 df2 생성
df2 = df1[["Year", "Month", "ArrDelay", "DepDelay"]]
df2.head()

Unnamed: 0,Year,Month,ArrDelay,DepDelay
0,2007,1,1.0,7.0
1,2007,1,8.0,13.0
2,2007,1,34.0,36.0
3,2007,1,26.0,30.0
4,2007,1,-3.0,1.0


In [4]:
# 결측치 처리
# DataFrame.dropna(how = 'any(하나만 NaN이어도 행 전체 삭제) or all(전체가 NaN이어야 행 삭제)') : 결측값 버림(default는 any)
df2 = df2.dropna()

In [22]:
# 해당 연/월별로 출발지연 회수와 도착지연 회수 개수
df2.groupby(df2.Year)["ArrDelay", "DepDelay"].count()
df2.groupby(df2.Month)["ArrDelay", "DepDelay"].count()

df2.groupby(["Year", "Month"])[["ArrDelay", "DepDelay"]].count()

# 해당 연/월별로 최대 출발지연 회수와 최대 도착지연 회수 개수
df2_sort = df2.groupby(["Year", "Month"])[["ArrDelay", "DepDelay"]].count()
df2_sort.sort_values(by=["ArrDelay", "DepDelay"], ascending=False)


Unnamed: 0_level_0,Unnamed: 1_level_0,ArrDelay,DepDelay
Year,Month,Unnamed: 2_level_1,Unnamed: 3_level_1
2007,8,638883,638883
2007,7,632904,632904
2007,5,623326,623326
2007,10,621665,621665
2007,3,621057,621057
2007,6,609838,609838
2007,1,604582,604582
2007,4,602317,602317
2007,11,597989,597989
2007,9,592718,592718


## 시계열 데이터
    
    - DateTimeIndex : 인덱스로 날짜 타입 이용
        
        Pandas.to_datetime() : 문자열을 날짜 타입으로 변환
        Pandas.date_range() : 날짜의 범위를 지정

In [23]:
date_str = ["2019, 1, 1", "2019, 1, 4", "2019, 1, 5", "2019, 1, 6"]
idx = pd.to_datetime(date_str)
idx

DatetimeIndex(['2019-01-01', '2019-01-04', '2019-01-05', '2019-01-06'], dtype='datetime64[ns]', freq=None)

In [33]:
np.random.seed(0)
s = pd.Series(np.random.randn(4), index=[idx])  # 날짜 타입으로 변환한 idx를 인덱스로 사용(날짜를 인덱스로 사용)
s

2019-01-01    1.764052
2019-01-04    0.400157
2019-01-05    0.978738
2019-01-06    2.240893
dtype: float64

In [25]:
pd.date_range("2019-8-25", "2019-9-2")  # 자동으로 날짜 생성(시작 날짜, 끝 날짜)
pd.date_range(start="2019-8-25", periods=30)  # (시작날짜, 주기)



DatetimeIndex(['2019-08-25', '2019-08-26', '2019-08-27', '2019-08-28',
               '2019-08-29', '2019-08-30', '2019-08-31', '2019-09-01',
               '2019-09-02', '2019-09-03', '2019-09-04', '2019-09-05',
               '2019-09-06', '2019-09-07', '2019-09-08', '2019-09-09',
               '2019-09-10', '2019-09-11', '2019-09-12', '2019-09-13',
               '2019-09-14', '2019-09-15', '2019-09-16', '2019-09-17',
               '2019-09-18', '2019-09-19', '2019-09-20', '2019-09-21',
               '2019-09-22', '2019-09-23'],
              dtype='datetime64[ns]', freq='D')

In [None]:
'''
freq 표시 : 
    s(초), T(분), H(시간), D(일), B(주말이 아닌 평일)
    
    W(주 중 일요일), W-MON(주 중 월요일)
    
    M(각 달의 마지막 날), MS(각 달의 첫 날)
    
    DM(주말이 아닌 평일 중에서 각 달의 마지막 날), DMS(주말이 아닌 평일 중에서 각 달의 첫날)
    
    WOM-2THU(각 달의 두번째 목요일)
    
    Q-JAN(각 분기의 첫 달의 마지막 날), Q-DEC(각 분기의 마지막 달의 마지막 날)
'''

In [36]:
pd.date_range("2019-9-1", "2019-9-30", freq="B")  # 주말이 아닌 평일의 날짜만 표시

DatetimeIndex(['2019-09-02', '2019-09-03', '2019-09-04', '2019-09-05',
               '2019-09-06', '2019-09-09', '2019-09-10', '2019-09-11',
               '2019-09-12', '2019-09-13', '2019-09-16', '2019-09-17',
               '2019-09-18', '2019-09-19', '2019-09-20', '2019-09-23',
               '2019-09-24', '2019-09-25', '2019-09-26', '2019-09-27',
               '2019-09-30'],
              dtype='datetime64[ns]', freq='B')

In [39]:
# shift 연산 : 날짜 인덱스를 그대로 두고, 데이터를 이동시킨다

np.random.seed(0)
ts = pd.Series(np.random.randn(4), index=pd.date_range("2019-1-1", periods=4, freq="M"))  # 각 달의 마지막 날
ts

2019-01-31    1.764052
2019-02-28    0.400157
2019-03-31    0.978738
2019-04-30    2.240893
Freq: M, dtype: float64

In [46]:
ts.shift(1)
ts.shift(2)

2019-01-31         NaN
2019-02-28         NaN
2019-03-31    1.764052
2019-04-30    0.400157
Freq: M, dtype: float64

In [42]:
ts.shift(-1)

2019-01-31    0.400157
2019-02-28    0.978738
2019-03-31    2.240893
2019-04-30         NaN
Freq: M, dtype: float64

In [44]:
ts.shift(1, freq="M")  # 개월 단위로 이동(1월달 데이터가 2월로)

2019-02-28    1.764052
2019-03-31    0.400157
2019-04-30    0.978738
2019-05-31    2.240893
Freq: M, dtype: float64

In [45]:
ts.shift(1, freq="W")  # 각 달의 일요일에 해당하는 날짜에 데이터 입력

2019-02-03    1.764052
2019-03-03    0.400157
2019-04-07    0.978738
2019-05-05    2.240893
Freq: WOM-1SUN, dtype: float64

In [48]:
# resample : 날짜 재조정
#            up-sampling (구간 범위를 작게 만든다 - 데이터량 증가)
#            down-sampling (구간 범위를 크게 만든다 - 데이터량 감소)

np.random.seed(0)
ts = pd.Series(np.random.randn(100), index=pd.date_range("2019-1-1", periods=100, freq="D"))  # 100일간의 날짜 생성
ts.tail(10)  # 마지막 데이터 10개 출력

2019-04-01   -0.403177
2019-04-02    1.222445
2019-04-03    0.208275
2019-04-04    0.976639
2019-04-05    0.356366
2019-04-06    0.706573
2019-04-07    0.010500
2019-04-08    1.785870
2019-04-09    0.126912
2019-04-10    0.401989
Freq: D, dtype: float64

In [49]:
# down-sampling : 구간을 그룹으로 묶는 용도로 많이 사용(그룹 연산 가능)

ts.resample("W").mean()  # 100일간의 날짜 중 각 주의 일요일에 해당하는 날짜를 그룹으로 묶어 그룹의 평균 출력

2019-01-06    1.045687
2019-01-13    0.495067
2019-01-20    0.235301
2019-01-27   -0.130850
2019-02-03    0.068497
2019-02-10    0.071846
2019-02-17   -0.371221
2019-02-24   -0.579260
2019-03-03   -0.175965
2019-03-10   -0.691214
2019-03-17    0.076018
2019-03-24   -0.214814
2019-03-31    0.404350
2019-04-07    0.439660
2019-04-14    0.771591
Freq: W-SUN, dtype: float64

In [50]:
np.random.seed(0)
ts = pd.Series(np.random.randn(60), index=pd.date_range("2019-1-1", periods=60, freq="T"))  # 60개의 시간 데이터 생성
ts.tail(10)  # 마지막 데이터 10개 출력

2019-01-01 00:50:00   -0.895467
2019-01-01 00:51:00    0.386902
2019-01-01 00:52:00   -0.510805
2019-01-01 00:53:00   -1.180632
2019-01-01 00:54:00   -0.028182
2019-01-01 00:55:00    0.428332
2019-01-01 00:56:00    0.066517
2019-01-01 00:57:00    0.302472
2019-01-01 00:58:00   -0.634322
2019-01-01 00:59:00   -0.362741
Freq: T, dtype: float64

In [51]:
ts.resample("10T").sum()  # 10분마다 시간을 그룹으로 묶어 각 그룹의 합계 추출

2019-01-01 00:00:00    7.380232
2019-01-01 00:10:00    4.006460
2019-01-01 00:20:00    1.899002
2019-01-01 00:30:00   -0.783994
2019-01-01 00:40:00   -5.473735
2019-01-01 00:50:00   -2.427926
Freq: 10T, dtype: float64

In [52]:
# 시고저종(open, high, low, close) 값 한번에 추출 : 주로 주식에서 사용

ts.resample("5T").ohlc()  # 5분마다 시고저종 값 추출

Unnamed: 0,open,high,low,close
2019-01-01 00:00:00,1.764052,2.240893,0.400157,1.867558
2019-01-01 00:05:00,-0.977278,0.950088,-0.977278,0.410599
2019-01-01 00:10:00,0.144044,1.454274,0.121675,0.443863
2019-01-01 00:15:00,0.333674,1.494079,-0.854096,-0.854096
2019-01-01 00:20:00,-2.55299,2.269755,-2.55299,2.269755
2019-01-01 00:25:00,-1.454366,1.532779,-1.454366,1.469359
2019-01-01 00:30:00,0.154947,0.378163,-1.980796,-0.347912
2019-01-01 00:35:00,0.156349,1.230291,-0.387327,-0.302303
2019-01-01 00:40:00,-1.048553,1.950775,-1.70627,-0.509652
2019-01-01 00:45:00,-0.438074,0.77749,-1.613898,-0.21274


In [55]:
# up-sampling : ffill(): 앞의 값 끌어온다, bfill(): 뒤의 값 끌어온다

ts.resample("30s").ffill().head(20)  # T를 s로 늘림 : 데이터값 없는 필드도 생성. ffill()통해 앞의 값 복사하여 데이터값 채움
ts.resample("30s").bfill().head(20)  # bfill() 통해 뒤의 값 복사하여 데이터값 채움

2019-01-01 00:00:00    1.764052
2019-01-01 00:00:30    0.400157
2019-01-01 00:01:00    0.400157
2019-01-01 00:01:30    0.978738
2019-01-01 00:02:00    0.978738
2019-01-01 00:02:30    2.240893
2019-01-01 00:03:00    2.240893
2019-01-01 00:03:30    1.867558
2019-01-01 00:04:00    1.867558
2019-01-01 00:04:30   -0.977278
2019-01-01 00:05:00   -0.977278
2019-01-01 00:05:30    0.950088
2019-01-01 00:06:00    0.950088
2019-01-01 00:06:30   -0.151357
2019-01-01 00:07:00   -0.151357
2019-01-01 00:07:30   -0.103219
2019-01-01 00:08:00   -0.103219
2019-01-01 00:08:30    0.410599
2019-01-01 00:09:00    0.410599
2019-01-01 00:09:30    0.144044
Freq: 30S, dtype: float64

# 부록. Dask 모듈

1. Thread : 작업 단위
    - 멀티 Thread : 여러 개의 작업을 같이 수행

2. program(실행x 상태) vs process(실행 상태)

3. 멀티 Thread를 통해 많은 양의 데이터를 빠르게 처리하기 위한 모듈

4. 가상 데이터프레임

In [65]:
df1 = pd.read_csv("data/sampl1.csv")  # 데이터 바로 불러온다
df1

df1[" c2"].mean()

2.22

In [58]:
import dask.dataframe as dd

df2 = dd.read_csv("data/sampl1.csv")  # 데이터를 바로 불러오는 것이 아니라, 공간만 마련
df2

Unnamed: 0_level_0,c1,c2,c3
npartitions=1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
,int64,float64,object
,...,...,...


In [59]:
df2.head()  # 특정 메서드 통해 데이터 호출 : head(), tail()



Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [66]:
df2[" c2"].mean()  # 데이터 갖고있지 않기 때문에 바로 결과값 출력x(작업 스케줄만 기록)

df2[" c2"].mean().compute()  # compute() 통해 실제 실행

2.22

In [75]:
df3 = dd.read_csv("data/airline/*.csv")  # 많은 양의 데이터 처리 위한 공간만 마련하기 때문에 빠르게 불러올 수 있다
df3

df4 = dd.read_csv("data/crime.csv", dtype=str, error_bad_lines=False, warn_bad_lines=False)  # 에러나거나 경고나는 줄은 건너뜀
df4

df4.tail()
df4.count().compute()

ID                            6954279
Case Number                   6954275
Date                          6954279
Block                         6954279
IUCR                          6954279
Primary Type                  6954279
Description                   6954279
Location Description          6948835
Arrest                        6954279
Domestic                      6954279
Beat                          6954279
District                      6954232
Ward                          6339453
Community Area                6340784
FBI Code                      6954279
X Coordinate                  6888372
Y Coordinate                  6888372
Year                          6954279
Updated On                    6954279
Latitude                      6888372
Longitude                     6888372
Location                      6888372
Historical Wards 2003-2015    6868367
Zip Codes                     6888372
Community Areas               6871115
Census Tracts                 6873256
Wards       

In [76]:
from dask.diagnostics import ProgressBar

pbar = ProgressBar()
pbar.register()  # 진행 상황 시각적으로 표시

In [79]:
%%time
df4.count().compute(scheduler="processes", num_workers=4)  # cpu 여러 개 동원하여 사용(많은 데이터 처리 속도 개선 목적)

[########################################] | 100% Completed | 49.5s
Wall time: 50.5 s


ID                            6954279
Case Number                   6954275
Date                          6954279
Block                         6954279
IUCR                          6954279
Primary Type                  6954279
Description                   6954279
Location Description          6948835
Arrest                        6954279
Domestic                      6954279
Beat                          6954279
District                      6954232
Ward                          6339453
Community Area                6340784
FBI Code                      6954279
X Coordinate                  6888372
Y Coordinate                  6888372
Year                          6954279
Updated On                    6954279
Latitude                      6888372
Longitude                     6888372
Location                      6888372
Historical Wards 2003-2015    6868367
Zip Codes                     6888372
Community Areas               6871115
Census Tracts                 6873256
Wards       