## pandas에서 제공하는 대표적인 자료 구조

+ Series
+ DataFrame
+ https://pandas.pydata.org

In [2]:
import numpy as np
import pandas as pd

### 1. Series

+ 값과 인덱스를 하나로 합친 구조

In [4]:
s = pd.Series([9904312, 3448737, 2890451, 2466052])  #여기서 사용한 [] 데이터는 배열이 아닌 리스트이니 착오금지
print(s)
print(type(s))  #리스트를 시리즈 형식으로 바꿔준 것

0    9904312
1    3448737
2    2890451
3    2466052
dtype: int64
<class 'pandas.core.series.Series'>


In [5]:
for i in enumerate([9904312, 3448737, 2890451, 2466052]):
    print(i)

(0, 9904312)
(1, 3448737)
(2, 2890451)
(3, 2466052)


In [10]:
##### 인덱스를 자유롭게 지정

s = pd.Series([9904312, 3448737, 2890451, 2466052], index=["서울", "부산", "인천", "대구"])
print(s)

print("--------------------------------------------------")

print(s.values, type(s.values))  # 값만 뽑아보기  -  series의 기본 타입은 numpy 배열이라는 점
print(s.index)   # 인덱스만 뽑아보기

print("--------------------------------------------------")

# 인덱스에 이름 지정
s.index.name = "도시"
print(s)

print("--------------------------------------------------")

# Series 전체에 이름 지정

s.name = "인구"
print(s)

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64
--------------------------------------------------
[9904312 3448737 2890451 2466052] <class 'numpy.ndarray'>
Index(['서울', '부산', '인천', '대구'], dtype='object')
--------------------------------------------------
도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64
--------------------------------------------------
도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64


In [11]:
##### 벡터화 연산

s1 = s / 1000000
print(s1)

도시
서울    9.904312
부산    3.448737
인천    2.890451
대구    2.466052
Name: 인구, dtype: float64


In [17]:
##### 인덱싱

print(s[1], s["부산"])

print("------------------------")

print(s[1:3])                  #숫자 인덱스는 끝자리가 -1 인것을 항상 생각해야한다.
print(s["부산":"인천"])        #다만 문자로 표현시에는 그럴 필요가 없다.

print("------------------------")

print(s.부산, ", ", s.서울)

print("------------------------")

print(s[(s > 250e4) & (s < 500e4)])   #250만 이상 500만 이하

3448737 3448737
------------------------
도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64
도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64
------------------------
3448737 ,  9904312
------------------------
도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64


In [22]:
##### Series와 dict

print("서울" in s)
print("대전" in s)

print("------------------------------")

# dict에서 사용하는 items() 사용가능
print(list(s.items()))

print("------------------------------")

# dict 형식으로 데이터 준비
s2 = pd.Series({"서울" : 9904312, "부산" : 3448737, "인천" : 2890451, "대전" : 1490158})
print(s2)

True
False
------------------------------
[('서울', 9904312), ('부산', 3448737), ('인천', 2890451), ('대구', 2466052)]
------------------------------
서울    9904312
부산    3448737
인천    2890451
대전    1490158
dtype: int64


In [28]:
##### 인덱스 기반 연산

print(s)
print("------------------------------")
print(s2)
print("------------------------------")

result = s - s2

print(result)   # 인덱스 연산하면 맞는 인덱스를 찾아서 알아서 연산

print("------------------------------")

print(s.values - s2.values)  #값으로 연산하면 순서대로 연산

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64
------------------------------
서울    9904312
부산    3448737
인천    2890451
대전    1490158
dtype: int64
------------------------------
대구    NaN
대전    NaN
부산    0.0
서울    0.0
인천    0.0
dtype: float64
------------------------------
[     0      0      0 975894]


In [32]:
##### 결측치 제거

print(result)
print(result.notnull())  # notnull() 을 사용하면 값을 True, False 로 바꿔준다.
print(result[result.notnull()])

대구    NaN
대전    NaN
부산    0.0
서울    0.0
인천    0.0
dtype: float64
대구    False
대전    False
부산     True
서울     True
인천     True
dtype: bool
부산    0.0
서울    0.0
인천    0.0
dtype: float64


In [37]:
##### 데이터 수정, 삭제, 추가

print(result)
print("------------------------------------------")
result["부산"] = 1.63   # 데이터 수정  (인덱스 찾아서 간단히 수정가능)
print(result)
print("------------------------------------------")
result["경기"] = 2.45   # 데이터 추가 (dict와 똑같이 인덱스로 추가시 원본데이터에 동일한게 없으면 추가됨)
print(result)
print("------------------------------------------")
del result["서울"]   # 데이터 삭제
print(result)

대구     NaN
대전     NaN
부산    1.63
서울    0.00
인천    0.00
경기    2.45
dtype: float64
------------------------------------------
대구     NaN
대전     NaN
부산    1.63
서울    0.00
인천    0.00
경기    2.45
dtype: float64
------------------------------------------
대구     NaN
대전     NaN
부산    1.63
서울    0.00
인천    0.00
경기    2.45
dtype: float64
------------------------------------------
대구     NaN
대전     NaN
부산    1.63
인천    0.00
경기    2.45
dtype: float64


### 2. DataFrame

+ 여러 개의 Series를 묶어놓은 것

In [39]:
data = {
    "2015": [9904312, 3448737, 2890451, 2466052],
    "2010": [9631482, 3393191, 2632035, 2431774],
    "2005": [9762546, 3512547, 2517680, 2456016],
    "2000": [9853972, 3655437, 2466338, 2473990],
    "지역": ["수도권", "경상권", "수도권", "경상권"],
    "2010-2015 증가율": [0.0283, 0.0163, 0.0982, 0.0141]
}


In [42]:
df = pd.DataFrame(data)
df   #그냥 사용시 웹브라우저 형식으로 출력

# print(df)    #print형식 사용시 파이썬 형식으로 출력

Unnamed: 0,2015,2010,2005,2000,지역,2010-2015 증가율
0,9904312,9631482,9762546,9853972,수도권,0.0283
1,3448737,3393191,3512547,3655437,경상권,0.0163
2,2890451,2632035,2517680,2466338,수도권,0.0982
3,2466052,2431774,2456016,2473990,경상권,0.0141


#### (1) 컬럼의 순서(위치) 바꾸기

In [45]:
cols = ["지역", "2015", "2010", "2005", "2000", "2010-2015 증가율"]
df = pd.DataFrame(data, columns = cols)     # columns 라는 옵션을 사용해서 컬럼을 지정할 수 있다.
df

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
0,수도권,9904312,9631482,9762546,9853972,0.0283
1,경상권,3448737,3393191,3512547,3655437,0.0163
2,수도권,2890451,2632035,2517680,2466338,0.0982
3,경상권,2466052,2431774,2456016,2473990,0.0141


#### (2) 인덱스 변경

In [46]:
idx = ["서울", "부산", "인천", "대구"]
df = pd.DataFrame(data, columns = cols, index = idx)     # index 속성 이용해서 인덱스 변경 가능
df

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [49]:
print(df.values)
print(df.columns)
print(df.index)

[['수도권' 9904312 9631482 9762546 9853972 0.0283]
 ['경상권' 3448737 3393191 3512547 3655437 0.0163]
 ['수도권' 2890451 2632035 2517680 2466338 0.0982]
 ['경상권' 2466052 2431774 2456016 2473990 0.0141]]
Index(['지역', '2015', '2010', '2005', '2000', '2010-2015 증가율'], dtype='object')
Index(['서울', '부산', '인천', '대구'], dtype='object')


In [51]:
##### 컬럼과 인덱스에 이름 부여

df.index.name = "도시"
df.columns.name = "특성"
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [52]:
##### 전치

df.T

도시,서울,부산,인천,대구
특성,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
지역,수도권,경상권,수도권,경상권
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2431774
2005,9762546,3512547,2517680,2456016
2000,9853972,3655437,2466338,2473990
2010-2015 증가율,0.0283,0.0163,0.0982,0.0141


#### (3) 인덱싱

In [53]:
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [63]:
##### 열 인덱싱

print(df["지역"])      #DataFrame 은 처음 데이터에 접근할때 행이 먼저가 아니라 열이 먼저이므로 이 점 기억해야한다.
print(type(df["지역"]))

print("----------------------------------------------------")

print(df[["지역", "2005"]])  # 2개 이상의 열을 조회시에는 타입이 DataFrame 이다.  1개씩 뽑아낼 때는 Series 형식
print(type(df[["지역", "2005"]]))

print("----------------------------------------------------")

print(df[["지역"]])   # 1개의 데이터를 가져올 때 타입을 DataFrame 이고 싶으면 한번더 [] 감싸준다.

print("----------------------------------------------------")

# print(df[0])     # 컬럼이름이 주어졌을 때는 숫자인덱스로 접근불가
#print(df[["2015" : "2005"]])    # 컬럼이름이 주어졌을 때는 슬라이싱 사용 불가

도시
서울    수도권
부산    경상권
인천    수도권
대구    경상권
Name: 지역, dtype: object
<class 'pandas.core.series.Series'>
----------------------------------------------------
특성   지역     2005
도시              
서울  수도권  9762546
부산  경상권  3512547
인천  수도권  2517680
대구  경상권  2456016
<class 'pandas.core.frame.DataFrame'>
----------------------------------------------------
특성   지역
도시     
서울  수도권
부산  경상권
인천  수도권
대구  경상권
----------------------------------------------------


In [68]:
##### 행 인덱싱 ( 반드시 : 으로 슬라이싱 )

print(df[0 : 2])
print("--------------------------------------------------------------------------")
print(df[:])
print("--------------------------------------------------------------------------")
print(df["서울" : "서울"])

특성   지역     2015     2010     2005     2000  2010-2015 증가율
도시                                                        
서울  수도권  9904312  9631482  9762546  9853972         0.0283
부산  경상권  3448737  3393191  3512547  3655437         0.0163
--------------------------------------------------------------------------
특성   지역     2015     2010     2005     2000  2010-2015 증가율
도시                                                        
서울  수도권  9904312  9631482  9762546  9853972         0.0283
부산  경상권  3448737  3393191  3512547  3655437         0.0163
인천  수도권  2890451  2632035  2517680  2466338         0.0982
대구  경상권  2466052  2431774  2456016  2473990         0.0141
--------------------------------------------------------------------------
특성   지역     2015     2010     2005     2000  2010-2015 증가율
도시                                                        
서울  수도권  9904312  9631482  9762546  9853972         0.0283


In [75]:
##### 동시에 열과 행에 접근

print(df["2005"]["대구"])

# 2005년도부터 2015년도까지 서울, 부산, 인천의 인구수를 조회

print(df[["2005", "2010", "2015"]]["서울" : "인천"])


2456016
특성     2005     2010     2015
도시                           
서울  9762546  9631482  9904312
부산  3512547  3393191  3448737
인천  2517680  2632035  2890451


#### (4) 추가, 수정, 삭제

In [79]:
# 수정
df["2010-2015 증가율"] = df["2010-2015 증가율"] * 100
df

# 추가  ( round 함수로 소수점 2자리까지만 표현하도록 감싸준다. )
df["2005-2010 증가율"] = ((df["2010"] - df["2005"]) / df["2005"] * 100).round(2)
df

# 삭제
del df["2005-2010 증가율"]
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,2830000.0
부산,경상권,3448737,3393191,3512547,3655437,1630000.0
인천,수도권,2890451,2632035,2517680,2466338,9820000.0
대구,경상권,2466052,2431774,2456016,2473990,1410000.0


#### (5) 실습

In [120]:
data = {
    "국어" : [80, 90, 70, 30], 
    "영어" : [90, 70, 60, 40], 
    "수학" : [90, 60, 80, 70]
}

pd.DataFrame(data)


Unnamed: 0,국어,영어,수학
0,80,90,90
1,90,70,60
2,70,60,80
3,30,40,70


In [177]:
# 1) 인덱스를 춘향, 몽룡, 향단, 방자로 구성된 데이터 프레임 df를 작성

idx = ["춘향", "몽룡", "향단", "방자"]
cols = ["국어", "영어", "수학"]
df = pd.DataFrame(data, columns = cols, index = idx)
df

# 2) 모든 학생의 수학 점수를 조회

df[["수학"]]

# 3) 모든 학생의 국어와 영어 점수를 조회

df[["국어","영어"]]

# 4) 모든 학생의 각 과목 평균점수를 새로운 열(과목 평균)로 추가

df["과목평균"] = ((df["국어"] + df["영어"] + df["수학"]) / 3).round(2)
df

# 5) 방자의 영어 점수를 80점으로 수정하고 평균 점수도 다시 수정하시오.

df["영어"]["방자"] = 80
df["과목평균"] = ((df["국어"] + df["영어"] + df["수학"]) / 3).round(2)
df

# 6) 춘향의 점수를 데이터 프레임 형식으로 출력

df["춘향" : "춘향"]


# 7) 향단의 점수를 Series로 출력

sample = df["향단" : "향단"]
df = sample.squeeze()
df




국어    70
영어    60
수학    80
Name: 향단, dtype: int64

#### (6) 파일 입출력

+ read_csv()
+ to_scv()
+ read_table()

In [85]:
%%writefile data/sample1.csv
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three

Overwriting data/sample1.csv


In [86]:
sample1 = pd.read_csv("data/sample1.csv")
sample1

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [87]:
%%writefile data/sample2.csv
1, 1.11, one
2, 2.22, two
3, 3.33, three

Overwriting data/sample2.csv


In [89]:
sample2 = pd.read_csv("data/sample2.csv", names=["c1", "c2", "c3"])
sample2

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [90]:
##### 내가 원하는 특정 열을 인덱스로 지정  (아래 예시에서는 c1을 인덱스로 지정)

sample3 = pd.read_csv("data/sample1.csv", index_col="c1")
sample3

Unnamed: 0_level_0,c2,c3
c1,Unnamed: 1_level_1,Unnamed: 2_level_1
1,1.11,one
2,2.22,two
3,3.33,three


In [91]:
%%writefile data/sample3.txt
c1    c2    c3    c4
0.23  0.33  0.354 0.2389
0.123 0.345 0.567 0.986

Overwriting data/sample3.txt


In [95]:
sample3 = pd.read_table("data/sample3.txt", sep="\s+")
sample3

Unnamed: 0,c1,c2,c3,c4
0,0.23,0.33,0.354,0.2389
1,0.123,0.345,0.567,0.986


In [96]:
%%writefile data/sample4.txt
파일제목:sample4.txt
데이터설명 : 어쩌구 저쩌구
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three    

Overwriting data/sample4.txt


In [101]:
#skiprows 를 통해 데이터가 아닌 첫, 둘째 줄을 건너띄고 가져올 수 있다.

# sample4 = pd.read_table("data/sample4.txt", sep=",", skiprows=[0,1])
sample4 = pd.read_table("data/sample4.txt", sep=",", skiprows=2)
sample4

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [106]:
%%writefile data/sample5.csv
c1, c2, c3
1, 1.11, 
2,없음, two
누락, 3.33, three 

Overwriting data/sample5.csv


In [107]:
# na_values : 결측치가 여러모양일때 하나로 통일시켜 표시하기 위한 옵션

sample5 = pd.read_csv("data/sample5.csv", na_values=[" ", "없음", "누락"])
sample5

Unnamed: 0,c1,c2,c3
0,1.0,1.11,
1,2.0,,two
2,,3.33,three


In [114]:
##### 저장

df.to_csv("data/sample6.csv")
df.to_csv("data/sample7.txt", sep="|")
df.to_csv("data/sample8.csv", header=False, index=False)   # header는 제목은 빼고 저장  # index는 인덱스를 빼고자 할 때

sample5.to_csv("data/sample9.txt", sep=":", na_rep="누락")   # na_rep 은 결측치 자리에 "누락" 이라는 글자로 채워지도록 설정