# 데이터 분석 및 조작을 위한 라이브러리

In [1]:
import pandas as pd

### 1차원 데이터와 2차원 데이터로 나누어져 있음
- 1차원 데이터(Series) : 인덱스와 값
- 2차원 데이터(Data Frame) : 표와 같은 데이터

In [3]:
# Series 사용법 - 리스트 형태로 데이터 삽입
# 인덱스 지정 시엔 index = []로 삽입

population = pd.Series([9904312, 3448787, 2890451, 2466052],
                       index = ['서울', '부산', '인천', '대구'])
population

서울    9904312
부산    3448787
인천    2890451
대구    2466052
dtype: int64

In [7]:
# Series의 값 확인 --> .values
population.values

# Series 인덱스 확인 --> .index
print(population.index)

# Series의 타입 확인 --> dtype
print(population.dtype)

Index(['서울', '부산', '인천', '대구'], dtype='object')
int64


In [8]:
# Series에 이름 지정
population.name = "인구"
population.index.name = "도시"

population

도시
서울    9904312
부산    3448787
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [11]:
# Series의 연산
print(population/100)
print(population*2)

도시
서울    99043.12
부산    34487.87
인천    28904.51
대구    24660.52
Name: 인구, dtype: float64
도시
서울    19808624
부산     6897574
인천     5780902
대구     4932104
Name: 인구, dtype: int64


In [15]:
# Series의 인덱싱
print(population[0])
print(population[-1])
print(population[-2])
#==============================
# 인덱스 명으로 인덱싱
print(population["부산"])

9904312
2466052
2890451
3448787


In [18]:
# 여러개 인덱싱
print(population[[0,3,1]])
print(population[['서울','인천']])

도시
서울    9904312
대구    2466052
부산    3448787
Name: 인구, dtype: int64
도시
서울    9904312
인천    2890451
Name: 인구, dtype: int64


In [19]:
# Series의 boolean 인덱싱

population > 2500000


도시
서울     True
부산     True
인천     True
대구    False
Name: 인구, dtype: bool

In [35]:
population[(population > 2000000) & (population < 5000000)]

도시
부산    3448787
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [40]:
# Series의 슬라이싱
print(population[1:3])
print(population[1:])
print(population[ :3])
print(population[:])


도시
부산    3448787
인천    2890451
Name: 인구, dtype: int64


도시
서울    9904312
부산    3448787
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [43]:
# 인덱스 명으로 슬라이싱
print(population["부산" : "대구"])
print(population[:"인천"])

도시
부산    3448787
인천    2890451
대구    2466052
Name: 인구, dtype: int64
도시
서울    9904312
부산    3448787
인천    2890451
Name: 인구, dtype: int64


In [None]:
# Series 생성법 - 2

In [47]:
data = {"서울" : 9631482, "부산" : 3339319,
        "인천" : 2632035, "대전" : 1490158}

population2 = pd.Series(data)
population2

서울    9631482
부산    3339319
인천    2632035
대전    1490158
dtype: int64

In [51]:
po = population - population2 # 2015 -2010

In [53]:
po[po.notnull()]

부산    109468.0
서울    272830.0
인천    258416.0
dtype: float64

In [55]:
po[po.isnull()]

대구   NaN
대전   NaN
dtype: float64

In [57]:
# dataframe 생성

data = {"2015" : [9904312, 3448737, 2890451, 2466052], 
        "2010" : [9631482, 3393191, 2632035, 2431774]}

df = pd.DataFrame(data)
df

Unnamed: 0,2015,2010
0,9904312,9631482
1,3448737,3393191
2,2890451,2632035
3,2466052,2431774


In [59]:
df.index = ["서울", "부산", "인천", "대구"]
df

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774


In [66]:
data = [ [9904312, 3448737, 2890451, 2466052], 
        [9631482, 3393191, 2632035, 2431774] ]
index = ["2015","2010"]
column = ["서울", "부산", "인천", "대구"]

df2 = pd.DataFrame(data, index=index, columns=column)
df2

Unnamed: 0,서울,부산,인천,대구
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2431774


In [67]:
# 인덱스와 컬럼 바꿔서 출력
df2.T

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774


In [70]:
# dataframe의 값 확인 -- values
print(df.values)

# dataframe의 인덱스 확인 -- index
print(df.index)

# dataframe의 컬럼 확인 -- columns
print(df.columns)

[[9904312 9631482]
 [3448737 3393191]
 [2890451 2632035]
 [2466052 2431774]]
Index(['서울', '부산', '인천', '대구'], dtype='object')
Index(['2015', '2010'], dtype='object')


In [74]:
# DataFrame의 열 인덱싱

df["2015"] #Series 형태로 출력
df[["2015"]] #dataframe형태로 출력

df[["2010","2015"]]

Unnamed: 0,2010,2015
서울,9631482,9904312
부산,3393191,3448737
인천,2632035,2890451
대구,2431774,2466052


In [76]:
# Dataframe의 새로운 열 추가
df["2005"] = [9762546, 3512574, 2517680, 2456016]

df

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
부산,3448737,3393191,3512574
인천,2890451,2632035,2517680
대구,2466052,2431774,2456016


In [95]:
# Dataframe 행 인덱싱
print(df[0:1])
print("===============================")
print(df[:2])
print("===============================")
print(df[1:])
print("===============================")
print(df[:])

#=================================
df["서울":"인천"]

       2015     2010     2005
서울  9904312  9631482  9762546
       2015     2010     2005
서울  9904312  9631482  9762546
부산  3448737  3393191  3512574
       2015     2010     2005
부산  3448737  3393191  3512574
인천  2890451  2632035  2517680
대구  2466052  2431774  2456016
       2015     2010     2005
서울  9904312  9631482  9762546
부산  3448737  3393191  3512574
인천  2890451  2632035  2517680
대구  2466052  2431774  2456016


Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
부산,3448737,3393191,3512574
인천,2890451,2632035,2517680


In [128]:
#인덱서
# loc[], iloc[]

#loc : 실제 인덱스를 사용해서 행을 가져올 때 사용 

df.loc["서울":"부산"]

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
부산,3448737,3393191,3512574


In [133]:
df.loc["서울":"부산",:"2010"]

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191


In [134]:
df.iloc[1:, :]

Unnamed: 0,2015,2010,2005
부산,3448737,3393191,3512574
인천,2890451,2632035,2517680
대구,2466052,2431774,2456016


In [99]:
# 인덱스 번호로 출력
df.iloc[3:]

Unnamed: 0,2015,2010,2005
대구,2466052,2431774,2456016


In [101]:
# Dataframe의 boolean인덱싱

df[df["2010"] >= 2500000]

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
부산,3448737,3393191,3512574
인천,2890451,2632035,2517680


In [104]:
pop_num = pd.read_csv("population_number.csv", encoding="euc-kr", index_col=
"도시")
pop_num

Unnamed: 0_level_0,지역,2015,2010,2005,2000
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,수도권,9904312,9631482.0,9762546.0,9853972
부산,경상권,3448737,,,3655437
인천,수도권,2890451,2632035.0,,2466338
대구,경상권,2466052,2431774.0,2456016.0,2473990


In [106]:
# 중복된 값이 나온 횟수를 세주는 함수 -- values counts()
pop_num["2015"].value_counts()

2466052    1
2890451    1
3448737    1
9904312    1
Name: 2015, dtype: int64

In [118]:
import numpy as np

In [120]:
value_test = pd.Series(np.random.randint(6, size = 100))
value_test.value_counts()


5    21
0    21
3    18
1    15
2    13
4    12
dtype: int64

In [123]:
#값 정렬 - 인덱스 값 기준, 데이터 기준

#sort_index()
#sort_values()

pop_num["2010"].sort_values(ascending = False)

도시
서울    9631482.0
인천    2632035.0
대구    2431774.0
부산          NaN
Name: 2010, dtype: float64

In [148]:
# 정렬 2010년도의 인구수 기준으로 정렬
pop_num.sort_values(by = "2010")

Unnamed: 0_level_0,지역,2015,2010,2005,2000
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
대구,경상권,2466052,2431774.0,2456016.0,2473990
인천,수도권,2890451,2632035.0,,2466338
서울,수도권,9904312,9631482.0,9762546.0,9853972
부산,경상권,3448737,,,3655437


In [233]:
score = pd.read_csv("score.csv", index_col = "과목", encoding= "euc-kr")
score

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,45,44,73,39
영어,76,92,45,69
국어,47,92,45,69
사회,92,81,85,40
과학,11,79,47,26


In [234]:
# sum()
score.sum().sort_values(ascending = False)

2반    388
3반    295
1반    271
4반    243
dtype: int64

In [235]:
# sum(axis = 1)
score.sum(axis=1)

과목
수학    201
영어    282
국어    253
사회    298
과학    163
dtype: int64

In [236]:
score["합계"] = score.sum(axis = 1)
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
수학,45,44,73,39,201
영어,76,92,45,69,282
국어,47,92,45,69,253
사회,92,81,85,40,298
과학,11,79,47,26,163


In [237]:
score["평균"] = score.loc[:,:"4반"].mean(axis =1)
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
수학,45,44,73,39,201,50.25
영어,76,92,45,69,282,70.5
국어,47,92,45,69,253,63.25
사회,92,81,85,40,298,74.5
과학,11,79,47,26,163,40.75


In [238]:
score["평균"] = score.iloc[:,:4].mean(axis =1)
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
수학,45,44,73,39,201,50.25
영어,76,92,45,69,282,70.5
국어,47,92,45,69,253,63.25
사회,92,81,85,40,298,74.5
과학,11,79,47,26,163,40.75


In [239]:
score.loc["반평균"] = score.mean()
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
수학,45.0,44.0,73.0,39.0,201.0,50.25
영어,76.0,92.0,45.0,69.0,282.0,70.5
국어,47.0,92.0,45.0,69.0,253.0,63.25
사회,92.0,81.0,85.0,40.0,298.0,74.5
과학,11.0,79.0,47.0,26.0,163.0,40.75
반평균,54.2,77.6,59.0,48.6,239.4,59.85


In [240]:
# 가장 큰 값, 가장 작은 값
score.max()(axis = 1)
score.min()(axis = 1)

1반     92.0
2반     92.0
3반     85.0
4반     69.0
합계    298.0
평균     74.5
dtype: float64

In [241]:
score.loc[:"과학", : "4반"].max(axis=1)

과목
수학    73.0
영어    92.0
국어    92.0
사회    92.0
과학    79.0
dtype: float64

In [244]:
data_dic = {"A" : [1,3,3,4,4], "B" : [1,2,2,3,3], "C" : [1,2,4,4,5]}

df3 = pd.DataFrame(data_dic)
df3

Unnamed: 0,A,B,C
0,1,1,1
1,3,2,2
2,3,2,4
3,4,3,4
4,4,3,5


In [245]:
# apply함수 -- 행렬에 관련된 함수에 집어넣고 싶을 때
# NaN = 결측치
df4 = df3.apply(pd.value_counts)
df4

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,,2.0,1.0
3,2.0,2.0,
4,2.0,,2.0
5,,,1.0


In [249]:
# 결측치 채워주기
df4.fillna(value = 0)

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0


In [5]:
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'], 
                    'B': ['B0', 'B1', 'B2', 'B3'],
                    'C': ['C0', 'C1', 'C2', 'C3'],
                    'D': ['D0', 'D1', 'D2', 'D3']},
                   index=[0, 1, 2, 3])

df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                    'B': ['B4', 'B5', 'B6', 'B7'],
                    'C': ['C4', 'C5', 'C6', 'C7'],
                    'D': ['D4', 'D5', 'D6', 'D7']},
                   index=[4, 5, 6, 7])

df3 = pd.DataFrame({'A': ['A8', 'A9', 'A10', 'A11'],
                    'B': ['B8', 'B9', 'B10', 'B11'],
                    'C': ['C8', 'C9', 'C10', 'C11'],
                    'D': ['D8', 'D9', 'D10', 'D11']},
                   index=[8, 9, 10, 11])
df1

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [255]:
df2

Unnamed: 0,A,B,C,D
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7


In [256]:
df3

Unnamed: 0,A,B,C,D
8,A8,B8,C8,D8
9,A9,B9,C9,D9
10,A10,B10,C10,D10
11,A11,B11,C11,D11


In [258]:
#데이터 병합 - concat()
result = pd.concat([df1,df2,df3])
result

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7
8,A8,B8,C8,D8
9,A9,B9,C9,D9


In [3]:
df4 = pd.DataFrame({'B': ['B2', 'B3', 'B6', 'B7'], 
                    'D': ['D2', 'D3', 'D6', 'D7'],
                    'F': ['F2', 'F3', 'F6', 'F7']},
                   index=[2, 3, 6, 7])
df4

Unnamed: 0,B,D,F
2,B2,D2,F2
3,B3,D3,F3
6,B6,D6,F6
7,B7,D7,F7


In [6]:
# 아래로 합칠 때는 concat쓴다.
result = pd.concat([df1,df4])
result

Unnamed: 0,A,B,C,D,F
0,A0,B0,C0,D0,
1,A1,B1,C1,D1,
2,A2,B2,C2,D2,
3,A3,B3,C3,D3,
2,,B2,,D2,F2
3,,B3,,D3,F3
6,,B6,,D6,F6
7,,B7,,D7,F7


In [7]:
result_axis = pd.concat([df1,df4], axis = 1)
result_axis

Unnamed: 0,A,B,C,D,B.1,D.1,F
0,A0,B0,C0,D0,,,
1,A1,B1,C1,D1,,,
2,A2,B2,C2,D2,B2,D2,F2
3,A3,B3,C3,D3,B3,D3,F3
6,,,,,B6,D6,F6
7,,,,,B7,D7,F7


In [8]:
result_join = pd.concat([df1, df4], axis = 1, join = "inner")
# 결측치가 없는 인덱스만 병합했음.
result_join

Unnamed: 0,A,B,C,D,B.1,D.1,F
2,A2,B2,C2,D2,B2,D2,F2
3,A3,B3,C3,D3,B3,D3,F3


In [11]:
# ignore_index는 인덱스 번호를 완전 초기화 해서 다시 0부터 지정
result_ignore = pd.concat([df1,df4], ignore_index=True)
result_ignore

Unnamed: 0,A,B,C,D,F
0,A0,B0,C0,D0,
1,A1,B1,C1,D1,
2,A2,B2,C2,D2,
3,A3,B3,C3,D3,
4,,B2,,D2,F2
5,,B3,,D3,F3
6,,B6,,D6,F6
7,,B7,,D7,F7


In [12]:
df5 = pd.DataFrame({'key':['K0','K2','K3','K4'],
                   'A':['A0','A1','A2','A3'],
                   'B':['B0','B1','B2','A3']})


df6 = pd.DataFrame({'key':['K0','K1','K2','K3'],
                   'C':['C0','C1','C2','C3'],
                   'D':['D0','D1','D2','D3']})
df5

Unnamed: 0,key,A,B
0,K0,A0,B0
1,K2,A1,B1
2,K3,A2,B2
3,K4,A3,A3


In [13]:
df6

Unnamed: 0,key,C,D
0,K0,C0,D0
1,K1,C1,D1
2,K2,C2,D2
3,K3,C3,D3


In [14]:
#옆으로 합칠 때는 merge쓴다.
result_merge = pd.merge(df5, df6)
result_merge

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K2,A1,B1,C2,D2
2,K3,A2,B2,C3,D3


In [15]:
# 오른쪽 , 즉 df6를 기준으로 합병, 따라서 df6가 가지고 있지 않은 데이터가 Nan값으로 뜸
re_right = pd.merge(df5, df6, how = "right")
re_right

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K2,A1,B1,C2,D2
2,K3,A2,B2,C3,D3
3,K1,,,C1,D1


In [16]:
# merge보다는 concat을 더 많이 쓴다.
re_left = pd.merge(df5, df6, how = "left")
re_left

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K2,A1,B1,C2,D2
2,K3,A2,B2,C3,D3
3,K4,A3,A3,,
