In [1]:
import pandas as pd

In [2]:
# Series 생성하기
population = pd.Series([9602000, 3344000, 1488000, 2419000])
population

0    9602000
1    3344000
2    1488000
3    2419000
dtype: int64

In [3]:
# 인덱스를 지정하는 방법 -> index
population.index = ['서울', '부산', '광주', '대구']
population

서울    9602000
부산    3344000
광주    1488000
대구    2419000
dtype: int64

In [4]:
# Series 생성 시 index index 동시에 지정하기
population = pd.Series([9602000, 3344000, 1488000, 2419000], 
             index=['서울', '부산', '광주', '대구'])
population

서울    9602000
부산    3344000
광주    1488000
대구    2419000
dtype: int64

In [42]:
# Series 생성 시 리스트 형태가 아닌 딕셔너리도 가능함
# 리스트 -> [요소1, 요소2]
# 딕셔너리 -> {'키' : '값', '키' : '값', '키' : '값'}
# 함수 -> (요소1, 요소2)
area = pd.Series({'서울' : 605.2, '부산' : 770.1, '광주' : 501.1, '대구' : 883.5})
area

서울    605.2
부산    770.1
광주    501.1
대구    883.5
dtype: float64

In [6]:
population

서울    9602000
부산    3344000
광주    1488000
대구    2419000
dtype: int64

In [7]:
# Series의 값을 확인하는 방법
population.values

array([9602000, 3344000, 1488000, 2419000], dtype=int64)

In [8]:
# 인덱스만 가지고 오는 방법
population.index

Index(['서울', '부산', '광주', '대구'], dtype='object')

In [9]:
# 데이터 타입 확인하는 방법
population.dtype

dtype('int64')

In [10]:
population

서울    9602000
부산    3344000
광주    1488000
대구    2419000
dtype: int64

In [11]:
# Series 자체에 이름 부여하기
population.name = '2020 인구'
population

서울    9602000
부산    3344000
광주    1488000
대구    2419000
Name: 2020 인구, dtype: int64

In [12]:
# 인덱스의 이름 부여하기
population.index.name = '지역'
population

지역
서울    9602000
부산    3344000
광주    1488000
대구    2419000
Name: 2020 인구, dtype: int64

In [16]:
# Series 자체에 이름 부여하기
# 대전 1500000
population['대전'] = 1500000
population

지역
서울    9602000
부산    3344000
광주    1488000
대구    2419000
대전    1500000
Name: 2020 인구, dtype: int64

In [18]:
# 부산 3344000 -> 3500000으로 값 수정하기
population['부산'] = 3500000
population

지역
서울    9602000
부산    3500000
광주    1488000
대구    2419000
대전    1500000
Name: 2020 인구, dtype: int64

In [19]:
# 값 삭제하기
# 1. del 키워드
# 2. drop() 함수
del population['서울']
population

지역
부산    3500000
광주    1488000
대구    2419000
대전    1500000
Name: 2020 인구, dtype: int64

In [21]:
population['서울'] = 100000
population

지역
부산    3500000
광주    1488000
대구    2419000
대전    1500000
서울     100000
Name: 2020 인구, dtype: int64

In [24]:
# drop() : 실행했을 때의 결과 값만 삭제된 값을 반환해주는 함수
population.drop('서울')

지역
부산    3500000
광주    1488000
대구    2419000
대전    1500000
Name: 2020 인구, dtype: int64

In [23]:
population

지역
부산    3500000
광주    1488000
대구    2419000
대전    1500000
서울     100000
Name: 2020 인구, dtype: int64

In [29]:
# population에 새로운 컬럼 값 추가하기
# 부산 3344000 (원본에서 값을 수정)
# 인천 2951000 (원본에서 새로운 값 추가)
# 서울 9602000 (원본에서 새로운 값 추가)

# 부산, 광주, 대구, 대전, 인천, 서울의 데이터 값이 나오도록
population['부산'] = 3344000
population['인천'] = 2951000
population['서울'] = 2951000
population

지역
부산    3344000
광주    1488000
대구    2419000
대전    1500000
서울    2951000
인천    2951000
Name: 2020 인구, dtype: int64

In [36]:
# 인덱스의 순서를 재정의하는 함수 : reindex([원하는 순서의 인덱스 지정])
# reindex()의 경우 반환되는 값에서만 수정을 확인할 수 있다.
population = population.reindex(['서울', '부산', '광주', '대구', '대전', '인천'])
population

지역
서울    2951000
부산    3344000
광주    1488000
대구    2419000
대전    1500000
인천    2951000
Name: 2020 인구, dtype: int64

In [44]:
area['대전'] = 883.5
area['인천'] = 1065.2
area.name = '면적(㎢)'
area.index.name = '지역'
area

지역
서울     605.2
부산     770.1
광주     501.1
대구     883.5
대전     883.5
인천    1065.2
Name: 면적(㎢), dtype: float64

In [49]:
# DataFrame 생성하기
# pd.DataFrame(데이터 값, index정의, columns 정의)
data = [[9602000, 605.2],[3344000, 770.1], [1488000, 501.1], [2419000, 883.5]]
data

[[9602000, 605.2], [3344000, 770.1], [1488000, 501.1], [2419000, 883.5]]

In [52]:
df = pd.DataFrame(data, index=['서울', '부산', '광주', '대구'],
                 columns=['2020 인구', '면적(㎢)'])
df

Unnamed: 0,2020 인구,면적(㎢)
서울,9602000,605.2
부산,3344000,770.1
광주,1488000,501.1
대구,2419000,883.5


In [54]:
# 딕셔너리 형태로 DataFrame 생성하기
# 실제 들어갈 데이터(컬럼 이름, 실 데이터), index만 지정
data = {'2020 인구':[9602000,3344000,1488000,2419000],
        '면적(㎢)':[605.2, 770.1, 501.1, 883.5]}
data

{'2020 인구': [9602000, 3344000, 1488000, 2419000],
 '면적(㎢)': [605.2, 770.1, 501.1, 883.5]}

In [56]:
df = pd.DataFrame(data, index = ['서울', '부산', '광주', '대구'])
df

Unnamed: 0,2020 인구,면적(㎢)
서울,9602000,605.2
부산,3344000,770.1
광주,1488000,501.1
대구,2419000,883.5


In [59]:
data2 = [[175.3, 66.2, 27.0],[180.2, 78.9, 49.0], [178.6, 55.1, 35.0]]
data2

[[175.3, 66.2, 27.0], [180.2, 78.9, 49.0], [178.6, 55.1, 35.0]]

In [61]:
df2 = pd.DataFrame(data2, index=['홍길동', '김사또', '임꺽정'],
                 columns=['키', '몸무게','나이'])
df2

Unnamed: 0,키,몸무게,나이
홍길동,175.3,66.2,27.0
김사또,180.2,78.9,49.0
임꺽정,178.6,55.1,35.0


In [63]:
data3 = [[175.3, 180.2, 178.6], [66.2, 78.9, 55.1], [27.0, 49.0, 35.0]]
data3

[[175.3, 180.2, 178.6], [66.2, 78.9, 55.1], [27.0, 49.0, 35.0]]

In [64]:
df3 = pd.DataFrame(data3, index=['키', '몸무게', '나이'],
                 columns=['홍길동', '김사또','임꺽정'])
df3

Unnamed: 0,홍길동,김사또,임꺽정
키,175.3,180.2,178.6
몸무게,66.2,78.9,55.1
나이,27.0,49.0,35.0


In [None]:
data = [[175.3, 180.2, 178.6], [66.2, 78.9, 55.1], [27.0, 49.0, 35.0]]
data3

In [65]:
data = [[175.3, 180.2, 178.6], [66.2, 78.9, 55.1], [27.0, 49.0, 35.0]]
df1 = pd.DataFrame(data, index = ['키', '몸무게', '나이'],
                  columns = ['홍길동', '김사또', '임꺽정'])
df1

Unnamed: 0,홍길동,김사또,임꺽정
키,175.3,180.2,178.6
몸무게,66.2,78.9,55.1
나이,27.0,49.0,35.0


In [66]:
# .T -> DataFrame의 인덱스와 컬럼의 위치를 회전시키는 속성
print(df)
print(df.T)

    2020 인구  면적(㎢)
서울  9602000  605.2
부산  3344000  770.1
광주  1488000  501.1
대구  2419000  883.5
                서울         부산         광주         대구
2020 인구  9602000.0  3344000.0  1488000.0  2419000.0
면적(㎢)        605.2      770.1      501.1      883.5


In [67]:
# display()
display(df1)
display(df1.T)

Unnamed: 0,홍길동,김사또,임꺽정
키,175.3,180.2,178.6
몸무게,66.2,78.9,55.1
나이,27.0,49.0,35.0


Unnamed: 0,키,몸무게,나이
홍길동,175.3,66.2,27.0
김사또,180.2,78.9,49.0
임꺽정,178.6,55.1,35.0


In [69]:
# DataFrame의 여러가지 속성 확인하기
# 1. values
df1.values

array([[175.3, 180.2, 178.6],
       [ 66.2,  78.9,  55.1],
       [ 27. ,  49. ,  35. ]])

In [70]:
# index만 가지고 오기
df1.index

Index(['키', '몸무게', '나이'], dtype='object')

In [71]:
# columns 만 가지고 오기
df1.columns

Index(['홍길동', '김사또', '임꺽정'], dtype='object')

In [76]:
df['2020 인구밀도'] = df['2020 인구'] // df['면적(㎢)'].astype('int')
df

Unnamed: 0,2020 인구,면적(㎢),2020 인구밀도
서울,9602000,605.2,15871
부산,3344000,770.1,4342
광주,1488000,501.1,2970
대구,2419000,883.5,2739


In [82]:
# Pandas의 인덱싱 슬라이싱
student = pd.Series({'java':95, 'python':100, 'ml':85, 'html/css':70})
student 

java         95
python      100
ml           85
html/css     70
dtype: int64

In [147]:
# 인덱싱을 사용하여 python점수 인덱싱 하기
# 변수명[인덱스 번호/이름]
print(student[1])
print(student['python'])
print(student[['python']]) ## [['python']] 를 출력하면 python의 모든 값을 출력함 # ['python']을 입력하면 python 점수만 출력

100
100
python    100
dtype: int64


In [114]:
# python, html/css, ml -> 한번에 인덱싱 해오기
student[[1, 3, 2]]

python      100
html/css     70
ml           85
dtype: int64

In [115]:
print(student['python'],student['html/css'],student['ml'])

100 70 85


In [123]:
# Series의 boolean 색인 사용하기 -> [비교 조건]
# student로부터 85 이상의 점수 찾아오기
result = student[student >= 85]
result

java       95
python    100
ml         85
dtype: int64

In [138]:
# and, or 접목되는 비교 연산도 사용 가능
# pands and -> & / or -> |
# 성적이 75점 이상 90 미만인 과목 찾아내기
student[student >= 75] & student[student < 90]
student[(student >= 75) & (student < 90)]

ml    85
dtype: int64

In [133]:
result = student[student >= 75]
result

ml    85
dtype: int64

In [148]:
# Series의 슬라이싱 
# 인덱스 번호를 사용하는 경우 : student[시작 이상 : 끝 미만]
# 실제 index 이름을 사용하는 경우 : student[시작 이름 : 끝 이름]
print(student[0:2])
print()
print(student[:2])
print()
print(student['java' : 'python'])

java       95
python    100
dtype: int64

java       95
python    100
dtype: int64

java       95
python    100
ml         85
dtype: int64


In [149]:
# ME
stu = [[95, 100, 85, 70], [85, 95, 85, 75]]
df = pd.DataFrame(stu, index=['홍길동', '김길동'],
                 columns=['java', 'python', 'ml', 'html/css'])
df

Unnamed: 0,java,python,ml,html/css
홍길동,95,100,85,70
김길동,85,95,85,75


In [152]:
# CLASS
df_stu = pd.DataFrame({'java':[95,85], 'python':[100,95],
                       'ml':[85,85], 'html/css':[70,75]},
                      index = ['홍길동', '김길동'])
df_stu

Unnamed: 0,java,python,ml,html/css
홍길동,95,100,85,70
김길동,85,95,85,75


In [153]:
df_stu['python']

홍길동    100
김길동     95
Name: python, dtype: int64

In [154]:
# 찾고자 하는 값을 원본에 다시 넣어주면 DataFrame형태로 반환됨
df_stu[['python']]

Unnamed: 0,python
홍길동,100
김길동,95


In [155]:
df_stu[['python','ml','java']]

Unnamed: 0,python,ml,java
홍길동,100,85,95
김길동,95,85,85


In [164]:
# df_stu로부터 홍길동에 해당하는 행의 값 가져오기
df_stu[0:1]

Unnamed: 0,java,python,ml,html/css
홍길동,95,100,85,70


In [168]:
df_stu['홍길동':'홍길동']

Unnamed: 0,java,python,ml,html/css
홍길동,95,100,85,70


In [171]:
df_stu[:'홍길동']

Unnamed: 0,java,python,ml,html/css
홍길동,95,100,85,70


In [174]:
# DataFrame의 boolean 인덱싱
df_stu['python'] == 100

홍길동     True
김길동    False
Name: python, dtype: bool

In [175]:
# DataFrame의 boolean 인덱싱
df_stu[df_stu['java'] >= 90]

Unnamed: 0,java,python,ml,html/css
홍길동,95,100,85,70


In [180]:
# loc[] / iloc[]
# loc[] : 실제 인덱스명이나 컬럼명을 사용하여 인덱싱을 하는 방법
# loc[행 이름 or 인덱스 이름]

df_stu.loc['홍길동']

java         95
python      100
ml           85
html/css     70
Name: 홍길동, dtype: int64

In [181]:
df_stu.loc['홍길동', 'html/css']

70

In [182]:
# iloc[] : numpy의 array방식으로 인덱싱 하는 방식
df_stu.iloc[0]

java         95
python      100
ml           85
html/css     70
Name: 홍길동, dtype: int64

In [184]:
df_stu.iloc[1]

java        85
python      95
ml          85
html/css    75
Name: 김길동, dtype: int64

In [185]:
df_stu

Unnamed: 0,java,python,ml,html/css
홍길동,95,100,85,70
김길동,85,95,85,75


In [186]:
df_stu.iloc[0,2]

85

In [9]:
# pandas (표) 라이브러리를 통해 외부 파일 읽어오기 -> 엑셀
# read_csv('파일명.csv', index_col, encoding)
data = pd.read_csv('population_number(16-17).csv', index_col = '지역')
data

Unnamed: 0_level_0,2016,2017,2018,2019,2020
지역,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,9843000,9766000.0,9705000.0,9662000.0,9602000.0
부산,3447000,3424000.0,3400000.0,3373000.0,3344000.0
대구,2461000,2458000.0,2450000.0,2432000.0,2419000.0
인천,2907000,,,,
광주,1502000,1495000.0,1493000.0,1494000.0,1488000.0
대전,1536000,1528000.0,1518000.0,1509000.0,1500000.0
울산,1166000,1159000.0,1154000.0,1147000.0,1140000.0
세종,234000,266000.0,304000.0,331000.0,349000.0
경기,12600000,12786000.0,13031000.0,13238000.0,13405000.0
강원,1521000,1521000.0,1521000.0,1517000.0,1515000.0


In [7]:
# pandas에서 데이터 확인 시 활용할 수 있는 함수
# head() - 상위 5개의 행을 가지고 오는 함수 
# tail() - 하위 5개의 행을 가지고 오는 함수
data.head()

Unnamed: 0,지역,2016,2017,2018,2019,2020
0,서울,9843000,9766000.0,9705000.0,9662000.0,9602000.0
1,부산,3447000,3424000.0,3400000.0,3373000.0,3344000.0
2,대구,2461000,2458000.0,2450000.0,2432000.0,2419000.0
3,인천,2907000,,,,
4,광주,1502000,1495000.0,1493000.0,1494000.0,1488000.0


In [8]:
data.tail(3)

Unnamed: 0,지역,2016,2017,2018,2019,2020
15,경남,3338000,3339000.0,3356000.0,3350000.0,3350000.0
16,제주,618000,635000.0,653000.0,660000.0,670000.0
17,수도권,25350000,25476000.0,25675000.0,25844000.0,25958000.0


In [12]:
data.loc['인천']

2016    2907000.0
2017          NaN
2018          NaN
2019          NaN
2020          NaN
Name: 인천, dtype: float64

In [13]:
# 인천행의 Nan 값에 새로운 값들을 추가하기
# 1. 전체 데이터로부터 원하는 인천행의 Nan 부분들 가져오기
data.loc['인천','2017':'2020']

2017   NaN
2018   NaN
2019   NaN
2020   NaN
Name: 인천, dtype: float64

In [16]:
# 2. 찾아온 Nan 값에 새로운 값 추가하기
data.loc['인천','2017':'2020'] = [2924000, 2939000, 2944000, 2951000]
data

Unnamed: 0_level_0,2016,2017,2018,2019,2020
지역,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,9843000,9766000.0,9705000.0,9662000.0,9602000.0
부산,3447000,3424000.0,3400000.0,3373000.0,3344000.0
대구,2461000,2458000.0,2450000.0,2432000.0,2419000.0
인천,2907000,2924000.0,2939000.0,2944000.0,2951000.0
광주,1502000,1495000.0,1493000.0,1494000.0,1488000.0
대전,1536000,1528000.0,1518000.0,1509000.0,1500000.0
울산,1166000,1159000.0,1154000.0,1147000.0,1140000.0
세종,234000,266000.0,304000.0,331000.0,349000.0
경기,12600000,12786000.0,13031000.0,13238000.0,13405000.0
강원,1521000,1521000.0,1521000.0,1517000.0,1515000.0


In [18]:
# data 타입 int형으로 수정하기 -> astype(형식)
data = data.astype('int')
data

Unnamed: 0_level_0,2016,2017,2018,2019,2020
지역,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,9843000,9766000,9705000,9662000,9602000
부산,3447000,3424000,3400000,3373000,3344000
대구,2461000,2458000,2450000,2432000,2419000
인천,2907000,2924000,2939000,2944000,2951000
광주,1502000,1495000,1493000,1494000,1488000
대전,1536000,1528000,1518000,1509000,1500000
울산,1166000,1159000,1154000,1147000,1140000
세종,234000,266000,304000,331000,349000
경기,12600000,12786000,13031000,13238000,13405000
강원,1521000,1521000,1521000,1517000,1515000


In [21]:
# 3백만 이상의 도시 찾아보기 -> boolean 색인하기
data[data['2020'] >= 3000000]

Unnamed: 0_level_0,2016,2017,2018,2019,2020
지역,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,9843000.0,9766000.0,9705000.0,9662000.0,9602000.0
부산,3447000.0,3424000.0,3400000.0,3373000.0,3344000.0
대구,,,,,
인천,,,,,
광주,,,,,
대전,,,,,
울산,,,,,
세종,,,,,
경기,12600000.0,12786000.0,13031000.0,13238000.0,13405000.0
강원,,,,,


In [22]:
# pandas의 함수
# 실제 데이터의 갯수를 확인할 수 있는 함수 -> value_counts()
data['2019'].value_counts()

2432000     1
1773000     1
1494000     1
1509000     1
660000      1
1147000     1
13238000    1
1626000     1
1803000     1
3350000     1
331000      1
2665000     1
9662000     1
25844000    1
2188000     1
2944000     1
3373000     1
1517000     1
Name: 2019, dtype: int64

In [26]:
df_num = pd.DataFrame({'data1' : [1,0,1], 'data2':[2,1,0], 'data3':[1,3,3]},
                      index = ['num1', 'num2', 'num3'])
df_num 

Unnamed: 0,data1,data2,data3
num1,1,2,1
num2,0,1,3
num3,1,0,3


In [28]:
df_num['data2'].value_counts()

0    1
1    1
2    1
Name: data2, dtype: int64

In [29]:
# sort() : 정렬을 할 수 있는 함수
# 정렬의 기준 : 1. 인덱스 이름(sort_index) / 2. 데이터 값(sort_values)
data['2019'].sort_index()

지역
강원      1517000
경기     13238000
경남      3350000
경북      2665000
광주      1494000
대구      2432000
대전      1509000
부산      3373000
서울      9662000
세종       331000
수도권    25844000
울산      1147000
인천      2944000
전남      1773000
전북      1803000
제주       660000
충남      2188000
충북      1626000
Name: 2019, dtype: int32

In [30]:
data['2019'].sort_values()

지역
세종       331000
제주       660000
울산      1147000
광주      1494000
대전      1509000
강원      1517000
충북      1626000
전남      1773000
전북      1803000
충남      2188000
대구      2432000
경북      2665000
인천      2944000
경남      3350000
부산      3373000
서울      9662000
경기     13238000
수도권    25844000
Name: 2019, dtype: int32

In [31]:
# sort() 사용 시 내림차순 속성 : ascending(기본값 : True)
data['2019'].sort_index(ascending = False)

지역
충북      1626000
충남      2188000
제주       660000
전북      1803000
전남      1773000
인천      2944000
울산      1147000
수도권    25844000
세종       331000
서울      9662000
부산      3373000
대전      1509000
대구      2432000
광주      1494000
경북      2665000
경남      3350000
경기     13238000
강원      1517000
Name: 2019, dtype: int32

In [33]:
data.sort_values(by = '2018')

Unnamed: 0_level_0,2016,2017,2018,2019,2020
지역,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
세종,234000,266000,304000,331000,349000
제주,618000,635000,653000,660000,670000
울산,1166000,1159000,1154000,1147000,1140000
광주,1502000,1495000,1493000,1494000,1488000
대전,1536000,1528000,1518000,1509000,1500000
강원,1521000,1521000,1521000,1517000,1515000
충북,1601000,1609000,1619000,1626000,1632000
전남,1798000,1795000,1790000,1773000,1764000
전북,1835000,1829000,1820000,1803000,1792000
충남,2126000,2153000,2180000,2188000,2204000


In [34]:
data

Unnamed: 0_level_0,2016,2017,2018,2019,2020
지역,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,9843000,9766000,9705000,9662000,9602000
부산,3447000,3424000,3400000,3373000,3344000
대구,2461000,2458000,2450000,2432000,2419000
인천,2907000,2924000,2939000,2944000,2951000
광주,1502000,1495000,1493000,1494000,1488000
대전,1536000,1528000,1518000,1509000,1500000
울산,1166000,1159000,1154000,1147000,1140000
세종,234000,266000,304000,331000,349000
경기,12600000,12786000,13031000,13238000,13405000
강원,1521000,1521000,1521000,1517000,1515000


In [36]:
# dataFrame 삭제 함수 -> drop() -> 행 삭제
data.drop('수도권')

Unnamed: 0_level_0,2016,2017,2018,2019,2020
지역,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,9843000,9766000,9705000,9662000,9602000
부산,3447000,3424000,3400000,3373000,3344000
대구,2461000,2458000,2450000,2432000,2419000
인천,2907000,2924000,2939000,2944000,2951000
광주,1502000,1495000,1493000,1494000,1488000
대전,1536000,1528000,1518000,1509000,1500000
울산,1166000,1159000,1154000,1147000,1140000
세종,234000,266000,304000,331000,349000
경기,12600000,12786000,13031000,13238000,13405000
강원,1521000,1521000,1521000,1517000,1515000


In [43]:
# axis -> DataFrame의 축 기준을 잡을 수 있는 속성
# 0 -> 행 / 1 -> 열
data.drop('2016', axis = 1)

Unnamed: 0_level_0,2017,2018,2019,2020
지역,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서울,9766000,9705000,9662000,9602000
부산,3424000,3400000,3373000,3344000
대구,2458000,2450000,2432000,2419000
인천,2924000,2939000,2944000,2951000
광주,1495000,1493000,1494000,1488000
대전,1528000,1518000,1509000,1500000
울산,1159000,1154000,1147000,1140000
세종,266000,304000,331000,349000
경기,12786000,13031000,13238000,13405000
강원,1521000,1521000,1517000,1515000


In [49]:
# score 파일 불러오기 -> score 변수에 저장
score = pd.read_csv('score.csv', encoding='euc-kr', index_col='과목')
score

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
파이썬,45,44,73,39
DB,76,92,45,69
자바,47,92,45,69
크롤링,92,81,85,40
Web,11,79,47,26


In [50]:
score.sum()

1반    271
2반    388
3반    295
4반    243
dtype: int64

In [55]:
# 과목을 기준으로 총합 구하기
score.sum(axis=1)

과목
파이썬    201
DB     282
자바     253
크롤링    298
Web    163
dtype: int64

In [57]:
score['합계'] = score.sum(axis = 1)
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
파이썬,45,44,73,39,201
DB,76,92,45,69,282
자바,47,92,45,69,253
크롤링,92,81,85,40,298
Web,11,79,47,26,163


In [76]:
# '평균' -> 1~4반까지의 과목별 평균
# 방법 1
score['평균'] = score.loc[:,'1반','4반'].mean(axis=1)
# 방법 2
# score['평균'] = score.loc[:,'합계']/4
score

IndexingError: Too many indexers

In [78]:
# 새로운 행 추가하기
score.loc['반평균'] = score.mean()
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
파이썬,45.0,44.0,73.0,39.0,201.0,50.25
DB,76.0,92.0,45.0,69.0,282.0,70.5
자바,47.0,92.0,45.0,69.0,253.0,63.25
크롤링,92.0,81.0,85.0,40.0,298.0,74.5
Web,11.0,79.0,47.0,26.0,163.0,40.75
반평균,54.2,77.6,59.0,48.6,239.4,59.85


In [79]:
# 최대값 최소값 구하기 -> max(), min()
score.max()

1반     92.0
2반     92.0
3반     85.0
4반     69.0
합계    298.0
평균     74.5
dtype: float64

In [80]:
score.min()

1반     11.00
2반     44.00
3반     45.00
4반     26.00
합계    163.00
평균     40.75
dtype: float64

In [82]:
# 각반 과목별 가장 큰 점수와 작은 점수의 차이값 구하기
maxArr = score.loc[:'Web', :'4반'].max(axis = 1)
maxArr

과목
파이썬    73.0
DB     92.0
자바     92.0
크롤링    92.0
Web    79.0
dtype: float64

In [83]:
minArr = score.loc[:'Web', :'4반'].min(axis = 1)
minArr

과목
파이썬    39.0
DB     45.0
자바     45.0
크롤링    40.0
Web    11.0
dtype: float64

In [84]:
maxArr - minArr

과목
파이썬    34.0
DB     47.0
자바     47.0
크롤링    52.0
Web    68.0
dtype: float64

In [87]:
# apply() : 행이나 열 단위로 더 복잡한 연산을 진행할 수 있는 함수
# apply(func, aixs = ?)

# apply()를 활용하여 간단하게 최대-최소 차이 값 구하기
# 1. 사용자가 사용하고자 하는 함수 생성하기 -> 최대 - 최소
def max_min(x): # max_min 함수 정의 x라는 변수 하나 받음
    return x.max() - x.min()

In [90]:
score.loc[:'Web',:'4반'].apply(max_min, axis=1)

과목
파이썬    34.0
DB     47.0
자바     47.0
크롤링    52.0
Web    68.0
dtype: float64

In [91]:
ages = [0, 2, 10, 21, 23, 37, 31, 61, 20, 41, 32, 100]
ages

[0, 2, 10, 21, 23, 37, 31, 61, 20, 41, 32, 100]

In [94]:
# 1~15(미성년자), 16~25(청년), 26~35(중년), 36~60(장년), 61~99(노년)
# 시작 범위는 항상 실제 데이터보다 -1 작아야 한다
# 
bins = [0, 15, 25, 35, 60, 99]

# 각 구간에 들어갈 이름 데이터 생성하기
lb = ['미성년자', '청년', '중년', '장년', '노년']

print(bins)
print(lb)

[0, 15, 25, 35, 60, 99]
['미성년자', '청년', '중년', '장년', '노년']


In [103]:
# cut(전체 데이터(), 구분 기준(bins), 구분 이름(labels))
data = pd.cut(ages, bins, labels = lb)
data

[NaN, '미성년자', '미성년자', '청년', '청년', ..., '노년', '청년', '장년', '중년', NaN]
Length: 12
Categories (5, object): ['미성년자' < '청년' < '중년' < '장년' < '노년']

In [104]:
df_age = pd.DataFrame(ages, columns = ['ages'])
df_age

Unnamed: 0,ages
0,0
1,2
2,10
3,21
4,23
5,37
6,31
7,61
8,20
9,41


In [105]:
df_age['age_cat'] = pd.cut(ages, bins, labels=lb)
df_age

Unnamed: 0,ages,age_cat
0,0,
1,2,미성년자
2,10,미성년자
3,21,청년
4,23,청년
5,37,장년
6,31,중년
7,61,노년
8,20,청년
9,41,장년


In [106]:
# 미성년자 -> ?, 청년 -> ? 갯수 세어보기
df_age['age_cat'].value_counts()

청년      3
미성년자    2
중년      2
장년      2
노년      1
Name: age_cat, dtype: int64

In [107]:
data.categories

Index(['미성년자', '청년', '중년', '장년', '노년'], dtype='object')

In [108]:
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'], 
                    'B': ['B0', 'B1', 'B2', 'B3'],
                    'C': ['C0', 'C1', 'C2', 'C3'],
                    'D': ['D0', 'D1', 'D2', 'D3']},
                   index=[0, 1, 2, 3])

df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                    'B': ['B4', 'B5', 'B6', 'B7'],
                    'C': ['C4', 'C5', 'C6', 'C7'],
                    'D': ['D4', 'D5', 'D6', 'D7']},
                   index=[4, 5, 6, 7])

df3 = pd.DataFrame({'A': ['A8', 'A9', 'A10', 'A11'],
                    'B': ['B8', 'B9', 'B10', 'B11'],
                    'C': ['C8', 'C9', 'C10', 'C11'],
                    'D': ['D8', 'D9', 'D10', 'D11']},
                   index=[8, 9, 10, 11])

In [113]:
display(df1)
display(df2)
display(df3)

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


Unnamed: 0,A,B,C,D
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7


Unnamed: 0,A,B,C,D
8,A8,B8,C8,D8
9,A9,B9,C9,D9
10,A10,B10,C10,D10
11,A11,B11,C11,D11


In [147]:
# DataFrame 병합을 위한 함수 -> concat([df1, df2, ...])
# 병합의 기준 
result = pd.concat([df1,df2,df3])
result

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7
8,A8,B8,C8,D8
9,A9,B9,C9,D9


In [118]:
# concat 함수에서 사용할 수 있는 속성 확인하기
result = pd.concat([df1, df2, df3], keys = ['x', 'y', 'z'])
result

Unnamed: 0,Unnamed: 1,A,B,C,D
x,0,A0,B0,C0,D0
x,1,A1,B1,C1,D1
x,2,A2,B2,C2,D2
x,3,A3,B3,C3,D3
y,4,A4,B4,C4,D4
y,5,A5,B5,C5,D5
y,6,A6,B6,C6,D6
y,7,A7,B7,C7,D7
z,8,A8,B8,C8,D8
z,9,A9,B9,C9,D9


In [120]:
# 다중 인덱스 속성 살펴보기
result.index

MultiIndex([('x',  0),
            ('x',  1),
            ('x',  2),
            ('x',  3),
            ('y',  4),
            ('y',  5),
            ('y',  6),
            ('y',  7),
            ('z',  8),
            ('z',  9),
            ('z', 10),
            ('z', 11)],
           )

In [121]:
result.index.get_level_values(0)

Index(['x', 'x', 'x', 'x', 'y', 'y', 'y', 'y', 'z', 'z', 'z', 'z'], dtype='object')

In [126]:
# 멀티 인덱스의 인덱싱 -> 튜플의 형태로 인덱스들을 묶어서 탐색
result.loc[('x',0)]
result

Unnamed: 0,Unnamed: 1,A,B,C,D
x,0,A0,B0,C0,D0
x,1,A1,B1,C1,D1
x,2,A2,B2,C2,D2
x,3,A3,B3,C3,D3
y,4,A4,B4,C4,D4
y,5,A5,B5,C5,D5
y,6,A6,B6,C6,D6
y,7,A7,B7,C7,D7
z,8,A8,B8,C8,D8
z,9,A9,B9,C9,D9


In [129]:
result.loc[[('x',0),('z',8)]] # 여러 개 가져오기 위해서는 리스트 형태로 입력 필요

Unnamed: 0,Unnamed: 1,A,B,C,D
x,0,A0,B0,C0,D0
z,8,A8,B8,C8,D8


In [134]:
# 다중 column 만들기
import numpy as np

multi_col_df = pd.DataFrame(np.array([[1,2,3],[4,5,6],[7,8,9]]),
            columns = [['A','A','B'],['apple', 'banana', 'orange']])
multi_col_df

Unnamed: 0_level_0,A,A,B
Unnamed: 0_level_1,apple,banana,orange
0,1,2,3
1,4,5,6
2,7,8,9


In [138]:
multi_col_df[('A', 'apple')]

0    1
1    4
2    7
Name: (A, apple), dtype: int32

![image.png](attachment:image.png)

In [140]:
Survived = pd.Series([1, 0, 1, 0, 1])
Survived

0    1
1    0
2    1
3    0
4    1
dtype: int64

In [144]:
Sex = pd.Series(['female', 'female', 'male', 'male', 'female'])
Sex

0    female
1    female
2      male
3      male
4    female
dtype: object

In [143]:
Passengerld = pd.Series([1, 2, 3, 4, 5])
Passengerld

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [145]:
result = pd.concat([Survived,Sex,Passengerld])
result

0         1
1         0
2         1
3         0
4         1
0    female
1    female
2      male
3      male
4    female
0         1
1         2
2         3
3         4
4         5
dtype: object

In [148]:
data = pd.concat([Survived,Sex,Passengerld], axis = 1)
data

Unnamed: 0,0,1,2
0,1,female,1
1,0,female,2
2,1,male,3
3,0,male,4
4,1,female,5


In [149]:
data.columns = ['Survived', 'PasengerId', 'Sex']

In [150]:
data

Unnamed: 0,Survived,PasengerId,Sex
0,1,female,1
1,0,female,2
2,1,male,3
3,0,male,4
4,1,female,5
