# Chapter 14 | Pandas 데이터 분석

# Pandas란?
  : 데이터 분석에서 가장 인기있는 파이썬 패키지
  
  : 열과 행으로 구성된 테이블 형태의 데이터를 다루는 데 주로 사용
  
  
- Numpy와의 공통점과 차이점으로 확인
  1) 공통점
  : 배열 기반 연산과 for문(반복문) 없이 계산하는 벡터화 계산을 기반으로 한다.

  2) 차이점
  : Numpy는 주로 같은 형에 대한 배열을 다루는 반면, Pandas는 이질적인 자료형을 다루는 것에 적합하다.

- Series : 1차원 배열 구조
- DataFrame : 2차원 배열 구조

In [1]:
import pandas as pd
import numpy as np

In [5]:
# Series 객체 생성
s = pd.Series([1, 3, 4, np.nan, 6, 8]) # np.nan = 결측값
print(s)
print(s[3]) # 3번째 칸에 어떤 값이 들어있는지 출력

0    1.0
1    3.0
2    4.0
3    NaN
4    6.0
5    8.0
dtype: float64
nan


In [15]:
s.values

array([ 1.,  3.,  4., nan,  6.,  8.])

In [12]:
# Series 인덱스 설정
obj = pd.Series([10, 20, 30, 40, 50], index=['a', 'b', 'c', 'd', 'e'])
print(obj, '\n')

print(obj['c'], '\n')
print(obj[['d', 'a']], '\n')
print(obj[1:4], '\n')

a    10
b    20
c    30
d    40
e    50
dtype: int64 

30 

d    40
a    10
dtype: int64 

b    20
c    30
d    40
dtype: int64 



In [17]:
print(obj.index) # index값 직접 지정
obj['c'] = -12 # c에 -12 대입
obj

Index([0, 1, 2, 3, 4, 'c'], dtype='object')


0    10
1    20
2    30
3    40
4    50
c   -12
dtype: int64

In [19]:
# Series 산술연산과 조건식
import pandas as pd

obj = pd.Series([10, 20, 30, 40, 50])
print(obj * 10, '\n') # obj의 각 값에 10씩 곱해준다.

print(obj[obj > 25]) # obj의 값이 25 이상인 값만 출력해준다.

0    100
1    200
2    300
3    400
4    500
dtype: int64 

2    30
3    40
4    50
dtype: int64


In [22]:
# Series에서 for문 활용
import pandas as pd

pop = pd.Series([9765623, 3441453, 2461769], index=['서울', '부산', '대구'])

print(pop, '\n')
      
for i, v in pop.items() : # 딕셔너리 형태로도 생각할 수 있다.
    print('%s : %d명' % (i, v))

서울    9765623
부산    3441453
대구    2461769
dtype: int64 

서울 : 9765623명
부산 : 3441453명
대구 : 2461769명


In [23]:
# Series에서 딕셔너리 사용(Series를 애초에 딕셔너리 형태로 만들 수 있다.)
import pandas as pd

pop = pd.Series({'서울':9765623, '부산':3441453, '대구':2461769}, index = ['서울', '부산', '대구', '광주', '대전'])
print(pop, '\n')

pop['광주'] = 149336
print('광주시 인구 : %.0f명' % pop['광주'])

서울    9765623.0
부산    3441453.0
대구    2461769.0
광주          NaN
대전          NaN
dtype: float64 

광주시 인구 : 149336명


In [25]:
# 딕셔너리 자체를 판다스 내에 삽입하는 것도 가능하다.
dic = {'서울':9765623, '부산':3441453, '대구':2461769}
ser = pd.Series(dic)
ser

서울    9765623
부산    3441453
대구    2461769
dtype: int64

In [28]:
pd.isnull(pop) # 결측값 확인

서울    False
부산    False
대구    False
광주    False
대전     True
dtype: bool

In [29]:
pd.notnull(pop) # 비어있지 않은지(위와 반대의 상황) 출력

서울     True
부산     True
대구     True
광주     True
대전    False
dtype: bool

In [30]:
print(pop, '\n')
print(ser)

서울    9765623.0
부산    3441453.0
대구    2461769.0
광주     149336.0
대전          NaN
dtype: float64 

서울    9765623
부산    3441453
대구    2461769
dtype: int64


In [33]:
pop + ser # pop과 ser을 더해주면, 값이 서로 더해진 모습을 살펴볼 수 있다.

광주           NaN
대구     4923538.0
대전           NaN
부산     6882906.0
서울    19531246.0
dtype: float64

In [34]:
pop.name = "인구통계"
pop.index.name = "도시"
pop

도시
서울    9765623.0
부산    3441453.0
대구    2461769.0
광주     149336.0
대전          NaN
Name: 인구통계, dtype: float64

In [37]:
obj.index = ['김', '이', '박', '최', '백']
obj # 위에서 설정했던 값이 본 코드에서 작성한 리스트에 삽입된 모습을 살펴볼 수 있다.

김    10
이    20
박    30
최    40
백    50
dtype: int64

In [40]:
# DataFrame 객체 생성
import pandas as pd
data = {'이름':['홍지수', '안지영', '김성수', '최예린'], 
'아이디' : ['jshong', 'jyahn', 'sukim', 'yrchoi'],
'비밀번호' : ['1234', '1234', '1234', '1234']} # 딕셔너리 먼저 생성 후

frame = pd.DataFrame(data) # 데이터 형식으로 바꾼 것
print(frame)

    이름     아이디  비밀번호
0  홍지수  jshong  1234
1  안지영   jyahn  1234
2  김성수   sukim  1234
3  최예린  yrchoi  1234


In [42]:
# DataFrame 열과 행 인덱스 설정
import pandas as pd
member = {'이름':['김영준','한지원'], '나이':[20, 23], '전화번호':['010-3535-4576', '010-1295-7899']}

frame = pd.DataFrame(member, columns=['이름', '전화번호', '나이', '주소'], index=['01', '02'])
print(frame) 
# 최종 출력값을 살펴보면, 입력할 땐 이름, 나이 등의 순서로 입력였지만,
# 출력 시 frame의 순서에 맞게 출력된 모습을 살펴볼 수 있다.

     이름           전화번호  나이   주소
01  김영준  010-3535-4576  20  NaN
02  한지원  010-1295-7899  23  NaN


In [43]:
data = {'지역' : ['대전', '대전', '대전', '서울', '서울', '서울', '부산', '부산', '부산'],
        '년도' : [2022, 2023, 2024, 2022, 2023, 2024, 2022, 2023, 2024],
        '인구' : [1550, 1556, 1552, 9941, 9825, 9999, 7856, 7777, 7456]}

frame = pd.DataFrame(data)
frame

Unnamed: 0,지역,년도,인구
0,대전,2022,1550
1,대전,2023,1556
2,대전,2024,1552
3,서울,2022,9941
4,서울,2023,9825
5,서울,2024,9999
6,부산,2022,7856
7,부산,2023,7777
8,부산,2024,7456


In [45]:
frame.head() # 상위 5개 데이터 출력

Unnamed: 0,지역,년도,인구
0,대전,2022,1550
1,대전,2023,1556
2,대전,2024,1552
3,서울,2022,9941
4,서울,2023,9825


In [48]:
pd.DataFrame(data, columns = ['지역', '인구', '년도'])

Unnamed: 0,지역,인구,년도
0,대전,1550,2022
1,대전,1556,2023
2,대전,1552,2024
3,서울,9941,2022
4,서울,9825,2023
5,서울,9999,2024
6,부산,7856,2022
7,부산,7777,2023
8,부산,7456,2024


In [52]:
frame2 = pd.DataFrame(data, columns = ['지역', '인구', '년도', '자산'],
                      index=[1, 2, 3, 4, 5, 6, 7, 8, 9])
frame2

Unnamed: 0,지역,인구,년도,자산
1,대전,1550,2022,
2,대전,1556,2023,
3,대전,1552,2024,
4,서울,9941,2022,
5,서울,9825,2023,
6,서울,9999,2024,
7,부산,7856,2022,
8,부산,7777,2023,
9,부산,7456,2024,


In [53]:
frame2.columns

Index(['지역', '인구', '년도', '자산'], dtype='object')

In [54]:
frame2['지역']

1    대전
2    대전
3    대전
4    서울
5    서울
6    서울
7    부산
8    부산
9    부산
Name: 지역, dtype: object

In [55]:
frame.지역

0    대전
1    대전
2    대전
3    서울
4    서울
5    서울
6    부산
7    부산
8    부산
Name: 지역, dtype: object

In [56]:
프레임2 = frame2
frame2

Unnamed: 0,지역,인구,년도,자산
1,대전,1550,2022,
2,대전,1556,2023,
3,대전,1552,2024,
4,서울,9941,2022,
5,서울,9825,2023,
6,서울,9999,2024,
7,부산,7856,2022,
8,부산,7777,2023,
9,부산,7456,2024,


In [58]:
frame2.loc[5] # 해당 위치에 있는 데이터 꺼오기

지역      서울
인구    9825
년도    2023
자산     NaN
Name: 5, dtype: object

In [60]:
frame2['자산'] = 10 # 자산에 모두 10 대입
frame2

Unnamed: 0,지역,인구,년도,자산
1,대전,1550,2022,10
2,대전,1556,2023,10
3,대전,1552,2024,10
4,서울,9941,2022,10
5,서울,9825,2023,10
6,서울,9999,2024,10
7,부산,7856,2022,10
8,부산,7777,2023,10
9,부산,7456,2024,10


In [62]:
frame2['자산'] = np.arange(9)
frame2

Unnamed: 0,지역,인구,년도,자산
1,대전,1550,2022,0
2,대전,1556,2023,1
3,대전,1552,2024,2
4,서울,9941,2022,3
5,서울,9825,2023,4
6,서울,9999,2024,5
7,부산,7856,2022,6
8,부산,7777,2023,7
9,부산,7456,2024,8


In [64]:
m = pd.Series([20, 50, 1], index=[5, 6, 7])
frame2['자산'] = m
frame2 # 대입한 값 외에 NaN이 나타나는 모습(통으로 대입했기 때문에)

Unnamed: 0,지역,인구,년도,자산
1,대전,1550,2022,
2,대전,1556,2023,
3,대전,1552,2024,
4,서울,9941,2022,
5,서울,9825,2023,20.0
6,서울,9999,2024,50.0
7,부산,7856,2022,1.0
8,부산,7777,2023,
9,부산,7456,2024,


In [69]:
frame2['성심당'] = frame2.지역 == '대전' # frame2['지역']으로 넣는 것도 가능하다.
frame2

Unnamed: 0,지역,인구,년도,자산,성심당
1,대전,1550,2022,,True
2,대전,1556,2023,,True
3,대전,1552,2024,,True
4,서울,9941,2022,,False
5,서울,9825,2023,20.0,False
6,서울,9999,2024,50.0,False
7,부산,7856,2022,1.0,False
8,부산,7777,2023,,False
9,부산,7456,2024,,False


In [70]:
del frame2['성심당']
frame2 # 데이터 삭제

Unnamed: 0,지역,인구,년도,자산
1,대전,1550,2022,
2,대전,1556,2023,
3,대전,1552,2024,
4,서울,9941,2022,
5,서울,9825,2023,20.0
6,서울,9999,2024,50.0
7,부산,7856,2022,1.0
8,부산,7777,2023,
9,부산,7456,2024,


In [72]:
data = {'지역' : {'하나':'대전', '둘':'대전', '셋':'서울', '넷':'서울'},
        '년도' : {'하나':2022, '둘':2023, '하나':2022, '둘':2023},
        '인구' : {'하나':1055, '둘':1566, '하나':1552, '둘':9941}}

frame = pd.DataFrame(data)
frame
        

Unnamed: 0,지역,년도,인구
하나,대전,2022.0,1552.0
둘,대전,2023.0,9941.0
셋,서울,,
넷,서울,,


In [74]:
frame.T # T : 행과 열 뒤집힘(서로 수정)

Unnamed: 0,하나,둘,셋,넷
지역,대전,대전,서울,서울
년도,2022.0,2023.0,,
인구,1552.0,9941.0,,


In [76]:
frame2.index.name = '번호'
frame2.columns.name = '분류'
frame2

분류,지역,인구,년도,자산
번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,대전,1550,2022,
2,대전,1556,2023,
3,대전,1552,2024,
4,서울,9941,2022,
5,서울,9825,2023,20.0
6,서울,9999,2024,50.0
7,부산,7856,2022,1.0
8,부산,7777,2023,
9,부산,7456,2024,


In [94]:
# loc을 이용한 요소 추출
import pandas as pd
data = {'학교명':['가나고', '다라고', '마바고', '사아고', '자차고'],
        '학급수' : [25, 23, 15, 19, 10],
        '학생수' : [620, 600, 550, 580, 400],
        '교사수' : [80, 95, 70, 90, 65]}

frame = pd.DataFrame(data,index=['01', '02', '03', '04', '05'])
print(frame) # 인덱스 번호 출력

print(frame.loc['02', '학생수']) # 02의 학생수(600)
print(frame.loc['04', ['학교명', '학급수', '교사수']]) # 04의 각 데이터 수 출력

    학교명  학급수  학생수  교사수
01  가나고   25  620   80
02  다라고   23  600   95
03  마바고   15  550   70
04  사아고   19  580   90
05  자차고   10  400   65
600
학교명    사아고
학급수     19
교사수     90
Name: 04, dtype: object


In [116]:
# iloc을 이용한 요소 추출
import pandas as pd

data = {'아이디':['kim', 'song', 'han', 'choi'],
        '구매상품' : ['상품A', '상품B', '상품C', '상품D'],
        '가격' : [15000, 23000, 33000, 50000],
        '개수' : [3, 5, 1, 10],
        '구매일' : ['0303', '0810', '0120', '0601']}

frame = pd.DataFrame(data)
print(frame, '\n')

print(frame.iloc[2, 0], '\n') # 2번째 열(index번호 2)에서 0번째 행(아이디) 데이터 출력
print(frame.iloc[3, :2], '\n') # 3번째 열(index번호 3)에서 슬라이싱 행(처음 ~ 두 번째 행까지) 출력
print(frame.iloc[:, [0, 4]]) # 0과 4에 위치한 데이터값 출력

    아이디 구매상품     가격  개수   구매일
0   kim  상품A  15000   3  0303
1  song  상품B  23000   5  0810
2   han  상품C  33000   1  0120
3  choi  상품D  50000  10  0601 

han 

아이디     choi
구매상품     상품D
Name: 3, dtype: object 

    아이디   구매일
0   kim  0303
1  song  0810
2   han  0120
3  choi  0601


In [109]:
data = {' ':['A', 'B', 'C'],
        '가' : [0, 4, 8],
        '나' : [1, 5, 9],
        '다' : [2, 6, 10],
        '라' : [3, 7, 11]}

frame = pd.DataFrame(data, index=['A', 'B', 'C'])
print(frame)

      가  나   다   라
A  A  0  1   2   3
B  B  4  5   6   7
C  C  8  9  10  11


In [118]:
data = np.arange(12).reshape(3, 4)

frame = pd.DataFrame(data)
frame.index = ["A", "B", "C"]
frame.columns = ["가", "나", "다", "라"]

frame

Unnamed: 0,가,나,다,라
A,0,1,2,3
B,4,5,6,7
C,8,9,10,11


In [113]:
pd.DateFrame(np.arange(3*4).reshape(3, 4), index=["A","B","C"], columns=["가","나","다","라"])

AttributeError: module 'pandas' has no attribute 'DateFrame'

In [137]:
# loc, iloc

# 1.
# 가 0  
# 다 6
print(frame.iloc[0, 0]) 
print(frame.iloc[1, 2], '\n') 
# 추가문제
# 가 4  
# 다 6

# # 2.
# #  라 가 나
# # A  3  0  1
# # B  7  5  4
# print(frame.iloc[[3, 1, 0], :2], '\n') 

# # 3. 
# # 가 8
# # 나 9
# # 다 10
# # 라 11
# print(frame.iloc[0, :3])

# # 4. 
# #   다 가
# # A 2  0
# # B 1  2

# print(frame.iloc[2, 0], '\n') # 2번째 열(index번호 2)에서 0번째 행(아이디) 데이터 출력
# print(frame.iloc[3, :2], '\n') # 3번째 열(index번호 3)에서 슬라이싱 행(처음 ~ 두 번째 행까지) 출력
# print(frame.iloc[:, [0, 4]]) # 0과 4에 위치한 데이터값 출력

0
6 



In [168]:
data = {' ':['A', 'B', 'C'],
        '가' : [0, 4, 8],
        '나' : [1, 5, 9],
        '다' : [2, 6, 10],
        '라' : [3, 7, 11]}

frame = pd.DataFrame(data, index=['A', 'B', 'C'])

print(frame.loc['B', ['가', '다']])
print()
# print(frame.iloc[:2, [3, 0, 1]])
print(frame.loc[:'B', ['라', '가', '나']])
print()
print(frame.loc['C', ['가', '나', '다', '라']])
# 또는 print(frame.iloc[2])
print()
print(frame.loc[:'B', ['다', '가']])
# 또는 prunt.iloc[:2, [2, 0]]

가    4
다    6
Name: B, dtype: object

   라  가  나
A  3  0  1
B  7  4  5

가     8
나     9
다    10
라    11
Name: C, dtype: object

   다  가
A  2  0
B  6  4


# 인덱스 함수
1) append : 뒤에 연결하여 추가 생성
2) difference : 차집합
3) intersection : 교집합
4) union : 합집합
5) isin : 각 값이 주어진 컬렉션 안에 포함되어 있는지 boolean 배열 계산
6) delete : 인덱스 i 요소가 삭제된 새로운 index를 계산
7) drop : 전달된 값 전체를 삭제하여 새로운 index를 계산
8) insert : 인덱스 i 위치에 요소를 삽입
9) is_monotonic : 각 요소가 이전 요소보다 크거나 같은 경우 True
10) is_unique : 중복된 값이 없는 경우 True
11) unique : 고유한 값들을 반환

In [178]:
index1 = pd.Index([1, 2, 3, 4, 5])
index2 = pd.Index([4, 5, 6, 7, 8])

In [176]:
index1.append(index2) # 인덱스1값에 인덱스2를 추가

Index([1, 2, 3, 4, 5, 4, 5, 6, 7, 8], dtype='int64')

In [180]:
index1.difference(index2)

Index([1, 2, 3], dtype='int64')

In [181]:
index1.intersection(index2)

Index([4, 5], dtype='int64')

In [182]:
index1.union(index2)

Index([1, 2, 3, 4, 5, 6, 7, 8], dtype='int64')

In [183]:
index1.isin([2, 4, 6])

array([False,  True, False,  True, False])

In [184]:
index1.delete(2)

Index([1, 2, 4, 5], dtype='int64')

In [185]:
index1.drop([2, 3])

Index([1, 4, 5], dtype='int64')

In [186]:
index1.insert(2, 8)

Index([1, 2, 8, 3, 4, 5], dtype='int64')

In [188]:
index1.unique()

Index([1, 2, 3, 4, 5], dtype='int64')

In [189]:
index1.is_unique

True

In [190]:
index1

Index([1, 2, 3, 4, 5], dtype='int64')

In [194]:
s = pd.Series(range(3), index=['a', 'b', 'c'])
s

a    0
b    1
c    2
dtype: int64

In [195]:
s.index

Index(['a', 'b', 'c'], dtype='object')

In [208]:
s.values # 값 변경

array([0, 1, 2], dtype=object)

In [198]:
s.values[0] = 'A'
s

a    A
b    1
c    2
dtype: object

In [199]:
s.values[0]

'A'

In [201]:
s.values[0] = 0
s

a    0
b    1
c    2
dtype: object

In [202]:
s.index = ['A', 'B', 'C']
s

A    0
B    1
C    2
dtype: object

In [209]:
frame.columns

Index([' ', '가', '나', '다', '라'], dtype='object')

In [210]:
'가' in frame.columns

True

In [207]:
'마' in frame.columns

False

In [211]:
index = pd.Index([1, 2, 2, 3, 3])

In [213]:
index.unique() # 중복 없앤 값을 반환
index

Index([1, 2, 2, 3, 3], dtype='int64')

In [215]:
s = pd.Series([3, -8, 2, 0], index = ['b', 'e', 'a', 'c'])
s

b    3
e   -8
a    2
c    0
dtype: int64

In [217]:
s.reindex(['a', 'b', 'c', 'd', 'e'])

a    2.0
b    3.0
c    0.0
d    NaN
e   -8.0
dtype: float64

In [220]:
s = pd.Series(['빨강', '파랑', '초록'], index = [0, 2, 4])
s # 데이터가 일정간격으로 배치

0    빨강
2    파랑
4    초록
dtype: object

In [223]:
s.reindex(range(6), method='ffill') # ffill : 최소화하는 방법(이전 데이터를 기반으로 채워준다.)

0    빨강
1    빨강
2    파랑
3    파랑
4    초록
5    초록
dtype: object

reindex

*method

ffill - 앞쪽을 기준으로 채우기

bfill - 뒷쪽을 기준으로 채우기

fill_value - 채우고 싶은 값을 정해준다.

*limit - 채울 때 개수 제한 지정

In [228]:
df = pd.DataFrame(np.arange(6).reshape(3, 2), index = range(0, 5, 2), columns = ['A','B'])
df

Unnamed: 0,A,B
0,0,1
2,2,3
4,4,5


In [229]:
df.reindex(columns = ['B', 'C', 'A'])

Unnamed: 0,B,C,A
0,1,,0
2,3,,2
4,5,,4


In [280]:
data = {'영화': ['영화1', '영화2', '영화4', '영화5'],
        '평점':[9,8,np.nan,7]}

df = pd.DataFrame(data)
df

Unnamed: 0,영화,평점
0,영화1,9.0
1,영화2,8.0
2,영화4,
3,영화5,7.0


In [281]:
# 결측치를 평균값으로 채워주고싶을 때
new_index = ['영화1', '영화2', '영화3', '영화4', '영화5']

df_re = df.reindex(new_index)
df_re 

Unnamed: 0,영화,평점
영화1,,
영화2,,
영화3,,
영화4,,
영화5,,


In [282]:
# 결측치를 평균값으로 채워주고싶을 때
new_index = ['영화1', '영화2', '영화3', '영화4', '영화5']

df = df.set_index('영화')

df_re = df.reindex(new_index)
df_re 

Unnamed: 0_level_0,평점
영화,Unnamed: 1_level_1
영화1,9.0
영화2,8.0
영화3,
영화4,
영화5,7.0


In [283]:
# 평균 계산 
new_index = ['영화1', '영화2', '영화3', '영화4', '영화5']

df = df.set_index('영화')

df_re = df.reindex(new_index)

average = df_re['평점'].mean()

df_re.fillna(value={'평점':average, inpace = True))
df_re

SyntaxError: closing parenthesis ')' does not match opening parenthesis '{' (3172275213.py, line 10)

In [284]:
df = pd.DataFrame(np.arange(3*3).reshape(3,3), index=['ㄱ', 'ㄴ', 'ㄷ'], columns = ['A', 'B' ,'C'])
df

Unnamed: 0,A,B,C
ㄱ,0,1,2
ㄴ,3,4,5
ㄷ,6,7,8


In [285]:
 df.drop('ㄱ') # ㄱ을 지우겠다.

Unnamed: 0,A,B,C
ㄴ,3,4,5
ㄷ,6,7,8


In [286]:
df.drop(['A','B'], axis='columns', inplace = True)
# 위 코드 실행 후 /df.drop(['A','B']/만 적어놓으면 이미 A가 삭제되어 있으서 오류 발생 
# inplace = True : 이후에 나올 값에도 변경된게 적용이 된다.

In [287]:
df

Unnamed: 0,C
ㄱ,2
ㄴ,5
ㄷ,8


In [288]:
s = pd.Series(range(3))
s

0    0
1    1
2    2
dtype: int64

In [311]:
s = pd.Series(range(3), index=['a', 'b', 'c'])
s

a    0
b    1
c    2
dtype: int64

In [293]:
s[-1] # 판다스에서 작성될 수 없다.
# 정확한 인덱싱을 위해 iloc, loc를 사용해야 한다.

  s[-1] # 판다스에서 작성될 수 없다.


2

In [294]:
df1 = pd.DataFrame(np.arange(3*4).reshape(3, 4), columns = list('abcd'))
df1.loc[0, 'c']=np.nan
df1

Unnamed: 0,a,b,c,d
0,0,1,,3
1,4,5,6.0,7
2,8,9,10.0,11


In [295]:
df2 = pd.DataFrame(np.arange(4*5).reshape(4, 5), columns = list('abcde'))
df2.loc[1, 'b'] = np.nan
df2.loc[0, 'c'] = np.nan
df2

Unnamed: 0,a,b,c,d,e
0,0,1.0,,3,4
1,5,,7.0,8,9
2,10,11.0,12.0,13,14
3,15,16.0,17.0,18,19


In [296]:
df1 + df2

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,,6.0,
1,9.0,,13.0,15.0,
2,18.0,20.0,22.0,24.0,
3,,,,,


In [300]:
df1.add(df2, fill_value=50) # 더하기 대신 add를 써줄 수 있다.
# 위에 보이듯이 결측깂이 발생할 수 있기에, add로 실현

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,,6.0,54.0
1,9.0,55.0,13.0,15.0,59.0
2,18.0,20.0,22.0,24.0,64.0
3,65.0,66.0,67.0,68.0,69.0


In [312]:
s1 = df1.ilon[0]
s1

AttributeError: 'DataFrame' object has no attribute 'ilon'

In [302]:
df1 = s1

NameError: name 's1' is not defined

In [314]:
s1 = df1['a'] # a 기준으로 0, 4, 8을 뽑았다.
s1 # 인덱스값이 0, 1, 2 

0    0
1    4
2    8
Name: a, dtype: int64

In [313]:
df1 + s1
# 위 코드를 참고해서 보면 되는데,
# 0, 1, 2와 0, 4, 8 중 겹치는 것이 없으니, 모두 NaN으로 출력된 모습

Unnamed: 0,a,b,c,d,0,1,2
0,,,,,,,
1,,,,,,,
2,,,,,,,


In [315]:
df1.add(s1, axis='index')

Unnamed: 0,a,b,c,d
0,0,1,,3
1,8,9,10.0,11
2,16,17,18.0,19


In [319]:
# DataFrame의 sum() 메소드
import pandas as pd

# 데이터셋 입력
scores = {'이름': ['김지영', '안지수', '최성수', '황예린', '김소정'],
          '국어' : [95, 97, 90, 94, 87],
          '영어' : [90, 86, 93, 85, 93],
          '수학' : [85, 88, 89, 88, 99]}

# 프레임에 scores 데이터값을 정형화하여 삽입
frame = pd.DataFrame(scores)
print(frame) # frame값을 출력

frame2 = frame.iloc[:, [1, 2, 3]] # frame값 중, 행 :(전체), 열 [1, 2, 3](열 1, 2, 3번째 데이터) 
print(frame2) # 작성한 frame2의 값 출력

total = frame2.sum(axis = 1) # 각 축의 합
print(total) # 작성한 total값 출력

    이름  국어  영어  수학
0  김지영  95  90  85
1  안지수  97  86  88
2  최성수  90  93  89
3  황예린  94  85  88
4  김소정  87  93  99
   국어  영어  수학
0  95  90  85
1  97  86  88
2  90  93  89
3  94  85  88
4  87  93  99
0    270
1    271
2    272
3    267
4    279
dtype: int64


In [321]:
# 성적 합계와 평균
# DataFrame의 sum() 메소드
import pandas as pd

# 데이터셋 입력
scores = {'이름': ['김지영', '안지수', '최성수', '황예린', '김소정'],
          '국어' : [95, 97, 90, 94, 87],
          '영어' : [90, 86, 93, 85, 93],
          '수학' : [85, 88, 89, 88, 99]}

frame = pd.DataFrame(scores) # 정형화된 데이터 frame에 삽입
frame2 = frame.iloc[:, [1, 2, 3]] # frame2에 frame데이터 중 모든 행과 열의 1, 2, 3번째 줄 삽입

total = frame2.sum(axis = 1) # total값은 frame2의 각각의 축의 합
avg = frame2.mean(axis = 1) # avg값은 frame2의 각각의 축의 평균

print('-' * 50)
print('이름 합계 평균')
print('-' * 50)

for i in range(5) :
    print('%s %d %.2f' % (frame.iloc[i, 0], total.iloc[i], avg.iloc[i])) 
    # 입력해준 데이터 형태 잘 확인하기!

print('-' * 50)

--------------------------------------------------
이름 합계 평균
--------------------------------------------------
김지영 270 90.00
안지수 271 90.33
최성수 272 90.67
황예린 267 89.00
김소정 279 93.00
--------------------------------------------------


In [324]:
rn = np.random.RandomState(1234)

df = pd.DataFrame(rn.randn(3*4).reshape(3, 4), columns = list('abcd'), index=list('ㄱㄴㄷ'))
df

Unnamed: 0,a,b,c,d
ㄱ,0.471435,-1.190976,1.432707,-0.312652
ㄴ,-0.720589,0.887163,0.859588,-0.636524
ㄷ,0.015696,-2.242685,1.150036,0.991946


In [326]:
np.abs(df) # 절댓값

Unnamed: 0,a,b,c,d
ㄱ,0.471435,1.190976,1.432707,0.312652
ㄴ,0.720589,0.887163,0.859588,0.636524
ㄷ,0.015696,2.242685,1.150036,0.991946


In [330]:
f = lambda x : x.max() - x.min()
df.apply(f) # 각 열에 데이터값 출력

a    1.192024
b    3.129848
c    0.573119
d    1.628470
dtype: float64

In [332]:
df.apply(f, axis ='columns') # 행값 기준 합

ㄱ    2.623683
ㄴ    1.607752
ㄷ    3.392721
dtype: float64

In [333]:
def func(x) :
    return pd.Series([x.min(), x.max()], index=['min', 'max'])

df.apply(func)

Unnamed: 0,a,b,c,d
min,-0.720589,-2.242685,0.859588,-0.636524
max,0.471435,0.887163,1.432707,0.991946


In [335]:
fo = lambda x : '{:.2f}'.format(x)

df.applymap(fo) # 포맷에 대해 설정값 적용된 모습

  df.applymap(fo) # 포맷에 대해 설정값 적용된 모습


Unnamed: 0,a,b,c,d
ㄱ,0.47,-1.19,1.43,-0.31
ㄴ,-0.72,0.89,0.86,-0.64
ㄷ,0.02,-2.24,1.15,0.99


In [336]:
df['a'].map(fo)

ㄱ     0.47
ㄴ    -0.72
ㄷ     0.02
Name: a, dtype: object

In [338]:
df = pd.DataFrame(np.arange(3*4).reshape(3, 4), columns=list('ㄴㄱㄹㄷ'), index=list('dab'))
df

Unnamed: 0,ㄴ,ㄱ,ㄹ,ㄷ
d,0,1,2,3
a,4,5,6,7
b,8,9,10,11


In [339]:
df.sort_index() # 본 코드를 통해 정렬 가능

Unnamed: 0,ㄴ,ㄱ,ㄹ,ㄷ
a,4,5,6,7
b,8,9,10,11
d,0,1,2,3


In [341]:
df.sort_index(axis='columns') # 컬럼명 ㄱㄴㄷ순으로 정렬

Unnamed: 0,ㄱ,ㄴ,ㄷ,ㄹ
d,1,0,3,2
a,5,4,7,6
b,9,8,11,10


In [342]:
# 위에서 오름차순 코드를 알아보았으니, 내림차순 코드도 알아본다.
df.sort_index(ascending=False)

Unnamed: 0,ㄴ,ㄱ,ㄹ,ㄷ
d,0,1,2,3
b,8,9,10,11
a,4,5,6,7


In [344]:
s.sort_values() # 값을 기준으로 정렬

a    0
b    1
c    2
dtype: int64

In [346]:
s = pd.Series([12, np.nan, 0, np.nan, 5, -4])
s.sort_values()

5    -4.0
2     0.0
4     5.0
0    12.0
1     NaN
3     NaN
dtype: float64

In [347]:
df

Unnamed: 0,ㄴ,ㄱ,ㄹ,ㄷ
d,0,1,2,3
a,4,5,6,7
b,8,9,10,11


In [351]:
df = pd.DataFrame({'a':[-2, 2, 7, -8], 'b':[5, -7, 1, 48]})
df.sort_values(by='b')

Unnamed: 0,a,b
1,2,-7
2,7,1
0,-2,5
3,-8,48


In [352]:
df.sort_values(by=['b','a'])

Unnamed: 0,a,b
1,2,-7
2,7,1
0,-2,5
3,-8,48


In [353]:
df.idxmax()

a    2
b    3
dtype: int64

In [354]:
df.max()

a     7
b    48
dtype: int64

In [355]:
df.count()

a    4
b    4
dtype: int64

In [356]:
data = {'봄': [256.2, 156.2, 456.2, 315.5],
       '여름': [118.2 ,154.6, 488.3, 159.3],
       '가을': [512.3, 765.1, 234.3, 486.3],
       '겨울': [132.9, 147.3, 487.9, 324.6]}
columns_lst = ['봄', '여름', '가을', '겨울']
index_lst = [2020, 2021, 2022, 2023]

df = pd.DataFrame(data, columns = columns_lst, index = index_lst)
df

Unnamed: 0,봄,여름,가을,겨울
2020,256.2,118.2,512.3,132.9
2021,156.2,154.6,765.1,147.3
2022,456.2,488.3,234.3,487.9
2023,315.5,159.3,486.3,324.6


In [358]:
df.std(axis=1) # 열 기준으로 출력

2020    182.416501
2021    306.224504
2022    122.509874
2023    133.558311
dtype: float64

In [359]:
df.describe()

Unnamed: 0,봄,여름,가을,겨울
count,4.0,4.0,4.0,4.0
mean,296.025,230.1,499.5,273.175
std,125.395863,173.110504,216.958122,167.603647
min,156.2,118.2,234.3,132.9
25%,231.2,145.5,423.3,143.7
50%,285.85,156.95,499.3,235.95
75%,350.675,241.55,575.5,365.425
max,456.2,488.3,765.1,487.9


In [360]:
df.head()

Unnamed: 0,봄,여름,가을,겨울
2020,256.2,118.2,512.3,132.9
2021,156.2,154.6,765.1,147.3
2022,456.2,488.3,234.3,487.9
2023,315.5,159.3,486.3,324.6


In [361]:
df.head(2)

Unnamed: 0,봄,여름,가을,겨울
2020,256.2,118.2,512.3,132.9
2021,156.2,154.6,765.1,147.3


In [362]:
df.tail(2)

Unnamed: 0,봄,여름,가을,겨울
2022,456.2,488.3,234.3,487.9
2023,315.5,159.3,486.3,324.6


In [387]:
import pandas as pd

data = {
    'Name':['John', 'Anna', 'Peter', 'Linda'],
    'Age':[28,24,35,32],
    'City':['New York', "Paris", "Berlin", "London"]
}

# 1. 도시 기준으로 정렬
df = df.sort_values(by='City') # df를 city 기준으로 정렬
print(df) # 정렬된 df 출력

# 2. 평균 나이 구하기
mean_age = df['Age'].mean() # df에 저장되어 있는 'Age'데이터 값의 평균(mean)값 구하기
print("평균 나이 : ", mean_age) # 위 코드를 통해 구해진 값 출력

# 3. 이름이 'Peter'인 사람의 나이 출력
peters = df.loc[df['Name'] == 'Peter', 'Age'].values
# loc를 사용, df의 Name이 Peter인 사람의 Age출력(겹치는 데이터 출력)
print("이름이 Peter인 사람의 나이 : ", peters, "세")
# 위 코드를 통해 구해진 값 출력

# 4. 가장 나이가 많은 사람이 살고 있는 도시 출력
city = df.loc[df['Age'].idxmax(), 'City']
# loc를 사용, Age축에 존재하는 가장 큰 값의 City값 출력(겹치는 데이터 출력)
print("가장 나이가 많은 사람이 살고 있는 도시 : ", city)
# 위 코드를 통해 구해진 값 출력

    Name  Age      City
2  Peter   35    Berlin
3  Linda   32    London
0   John   28  New York
1   Anna   24     Paris
평균 나이 :  29.75
이름이 Peter인 사람의 나이 :  [35] 세
가장 나이가 많은 사람이 살고 있는 도시 :  Berlin


In [388]:
# 모든 사람의 이름을 대문자로 변경하기
df['Name'] = df['Name'].str.upper()
df

Unnamed: 0,Name,Age,City
2,PETER,35,Berlin
3,LINDA,32,London
0,JOHN,28,New York
1,ANNA,24,Paris


In [390]:
# 나이가 30 이상인 사람들만 선택하기
df[df['Age']>=30]

Unnamed: 0,Name,Age,City
2,PETER,35,Berlin
3,LINDA,32,London


In [391]:
# 각 도시별로 몇 명이 살고 있는지 계산하기
df['City'].value_counts()

City
Berlin      1
London      1
New York    1
Paris       1
Name: count, dtype: int64

In [395]:
# Gender라는 새로운 열을 추가해서 임의의 성별을 할당
np.random.seed(0)
df['Gender'] = np.random.choice(['Male', 'Female'], size=df.shape[0]) # 임의의 데이터 추가
df

Unnamed: 0,Name,Age,City,Gender
2,PETER,35,Berlin,Male
3,LINDA,32,London,Female
0,JOHN,28,New York,Female
1,ANNA,24,Paris,Male


In [None]:
data = pd.DataFrame([
    'Name' : ['Person_' + str(i) for i in range(1, 1001))],
    'Age' : np.random_randint(20, 60, 1000),
    'City' : np.random_choice(["New York", "Paris", 