In [1]:
import pandas as pd
import numpy as np
import matplotlib
import matplotlib.pyplot as plt
from matplotlib import font_manager, rc
import seaborn as sns # matplotlib과 같이 사용함

# matplotlib의 폰트 지정, 사이즈 지정, 그래프 비율 지정, 마이너스 기호 지정
font_name = font_manager.FontProperties(fname="C:/Windows/Fonts/malgun.ttf").get_name()
rc('font', family=font_name)           # 맑은 고딕 폰트 지정
plt.rcParams["font.size"] = 12         # 글자 크기
plt.rcParams["figure.figsize"] = (10, 4) # 10:4의 그래프 비율
plt.rcParams['axes.unicode_minus'] = False  # minus 부호는 unicode 적용시 한글이 깨짐으로 설정

# Jupyter에게 matplotlib 그래프를 출력 영역에 표시할 것을 지시하는 명령
%matplotlib inline

In [10]:
# 시리즈의 장점 -> 인덱스가 자동으로 생성됨
obj = pd.Series([5, -4, 7, 0, 12])   # 1차원 배열
print(obj)
# 값
print(obj.values)
# 인덱스
print(obj.index)
# 인덱싱
print(obj[0])

0     5
1    -4
2     7
3     0
4    12
dtype: int64
[ 5 -4  7  0 12]
RangeIndex(start=0, stop=5, step=1)


In [11]:
# index(행 이름)의 지정
obj = pd.Series([10, 20, 30, 40, 50], index=['a', 'b', 'c', 'd', 'e'])
print(obj)

print(obj['c']) # index(행 이름)로 값의 출력

a    10
b    20
c    30
d    40
e    50
dtype: int64
30


In [17]:
# 인덱스 괄호 안에 리스트 형태로 넣어야 함
print(obj[['a', 'b']])
print(obj[0:3])
print(obj.shape) # 1차원 배열 5개 요소 (5,)
print(obj.shape[0]) # 1차원 배열 5개 요소 5

a    10
b    20
dtype: int64
a    10
b    20
c    30
dtype: int64
(5,)
5


In [18]:
# 브로드 캐스팅(numpy, pandas 공통)
# 차원이 다른 배열의 연산을 자동으로 해줌
obj = pd.Series([10, 20, 30, 40, 50])
print(obj * 10)  # 1 차원 배열 * scalar

0    100
1    200
2    300
3    400
4    500
dtype: int64


In [19]:
# 모든 배열의 요소가 연산에 참여
bol = obj > 25 # 참 거짓의 형태로 리턴
print(type(bol))
print(bol) # 유효한 값을 찾기위한 boolean 확인

filtered = obj[bol] # 참/거짓 결과를 통해서 배열 필터링
print(filtered) # 조건의 지정, 3보다 큰값 출력

<class 'pandas.core.series.Series'>
0    False
1    False
2     True
3     True
4     True
dtype: bool
2    30
3    40
4    50
dtype: int64


In [20]:
# format으로 컴마 출력
pop = pd.Series([9765623, 3441453, 2461769], index=['서울', '부산', '대구'])
# 시리즈 순회
# 딕셔너리처럼 순회
for i, v in pop.items() : # index, 값
    print('{0}: {1:,} 명'.format(i, v)) # format으로 컴마 출력

서울: 9,765,623 명
부산: 3,441,453 명
대구: 2,461,769 명


In [21]:
# 기본 index 0부터 지정됨
import pandas as pd

s = pd.Series(['A', 'B', 'C'])

for index, value in s.items() :
    print('인덱스 : %d, 값 : %s' % (index, value))

인덱스 : 0, 값 : A
인덱스 : 1, 값 : B
인덱스 : 2, 값 : C


In [22]:
pop = pd.Series({'서울':9765623, '부산':3441453, '대구':2461769}, index = ['서울', '부산', '대구', '광주', '대전'])
print(pop)

pop['광주'] = 149336  # index 명으로 값 할당

print('광주시 인구 : %.0f명' % pop['광주']) # index 명으로 값 출력

서울    9765623.0
부산    3441453.0
대구    2461769.0
광주          NaN
대전          NaN
dtype: float64
광주시 인구 : 149336명


In [25]:
# 변수명(피처), 컬럼명 지정
data = {'이름':['홍지수', '안지영', '김성수', '최예린'],
        '아이디' : ['jshong', 'jyahn', 'sukim', 'yrchoi'],
        '비밀번호' : ['1234', '1234', '1234', '1234']}
print(type(data))

df = pd.DataFrame(data)
print(frame)
print(type(frame))
print(frame.shape)

<class 'dict'>
    이름     아이디  비밀번호
0  홍지수  jshong  1234
1  안지영   jyahn  1234
2  김성수   sukim  1234
3  최예린  yrchoi  1234
<class 'pandas.core.frame.DataFrame'>
(4, 3)


In [29]:
df

Unnamed: 0,이름,아이디,비밀번호
0,홍지수,jshong,1234
1,안지영,jyahn,1234
2,김성수,sukim,1234
3,최예린,yrchoi,1234


In [30]:
# 기본적으로 인덱싱은 열 기준으로 -> 행보다 열 기준 정보가 분석에 더 중요하다
print(df['이름'])
print(df['아이디'])
print(df['비밀번호'])

0    홍지수
1    안지영
2    김성수
3    최예린
Name: 이름, dtype: object
0    jshong
1     jyahn
2     sukim
3    yrchoi
Name: 아이디, dtype: object
0    1234
1    1234
2    1234
3    1234
Name: 비밀번호, dtype: object


In [34]:
member = {'이름':['김영준','한지원', '왕눈이'],
          '나이':[20, 23, 25],
          '전화번호':['010-3535-4576', '010-1295-7899', '000-1111-2222']}

# 컬럼의 구성
df = pd.DataFrame(member, columns=['이름', '전화번호', '나이', '주소'],
                             index=['01', '02', '03'])
df

Unnamed: 0,이름,전화번호,나이,주소
1,김영준,010-3535-4576,20,
2,한지원,010-1295-7899,23,
3,왕눈이,000-1111-2222,25,


In [36]:
# 칼럼 4개, 데이터 5개
data = {'학교명':['가나고', '다라고', '마바고', '사아고', '자차고'],
        '학급수' : [25, 23, 15, 19, 10],
        '학생수' : [620, 600, 550, 580, 400],
        '교사수' : [80, 95, 70, 90, 65]}

# 인덱스 개수가 관측치(데이터, 레코드, 행)의 개수와 같아야 한다
df = pd.DataFrame(data,index=['01', '02', '03', '04', '05'])
df

Unnamed: 0,학교명,학급수,학생수,교사수
1,가나고,25,620,80
2,다라고,23,600,95
3,마바고,15,550,70
4,사아고,19,580,90
5,자차고,10,400,65


### df.loc, df.iloc: [행, 열] 접근

In [39]:
# loc() 부여된 이름으로 인덱싱
# index 명, 컬럼명으로 접근
df_loc = df .loc['02', '학생수']
print(type(df_loc)) # <class 'numpy.int64'>: 스칼라, 정수라는 의미
print(df_loc) 
df_loc = df .loc['04', ['학교명', '학급수', '교사수']]
print(type(df_loc)) # class 'pandas.core.series.Series'>
print(df_loc)

<class 'numpy.int64'>
600
<class 'pandas.core.series.Series'>
학교명    사아고
학급수     19
교사수     90
Name: 04, dtype: object


In [41]:
print(df_loc.index)
print(df_loc.values)

Index(['학교명', '학급수', '교사수'], dtype='object')
['사아고' 19 90]


In [43]:
data = {'아이디':['kim', 'song', 'han', 'choi'],
        '구매상품' : ['상품A', '상품B', '상품C', '상품D'],
        '가격' : [15000, 23000, 33000, 50000],
        '개수' : [3, 5, 1, 10],
        '구매일' : ['0303', '0810', '0120', '0601']}

df = pd.DataFrame(data)
df

Unnamed: 0,아이디,구매상품,가격,개수,구매일
0,kim,상품A,15000,3,303
1,song,상품B,23000,5,810
2,han,상품C,33000,1,120
3,choi,상품D,50000,10,601


In [44]:
# iloc(): index로 접근, 2, 1을 찾음
# 인덱스는 0부터 시작
print(df.iloc[2, 0])

han


In [47]:
df_iloc = df.iloc[3, :2] # row: 3, col: 0 ~ 1
print(type(df_iloc)) # <class 'pandas.core.series.Series'>
print(df_iloc) 

<class 'pandas.core.series.Series'>
아이디     choi
구매상품     상품D
Name: 3, dtype: object


In [48]:
df_iloc = df.iloc[:,[0,4]] # row: 0~3, col: 0,4
print(type(df_iloc)) # <class 'pandas.core.frame.DataFrame'>
print(df_iloc) 

<class 'pandas.core.frame.DataFrame'>
    아이디   구매일
0   kim  0303
1  song  0810
2   han  0120
3  choi  0601


In [50]:
scores = {'이름': ['김지영', '안지수', '최성수', '황예린', '김소정'],
          '국어' : [95, 97, 90, 94, 87],
          '영어' : [90, 86, 93, 85, 93],
          '수학' : [85, 88, 89, 88, 99]}
df = pd.DataFrame(scores)
df

Unnamed: 0,이름,국어,영어,수학
0,김지영,95,90,85
1,안지수,97,86,88
2,최성수,90,93,89
3,황예린,94,85,88
4,김소정,87,93,99


### df.sum(): 열 방향 우선 sum

In [51]:
# 행 방향 sum
total = df.sum()
print(total)

이름    김지영안지수최성수황예린김소정
국어                463
영어                447
수학                449
dtype: object


In [55]:
df2 = df.iloc[:, 1:4]
df2

Unnamed: 0,국어,영어,수학
0,95,90,85
1,97,86,88
2,90,93,89
3,94,85,88
4,87,93,99


In [58]:
# 열 방향 계산, default
total = df2.sum()
total

국어    463
영어    447
수학    449
dtype: int64

In [59]:
# 행 방향 계산, axis=1
total = df2.sum(axis=1)
total

0    270
1    271
2    272
3    267
4    279
dtype: int64

In [60]:
mean = df2.mean(axis=1) # 행 방향, -> 학생별 평균
mean

0    90.000000
1    90.333333
2    90.666667
3    89.000000
4    93.000000
dtype: float64

In [61]:
df2['total'] = total
df2['mean'] = mean
df2

Unnamed: 0,국어,영어,수학,total,mean
0,95,90,85,270,90.0
1,97,86,88,271,90.333333
2,90,93,89,272,90.666667
3,94,85,88,267,89.0
4,87,93,99,279,93.0


In [62]:
mean = round(mean, 1)
mean

0    90.0
1    90.3
2    90.7
3    89.0
4    93.0
dtype: float64

In [63]:
df2['mean'] = mean
df2

Unnamed: 0,국어,영어,수학,total,mean
0,95,90,85,270,90.0
1,97,86,88,271,90.3
2,90,93,89,272,90.7
3,94,85,88,267,89.0
4,87,93,99,279,93.0


In [70]:
# mean값을 정수로 바꾸기, astype()
df2['mean'] = mean.astype('int')
df2

Unnamed: 0,국어,영어,수학,total,mean
0,95,90,85,270,90
1,97,86,88,271,90
2,90,93,89,272,90
3,94,85,88,267,89
4,87,93,99,279,93
