In [5]:
# ndarray의 정렬, 연결, 삭제, CSV파일 로딩은 Numpy가 아닌 Pandas로 처리
# Series : 1차원 자료구조. 같은 데이터 타입만 저장 가능
# DataFrame : 2차원 자료구조. Series의 집합

import numpy as np
import pandas as pd

arr = np.array([1,2,3,4,5], dtype=np.float64)
print(arr)

s = pd.Series([1,2,3,4,5], dtype=np.float64) # Series. 내부적으로 사용하는 데이터 타입은 ndarray의 것
print(s)                                     # 앞은 인덱스(key), 뒤는 요소(value)
print(s.values)                              # [1. 2. 3. 4. 5.]. 요소만 출력하라. Numpy array(ndarray)
print(s.index)                               # RangeIndex(start=0, stop=5, step=1). 인덱스만 출력하라. Pandas의 객체
print(s.dtype)                               # float64
# [1. 2. 3. 4. 5.]
# 0    1.0
# 1    2.0
# 2    3.0
# 3    4.0
# 4    5.0
# dtype: float64
# [1. 2. 3. 4. 5.]
# RangeIndex(start=0, stop=5, step=1)
# float64

[1. 2. 3. 4. 5.]
0    1.0
1    2.0
2    3.0
3    4.0
4    5.0
dtype: float64
[1. 2. 3. 4. 5.]
RangeIndex(start=0, stop=5, step=1)
float64


In [11]:
s = pd.Series([1,2,3,4,5],
              dtype=np.float64,                    # 실수가 기본 데이터 타입.
             index=['c', 'b', 'a','kk', '홍길동']) # 인덱스를 문자로 지정해주기. 기존의 숫자 인덱스는 숨어있음
print(s)
# c      1.0
# b      2.0
# a      3.0
# kk     4.0
# 홍길동    5.0
# dtype: float64

print(s[0], s['c']) # 1.0 1.0. 숫자/지정 인덱스
# print(s[100], s['haha']) # Error!

c      1.0
b      2.0
a      3.0
kk     4.0
홍길동    5.0
dtype: float64
1.0 1.0


In [18]:
s = pd.Series([1,2,3,4,5],
              dtype=np.float64,
             index=[0, 2, 100, 6, 9]) # 인덱스를 숫자로 지정해주기
print(s)
# 0      1.0
# 2      2.0
# 100    3.0
# 6      4.0
# 9      5.0
print(s[0]) # 1.0
# print(s[1]) # Error! 지정 인덱스가 숫자이면 기존의 숫자 인덱스를 쓸 수 없음. Error!
print(s[100]) # 3.0

0      1.0
2      2.0
100    3.0
6      4.0
9      5.0
dtype: float64
1.0
3.0


In [20]:
s = pd.Series([1,2,3,4,5],
              dtype=np.float64,
             index=['c', 'b', 'c', 'k', 'm']) # 지정 인덱스에 중복값이 있음
print(s)
# c    1.0
# b    2.0
# c    3.0
# k    4.0
# m    5.0
# dtype: float64

print(s['c']) # 인덱스가 'c'인 것을 모두 Series로 가져옴
# c    1.0
# c    3.0
# dtype: float64

c    1.0
b    2.0
c    3.0
k    4.0
m    5.0
dtype: float64
c    1.0
c    3.0
dtype: float64


In [30]:
# Series의 slicing

s = pd.Series([1,2,3,4,5],
              dtype=np.float64,
             index=['c', 'b', 'a', 'k', 'm'])
print(s[0:3])
print(s['c':'a']) # 지정 인덱싱은 start/stop 모두 포함(숫자 인덱싱은 포함/불포함)
# c    1.0
# b    2.0
# a    3.0
# dtype: float64

c    1.0
b    2.0
a    3.0
dtype: float64
c    1.0
b    2.0
a    3.0
dtype: float64


In [33]:
# Boolean indexing
s = pd.Series([1,2,3,4,5],
              dtype=np.float64,
             index=['c', 'b', 'a', 'k', 'm'])
print(s)
print(s[s % 2 == 0]) # Boolean indexing. Mask 만들어서 짝수인 요소들 인덱싱
print(s[[0,2]])      # Fancy indexing

c    1.0
b    2.0
a    3.0
k    4.0
m    5.0
dtype: float64
b    2.0
k    4.0
dtype: float64
c    1.0
a    3.0
dtype: float64


In [35]:
# dictionary로 Series 만들기
my_dict = {'서울': 1000,
          '인천': 500,
          '제주': 200}
s = pd.Series(my_dict)
print(s)

서울    1000
인천     500
제주     200
dtype: int64


In [64]:
# 연습문제. A 공장의 2020년 1월 1일부터 10일간 생산량의 Series로 저장
# 생산량은 평균이 50이고 표준편차가 5인 정규분포에서 랜덤하게 생성(정수)
# index가 날짜

# 연습문제. B 공장의 2020년 1월 1일부터 10일간 생산량의 Series로 저장
# 생산량은 평균이 70이고 표준편차가 8인 정규분포에서 랜덤하게 생성(정수)
# index가 날짜

import numpy as np
import pandas as pd
from datetime import datetime, timedelta

start_day = datetime(2020,1,1) # 날짜 객체
# print(start_day)               # 2020-01-01 00:00:00

# my_list = np.arange(1, 101)
# print(my_list)

# my_list = [tmp for tmp in range(100)] # list comprehension : list 생성 시 제어문(for, if)을 이용
# print(my_list)

# my_list = [tmp for tmp in range(100) if tmp % 2 == 0] # 0~99 사이의 짝수만 list로 출력
# print(my_list)

my_list = [int(x) for x in np.random.normal(50,5,(10,))]

# s = pd.Series(my_list,
#               index=[start_day + timedelta(days=x) for x in range(10)]) # start_day timedelta(날짜 차이, 1일)를 더해줌
# print(s)

s1 = pd.Series([int(x) for x in np.random.normal(50,5,(10,))],
              index=[start_day + timedelta(days=x) for x in range(10)]) # start_day timedelta(날짜 차이, 1일)를 더해줌
print(s1)

s2 = pd.Series([int(x) for x in np.random.normal(70,8,(10,))],
              index=[start_day + timedelta(days=x) for x in range(10)]) # start_day timedelta(날짜 차이, 1일)를 더해줌
print(s2)

print(s1 + s2)

2020-01-01    47
2020-01-02    46
2020-01-03    46
2020-01-04    46
2020-01-05    52
2020-01-06    56
2020-01-07    54
2020-01-08    45
2020-01-09    42
2020-01-10    48
dtype: int64
2020-01-01    72
2020-01-02    70
2020-01-03    68
2020-01-04    65
2020-01-05    61
2020-01-06    62
2020-01-07    57
2020-01-08    66
2020-01-09    75
2020-01-10    61
dtype: int64
2020-01-01    119
2020-01-02    116
2020-01-03    114
2020-01-04    111
2020-01-05    113
2020-01-06    118
2020-01-07    111
2020-01-08    111
2020-01-09    117
2020-01-10    109
dtype: int64


In [62]:
# 연습문제. A 공장의 2020년 1월 1일부터 10일간 생산량의 Series로 저장
# 생산량은 평균이 50이고 표준편차가 5인 정규분포에서 랜덤하게 생성(정수)
# index가 날짜

# 연습문제. B 공장의 2020년 1월 5일부터 10일간 생산량의 Series로 저장
# 생산량은 평균이 70이고 표준편차가 8인 정규분포에서 랜덤하게 생성(정수)
# index가 날짜

import numpy as np
import pandas as pd
from datetime import datetime, timedelta

start_day_A_factory = datetime(2020,1,1)
start_day_B_factory = datetime(2020,1,5)

my_list = [int(x) for x in np.random.normal(50,5,(10,))]

s1 = pd.Series([int(x) for x in np.random.normal(50,5,(10,))],
              index=[start_day_A_factory + timedelta(days=x) for x in range(10)])
print(s1)

s2 = pd.Series([int(x) for x in np.random.normal(70,8,(10,))],
              index=[start_day_B_factory + timedelta(days=x) for x in range(10)])
print(s2)

print(s1 + s2) # Series는 인덱스가 똑같은 것끼리 연산함. A orB 공장에는 있는 인덱스, B or A 에는 없다면 NaN

2020-01-01    42
2020-01-02    52
2020-01-03    54
2020-01-04    53
2020-01-05    42
2020-01-06    55
2020-01-07    42
2020-01-08    47
2020-01-09    48
2020-01-10    56
dtype: int64
2020-01-05    78
2020-01-06    58
2020-01-07    56
2020-01-08    64
2020-01-09    61
2020-01-10    84
2020-01-11    59
2020-01-12    84
2020-01-13    75
2020-01-14    69
dtype: int64
2020-01-01      NaN
2020-01-02      NaN
2020-01-03      NaN
2020-01-04      NaN
2020-01-05    120.0
2020-01-06    113.0
2020-01-07     98.0
2020-01-08    111.0
2020-01-09    109.0
2020-01-10    140.0
2020-01-11      NaN
2020-01-12      NaN
2020-01-13      NaN
2020-01-14      NaN
dtype: float64


In [74]:
# Pandas의 DataFrame. Series의 집합. dictionary를 이용해서 만듦

import numpy as np
import pandas as pd

my_dict = {'이름': ['홍길동', '아이유', '김연아', '신사임당'],
          '학년': [4, 3, 1, 2],
          '학점': [1.5, 2.4, 3.9, 3.2]}
df = pd.DataFrame(my_dict)
# print(df)              # 보기 불편함
display(df)              # DataFrame을 DB table처럼 출력

# 이름	학년	학점
# 0	홍길동	4	1.5
# 1	아이유	3	2.4
# 2	김연아	1	3.9
# 3	신사임당	2	3.2

print(df.shape)          # (4, 3). 2차원 4행 3열
print(df.values)         # 값들로만 구성된 ndarray 출력
print(df.size, df.ndim)  # 12 2. DataFrame 안에 있는 요소들의 갯수, 차원
print(df.index)          # RangeIndex(start=0, stop=4, step=1). 행 index
print(df.columns)        # Index(['이름', '학년', '학점'], dtype='object'). 컬럼으로만 구성된 ndarray 출력. 열 index

df.index.name = '학번'      # 행 index에 대한 이름을 지정
df.columns.name = '학생정보' # 열 index에 대한 이름을 지정
display(df) 

Unnamed: 0,이름,학년,학점
0,홍길동,4,1.5
1,아이유,3,2.4
2,김연아,1,3.9
3,신사임당,2,3.2


(4, 3)
[['홍길동' 4 1.5]
 ['아이유' 3 2.4]
 ['김연아' 1 3.9]
 ['신사임당' 2 3.2]]
12 2
RangeIndex(start=0, stop=4, step=1)
Index(['이름', '학년', '학점'], dtype='object')


학생정보,이름,학년,학점
학번,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,홍길동,4,1.5
1,아이유,3,2.4
2,김연아,1,3.9
3,신사임당,2,3.2


In [77]:
# DataFrame의 column 명과 index 명을 변경. rename()
my_dict = {'이름': ['홍길동', '아이유', '김연아', '신사임당'],
          '학년': [4, 3, 1, 2],
          '학점': [1.5, 2.4, 3.9, 3.2]}

df = pd.DataFrame(my_dict)
display(df)

new_df = df.rename(columns={'이름':'학생이름',
                            '학점':'평균평점'},
                  index={0:'one'},
                  inplace=False) # inplace가 True이면 원본을 수정, False면 사본을 만듦
display(new_df)

Unnamed: 0,이름,학년,학점
0,홍길동,4,1.5
1,아이유,3,2.4
2,김연아,1,3.9
3,신사임당,2,3.2


Unnamed: 0,학생이름,학년,평균평점
one,홍길동,4,1.5
1,아이유,3,2.4
2,김연아,1,3.9
3,신사임당,2,3.2


In [79]:
# DataFrame의 특정 column을 index(행)로 설정. set_index()
my_dict = {'이름': ['홍길동', '아이유', '김연아', '신사임당'],
          '학년': [4, 3, 1, 2],
          '학점': [1.5, 2.4, 3.9, 3.2]}

df = pd.DataFrame(my_dict)
display(df)

new_df = df.set_index('이름',
                     inplace=False)
display(new_df)

Unnamed: 0,이름,학년,학점
0,홍길동,4,1.5
1,아이유,3,2.4
2,김연아,1,3.9
3,신사임당,2,3.2


Unnamed: 0_level_0,학년,학점
이름,Unnamed: 1_level_1,Unnamed: 2_level_1
홍길동,4,1.5
아이유,3,2.4
김연아,1,3.9
신사임당,2,3.2


In [80]:
import numpy as np
import pandas as pd

df = pd.read_csv('./data/student.csv')
display(df)

Unnamed: 0,이름,입학연도,성적
0,아이유,2015,1.5
1,김연아,2016,2.0
2,홍길동,2015,3.1
3,강감찬,2017,1.1
4,이순신,2016,2.7
