In [9]:
import numpy as np    # 관용적으로 numpy alias는 np를 사용
import pandas as pd   # 관용적으로 pandas의 alias는 pd를 사용

# ndarray를 생성해보자!
arr = np.array([1, 2, 3, 4, 5], dtype=np.float64)
print(arr)   # [1. 2. 3. 4. 5.]

# Series를 생성해보자!
s = pd.Series([1, 2, 3, 4, 5], dtype=np.float64)
print(s)          # index와 value가 같이 출력된다.
print(s.values)   # [1. 2. 3. 4. 5.]  => ndarray
print(s.index)    # RangeIndex(start=0, stop=5, step=1)  => pandas의 객체
print(s.dtype)    # float64 (실수)

[1. 2. 3. 4. 5.]
0    1.0
1    2.0
2    3.0
3    4.0
4    5.0
dtype: float64
[1. 2. 3. 4. 5.]
RangeIndex(start=0, stop=5, step=1)
float64


In [12]:
import numpy as np
import pandas as pd

# s = pd.Series([1, 2, 3, 4, 5],
#               dtype=np.float64,
#               index=['c', 'b', 'a', 'kk', '홍길동'])
# print(s)
# 만약 인덱스를 지정해서 Series를 만들면 숫자 index는 어떻게 되는가?
# 숫자 index는 그대로 사용이 가능. 내부에 숨어 있다!
# print(s[0])     # 숫자 index 1.0
# print(s['c'])   # 지정 index 1.0

# print(s[100])      # Error
# print(s['haha'])   # Error

c      1.0
b      2.0
a      3.0
kk     4.0
홍길동    5.0
dtype: float64
1.0
1.0


In [16]:
# 지정 index를 숫자로 사용하면 어떻게 될까?
# 기본 숫자 index가 날라간다.

import numpy as np
import pandas as pd

s = pd.Series([1, 2, 3, 4, 5],
              dtype=np.float64,
              index=[0, 2, 100, 6, 9])
print(s)
print(s[0])     # 1.0
# print(s[1])   # Error
print(s[100])   # 3.0

0      1.0
2      2.0
100    3.0
6      4.0
9      5.0
dtype: float64
1.0
3.0


In [21]:
# 지정 index에 같은 index가 존재하면 어떻게 될까?

import numpy as np
import pandas as pd

s = pd.Series([1, 2, 3, 4, 5],
              dtype=np.float64,
              index=['c', 'b', 'c', 'k', 'm'])
print(s)
print(s['c'])
# c    1.0
# c    3.0
# dtype: float64

c    1.0
b    2.0
c    3.0
k    4.0
m    5.0
dtype: float64
c    1.0
c    3.0
dtype: float64


In [27]:
# indexing, slicing
# indexing은 ndarray나 list와 비슷하다.
# 단, slicing은 약간 주의해야 한다.

import numpy as np
import pandas as pd

s = pd.Series([1, 2, 3, 4, 5],
              dtype=np.float64,
              index=['c', 'b', 'a', 'k', 'm'])
print(s)
print(s[0:3])   # 숫자 index를 이용한 slicing(ndarray와 list와 동일)
print(s['c':'a'])   # 지정 index를 사용한 slicing / 앞, 뒤 둘 다 포함

c    1.0
b    2.0
a    3.0
k    4.0
m    5.0
dtype: float64
c    1.0
b    2.0
a    3.0
dtype: float64
c    1.0
b    2.0
a    3.0
dtype: float64


In [29]:
# boolean indexing, fancy indexing 역시 적용이 가능
import numpy as np
import pandas as pd

s = pd.Series([1, 2, 3, 4, 5],
              dtype=np.float64,
              index=['c', 'b', 'a', 'k', 'm'])
print(s)
# 짝수만 뽑아내는 boolean indexing
print(s[s % 2 == 0])
# fancy indexing
print(s[[0,2]])

c    1.0
b    2.0
a    3.0
k    4.0
m    5.0
dtype: float64
b    2.0
k    4.0
dtype: float64
c    1.0
a    3.0
dtype: float64


In [30]:
# Series를 만드는 또 다른 방법
# index를 key로, 저장하는 값을 value로 구성되는 자료구조.
# s = pd.Series([1, 2, 3, 4, 5],
#               dtype=np.float64,
#               index=['c', 'b', 'a', 'k', 'm'])

# dictionary를 이용해서 Series를 생성
my_dict = {'서울' :1000,
           '인천' : 500,
           '제주' : 200}

s = pd.Series(my_dict)
print(s)

서울    1000
인천     500
제주     200
dtype: int64


In [43]:
# A공장의 2020년 1월 1일부터 10일간 생산량의 Series로 저장.
# 생산량은 평균이 50이고 표준편차가 5인 정규분포에서 랜덤하게 생성(정수)
# index가 날짜.

# B공장의 2020년 1월 1일부터 10일간 생산량의 Series로 저장.
# 생산량은 평균이 70이고 표준편차가 8인 정규분포에서 랜덤하게 생성(정수)
# index가 날짜.

import numpy as np
import pandas as pd
from datetime import datetime, timedelta    # timedelta는 날짜 차이

start_day = datetime(2020,1,1)

# list comprehesion => list 생성 시 제어문(for, if)을 이용.
# my_list = [int(x) for x in np.random.normal(50,5,(10,))]
# print(my_list)

# s1 = pd.Series(my_list,
#                index=[start_day + timedelta(days=x) for x in range(10)])
s1 = pd.Series([int(x) for x in np.random.normal(50,5,(10,))],
               index=[start_day + timedelta(days=x) for x in range(10)])
print(s1)
# timedelta(days=x)  => x가 0이면 날짜 차이가 없다 / 1이면 날짜 차이가 1이다
# 시작 날짜에 추가적으로 날짜를 더해 index로 만드는 것

s2 = pd.Series([int(x) for x in np.random.normal(70,8,(10,))],
               index=[start_day + timedelta(days=x) for x in range(10)])
print(s2)

# 날짜별로 생산량의 합을 구하자
print(s1 + s2)

2020-01-01    44
2020-01-02    46
2020-01-03    42
2020-01-04    51
2020-01-05    60
2020-01-06    44
2020-01-07    56
2020-01-08    46
2020-01-09    48
2020-01-10    48
dtype: int64
2020-01-01    59
2020-01-02    69
2020-01-03    66
2020-01-04    74
2020-01-05    74
2020-01-06    78
2020-01-07    62
2020-01-08    54
2020-01-09    63
2020-01-10    62
dtype: int64
2020-01-01    103
2020-01-02    115
2020-01-03    108
2020-01-04    125
2020-01-05    134
2020-01-06    122
2020-01-07    118
2020-01-08    100
2020-01-09    111
2020-01-10    110
dtype: int64


In [45]:
# 날짜를 다르게 해서 생산량의 합을 구해보자

# A공장의 2020년 1월 1일부터 10일간 생산량의 Series로 저장.
# 생산량은 평균이 50이고 표준편차가 5인 정규분포에서 랜덤하게 생성(정수)
# index가 날짜.

# B공장의 2020년 1월 5일부터 10일간 생산량의 Series로 저장.
# 생산량은 평균이 70이고 표준편차가 8인 정규분포에서 랜덤하게 생성(정수)
# index가 날짜.

import numpy as np
import pandas as pd
from datetime import datetime, timedelta    # timedelta는 날짜 차이

start_day_A_factory = datetime(2020,1,1)
start_day_B_factory = datetime(2020,1,5)

# list comprehesion => list 생성 시 제어문(for, if)을 이용.
# my_list = [int(x) for x in np.random.normal(50,5,(10,))]
# print(my_list)

# s1 = pd.Series(my_list,
#                index=[start_day + timedelta(days=x) for x in range(10)])
s1 = pd.Series([int(x) for x in np.random.normal(50,5,(10,))],
               index=[start_day_A_factory + timedelta(days=x) for x in range(10)])
print(s1)
# timedelta(days=x)  => x가 0이면 날짜 차이가 없다 / 1이면 날짜 차이가 1이다
# 시작 날짜에 추가적으로 날짜를 더해 index로 만드는 것

s2 = pd.Series([int(x) for x in np.random.normal(70,8,(10,))],
               index=[start_day_B_factory + timedelta(days=x) for x in range(10)])
print(s2)

# 날짜별로 생산량의 합을 구하자
print(s1 + s2)
# ndarray는 같은 위치에 있는 것끼리 연산을 하고
# Series는 인덱스 값이 같은 것끼리 연산을 한다.

2020-01-01    51
2020-01-02    43
2020-01-03    47
2020-01-04    52
2020-01-05    51
2020-01-06    56
2020-01-07    51
2020-01-08    51
2020-01-09    52
2020-01-10    44
dtype: int64
2020-01-05    79
2020-01-06    85
2020-01-07    58
2020-01-08    69
2020-01-09    74
2020-01-10    78
2020-01-11    51
2020-01-12    74
2020-01-13    72
2020-01-14    65
dtype: int64
2020-01-01      NaN
2020-01-02      NaN
2020-01-03      NaN
2020-01-04      NaN
2020-01-05    130.0
2020-01-06    141.0
2020-01-07    109.0
2020-01-08    120.0
2020-01-09    126.0
2020-01-10    122.0
2020-01-11      NaN
2020-01-12      NaN
2020-01-13      NaN
2020-01-14      NaN
dtype: float64


In [57]:
# DataFrame에 대해서 알아보자!
# 그림으로 Series의 집합이 DataFrame이라는 것을 알아보았다

# DataFrame은 dictionary를 이용해서 만들어보자!

import numpy as np
import pandas as pd

my_dict = {'이름': ['홍길동', '아이유', '김연아', '신사임당'],
           '학년': [4, 3, 1, 2],
           '학점': [1.5, 2.4, 3.9, 3.2]}

df = pd.DataFrame(my_dict)
display(df)       # DataFrame이 database table 보는 것처럼 깔끔하게 나온다.
print(df.shape)   # (4,3)
print(df.values)  # 2차원 ndarray
print(df.size)    # 12 => DataFrame 안의 요소 개수
print(df.ndim)    # 2 => DataFrame의 차원이 몇차원인지
print(df.index)   # 행 index , RangeIndex(start=0, stop=4, step=1)
print(df.columns) # 열 index , Index(['이름', '학년', '학점'], dtype='object')

df.index.name = '학번'
df.columns.name = '학생정보'
display(df)

Unnamed: 0,이름,학년,학점
0,홍길동,4,1.5
1,아이유,3,2.4
2,김연아,1,3.9
3,신사임당,2,3.2


(4, 3)
[['홍길동' 4 1.5]
 ['아이유' 3 2.4]
 ['김연아' 1 3.9]
 ['신사임당' 2 3.2]]
12
2
RangeIndex(start=0, stop=4, step=1)
Index(['이름', '학년', '학점'], dtype='object')


학생정보,이름,학년,학점
학번,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,홍길동,4,1.5
1,아이유,3,2.4
2,김연아,1,3.9
3,신사임당,2,3.2


In [59]:
# DataFrame의 column명과 index명을 변경
# rename()

import numpy as np
import pandas as pd

my_dict = {'이름': ['홍길동', '아이유', '김연아', '신사임당'],
           '학년': [4, 3, 1, 2],
           '학점': [1.5, 2.4, 3.9, 3.2]}

df = pd.DataFrame(my_dict)
display(df)

# inplace가 옵션의 값이 True면 원본을 수정하고 복사본을 만들지 않는다.
# inplace가 옵션의 값이 False면 원본은 그냥 두고 복사본을 만든다.
# inplace의 기본 값은 False이다.
new_df = df.rename(columns={'이름':'학생이름',
                            '학점':'평균평점'},
                   index={0:'one'},
                   inplace=False)
display(new_df)



Unnamed: 0,이름,학년,학점
0,홍길동,4,1.5
1,아이유,3,2.4
2,김연아,1,3.9
3,신사임당,2,3.2


Unnamed: 0,학생이름,학년,평균평점
one,홍길동,4,1.5
1,아이유,3,2.4
2,김연아,1,3.9
3,신사임당,2,3.2


In [61]:
# DataFrame의 특정 column을 index로 설정
# 예를 들어서 이름 column을 index로 설정해 보자
# set_index()

import numpy as np
import pandas as pd

my_dict = {'이름': ['홍길동', '아이유', '김연아', '신사임당'],
           '학년': [4, 3, 1, 2],
           '학점': [1.5, 2.4, 3.9, 3.2]}

df = pd.DataFrame(my_dict)
display(df)

new_df = df.set_index('이름',
                      inplace=False)
display(new_df)

Unnamed: 0,이름,학년,학점
0,홍길동,4,1.5
1,아이유,3,2.4
2,김연아,1,3.9
3,신사임당,2,3.2


Unnamed: 0_level_0,학년,학점
이름,Unnamed: 1_level_1,Unnamed: 2_level_1
홍길동,4,1.5
아이유,3,2.4
김연아,1,3.9
신사임당,2,3.2


In [None]:
############## 여기까지가 DataFrame의 기본사항 ###############

# 그 다음에는 여러가지 resource를 이용해서 DataFrame을 생성!
# CSV, MySQL Database, Open API, JSON
# 구글 드라이브(오늘날짜 폴더)

In [62]:
import numpy as np
import pandas as pd

df = pd.read_csv('./data/student.csv')
display(df)

Unnamed: 0,이름,입학연도,성적
0,아이유,2015,1.5
1,김연아,2016,2.0
2,홍길동,2015,3.1
3,강감찬,2017,1.1
4,이순신,2016,2.7
