## Pandas

- Series : 1차원 자료구조, 같은 data type만 저장 가능
- DataFrame : 2차원 자료구조, series의 집합



In [2]:
import numpy as np
import pandas as pd

In [6]:
arr = np.array([1,2,3,4,5], dtype=np.float64)
print(arr)

s = pd.Series([1,2,3,4,5], dtype=np.float64)
print(s)    #index와 value가 같이 출력
# 0    1.0
# 1    2.0
# 2    3.0
# 3    4.0
# 4    5.0
# dtype: float64

print(s.values)    # [1. 2. 3. 4. 5.]
print(s.index)     # RangeIndex(start=0, stop=5, step=1)
print(s.dtype)     # float64

[1. 2. 3. 4. 5.]
0    1.0
1    2.0
2    3.0
3    4.0
4    5.0
dtype: float64
[1. 2. 3. 4. 5.]
RangeIndex(start=0, stop=5, step=1)
float64


In [9]:
s = pd.Series([1,2,3,4,5], dtype=np.float64, index=['c','b','a','kk','홍길동'])
print(s)    #c      1.0
            #b      2.0
            #a      3.0
            #kk     4.0
            #홍길동    5.0
            #dtype: float64

# 이렇게 index를 지정하면 숫자index는 어떻게 됨?
# 숫자 인덱스는 그대로 사용 가능
print(s[2])    #3.0
print(s['a'])  #3.0

c      1.0
b      2.0
a      3.0
kk     4.0
홍길동    5.0
dtype: float64
3.0
3.0


In [12]:
# 지정 인덱스를 숫자로 사용하면?
s = pd.Series([1,2,3,4,5], dtype=np.float64, index=[0,2,100,6,9])
print(s)

print(s[0])   # 1.0
# print(s[1])   # error! 

# 지정 인덱스를 숫자로 하면 원래있던 숫자인덱스는 사용X

0      1.0
2      2.0
100    3.0
6      4.0
9      5.0
dtype: float64
1.0


In [15]:
# 지정 인덱스에 같은게 있으면 ? 가능함!

s = pd.Series([1,2,3,4,5], dtype=np.float64, index=['c','b','c','k','m'])
print(s)    #c    1.0
            # b    2.0
            # c    3.0
            # k    4.0
            # m    5.0
            # dtype: float64

print(s['c'])    # c    1.0
                 # c    3.0
                 # dtype: float64

c    1.0
b    2.0
c    3.0
k    4.0
m    5.0
dtype: float64
c    1.0
c    3.0
dtype: float64


In [4]:
# indexing, slicing
s = pd.Series([1,2,3,4,5], dtype=np.float64, index=['c','b','a','k','m'])

#숫자 indexx를 이용한 slicing(ndarray와 list와 동일)
print(s[0:3])   # c    1.0
                # b    2.0
                # a    3.0
                # dtype: float64
            
#지정 index를 사용하면 c부터 k까지 둘다 포함!            
print(s['c':'k'])   # c    1.0
                    # b    2.0
                    # a    3.0
                    # k    4.0
                    # dtype: float64


c    1.0
b    2.0
a    3.0
dtype: float64
c    1.0
b    2.0
a    3.0
k    4.0
dtype: float64


In [17]:
#boolean indexing, fancy indexing 적용가능
s = pd.Series([1,2,3,4,5], dtype=np.float64, index=['c','b','a','k','m'])
print(s)

# 짝수만 뽑아내는 boolean indexing
print(s[s % 2 == 0])   # b    2.0
                       # k    4.0
                       # dtype: float64

#fancy indexing
print(s[[0,2]])    # c    1.0
                   # a    3.0
                   # dtype: float64

c    1.0
b    2.0
a    3.0
k    4.0
m    5.0
dtype: float64
b    2.0
k    4.0
dtype: float64
c    1.0
a    3.0
dtype: float64


In [18]:
# series를 만드는 또 다른 방법
# index를 key로, 저장하는 값을 value로 구성되는 자료구조
# dictionary를 이용해서 series를 생성

my_dict = {'서울': 1000, '인천':500, '제주':200}
s = pd.Series(my_dict)
print(s)    # 서울    1000
            # 인천     500
            # 제주     200
            # dtype: int64

서울    1000
인천     500
제주     200
dtype: int64


In [28]:
# A공장의 2020년 1월 1일부터 10일간 생산량의 series로 저장
# 생산량은 평균이 50이고, 표준편차가 5인 정규분포에서 랜덤하게 생성(정수)
# index가 날짜

from datetime import datetime, timedelta

start_day = datetime(2020,1,1)
start_day2 = datetime(2020,1,5)
print(start_day)   # 2020-01-01 00:00:00

# list_comprehension => list 생성 시 제어문 사용
my_list = [int(x) for x in np.random.normal(50,5,(10,))]
print(my_list)  # [58, 53, 52, 47, 62, 51, 41, 54, 46, 52]

s = pd.Series(my_list, index=[start_day + timedelta(days=x) for x in range(10)])
print(s)    # 2020-01-01    58
            # 2020-01-02    53
            # 2020-01-03    52
            # 2020-01-04    47
            # 2020-01-05    62
            # 2020-01-06    51
            # 2020-01-07    41
            # 2020-01-08    54
            # 2020-01-09    46
            # 2020-01-10    52
            # dtype: int64

s2 = pd.Series([int(x) for x in np.random.normal(70,8,(10,))], index=[start_day2 + timedelta(days=x) for x in range(10)])
print(s2)   # 2020-01-05    70
            # 2020-01-06    81
            # 2020-01-07    74
            # 2020-01-08    67
            # 2020-01-09    77
            # 2020-01-10    57
            # 2020-01-11    64
            # 2020-01-12    66
            # 2020-01-13    71
            # 2020-01-14    70
            # dtype: int64

print(s+s2) # 2020-01-01      NaN
            # 2020-01-02      NaN
            # 2020-01-03      NaN
            # 2020-01-04      NaN
            # 2020-01-05    132.0
            # 2020-01-06    132.0
            # 2020-01-07    115.0
            # 2020-01-08    121.0
            # 2020-01-09    123.0
            # 2020-01-10    109.0
            # 2020-01-11      NaN
            # 2020-01-12      NaN
            # 2020-01-13      NaN
            # 2020-01-14      NaN
            # dtype: float64


2020-01-01 00:00:00
[58, 53, 52, 47, 62, 51, 41, 54, 46, 52]
2020-01-01    58
2020-01-02    53
2020-01-03    52
2020-01-04    47
2020-01-05    62
2020-01-06    51
2020-01-07    41
2020-01-08    54
2020-01-09    46
2020-01-10    52
dtype: int64
2020-01-05    70
2020-01-06    81
2020-01-07    74
2020-01-08    67
2020-01-09    77
2020-01-10    57
2020-01-11    64
2020-01-12    66
2020-01-13    71
2020-01-14    70
dtype: int64
2020-01-01      NaN
2020-01-02      NaN
2020-01-03      NaN
2020-01-04      NaN
2020-01-05    132.0
2020-01-06    132.0
2020-01-07    115.0
2020-01-08    121.0
2020-01-09    123.0
2020-01-10    109.0
2020-01-11      NaN
2020-01-12      NaN
2020-01-13      NaN
2020-01-14      NaN
dtype: float64


In [38]:
# DataFrame

my_dict = {'이름':['홍길동','아이유','김연아','신사임당'],
          '학년':[4,3,1,2],
          '학점':[1.5, 2.4, 3.9, 3.2]}

df = pd.DataFrame(my_dict)
print(df)
#      이름  학년   학점
# 0   홍길동   4  1.5
# 1   아이유   3  2.4
# 2   김연아   1  3.9
# 3  신사임당   2  3.2
display(df)  

print(df.shape)   # (4, 3)
print(df.values)  # [['홍길동' 4 1.5]
                  # ['아이유' 3 2.4] 
                  # ['김연아' 1 3.9]
                  # ['신사임당' 2 3.2]]
print(df.size)    # 12
print(df.ndim)    # 2
print(df.index)   # 행인덱스 : RangeIndex(start=0, stop=4, step=1)
print(df.columns) # 열인덱스 : Index(['이름', '학년', '학점'], dtype='object')

df.index.name = '학번'
df.columns.name = '학생정보'
display(df)

     이름  학년   학점
0   홍길동   4  1.5
1   아이유   3  2.4
2   김연아   1  3.9
3  신사임당   2  3.2


Unnamed: 0,이름,학년,학점
0,홍길동,4,1.5
1,아이유,3,2.4
2,김연아,1,3.9
3,신사임당,2,3.2


(4, 3)
[['홍길동' 4 1.5]
 ['아이유' 3 2.4]
 ['김연아' 1 3.9]
 ['신사임당' 2 3.2]]
12
2
RangeIndex(start=0, stop=4, step=1)
Index(['이름', '학년', '학점'], dtype='object')


학생정보,이름,학년,학점
학번,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,홍길동,4,1.5
1,아이유,3,2.4
2,김연아,1,3.9
3,신사임당,2,3.2


In [44]:
my_dict = {'이름':['홍길동','아이유','김연아','신사임당'],
          '학년':[4,3,1,2],
          '학점':[1.5, 2.4, 3.9, 3.2]}
df = pd.DataFrame(my_dict)

# inplace 옵션 값이 True면 원본을 수정, 복사본 X, False면 복사본을 만듦
new_df = df.rename(columns={'이름':'학생이름','학점':'평균평점'}, index={0:'one'}, inplace=False)
display(new_df)

# 칼럼을 인덱스로 설정하기
new_df1 = df.set_index('이름',inplace=False)
display(new_df1)

Unnamed: 0,이름,학년,학점
0,홍길동,4,1.5
1,아이유,3,2.4
2,김연아,1,3.9
3,신사임당,2,3.2


Unnamed: 0,학생이름,학년,평균평점
one,홍길동,4,1.5
1,아이유,3,2.4
2,김연아,1,3.9
3,신사임당,2,3.2


Unnamed: 0_level_0,학년,학점
이름,Unnamed: 1_level_1,Unnamed: 2_level_1
홍길동,4,1.5
아이유,3,2.4
김연아,1,3.9
신사임당,2,3.2


여기까지 DataFrame 기본사항 끝!!!!

In [51]:
df = pd.read_csv('C:/jupyter_home/data/student.csv')
display(df)

Unnamed: 0,이름,입학연도,성적
0,아이유,2015,1.5
1,김연아,2016,2.0
2,홍길동,2015,3.1
3,강감찬,2017,1.1
4,이순신,2016,2.7
