In [1]:
# Pandas
# 데이터 처리(분석)을 하기 위해서 우리가 사용하는 실제적인 module
# 기본적인 자료구조는 2개가 존재

# 1. Series : 1차원 ndarray를 기반으로 만든 자료구조
# 2. DataFrame : Series를 세로로 이어 붙여 만든 2차원 자료구조

# pandas를 설치해야 사용할 수 있다.
# conda install pandas

In [6]:
# Series
import numpy as np
import pandas as pd

s = pd.Series([-1, 5, 10, 99], dtype="float64") # pandas의 Series 만들기
#     Series는 무조건 1차원이다.
print(s)
#     세로로 출력됨
#     앞에는 인덱스 번호. 뒤에는 값
#     마지막에는 데이터 타입

# values : Series를 numpy 배열로 출력할 수 있다.
# index : Series의 index 관련 정보
arr = s.values
print(arr) # 출력 : [-1. 5. 10. 99]
print(s.index) # 출력 : RangeIndex(start=0, stop=4, step=1)


0    -1.0
1     5.0
2    10.0
3    99.0
dtype: float64
[-1.  5. 10. 99.]
RangeIndex(start=0, stop=4, step=1)


In [23]:
s1 = pd.Series([1, 5, -10, 30],
             dtype = np.float64,
             index = ['c', 'b', 'a', 'kk'])
print(s1)
print(s1[1]) # 출력 : 5.0
print(s1['b']) # 출력 : 5.0

# 사용자 지정 인덱스가 정수라서 디폴트 인덱스랑 겹칠 경우
# 좋은 경우는 아니다. 피하는 게 좋다.
s = pd.Series([1, 5, -10, 30],
             dtype = np.float64,
             index = [0, 2, 100, 6])
print(s)
# print(s[1]) # 오류
print(s[2]) # 출력 : 5.0
print(s[0:3]) # slicing

s1 = pd.Series([1, 5, -10, 30],
             dtype = np.float64,
             index = ['c', 'b', 'a', 'kk'])
print(s['c':'kk'])
#     지정 인덱스를 사용하여 범위를 설정한 경우, 뒤에 넣은 값도 출력 범위에 포함된다.
# print(s[s%2 == 0]) # Boolean Indexing, Fancy Indexing 둘 다 사용 가능
print(s.shape)

# mmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmm 필기 놓침


c      1.0
b      5.0
a    -10.0
kk    30.0
dtype: float64
5.0
5.0
0       1.0
2       5.0
100   -10.0
6      30.0
dtype: float64
5.0
0       1.0
2       5.0
100   -10.0
dtype: float64


TypeError: cannot do slice indexing on Int64Index with these indexers [c] of type str

In [26]:
# 이번에는 Series를 조금 다르게 만들어보자
# dictionary를 이용해서 Series를 생성한다.

my_dict = { '서울':2000, '부산':3000, '인천': 500 }
print(type(my_dict)) # 출력 : <class 'dict'>

s = pd.Series(my_dict)
print(s) # key, value값 함께 출력하기

<class 'dict'>
서울    2000
부산    3000
인천     500
dtype: int64


In [27]:
# Series는 1차원 ndarray에 사용자 지정 index를 추가한 자료구조
# 일반적으로 Series를 직접 만들어 사용하는 경우는 많지 않다.
# 대부분 DataFrame을 사용한다. (이게 훨씬 편하고 기능도 많다.)

# DataFrame은 Excel과 같다.


In [51]:
import numpy as np
import pandas as pd

# Series에 값을 여러 개 주기
# 이럴 때는 list로 자료를 주자.
my_dict = { 'names': ['홍길동', '신사임당', '강감찬'],
           'year': [2020, 2021, 2022],
           'point': [3.0, 4.0, np.nan]
          }
# s = pd.Series(my_dict)
# print(s)

df = pd.DataFrame(my_dict)
print(df)
display(df)
print(df.shape) # 출력 : (3, 3)
print(df.size) # 출력 : 9
print(df.index) # 출력 : RangeIndex(start = 0, stop = 3, step = 1)
print(df.values) # 출력 : 데이터값만 출력된다.
print(df.columns)# 출력 : Index(['names', 'year', 'point'], dtype='object')

# inplace
#     True : 원본이 변경된다. 리턴이 없다.
#     False : 원본은 그대로 두고, 복사본을 만들어서 리턴받는다.
print(df)
new_df = df.set_index('names', inplace=True)
print(df)
print(new_df)

  names  year  point
0   홍길동  2020    3.0
1  신사임당  2021    4.0
2   강감찬  2022    NaN


Unnamed: 0,names,year,point
0,홍길동,2020,3.0
1,신사임당,2021,4.0
2,강감찬,2022,


(3, 3)
9
RangeIndex(start=0, stop=3, step=1)
[['홍길동' 2020 3.0]
 ['신사임당' 2021 4.0]
 ['강감찬' 2022 nan]]
Index(['names', 'year', 'point'], dtype='object')
  names  year  point
0   홍길동  2020    3.0
1  신사임당  2021    4.0
2   강감찬  2022    NaN
       year  point
names             
홍길동    2020    3.0
신사임당   2021    4.0
강감찬    2022    NaN
None


In [55]:
# movies.zip 데이터 활용하기

df = pd.read_csv('./data/movies.csv')
print(df.shape) # 출력 : (9742, 3)
display(df.head()) #
# head()
#     디폴트 옵션 : 상위 5개 데이터만 보여줌

# 이 방법 외에도 Open API, Database로부터 데이터를 받아서 DataFrame을 생성할 수도 있다.


(9742, 3)


Unnamed: 0,movieId,title,genres
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,2,Jumanji (1995),Adventure|Children|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama|Romance
4,5,Father of the Bride Part II (1995),Comedy


In [62]:
# DataFrame을 생성해야 한다.

# DataFrame 조작 방법

my_dict = { '이름': ['홍길동', '신사임당', '강감찬', '이순신', '권율'],
          '학과': ['컴퓨터', '철학', '기계', '영어영문','물리'],
          '학년': [1, 2, 2, 4, 3],
          '학점': [1.5, 2.0, 3.1, 1.1, 2.7] }
# 만들 때 컬럼의 순서를 정해줄 수 있다.
df = pd.DataFrame(my_dict,
                 columns = ['학과', '이름', '학점', '학년', '등급'],
                 index = ['one', 'two', 'three', 'four', 'five'])

display(df)

# describe()
#     계산이 가능한 컬럼에 대해 기본 통계 정보를 알려준다.
display(df.describe())


Unnamed: 0,학과,이름,학점,학년,등급
one,컴퓨터,홍길동,1.5,1,
two,철학,신사임당,2.0,2,
three,기계,강감찬,3.1,2,
four,영어영문,이순신,1.1,4,
five,물리,권율,2.7,3,


Unnamed: 0,학점,학년
count,5.0,5.0
mean,2.08,2.4
std,0.825833,1.140175
min,1.1,1.0
25%,1.5,2.0
50%,2.0,2.0
75%,2.7,3.0
max,3.1,4.0


In [83]:
# 예제

my_dict = { '이름': ['홍길동', '신사임당', '강감찬', '이순신', '권율'],
          '학과': ['컴퓨터', '철학', '기계', '영어영문','물리'],
          '학년': [1, 2, 2, 4, 3],
          '학점': [1.5, 2.0, 3.1, 1.1, 2.7] }
df = pd.DataFrame(my_dict,
                 columns = ['학과', '이름', '학점', '학년', '등급'],
                 index = ['one', 'two', 'three', 'four', 'five'])

# 1. 원하는 컬럼 한 개만 추출해보기
print(df['이름']) # 출력 : Series. 컬럼 하나에 대해서만 출력하면 Series로 출력된다.
#     컬럼 이름 하나만 indexing

# 컬럼을 추출해서 series를 얻어내면, view를 얻게 된다.
# 이 series의 값을 수정하면, 원본인 DataFrame의 값이 수정된다.
# s = df['이름']
# s['one'] = '아이유'
# print(s)
# display(df)
#     확인해보면, 실제 데이터가 바뀌어 있다.
# 왜 그럴까?
#     indexing은 해당 데이터의 view를 가져온다.
#     따라서 indexing한 데이터를 수정하면, 그 원본 데이터를 수정하게 된다.

# copy()
#     view를 가져오는 게 아니라, 실제 복사한 데이터를 가져온다.
s = df['이름'].copy()
s['one'] = '아이유'
print(s)
display(df)

# 2. 여러 개의 컬럼을 가져오고 싶다. 예를 들어, 학과와 이름만 가져오고 싶은 경우
# 결과는 DataFrame으로 나온다.
# Fancy Indexing
# display(df['학과', '이름']) # 오류. 이렇게 쓰면 Fancy indexing 안 돌아간다.
display(df[['학과', '이름']]) # Fancy indexing 적용. 원하는 컬럼만 선택해서 출력 가능하다.

# 3. 컬럼 추가하기
df['나이'] = [20, 21, 22, 21, 19]
display(df)

# 4. 장학생 선발하기
# 학점이 3.0 이상인 학생 장학생으로 선정
# 기존 데이터의 연산을 통해서 새로운 컬럼을 추가할 수 있다.
df['장학여부'] = df['학점'] > 3.0
display(df)

# 5. 컬럼 삭제하기
new_df = df.drop('이름', axis = 1, inplace = False)
#     '이름' 이라는 건 열방향으로 찾아봐야하니까 axis = 1
#     inplace = False : 원본 데이터를 남겨놓고 복사본을 만들기
display(new_df)

# 6. 컬럼에 대한 slicing이 될까?
display(df[['학과', '학점']]) # Fancy Indexing을 활용. 오류 없음.
# display(df[['학과':'학점']]) # 오류. slicing은 안 된다.

one       홍길동
two      신사임당
three     강감찬
four      이순신
five       권율
Name: 이름, dtype: object
one       아이유
two      신사임당
three     강감찬
four      이순신
five       권율
Name: 이름, dtype: object


Unnamed: 0,학과,이름,학점,학년,등급
one,컴퓨터,홍길동,1.5,1,
two,철학,신사임당,2.0,2,
three,기계,강감찬,3.1,2,
four,영어영문,이순신,1.1,4,
five,물리,권율,2.7,3,


Unnamed: 0,학과,이름
one,컴퓨터,홍길동
two,철학,신사임당
three,기계,강감찬
four,영어영문,이순신
five,물리,권율


Unnamed: 0,학과,이름,학점,학년,등급,나이
one,컴퓨터,홍길동,1.5,1,,20
two,철학,신사임당,2.0,2,,21
three,기계,강감찬,3.1,2,,22
four,영어영문,이순신,1.1,4,,21
five,물리,권율,2.7,3,,19


Unnamed: 0,학과,이름,학점,학년,등급,나이,장학여부
one,컴퓨터,홍길동,1.5,1,,20,False
two,철학,신사임당,2.0,2,,21,False
three,기계,강감찬,3.1,2,,22,True
four,영어영문,이순신,1.1,4,,21,False
five,물리,권율,2.7,3,,19,False


Unnamed: 0,학과,학점,학년,등급,나이,장학여부
one,컴퓨터,1.5,1,,20,False
two,철학,2.0,2,,21,False
three,기계,3.1,2,,22,True
four,영어영문,1.1,4,,21,False
five,물리,2.7,3,,19,False


Unnamed: 0,학과,학점
one,컴퓨터,1.5
two,철학,2.0
three,기계,3.1
four,영어영문,1.1
five,물리,2.7


In [98]:
# 행 데이터 가져오기 (row indexing)

my_dict = { '이름': ['홍길동', '신사임당', '강감찬', '이순신', '권율'],
          '학과': ['컴퓨터', '철학', '기계', '영어영문','물리'],
          '학년': [1, 2, 2, 4, 3],
          '학점': [1.5, 2.0, 3.1, 1.1, 2.7] }
df = pd.DataFrame(my_dict,
                 columns = ['학과', '이름', '학점', '학년', '등급'],
                 index = ['one', 'two', 'three', 'four', 'five'])
display(df)

# df[0] # 오류
df[0:2] # 오류 아님. 하나는 못 가져오는데, slicing은 가능해

# 이렇게 만들어졌음...
# 표현 방법을 다르게 쓰는 것이 속이 편하다.
# loc를 사용하자. location의 약자
# loc를 사용하면, row indexing을 사용할 수 있게 된다.
display(df.loc['one'])
# display(df.loc[0]) # 오류. loc는 사용자 지정 인덱스를 사용할 수 없다.
display(df.iloc[0]) # 출력됨. iloc를 써야 디폴트 숫자 인덱스를 사요할 수 있다.
display(df.loc['one' : 'three']) # 출력됨
display(df.loc['one':]) # 출력됨
# display(df.loc['one':-1]) # 오류
#     숫자 인덱스를 쓸 거면 숫자 인덱스만 써야 하고,
#     지정 문자 인덱스를 쓸 거면 문자 인덱스만 써야 한다.
display(df.loc[['one', 'four']]) # 출력됨


Unnamed: 0,학과,이름,학점,학년,등급
one,컴퓨터,홍길동,1.5,1,
two,철학,신사임당,2.0,2,
three,기계,강감찬,3.1,2,
four,영어영문,이순신,1.1,4,
five,물리,권율,2.7,3,


학과    컴퓨터
이름    홍길동
학점    1.5
학년      1
등급    NaN
Name: one, dtype: object

학과    컴퓨터
이름    홍길동
학점    1.5
학년      1
등급    NaN
Name: one, dtype: object

Unnamed: 0,학과,이름,학점,학년,등급
one,컴퓨터,홍길동,1.5,1,
two,철학,신사임당,2.0,2,
three,기계,강감찬,3.1,2,


Unnamed: 0,학과,이름,학점,학년,등급
one,컴퓨터,홍길동,1.5,1,
two,철학,신사임당,2.0,2,
three,기계,강감찬,3.1,2,
four,영어영문,이순신,1.1,4,
five,물리,권율,2.7,3,


Unnamed: 0,학과,이름,학점,학년,등급
one,컴퓨터,홍길동,1.5,1,
four,영어영문,이순신,1.1,4,


Unnamed: 0,학과,이름,학점,학년,등급
two,철학,신사임당,2.0,2,
four,영어영문,이순신,1.1,4,


In [99]:
# 행 데이터 가져오기 (row indexing)

my_dict = { '이름': ['홍길동', '신사임당', '강감찬', '이순신', '권율'],
          '학과': ['컴퓨터', '철학', '기계', '영어영문','물리'],
          '학년': [1, 2, 2, 4, 3],
          '학점': [1.5, 2.0, 3.1, 1.1, 2.7] }
df = pd.DataFrame(my_dict,
                 columns = ['학과', '이름', '학점', '학년', '등급'],
                 index = ['one', 'two', 'three', 'four', 'five'])
display(df)

# 행, 열에 모두 조건 걸기
display(df.loc[['two', 'four'], ['이름', '학년']])


Unnamed: 0,학과,이름,학점,학년,등급
one,컴퓨터,홍길동,1.5,1,
two,철학,신사임당,2.0,2,
three,기계,강감찬,3.1,2,
four,영어영문,이순신,1.1,4,
five,물리,권율,2.7,3,


Unnamed: 0,이름,학년
two,신사임당,2
four,이순신,4
