In [1]:
# Pandas
# 데이터 처리(분석)을 하기 위해서 우리가 사용하는 실제적인 module
# 기본적인 자료구조는 2개가 존재

# 1. Series : 1차원 ndarray를 기반으로 만든 자료구조
# 2. DataFrame : Series를 세로로 이어 붙여 만든 2차원 자료구조

# pandas를 설치해야 사용할 수 있다.
# conda install pandas

In [6]:
# Series
import numpy as np
import pandas as pd

s = pd.Series([-1, 5, 10, 99], dtype="float64") # pandas의 Series 만들기
#     Series는 무조건 1차원이다.
print(s)
#     세로로 출력됨
#     앞에는 인덱스 번호. 뒤에는 값
#     마지막에는 데이터 타입

# values : Series를 numpy 배열로 출력할 수 있다.
# index : Series의 index 관련 정보
arr = s.values
print(arr) # 출력 : [-1. 5. 10. 99]
print(s.index) # 출력 : RangeIndex(start=0, stop=4, step=1)


0    -1.0
1     5.0
2    10.0
3    99.0
dtype: float64
[-1.  5. 10. 99.]
RangeIndex(start=0, stop=4, step=1)


In [23]:
s1 = pd.Series([1, 5, -10, 30],
             dtype = np.float64,
             index = ['c', 'b', 'a', 'kk'])
print(s1)
print(s1[1]) # 출력 : 5.0
print(s1['b']) # 출력 : 5.0

# 사용자 지정 인덱스가 정수라서 디폴트 인덱스랑 겹칠 경우
# 좋은 경우는 아니다. 피하는 게 좋다.
s = pd.Series([1, 5, -10, 30],
             dtype = np.float64,
             index = [0, 2, 100, 6])
print(s)
# print(s[1]) # 오류
print(s[2]) # 출력 : 5.0
print(s[0:3]) # slicing

s1 = pd.Series([1, 5, -10, 30],
             dtype = np.float64,
             index = ['c', 'b', 'a', 'kk'])
print(s['c':'kk'])
#     지정 인덱스를 사용하여 범위를 설정한 경우, 뒤에 넣은 값도 출력 범위에 포함된다.
# print(s[s%2 == 0]) # Boolean Indexing, Fancy Indexing 둘 다 사용 가능
print(s.shape)

# mmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmm 필기 놓침


c      1.0
b      5.0
a    -10.0
kk    30.0
dtype: float64
5.0
5.0
0       1.0
2       5.0
100   -10.0
6      30.0
dtype: float64
5.0
0       1.0
2       5.0
100   -10.0
dtype: float64


TypeError: cannot do slice indexing on Int64Index with these indexers [c] of type str

In [26]:
# 이번에는 Series를 조금 다르게 만들어보자
# dictionary를 이용해서 Series를 생성한다.

my_dict = { '서울':2000, '부산':3000, '인천': 500 }
print(type(my_dict)) # 출력 : <class 'dict'>

s = pd.Series(my_dict)
print(s) # key, value값 함께 출력하기

<class 'dict'>
서울    2000
부산    3000
인천     500
dtype: int64


In [27]:
# Series는 1차원 ndarray에 사용자 지정 index를 추가한 자료구조
# 일반적으로 Series를 직접 만들어 사용하는 경우는 많지 않다.
# 대부분 DataFrame을 사용한다. (이게 훨씬 편하고 기능도 많다.)

# DataFrame은 Excel과 같다.


In [2]:
import numpy as np
import pandas as pd

# Series에 값을 여러 개 주기
# 이럴 때는 list로 자료를 주자.
my_dict = { 'names': ['홍길동', '신사임당', '강감찬'],
           'year': [2020, 2021, 2022],
           'point': [3.0, 4.0, np.nan]
          }
# s = pd.Series(my_dict)
# print(s)

df = pd.DataFrame(my_dict)
print(df)
display(df)
print(df.shape) # 출력 : (3, 3)
print(df.size) # 출력 : 9
print(df.index) # 출력 : RangeIndex(start = 0, stop = 3, step = 1)
print(df.values) # 출력 : 데이터값만 출력된다.
print(df.columns)# 출력 : Index(['names', 'year', 'point'], dtype='object')

# inplace
#     True : 원본이 변경된다. 리턴이 없다.
#     False : 원본은 그대로 두고, 복사본을 만들어서 리턴받는다.
print(df)
new_df = df.set_index('names', inplace=True)
print(df)
print(new_df)

  names  year  point
0   홍길동  2020    3.0
1  신사임당  2021    4.0
2   강감찬  2022    NaN


Unnamed: 0,names,year,point
0,홍길동,2020,3.0
1,신사임당,2021,4.0
2,강감찬,2022,


(3, 3)
9
RangeIndex(start=0, stop=3, step=1)
[['홍길동' 2020 3.0]
 ['신사임당' 2021 4.0]
 ['강감찬' 2022 nan]]
Index(['names', 'year', 'point'], dtype='object')
  names  year  point
0   홍길동  2020    3.0
1  신사임당  2021    4.0
2   강감찬  2022    NaN
       year  point
names             
홍길동    2020    3.0
신사임당   2021    4.0
강감찬    2022    NaN
None


In [55]:
# movies.zip 데이터 활용하기

df = pd.read_csv('./data/movies.csv')
print(df.shape) # 출력 : (9742, 3)
display(df.head()) #
# head()
#     디폴트 옵션 : 상위 5개 데이터만 보여줌

# 이 방법 외에도 Open API, Database로부터 데이터를 받아서 DataFrame을 생성할 수도 있다.


(9742, 3)


Unnamed: 0,movieId,title,genres
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,2,Jumanji (1995),Adventure|Children|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama|Romance
4,5,Father of the Bride Part II (1995),Comedy


In [62]:
# DataFrame을 생성해야 한다.

# DataFrame 조작 방법

my_dict = { '이름': ['홍길동', '신사임당', '강감찬', '이순신', '권율'],
          '학과': ['컴퓨터', '철학', '기계', '영어영문','물리'],
          '학년': [1, 2, 2, 4, 3],
          '학점': [1.5, 2.0, 3.1, 1.1, 2.7] }
# 만들 때 컬럼의 순서를 정해줄 수 있다.
df = pd.DataFrame(my_dict,
                 columns = ['학과', '이름', '학점', '학년', '등급'],
                 index = ['one', 'two', 'three', 'four', 'five'])

display(df)

# describe()
#     계산이 가능한 컬럼에 대해 기본 통계 정보를 알려준다.
display(df.describe())


Unnamed: 0,학과,이름,학점,학년,등급
one,컴퓨터,홍길동,1.5,1,
two,철학,신사임당,2.0,2,
three,기계,강감찬,3.1,2,
four,영어영문,이순신,1.1,4,
five,물리,권율,2.7,3,


Unnamed: 0,학점,학년
count,5.0,5.0
mean,2.08,2.4
std,0.825833,1.140175
min,1.1,1.0
25%,1.5,2.0
50%,2.0,2.0
75%,2.7,3.0
max,3.1,4.0


In [83]:
# 예제

my_dict = { '이름': ['홍길동', '신사임당', '강감찬', '이순신', '권율'],
          '학과': ['컴퓨터', '철학', '기계', '영어영문','물리'],
          '학년': [1, 2, 2, 4, 3],
          '학점': [1.5, 2.0, 3.1, 1.1, 2.7] }
df = pd.DataFrame(my_dict,
                 columns = ['학과', '이름', '학점', '학년', '등급'],
                 index = ['one', 'two', 'three', 'four', 'five'])

# 1. 원하는 컬럼 한 개만 추출해보기
print(df['이름']) # 출력 : Series. 컬럼 하나에 대해서만 출력하면 Series로 출력된다.
#     컬럼 이름 하나만 indexing

# 컬럼을 추출해서 series를 얻어내면, view를 얻게 된다.
# 이 series의 값을 수정하면, 원본인 DataFrame의 값이 수정된다.
# s = df['이름']
# s['one'] = '아이유'
# print(s)
# display(df)
#     확인해보면, 실제 데이터가 바뀌어 있다.
# 왜 그럴까?
#     indexing은 해당 데이터의 view를 가져온다.
#     따라서 indexing한 데이터를 수정하면, 그 원본 데이터를 수정하게 된다.

# copy()
#     view를 가져오는 게 아니라, 실제 복사한 데이터를 가져온다.
s = df['이름'].copy()
s['one'] = '아이유'
print(s)
display(df)

# 2. 여러 개의 컬럼을 가져오고 싶다. 예를 들어, 학과와 이름만 가져오고 싶은 경우
# 결과는 DataFrame으로 나온다.
# Fancy Indexing
# display(df['학과', '이름']) # 오류. 이렇게 쓰면 Fancy indexing 안 돌아간다.
display(df[['학과', '이름']]) # Fancy indexing 적용. 원하는 컬럼만 선택해서 출력 가능하다.

# 3. 컬럼 추가하기
df['나이'] = [20, 21, 22, 21, 19]
display(df)

# 4. 장학생 선발하기
# 학점이 3.0 이상인 학생 장학생으로 선정
# 기존 데이터의 연산을 통해서 새로운 컬럼을 추가할 수 있다.
df['장학여부'] = df['학점'] > 3.0
display(df)

# 5. 컬럼 삭제하기
new_df = df.drop('이름', axis = 1, inplace = False)
#     '이름' 이라는 건 열방향으로 찾아봐야하니까 axis = 1
#     inplace = False : 원본 데이터를 남겨놓고 복사본을 만들기
display(new_df)

# 6. 컬럼에 대한 slicing이 될까?
display(df[['학과', '학점']]) # Fancy Indexing을 활용. 오류 없음.
# display(df[['학과':'학점']]) # 오류. slicing은 안 된다.

one       홍길동
two      신사임당
three     강감찬
four      이순신
five       권율
Name: 이름, dtype: object
one       아이유
two      신사임당
three     강감찬
four      이순신
five       권율
Name: 이름, dtype: object


Unnamed: 0,학과,이름,학점,학년,등급
one,컴퓨터,홍길동,1.5,1,
two,철학,신사임당,2.0,2,
three,기계,강감찬,3.1,2,
four,영어영문,이순신,1.1,4,
five,물리,권율,2.7,3,


Unnamed: 0,학과,이름
one,컴퓨터,홍길동
two,철학,신사임당
three,기계,강감찬
four,영어영문,이순신
five,물리,권율


Unnamed: 0,학과,이름,학점,학년,등급,나이
one,컴퓨터,홍길동,1.5,1,,20
two,철학,신사임당,2.0,2,,21
three,기계,강감찬,3.1,2,,22
four,영어영문,이순신,1.1,4,,21
five,물리,권율,2.7,3,,19


Unnamed: 0,학과,이름,학점,학년,등급,나이,장학여부
one,컴퓨터,홍길동,1.5,1,,20,False
two,철학,신사임당,2.0,2,,21,False
three,기계,강감찬,3.1,2,,22,True
four,영어영문,이순신,1.1,4,,21,False
five,물리,권율,2.7,3,,19,False


Unnamed: 0,학과,학점,학년,등급,나이,장학여부
one,컴퓨터,1.5,1,,20,False
two,철학,2.0,2,,21,False
three,기계,3.1,2,,22,True
four,영어영문,1.1,4,,21,False
five,물리,2.7,3,,19,False


Unnamed: 0,학과,학점
one,컴퓨터,1.5
two,철학,2.0
three,기계,3.1
four,영어영문,1.1
five,물리,2.7


In [98]:
# 행 데이터 가져오기 (row indexing)

my_dict = { '이름': ['홍길동', '신사임당', '강감찬', '이순신', '권율'],
          '학과': ['컴퓨터', '철학', '기계', '영어영문','물리'],
          '학년': [1, 2, 2, 4, 3],
          '학점': [1.5, 2.0, 3.1, 1.1, 2.7] }
df = pd.DataFrame(my_dict,
                 columns = ['학과', '이름', '학점', '학년', '등급'],
                 index = ['one', 'two', 'three', 'four', 'five'])
display(df)

# df[0] # 오류
df[0:2] # 오류 아님. 하나는 못 가져오는데, slicing은 가능해

# 이렇게 만들어졌음...
# 표현 방법을 다르게 쓰는 것이 속이 편하다.
# loc를 사용하자. location의 약자
# loc를 사용하면, row indexing을 사용할 수 있게 된다.
display(df.loc['one'])
# display(df.loc[0]) # 오류. loc는 사용자 지정 인덱스를 사용할 수 없다.
display(df.iloc[0]) # 출력됨. iloc를 써야 디폴트 숫자 인덱스를 사요할 수 있다.
display(df.loc['one' : 'three']) # 출력됨
display(df.loc['one':]) # 출력됨
# display(df.loc['one':-1]) # 오류
#     숫자 인덱스를 쓸 거면 숫자 인덱스만 써야 하고,
#     지정 문자 인덱스를 쓸 거면 문자 인덱스만 써야 한다.
display(df.loc[['one', 'four']]) # 출력됨


Unnamed: 0,학과,이름,학점,학년,등급
one,컴퓨터,홍길동,1.5,1,
two,철학,신사임당,2.0,2,
three,기계,강감찬,3.1,2,
four,영어영문,이순신,1.1,4,
five,물리,권율,2.7,3,


학과    컴퓨터
이름    홍길동
학점    1.5
학년      1
등급    NaN
Name: one, dtype: object

학과    컴퓨터
이름    홍길동
학점    1.5
학년      1
등급    NaN
Name: one, dtype: object

Unnamed: 0,학과,이름,학점,학년,등급
one,컴퓨터,홍길동,1.5,1,
two,철학,신사임당,2.0,2,
three,기계,강감찬,3.1,2,


Unnamed: 0,학과,이름,학점,학년,등급
one,컴퓨터,홍길동,1.5,1,
two,철학,신사임당,2.0,2,
three,기계,강감찬,3.1,2,
four,영어영문,이순신,1.1,4,
five,물리,권율,2.7,3,


Unnamed: 0,학과,이름,학점,학년,등급
one,컴퓨터,홍길동,1.5,1,
four,영어영문,이순신,1.1,4,


Unnamed: 0,학과,이름,학점,학년,등급
two,철학,신사임당,2.0,2,
four,영어영문,이순신,1.1,4,


In [3]:
# 행 데이터 가져오기 (row indexing)

my_dict = { '이름': ['홍길동', '신사임당', '강감찬', '이순신', '권율'],
          '학과': ['컴퓨터', '철학', '기계', '영어영문','물리'],
          '학년': [1, 2, 2, 4, 3],
          '학점': [1.5, 2.0, 3.1, 1.1, 2.7] }
df = pd.DataFrame(my_dict,
                 columns = ['학과', '이름', '학점', '학년', '등급'],
                 index = ['one', 'two', 'three', 'four', 'five'])
display(df)

# 행, 열에 모두 조건 걸기
display(df.loc[['two', 'four'], ['이름', '학년']])


Unnamed: 0,학과,이름,학점,학년,등급
one,컴퓨터,홍길동,1.5,1,
two,철학,신사임당,2.0,2,
three,기계,강감찬,3.1,2,
four,영어영문,이순신,1.1,4,
five,물리,권율,2.7,3,


Unnamed: 0,이름,학년
two,신사임당,2
four,이순신,4


In [36]:
# 예제 문제 풀기

my_dict = { '이름': ['홍길동', '신사임당', '강감찬', '이순신', '권율'],
          '학과': ['컴퓨터', '철학', '기계', '영어영문','물리'],
          '학년': [1, 2, 2, 4, 3],
          '학점': [1.5, 2.0, 3.1, 1.1, 2.7] }
df = pd.DataFrame(my_dict,
                 columns = ['학과', '이름', '학점', '학년', '등급'],
                 index = ['one', 'two', 'three', 'four', 'five'])
display(df)

# 문제1. 학점이 2.0을 초과하는 학생의 이름과 학점을 DataFrame으로 출력
# DataFrame을 만들어? 행과 열을 뽑아내야겠네? loc를 쓰자. loc를 이용해서 indexing을 하자.
#     열 정보 추출하기
#         df.loc["행", "열"]
#         여기에서 여러 개의 열을 가져오기 때문에 fancy indexing을 활용.
# df.loc['', ['이름', '학점']]
#     행 정보 추출하기
print(df['학점'])
print(df['학점'] > 2.0) # boolean_mask 출력됨
display(df.loc[df['학점'] > 2.0, ['이름', '학점']]) # boolean indexing 활용하기. 행 정보에 boolean_mask 넣어서 최종 출력

# 문제2. 학점이 3.0 이상인 학생의 등급을 'A' 로 만들기
#     조건 정보가 있으니까 우선 boolean indexing을 하자.
df.loc[df['학점'] >= 3.0, '등급'] = 'A'
display(df)

# 문제3. 학점이 1.5 이상, 2.5 이하인 학생의 학과, 이름, 학점을 출력
print((df['학점'] >= 1.5) & (df['학점'] <= 2.5))
display(df.loc[(df['학점'] >= 1.5) & (df['학점'] <= 2.5), '학과':'학점'])

# 문제4. 신사임당의 학과와 학년정보를 알고 싶다.
print(df['이름'] == '신사임당') # boolean mask
display(df.loc[df['이름'] == '신사임당', ['학과','학점']]) # 행은 boolean mask, 열은 slicing이나 fancy indexing


Unnamed: 0,학과,이름,학점,학년,등급
one,컴퓨터,홍길동,1.5,1,
two,철학,신사임당,2.0,2,
three,기계,강감찬,3.1,2,
four,영어영문,이순신,1.1,4,
five,물리,권율,2.7,3,


one      1.5
two      2.0
three    3.1
four     1.1
five     2.7
Name: 학점, dtype: float64
one      False
two      False
three     True
four     False
five      True
Name: 학점, dtype: bool


Unnamed: 0,이름,학점
three,강감찬,3.1
five,권율,2.7


Unnamed: 0,학과,이름,학점,학년,등급
one,컴퓨터,홍길동,1.5,1,
two,철학,신사임당,2.0,2,
three,기계,강감찬,3.1,2,A
four,영어영문,이순신,1.1,4,
five,물리,권율,2.7,3,


one       True
two       True
three    False
four     False
five     False
Name: 학점, dtype: bool


Unnamed: 0,학과,이름,학점
one,컴퓨터,홍길동,1.5
two,철학,신사임당,2.0


one      False
two       True
three    False
four     False
five     False
Name: 이름, dtype: bool


Unnamed: 0,학과,학점
two,철학,2.0


In [48]:
# 예제 문제 풀기

my_dict = { '이름': ['홍길동', '신사임당', '강감찬', '이순신', '권율'],
          '학과': ['컴퓨터', '철학', '기계', '영어영문','물리'],
          '학년': [1, 2, 2, 4, 3],
          '학점': [1.5, 2.0, 3.1, 1.1, 2.7] }
df = pd.DataFrame(my_dict,
                 columns = ['학과', '이름', '학점', '학년', '등급'],
                 index = ['one', 'two', 'three', 'four', 'five'])
display(df)

# 새로운 학생 추가하기(row 데이터 추가)
df.loc['six', :] = ['유아교육', '김연아', 3.6, 4, 'B']
display(df)

# 강감찬 데이터 삭제하기
df.drop('three', axis=0, inplace=True)
#     행 방향에서 검색해야 하니까 axis = 0
#     inplace=True : 원본에 적용시키기
display(df)

Unnamed: 0,학과,이름,학점,학년,등급
one,컴퓨터,홍길동,1.5,1,
two,철학,신사임당,2.0,2,
three,기계,강감찬,3.1,2,
four,영어영문,이순신,1.1,4,
five,물리,권율,2.7,3,


Unnamed: 0,학과,이름,학점,학년,등급
one,컴퓨터,홍길동,1.5,1.0,
two,철학,신사임당,2.0,2.0,
three,기계,강감찬,3.1,2.0,
four,영어영문,이순신,1.1,4.0,
five,물리,권율,2.7,3.0,
six,유아교육,김연아,3.6,4.0,B


Unnamed: 0,학과,이름,학점,학년,등급
one,컴퓨터,홍길동,1.5,1.0,
two,철학,신사임당,2.0,2.0,
four,영어영문,이순신,1.1,4.0,
five,물리,권율,2.7,3.0,
six,유아교육,김연아,3.6,4.0,B


In [69]:
import numpy as np
import pandas as pd

# header=None
#     우리 파일에는 header 컬럼명이 저장되어 있지 않다.
#     임의로 컬럼명을 지정해주자.
df = pd.read_csv('./data/auto-mpg.csv', header=None)

# .columns = 
#     컬럼 데이터를 변경하기
df.columns = ['mpg', 'cylinders', 'displacement', 'horsepower',
              'weight', 'acceleration', 'model year', 'origin', 'name']
#     mpg : 연비. 갤럼 당 마일
#     cylinders : 실린더 수. 8기통,...
#     displacement : 배기량
#     horsepower : 마력. 자동차 힘
#     weight : 무게
#     acceleration : 가속능력
#     model year : 만들어진 년도
#     origin : 나라
#     name : 자동차 이름
#     display(df)

# DataFrame이 제공하는 함수
#     필수로 사용되는 함수는 알아둬야 한다.

# 1. head(), tail()
#     데이터 확인용. 상위 몇 개, 하위 몇 개 출력
#     인자를 안 쓰면 디폴트값이 5다. 5개를 출력한다.
display(df.head())
display(df.tail(3))

# 2. shape
#     데이터의 개수 확인하기. 행, 열의 개수 확인하기
#     출력 : (행 개수, 열 개수)
print(df.shape) # 출력 : (398, 9)

# 3. count()
#     각 컬럼이 가지는 값의 개수를 알려준다.
#     그런데, 유효한 데이터의 개수만 세어준다. 무의미한 데이터는 세지 않는다.
# 머신러닝에 사용되는 데이터는 결측치가 존재하면 안 된다.
#     결측치 : 값이 존재하지 않는 것
#     따라서 데이터를 가지고 있을 때, 결측치에 대한 걸 우선 처리해줘야 한다.
print(df.count())

# 머신러닝은 숫자 데이터를 가지고서 돌려야 한다.
#     따라서 제조국 데이터인 origin을 숫자로 표현한 것이다.

# 4. value_counts()
#     Series에 적용하는 것. Series 안의 고유값 개수를 셀 때 사용한다.
print(df['origin'].value_counts()) # 출력 : 1 249 / 3 79 / 2 70
#     1 : 미국 , 2 : 유럽 , 3 : 일본

# 5. unique()
#     Series에 적용하는 것. 중복을 제거하는 메소드.
print(df['model year'].unique()) # 출력 : array([70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82], dtype=int64)
#     1970년부터 1982년까지 제조된 차량에 대한 데이터

# 6. isin()
#
print(df['origin'].isin([1, 2])) # 출력 형태 : mask
display(df.loc[df['origin'].isin([1, 2]),:]) # 출력 : 319개의 row. 결국, 미국과 유럽에서 만들어진 게 319개라는 의미

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model year,origin,name
0,18.0,8,307.0,130.0,3504.0,12.0,70,1,chevrolet chevelle malibu
1,15.0,8,350.0,165.0,3693.0,11.5,70,1,buick skylark 320
2,18.0,8,318.0,150.0,3436.0,11.0,70,1,plymouth satellite
3,16.0,8,304.0,150.0,3433.0,12.0,70,1,amc rebel sst
4,17.0,8,302.0,140.0,3449.0,10.5,70,1,ford torino


Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model year,origin,name
395,32.0,4,135.0,84.0,2295.0,11.6,82,1,dodge rampage
396,28.0,4,120.0,79.0,2625.0,18.6,82,1,ford ranger
397,31.0,4,119.0,82.0,2720.0,19.4,82,1,chevy s-10


(398, 9)
mpg             398
cylinders       398
displacement    398
horsepower      398
weight          398
acceleration    398
model year      398
origin          398
name            398
dtype: int64
1    249
3     79
2     70
Name: origin, dtype: int64
[70 71 72 73 74 75 76 77 78 79 80 81 82]
0      True
1      True
2      True
3      True
4      True
       ... 
393    True
394    True
395    True
396    True
397    True
Name: origin, Length: 398, dtype: bool


Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model year,origin,name
0,18.0,8,307.0,130.0,3504.0,12.0,70,1,chevrolet chevelle malibu
1,15.0,8,350.0,165.0,3693.0,11.5,70,1,buick skylark 320
2,18.0,8,318.0,150.0,3436.0,11.0,70,1,plymouth satellite
3,16.0,8,304.0,150.0,3433.0,12.0,70,1,amc rebel sst
4,17.0,8,302.0,140.0,3449.0,10.5,70,1,ford torino
...,...,...,...,...,...,...,...,...,...
393,27.0,4,140.0,86.00,2790.0,15.6,82,1,ford mustang gl
394,44.0,4,97.0,52.00,2130.0,24.6,82,2,vw pickup
395,32.0,4,135.0,84.00,2295.0,11.6,82,1,dodge rampage
396,28.0,4,120.0,79.00,2625.0,18.6,82,1,ford ranger


In [112]:
# 정렬
# 가장 많이 사용하는 함수 중 하나. sort()

# numpy에서 list를 이용해서 ndarray생성하는 방법
# arr = np.array([1, 2, 3, 4, 5])
# arr = np.arange(10)

# 난수를 이용해서 ndarray를 만드는 방법
# np.random.randint()
#     정수 랜덤값 생성
# np.random.randint(시작값, 끝값, tuple(행, 열))
# print(np.random.randint(0, 10, (6, 4)))
# seed를 설정하면, 그 시드값에 따라 발생한 난수를 고정시킬 수 있다.
np.random.seed(1)
df = pd.DataFrame(np.random.randint(0, 10, (6, 4)))
df.columns = ['A', 'B', 'C', 'D']
df.index = pd.date_range('20230101', periods = 6)
#     periods : 단위. 6일 단위.
display(df)

# index를 랜덤하게 위치를 조정해보자.
# permutation(df.index)
#     asdf
random_date = np.random.permutation(df.index)
print(random_date)
display(df)

# reindex(행, 열)
#     row index와 column index를 다시 만든다.
df2 = df.reindex(index = random_date, columns = ['B', 'A', 'D', 'C'])
display(df2)

# 정렬 연습을 하려고 일부러 DataFrame을 조절했다.
# 정렬해보자.

# index를 가지고 정렬
display(df2.sort_index(axis = 1, ascending=True))
display(df2.sort_index(axis = 0, ascending=True))

# 값을 가지고 정렬
# 정렬 기준의 디폴트는 오름차순
# display(df2.sort_values(by = 'B'))
display(df2.sort_values(by = ['B', 'A'])) # 1차 기준이 'B', 2차 기준이 'A'

Unnamed: 0,A,B,C,D
2023-01-01,5,8,9,5
2023-01-02,0,0,1,7
2023-01-03,6,9,2,4
2023-01-04,5,2,4,2
2023-01-05,4,7,7,9
2023-01-06,1,7,0,6


['2023-01-03T00:00:00.000000000' '2023-01-01T00:00:00.000000000'
 '2023-01-04T00:00:00.000000000' '2023-01-05T00:00:00.000000000'
 '2023-01-02T00:00:00.000000000' '2023-01-06T00:00:00.000000000']


Unnamed: 0,A,B,C,D
2023-01-01,5,8,9,5
2023-01-02,0,0,1,7
2023-01-03,6,9,2,4
2023-01-04,5,2,4,2
2023-01-05,4,7,7,9
2023-01-06,1,7,0,6


Unnamed: 0,B,A,D,C
2023-01-03,9,6,4,2
2023-01-01,8,5,5,9
2023-01-04,2,5,2,4
2023-01-05,7,4,9,7
2023-01-02,0,0,7,1
2023-01-06,7,1,6,0


Unnamed: 0,A,B,C,D
2023-01-03,6,9,2,4
2023-01-01,5,8,9,5
2023-01-04,5,2,4,2
2023-01-05,4,7,7,9
2023-01-02,0,0,1,7
2023-01-06,1,7,0,6


Unnamed: 0,B,A,D,C
2023-01-01,8,5,5,9
2023-01-02,0,0,7,1
2023-01-03,9,6,4,2
2023-01-04,2,5,2,4
2023-01-05,7,4,9,7
2023-01-06,7,1,6,0


Unnamed: 0,B,A,D,C
2023-01-02,0,0,7,1
2023-01-04,2,5,2,4
2023-01-06,7,1,6,0
2023-01-05,7,4,9,7
2023-01-01,8,5,5,9
2023-01-03,9,6,4,2


In [126]:
# DataFrame이 제공하는 여러 가지 함수들에 대해서 알아보고 있다.

# 기술통계(describe 기술)에서 다루는 것
#     평균, 합, 편차, 분산, 표준편차, 사분위, 공분산, 상관관계
#     pandas를 이용하면 이런 걸 계산할 수 있다.
#     sum(), mean(), ...

# python의 list를 만들자. 2차원을 만들기 위해 중첩리스트 형태로 만들자.
data = [[2, np.nan],
        [7, -3],
        [np.nan, np.nan],
        [1, -2]]

# 이걸 가지고 DataFrame을 만들자.
df = pd.DataFrame(data,
                  columns=['one', 'two'],
                  index=['a', 'b', 'c', 'd'])
display(df)

# 현재 numpy의 ndarray가 아니라 pandas의 DataFrame을 하고 있다.
# 이 두 가지는 엄연히 다르다. 차이가 있다.
print(df.sum())
#     값이 하나가 아니라 두 개가 나온다. df 안의 모든 값을 더하는 것이 아니다.
#     sum() 안에 인자가 없으면, 디폴트가 axis=0 으로 간주한다.
#     print(df.sum(axis=0))
print(df.sum(axis=1))

# mean()
#     NaN은 계산에 포함시키지 않는다.
#     skipna=False : NaN을 무시하지 말 것. 디폴트값은 True
print(df.mean())
print(df.mean(skipna=False)) # NaN을 무시하지 말 것

# NaN 처리
# 1. 삭제
#     가장 좋은 방법이다.
#     만약 데이터가 충분치 않으면 삭제했을 때 문제가 발생할 수 있다.
#     데이터가 충분하지 않다..?
#         기준이 그때그때 다르다. 일반적으로는 10만건을 기준으로 한다.
# 2. 보간. interpolation.
#     적절하게 수정해서 사용하기
mean_one = df['one'].mean()
print(mean_one) # 출력 : 3.3333333333333335
mean_two = df['two'].mean()
# 함수를 이용해서 NaN을 찾아서 값을 대체
#     Series 째로 대체되는 것이기 때문에, 다른 데이터도 소숫점자릿수가 동일해진다.(?)
df['one'] = df['one'].fillna(value=mean_one)
display(df)


Unnamed: 0,one,two
a,2.0,
b,7.0,-3.0
c,,
d,1.0,-2.0


one    10.0
two    -5.0
dtype: float64
a    2.0
b    4.0
c    0.0
d   -1.0
dtype: float64
one    3.333333
two   -2.500000
dtype: float64
one   NaN
two   NaN
dtype: float64
3.3333333333333335


Unnamed: 0,one,two
a,2.0,
b,7.0,-3.0
c,3.333333,
d,1.0,-2.0


In [127]:
# 남은 주제는 두 개
# DataFrame연결, 결합
# Grouping

In [131]:
df1 = pd.DataFrame({'a': ['a0', 'a1', 'a2', 'a3'],
                    'b': [1, 2, 3, 4],
                    'c': ['c0', 'c1', 'c2', 'c3']
                   })
display(df1)

df2 = pd.DataFrame({'b': ['b0', 'b1', 'b2', 'b3'],
                    'c': ['c0', 'c1', 'c2', 'c3'],
                    'd': ['d0', 'd1', 'd2', 'd3'],
                    'e': ['e0', 'e1', 'e2', 'e3']
                   })
display(df2)

# concat()
# 1. 위, 아래 방향으로 이어 붙인다.
#     동일한 컬럼명을 기준으로 가져다 붙인다.
#     그런데, 기본값은 기존의 index도 그냥 가져다 붙인다.
result1 = pd.concat([df1, df2], axis=0)
display(result1)

# 기존의 index를 무시하고 새로 작성하기
result1 = pd.concat([df1, df2], axis=0, ignore_index=True)
display(result1)


Unnamed: 0,a,b,c
0,a0,1,c0
1,a1,2,c1
2,a2,3,c2
3,a3,4,c3


Unnamed: 0,b,c,d,e
0,b0,c0,d0,e0
1,b1,c1,d1,e1
2,b2,c2,d2,e2
3,b3,c3,d3,e3


Unnamed: 0,a,b,c,d,e
0,a0,1,c0,,
1,a1,2,c1,,
2,a2,3,c2,,
3,a3,4,c3,,
0,,b0,c0,d0,e0
1,,b1,c1,d1,e1
2,,b2,c2,d2,e2
3,,b3,c3,d3,e3


Unnamed: 0,a,b,c,d,e
0,a0,1,c0,,
1,a1,2,c1,,
2,a2,3,c2,,
3,a3,4,c3,,
4,,b0,c0,d0,e0
5,,b1,c1,d1,e1
6,,b2,c2,d2,e2
7,,b3,c3,d3,e3


In [133]:
df1 = pd.DataFrame({'a': ['a0', 'a1', 'a2', 'a3'],
                    'b': [1, 2, 3, 4],
                    'c': ['c0', 'c1', 'c2', 'c3']
                   })
display(df1)

df2 = pd.DataFrame({'b': ['b0', 'b1', 'b2', 'b3'],
                    'c': ['c0', 'c1', 'c2', 'c3'],
                    'd': ['d0', 'd1', 'd2', 'd3'],
                    'e': ['e0', 'e1', 'e2', 'e3']
                   }, index=[2, 3, 4, 5])
display(df2)

# concat()
# 2. DataFrame을 가로로 붙이기
#     동일한 행 index를 기준으로 가져다 붙인다.
result = pd.concat([df1, df2], axis=1)
display(result)


Unnamed: 0,a,b,c
0,a0,1,c0
1,a1,2,c1
2,a2,3,c2
3,a3,4,c3


Unnamed: 0,b,c,d,e
2,b0,c0,d0,e0
3,b1,c1,d1,e1
4,b2,c2,d2,e2
5,b3,c3,d3,e3


Unnamed: 0,a,b,c,b.1,c.1,d,e
0,a0,1.0,c0,,,,
1,a1,2.0,c1,,,,
2,a2,3.0,c2,b0,c0,d0,e0
3,a3,4.0,c3,b1,c1,d1,e1
4,,,,b2,c2,d2,e2
5,,,,b3,c3,d3,e3


In [142]:
import numpy as np
import pandas as pd

data1 = { "학번" : [1,2,3,4],
          "이름" : ["홍길동","신사임당","강감찬","이순신"],
          "학년" : [2,4,1,3]}
data2 = { "학번" : [1,2,4,5],
          "학과" : ["CS","MATH","MATH","CS"],
          "학점" : [3.4,2.9,4.5,1.2]}
#     데이터베이스라고 생각하면, 학번은 primary key가 되겠지?

df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)
display(df1, df2)

# inner join
#     on : merge의 기준
display(pd.merge(df1, df2, on="학번", how="inner"))

# outer join
display(pd.merge(df1, df2, on="학번", how="outer"))

# inner join에서 join의 기준 컬럼명이 다른 경우 직접 지정해주기
data1 = { "학번" : [1,2,3,4],
          "이름" : ["홍길동","신사임당","강감찬","이순신"],
          "학년" : [2,4,1,3]}
data2 = { "학생학번" : [1,2,4,5],
          "학과" : ["CS","MATH","MATH","CS"],
          "학점" : [3.4,2.9,4.5,1.2]}
df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)
display(pd.merge(df1, df2, left_on="학번", right_on="학생학번", how="inner"))

Unnamed: 0,학번,이름,학년
0,1,홍길동,2
1,2,신사임당,4
2,3,강감찬,1
3,4,이순신,3


Unnamed: 0,학번,학과,학점
0,1,CS,3.4
1,2,MATH,2.9
2,4,MATH,4.5
3,5,CS,1.2


Unnamed: 0,학번,이름,학년,학과,학점
0,1,홍길동,2,CS,3.4
1,2,신사임당,4,MATH,2.9
2,4,이순신,3,MATH,4.5


Unnamed: 0,학번,이름,학년,학과,학점
0,1,홍길동,2.0,CS,3.4
1,2,신사임당,4.0,MATH,2.9
2,3,강감찬,1.0,,
3,4,이순신,3.0,MATH,4.5
4,5,,,CS,1.2


Unnamed: 0,학번,이름,학년,학생학번,학과,학점
0,1,홍길동,2,1,CS,3.4
1,2,신사임당,4,2,MATH,2.9
2,4,이순신,3,4,MATH,4.5


In [16]:
# seaborn
#     시각화를 도와주는 모듈
#     conda install seaborn

import numpy as np
import pandas as pd
import seaborn as sns

# seaborn 이 가지고 있는 데이터셋을 사용해보자.
# 데이터셋 중 titanic data set 이용하자
#     titanic호에 승선했던 사람들 리스트

titanic = sns.load_dataset('titanic')
display(titanic)
# survived 생존여부. 0 : 죽음, 1 : 생존
# pclass 객실등급
# sibsp 형제자매
# parch 부모자식
# embark_towm 배를 탑승한 곳

# 모든 행에 대해서 age와 fare만 추출해보자.
df = titanic.loc[:, ['age', 'fare']]
display(df) # 출력 : (891, 2)

# 사용자 정의 함수
def add_10(n):
    return n + 10
def myFunc(a, b):
    return a + b

# age 열의 모든 행에 대해서 함수 적용하기
# Series에 대해서 함수를 적용하자. => 함수 맵핑
# apply() 함수
#     함수가 적용된 Series가 결과값으로 리턴된다.
result1 = df['age'].apply(add_10)
print(result1.head())
result2 = df['age'].apply(myFunc, b=20) # Series 안에 있는 요소값이 자동으로 첫 번째 인자로 들어간다.
#     두 번째 인자는 직접 지정해주면 된다.
display(result2)

# 함수를 직접 만드는 것보다 lambda를 이용하면 조금 더 편하게 표현할 수 있다.
#     나중에 시간나면 알아보는 걸로.
result3 = df['age'].apply(lambda x: x + 30)
display(result3)



Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


Unnamed: 0,age,fare
0,22.0,7.2500
1,38.0,71.2833
2,26.0,7.9250
3,35.0,53.1000
4,35.0,8.0500
...,...,...
886,27.0,13.0000
887,19.0,30.0000
888,,23.4500
889,26.0,30.0000


0    32.0
1    48.0
2    36.0
3    45.0
4    45.0
Name: age, dtype: float64


0      42.0
1      58.0
2      46.0
3      55.0
4      55.0
       ... 
886    47.0
887    39.0
888     NaN
889    46.0
890    52.0
Name: age, Length: 891, dtype: float64

0      52.0
1      68.0
2      56.0
3      65.0
4      65.0
       ... 
886    57.0
887    49.0
888     NaN
889    56.0
890    62.0
Name: age, Length: 891, dtype: float64

In [18]:
# 위에서 설명한 건, Series에 대해서 apply() 함수를 적용할 수 있다.
# 그러면 DataFrame에 함수를 적용하려면 어떻게 해야 하나요?

# applymap()

# 모든 행에 대해서 age와 fare만 추출해보자.
df = titanic.loc[:, ['age', 'fare']]
display(df) # 출력 : (891, 2)

def add_10(n):
    return n + 10
result = df.applymap(add_10)
display(result)

Unnamed: 0,age,fare
0,22.0,7.2500
1,38.0,71.2833
2,26.0,7.9250
3,35.0,53.1000
4,35.0,8.0500
...,...,...
886,27.0,13.0000
887,19.0,30.0000
888,,23.4500
889,26.0,30.0000


Unnamed: 0,age,fare
0,32.0,17.2500
1,48.0,81.2833
2,36.0,17.9250
3,45.0,63.1000
4,45.0,18.0500
...,...,...
886,37.0,23.0000
887,29.0,40.0000
888,,33.4500
889,36.0,40.0000


In [28]:
# Grouping
df = titanic.loc[:, ['age', 'sex', 'class', 'fare', 'survived']]
display(df.head())

# group으로 묶자
grouped = df.groupby(['class'])
print(grouped) # 출력 : <pandas.core.groupby.generic.DataFrameGroupBy object at 0x000002B0BA828850>
#     객체의 레퍼런스만 출력된다.

# 총 891개의 데이터가 class를 기준으로 'First', 'Second', 'Third'
# 3개의 그룹으로 묶인다. 확인은 for문으로 한다.
for (key, group) in grouped:
    print(' key : {}'.format(key))
    print('count : {}'.format(len(group))) # group : grouped에서 나온 DataFrame
    display(group.head())

avg = grouped.mean()
#     grouped 자체가 DataFrame인데, 이 안에 평균을 구할 수 없는 데이터가 존재한다.
#     이럴땐 평균을 낼 수 있는 것만 평균을 낸다.
display(avg)

# 개별 그룹을 뽑아낼 수 있다.
group3 = grouped.get_group('Third')
display(group3)

Unnamed: 0,age,sex,class,fare,survived
0,22.0,male,Third,7.25,0
1,38.0,female,First,71.2833,1
2,26.0,female,Third,7.925,1
3,35.0,female,First,53.1,1
4,35.0,male,Third,8.05,0


<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000002B0BD9585E0>
 key : First
count : 216


  for (key, group) in grouped:


Unnamed: 0,age,sex,class,fare,survived
1,38.0,female,First,71.2833,1
3,35.0,female,First,53.1,1
6,54.0,male,First,51.8625,0
11,58.0,female,First,26.55,1
23,28.0,male,First,35.5,1


 key : Second
count : 184


Unnamed: 0,age,sex,class,fare,survived
9,14.0,female,Second,30.0708,1
15,55.0,female,Second,16.0,1
17,,male,Second,13.0,1
20,35.0,male,Second,26.0,0
21,34.0,male,Second,13.0,1


 key : Third
count : 491


Unnamed: 0,age,sex,class,fare,survived
0,22.0,male,Third,7.25,0
2,26.0,female,Third,7.925,1
4,35.0,male,Third,8.05,0
5,,male,Third,8.4583,0
7,2.0,male,Third,21.075,0


  avg = grouped.mean()


Unnamed: 0_level_0,age,fare,survived
class,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
First,38.233441,84.154687,0.62963
Second,29.87763,20.662183,0.472826
Third,25.14062,13.67555,0.242363


Unnamed: 0,age,sex,class,fare,survived
0,22.0,male,Third,7.2500,0
2,26.0,female,Third,7.9250,1
4,35.0,male,Third,8.0500,0
5,,male,Third,8.4583,0
7,2.0,male,Third,21.0750,0
...,...,...,...,...,...
882,22.0,female,Third,10.5167,0
884,25.0,male,Third,7.0500,0
885,39.0,female,Third,29.1250,0
888,,female,Third,23.4500,0


In [34]:
# Grouping
df = titanic.loc[:, ['age', 'sex', 'class', 'fare', 'survived']]
display(df.head())

# group으로 묶자
#     2차 그룹핑. list를 이용한다.
grouped = df.groupby(['class', 'sex'])
print(grouped)
display(grouped.mean())

group4 = grouped.get_group(('Third', 'female'))
display(group4.head())

Unnamed: 0,age,sex,class,fare,survived
0,22.0,male,Third,7.25,0
1,38.0,female,First,71.2833,1
2,26.0,female,Third,7.925,1
3,35.0,female,First,53.1,1
4,35.0,male,Third,8.05,0


<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000002B0BDC5EBE0>


Unnamed: 0_level_0,Unnamed: 1_level_0,age,fare,survived
class,sex,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
First,female,34.611765,106.125798,0.968085
First,male,41.281386,67.226127,0.368852
Second,female,28.722973,21.970121,0.921053
Second,male,30.740707,19.741782,0.157407
Third,female,21.75,16.11881,0.5
Third,male,26.507589,12.661633,0.135447


Unnamed: 0,age,sex,class,fare,survived
2,26.0,female,Third,7.925,1
8,27.0,female,Third,11.1333,1
10,4.0,female,Third,16.7,1
14,14.0,female,Third,7.8542,0
18,31.0,female,Third,18.0,0


### Pandas 종합 실습 예제
1. 기상 관측 이래, 서울의 최고 기온이 가장 높았던 날은 언제였고, 몇도인가요?
2. (서울)역사적으로 일교차가 가장 큰 날짜는 몇년 몇월 몇일 인가요?
3. (서울)1년 중 평균적으로 일교차가 가장 큰 날짜는 몇월 몇일 인가요?
4. 가장 덥다고 알려진 대구보다 서울이 더 더운날이 가장 많은 연도는 언제인가요?

In [38]:
# 1. 기상 관측 이래, 서울의 최고 기온이 가장 높았던 날은 언제였고, 몇도인가요?

seouldf = pd.read_csv('./data/seoul.csv')
# daegudf = pd.read_csv('./data/weather-daegu.csv')

print(seouldf)



# print(df.shape) # 출력 : (9742, 3)
# display(df.head()) #
# head()
#     디폴트 옵션 : 상위 5개 데이터만 보여줌

# 이 방법 외에도 Open API, Database로부터 데이터를 받아서 DataFrame을 생성할 수도 있다.


               날짜   지점  평균기온(℃)  최저기온(℃)  최고기온(℃)
0      1907-10-01  108     13.5      7.9     20.7
1      1907-10-02  108     16.2      7.9     22.0
2      1907-10-03  108     16.2     13.1     21.3
3      1907-10-04  108     16.5     11.2     22.0
4      1907-10-05  108     17.6     10.9     25.4
...           ...  ...      ...      ...      ...
41747  2023-03-24  108     12.5      7.6     18.3
41748  2023-03-25  108     12.5      8.0     18.7
41749  2023-03-26  108      9.4      4.7     14.0
41750  2023-03-27  108      7.3      1.9     14.5
41751  2023-03-28  108      9.2      2.8     15.7

[41752 rows x 5 columns]
