In [2]:
# Pandas가 우리 가상 공간에 잘 설치되어 있는지 확인

import numpy as np
import pandas as pd

In [6]:
# Series 만들기
# python의 list를 이용

s = pd.Series([-1, 5, 10, 99], dtype=np.float64)
print(s)

# 현재 Series가 가지고 있는 값들을 ndarray로 가져옴
print(s.values) # [-1.  5. 10. 99.]

# 현재 Series가 가지고 있는 index 값을 가져옴
print(s.index)  # RangeIndex(start=0, stop=4, step=1)

0    -1.0
1     5.0
2    10.0
3    99.0
dtype: float64
[-1.  5. 10. 99.]
RangeIndex(start=0, stop=4, step=1)


In [12]:
# Series의 index를 지정할 수 있다

s = pd.Series([-1, 5, 10, 99], dtype=np.float64, index=['c', 'b', 'a', 'k'])

print(s)
print(s['a'])  # 10.0

# 인덱스를 새로 지정하면 기존의 숫자 인덱스 사용 가능? -> 가능
print(s[2])    # 10.0

# print(s['kk']) # KeyError

c    -1.0
b     5.0
a    10.0
k    99.0
dtype: float64
10.0
10.0


In [18]:
# 인덱스를 숫자로 다시 설정

s = pd.Series([-1, 5, 10, 99], dtype=np.float64, index=[0, 2, 100, 6])

print(s)
print(s[0])   # -1
print(s[100]) # 10.0
# print(s[1]) # KeyError, 숫자 형태로 index를 새롭게 설정하면 기존의 숫자 인덱스는 사라짐

0      -1.0
2       5.0
100    10.0
6      99.0
dtype: float64
-1.0
10.0


In [20]:
# 문자열로 인덱스를 설정할 때 중복이 가능?

s = pd.Series([-1, 5, 10, 99], dtype=np.float64, index=['c', 'b', 'c', 'k'])

print(s) # 중복된 인덱스 사용 가능

print(s['c']) # 인덱스에 해당한 값을 모두 가져옴, Series 형태의 결과

c    -1.0
b     5.0
c    10.0
k    99.0
dtype: float64
c    -1.0
c    10.0
dtype: float64


In [23]:
# Series는 기본적으로 ndarray 처럼 python의 list로 만들 수 있음

# dict를 이용해서 만들 수 있음

my_dict = { "서울":1000, "인천": 2000, "부산":3000 }

s = pd.Series(my_dict)
print(s)

# 나중에 index를 변경하는 것도 가능
s.index = ['Seoul', 'Inchoen', 'Busan']
s

서울    1000
인천    2000
부산    3000
dtype: int64


Seoul      1000
Inchoen    2000
Busan      3000
dtype: int64

In [29]:
import numpy as np
import pandas as pd
from datetime import date, datetime, timedelta

start_day = datetime(2022,1,1)

# 규칙성 있는 데이터를 가지고 자동으로 list를 만들기
# List Comprehension
# [int(x) for x in np.random.normal(50, 5, (10,))]
s1 = pd.Series([int(x) for x in np.random.normal(50, 5, (10,))],
              index=[start_day + timedelta(days=x) for x in range(10)])

s1

2022-01-01    53
2022-01-02    47
2022-01-03    42
2022-01-04    40
2022-01-05    46
2022-01-06    60
2022-01-07    51
2022-01-08    50
2022-01-09    48
2022-01-10    51
dtype: int64

In [30]:
start_day = datetime(2022,1,5)

s2 = pd.Series([int(x) for x in np.random.normal(70, 5, (10,))],
              index=[start_day + timedelta(days=x) for x in range(10)])
s2

2022-01-05    77
2022-01-06    65
2022-01-07    65
2022-01-08    70
2022-01-09    70
2022-01-10    70
2022-01-11    70
2022-01-12    73
2022-01-13    62
2022-01-14    78
dtype: int64

In [31]:
# Series에 대해서 사칙연산을 수행할 때 같은 index 끼리 연산을 수행
# 70 + NaN => NaN

s1 + s2

2022-01-01      NaN
2022-01-02      NaN
2022-01-03      NaN
2022-01-04      NaN
2022-01-05    123.0
2022-01-06    125.0
2022-01-07    116.0
2022-01-08    120.0
2022-01-09    118.0
2022-01-10    121.0
2022-01-11      NaN
2022-01-12      NaN
2022-01-13      NaN
2022-01-14      NaN
dtype: float64

In [None]:
# DataFrame
# Series의 집합
# 2차원 형태의 자료구조, 행과 열을 가지고 있는 Table 구조


In [36]:
# DataFrame 만들기
# dict로 만들기

data = { 'name':['홍길동', '신사임당', '이순신', '강감찬'],
         'year':[2015, 2018, 2020, 2021],
         'point':[3.5, 1.5, 4.2, 2.3] }
df = pd.DataFrame(data)

# DataFrame을 출력할 때는 print 대신 display() 사용
display(df)
print(df.shape) # (4, 3)

Unnamed: 0,name,year,point
0,홍길동,2015,3.5
1,신사임당,2018,1.5
2,이순신,2020,4.2
3,강감찬,2021,2.3


(4, 3)


In [39]:
data = { 'name':['홍길동', '신사임당', '이순신', '강감찬'],
         'year':[2015, 2018, 2020, 2021],
         'point':[3.5, 1.5, 4.2, 2.3] }
df = pd.DataFrame(data)

display(df)
print(df.index)   # RangeIndex(start=0, stop=4, step=1)
print(df.columns) # Index(['name', 'year', 'point'], dtype='object')
print(df.values)  # numpy ndarray

Unnamed: 0,name,year,point
0,홍길동,2015,3.5
1,신사임당,2018,1.5
2,이순신,2020,4.2
3,강감찬,2021,2.3


RangeIndex(start=0, stop=4, step=1)
Index(['name', 'year', 'point'], dtype='object')
[['홍길동' 2015 3.5]
 ['신사임당' 2018 1.5]
 ['이순신' 2020 4.2]
 ['강감찬' 2021 2.3]]


In [41]:
# DataFrame의 index와 column 이름을 변경하기

data = { 'name':['홍길동', '신사임당', '이순신', '강감찬'],
         'year':[2015, 2018, 2020, 2021],
         'point':[3.5, 1.5, 4.2, 2.3] }
df = pd.DataFrame(data)
display(df)

new_df = df.rename(columns = {'year':'입학년도', 'point':'학점'},
                  index = {0:'one'},
                  inplace = False)  # inplace 값이 True: 원본 변경
                                     # inplace 값이 False: 변경한 복사본을 만듦
new_df

Unnamed: 0,name,year,point
0,홍길동,2015,3.5
1,신사임당,2018,1.5
2,이순신,2020,4.2
3,강감찬,2021,2.3


Unnamed: 0,name,입학년도,학점
one,홍길동,2015,3.5
1,신사임당,2018,1.5
2,이순신,2020,4.2
3,강감찬,2021,2.3


In [43]:
data = { 'name':['홍길동', '신사임당', '이순신', '강감찬'],
         'year':[2015, 2018, 2020, 2021],
         'point':[3.5, 1.5, 4.2, 2.3] }
df = pd.DataFrame(data)
display(df)

# 현재 지정 index 없음, 숫자 index 사용중
# 특정 컬럼을 인덱스로 지정

new_df = df.set_index('year', inplace=False)
new_df

Unnamed: 0,name,year,point
0,홍길동,2015,3.5
1,신사임당,2018,1.5
2,이순신,2020,4.2
3,강감찬,2021,2.3


Unnamed: 0_level_0,name,point
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2015,홍길동,3.5
2018,신사임당,1.5
2020,이순신,4.2
2021,강감찬,2.3


In [44]:
# 특정 파일로부터 데이터를 불러들이기

df = pd.read_csv('./data/movies/movies.csv')
df

Unnamed: 0,movieId,title,genres
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,2,Jumanji (1995),Adventure|Children|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama|Romance
4,5,Father of the Bride Part II (1995),Comedy
...,...,...,...
9737,193581,Black Butler: Book of the Atlantic (2017),Action|Animation|Comedy|Fantasy
9738,193583,No Game No Life: Zero (2017),Animation|Comedy|Fantasy
9739,193585,Flint (2017),Drama
9740,193587,Bungo Stray Dogs: Dead Apple (2018),Action|Animation


In [45]:
print(df.shape)

(9742, 3)


In [None]:
# DataFrame은 외부 Source로부터 데이터를 받아서 생성할 수 있다

# 1. Database에 연결해서 Table 안에 있는 데이터를 DataFrame으로 만들 수 있다
# 2. JSON 데이터를 이용해서 DataFrame을 생성할 수 있다
# 3. Open API에서 나오는 데이터(JSON)를 이용해서 DataFrame을 생성할 수 있다

In [49]:
# DataFrame의 기능

data = { '이름': ['홍길동', '심사임당', '강감찬', '이순신', '을지문덕'],
         '학과': ['컴퓨터', '철학', '기계', '건축', '컴퓨터'],
         '학년': [1,2,2,4,3],
         '학점': [1.5, 2.0, 3.1, 1.1, 2.7]
        }

df = pd.DataFrame(data, 
                  columns=['학과', '이름', '학점', '학년', '등급'],
                  index=['one', 'two', 'three', 'four', 'five'])

# DataFrame에서 NaN(Not a Number)
# 의미: 값이 없음 -> Missing value(결치값)
# 결치값은 데이터 분석, ML, DL 에서 문제를 발생시킬 여지가 있음
# 따라서 없애야 한다
df

Unnamed: 0,학과,이름,학점,학년,등급
one,컴퓨터,홍길동,1.5,1,
two,철학,심사임당,2.0,2,
three,기계,강감찬,3.1,2,
four,건축,이순신,1.1,4,
five,컴퓨터,을지문덕,2.7,3,


In [50]:
data = { '이름': ['홍길동', '심사임당', '강감찬', '이순신', '을지문덕'],
         '학과': ['컴퓨터', '철학', '기계', '건축', '컴퓨터'],
         '학년': [1,2,2,4,3],
         '학점': [1.5, 2.0, 3.1, 1.1, 2.7]
        }

df = pd.DataFrame(data, 
                  columns=['학과', '이름', '학점', '학년', '등급'],
                  index=['one', 'two', 'three', 'four', 'five'])

# 수치연산이 가능한 column에 대해서 통계치를 계산해서 출력
display(df.describe())

Unnamed: 0,학점,학년
count,5.0,5.0
mean,2.08,2.4
std,0.825833,1.140175
min,1.1,1.0
25%,1.5,2.0
50%,2.0,2.0
75%,2.7,3.0
max,3.1,4.0


In [52]:
data = { '이름': ['홍길동', '심사임당', '강감찬', '이순신', '을지문덕'],
         '학과': ['컴퓨터', '철학', '기계', '건축', '컴퓨터'],
         '학년': [1,2,2,4,3],
         '학점': [1.5, 2.0, 3.1, 1.1, 2.7]
        }

df = pd.DataFrame(data, 
                  columns=['학과', '이름', '학점', '학년', '등급'],
                  index=['one', 'two', 'three', 'four', 'five'])

# 특정 column 추출
display(df)

# 학과 정보만 보고 싶다
df['학과'] # Series

Unnamed: 0,학과,이름,학점,학년,등급
one,컴퓨터,홍길동,1.5,1,
two,철학,심사임당,2.0,2,
three,기계,강감찬,3.1,2,
four,건축,이순신,1.1,4,
five,컴퓨터,을지문덕,2.7,3,


one      컴퓨터
two       철학
three     기계
four      건축
five     컴퓨터
Name: 학과, dtype: object

In [54]:
year = df['학년']   # column indexing
year['one'] = 1000  # View로 처리되기 때문에 값을 수정하면 원본의 값도 변경됨

print(year)
display(df)

one      1000
two         2
three       2
four        4
five        3
Name: 학년, dtype: int64


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  year['one'] = 1000


Unnamed: 0,학과,이름,학점,학년,등급
one,컴퓨터,홍길동,1.5,1000,
two,철학,심사임당,2.0,2,
three,기계,강감찬,3.1,2,
four,건축,이순신,1.1,4,
five,컴퓨터,을지문덕,2.7,3,


In [59]:
data = { '이름': ['홍길동', '심사임당', '강감찬', '이순신', '을지문덕'],
         '학과': ['컴퓨터', '철학', '기계', '건축', '컴퓨터'],
         '학년': [1,2,2,4,3],
         '학점': [1.5, 2.0, 3.1, 1.1, 2.7]
        }

df = pd.DataFrame(data, 
                  columns=['학과', '이름', '학점', '학년', '등급'],
                  index=['one', 'two', 'three', 'four', 'five'])

# 학과와 이름만 가져오기
display(df[['학과','이름']]) # Fancy Indexing

# 슬라이싱
# 숫자로 표현할 때는 앞:뒤 에서 앞은 inclusive, 뒤는 exclusive
# 지정 인덱스로 표현할 때 '앞':'뒤' 에서 둘 다 inclusive
# display(df['학과':'이름'])   # Error
# 슬라이싱 표현은 row에만 해당되고 column에는 해당되지 않음
# Fancy Indexing 사용
display(df['one':'three']) 

Unnamed: 0,학과,이름
one,컴퓨터,홍길동
two,철학,심사임당
three,기계,강감찬
four,건축,이순신
five,컴퓨터,을지문덕


Unnamed: 0,학과,이름,학점,학년,등급
one,컴퓨터,홍길동,1.5,1,
two,철학,심사임당,2.0,2,
three,기계,강감찬,3.1,2,


In [61]:
df.T['학과':'이름'].T

Unnamed: 0,학과,이름
one,컴퓨터,홍길동
two,철학,심사임당
three,기계,강감찬
four,건축,이순신
five,컴퓨터,을지문덕


In [63]:
data = { '이름': ['홍길동', '심사임당', '강감찬', '이순신', '을지문덕'],
         '학과': ['컴퓨터', '철학', '기계', '건축', '컴퓨터'],
         '학년': [1,2,2,4,3],
         '학점': [1.5, 2.0, 3.1, 1.1, 2.7]
        }

df = pd.DataFrame(data, 
                  columns=['학과', '이름', '학점', '학년', '등급'],
                  index=['one', 'two', 'three', 'four', 'five'])

# DataFrame에 새로운 column 추가
df['나이'] = [20, 21, 22, 21, 20] # list -> Series로 자체적으로 변형되어 추가됨
df

Unnamed: 0,학과,이름,학점,학년,등급,나이
one,컴퓨터,홍길동,1.5,1,,20
two,철학,심사임당,2.0,2,,21
three,기계,강감찬,3.1,2,,22
four,건축,이순신,1.1,4,,21
five,컴퓨터,을지문덕,2.7,3,,20


In [64]:
data = { '이름': ['홍길동', '심사임당', '강감찬', '이순신', '을지문덕'],
         '학과': ['컴퓨터', '철학', '기계', '건축', '컴퓨터'],
         '학년': [1,2,2,4,3],
         '학점': [1.5, 2.0, 3.1, 1.1, 2.7]
        }

df = pd.DataFrame(data, 
                  columns=['학과', '이름', '학점', '학년', '등급'],
                  index=['one', 'two', 'three', 'four', 'five'])

# DataFrame에 새로운 column 추가
df['나이'] = pd.Series([20, 21, 22, 21, 20]) # 값이 안들어감, row 인덱스 이름이 달라서
df

Unnamed: 0,학과,이름,학점,학년,등급,나이
one,컴퓨터,홍길동,1.5,1,,
two,철학,심사임당,2.0,2,,
three,기계,강감찬,3.1,2,,
four,건축,이순신,1.1,4,,
five,컴퓨터,을지문덕,2.7,3,,


In [65]:
data = { '이름': ['홍길동', '심사임당', '강감찬', '이순신', '을지문덕'],
         '학과': ['컴퓨터', '철학', '기계', '건축', '컴퓨터'],
         '학년': [1,2,2,4,3],
         '학점': [1.5, 2.0, 3.1, 1.1, 2.7]
        }

df = pd.DataFrame(data, 
                  columns=['학과', '이름', '학점', '학년', '등급'],
                  index=['one', 'two', 'three', 'four', 'five'])

# DataFrame에 새로운 column 추가
df['나이'] = pd.Series([20, 21, 22, 21, 20],
                    index=['one', 'two', 'three', 'four', 'five'])
df

Unnamed: 0,학과,이름,학점,학년,등급,나이
one,컴퓨터,홍길동,1.5,1,,20
two,철학,심사임당,2.0,2,,21
three,기계,강감찬,3.1,2,,22
four,건축,이순신,1.1,4,,21
five,컴퓨터,을지문덕,2.7,3,,20


In [66]:
data = { '이름': ['홍길동', '심사임당', '강감찬', '이순신', '을지문덕'],
         '학과': ['컴퓨터', '철학', '기계', '건축', '컴퓨터'],
         '학년': [1,2,2,4,3],
         '학점': [1.5, 2.0, 3.1, 1.1, 2.7]
        }

df = pd.DataFrame(data, 
                  columns=['학과', '이름', '학점', '학년', '등급'],
                  index=['one', 'two', 'three', 'four', 'five'])

# 새로운 컬럼을 추가할 때 기존의 컬럼을 이용하여 데이터 추가
# 성적이 3.0 이상이면 장학생으로 선발
# '장학여부' 컬럼 추가 -> True, False
df['장학여부'] = df['학점'] > 3.0
df

Unnamed: 0,학과,이름,학점,학년,등급,장학여부
one,컴퓨터,홍길동,1.5,1,,False
two,철학,심사임당,2.0,2,,False
three,기계,강감찬,3.1,2,,True
four,건축,이순신,1.1,4,,False
five,컴퓨터,을지문덕,2.7,3,,False


In [67]:
data = { '이름': ['홍길동', '심사임당', '강감찬', '이순신', '을지문덕'],
         '학과': ['컴퓨터', '철학', '기계', '건축', '컴퓨터'],
         '학년': [1,2,2,4,3],
         '학점': [1.5, 2.0, 3.1, 1.1, 2.7]
        }

df = pd.DataFrame(data, 
                  columns=['학과', '이름', '학점', '학년', '등급'],
                  index=['one', 'two', 'three', 'four', 'five'])

# 불필요한 컬럼 삭제
new_df = df.drop('등급', axis=1, inplace=False)
new_df

Unnamed: 0,학과,이름,학점,학년
one,컴퓨터,홍길동,1.5,1
two,철학,심사임당,2.0,2
three,기계,강감찬,3.1,2
four,건축,이순신,1.1,4
five,컴퓨터,을지문덕,2.7,3


In [68]:
data = { '이름': ['홍길동', '심사임당', '강감찬', '이순신', '을지문덕'],
         '학과': ['컴퓨터', '철학', '기계', '건축', '컴퓨터'],
         '학년': [1,2,2,4,3],
         '학점': [1.5, 2.0, 3.1, 1.1, 2.7]
        }

df = pd.DataFrame(data, 
                  columns=['학과', '이름', '학점', '학년', '등급'],
                  index=['one', 'two', 'three', 'four', 'five'])

# 불필요한 컬럼 삭제
new_df = df.drop(['학점','등급'], axis=1, inplace=False) # Fancy Indexing 가능
new_df

Unnamed: 0,학과,이름,학년
one,컴퓨터,홍길동,1
two,철학,심사임당,2
three,기계,강감찬,2
four,건축,이순신,4
five,컴퓨터,을지문덕,3


In [None]:
# 1. DataFrame에서 column을 indexing 하면 View로 나옴
# 2. DataFrame에서 column에 대한 slicing은 지원하지 않음
# 3. DataFrame에서 column에 대한 Fancy Indexing은 지원
# 4. DataFrame에서 column의 추가는 없는 column을 indexing 해서 값을 넣어준다
#     단, Series를 추가할 때는 row index와 맞추어 추가
# 5. DataFrame에서 column을 추가할 때 기존 column의 연산을 통해 추가 가능
# 6. DataFrame에서 column을 삭제할 때 drop()을 사용, axis는 1

In [70]:
# row indexing

data = { '이름': ['홍길동', '심사임당', '강감찬', '이순신', '을지문덕'],
         '학과': ['컴퓨터', '철학', '기계', '건축', '컴퓨터'],
         '학년': [1,2,2,4,3],
         '학점': [1.5, 2.0, 3.1, 1.1, 2.7]
        }

df = pd.DataFrame(data, 
                  columns=['학과', '이름', '학점', '학년', '등급'],
                  index=['one', 'two', 'three', 'four', 'five'])

# 기본적인 row indexing 방법
# loc
print(df.loc['three']) # loc로는 숫자 인덱스 사용 불가, 지정 인덱스만 사용 가능
print(df.iloc[2])      # iloc는 숫자 인덱스를 사용

학과     기계
이름    강감찬
학점    3.1
학년      2
등급    NaN
Name: three, dtype: object
학과     기계
이름    강감찬
학점    3.1
학년      2
등급    NaN
Name: three, dtype: object


In [74]:
data = { '이름': ['홍길동', '심사임당', '강감찬', '이순신', '을지문덕'],
         '학과': ['컴퓨터', '철학', '기계', '건축', '컴퓨터'],
         '학년': [1,2,2,4,3],
         '학점': [1.5, 2.0, 3.1, 1.1, 2.7]
        }

df = pd.DataFrame(data, 
                  columns=['학과', '이름', '학점', '학년', '등급'],
                  index=['one', 'two', 'three', 'four', 'five'])

display(df.loc['two':'four']) # 컬럼과는 다르게 slicing 가능
display(df.loc[['one', 'three', 'five']]) # Fancy indexing 가능

# display(df.loc['two':-1]) # Error: 지정인덱스와 숫자인덱스는 함께 쓰지 못함
display(df.loc['two':])     # 가능


Unnamed: 0,학과,이름,학점,학년,등급
two,철학,심사임당,2.0,2,
three,기계,강감찬,3.1,2,
four,건축,이순신,1.1,4,


Unnamed: 0,학과,이름,학점,학년,등급
one,컴퓨터,홍길동,1.5,1,
three,기계,강감찬,3.1,2,
five,컴퓨터,을지문덕,2.7,3,


Unnamed: 0,학과,이름,학점,학년,등급
two,철학,심사임당,2.0,2,
three,기계,강감찬,3.1,2,
four,건축,이순신,1.1,4,
five,컴퓨터,을지문덕,2.7,3,


In [79]:
data = { '이름': ['홍길동', '심사임당', '강감찬', '이순신', '을지문덕'],
         '학과': ['컴퓨터', '철학', '기계', '건축', '컴퓨터'],
         '학년': [1,2,2,4,3],
         '학점': [1.5, 2.0, 3.1, 1.1, 2.7]
        }

df = pd.DataFrame(data, 
                  columns=['학과', '이름', '학점', '학년', '등급'],
                  index=['one', 'two', 'three', 'four', 'five'])

# column indexing & row indexing 함께 -> loc 이용
display(df.loc['two':'four', '학과':'이름'])

display(df.loc[['two', 'four'], ['학과', '이름', '학년']])

Unnamed: 0,학과,이름
two,철학,심사임당
three,기계,강감찬
four,건축,이순신


Unnamed: 0,학과,이름,학년
two,철학,심사임당,2
four,건축,이순신,4


In [93]:
data = { '이름': ['홍길동', '심사임당', '강감찬', '이순신', '을지문덕'],
         '학과': ['컴퓨터', '철학', '기계', '건축', '컴퓨터'],
         '학년': [1,2,2,4,3],
         '학점': [1.5, 2.0, 3.1, 1.1, 2.7]
        }

df = pd.DataFrame(data, 
                  columns=['학과', '이름', '학점', '학년', '등급'],
                  index=['one', 'two', 'three', 'four', 'five'])

display(df)

# 예제 1
# 학점이 1.5를 초과하는 학생의 이름과 학점을 DataFrame으로 출력하세요.
# df[df['학점'] > 1.5][['이름', '학점']]
display(df.loc[df['학점']>1.5, '이름':'학점'])

# 예제 2
# 학점이 3.0을 초과하는 사람을 찾아 등급을 A로 설정하고 나머지는 D로 설정하세요.
df['등급'] = 'D'
df.loc[df['학점']>3.0,'등급'] = 'A'
df

Unnamed: 0,학과,이름,학점,학년,등급
one,컴퓨터,홍길동,1.5,1,
two,철학,심사임당,2.0,2,
three,기계,강감찬,3.1,2,
four,건축,이순신,1.1,4,
five,컴퓨터,을지문덕,2.7,3,


Unnamed: 0,이름,학점
two,심사임당,2.0
three,강감찬,3.1
five,을지문덕,2.7


Unnamed: 0,학과,이름,학점,학년,등급
one,컴퓨터,홍길동,1.5,1,D
two,철학,심사임당,2.0,2,D
three,기계,강감찬,3.1,2,A
four,건축,이순신,1.1,4,D
five,컴퓨터,을지문덕,2.7,3,D


In [95]:
data = { '이름': ['홍길동', '심사임당', '강감찬', '이순신', '을지문덕'],
         '학과': ['컴퓨터', '철학', '기계', '건축', '컴퓨터'],
         '학년': [1,2,2,4,3],
         '학점': [1.5, 2.0, 3.1, 1.1, 2.7]
        }

df = pd.DataFrame(data, 
                  columns=['학과', '이름', '학점', '학년', '등급'],
                  index=['one', 'two', 'three', 'four', 'five'])

# row 추가하기
df.loc['six', '이름':'학점'] = ['고길동', 4.0]
display(df)

# row 삭제하기
new_df = df.drop('three', axis=0, inplace=False)
new_df

Unnamed: 0,학과,이름,학점,학년,등급
one,컴퓨터,홍길동,1.5,1.0,
two,철학,심사임당,2.0,2.0,
three,기계,강감찬,3.1,2.0,
four,건축,이순신,1.1,4.0,
five,컴퓨터,을지문덕,2.7,3.0,
six,,고길동,4.0,,


Unnamed: 0,학과,이름,학점,학년,등급
one,컴퓨터,홍길동,1.5,1.0,
two,철학,심사임당,2.0,2.0,
four,건축,이순신,1.1,4.0,
five,컴퓨터,을지문덕,2.7,3.0,
six,,고길동,4.0,,


In [None]:
# 1. loc(iloc)를 이용하면 기본적으로 row indexing을 한다
#     indexing의 결과는 View (Series 혹은 DataFrame)
# 2. column과는 다르게 loc를 이용하면 slicing을 할 수 있다
#     Fancy Indexing 가능
# 3. loc를 이용하여 row와 column을 동시에 indexing, slicing 할 수 있다
# 4. loc와 boolean indexing을 이용하면 원하는 데이터만 추출 가능
# 5. loc를 이용해서 row의 추가 가능, drop()을 이용해서 row의 삭제 가능

In [None]:
# DataFrame의 주요 함수
# MPG data set 활용

In [97]:
df = pd.read_csv('./data/mpg/auto-mpg.csv', header=None)
df.columns = ['mpg', 'cylinders', 'displacement', 'horsepower',
              'weight', 'acceleration', 'model year', 'origin', 'name']
df

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model year,origin,name
0,18.0,8,307.0,130.0,3504.0,12.0,70,1,chevrolet chevelle malibu
1,15.0,8,350.0,165.0,3693.0,11.5,70,1,buick skylark 320
2,18.0,8,318.0,150.0,3436.0,11.0,70,1,plymouth satellite
3,16.0,8,304.0,150.0,3433.0,12.0,70,1,amc rebel sst
4,17.0,8,302.0,140.0,3449.0,10.5,70,1,ford torino
...,...,...,...,...,...,...,...,...,...
393,27.0,4,140.0,86.00,2790.0,15.6,82,1,ford mustang gl
394,44.0,4,97.0,52.00,2130.0,24.6,82,2,vw pickup
395,32.0,4,135.0,84.00,2295.0,11.6,82,1,dodge rampage
396,28.0,4,120.0,79.00,2625.0,18.6,82,1,ford ranger


In [99]:
# 데이터를 확인하기 위해서 사용하는 함수
# 1. head() -> 위에서부터 5개(default)의 row를 보여줌
#     괄호 안에 숫자를 넣으면 그 개수만큼 보여줌
df.head(3)

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model year,origin,name
0,18.0,8,307.0,130.0,3504.0,12.0,70,1,chevrolet chevelle malibu
1,15.0,8,350.0,165.0,3693.0,11.5,70,1,buick skylark 320
2,18.0,8,318.0,150.0,3436.0,11.0,70,1,plymouth satellite


In [100]:
# 2. tail() -> 마지막부터 n개의 row를 보여줌
df.tail(2)

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model year,origin,name
396,28.0,4,120.0,79.0,2625.0,18.6,82,1,ford ranger
397,31.0,4,119.0,82.0,2720.0,19.4,82,1,chevy s-10


In [101]:
# 3. shape -> 행과 열의 개수를 알려줌
df.shape

(398, 9)

In [102]:
# 4. info() -> DataFrame의 기본 정보 알려줌
#     결치값(misssing value)를 확인하기에 좋음
#     결치값은 무조건 처리
#     처리 방법
#         1. 지우기 (가장 좋음, 데이터가 충분히 많은 경우)
#         2. 값을 보정 (데이터가 충분치 않은 경우)
#             보정 방식 2가지
#                 - 일반적인 통계 함수 사용 (평균값, 중앙값, 최댓값, 최솟값)
#                 - 머신러닝 기법 이용
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 398 entries, 0 to 397
Data columns (total 9 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   mpg           398 non-null    float64
 1   cylinders     398 non-null    int64  
 2   displacement  398 non-null    float64
 3   horsepower    398 non-null    object 
 4   weight        398 non-null    float64
 5   acceleration  398 non-null    float64
 6   model year    398 non-null    int64  
 7   origin        398 non-null    int64  
 8   name          398 non-null    object 
dtypes: float64(4), int64(3), object(2)
memory usage: 28.1+ KB
