<a href="https://colab.research.google.com/github/PyBlin/Study/blob/main/AI_Class1/Day16.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
import pandas as pd
import numpy as np

# IPython 디스플레이 설정 변경
pd.set_option('display.max_columns', 20)    # 출력할 열의 개수 설정
pd.set_option('display.max_colwidth', 20)   # 출력할 열의 너비 설정
pd.set_option('display.unicode.east_asian_width', True) # 유니코드 사용 너비 설정

# 경고 메세지 출력 방지
import warnings
warnings.filterwarnings('ignore')

# Series 객체

## Series 객체 생성

In [2]:
# list를 이용한 Series 객체 생성
s = pd.Series([1, 2, 3, np.nan, 6, 8])  # 첫 글자가 대문자면 함수 아닌 class
s

0    1.0
1    2.0
2    3.0
3    NaN
4    6.0
5    8.0
dtype: float64

In [3]:
type(s)

pandas.core.series.Series

In [4]:
s.index     # Series 객체의 index 속성(attribute)

RangeIndex(start=0, stop=6, step=1)

In [5]:
type(s.index)

pandas.core.indexes.range.RangeIndex

In [6]:
s.values    # Series 객체의 value 속성(attribute)

array([ 1.,  2.,  3., nan,  6.,  8.])

In [7]:
type(s.values)

numpy.ndarray

In [8]:
s = pd.Series(data=('hong', '2015-01-01', 'male', True),
              index=['이름', '생년월일', '성별', '학생유무'])
s

이름              hong
생년월일    2015-01-01
성별              male
학생유무          True
dtype: object

In [9]:
s.index

Index(['이름', '생년월일', '성별', '학생유무'], dtype='object')

In [10]:
s.values

array(['hong', '2015-01-01', 'male', True], dtype=object)

## Series 객체의 indexing / slicing

In [11]:
s[0]        # 정수 index를 이용한 indexing

'hong'

In [12]:
s['이름']   # 사용자 정의 index를 이용한 indexing

'hong'

In [13]:
s[[0, 2]]   # 정수 index 배열을 이용한 indexing

이름    hong
성별    male
dtype: object

In [14]:
s[['이름', '성별']]     # 사용자 정의 index 배열을 이용한 indexing

이름    hong
성별    male
dtype: object

In [15]:
s[0:2]  # 정수 index를 이용한 slicing에서는 마지막 index는 포함되지 않는다.

이름              hong
생년월일    2015-01-01
dtype: object

In [16]:
s['이름':'성별']    # 사용자 정의 index를 이용한 slicing에서는 마지막 index가 포함된다.

이름              hong
생년월일    2015-01-01
성별              male
dtype: object

# DataFrame

## DataFrame 생성

In [17]:
# dictionary = {key : value} --> DataFrame
d = {'a' : [1, 2, 3, 4, 5],
     'b' : [10, 20, 30, 40, 50],
     'c' : [100, 200, 300, 400, 500]}
df = pd.DataFrame(d)    # 대문자로 시작했으니 class
df

Unnamed: 0,a,b,c
0,1,10,100
1,2,20,200
2,3,30,300
3,4,40,400
4,5,50,500


In [18]:
type(df)

pandas.core.frame.DataFrame

In [19]:
df.index

RangeIndex(start=0, stop=5, step=1)

In [20]:
df.columns

Index(['a', 'b', 'c'], dtype='object')

In [21]:
df.values

array([[  1,  10, 100],
       [  2,  20, 200],
       [  3,  30, 300],
       [  4,  40, 400],
       [  5,  50, 500]])

In [22]:
values = [[15, '남', 'hong'],
          [17, '여', 'kim']]    # 중첩 list : 2차원
indexs = ['one', 'two']     # list : 1차원
columns = ['나이', '성별', '이름']      # list : 1차원

df = pd.DataFrame(values, index=indexs, columns=columns)
df

Unnamed: 0,나이,성별,이름
one,15,남,hong
two,17,여,kim


In [23]:
df.index

Index(['one', 'two'], dtype='object')

In [24]:
df.columns

Index(['나이', '성별', '이름'], dtype='object')

In [25]:
df.values

array([[15, '남', 'hong'],
       [17, '여', 'kim']], dtype=object)

In [26]:
df.dtypes

나이     int64
성별    object
이름    object
dtype: object

## DataFrame 행(데이터) / 열(변수) / 값 선택

In [27]:
# 행(데이터, 결측치, 샘플) 선택
df.loc['one']

나이      15
성별      남
이름    hong
Name: one, dtype: object

In [28]:
df.iloc[0]

나이      15
성별      남
이름    hong
Name: one, dtype: object

In [29]:
df.loc[['one', 'two']]

Unnamed: 0,나이,성별,이름
one,15,남,hong
two,17,여,kim


In [30]:
df.iloc[[0, 1]]

Unnamed: 0,나이,성별,이름
one,15,남,hong
two,17,여,kim


In [31]:
# slicing을 이용한 행 선택 (마지막 index 포함)
df.loc['one':'two']

Unnamed: 0,나이,성별,이름
one,15,남,hong
two,17,여,kim


In [32]:
df.iloc[0:1]

Unnamed: 0,나이,성별,이름
one,15,남,hong


In [33]:
# 열(변수, 특성)
df['나이']  # 변수명 하나 지정 : 결과는 Series 객체

one    15
two    17
Name: 나이, dtype: int64

In [34]:
df['이름']

one    hong
two     kim
Name: 이름, dtype: object

In [35]:
df[['이름', '나이']]    # 변수명 여러 개 지정(list) : 결과는 DataFrame

Unnamed: 0,이름,나이
one,hong,15
two,kim,17


In [36]:
df[['나이']]    # 변수명 하나 지정(list) : 결과는 DataFrame

Unnamed: 0,나이
one,15
two,17


In [37]:
# 원소(요소, 값) 선택
df.loc['one', '나이']

15

In [38]:
df.iloc[0, 0]

15

In [39]:
df.loc['one', ['나이', '이름']]     # 결과는 Series

나이      15
이름    hong
Name: one, dtype: object

In [40]:
df.loc[['one', 'two'], ['나이', '이름']]    # 결과는 DataFrame

Unnamed: 0,나이,이름
one,15,hong
two,17,kim


## 원소 변경

In [41]:
df2 = df[:]     # DataFrame 복사
df2

Unnamed: 0,나이,성별,이름
one,15,남,hong
two,17,여,kim


In [42]:
df2.loc['one', '나이'] = 20
df2

Unnamed: 0,나이,성별,이름
one,20,남,hong
two,17,여,kim


## 행(데이터) / 열(변수) 추가

In [43]:
# 행(데이터) 추가
df2.loc['three'] = ['35', '남', 'lee']
df2

Unnamed: 0,나이,성별,이름
one,20,남,hong
two,17,여,kim
three,35,남,lee


In [44]:
df2.loc['four'] = np.nan
df2

Unnamed: 0,나이,성별,이름
one,20.0,남,hong
two,17.0,여,kim
three,35.0,남,lee
four,,,


In [45]:
# 열(변수) 추가
df2['email'] = ['hong@korea.com', 'kim@korea.com', 'lee@korea.com', np.nan]
df2

Unnamed: 0,나이,성별,이름,email
one,20.0,남,hong,hong@korea.com
two,17.0,여,kim,kim@korea.com
three,35.0,남,lee,lee@korea.com
four,,,,


In [46]:
df2['address'] = np.nan
df2

Unnamed: 0,나이,성별,이름,email,address
one,20.0,남,hong,hong@korea.com,
two,17.0,여,kim,kim@korea.com,
three,35.0,남,lee,lee@korea.com,
four,,,,,


## 행(데이터) / 열(변수) 삭제

In [47]:
df2

Unnamed: 0,나이,성별,이름,email,address
one,20.0,남,hong,hong@korea.com,
two,17.0,여,kim,kim@korea.com,
three,35.0,남,lee,lee@korea.com,
four,,,,,


In [48]:
df2.drop('four')    # 행(데이터) 삭제, axis = 0

Unnamed: 0,나이,성별,이름,email,address
one,20,남,hong,hong@korea.com,
two,17,여,kim,kim@korea.com,
three,35,남,lee,lee@korea.com,


In [49]:
df2.drop('four', axis=0)

Unnamed: 0,나이,성별,이름,email,address
one,20,남,hong,hong@korea.com,
two,17,여,kim,kim@korea.com,
three,35,남,lee,lee@korea.com,


In [50]:
df3 = df2
df3

Unnamed: 0,나이,성별,이름,email,address
one,20.0,남,hong,hong@korea.com,
two,17.0,여,kim,kim@korea.com,
three,35.0,남,lee,lee@korea.com,
four,,,,,


In [51]:
df3.drop('four', inplace=True)  # inplace : 결과를 바로 반영
df3

Unnamed: 0,나이,성별,이름,email,address
one,20,남,hong,hong@korea.com,
two,17,여,kim,kim@korea.com,
three,35,남,lee,lee@korea.com,


In [52]:
df3.drop('address', axis=1)     # 열(변수) 삭제, axis = 1(열은 반드시 axis=1 설정)

Unnamed: 0,나이,성별,이름,email
one,20,남,hong,hong@korea.com
two,17,여,kim,kim@korea.com
three,35,남,lee,lee@korea.com


In [53]:
df3.drop('address', axis=1, inplace=True)
df3

Unnamed: 0,나이,성별,이름,email
one,20,남,hong,hong@korea.com
two,17,여,kim,kim@korea.com
three,35,남,lee,lee@korea.com


In [54]:
df3.drop(['one', 'three'])

Unnamed: 0,나이,성별,이름,email
two,17,여,kim,kim@korea.com


# 산술 연산

## Series 객체에 대한 산술 연산

In [55]:
s = pd.Series({'국어':100, '영어':90, '수학':70})
s

국어    100
영어     90
수학     70
dtype: int64

In [56]:
percentage = s / 200
percentage

국어    0.50
영어    0.45
수학    0.35
dtype: float64

In [57]:
s1 = s
s2 = pd.Series({'수학':95, '국어':85, '영어':100})

s1

국어    100
영어     90
수학     70
dtype: int64

In [58]:
s2

수학     95
국어     85
영어    100
dtype: int64

In [59]:
add = s1 + s2
add

국어    185
수학    165
영어    190
dtype: int64

In [60]:
s1 = pd.Series({'국어':100, '영어':np.nan, '수학':75})
s2 = pd.Series({'영어': 90, '수학':np.nan, '국어':88})

s1

국어    100.0
영어      NaN
수학     75.0
dtype: float64

In [61]:
s2

영어    90.0
수학     NaN
국어    88.0
dtype: float64

In [62]:
s1 + s2

국어    188.0
수학      NaN
영어      NaN
dtype: float64

In [63]:
s1.add(s2, fill_value=0)    # fill_value=0 : Nan --> 0

국어    188.0
수학     75.0
영어     90.0
dtype: float64

### DataFrame 산술

In [64]:
d = {'c1' : [1, 2, 3],
     'c2' : [4, 5, 6],
     'c3' : [7, 8, 9],
     'c4' : [10, 11, 12],
     'c5' : [13, 14, 15]}
df = pd.DataFrame(d)
df

Unnamed: 0,c1,c2,c3,c4,c5
0,1,4,7,10,13
1,2,5,8,11,14
2,3,6,9,12,15


In [65]:
add = df + 100
add

Unnamed: 0,c1,c2,c3,c4,c5
0,101,104,107,110,113
1,102,105,108,111,114
2,103,106,109,112,115


In [66]:
subtract = add - df
subtract

Unnamed: 0,c1,c2,c3,c4,c5
0,100,100,100,100,100
1,100,100,100,100,100
2,100,100,100,100,100


### 외부 파일 읽기

In [67]:
from google.colab import drive
drive.mount('/drive')

Mounted at /drive


In [69]:
df = pd.read_csv('/drive/MyDrive/Colab/AI1_Ouseoung_Lee/president_heights.csv')
df

Unnamed: 0,order,name,height(cm)
0,1,George Washington,189
1,2,John Adams,170
2,3,Thomas Jefferson,189
3,4,James Madison,163
4,5,James Monroe,183
5,6,John Quincy Adams,171
6,7,Andrew Jackson,185
7,8,Martin Van Buren,168
8,9,William Henry Ha...,173
9,10,John Tyler,183


In [70]:
df = pd.read_csv('/drive/MyDrive/Colab/AI1_Ouseoung_Lee/auto-mpg.csv')
df

Unnamed: 0,18.0,8,307.0,130.0,3504.,12.0,70,1,chevrolet chevelle malibu
0,15.0,8,350.0,165.0,3693.0,11.5,70,1,buick skylark 320
1,18.0,8,318.0,150.0,3436.0,11.0,70,1,plymouth satellite
2,16.0,8,304.0,150.0,3433.0,12.0,70,1,amc rebel sst
3,17.0,8,302.0,140.0,3449.0,10.5,70,1,ford torino
4,15.0,8,429.0,198.0,4341.0,10.0,70,1,ford galaxie 500
...,...,...,...,...,...,...,...,...,...
392,27.0,4,140.0,86.00,2790.0,15.6,82,1,ford mustang gl
393,44.0,4,97.0,52.00,2130.0,24.6,82,2,vw pickup
394,32.0,4,135.0,84.00,2295.0,11.6,82,1,dodge rampage
395,28.0,4,120.0,79.00,2625.0,18.6,82,1,ford ranger


In [71]:
# csv 파일에 항목에 대한 정보가 없는 경우 : header
df = pd.read_csv('/drive/MyDrive/Colab/AI1_Ouseoung_Lee/auto-mpg.csv', 
                 header=None)
df

Unnamed: 0,0,1,2,3,4,5,6,7,8
0,18.0,8,307.0,130.0,3504.0,12.0,70,1,chevrolet chevel...
1,15.0,8,350.0,165.0,3693.0,11.5,70,1,buick skylark 320
2,18.0,8,318.0,150.0,3436.0,11.0,70,1,plymouth satellite
3,16.0,8,304.0,150.0,3433.0,12.0,70,1,amc rebel sst
4,17.0,8,302.0,140.0,3449.0,10.5,70,1,ford torino
...,...,...,...,...,...,...,...,...,...
393,27.0,4,140.0,86.00,2790.0,15.6,82,1,ford mustang gl
394,44.0,4,97.0,52.00,2130.0,24.6,82,2,vw pickup
395,32.0,4,135.0,84.00,2295.0,11.6,82,1,dodge rampage
396,28.0,4,120.0,79.00,2625.0,18.6,82,1,ford ranger


In [72]:
# DataFrame 변수 이름 설정
df.columns = ['mpg', 'cylinders', 'displacement', 'horsepower', 'weight', 
              'acceleration', 'model_year', 'origin', 'name']
df

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model_year,origin,name
0,18.0,8,307.0,130.0,3504.0,12.0,70,1,chevrolet chevel...
1,15.0,8,350.0,165.0,3693.0,11.5,70,1,buick skylark 320
2,18.0,8,318.0,150.0,3436.0,11.0,70,1,plymouth satellite
3,16.0,8,304.0,150.0,3433.0,12.0,70,1,amc rebel sst
4,17.0,8,302.0,140.0,3449.0,10.5,70,1,ford torino
...,...,...,...,...,...,...,...,...,...
393,27.0,4,140.0,86.00,2790.0,15.6,82,1,ford mustang gl
394,44.0,4,97.0,52.00,2130.0,24.6,82,2,vw pickup
395,32.0,4,135.0,84.00,2295.0,11.6,82,1,dodge rampage
396,28.0,4,120.0,79.00,2625.0,18.6,82,1,ford ranger


In [73]:
df.loc[1:11]

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model_year,origin,name
1,15.0,8,350.0,165.0,3693.0,11.5,70,1,buick skylark 320
2,18.0,8,318.0,150.0,3436.0,11.0,70,1,plymouth satellite
3,16.0,8,304.0,150.0,3433.0,12.0,70,1,amc rebel sst
4,17.0,8,302.0,140.0,3449.0,10.5,70,1,ford torino
5,15.0,8,429.0,198.0,4341.0,10.0,70,1,ford galaxie 500
6,14.0,8,454.0,220.0,4354.0,9.0,70,1,chevrolet impala
7,14.0,8,440.0,215.0,4312.0,8.5,70,1,plymouth fury iii
8,14.0,8,455.0,225.0,4425.0,10.0,70,1,pontiac catalina
9,15.0,8,390.0,190.0,3850.0,8.5,70,1,amc ambassador dpl
10,15.0,8,383.0,170.0,3563.0,10.0,70,1,dodge challenger se
