In [1]:
import numpy as np
import pandas as pd

# 01 DataFrame

## 데이터프레임 구조

In [37]:
data = {'state': ['서울', '서울','서울', '부산', '부산', '부산'],
        'year': [2014, 2016, 2018, 2014, 2016, 2018],
        'pop': [997.5, 984.3, 970.5, 345.2, 344.7, 340.0]}

data

{'state': ['서울', '서울', '서울', '부산', '부산', '부산'],
 'year': [2014, 2016, 2018, 2014, 2016, 2018],
 'pop': [997.5, 984.3, 970.5, 345.2, 344.7, 340.0]}

In [38]:
df = pd.DataFrame(data)
df

Unnamed: 0,state,year,pop
0,서울,2014,997.5
1,서울,2016,984.3
2,서울,2018,970.5
3,부산,2014,345.2
4,부산,2016,344.7
5,부산,2018,340.0


In [6]:
print(type(data))
print(type(df))

<class 'dict'>
<class 'pandas.core.frame.DataFrame'>


## 데이터프레임 <-> csv

In [9]:
# df을 csv로 내보내기
df.to_csv('예제.csv', encoding='cp949', index=False) 

In [10]:
# csv를 df로 읽어오기
pd.read_csv('예제.csv', encoding='cp949') 

Unnamed: 0,state,year,pop
0,서울,2014,997.5
1,서울,2016,984.3
2,서울,2018,970.5
3,부산,2014,345.2
4,부산,2016,344.7
5,부산,2018,340.0


## 데이터프레임 주요 메소드

### 1. index, columns, values

In [12]:
# index
df.index

RangeIndex(start=0, stop=6, step=1)

In [13]:
list(df.index)

[0, 1, 2, 3, 4, 5]

In [14]:
# columns
df.columns

Index(['state', 'year', 'pop'], dtype='object')

In [15]:
list(df.columns)

['state', 'year', 'pop']

In [16]:
# values
df.values 

array([['서울', 2014, 997.5],
       ['서울', 2016, 984.3],
       ['서울', 2018, 970.5],
       ['부산', 2014, 345.2],
       ['부산', 2016, 344.7],
       ['부산', 2018, 340.0]], dtype=object)

In [17]:
list(df.values)

[array(['서울', 2014, 997.5], dtype=object),
 array(['서울', 2016, 984.3], dtype=object),
 array(['서울', 2018, 970.5], dtype=object),
 array(['부산', 2014, 345.2], dtype=object),
 array(['부산', 2016, 344.7], dtype=object),
 array(['부산', 2018, 340.0], dtype=object)]

In [18]:
titanic = pd.read_csv('C:/Users/USER/BITAmin/data/titanic.csv')
list(titanic.columns)

['PassengerId',
 'Survived',
 'Pclass',
 'Name',
 'Sex',
 'Age',
 'SibSp',
 'Parch',
 'Ticket',
 'Fare',
 'Cabin',
 'Embarked']

### 2. shape

In [19]:
df.shape # (행, 열); 튜플 자료형 

(6, 3)

In [20]:
df.shape[0] # 행 개수

6

In [21]:
df.shape[1] # 열 개수

3

### 3. dtypes

In [22]:
df.dtypes

state     object
year       int64
pop      float64
dtype: object

In [23]:
# cf. astype()
df.year = df.year.astype('object') # year; int -> object
df.dtypes # 다시 확인 

state     object
year      object
pop      float64
dtype: object

### 4. len

In [25]:
df.iloc[5] = [np.nan, np.nan, np.nan] # np.nan; 결측값 
df 

Unnamed: 0,state,year,pop
0,서울,2014.0,997.5
1,서울,2016.0,984.3
2,서울,2018.0,970.5
3,부산,2014.0,345.2
4,부산,2016.0,344.7
5,,,


In [26]:
# len
len(df) # 행 개수 = 관측 개수

6

In [27]:
# cf. count()
df.count() # Null값을 제외한 행 개수

state    5
year     5
pop      5
dtype: int64

In [28]:
# cf. size()
df.size # 행 개수*열 개수 = 값 개수

18

### 5. head(), tail()

In [38]:
# head()
df.head(3) # 상위 3개 확인

Unnamed: 0,state,year,pop
0,서울,2014,997.5
1,서울,2016,984.3
2,서울,2018,970.5


In [39]:
# tail()
df.tail(3) # 하위 3개 확인

Unnamed: 0,state,year,pop
3,부산,2014.0,345.2
4,부산,2016.0,344.7
5,,,


### 6. describe()

In [29]:
df. describe() # 수치형 변수의 요약통계량

Unnamed: 0,pop
count,5.0
mean,728.44
std,350.207064
min,344.7
25%,345.2
50%,970.5
75%,984.3
max,997.5


### 7. info()

In [30]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 3 columns):
state    5 non-null object
year     5 non-null object
pop      5 non-null float64
dtypes: float64(1), object(2)
memory usage: 224.0+ bytes


# 02 Series

## Series vs DataFrame

### 1. 열 가져오기

In [31]:
# [] 사용 O; 데이터프레임['칼럼명']
df['pop'] # pop; 칼럼명

0    997.5
1    984.3
2    970.5
3    345.2
4    344.7
5      NaN
Name: pop, dtype: float64

In [33]:
a = df['pop']
type(a) # Series

pandas.core.series.Series

In [32]:
# [] 사용 X; 데이터프레임.칼럼명
df.pop # pop; 메소드

<bound method NDFrame.pop of   state  year    pop
0    서울  2014  997.5
1    서울  2016  984.3
2    서울  2018  970.5
3    부산  2014  345.2
4    부산  2016  344.7
5   NaN   NaN    NaN>

### 2. value_counts()

In [34]:
df['state'].value_counts()

서울    3
부산    2
Name: state, dtype: int64

### 3. unique(), nunique()

In [45]:
# unique()
df['pop'].unique()

array([997.5, 984.3, 970.5, 345.2, 344.7,   nan])

In [46]:
# nunique()
df['pop'].nunique() # NaN은 count X

5

### cf. unique()를 통해 확인하는 DateFrame과 Series의 차이

In [57]:
df['pop'] # Series

0    997.5
1    984.3
2    970.5
3    345.2
4    344.7
5      NaN
Name: pop, dtype: float64

In [58]:
df['pop'].unique() # OK

array([997.5, 984.3, 970.5, 345.2, 344.7,   nan])

In [59]:
df[['pop']] # DataFrame

Unnamed: 0,pop
0,997.5
1,984.3
2,970.5
3,345.2
4,344.7
5,


In [54]:
df[['pop']].unique() # Error

AttributeError: 'DataFrame' object has no attribute 'unique'

### 4. Methods Chaining

In [None]:
# Q. titanic호에 가장 많이 탄 나이는 몇 살일까? 
# 1. 가장 많이 탄 나이
# 2. 그때 나이의 값 

In [60]:
# sol 1; 가독성
ta = titanic.Age.value_counts() 
ta.index[0] 

24.0

In [61]:
# sol 2; 숏코딩
titanic.Age.value_counts().index[0] # method chaining

24.0

# 03 Summarizing Data

## 데이터 요약을 위한 메소드

In [39]:
df.min() # dataframe -> summarizing -> series

state      부산
year     2014
pop       340
dtype: object

In [40]:
df.count() # 주의; Null값 제외

state    6
year     6
pop      6
dtype: int64

In [41]:
df.quantile(0.5) # 제 2사분위수=중앙값=디폴트
df.quantile(0.25) # 제 1사분위수

year    2014.500
pop      344.825
Name: 0.25, dtype: float64

# 04 Assign DataFame

## 데이터프레임 assign

In [42]:
dx = df.copy() # copy; 원본을 보존하면서 그대로 복사
display(dx)

Unnamed: 0,state,year,pop
0,서울,2014,997.5
1,서울,2016,984.3
2,서울,2018,970.5
3,부산,2014,345.2
4,부산,2016,344.7
5,부산,2018,340.0


In [43]:
dy = dx # assign; 주소만 복사, 내용은 복사 X -> 원본 변화
dx.iloc[1,1] = np.nan 

In [44]:
display(dx) # cf. 위의 display(dx)
display(dy) # dx와 동일
display(df) # 원래 df

Unnamed: 0,state,year,pop
0,서울,2014.0,997.5
1,서울,,984.3
2,서울,2018.0,970.5
3,부산,2014.0,345.2
4,부산,2016.0,344.7
5,부산,2018.0,340.0


Unnamed: 0,state,year,pop
0,서울,2014.0,997.5
1,서울,,984.3
2,서울,2018.0,970.5
3,부산,2014.0,345.2
4,부산,2016.0,344.7
5,부산,2018.0,340.0


Unnamed: 0,state,year,pop
0,서울,2014,997.5
1,서울,2016,984.3
2,서울,2018,970.5
3,부산,2014,345.2
4,부산,2016,344.7
5,부산,2018,340.0


## 매직커맨드

In [45]:
# 매직커맨드; 현재 내가 이 주피터에서 사용할 수 있는 변수 확인 가능
%whos

Variable   Type         Data/Info
---------------------------------
a          Series       0    997.5\n1    984.3\n2<...>Name: pop, dtype: float64
data       dict         n=3
df         DataFrame      state  year    pop\n0  <...>4.7\n5    부산  2018  340.0
dx         DataFrame      state    year    pop\n0<...>7\n5    부산  2018.0  340.0
dy         DataFrame      state    year    pop\n0<...>7\n5    부산  2018.0  340.0
np         module       <module 'numpy' from 'C:\<...>ges\\numpy\\__init__.py'>
pd         module       <module 'pandas' from 'C:<...>es\\pandas\\__init__.py'>
titanic    DataFrame         PassengerId  Survive<...>\n[891 rows x 12 columns]


# 05 Indexing and Slicing

## loc[], iloc[]

In [41]:
# loc; label 기준
# df.loc[row_label, col_label]
# 주로 열의 개수와 종류가 많을 때 한 열만 선택하고자 할 때

In [None]:
# iloc; index 기준
# df.iloc[row_index, col_index]
# 주로 여러 개의 행 또는 열을 연속적으로 뽑아야 할 때

## Some Rows & All Columns

In [46]:
df.iloc[0] # 0행(index), 전체 열 
df.loc[0] # '0'행(label), 전체 열  
df.iloc[0,:] # 0행(index), 전체 열

state       서울
year      2014
pop      997.5
Name: 0, dtype: object

In [77]:
df.loc[:1] # 행번호(0~1); 2개의 행

Unnamed: 0,state,year,pop
0,서울,2014,997.5
1,서울,2016,984.3


In [78]:
df.iloc[:1] # 인덱스(0~1-1=0); 1개의 행

Unnamed: 0,state,year,pop
0,서울,2014,997.5


## All Rows & Some Columns

In [82]:
# 모두 같은 결과
df.loc[:, 'state'] # 전체 행, 'state'열(label)
df.iloc[:, 0] # 전체 행, 0열(index)
df.state # Series
df['state'] # Series

0    서울
1    서울
2    서울
3    부산
4    부산
5    부산
Name: state, dtype: object

In [83]:
# 칼럼명 slicing by loc; 콜론 이용
df.loc[:,'state':'pop'] # state, year, pop

Unnamed: 0,state,year,pop
0,서울,2014,997.5
1,서울,2016,984.3
2,서울,2018,970.5
3,부산,2014,345.2
4,부산,2016,344.7
5,부산,2018,340.0


In [45]:
# 특정 열만 가져오기; 리스트 이용
df[['state','pop']] # state, pop

Unnamed: 0,state,pop
0,서울,997.5
1,서울,984.3
2,서울,970.5
3,부산,345.2
4,부산,344.7
5,,


## Subset of Rows and Columns

In [50]:
df.loc[0:2, ['state', 'year']]

Unnamed: 0,state,year
0,서울,2014
1,서울,2016
2,서울,2018


# 06 Boolean Indexing

## Boolean Indexing 

In [46]:
# 비교연산자(==, <, <=, >, >= !=)
# in 연산자(in, not in, ==, !=)
# 논리 연산자(and, or ,not)
# 위 연산자를 이용해서 bool 자료형으로 추출

In [85]:
df['pop']>500 # bool 자료형 추출; 'pop'의 값을 T/F로 encoding

0     True
1     True
2     True
3    False
4    False
5    False
Name: pop, dtype: bool

In [86]:
df[df['pop']>500] # 결과가 True인 행들만 추출

Unnamed: 0,state,year,pop
0,서울,2014,997.5
1,서울,2016,984.3
2,서울,2018,970.5


## Boolean indexing by isin

In [87]:
df['pop'].isin([997.5, 970.5]) # bool 자료형 추출; by 연산자 X, isin 메소드 O

0     True
1    False
2     True
3    False
4    False
5    False
Name: pop, dtype: bool

In [88]:
df[df['pop'].isin([997.5, 984.3])] # 이하 동일

Unnamed: 0,state,year,pop
0,서울,2014,997.5
1,서울,2016,984.3


## 조건에 맞는 데이터 추출 by query

In [None]:
# query 함수 사용법; DataFrame.query('조건문')
# 조건문은 문자열로 들아감
# 조건문에는 column명만 들어감
# 여러 조건문을 동시에 사용하고 싶으면 논리연산자 이용

In [91]:
df.query('pop > 900')

Unnamed: 0,state,year,pop
0,서울,2014,997.5
1,서울,2016,984.3
2,서울,2018,970.5


In [92]:
df.query("year in [2014, 2016] and state == '부산'")

Unnamed: 0,state,year,pop
3,부산,2014,345.2
4,부산,2016,344.7


In [71]:
# ex1
df.query('state==부산') # 에러; 조건문에는 column명만 들어감

In [55]:
df.query("state=='부산'") # string; 따옴표로 구분 

Unnamed: 0,state,year,pop
3,부산,2014,345.2
4,부산,2016,344.7


In [72]:
# ex2
k = df['pop'].value_counts().index[0] # k; 최빈값(이 경우 최빈값이 겹쳐서 그냥 첫번째 관측)
df.query('pop==k') # 에러; 마찬가지로 조건문에는 column명만 들어감

In [57]:
df.query('pop==@k') # 변수; 변수 앞에 @ 붙이기

Unnamed: 0,state,year,pop
4,부산,2016,344.7


# 07 Handling Missing Data

## 결측치 확인

In [47]:
df3 = pd.DataFrame({'lkey': ['b','b', 'a', 'c', 'a', 'a', 'b'],
                    'data1': range(7)})
df4 = pd.DataFrame({'rkey': ['a', 'b', 'd'], 'data2': range(3)})
df5 = pd.merge(df3, df4, left_on='lkey', right_on='rkey', how='outer')
df5

Unnamed: 0,lkey,data1,rkey,data2
0,b,0.0,b,1.0
1,b,1.0,b,1.0
2,b,6.0,b,1.0
3,a,2.0,a,0.0
4,a,4.0,a,0.0
5,a,5.0,a,0.0
6,c,3.0,,
7,,,d,2.0


In [48]:
# isnull() <-> notnull()
df5.isnull() #  결측값 존재 확인

Unnamed: 0,lkey,data1,rkey,data2
0,False,False,False,False
1,False,False,False,False
2,False,False,False,False
3,False,False,False,False
4,False,False,False,False
5,False,False,False,False
6,False,False,True,True
7,True,True,False,False


In [49]:
# isnull().sum()
df5.isnull().sum() # 결측값 개수 확인

lkey     1
data1    1
rkey     1
data2    1
dtype: int64

## 결측치 제거

In [50]:
# dropna(how='any')
df5.dropna(how='any') # 하나라도 NaN가 있으면 해당 행 제거

Unnamed: 0,lkey,data1,rkey,data2
0,b,0.0,b,1.0
1,b,1.0,b,1.0
2,b,6.0,b,1.0
3,a,2.0,a,0.0
4,a,4.0,a,0.0
5,a,5.0,a,0.0


In [51]:
# dropna(how='all')
df5.dropna(how='all') # 모두 NaN이라면 해당 행 제거

Unnamed: 0,lkey,data1,rkey,data2
0,b,0.0,b,1.0
1,b,1.0,b,1.0
2,b,6.0,b,1.0
3,a,2.0,a,0.0
4,a,4.0,a,0.0
5,a,5.0,a,0.0
6,c,3.0,,
7,,,d,2.0


In [108]:
# 결측치가 있는 행 제거 시 index가 맞지 않는 경우 발생
df5.iloc[6] = [np.nan, np.nan, np.nan, np.nan] # 인덱스 6행을 결측치로 변경
df5.dropna(how='all') # 5 -> 7

Unnamed: 0,lkey,data1,rkey,data2
0,b,0.0,b,1.0
1,b,1.0,b,1.0
2,b,6.0,b,1.0
3,a,2.0,a,0.0
4,a,4.0,a,0.0
5,a,5.0,a,0.0
7,,,d,2.0


In [110]:
# index reset
df5.dropna(how='all').reset_index(drop=True) # drop=True; 과거 index drop

Unnamed: 0,lkey,data1,rkey,data2
0,b,0.0,b,1.0
1,b,1.0,b,1.0
2,b,6.0,b,1.0
3,a,2.0,a,0.0
4,a,4.0,a,0.0
5,a,5.0,a,0.0
6,,,d,2.0


## 결측치 치환

In [112]:
# fillna(Value)
df5.fillna(-1) # 모두 같은 값으로 채우기; 일반적으로 X

Unnamed: 0,lkey,data1,rkey,data2
0,b,0.0,b,1.0
1,b,1.0,b,1.0
2,b,6.0,b,1.0
3,a,2.0,a,0.0
4,a,4.0,a,0.0
5,a,5.0,a,0.0
6,-1,-1.0,-1,-1.0
7,-1,-1.0,d,2.0


In [113]:
# fillna(Dictionay)
df5.fillna({'data1':1.5, 'data2':0.5, 'lkey':'Y','rkey':'a'}) # 열별로 다른 값으로 채우기; dictionary 이용

Unnamed: 0,lkey,data1,rkey,data2
0,b,0.0,b,1.0
1,b,1.0,b,1.0
2,b,6.0,b,1.0
3,a,2.0,a,0.0
4,a,4.0,a,0.0
5,a,5.0,a,0.0
6,Y,1.5,a,0.5
7,Y,1.5,d,2.0


In [114]:
# fillna(mathod='ffill')
df5.fillna(method='ffill') # 이전값으로 결측치 치환

Unnamed: 0,lkey,data1,rkey,data2
0,b,0.0,b,1.0
1,b,1.0,b,1.0
2,b,6.0,b,1.0
3,a,2.0,a,0.0
4,a,4.0,a,0.0
5,a,5.0,a,0.0
6,a,5.0,a,0.0
7,a,5.0,d,2.0


In [115]:
# fillna(mathod='bfill')
df5.fillna(method='bfill') # 이후값으로 결측치 치환

Unnamed: 0,lkey,data1,rkey,data2
0,b,0.0,b,1.0
1,b,1.0,b,1.0
2,b,6.0,b,1.0
3,a,2.0,a,0.0
4,a,4.0,a,0.0
5,a,5.0,a,0.0
6,,,d,2.0
7,,,d,2.0
