## 데이터 분석 배워보기
데이터 분석이란 데이터를 불러와 수정, 가공한 후 분석을 통해 통찰력을 얻고 답을 찾아나가는 과정이다.

우리가 실제 다루는 대부분의 데이터는 행과 열로 이루어진 테이블 형태이다. pandas 패키지는 1차원 배열인 시리즈(Series) 및 행과 열로 이루어진 2차원 배열인 데이터프레임(DataFrame)을 통해 데이터 분석 업무를 쉽게 처리할 수 있게 해준다. 이번 장에서는 pandas 패키지를 이용한 데이터 분석 방법에 대해 살펴보도록 하자.

In [2]:
import pandas as pd
dict_data = {'a':1, 'b':2, 'c':3}
series = pd.Series(dict_data)

print(series)

a    1
b    2
c    3
dtype: int64


In [3]:
type(series)

pandas.core.series.Series

In [4]:
series.index

Index(['a', 'b', 'c'], dtype='object')

In [5]:
list_data = ['a','b','c']
series_2 = pd.Series(list_data)

print(series_2)

0    a
1    b
2    c
dtype: object


In [6]:
series_3 = pd.Series(list_data, index = ['index1', 'index2', 'index3'])
print(series_3)

index1    a
index2    b
index3    c
dtype: object


In [7]:
capital = pd.Series({'korea': 'seoul','japan':'tokyo','china':'beijing'})
print(capital)

korea      seoul
japan      tokyo
china    beijing
dtype: object


In [8]:
capital['korea']

'seoul'

In [9]:
capital[['korea','china']]

korea      seoul
china    beijing
dtype: object

In [10]:
series_1 = pd.Series([1,2,3])
series_2 = pd.Series([4,5,6])

series_1 + series_2

0    5
1    7
2    9
dtype: int64

In [11]:
series_1 *2 

0    2
1    4
2    6
dtype: int64

In [12]:
dict_data = {'col1':[1,2,3], 'col2':[4,5,6],'col3':[7,8,9]}
df = pd.DataFrame(dict_data)

df

Unnamed: 0,col1,col2,col3
0,1,4,7
1,2,5,8
2,3,6,9


In [13]:
df3 = pd.DataFrame([[1,2,3],[4,5,6],[7,8,9]], index = ['index1','index2','index3'],columns = ['col1','col2','col3'])
df3

Unnamed: 0,col1,col2,col3
index1,1,2,3
index2,4,5,6
index3,7,8,9


In [14]:
df3.index = ['행 1','행 2','행 3']
df3.columns = ['열 1','열 2','열 3']

df3

Unnamed: 0,열 1,열 2,열 3
행 1,1,2,3
행 2,4,5,6
행 3,7,8,9


In [16]:
df3.rename(index={'행 1':'첫 번째 행'},inplace =True)
df3.rename(columns = {'열 1':'첫 번째 열'}, inplace = True)

df3

Unnamed: 0,첫 번째 열,열 2,열 3
첫 번째 행,1,2,3
행 2,4,5,6
행 3,7,8,9


In [17]:
df3.drop('행 3', axis = 0, inplace = True)
df3

Unnamed: 0,첫 번째 열,열 2,열 3
첫 번째 행,1,2,3
행 2,4,5,6


drop() 메서드는 행 혹은 열을 삭제한다. 삭제하고 싶은 행 인덱스 혹은 열 이름을 입력하면 해당 부분이 삭제되며, 행을 삭제할 때는 축(axis) 옵션으로 axis = 0을, 열을 삭제할 때는 axis = 1을 입력해야 한다. 마지막으로 inplace = True 옵션을 사용하면 원본 데이터가 변경된다.

행 삭제: DataFrame.drop(행 인덱스, axis=0, inplace=True)
열 삭제: DataFrame.drop(열 이름, axis=1, inplace=True)

In [19]:
dict_data = {'col1':[1,2,3,4], 'col2': [5,6,7,8],'col3': [9,10,11,12],'col4':[13,14,15,16]}

df = pd.DataFrame(dict_data, index = ['index1','index2','index3','index4'])

df

Unnamed: 0,col1,col2,col3,col4
index1,1,5,9,13
index2,2,6,10,14
index3,3,7,11,15
index4,4,8,12,16


In [20]:
df['col1']

index1    1
index2    2
index3    3
index4    4
Name: col1, dtype: int64

In [23]:
df.col1

index1    1
index2    2
index3    3
index4    4
Name: col1, dtype: int64

In [24]:
type(df['col1'])

pandas.core.series.Series

In [22]:
df[['col1']]


Unnamed: 0,col1
index1,1
index2,2
index3,3
index4,4


In [26]:
type(df[['col1']])

pandas.core.frame.DataFrame

In [27]:
df[['col1','col2']]

Unnamed: 0,col1,col2
index1,1,5
index2,2,6
index3,3,7
index4,4,8


In [28]:
df.loc['index1']

col1     1
col2     5
col3     9
col4    13
Name: index1, dtype: int64

In [31]:
df.loc[['index1']]

Unnamed: 0,col1,col2,col3,col4
index1,1,5,9,13


In [32]:
df.iloc[[0]]

Unnamed: 0,col1,col2,col3,col4
index1,1,5,9,13


In [33]:
df.loc['index1':'index3']

Unnamed: 0,col1,col2,col3,col4
index1,1,5,9,13
index2,2,6,10,14
index3,3,7,11,15


DataFrame.loc['행 인덱스', '열 이름']
DataFrame.iloc[행 위치, 열 위치]


In [34]:
df.loc[['index1','index3'],['col1','col4']]

Unnamed: 0,col1,col4
index1,1,13
index3,3,15


In [35]:
df.iloc[[0,2],[0,3]]

Unnamed: 0,col1,col4
index1,1,13
index3,3,15


In [36]:
df.iloc[0:2,0:3]

Unnamed: 0,col1,col2,col3
index1,1,5,9
index2,2,6,10
