# 판다스 데이터 분석
- 데이터 처리를 위한 데이터 프레임을 제공
- 데이터 구조는 시리즈와 데이터프레임
- 데이터 전처리와 데이터를 표 형태로 처리할 때 우수한 성능을 제공

## 필수 라이브러리 로딩

In [1]:
import numpy as np
import pandas as pd
import matplotlib as mpl
import matplotlib.pyplot as plt
%matplotlib inline

## Series 객체
- Numpy에서 제공하는 1차원 배열과 비슷하지만 각 데이터의 위치를 의미하는 index가 붙는다.
- 구성요소: 값(value) + 인덱스(index)
- 속성: Series.index, Series.value, Series.dtype
- 형식: pd.Series(data, index)

In [2]:
ser = pd.Series(np.random.randn(4), index = ['a', 'b', 'c', 'd'])
ser

a    0.233829
b    0.566268
c    1.394777
d    0.272233
dtype: float64

In [3]:
ser.index  # pandas에서 object 타입은 문자열

Index(['a', 'b', 'c', 'd'], dtype='object')

In [5]:
ser.values

array([0.2338285 , 0.56626777, 1.39477741, 0.27223314])

In [7]:
# 파이썬의 자료구조 사전(dictionary)을 이용한 시리즈 객체 생성
data = {'seoul':2000, 'busan':2500, 'daejeon':3000} 
# 사전의 key = 시리즈의 index
s1 = pd.Series(data)
s1

seoul      2000
busan      2500
daejeon    3000
dtype: int64

In [8]:
data = {'a':0, 'b':1, 'c':2}
s2 = pd.Series(data, index = ['b', 'c', 'a','d'])
s2

b    1.0
c    2.0
a    0.0
d    NaN
dtype: float64

In [9]:
pd.Series(7, index=['a', 'b', 'c'])

a    7
b    7
c    7
dtype: int64

In [10]:
ser

a    0.233829
b    0.566268
c    1.394777
d    0.272233
dtype: float64

In [11]:
ser[0]

0.2338285005071774

In [12]:
ser[:3]

a    0.233829
b    0.566268
c    1.394777
dtype: float64

In [13]:
ser['a']

0.2338285005071774

In [14]:
ser['d'] = 7
ser

a    0.233829
b    0.566268
c    1.394777
d    7.000000
dtype: float64

In [15]:
ser[:3] # 0, 1, 2

a    0.233829
b    0.566268
c    1.394777
dtype: float64

In [16]:
ser['a':'c']

a    0.233829
b    0.566268
c    1.394777
dtype: float64

In [17]:
ser + ser

a     0.467657
b     1.132536
c     2.789555
d    14.000000
dtype: float64

In [18]:
ser * 2

a     0.467657
b     1.132536
c     2.789555
d    14.000000
dtype: float64

In [19]:
ser[1:] + ser[:-1]

a         NaN
b    1.132536
c    2.789555
d         NaN
dtype: float64

In [20]:
ser = pd.Series(np.random.randn(5), name = 'seoul')
ser

0   -0.155378
1   -1.530304
2   -0.666639
3    0.013767
4   -1.363675
Name: seoul, dtype: float64

In [21]:
ser1 = ser.rename('busan')
ser1

0   -0.155378
1   -1.530304
2   -0.666639
3    0.013767
4   -1.363675
Name: busan, dtype: float64

In [22]:
ser = pd.Series(np.random.randn(4), index = ['a', 'b', 'c', 'd'])
ser

a   -0.673874
b    0.794525
c   -0.050478
d   -1.018800
dtype: float64

In [23]:
# in, not in
# 사전을 바로 시리즈 객체로 변환 가능
# 사전의 키 = 시리즈의 인덱스
'a' in ser

True

In [24]:
'f' not in ser

True

In [25]:
# 시리즈 객체를 사전 취급 가능
# 사전.keys()
# 사전.values()
# 사전.items()

for key, value in ser.items():
    print("%s : %d" % (key, value))

a : 0
b : 0
c : 0
d : -1


In [26]:
# del 사전객체[키]
del ser['c']
ser

a   -0.673874
b    0.794525
d   -1.018800
dtype: float64

**DataFrame: 데이터프레임(2차원 표 형태의 자료)**
- pd.DataFrame(data, index, columns)
- 여러 개의 Series가 결합된 형태

In [27]:
a = pd.DataFrame([[10, 20, 30],
                 [40, 50, 60],
                 [70, 80, 90]])
a

Unnamed: 0,0,1,2
0,10,20,30
1,40,50,60
2,70,80,90


In [28]:
print(type(a))

<class 'pandas.core.frame.DataFrame'>


In [29]:
a.shape

(3, 3)

In [30]:
# 데이터 사전을 이용한 데이터 프레임 생성
df = pd.DataFrame({'weight':[70,70.4,65.5,45.9,51.2],
                  'height':[170,150,184,195,163],
                  'gender':['f','m','f','m','m']})
df

Unnamed: 0,weight,height,gender
0,70.0,170,f
1,70.4,150,m
2,65.5,184,f
3,45.9,195,m
4,51.2,163,m


In [31]:
print(type(df))
print(type(df['weight']))

<class 'pandas.core.frame.DataFrame'>
<class 'pandas.core.series.Series'>


In [32]:
df['weight']

0    70.0
1    70.4
2    65.5
3    45.9
4    51.2
Name: weight, dtype: float64

In [33]:
df[['weight', 'gender']]

Unnamed: 0,weight,gender
0,70.0,f
1,70.4,m
2,65.5,f
3,45.9,m
4,51.2,m


In [36]:
# height 값이 160이상인 자료만 추출
df['height'] >= 160
df[df['height'] >= 160]

Unnamed: 0,weight,height,gender
0,70.0,170,f
2,65.5,184,f
3,45.9,195,m
4,51.2,163,m


In [38]:
# 성별이 여자인 자료만 추출
df[df['gender']=='f']

Unnamed: 0,weight,height,gender
0,70.0,170,f
2,65.5,184,f


In [39]:
df[df.gender == 'f']

Unnamed: 0,weight,height,gender
0,70.0,170,f
2,65.5,184,f
