# 판다스 데이터 분석
- 데이터 처리를 위한 데이터 프레임을 제공
- 데이터 구조는 시리즈와 데이터프레임
- 데이터 전처리와 데이터를 표형태로 처리할 때 우수한 성능을 제공

## 필수 라이브러리 로딩

In [1]:
import numpy as np
import pandas as pd
import matplotlib as mpl
import matplotlib.pyplot as plt
%matplotlib inline

## Series 객체
- Numpy에서 제공하는 1차원 배열과 비슷하지만 각 데이터의 위치를 의미하는 index가 붙는다.
- 구성요소 : 값(value) + 인덱스(index)
- 속성 : Series.index, Series.values, Series.dtype
- 형식 : pd.Series(data, index)

In [3]:
ser = pd.Series(np.random.randn(4), index=['a','b','c','d'])

In [4]:
ser

a   -1.715732
b    0.939259
c    1.806143
d   -0.711127
dtype: float64

In [5]:
ser.index

Index(['a', 'b', 'c', 'd'], dtype='object')

In [6]:
ser.values

array([-1.71573202,  0.93925944,  1.80614312, -0.71112741])

In [7]:
ser.dtype

dtype('float64')

In [8]:
#파이썬의 자료구조 사전(dictionary)을 이용한 시리즈 객체 생성
data = {'seoul':2000, 'busan':2500,'daejeon':3000}
s1 = pd.Series(data)

In [9]:
s1

seoul      2000
busan      2500
daejeon    3000
dtype: int64

In [10]:
ser

a   -1.715732
b    0.939259
c    1.806143
d   -0.711127
dtype: float64

In [11]:
ser[:3]

a   -1.715732
b    0.939259
c    1.806143
dtype: float64

In [12]:
ser['a']

-1.7157320248282828

In [14]:
ser['d'] = 7
ser

a   -1.715732
b    0.939259
c    1.806143
d    7.000000
dtype: float64

In [15]:
ser + ser

a    -3.431464
b     1.878519
c     3.612286
d    14.000000
dtype: float64

In [16]:
ser*ser

a     2.943736
b     0.882208
c     3.262153
d    49.000000
dtype: float64

In [17]:
ser[1:] + ser[:-1]

a         NaN
b    1.878519
c    3.612286
d         NaN
dtype: float64

In [18]:
ser=pd.Series(np.random.randn(5), name = 'seoul')
ser

0   -0.338043
1   -0.044983
2   -1.174445
3   -1.220589
4    0.902448
Name: seoul, dtype: float64

In [19]:
ser

0   -0.338043
1   -0.044983
2   -1.174445
3   -1.220589
4    0.902448
Name: seoul, dtype: float64

In [21]:
ser = pd.Series(np.random.randn(4), index=['a','b','c','d'])

In [22]:
# in, not in
# 사전을 바로 시리즈 객체로 변환이 가능하다.
# 사전의 키가 시리즈 인덱스가 된다.


In [23]:
# 시리즈 객체를 사전 취급가능
# 사전.keys()
# 사전.values()
# 사전.items()
for key, value in ser.items():
    print('%s:%d' % (key, value))

a:1
b:0
c:0
d:0


In [24]:
del ser['c']

In [25]:
ser

a    1.284866
b   -0.195839
d   -0.327893
dtype: float64

**DataFrame : 데이터프레임(2차원 표 형태의 자료)**
- pd.DataFrame(data, index, columns)
- 여러개의 Series가 결합된 형태

In [26]:
a = pd.DataFrame([[10, 20, 30],[40, 50, 60],[70, 80, 90]])

In [27]:
a

Unnamed: 0,0,1,2
0,10,20,30
1,40,50,60
2,70,80,90


In [28]:
print(type(a))

<class 'pandas.core.frame.DataFrame'>


In [29]:
a.shape

(3, 3)

In [31]:
# 데이터 사전을 이용한 데이터프레임 생성
df = pd.DataFrame({'weight':[70, 70.4, 65.5, 49.9, 51.2],
                   'height':[170, 180, 160, 155, 143],
                   'gender':['f','m','m','f','f']
                  })
df

Unnamed: 0,weight,height,gender
0,70.0,170,f
1,70.4,180,m
2,65.5,160,m
3,49.9,155,f
4,51.2,143,f


In [33]:
print(type(df['weight']))

<class 'pandas.core.series.Series'>


In [34]:
df['weight']

0    70.0
1    70.4
2    65.5
3    49.9
4    51.2
Name: weight, dtype: float64

In [35]:
df[['weight','gender']]

Unnamed: 0,weight,gender
0,70.0,f
1,70.4,m
2,65.5,m
3,49.9,f
4,51.2,f


In [36]:
df[df['height']>=160][:]

Unnamed: 0,weight,height,gender
0,70.0,170,f
1,70.4,180,m
2,65.5,160,m


In [38]:
df[df.gender=='f'][:]

Unnamed: 0,weight,height,gender
0,70.0,170,f
3,49.9,155,f
4,51.2,143,f
