# 판다스 데이터 분석
- 데이터 처리를 위한 데이터 프레임을 제공
- 데이터 구조는 시리즈와 데이터프레임
- 데이터 전처리와 데이터를 표형태로 처리할 때 우수한 성능을 제공

## 필수 라이브러리 로딩

In [1]:
import numpy as np
import pandas as pd
import matplotlib as mpl
import matplotlib.pyplot as plt
%matplotlib inline

## Series 객체
- Numpy에서 제공하는 1차원 배열과 비슷하지만 각 데이터의 위치를 의미하는 index가 붙는다.
- 구성요소 : 값(value) + 인덱스(index)
- 속성 : Series.index, Series.vlaues, Series.dtype
- 형식 : pd.Series(data, index)

In [3]:
ser = pd.Series(np.random.randn(4), index=['a','b','c','d'])
ser

a    2.779805
b    1.530436
c    0.893927
d    1.587188
dtype: float64

In [4]:
# 파이썬의 자료구조 사전(dictionary)을 이용한 시리즈 객체 생성
data = {'seoul':2000, 'busan':2500, 'daejeon':3000}
s1 = pd.Series(data)
s1

seoul      2000
busan      2500
daejeon    3000
dtype: int64

In [5]:
data = {'a':0, 'b':1, 'c':2}
s2 = pd.Series(data, index=['b','c','d','a'])

In [6]:
s2

b    1.0
c    2.0
d    NaN
a    0.0
dtype: float64

In [7]:
pd.Series(7, index=['a', 'b', 'c'])

a    7
b    7
c    7
dtype: int64

In [8]:
ser

a    2.779805
b    1.530436
c    0.893927
d    1.587188
dtype: float64

In [9]:
# 라벨링된 인덱스를 사용할 경우
ser['a']

2.7798051349728405

In [10]:
ser[1:] + ser[:-1]

a         NaN
b    3.060872
c    1.787855
d         NaN
dtype: float64

In [14]:
ser1 = ser.rename('seoul')

In [15]:
ser1

a    2.779805
b    1.530436
c    0.893927
d    1.587188
Name: seoul, dtype: float64

In [17]:
# in, not in
# 사전을 바로 시리즈 객체로 변환이 가능하다.
# 사전에 키가 시리즈 인덱스가 된다.
ser

a    2.779805
b    1.530436
c    0.893927
d    1.587188
dtype: float64

In [18]:
'a' in ser

True

In [20]:
# 시리즈 객체를 사전취급가능
# 사전.keys()
# 사전.values()
# 사전.items()

for key, value in ser.items():
    print('%s : %d' % (key, value))

a : 2
b : 1
c : 0
d : 1


In [21]:
# del 사전객체[key]
del ser['c']
ser

a    2.779805
b    1.530436
d    1.587188
dtype: float64

**DataFrame : 데이터프레임(2차원 표 형태의 자료)**
- pd.DataFrame(data, index, columns)
- 여러 개의 Series가 결합된 형태

In [22]:
a = pd.DataFrame(np.arange(10,91,10).reshape(3,3))
a

Unnamed: 0,0,1,2
0,10,20,30
1,40,50,60
2,70,80,90


In [23]:
print(type(a))

<class 'pandas.core.frame.DataFrame'>


In [24]:
a.shape

(3, 3)

In [25]:
# 데이터사전을 이용한 데이터프레임 생성
df = pd.DataFrame({
    'weight': [70, 55, 80, 65, 75],
    'height': [175, 160, 185, 170, 180],
    'gender': ['Male', 'Female', 'Male', 'Female', 'Male']
})

print(df)

   weight  height  gender
0      70     175    Male
1      55     160  Female
2      80     185    Male
3      65     170  Female
4      75     180    Male


In [26]:
print(type(df))
print(type(df['weight']))

<class 'pandas.core.frame.DataFrame'>
<class 'pandas.core.series.Series'>


In [27]:
df[['weight','gender']]

Unnamed: 0,weight,gender
0,70,Male
1,55,Female
2,80,Male
3,65,Female
4,75,Male


In [31]:
# height값이 160이상인 자료만 추출
# df['height'] >= 160
df[df['height'] >= 170]

Unnamed: 0,weight,height,gender
0,70,175,Male
2,80,185,Male
3,65,170,Female
4,75,180,Male


In [33]:
# 성별이 여자인 자료만 추출
df[df['gender'] == 'Female']

Unnamed: 0,weight,height,gender
1,55,160,Female
3,65,170,Female


In [34]:
df[df.gender == 'Female']

Unnamed: 0,weight,height,gender
1,55,160,Female
3,65,170,Female
