<a href="https://colab.research.google.com/github/codedyasai/Python_Intermediate/blob/main/05_%EB%8D%B0%EC%9D%B4%ED%84%B0%EB%B6%84%EC%84%9D_%ED%8C%90%EB%8B%A4%EC%8A%A4(pandas).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 판다스 데이터 분석
- 데이터 처리를 위한 데이터 프레임을 제공
- 데이터 구조는 시리즈와 데이터프레임
- 데이터 전처리와 데이터를 표형태로 처리할 때 우수한 성능을 제공

## 필수 라이브러리 로딩

In [None]:
import numpy as np
import pandas as pd
import matplotlib as mpl
import matplotlib.pyplot as plt
%matplotlib inline

## Series 객체
- Numpy에서 제공하는 1차원 배열과 비슷하지만 각 데이터의 위치를 의미하는 index가 붙는다.
- 구성요소: 값(value) + 인덱스(index)
- 속성: Series.index, Series.values, Series.dtype
- 형식 : pd.Series(data, index)

In [None]:
ser = pd.Series(np.random.randn(4), index=['a','b','c','d'])
ser

a    0.507788
b   -2.674457
c    0.647786
d    1.689955
dtype: float64

In [None]:
ser.index

Index(['a', 'b', 'c', 'd'], dtype='object')

In [None]:
ser.values

array([ 0.50778807, -2.67445722,  0.64778579,  1.68995498])

In [None]:
# 파이썬의 자료구조 사전(dictionary)를 이용한 시리즈 객체 생성
data = {'seoul':2000, 'busan':2500, 'daejeon':3000}
# 사전의 key = index
s1 = pd.Series(data)
s1

seoul      2000
busan      2500
daejeon    3000
dtype: int64

In [None]:
data = {'a':0, 'b':1, 'c':2}
s2 = pd.Series(data, index=['b', 'c', 'a'])
s2

b    1
c    2
a    0
dtype: int64

In [None]:
pd.Series(7, index=['a','b','c'])


a    7
b    7
c    7
dtype: int64

In [None]:
s1

seoul      2000
busan      2500
daejeon    3000
dtype: int64

In [None]:
s2

b    1
c    2
a    0
dtype: int64

In [None]:
ser

a    0.507788
b   -2.674457
c    0.647786
d    1.689955
dtype: float64

In [None]:
ser[0]

0.5077880739193794

In [None]:
ser[:3]

a    0.507788
b   -2.674457
c    0.647786
dtype: float64

In [None]:
# 라벨링된 인덱스를 사용할 경우
ser['a']

0.5077880739193794

In [None]:
ser['d'] = 7
ser

a    0.507788
b   -2.674457
c    0.647786
d    7.000000
dtype: float64

In [None]:
ser[:3] # 0,1,2

a    0.507788
b   -2.674457
c    0.647786
dtype: float64

In [None]:
ser['a':'c']

a    0.507788
b   -2.674457
c    0.647786
dtype: float64

In [None]:
ser + ser

a     1.015576
b    -5.348914
c     1.295572
d    14.000000
dtype: float64

In [None]:
ser * 2

a     1.015576
b    -5.348914
c     1.295572
d    14.000000
dtype: float64

In [None]:
ser[1:] + ser[:-1]

a         NaN
b   -5.348914
c    1.295572
d         NaN
dtype: float64

In [None]:
ser = pd.Series(np.random.randn(5), name='seoul')
ser

0    1.309301
1   -0.440201
2   -0.007985
3   -0.213235
4    0.063518
Name: seoul, dtype: float64

In [None]:
ser1 = ser.rename('busan')
ser1

0    1.309301
1   -0.440201
2   -0.007985
3   -0.213235
4    0.063518
Name: busan, dtype: float64

In [None]:
ser1.name

'busan'

In [None]:
ser

0    1.309301
1   -0.440201
2   -0.007985
3   -0.213235
4    0.063518
Name: seoul, dtype: float64

In [None]:
ser = pd.Series(np.random.randn(4), index=['a','b','c','d'])
ser

a   -0.310287
b    0.409151
c    1.218824
d    0.998458
dtype: float64

In [None]:
# in, not in
# 사전을 바로 시리즈 객체로 변환이 가능하다.
# 사전에 키가 시리즈 인덱스가 된다.
ser

a   -0.310287
b    0.409151
c    1.218824
d    0.998458
dtype: float64

In [None]:
'a' in ser

True

In [None]:
'f' not in ser

True

In [None]:
# 시리즈 객체를 사전취급가능
# 사전.keys()
# 사전.values()
# 사전.items()

for key, value in ser.items():
    print('%s: %d'% (key,value))

a: 0
b: 0
c: 1
d: 0


In [None]:
# del 사전객체[키]
del ser['c']
ser

a   -0.310287
b    0.409151
d    0.998458
dtype: float64

**DataFrame: 데이터프레임(2차원 표 형태의 자료)**
- pd.DataFrame(data, index, columns)
- 여러 개의 Series가 결합된 형태

In [None]:
a = pd.DataFrame([
    [10, 20, 30],
    [40, 50, 60],
    [70, 80, 90]
])
a

Unnamed: 0,0,1,2
0,10,20,30
1,40,50,60
2,70,80,90


In [None]:
print(type(a))

<class 'pandas.core.frame.DataFrame'>


In [None]:
a.shape

(3, 3)

In [None]:
# 데이터사전을 이용한 데이터프레임 생성
df = pd.DataFrame({
    'weight':[70, 70.4, 65.5, 45.9, 51.2],
    'height':[170, 180, 155, 143, 154],
    'gender':['f','m','m','f','f']
})
df

Unnamed: 0,weight,height,gender
0,70.0,170,f
1,70.4,180,m
2,65.5,155,m
3,45.9,143,f
4,51.2,154,f


In [None]:
df['weight']

0    70.0
1    70.4
2    65.5
3    45.9
4    51.2
Name: weight, dtype: float64

In [None]:
print(type(df))
print(type(df['weight']))

<class 'pandas.core.frame.DataFrame'>
<class 'pandas.core.series.Series'>


In [None]:
df['weight']

0    70.0
1    70.4
2    65.5
3    45.9
4    51.2
Name: weight, dtype: float64

In [None]:
df[['weight','gender']]

Unnamed: 0,weight,gender
0,70.0,f
1,70.4,m
2,65.5,m
3,45.9,f
4,51.2,f


In [None]:
# height값이 160이상인 자료만 추출
# maskbit가 필요하다

df[df['height'] >= 160]

Unnamed: 0,weight,height,gender
0,70.0,170,f
1,70.4,180,m


In [None]:
# 성별이 여자인 자료만 추출
df[df['gender'] == 'f']

Unnamed: 0,weight,height,gender
0,70.0,170,f
3,45.9,143,f
4,51.2,154,f


In [None]:
# 조건식일때 . 을 찍을 수 있다
df[df.gender =='f']

Unnamed: 0,weight,height,gender
0,70.0,170,f
3,45.9,143,f
4,51.2,154,f
