## Pandas 시작

### Dictionary to Series
데이터프레임은 Series로 이루어져 있음. Dictionary로 이루어진 데이터를 Series로 바꾸는 방법에 대해 알아보자.

In [8]:
import pandas as pd

# 인덱스가 명시되어 있는 dict 자료형의 경우에 Series로 변환 시 인덱스가 그대로 적용됨.
dict = {"a": [1, 2], "b": 2, "c": "a", "d": 4}
dict_sr = pd.Series(dict)

print(type(dict_sr))
print(dict_sr)

# 인덱스가 숨겨져있는 list 자료형의 경우에 Series로 변환 시 자동으로 인덱싱이 진행됨.
list_data = ["2020-02-02", 3.14, "ABC", 100, True]
list_sr = pd.Series(list_data)

print(type(list_sr))
print(list_sr)

<class 'pandas.core.series.Series'>
a    [1, 2]
b         2
c         a
d         4
dtype: object
<class 'pandas.core.series.Series'>
0    2020-02-02
1          3.14
2           ABC
3           100
4          True
dtype: object


In [11]:
# 인덱스 배열은
dict_idx = dict_sr.index
dict_val = dict_sr.values

list_idx = list_sr.index
list_val = list_sr.values

print("Index of dict_sr =", dict_idx)
print("Values of dict_sr =", dict_val)
print("")
print("Index of list_sr =", list_idx)
print("Values of list_sr =", list_val)

Index of dict_sr = Index(['a', 'b', 'c', 'd'], dtype='object')
Values of dict_sr = [list([1, 2]) 2 'a' 4]

Index of list_sr = RangeIndex(start=0, stop=5, step=1)
Values of list_sr = ['2020-02-02' 3.14 'ABC' 100 True]


In [16]:
# Tuple to Series
tup_data = ("영인", "2020-02-02", "여", True)
tup_sr = pd.Series(tup_data, index=["이름", "생년월일", "성별", "학생여부"])
print(tup_sr)
print("")

# 원소를 1개 선택하려면?
print(tup_sr[0])  # sr의 첫 번째 원소를 선택 (정수형 위치 인덱스 활용)
print(tup_sr["이름"])  # "이름" 라벨을 가진 원소를 선택 (인덱스 이름 활용)
print("")

# 여러 개의 원소를 선택하려면? (인덱스 리스트 활용)
print(tup_sr[[1, 2]])  # Series[[1, 3, 4]] 이런 식으로 이중 대괄호 사용
print("")
print(tup_sr[["생년월일", "성별"]])
print("")

# 여러 개의 원소를 선택하려면? (인덱스 범위 지정)
print(tup_sr[1:2])  # 슬라이싱은 Series[1:5] 이런 식으로 단일 대괄호로
print("")
print(tup_sr["생년월일":"학생여부"])

이름              영인
생년월일    2020-02-02
성별               여
학생여부          True
dtype: object

영인
영인

생년월일    2020-02-02
성별               여
dtype: object

생년월일    2020-02-02
성별               여
dtype: object

생년월일    2020-02-02
dtype: object

생년월일    2020-02-02
성별               여
학생여부          True
dtype: object


  print(tup_sr[0])        # sr의 첫 번째 원소를 선택 (정수형 위치 인덱스 활용)
  print(tup_sr[[1, 2]])   # Series[[1, 3, 4]] 이런 식으로 이중 대괄호 사용


In [19]:
# 열 이름을 key로 하고, 리스트를 value로 갖는 dictionary 정의 (2차원 배열)
dict_data1 = {
    "c0": [1, 2, 3],
    "c1": [4, 5, 6],
    "c2": [7, 8, 9],
    "c3": [10, 11, 12],
    "c4": [13, 14, 15],
}

# Pandas DataFrame() 함수로 dictonary를 dataframe으로 변환합니다.
dict_df1 = pd.DataFrame(dict_data1)

print(type(dict_df1))
print(dict_df1)

<class 'pandas.core.frame.DataFrame'>
   c0  c1  c2  c3  c4
0   1   4   7  10  13
1   2   5   8  11  14
2   3   6   9  12  15


In [23]:
dict_data2 = [[15, "남", "덕영중"], [17, "여", "수리중"]]

# 직접 인덱스와 컬럼 명을 지정하지 않았을 때
dict_df2 = pd.DataFrame(
    dict_data2,
    # index=["준서", "예은"],
    # columns=["나이", "성별", "학교"]
)

print("인덱스, 컬럼 명 지정X")
print(dict_df2)

인덱스, 컬럼 명 지정X
    0  1    2
0  15  남  덕영중
1  17  여  수리중


In [24]:
# 직접 인덱스와 컬럼 명을 지정하였을 때
dict_df2 = pd.DataFrame(
    dict_data2,
    index=["준서", "예은"],
    columns=["나이", "성별", "학교"]
)

print("인덱스, 컬럼 명 지정O")
print(dict_df2)

# 사실 동일한 column을 가지는 아주 아주 많은 데이터를 다루는 경우가 많기 때문에 보통은 columns 만 지정해주는 경우가 많음.

인덱스, 컬럼 명 지정O
    나이 성별   학교
준서  15  남  덕영중
예은  17  여  수리중


In [25]:
# 원래 인덱스와 컬럼 명을 직접 변경하려면?
dict_df2.index = ['학생1', '학생2']
dict_df2.columns = ['연령', '남녀', '소속']
dict_df2

Unnamed: 0,연령,남녀,소속
학생1,15,남,덕영중
학생2,17,여,수리중


In [33]:
# 직접 변경 방법 추가 (df.rename)
temp_df = dict_df2.rename(
    columns={"연령": "나이", "남녀": "성별", "소속": "학교"}, inplace=False
)  # inplace가 True이면 원본 수정, False면 출력할 때만 잠시 변환
print("inplace = False")
print(temp_df)
print("")
print(dict_df2)
print("")

dict_df2.rename(columns={"연령": "나이", "남녀": "성별", "소속": "학교"}, inplace=True)
print("inplace = True")
print(dict_df2)
print("")

inplace = False
     나이 성별   학교
학생1  15  남  덕영중
학생2  17  여  수리중

     연령 남녀   소속
학생1  15  남  덕영중
학생2  17  여  수리중

inplace = True
     나이 성별   학교
학생1  15  남  덕영중
학생2  17  여  수리중



In [46]:
# 특정 데이터만 선택.
exam_data = {
    "이름": ["서준", "우현", "인아"],
    "수학": [90, 80, 70],
    "영어": [98, 89, 95],
    "음악": [85, 95, 100],
    "체육": [100, 90, 90],
}
df = pd.DataFrame(exam_data)
print(df)
print("")

# 하나의 column만 뽑아오는 경우에, 해당 데이터는 Series 타입이 됨.
# 수학 점수 데이터만 선택, 변수 math1에 저장
math1 = df["수학"]
print(math1)
print(type(math1))
print("")

# 영어 점수 데이터만 선택, 변수 english에 저장
english = df["영어"]
print(english)
print(type(english))
print("")

# 여러 개의 column을 뽑아오는 경우에, 대괄호를 이중으로 묶어주고 해당 데이터는 DataFrame 타입이 됨.
# 음악 , 체육 점수 데이터만 선택, 변수 music_gym에 저장
music_gym = df[["음악", "체육"]]
print(music_gym)
print(type(music_gym))
print("")

   이름  수학  영어   음악   체육
0  서준  90  98   85  100
1  우현  80  89   95   90
2  인아  70  95  100   90

0    90
1    80
2    70
Name: 수학, dtype: int64
<class 'pandas.core.series.Series'>

0    98
1    89
2    95
Name: 영어, dtype: int64
<class 'pandas.core.series.Series'>

    음악   체육
0   85  100
1   95   90
2  100   90
<class 'pandas.core.frame.DataFrame'>



In [47]:
# 이름 열을 새로운 인덱스로 지정하고, df 객체에 변경사항 반영
# 바꿔 말하면, 인덱스를 이름으로 바꿔주는 것.
print(df)
print("")

df.set_index("이름", inplace=True)
print(df)
print("")

   이름  수학  영어   음악   체육
0  서준  90  98   85  100
1  우현  80  89   95   90
2  인아  70  95  100   90

    수학  영어   음악   체육
이름                  
서준  90  98   85  100
우현  80  89   95   90
인아  70  95  100   90



In [48]:
# df에서 특정 원소 선택
a = df.loc["서준", "음악"]  # df.loc['row', 'column']
print('서준의 음악 점수 =', a)
b = df.iloc[0, 2]
print('위와 동일 =', b)
print('')

# df에서 특정 원소 여러개 선택
c = df.loc['서준', ['음악', '체육']]
print('서준의 음악, 체육 점수 =', c)
d = df.iloc[0, [2, 3]]
print('위와 동일 =', d)
e = df.loc['서준', '음악':'체육']
print('위와 동일 =', e)
f = df.iloc[0, 2 :]
print('위와 동일 =', f)
print('')

서준의 음악 점수 = 85
위와 동일 = 85

서준의 음악, 체육 점수 = 음악     85
체육    100
Name: 서준, dtype: int64
위와 동일 = 음악     85
체육    100
Name: 서준, dtype: int64
위와 동일 = 음악     85
체육    100
Name: 서준, dtype: int64
위와 동일 = 음악     85
체육    100
Name: 서준, dtype: int64



In [52]:
exam_data = {
    "이름": ["서준", "우현", "인아"],
    "수학": [90, 80, 70],
    "영어": [98, 89, 95],
    "음악": [85, 95, 100],
    "체육": [100, 90, 90],
}
df = pd.DataFrame(exam_data)

# df를 전치하기 (메소드 활용)
df = df.transpose()
print(df)
print("")

# df를 전치하기 (클래스 속성 활용)
df = df.T
print(df)

      0   1    2
이름   서준  우현   인아
수학   90  80   70
영어   98  89   95
음악   85  95  100
체육  100  90   90

   이름  수학  영어   음악   체육
0  서준  90  98   85  100
1  우현  80  89   95   90
2  인아  70  95  100   90


In [1]:
# sklearn 라이브러리
from sklearn import preprocessing

In [2]:
# 전처리를 위한 encoder 객체 만들기
label_encoder = preprocessing.LabelEncoder()
onehot_encoder = preprocessing.OneHotEncoder()

- LabelEncoder(): 계산할 수 있는 변수로 바꿔줌.
- OneHotEncoder(): 명목변수를 더미변수로 바꿔줌. 열 늘어남.

## fit
- 실제 학습이 이루어지는 부분에서 등장하는 fit이 있음.
- 반대로 전처리가 이루어지는 부분에서 등장하는 fit도 존재함.