# Pandas

In [63]:
import pandas as pd

In [67]:
# 데이터프레임 만들기
df = pd.DataFrame(
    {
        "name": ["김찬규", "정재현", "정원주", "사석현"],
        "gender": [0, 1, 0, 0],
        "school": ["서울대학교", "서울대학교", "서울과학기술대학교", "한양대학교"],
        "major": ["경영학과", "지구과학교육과", "시각디자인학과", "컴퓨터공학과"]
    }
)

In [68]:
df

Unnamed: 0,name,gender,school,major
0,김찬규,0,서울대학교,경영학과
1,정재현,1,서울대학교,지구과학교육과
2,정원주,0,서울과학기술대학교,시각디자인학과
3,사석현,0,한양대학교,컴퓨터공학과


In [71]:
# 특정 컬럼만 가져올 수 있음
df["school"]

0        서울대학교
1        서울대학교
2    서울과학기술대학교
3        한양대학교
Name: school, dtype: object

In [72]:
# 이런 식으로 필터링 가능
df[[True, True, False, False]]

Unnamed: 0,name,gender,school,major
0,김찬규,0,서울대학교,경영학과
1,정재현,1,서울대학교,지구과학교육과


In [78]:
df.iloc[0:1]

Unnamed: 0,name,gender,school,major
0,김찬규,0,서울대학교,경영학과


In [80]:
# 컬럼 연산
df["gender"] == 1

0    False
1     True
2    False
3    False
Name: gender, dtype: bool

In [82]:
# 컬럼 연산을 통한 필터링
df[df["gender"] == 1]

Unnamed: 0,name,gender,school,major
1,정재현,1,서울대학교,지구과학교육과


In [91]:
_df = df[df["school"] == "서울대학교"]
_df[_df["gender"] == 1]

Unnamed: 0,name,gender,school,major
1,정재현,1,서울대학교,지구과학교육과


In [95]:
# 특정 기준으로 데이터 정렬하기
df.sort_values(by="gender", ascending=False)

Unnamed: 0,name,gender,school,major
1,정재현,1,서울대학교,지구과학교육과
0,김찬규,0,서울대학교,경영학과
2,정원주,0,서울과학기술대학교,시각디자인학과
3,사석현,0,한양대학교,컴퓨터공학과


In [96]:
# 하지만 정렬한 값이 저장되지는 않음!
df

Unnamed: 0,name,gender,school,major
0,김찬규,0,서울대학교,경영학과
1,정재현,1,서울대학교,지구과학교육과
2,정원주,0,서울과학기술대학교,시각디자인학과
3,사석현,0,한양대학교,컴퓨터공학과


In [97]:
# 저장하려면 이렇게
df = df.sort_values(by="gender")
# df.sort_values(by="gender", inplace=True)  # 이것도 가능
df

Unnamed: 0,name,gender,school,major
0,김찬규,0,서울대학교,경영학과
2,정원주,0,서울과학기술대학교,시각디자인학과
3,사석현,0,한양대학교,컴퓨터공학과
1,정재현,1,서울대학교,지구과학교육과


In [103]:
df = df.reset_index(drop=True)
df

Unnamed: 0,name,gender,school,major
0,김찬규,0,서울대학교,경영학과
1,정원주,0,서울과학기술대학교,시각디자인학과
2,사석현,0,한양대학교,컴퓨터공학과
3,정재현,1,서울대학교,지구과학교육과


In [107]:
kor_demo = pd.read_csv("data/kor_demographic.csv")
kor_demo.head()

Unnamed: 0,idx,name,gender,height,weight
0,0,사수현,0,169.81,78.36
1,1,천영웅,1,160.28,52.59
2,2,고재지,1,165.44,52.64
3,3,천정웅,0,175.91,70.91
4,4,부영영,1,165.41,46.51


In [108]:
# 파일 불러오기
kor_score = pd.read_csv("data/kor_score.csv")
kor_score.head()

Unnamed: 0,idx,name,score
0,0,사수현,49
1,1,천영웅,58
2,2,고재지,65
3,3,천정웅,55
4,4,부영영,61


In [115]:
# TODO: kor_demo와 kor_score를 합쳐보자! (join 함수)
kor = kor_demo.join(kor_score, on="idx", rsuffix="_")
kor.head()

Unnamed: 0,idx,name,gender,height,weight,idx_,name_,score
0,0,사수현,0,169.81,78.36,0,사수현,49
1,1,천영웅,1,160.28,52.59,1,천영웅,58
2,2,고재지,1,165.44,52.64,2,고재지,65
3,3,천정웅,0,175.91,70.91,3,천정웅,55
4,4,부영영,1,165.41,46.51,4,부영영,61


In [117]:
kor = kor.filter(items=["idx", "name", "gender", "height", "weight", "score"])
kor.head()

Unnamed: 0,idx,name,gender,height,weight,score
0,0,사수현,0,169.81,78.36,49
1,1,천영웅,1,160.28,52.59,58
2,2,고재지,1,165.44,52.64,65
3,3,천정웅,0,175.91,70.91,55
4,4,부영영,1,165.41,46.51,61


In [119]:
# TODO: kor와 us를 합쳐보자! (concat 함수)
us = pd.read_csv("data/us.csv")
us.head()

Unnamed: 0,idx,name,gender,height,weight,score
0,0,Bob White,1,5.16,58.69,62
1,1,Werner White,0,5.5,71.51,38
2,2,Josh White,1,5.21,54.6,57
3,3,Bob Martin,1,5.17,47.98,67
4,4,Werner Lopez,0,5.57,67.47,68


In [125]:
# feet => cm
us["height"] = us["height"] * 30.48
us.head()

Unnamed: 0,idx,name,gender,height,weight,score,height_cm
0,0,Bob White,1,157.2768,58.69,62,157.2768
1,1,Werner White,0,167.64,71.51,38,167.64
2,2,Josh White,1,158.8008,54.6,57,158.8008
3,3,Bob Martin,1,157.5816,47.98,67,157.5816
4,4,Werner Lopez,0,169.7736,67.47,68,169.7736


In [138]:
try:
    us = us.drop(columns="height_cm")
except:
    pass
us.head()

Unnamed: 0,idx,name,gender,height,weight,score
0,0,Bob White,1,157.2768,58.69,62
1,1,Werner White,0,167.64,71.51,38
2,2,Josh White,1,158.8008,54.6,57
3,3,Bob Martin,1,157.5816,47.98,67
4,4,Werner Lopez,0,169.7736,67.47,68


In [149]:
df = pd.concat([kor, us]).reset_index(drop=True)
df

Unnamed: 0,idx,name,gender,height,weight,score
0,0,사수현,0,169.8100,78.36,49
1,1,천영웅,1,160.2800,52.59,58
2,2,고재지,1,165.4400,52.64,65
3,3,천정웅,0,175.9100,70.91,55
4,4,부영영,1,165.4100,46.51,61
...,...,...,...,...,...,...
1995,995,Jennifer Martin,0,178.6128,70.64,61
1996,996,Stuart Brown,1,159.4104,50.85,67
1997,997,James Davis,1,160.0200,47.56,64
1998,998,Bob Brown,1,160.9344,53.60,57


In [150]:
df.to_excel("data/kor_us.xlsx")

이제 모르는 것이 있다면 구글에 검색하면 된다!

*E.O.D.*