In [1]:
import pandas as pd

In [13]:
df = pd.DataFrame({
    "name": ["Bob", "Alex", "Janice"],
    "age": [60, 25, 33]
})

In [14]:
df

Unnamed: 0,name,age
0,Bob,60
1,Alex,25
2,Janice,33


In [6]:
# csv 파일에서 데이터프레임을 만들 수 있다.
other_df = pd.read_csv("myfile.csv")

In [8]:
other_df

Unnamed: 0.1,Unnamed: 0,book_title,publishing_date,authors,text,text_clean
0,0,The Republic,-375,Plato,BOOK I\r\n\r\n\r\nSOCRATES - GLAUCON\r\n\r\nI ...,book socrates glaucon went yesterday piraeus g...
1,1,The Prince,1532,Niccolò Machiavelli,DEDICATION\r\n\r\n\r\nTo the Magnificent Loren...,dedication magnificent lorenzo di piero de med...
2,2,The Leviathan,1651,Thomas Hobbes,Nature (the art whereby God hath made and gove...,nature the art whereby god hath made governes ...
3,3,Second Treatise of Government,1689,John Locke,"PREFACE\r\n\r\nReader, thou hast here the begi...",preface reader thou hast beginning end discour...
4,4,Tao Te Ching,-400,Lao Tzu,PART 1.\r\n\r\n\r\nCh. 1. 1. The Tao that can ...,part 1 ch 1 1 tao trodden enduring unchanging ...
5,5,The Social Contract,1762,Jean-Jacques Rousseau,This little treatise is part of a longer work ...,little treatise part longer work began years a...


In [17]:
# 기존 열을 이용해 새로운 열을 쉽게 만들 수 있다.
df["age_plus_one"] = df["age"] + 1  # 열 = colum을 추가할 수 있다.  age에 1을 더한값을 넣겠다.
df["age_times_two"] = 2 * df["age"]  # age의 2배
df["age_squared"] = df["age"] * df["age"]
df["over_30"] = (df["age"] > 30)  # 이 열은 불리언(boolean)형의 값을 갖는다.  . age가 30을 넘는 값만

In [18]:
df

Unnamed: 0,name,age,age_plus_one,age_times_two,age_squared,over_30
0,Bob,60,61,120,3600,True
1,Alex,25,26,50,625,False
2,Janice,33,34,66,1089,True


In [30]:
# 데이터프레임의 열에도 내장 함수가 있다. 예를 들면
total_age = df["age"].sum()  # 합을 구한다.
median_age = df["age"].quantile(0.5)  # 중간값을 구한다.  / quantile -> 분위값 구하기

In [21]:
total_age

118

In [23]:
median_age

33.0

In [24]:
# 데이터 프레임에서 여러 행을 불러오고
# 그것으로 다시 새로운 데이터 프레임을 만들 수 있다.
df_below50 = df[df["age"] < 50]

In [25]:
df_below50

Unnamed: 0,name,age,age_plus_one,age_times_two,age_squared,over_30
1,Alex,25,26,50,625,False
2,Janice,33,34,66,1089,True


In [26]:
# 데이터프레임의 열에 람다 함수를 적용할 수 있다.
df["age_squared"] = df["age"].apply(lambda x: x * x)

In [27]:
df

Unnamed: 0,name,age,age_plus_one,age_times_two,age_squared,over_30
0,Bob,60,61,120,3600,True
1,Alex,25,26,50,625,False
2,Janice,33,34,66,1089,True


In [39]:
df = pd.DataFrame({
    "name": ["Bob", "Alex", "Jane"],
    "age": [60, 25, 33]
})

In [40]:
df

Unnamed: 0,name,age
0,Bob,60
1,Alex,25
2,Jane,33


In [41]:
# df에는 행마다 갖는 순서 번호 = index 값을 갖는다
print(df.index) # 기본값으로 줄 번호를 사용하므로 0-2를 출력한다.

RangeIndex(start=0, stop=3, step=1)


In [42]:
# 이번엔 내용은 같지만 색인으로 name을 사용하는 데이터 프레임을 만든다.
df_w_name_as_ind = df.set_index("name")
print(df_w_name_as_ind.index)  # 색인으로 사용하는 이름을 출력한다. -> name값이 index가 됨

Index(['Bob', 'Alex', 'Jane'], dtype='object', name='name')


In [57]:
# Bob 행의 값을 읽는다.
bobs_row = df_w_name_as_ind.loc["Bob"]  # -> ix 메소드가 빠져있어서 Error 발생 -> loc로 바뀜.
#bobs_row = df_w_name_as_ind.ix["Bob"]
print(bobs_row["age"])  # 60을 출력

60


In [46]:
# 보통 팬더스를 import할 때는 항상 아래처럼 pd로 바꾼다
# import pandas as bd -> import 판다스는 위에 이미 했으니 주석
s = pd.Series([1,2,3])  # 리스트로 시리즈를 만든다.

In [47]:
# 시리즈 S의 값을 출력해보자.
# 왼쪽의 0, 1, 2는 인덱스, 오른쪽의 1, 2, 3은 시리즈 s에 있는 값이다.
s

0    1
1    2
2    3
dtype: int64

In [48]:
s+2  # s의 모든 성분에 2를 더한다.

0    3
1    4
2    5
dtype: int64

In [49]:
s.index  # s의 인덱스

RangeIndex(start=0, stop=3, step=1)

In [50]:
# 길이가 같은 두 시리즈를 더하면 성분별로 덧셈을 한다.
s + pd.Series([4,4,5])

0    5
1    6
2    8
dtype: int64

    위에서 시리즈의 각 성분은 모두 같은 자료형이어야 한닥소 말했는데, 팬더스의 기능을 전부 사용해야 하는 상황이 아니면 여러 자료형을 시리즈 하나에 넣어도 상관없습니다.

In [54]:
bobs_row = df_w_name_as_ind.loc["Bob"]  # -> ix 메소드가 빠져있어서 Error 발생

In [55]:
type(bobs_row)

pandas.core.series.Series

In [56]:
bobs_row

age    60
Name: Bob, dtype: int64

In [64]:
df_w_age = pd.DataFrame({
    "name": ["Tom", "Tyrell", "Claire"],
    "age": [60, 25, 33]
})

In [65]:
df_w_age

Unnamed: 0,name,age
0,Tom,60
1,Tyrell,25
2,Claire,33


In [71]:
df_w_height = pd.DataFrame({
    "name": ["Tom", "Tyrell", "Claire"],
    "height": [3.2, 4.0, 5.5]
})

In [72]:
df_w_height

Unnamed: 0,name,height
0,Tom,3.2
1,Tyrell,4.0
2,Claire,5.5


In [73]:
joined = df_w_age.set_index("name").join(df_w_height.set_index("name"))

In [74]:
print(joined)

        age  height
name               
Tom      60     3.2
Tyrell   25     4.0
Claire   33     5.5


In [75]:
print(joined.reset_index())

     name  age  height
0     Tom   60     3.2
1  Tyrell   25     4.0
2  Claire   33     5.5


    데이터 프레임을 분할해서 새로운 데이터 프레임을 만들 수도 있습니다. 그러려면 groupby() 함수에 어떻게 데이터프레임을 분할하고 어떤 행을 선택할지 조건으로 넣어줍니다.

In [76]:
df = pd.DataFrame({
    "name": ["Tom", "Tyrell", "Claire"],
    "age": [60, 25, 33],
    "height": [6.2, 4.0, 5.5],
    "gender": ["M", "M", "F"]
})

In [77]:
# 내장 함수 mean()으로 각 열의 평균값을 구한다.

In [78]:
print(df.groupby("gender").mean())

         age  height
gender              
F       33.0     5.5
M       42.5     5.1


In [79]:
medians = df.groupby("gender").quantile(0.5)

In [80]:
# 이번엔 열마다 우리가 정의한 연산을 적용한다.

In [81]:
def agg(ddf):
    return pd.Series({
        "name": max(ddf["name"]),
        "oldest": max(ddf["age"]),
        "mean_height": ddf["height"].mean()
    })

In [82]:
print(df.groupby("gender").apply(agg))

          name  oldest  mean_height
gender                             
F       Claire      33          5.5
M       Tyrell      60          5.1
