In [None]:
from IPython.display import display

In [None]:
import pandas as pd
import numpy as np

# Pandas DataFrame 만들기

pandas dataframe은 다양한 데이터 타입으로부터 만들 수 있다. ndarray, dictionary, dataframe, series, list의 예를 들고 있다. (IPython의 display 함수는 IPython 쉘 환경에서 pandas dataframe을 테이블 형식으로 표현해준다.)

In [None]:
myarray = np.array([[1, 2, 3], [4, 5, 6]])
display(pd.DataFrame(myarray))

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6


In [None]:
my_dict = {"a" : ["1", "3"], "b" : ["1", "2"], "c" : ["2", "4"]}
display(pd.DataFrame(my_dict))

Unnamed: 0,a,b,c
0,1,1,2
1,3,2,4


In [None]:
my_df = pd.DataFrame(data = [4, 5, 6, 7], index = range(0, 4), columns = ["A"])
display(pd.DataFrame(my_df))

Unnamed: 0,A
0,4
1,5
2,6
3,7


In [None]:
my_series = pd.Series({"United Kingdom" : "London", "India" : "New Delhi", "United States" : "Washington", "Belgium" : "Brussels"})
display(pd.DataFrame(my_series))

Unnamed: 0,0
United Kingdom,London
India,New Delhi
United States,Washington
Belgium,Brussels


# DataFrame 간단하게 살펴보기
df.shape를 통해 dataframe의 row와 column 수를 알 수 있다. 

.index를 통해 index를 알 수 있으며, len을 통해 dataframe의 길이(row의 개수)를 알 수 있다.

In [None]:
df = pd.DataFrame(np.array([[1, 2, 3], [4, 5, 6]]))
print(df.shape)
print(len(df.index))

(2, 3)
2


In [None]:
list(df.columns)

[0, 1, 2]

# DataFrame에서 특정 컬럼이나 로우(인덱스) 선택하기

pandas에서는 특정 columns이나 row를 선택하여 인덱싱하는 다양한 방법들이 존재한다.(iloc, loc 등)

In [None]:
df = pd.DataFrame({"A" : [1, 4, 7], "B" : [2, 5, 8], "C" : [3, 6, 9]})

# Use "iloc[] to select a row"
display(df.iloc[0])
display(df.loc[0])

# Use "loc[] to select a column"
display(df.loc[:, "A"])
display(df["A"])

# 특정 row, column 선택
display(df.iloc[0]["A"])
display(df.loc[0]["B"])

A    1
B    2
C    3
Name: 0, dtype: int64

A    1
B    2
C    3
Name: 0, dtype: int64

0    1
1    4
2    7
Name: A, dtype: int64

0    1
1    4
2    7
Name: A, dtype: int64

1

2

# DataFrame에 컬럼, 로우, 인덱스 추가하기

pandas는 기본적으로 row에 인덱스를 0부터 차례대로 자연수를 부여한다. 

이를 변경하는 방법은 set_index 함수를 이용하는 것이다.

In [None]:
df = pd.DataFrame({"A" : [1, 4, 7], "B" : [2, 5, 8], "C" : [3, 6, 9]})
display(df)

df = df.set_index("A")
display(df)

Unnamed: 0,A,B,C
0,1,2,3
1,4,5,6
2,7,8,9


Unnamed: 0_level_0,B,C
A,Unnamed: 1_level_1,Unnamed: 2_level_1
1,2,3
4,5,6
7,8,9


# ROW 추가하기

In [None]:
df = pd.DataFrame(data=np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]]), index= [2.5, 12.6, 4.8], columns=[48, 49, 50])
display(df)

# There's no index labeled `2`, so you will change the index at position `2`
df.iloc[2] = [60, 50, 40]
display(df)

# This will make an index labeled `2` and add the new values
df.loc[2] = [11, 12, 13]
display(df)

Unnamed: 0,48,49,50
2.5,1,2,3
12.6,4,5,6
4.8,7,8,9


Unnamed: 0,48,49,50
2.5,1,2,3
12.6,4,5,6
4.8,60,50,40


Unnamed: 0,48,49,50
2.5,1,2,3
12.6,4,5,6
4.8,60,50,40
2.0,11,12,13


# Append를 이용해 ROW 추가하기

In [None]:
df = pd.DataFrame(data=np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]]), columns=[48, 49, 50])
display(df)

a = pd.DataFrame(data=[[1,2,3]], columns=[48,49,50])
display(a)

df = df.append(a)
df = df.reset_index(drop=True)
display(df)

Unnamed: 0,48,49,50
0,1,2,3
1,4,5,6
2,7,8,9


Unnamed: 0,48,49,50
0,1,2,3


Unnamed: 0,48,49,50
0,1,2,3
1,4,5,6
2,7,8,9
3,1,2,3


# COLUMNS 추가하기

In [None]:
df = pd.DataFrame(data=np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]]), columns=['A', 'B', 'C'])

# Study the DataFrame `df`
display(df)

# Append a column to `df`
df.loc[:, 'D'] = pd.Series(['5', '6', '7'], index=df.index)

# Print out `df` again to see the changes
display(df)

df['E'] = pd.Series(['5', '6', '7'], index=df.index)
display(df)

Unnamed: 0,A,B,C
0,1,2,3
1,4,5,6
2,7,8,9


Unnamed: 0,A,B,C,D
0,1,2,3,5
1,4,5,6,6
2,7,8,9,7


Unnamed: 0,A,B,C,D,E
0,1,2,3,5,5
1,4,5,6,6,6
2,7,8,9,7,7


# DataFrame의 인덱스, 컬럼, 데이터 삭제하기

인덱스 삭제

reset_index를 이용해서 index를 리셋하는 것을 많이 사용한다. 혹은 index의 이름을 삭제하고 싶다면 del df.index.name을 통해 인덱스의 이름을 삭제할 수 있다. 
<br><br>
컬럼 삭제

drop 명령어를 통해 컬럼 전체를 삭제할 수 있다. axis=1은 컬럼을 뜻한다. axis=0인 경우, 로우를 삭제하며 이것이 디폴트이다. inplace의 경우 drop한 후의 데이터프레임으로 기존 데이터프레임을 대체하겠다는 뜻이다. 즉, 아래의 inplace=True는 df = df.drop('A', axis=1)과 같다.


In [None]:
df = pd.DataFrame(data=np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]]), columns=['A', 'B', 'C'])
display(df)

# Drop the column with label 'A'              
# drop axis의 경우 column이면 1, row이면 0이다.
df.drop('A', axis=1, inplace=True)
display(df)

Unnamed: 0,A,B,C
0,1,2,3
1,4,5,6
2,7,8,9


Unnamed: 0,B,C
0,2,3
1,5,6
2,8,9


# 중복 로우 삭제

drop_duplicate를 사용하면 특정 컬럼의 값이 중복된 로우를 제거할 수 있다. keep 키워드를 통해 중복된 것들 중 어떤 걸 킵할지 정할 수 있다.

In [None]:
df = pd.DataFrame(data=np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9], [40, 50, 60], [23, 35, 37]]), 
                  index= [2.5, 12.6, 4.8, 4.8, 2.5], 
                  columns=[48, 49, 50])

display(df)

df = df.reset_index()
display(df)

df = df.drop_duplicates(subset='index', keep='last').set_index('index')
display(df)

Unnamed: 0,48,49,50
2.5,1,2,3
12.6,4,5,6
4.8,7,8,9
4.8,40,50,60
2.5,23,35,37


Unnamed: 0,index,48,49,50
0,2.5,1,2,3
1,12.6,4,5,6
2,4.8,7,8,9
3,4.8,40,50,60
4,2.5,23,35,37


Unnamed: 0_level_0,48,49,50
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
12.6,4,5,6
4.8,40,50,60
2.5,23,35,37


# 인덱스를 통한 로우 삭제

drop 명령어를 통해 특정 index를 가진 row를 삭제할 수 있다. df.index[1] 명령어는 1번 째 위치에 있는 index를 가져온다. 가져온 이 index를 drop에 인풋으로 넣어주면 해당 index를 가진 row를 삭제할 수 있다.

In [None]:
# Check out your DataFrame `df`
df = pd.DataFrame(data=np.array([[1, 2, 3], [1, 5, 6], [7, 8, 9]]), columns=['A', 'B', 'C'])
display(df)

# Drop the index at position 1
print(df.index[1])
print(df.drop(df.index[1]))
print(df.drop(0))

Unnamed: 0,A,B,C
0,1,2,3
1,1,5,6
2,7,8,9


1
   A  B  C
0  1  2  3
2  7  8  9
   A  B  C
1  1  5  6
2  7  8  9


# 데이터 수정하기

특정 컬럼, 로우의 데이터를 수정하고 싶으면 ix 를 이용하면 편하다. 아래 코드는 인덱스=0, 컬럼=A의 데이터를 0으로 수정한다.

In [None]:
df = pd.DataFrame(data=np.array([[1, 2, 3], [1, 5, 6], [7, 8, 9]]), columns=['A', 'B', 'C'])
display(df)

df.iloc[0]['A'] = 0
display(df)

Unnamed: 0,A,B,C
0,1,2,3
1,1,5,6
2,7,8,9


Unnamed: 0,A,B,C
0,0,2,3
1,1,5,6
2,7,8,9


# 커스텀 데이터세트를 .csv 형태로 저장하기

Step 1 : txt 파일 열기

In [50]:
with open('student.txt', 'r') as f:
    data = f.readlines()

print(data)

# 저장된 값
"""

['이름 번호 국어 수학 영어\n',
 'AAA 1000 80 90 95\n',
 'BBB 1001 89 92 88\n',
 'CCC 1002 96 83 97\n',
 'DDD 1003 100 80 87']

"""

["['이름 번호 국어 수학 영어\\n',\n", " 'AAA 1000 80 90 95\\n',\n", " 'BBB 1001 89 92 88\\n',\n", " 'CCC 1002 96 83 97\\n',\n", " 'DDD 1003 100 80 87']"]


"\n\n['이름 번호 국어 수학 영어\n',\n 'AAA 1000 80 90 95\n',\n 'BBB 1001 89 92 88\n',\n 'CCC 1002 96 83 97\n',\n 'DDD 1003 100 80 87']\n\n"

Step 2 : 열 이름 목록 가져오기

In [51]:
column_name = data[0].strip().split()

print(column_name)
# ['이름', '번호', '국어', '수학', '영어']

["['이름", '번호', '국어', '수학', "영어\\n',"]


Step 3 : 각 행의 데이터 가져오기

In [52]:
data_split = [x.strip().split() for x in data[1:]]

print(data_split)
# [['AAA', '1000', '80', '90', '95'], ['BBB', '1001', '89', '92', '88'], ['CCC', '1002', '96', '83', '97'], ['DDD', '1003', '100', '80', '87']]

[["'AAA", '1000', '80', '90', "95\\n',"], ["'BBB", '1001', '89', '92', "88\\n',"], ["'CCC", '1002', '96', '83', "97\\n',"], ["'DDD", '1003', '100', '80', "87']"]]


Step 4 : 데이터프레임 변환

In [53]:
import pandas as pd

df = pd.DataFrame(data_split, columns = column_name)

df

Unnamed: 0,['이름,번호,국어,수학,"영어\n',"
0,'AAA,1000,80,90,"95\n',"
1,'BBB,1001,89,92,"88\n',"
2,'CCC,1002,96,83,"97\n',"
3,'DDD,1003,100,80,87']


In [54]:
df.to_csv("student.csv", index = False)

In [55]:
csv_df = pd.read_csv('student.csv')

csv_df

Unnamed: 0,['이름,번호,국어,수학,"영어\n',"
0,'AAA,1000,80,90,"95\n',"
1,'BBB,1001,89,92,"88\n',"
2,'CCC,1002,96,83,"97\n',"
3,'DDD,1003,100,80,87']
