In [2]:
# pandas

import numpy as np
import pandas as pd

# 1. numpy의 array로 DataFrame 만들기

nparray1 = np.array([[1,2,3],[4,5,6]])
# data frame으로 전환
df = pd.DataFrame(nparray1)
display(df)

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6


In [4]:
# 2. dictionary로 DataFrame 만들기

dictionary1 = {"a":['1','3'], "b":['1','2'], "c":['2','4']}
df = pd.DataFrame(dictionary1)

# dict의 key는 열 이름으로 들어감, value는 column에 해당하는 값으로 들어감.
# 행은 그냥 인덱스
display(df)

Unnamed: 0,a,b,c
0,1,1,2
1,3,2,4


In [6]:
# 3. DataFrame 직접 만들기

# 데이터는 4, 5, 6, 7 / 그 데이터에 해당하는 인덱스는 0, 1, 2, 3 / 해당 열의 이름은 'A'
dataframe1 = pd.DataFrame(data = [4,5,6,7], index = range(0,4), columns = ['A'])
dataframe1

Unnamed: 0,A
0,4
1,5
2,6
3,7


In [8]:
# pandas의 벡터 데이터 형 : Series
# column이 하나인 데이터 프레임이 Series

series1 = pd.Series({"United Kingdom":"London", "India":"New Delhi", "United States":"Washington", "Belgium":"Brussels"})
display(pd.DataFrame(series1))

Unnamed: 0,0
United Kingdom,London
India,New Delhi
United States,Washington
Belgium,Brussels


In [11]:
# 3X3 데이터를 만들고, 열의 이름은 10 11 12로 설정

df = pd.DataFrame(np.array([[1,2,3],[4,5,6],[7,8,9]]), columns = [10,11,12])
display(df)

# 데이터의 행의 개수
print(len(df))

# df의 열 이름 보기
print(df.columns)

Unnamed: 0,10,11,12
0,1,2,3
1,4,5,6
2,7,8,9


3
Int64Index([10, 11, 12], dtype='int64')


In [12]:
# df의 컬럼 명 변경
df.columns = ["A","B","C"]
display(df)

Unnamed: 0,A,B,C
0,1,2,3
1,4,5,6
2,7,8,9


In [13]:
# 인덱싱과 슬라이싱

df["A"]

0    1
1    4
2    7
Name: A, dtype: int32

In [14]:
# 여러 개의 columns 보기
# [[]] 두 번 사용해서 묶어주기 !!

df[["A", "B"]]

Unnamed: 0,A,B
0,1,2
1,4,5
2,7,8


In [15]:
# df[열][행]

# B열에서 0행과 1행

df["B"][0:2]

0    2
1    5
Name: B, dtype: int32

In [16]:
df.iloc[1]

A    4
B    5
C    6
Name: 1, dtype: int32

In [20]:
# 여기서 [0:2]는 레이블로 인식하므로, 0, 1, 2가 포함

print(df.loc[0:2]["B"])

# 여기서 [0:2]는 인덱스로 인식하므로, 0, 1이 포함

print(df.iloc[0:2]["B"])

0    2
1    5
2    8
Name: B, dtype: int32
0    2
1    5
Name: B, dtype: int32


In [18]:
# dataframe["컬럼명"]
# dataframe.loc[label] // 라벨은 행의 이름, 따로 주어지지 않으면 그냥 0 1 2..
# dataframe.iloc[index] // 

In [22]:
df = pd.DataFrame(np.array([[1,2,3],[4,5,6],[7,8,9]]))
display(df)

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


In [23]:
# 데이터 추가
# 행 추가

df.loc[3] = [10,11,12]
display(df)

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9
3,10,11,12


In [27]:
# 행 추가, 맨 뒤에 붙이기

df = df.append([[13,14,15]], ignore_index = True)
display(df)

  df = df.append([[13,14,15]], ignore_index = True)


Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9
3,10,11,12
4,13,14,15
5,13,14,15
6,13,14,15


In [28]:
# 열 이름 변경
# 리스트를 통해, 한 번에 3 열을 변경

df.columns = list("ABC")
display(df)

Unnamed: 0,A,B,C
0,1,2,3
1,4,5,6
2,7,8,9
3,10,11,12
4,13,14,15
5,13,14,15
6,13,14,15


In [31]:
# 열 추가

# 현재 열이 총 5개 있으므로 len == 5인 문자열 넣기
# Null이 없도록 한다!

df["D"] = list("ddddddd")
display(df)

Unnamed: 0,A,B,C,D
0,1,2,3,d
1,4,5,6,d
2,7,8,9,d
3,10,11,12,d
4,13,14,15,d
5,13,14,15,d
6,13,14,15,d


In [34]:
# 4라는 열 이름을 추가하고, 5라는 값을 7개 넣기

df[4] = [5] * 7
display(df)

Unnamed: 0,A,B,C,D,4
0,1,2,3,d,5
1,4,5,6,d,5
2,7,8,9,d,5
3,10,11,12,d,5
4,13,14,15,d,5
5,13,14,15,d,5
6,13,14,15,d,5


In [35]:
# 데이터 삭제

# 4는 열의 이름, axis = 1 : 열 / axis = 0 : 행

df = df.drop(4, axis = 1)
display(df)

Unnamed: 0,A,B,C,D
0,1,2,3,d
1,4,5,6,d
2,7,8,9,d
3,10,11,12,d
4,13,14,15,d
5,13,14,15,d
6,13,14,15,d


In [36]:
# 다중 컬럼 삭제

df = df.drop(["C", "D"], axis = 1)
display(df)

Unnamed: 0,A,B
0,1,2
1,4,5
2,7,8
3,10,11
4,13,14
5,13,14
6,13,14


In [37]:
# 행 삭제

df = df.drop(6, axis = 0)
display(df)

Unnamed: 0,A,B
0,1,2
1,4,5
2,7,8
3,10,11
4,13,14
5,13,14


In [38]:
# 다중 행 삭제

df = df.drop([4,5], axis = 0)
display(df)

Unnamed: 0,A,B
0,1,2
1,4,5
2,7,8
3,10,11


In [39]:
# 데이터 변경

# 1. 레이블 기준으로 변경
# 칼럼에서 열을 인덱스로 주는 방식

df.loc[0][0] = 100
display(df)

Unnamed: 0,A,B
0,100,2
1,4,5
2,7,8
3,10,11


In [40]:
# 칼럼에서 열을 열 이름으로 주는 방식

df.loc[0]["B"] = 100
display(df)

Unnamed: 0,A,B
0,100,100
1,4,5
2,7,8
3,10,11


In [41]:
# 2. 인덱스 기준으로 변경

df.iloc[1][1] = 100
display(df)

Unnamed: 0,A,B
0,100,100
1,4,100
2,7,8
3,10,11


In [44]:
df.iloc[1]["A"] = 100
display(df)

Unnamed: 0,A,B
0,1,2
1,100,100
2,7,8
3,10,11


In [45]:
# 다중 데이터 변경 (인덱스 기준, i(index)loc)

df.iloc[0][0:2] = [1,2]
display(df)

Unnamed: 0,A,B
0,1,2
1,100,100
2,7,8
3,10,11


In [46]:
# 열 변경
df["B"] = [3, 6, 9, 12]
display(df)

Unnamed: 0,A,B
0,1,3
1,100,6
2,7,9
3,10,12


In [49]:
# 데이터 정렬

df = pd.DataFrame({"cluster":[1,1,2,1,2,3], "org":['a','a','h','c','d','w'], "time":[8,6,34,23,74,6]})
display(df)

Unnamed: 0,cluster,org,time
0,1,a,8
1,1,a,6
2,2,h,34
3,1,c,23
4,2,d,74
5,3,w,6


In [50]:
# time 기준으로 역순으로 정렬

# ascending(오름차순)은 디폴트가 True이므로 False로 변경

df = df.sort_values(["time"], ascending = [False])
display(df)

Unnamed: 0,cluster,org,time
4,2,d,74
2,2,h,34
3,1,c,23
0,1,a,8
1,1,a,6
5,3,w,6


In [51]:
# 인덱스 정리 : Sort시 index가 뒤죽박죽 되는데, 이를 다시 0부터 정렬한다.

df = df.reset_index(drop = True)
display(df)

Unnamed: 0,cluster,org,time
0,2,d,74
1,2,h,34
2,1,c,23
3,1,a,8
4,1,a,6
5,3,w,6


In [52]:
# 여러가지 함수

# 기초 통계량

df = pd.DataFrame({"cluster":[1,1,2,1,2,3], "org":['a','a','h','c','d','w'], "time":[8,6,34,23,74,6]})
df.describe()

Unnamed: 0,cluster,time
count,6.0,6.0
mean,1.666667,25.166667
std,0.816497,26.445542
min,1.0,6.0
25%,1.0,6.5
50%,1.5,15.5
75%,2.0,31.25
max,3.0,74.0


In [53]:
# 데이터의 head 부분만 보여줌

# dataframe의 첫 두 행만 보여주기

df.head(2)

Unnamed: 0,cluster,org,time
0,1,a,8
1,1,a,6


In [54]:
# 데이터의 tail 부분만 보여줌

# dataframe의 마지막 두 행만 보여주기

df.tail(2)

Unnamed: 0,cluster,org,time
4,2,d,74
5,3,w,6


In [55]:
# transpose

# 행과 열 전환

df.T

Unnamed: 0,0,1,2,3,4,5
cluster,1,1,2,1,2,3
org,a,a,h,c,d,w
time,8,6,34,23,74,6


In [56]:
# time 컬럼의 데이터

df.time

0     8
1     6
2    34
3    23
4    74
5     6
Name: time, dtype: int64

In [57]:
# time이 10 미만인 데이터

df[df.time<10]

Unnamed: 0,cluster,org,time
0,1,a,8
1,1,a,6
5,3,w,6


In [2]:
# CSV (Comma - Seperated Values (,로 구분된 데이터)) 읽기 / 쓰기

# data.csv파일이 없다!

import numpy as np
import pandas as pd

df = pd.read_csv("data.csv")
display(df)

Unnamed: 0,number,height,weight
0,32,179,81
1,1,181,46
2,23,154,67
3,4,167,54
4,5,181,81
5,67,143,47
6,3,171,69
7,23,178,89
8,89,148,51
9,61,157,62


In [3]:
# 10이라고 하는 데이터 행에 23, 165, 56 값 추가

df.loc[10] = [23, 165, 56]

# 변경된 값을 새로운 csv 파일로 저장
df.to_csv("data2.csv")