##### pandas - DataFrame 클래스 : 행(row)과 열(column)로 이루어진 2차원 리스트

In [6]:
import pandas as pd
# 1. 시리즈 결합해서 데이터프레임 만들기
index=["2018", "2019", "2020", "2021"]

younghee = pd.Series([143, 150, 157, 160], index=index)
cheolsu = pd.Series([165, 172, 175, 180], index=index)

growth = pd.DataFrame({
    '영희': younghee,
    '철수': cheolsu
})

growth

Unnamed: 0,영희,철수
2018,143,165
2019,150,172
2020,157,175
2021,160,180


In [1]:
# 2차원 리스트 데이터로 프레임 만들기
import pandas as pd

data = [[143, 165], [150, 172], [157, 175], [160, 180]]
index=["2018", "2019", "2020", "2021"]

growth = pd.DataFrame(data, columns=['영희','철수'], index=index)
print(growth)

Unnamed: 0,영희,철수
2018,143,165
2019,150,172
2020,157,175
2021,160,180


In [13]:
# 일반적 데이터프레임 만들기
index=["2018", "2019", "2020", "2021"]

data = {
    '영희': [143, 150, 157, 160],
    '철수': [165, 172, 175, 180]
}

growth = pd.DataFrame(data, index=index)
# print(growth)
# print(growth.columns) # 칼럼 - 인덱스로 출력됨
# print(growth.values)  # 칼럼에 대한 값

# 열 선택
# print(growth['철수'])
print(growth['영희','철수'])

# 열이름도 출력
# print(growth[['철수']])

# 행 선택
# Loc[행(문자)], iloc[인덱스(숫자)]
print(growth.loc['2020'])
print(growth.iloc[2])

# 다중 행 선택
print(growth.loc[['2020', '2021']])
print(growth.loc[[2,1]]) #[[]] - 괄호를 2개 하는 이유: 안에는 인덱스 괄호, 밖은 리스트 괄호

KeyError: ('영희', '철수')

In [31]:
data = {
    '영희': [143, 150, 157, 160],
    '철수': [165, 172, 175, 180]
}

growth = pd.DataFrame(data, index=index)
# print(growth)

# 특정 요소 1개 선택
# Loc[행(문자), 열(문자)], iloc[행(숫자), 행(숫자)]
print(growth.loc['2020', '철수'])
print(growth.iloc[2,1])

# 행, 열 전체 선택(범위 연산자 - ':'), 3번째 값이 (step-간격)
# iloc[a:b:c] - (a - 시작 인덱스, b - 끝 인덱스, c - 간격)
# a가 생략되면 0이고, b가 생략되면 , c 생략은 1로 간주
print(growth.iloc[::1])  # 전체를 1행 간격으로 출력
print(growth.iloc[::2])  # 전체를 2행 간격으로 출력
print(growth.iloc[0:3:1])  # 2행까지 1행 간격으로 출력
print(growth.iloc[::-1])  # 역순 실행


175
175
       영희   철수
2018  143  165
2019  150  172
2020  157  175
2021  160  180
       영희   철수
2018  143  165
2020  157  175
       영희   철수
2018  143  165
2019  150  172
2020  157  175
       영희   철수
2021  160  180
2020  157  175
2019  150  172
2018  143  165


In [3]:
import pandas as pd
# 1. 시리즈 결합해서 데이터프레임 만들기
index=["2018", "2019", "2020", "2021"]

data = {
    '영희': [143, 150, 157, 160],
    '철수': [165, 172, 175, 180]
}

growth = pd.DataFrame(data, index=index)
print(growth)

# 열 추가 - '시현' 추가
growth['시현'] = [155, 160, 165, 170]
print(growth)

# 행 추가 - 2022년
growth.loc[2022] = [163 , 183, 172]
print(growth)

# 행 삭제 - 2020년: drop 메서드 사용
# 복사 - 원본 유지(깊은 복사 - 원본과 별도로 삭제, 수정) - copy():깊은 복사
# growth2 = growth.copy()
# growth2 = growth.drop("2020", axis=0) # axis=0 생략 가능
# print(growth2)

# 열 삭제 - '철수' 삭제
growth3 = growth.copy()
growth3 = growth.drop('철수', axis=1)
print(growth3)

       영희   철수
2018  143  165
2019  150  172
2020  157  175
2021  160  180
       영희   철수   시현
2018  143  165  155
2019  150  172  160
2020  157  175  165
2021  160  180  170
       영희   철수   시현
2018  143  165  155
2019  150  172  160
2020  157  175  165
2021  160  180  170
2022  163  183  172


##### 얕은 복사와 깊은 복사

In [39]:
# 얕은 복사 - 복사본을 수정하면 원본도 같이 수정됨
a = [1, 2, 3, 4]
b = a         # a 리스트를 b에 저장함
b[1] = 10     # b의 1번째 인덱스를 10으로 수정
b
print(a,b)    # [1, 10, 3, 4] [1, 10, 3, 4] - a, b 모두 변경됨

[1, 10, 3, 4] [1, 10, 3, 4]


In [53]:
# 깊은 복사 - 복사본을 수정해도 원본은 수정되지 않음
c = [1, 2, 3, 4]
d = c.copy()    # c 리스트를 d 라는 리스트로 복사
d[1] = 10       # d의 1번째 인덱스를 10으로 수정
d
print(c, d)     # [1, 2, 3, 4] [1, 10, 3, 4] - d만 변경됨

[1, 2, 3, 4] [1, 10, 3, 4]


In [58]:
import pandas as pd

index = ['재천','선영','일성']

data = {
    '국어' : [90, 80, 70],
    '수학' : [80, 75, 95],
    '영어' : [85, 95, 100]
}
df = pd.DataFrame(data, index=index)
print(df)

    국어  수학   영어
재천  90  80   85
선영  80  75   95
일성  70  95  100


In [13]:
# 데이터 요소 수정(변경)
import pandas as pd
# 1. 시리즈 결합해서 데이터프레임 만들기
index=["2018", "2019", "2020", "2021"]

data = {
    '영희': [143, 150, 157, 160],
    '철수': [165, 172, 175, 180]
}

growth = pd.DataFrame(data, index=index)
# print(growth)

# 2020년의 철수의 키 177로 변경
# 요소 선택 - loc['행', '열']
growth.loc['2020', '철수'] = 177
print(growth)

# 칼럼 이름 변경
# '영희'를 'younhee'
print(growth.columns)
print(growth.columns[1])

# 칼럼 이름 변경 - rename(columns={변경전: 변경후}, inplace=True), inplace=True(즉시 실행)
growth.rename(calumns={'영희':'younghee', '철수':'cheolsu'}, inplace=True)
print(growth)


       영희   철수
2018  143  165
2019  150  172
2020  157  175
2021  160  180


Index(['영희', '철수'], dtype='object')

In [5]:
# csv 파일 만들기
import pandas as pd

index=["2018", "2019", "2020", "2021"]

data = {
    '영희': [143, 150, 157, 160],
    '철수': [165, 172, 175, 180]
}

growth = pd.DataFrame(data, index=index)
growth
# growth.to_csv('./datas/growth.csv')

# CSV 파일 읽기 - to_read_csv(경로)
# growth = pd.read_csv('./datas/growth.csv', index_col=0)
# print(growth)

Unnamed: 0,영희,철수
2018,143,165
2019,150,172
2020,157,175
2021,160,180


In [17]:
import pandas as pd

# 인덱스를 칼럼 이름으로 설정하기
data = {
    '연도' : ["2018", "2019", "2020", "2021"],
    '영희': [143, 150, 157, 160],
    '철수': [165, 172, 175, 180]
}
growth = pd.DataFrame(data) 
growth = growth.set_index('연도')
print(growth)

       영희   철수
연도            
2018  143  165
2019  150  172
2020  157  175
2021  160  180
