# **Pandas**

- dataframe의 3요소: column, row, index

- dataframe은 2차원 테이블 구조. series객체를 모아둔 컨테이너. 

- 2차원배열은 모든 원소들이 같은 데이터타입을 가져야 하지만 dataframe은 각 열마다 다른 타입을 가질 수 있음. 

## **Pandas Dataframe 만들기**

- pandas dataframe: 다양한 데이터 타입으로부터 생성 가능

    - ex. ndarray, dictionary, dataframe, series, list ... 

In [12]:
import numpy as np
import pandas as pd
from IPython.display import display

# ndarry로 만들기
my_2darray = np.array([[1, 2, 3], [4, 5, 6]])
display(pd.DataFrame(my_2darray))

# dictionary로 만들기  --key값을 column명으로 줄 수 있다. 
my_dict = {"column1": ['1', '3'],
          "coulumn2": ['1', '2'],
           "coulumn3": ['2', '4']
          }
display(pd.DataFrame(my_dict))

# dataframe으로 만들기
my_df = pd.DataFrame(data=[4, 5, 6, 7], 
                     index=range(11,15),   
                     columns=['A']
                    )
display(pd.DataFrame(my_df))

# series로 만들기
my_series = pd.Series({"United Kingdom":"London", 
                       "India":"New Delhi", 
                       "United States":"Washington", 
                       "Belgium":"Brussels"})
display(pd.DataFrame(my_series))
# --series: index가 있는 1차원 배열. 모든 데이터타입 가능. 
#           dateframe의 각 컬럼이 series.

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6


Unnamed: 0,column1,coulumn2,coulumn3
0,1,1,2
1,3,2,4


Unnamed: 0,A
11,4
12,5
13,6
14,7


Unnamed: 0,0
United Kingdom,London
India,New Delhi
United States,Washington
Belgium,Brussels


In [46]:
# Dataframe 자세히 살펴보기 
df = pd.DataFrame([[1, 2, 3], [4, 5, 6]])

print(df.shape)
print(df.index)
print(len(df.index))
print(list(df.columns))  #column의 index 반환

(2, 3)
RangeIndex(start=0, stop=2, step=1)
2
[0, 1, 2]


# **Pandas Dataframe 기초**

In [48]:
data = [
    [654, 592, 623, 561, 620],
    [175, 108, 62, 65, 77],
    [131, 84, 50, 51, 62],
    [26, 18, 11, 11, 12],
    [21, 19, 16, 13, 10]
]

columns = ["2018.09", "2018.12", "2019.03", "2019.06", "2019.09"]
index = ["매출액", "순이익", "당기순이익", "영업이익률", "ROE"]

df = pd.DataFrame(data, index=index, columns=columns)
display(df)

Unnamed: 0,2018.09,2018.12,2019.03,2019.06,2019.09
매출액,654,592,623,561,620
순이익,175,108,62,65,77
당기순이익,131,84,50,51,62
영업이익률,26,18,11,11,12
ROE,21,19,16,13,10


In [57]:
print("<dataframe 값 확인하기>")
print(df.values)

print("\n<column 확인하기>")
print(df.columns)

print("\n<index 확인하기>")
print(df.index)

print("\n<column, index 이름 정하기>")
df.columns.name = "날짜"
df.index.name = "재무정보"
display(df)

print("\n<전치하기>")
df.T  #대문자! 

<dataframe 값 확인하기>
[[654 592 623 561 620]
 [175 108  62  65  77]
 [131  84  50  51  62]
 [ 26  18  11  11  12]
 [ 21  19  16  13  10]]

<column 확인하기>
Index(['2018.09', '2018.12', '2019.03', '2019.06', '2019.09'], dtype='object', name='날짜')

<index 확인하기>
Index(['매출액', '순이익', '당기순이익', '영업이익률', 'ROE'], dtype='object', name='재무정보')

<column, index 이름 정하기>


날짜,2018.09,2018.12,2019.03,2019.06,2019.09
재무정보,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
매출액,654,592,623,561,620
순이익,175,108,62,65,77
당기순이익,131,84,50,51,62
영업이익률,26,18,11,11,12
ROE,21,19,16,13,10



<전치하기>


재무정보,매출액,순이익,당기순이익,영업이익률,ROE
날짜,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2018.09,654,175,131,26,21
2018.12,592,108,84,18,19
2019.03,623,62,50,11,16
2019.06,561,65,51,11,13
2019.09,620,77,62,12,10


In [62]:
print("<column 추가하기>")
df["2019.12"] = df["2019.09"] * 0.9
display(df)

print("\n<column 삭제하기>")
del df["2019.12"]
display(df)

<column 추가하기>


날짜,2018.09,2018.12,2019.03,2019.06,2019.09,2019.12
재무정보,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
매출액,654,592,623,561,620,558.0
순이익,175,108,62,65,77,69.3
당기순이익,131,84,50,51,62,55.8
영업이익률,26,18,11,11,12,10.8
ROE,21,19,16,13,10,9.0



<column 삭제하기>


날짜,2018.09,2018.12,2019.03,2019.06,2019.09
재무정보,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
매출액,654,592,623,561,620
순이익,175,108,62,65,77
당기순이익,131,84,50,51,62
영업이익률,26,18,11,11,12
ROE,21,19,16,13,10





In [72]:
# 인덱싱
print("<column기준으로 인덱싱하기>")
display(df["2019.06"])              #series
display(df[["2019.06"]])            #dataframe
display(df[["2019.06", "2019.09"]]) #dataframe
# 문자열을 index로 가지고 있는 경우에는 정수로 인덱싱 不

print("\n<row기준으로 인덱싱하기>")
#slicing
display(df[:1])
display(df[1:4])
display(df["순이익":"영업이익률"])  #이름으로 슬라이싱할 경우 upto정보 "포함"
#display(df["매출액"])             #df[] : column인덱싱

print("\n<특정column에서 특정row 인덱싱하기>")
display(df["2019.06"]["매출액"])
display(df["2019.06"][0])

<column기준으로 인덱싱하기>


재무정보
매출액      561
순이익       65
당기순이익     51
영업이익률     11
ROE       13
Name: 2019.06, dtype: int64

날짜,2019.06
재무정보,Unnamed: 1_level_1
매출액,561
순이익,65
당기순이익,51
영업이익률,11
ROE,13


날짜,2019.06,2019.09
재무정보,Unnamed: 1_level_1,Unnamed: 2_level_1
매출액,561,620
순이익,65,77
당기순이익,51,62
영업이익률,11,12
ROE,13,10



<row기준으로 인덱싱하기>


날짜,2018.09,2018.12,2019.03,2019.06,2019.09
재무정보,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
매출액,654,592,623,561,620


날짜,2018.09,2018.12,2019.03,2019.06,2019.09
재무정보,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
순이익,175,108,62,65,77
당기순이익,131,84,50,51,62
영업이익률,26,18,11,11,12


날짜,2018.09,2018.12,2019.03,2019.06,2019.09
재무정보,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
순이익,175,108,62,65,77
당기순이익,131,84,50,51,62
영업이익률,26,18,11,11,12



<특정column에서 특정row 인덱싱하기>


561

561

## **Dataframe에서 특정 column or row(index) 선택하기**

In [45]:
df = pd.DataFrame({"A":[1,4,7], "B":[2,5,8], "C":[3,6,9]})
display(df)

print("1. row 선택하기")
display(df.iloc[0])
display(df.loc[0])

print("2. column 선택하기")
display(df.iloc[:, 2])
display(df.loc[:, 'A'])
display(df['B'])

print("3. row+column 선택하기")
display(df.loc[0]['B'])

Unnamed: 0,A,B,C
0,1,2,3
1,4,5,6
2,7,8,9


1. row 선택하기


A    1
B    2
C    3
Name: 0, dtype: int64

A    1
B    2
C    3
Name: 0, dtype: int64

2. column 선택하기


0    3
1    6
2    9
Name: C, dtype: int64

0    1
1    4
2    7
Name: A, dtype: int64

0    2
1    5
2    8
Name: B, dtype: int64

3. row+column 선택하기


2

## **Dafaframe에 column, row, index 추가하기**

In [41]:
df = pd.DataFrame({"A":[1,4,7], "B":[2,5,8], "C":[3,6,9]})
display(df)

# 인덱스 설정하기: (데이터프레임명).set_index('(컬럼명)')
df = df.set_index('A')
display(df)

# row 추가하기: 
print("1. ")

Unnamed: 0,A,B,C
0,1,2,3
1,4,5,6
2,7,8,9


Unnamed: 0_level_0,B,C
A,Unnamed: 1_level_1,Unnamed: 2_level_1
1,2,3
4,5,6
7,8,9


B    5
C    6
Name: 4, dtype: int64
