#### 판다스

https://pandas.pydata.org/docs/index.html

* 판다스는 구조화된 데이터 형식을 제공. 시리즈는 1차원 배열, 데이터프레임은 2차원 배열
* 라이브러리는 여러 종류의 class와 다양한 내장 함수로 구성. 시리즈와 데이터프레임은 대표적인 클래스 객체임
* 시리즈 인덱스는 데이터 값과 일대일 대응. 파이썬 딕셔너리와 비슷한 구조. pandas.Series(딕셔너리)

- Contents
 - Series(변환, 인덱스 구조, 원소 선택)
 - DataFrame(변환, 행인덱스/열이름 지정, 삭제,선택,추가, 변경, 전치, 인덱스 활용)

In [4]:
# Dictionary -> Series
import pandas as pd

dict_data = {'a':1,'b':2,'c':3}

sr = pd.Series(dict_data)
print(sr, type(sr))

a    1
b    2
c    3
dtype: int64 <class 'pandas.core.series.Series'>


In [24]:
# List -> Series
list_data = ['2019-07-02',3.14,'ABC',100,True]
sr = pd.Series(list_data)
# sr = pd.Series(list_data, index = ['a','b','c','d','e'])
# sr = pd.Series(list_data, index = list('abcde'))
print(sr,type(sr))

0    2019-07-02
1          3.14
2           ABC
3           100
4          True
dtype: object <class 'pandas.core.series.Series'>


In [25]:
sr[0]

'2019-07-02'

In [29]:
idx = sr.index
print(list(idx))

[0, 1, 2, 3, 4]


In [18]:
# 튜플 -> Series
tup_data = ('kevin','2019-07-02','남',True)
sr = pd.Series(tup_data,index = ['이름','생년월일','성별','학생여부'])
print(sr,type(sr))

이름           kevin
생년월일    2019-07-02
성별               남
학생여부          True
dtype: object <class 'pandas.core.series.Series'>


In [22]:
print(sr[1])
print(sr['생년월일'])

2019-07-02
2019-07-02


In [23]:
# 인덱스 및 값
idx = sr.index
print(idx)
val = sr.values
print(val)

Index(['이름', '생년월일', '성별', '학생여부'], dtype='object')
['kevin' '2019-07-02' '남' True]


#### 데이터프레임
* 데이터프레임은 2차원 배열. R의 데이터프레임에서 유래.
* 데이터프레임의 열은 각각 시리즈 개체. 
* 시리즈를 열벡터라고 하면 데이터프레임은 여러개의 열벡터들이 같은 행 인덱스를
  기준으로 줄지어 결합된 2차원 벡터 또는 행렬.
* 선형대수학에서 열 벡터(m x 1 행렬)는 m 원소들의 단일 열 행렬
* 행 벡터(1 x m 행렬)은 m원소들의 단일 행 행렬.
* 리스트, 딕셔너리, ndarray 등 다양한 데이터로부터 생성
* 반대로 리스트, 딕셔너리, ndarray 등으로 변환될 수 있음

In [57]:
import numpy as np
np.random.seed(0)
data = np.random.randint(100,120, size=(3,3))

df = pd.DataFrame(data,index=['태현','서진','동완'],
                 columns = ['몸무개','식사량','운동량'])

df


Unnamed: 0,몸무개,식사량,운동량
태현,112,115,100
서진,103,103,107
동완,109,119,118


In [58]:
df_org = df.copy()
df_org

Unnamed: 0,몸무개,식사량,운동량
태현,112,115,100
서진,103,103,107
동완,109,119,118


pandas indexing : iloc 정수 인덱스, loc 이름 인덱스

In [33]:
print(df.iloc[1])

몸무개    103
식사량    103
운동량    107
Name: 서진, dtype: int32


In [35]:
print(df.loc['서진'])

몸무개    103
식사량    103
운동량    107
Name: 서진, dtype: int32


In [72]:
df = df_org.copy()
df

Unnamed: 0,몸무개,식사량,운동량
태현,112,115,100
서진,103,103,107
동완,109,119,118


In [68]:
# Q. iloc, loc를 사용하여 107을 출력하세요.

print(df.iloc[1,2])
print(df.loc["서진","운동량"])

107
107


In [46]:
df.iloc[0,0] = 85
df

Unnamed: 0,몸무개,식사량,운동량
태현,85,115,100
서진,103,103,107
동완,109,119,118


In [73]:
df.iloc[0] = [60,3,2]
df.loc["서진"] = [80,3,5]
df.loc["동완"]=[68,3,2]
df

Unnamed: 0,몸무개,식사량,운동량
태현,60,3,2
서진,80,3,5
동완,68,3,2


In [74]:
# Q. 행 2, 열 2 추가해서 데이터를 삽입하세요.
df.loc['예슬'] = 0
df

Unnamed: 0,몸무개,식사량,운동량
태현,60,3,2
서진,80,3,5
동완,68,3,2
예슬,0,0,0


In [75]:
# df.loc[:,'수면시간']
df['수면시간'] = 0
df

Unnamed: 0,몸무개,식사량,운동량,수면시간
태현,60,3,2,0
서진,80,3,5,0
동완,68,3,2,0
예슬,0,0,0,0


In [76]:
df.loc[:,'간식횟수'] = 0
df

Unnamed: 0,몸무개,식사량,운동량,수면시간,간식횟수
태현,60,3,2,0,0
서진,80,3,5,0,0
동완,68,3,2,0,0
예슬,0,0,0,0,0


In [77]:
df.loc['용훈',:] = 0
df

Unnamed: 0,몸무개,식사량,운동량,수면시간,간식횟수
태현,60.0,3.0,2.0,0.0,0.0
서진,80.0,3.0,5.0,0.0,0.0
동완,68.0,3.0,2.0,0.0,0.0
예슬,0.0,0.0,0.0,0.0,0.0
용훈,0.0,0.0,0.0,0.0,0.0


In [79]:
df.iloc[3] = df.iloc[2]
df

Unnamed: 0,몸무개,식사량,운동량,수면시간,간식횟수
태현,60.0,3.0,2.0,0.0,0.0
서진,80.0,3.0,5.0,0.0,0.0
동완,68.0,3.0,2.0,0.0,0.0
예슬,68.0,3.0,2.0,0.0,0.0
용훈,60.0,3.0,2.0,0.0,0.0


In [78]:
df.iloc[4] = df.iloc[0]
df

Unnamed: 0,몸무개,식사량,운동량,수면시간,간식횟수
태현,60.0,3.0,2.0,0.0,0.0
서진,80.0,3.0,5.0,0.0,0.0
동완,68.0,3.0,2.0,0.0,0.0
예슬,0.0,0.0,0.0,0.0,0.0
용훈,60.0,3.0,2.0,0.0,0.0


In [80]:
df.iloc[:3,3] = 7
df

Unnamed: 0,몸무개,식사량,운동량,수면시간,간식횟수
태현,60.0,3.0,2.0,7.0,0.0
서진,80.0,3.0,5.0,7.0,0.0
동완,68.0,3.0,2.0,7.0,0.0
예슬,68.0,3.0,2.0,0.0,0.0
용훈,60.0,3.0,2.0,0.0,0.0


In [81]:
df.iloc[3:,3] = 6
df.iloc[:,4] = 2
df

Unnamed: 0,몸무개,식사량,운동량,수면시간,간식횟수
태현,60.0,3.0,2.0,7.0,2
서진,80.0,3.0,5.0,7.0,2
동완,68.0,3.0,2.0,7.0,2
예슬,68.0,3.0,2.0,6.0,2
용훈,60.0,3.0,2.0,6.0,2


In [85]:
df = df_org.copy()
df

Unnamed: 0,몸무개,식사량,운동량
태현,112,115,100
서진,103,103,107
동완,109,119,118


In [86]:
df.loc['주경'] = 0
df.loc['인혁'] = 0

df['공부시간'] = 0
df['멍 때리는 시간'] = 0

df.iloc[:3, 3] = 8
df.iloc[:3, 4] = 3

df.loc['주경'] = df.loc['태현']

df.loc['인혁'] = [100,85,90,17,5]

df

Unnamed: 0,몸무개,식사량,운동량,공부시간,멍 때리는 시간
태현,112,115,100,8,3
서진,103,103,107,8,3
동완,109,119,118,8,3
주경,112,115,100,8,3
인혁,100,85,90,17,5


[과제] 아래 데이터를 보완하여 10명에 대한 나이, 키, 식사횟수, 수면시간, 몸무개를 포함하는 데이터프레임을 작성하세요.(다음사항 유의)
- 행인덱스의 이름을 한글이름으로 변경
- 컬럼이름은 문제에서 주어진 순서를 준수

In [87]:
import pandas as pd

df_c = pd.DataFrame(index = ['a','b','c','d','e'],
                   columns = ['나이', '키', '몸무게'])
# df_c.loc[:] = [[20, 170, 40], [25,180,80], [27,175,50], [23,160,50]]
df_c.loc['a'] = [20, 170, 63]
df_c.loc['b'] = [25, 173, 60]
df_c.loc['c'] = [23, 180, 80]
df_c.loc['d'] = [24, 165, 50]
df_c.loc['e'] = [28, 190, 95]
df_c

Unnamed: 0,나이,키,몸무게
a,20,170,63
b,25,173,60
c,23,180,80
d,24,165,50
e,28,190,95


In [93]:
import pandas as pd

data = pd.DataFrame({'column1': [1, 2, 3],
                   'column2': [4, 5, 6],
                   'column3': [7, 8, 9]})
print(data,'\n')
data1 = data.drop('column2',axis=1)
print(data1,'\n')
print(data)

   column1  column2  column3
0        1        4        7
1        2        5        8
2        3        6        9 

   column1  column3
0        1        7
1        2        8
2        3        9 

   column1  column2  column3
0        1        4        7
1        2        5        8
2        3        6        9


In [91]:
# 열삭제

import pandas as pd

data = pd.DataFrame({'column1': [1, 2, 3],
                   'column2': [4, 5, 6],
                   'column3': [7, 8, 9]})
print(data)
data.drop('column2',axis=1,inplace=True) # 원본에서 삭제
data

   column1  column2  column3
0        1        4        7
1        2        5        8
2        3        6        9


Unnamed: 0,column1,column3
0,1,7
1,2,8
2,3,9


In [84]:
# 행삭제
data.drop(0,axis=0,inplace=True)
data

Unnamed: 0,column1,column3
1,2,8
2,3,9


In [82]:
df = df_org.copy()
df

Unnamed: 0,몸무개,식사량,운동량
태현,112,115,100
서진,103,103,107
동완,109,119,118


In [61]:
df.iloc[0] = [60,3,2]
df.loc["서진"] = [80,3,5]
df.loc["동완"]=[68,3,2]
df

Unnamed: 0,몸무개,식사량,운동량
태현,60,3,2
서진,80,3,5
동완,68,3,2


In [64]:
df.columns = ["몸무개","식사량(끼니)","운동량(시간)"]
df

Unnamed: 0,몸무개,식사량(끼니),운동량(시간)
태현,60,3,2
서진,80,3,5
동완,68,3,2


In [None]:
df = df_org.copy()

In [38]:
d1 = df.index
print(d1,type(d1))
d2 = df.columns
print(d2,type(d2))

Index(['태현', '서진', '동완'], dtype='object') <class 'pandas.core.indexes.base.Index'>
Index(['몸무개', '식사량', '운동량'], dtype='object') <class 'pandas.core.indexes.base.Index'>
