## 10.3 Pandas Libarary

### pandas소개
- Python에서 제공하는 데이터 분석용 라이브러리로 대용량의 데이터들을 처리할 때 사용된다.
- 행과 열로 이루어진 데이터 객체를 생성하며 데이터를 효율적으로 다루기 위하여 Series와 DataFrame 자료형을 제공한다.
- DataFrame은 엑셀 프로그램에서 사용하는 시트(Sheet)와 동일한 개념이고 Series는 시트의 열 1개를 의미하는 단위로써 DataFrame은 Series들이 각 요소가 되는 딕셔너리로 볼 수 있다.
- pandas를 사용하기 위해서 명령어 창을 이용하여 라이브러리를 설치해야 한다.
-  명령어 창 접속 후 다운로드 명령어 입력

#### pandas 사용하기

#### pip install pandas
- pandas의 설치는 앞서 설명한 Numpy의 방식과 유사하게 pip install pandas 명령어를 사용한다.

#### import pandas
- pandas의 사용을 위해 import pandas 명령어를 사용한다.

In [1]:
import numpy as np
import pandas as pd

#### DataFrame 생성
- DataFrame을 생성하기 위해서는 기본 구성 단위인 Series에 대하여 알아야 한다.
- Series는 index, value, data type의 집합으로 구성되며 Python의 리스트 자료형으로 생성이 가능하다.

<div style = "border : 1px solid green; padding : 5px; width = 50px;">
#Series val = pandas.Series(value)<br>
#Series val.values<br>
#Series val.index<br>
#Series val.dtype<br>
<div style = "color : gray;">
val : 변수명
</div></div>

#### [Series의 생성]

In [4]:
ser = pd.Series([5, 6, 7, 8])     #series 생성
print(ser)     #구조 확인

0    5
1    6
2    7
3    8
dtype: int64


#### value, index, data type
- index는 다양한 자료형의 값으로 초기화할 때 사용하는 함수이다.
- 문자, 딕셔너리를 이용하여 index를 지정할 수 있다.

<div style = "border : 1px solid green; padding : 5px; width = 50px;">
#Series val = pandas.Series(value, index = index)<br>
#Series val.values = pandas.Series(dictionary)<br>
<div style = "color : gray;">
val : 변수명<br>
index : 문자를 이용한 index 입력<br>
dictionary : 딕셔너리를 이용한 index 및 value 입력<br>
</div></div>

#### [value, index, dtype 확인하기]

In [5]:
print(ser.values)     # Value 확인
print(ser.index)     #Index 확인
print(ser.dtype)     #data type 확인

[5 6 7 8]
RangeIndex(start=0, stop=4, step=1)
int64


#### [문자, 딕셔너리를 통하여 index를 지정한 Series]

In [3]:
import  pandas as pd
#문자를 이용한 index 지정
ser_char = pd.Series([5, 6, 7, 8], index = ['a', 'b', 'c', 'd'])
# 딕셔너리를 이용한 index 지정
ser_dict = pd.Series( {'a' : 5, 'b' : 6, 'c' : 7, 'd' : 8 })
print(ser_char)
print(ser_dict)

a    5
b    6
c    7
d    8
dtype: int64
a    5
b    6
c    7
d    8
dtype: int64


- index 레이블(label)과 Series의 이름을 지정할 수 있다.

<div style = "border : 1px solid green; padding : 5px; width = 50px;">
#Series 변수.index.name= label <br>
#Series 변수.name = name<br>
<div style = "color : gray;">
label = index 레이블 입력<br>
name = Series의 이름을 입력<br>
</div></div>

#### [index 레이블과 Series 이름 지정]

In [4]:
import  pandas as pd
ser = pd.Series([5, 6, 7, 8], index = ['a', 'b', 'c', 'd'])
ser.index.name = "alp"
ser.name = "example series"
print(ser)

alp
a    5
b    6
c    7
d    8
Name: example series, dtype: int64


- DataFrame은 2차원 테이블의 데이터 구조를 가지는 자료형이다.
- 초기화를 위하여 딕셔너리 또는 numpy.array를 사용한다.

<div style = "border : 1px solid green; padding : 5px; width = 50px;">
#Data Frame변수 = pandas.DataFrame(dictionary)<br>
<div style = "color : gray;">

</div></div>

#### [DataFrame의 초기화]

In [5]:
data = {'FirstName':['Lee','Park','Lim','Choi'],
       'LastName' : ['Jeonghwan', 'Taesu', 'Haeyoung', 'Sooryn'],
       'Age' : [27,25,26,26],
        'Score' : [100,80,85,90]}     #dictionary를 이용한 Data Frame의 초기화
df = pd.DataFrame(data)
df

Unnamed: 0,FirstName,LastName,Age,Score
0,Lee,Jeonghwan,27,100
1,Park,Taesu,25,80
2,Lim,Haeyoung,26,85
3,Choi,Sooryn,26,90


- 또한 DataFrame은 index, columns, values로 이루어져 있다.
- index는 행 방향의 자료 위치를 나타내고 columns는 열 방향의 자료 위치를 나타내며 values는 실제 DataFrame 내부의 들어있는 값을 나타낸다.

#### [DataFrame의 index, columns, values]

In [20]:
df.index

RangeIndex(start=0, stop=4, step=1)

In [6]:
import  pandas as pd
data = {'FirstName'  : ['Sam', 'John', 'James'],'LastName' : ['Park', 'Smith', 'Jordan'],'Age' : [27, 25, 26],'Score' : [100, 80, 85] }
df = pd.DataFrame(data)
# Data Frame의 인덱스 정보 확인
df.index
# Data Frame의 컬럼 정보 확인
df.columns
# Data Frame의 프레임 내부 값 확인 
df.values

array([['Sam', 'Park', 27, 100],
       ['John', 'Smith', 25, 80],
       ['James', 'Jordan', 26, 85]], dtype=object)

- DataFrame내 요소에 접근하기 위하여 columns의 이름이나 범위 등의 다양한 방법을 이용할 수 있다.

<div style = "border : 1px solid green; padding : 5px; width = 50px;">
#Data Frame변수.[columns]<br>
<div style = "color : gray;">
columns : 열의 이름 또는 숫자 범위를 입력
</div></div>

#### [DataFrame 요소값 접근 및 출력]

In [21]:
df.columns

Index(['FirstName', 'LastName', 'Age', 'Score'], dtype='object')

In [7]:
import  pandas as pd
data = {'FirstName'  : ['Sam', 'John', 'James'],'LastName' : ['Park', 'Smith', 'Jordan'],'Age' : [27, 25, 26],'Score' : [100, 80, 85] }
df = pd.DataFrame(data)
# df.Age 로도 동일한 결과로 출력이 가능하다.
print(df['Age'])
print(df[0:2])

0    27
1    25
2    26
Name: Age, dtype: int64
  FirstName LastName  Age  Score
0       Sam     Park   27    100
1      John    Smith   25     80


- 다양한 수식이나 통계적 지표를 출력할 때 describe를 사용한다.

<div style = "border : 1px solid green; padding : 5px; width = 50px;">
#Data Frame변수.describe()<br>
<div style = "color : gray;">

</div></div>

- 다음의 예제는 딕셔너리의 데이터를 표로 출력하는 예제이다.

#### [DataFrame의 describe함수 사용]

In [8]:
import  pandas as pd

data = {'FirstName'  : ['Sam', 'John', 'James'],'LastName' : ['Park', 'Smith', 'Jordan'],'Age' : [27, 25, 26],'Score' : [100, 80, 85] }
df = pd.DataFrame(data)
df.describe()

Unnamed: 0,Age,Score
count,3.0,3.0
mean,26.0,88.333333
std,1.0,10.40833
min,25.0,80.0
25%,25.5,82.5
50%,26.0,85.0
75%,26.5,92.5
max,27.0,100.0


- DataFrame의 index, columns 정보를 수정 및 삭제를 위하여 변경하고자 하는 값을 대입하는 방법을 사용한다.

<div style = "border : 1px solid green; padding : 5px; width = 50px;">
#Data Frame변수.index = value<br>
#Data Frame변수.columns = value<br>
<div style = "color : gray;">
value = 새로 추가하고자 하는 값을 입력<br>
</div></div>

#### [DataFrame의 요수 수정 및 삭제]

In [22]:
df.values

array([['Lee', 'Jeonghwan', 27, 100],
       ['Park', 'Taesu', 25, 80],
       ['Lim', 'Haeyoung', 26, 85],
       ['Choi', 'Sooryn', 26, 90]], dtype=object)

In [9]:
import  pandas as pd

data = {'FirstName'  : ['Sam', 'John', 'James'],'LastName' : ['Park', 'Smith', 'Jordan'],'Age' : [27, 25, 26],'Score' : [100, 80, 85] }
df = pd.DataFrame(data)
# index 수정
df.index = ['one', 'two', 'three']
# columns 수정
df.columns = ['Fname', 'Lname', 'Age', 'Score']
del df['Age']
df

Unnamed: 0,Fname,Lname,Score
one,Sam,Park,100
two,John,Smith,80
three,James,Jordan,85


- Series, List를 이용하여 DataFrame에 새로운 열을 추가한다.

<div style = "border : 1px solid green; padding : 5px; width = 50px;">
#Data Frame변수.[columns] = value<br>
<div style = "color : gray;">
columns = 새로 추가하고자 하는 column의 이름을 입력<br>
value = 새로 추가하고자 하는 값을 입력<br>
</div></div>

- value의 값을 Series값으로 대체하여 입력이 가능하다.
- Series를 이용하여 값을 추가할 때 지정되지 않은 index의 값은 NaN값으로 지정한다.

#### * NaN값이란?
- A. 표현 불가능한 수치형 결과를 표현한 값, Not a Number의 약자

#### [DataFrame의 새로운 열 추가]

In [83]:
df['Grade']=['A','B','B','B']     #list를 이용한 열 추가
ser = pd.Series(['Seoul','Seoul','Daegu'],index=['one','three','four'])     #series를 이용한 열 추가
df['location'] = ser
df

Unnamed: 0,Fname,Lname,Score,Grade,location
one,Lee,Jeonghwan,100,A,Seoul
two,Park,Taesu,80,B,
three,Lim,Haeyoung,85,B,Seoul
four,Choi,Sooryn,90,B,Daegu


- DataFrame에서 원하는 데이터에 접근하고 그 값을 출력하기 위하여 loc을 이용한다.

<div style = "border : 1px solid green; padding : 5px; width = 50px;">
#Data Frame변수.loc(condition)<br>
<div style = "color : gray;">
condition = 데이터 접근을 하고자 하는 행의 조건을 입력 
</div></div>

- 특정 columns를 지정하여 출력이 가능하며 필요한 조건에 따른 행을 출력할 수 있다.
- 또한 조건에 맞는 행에 접근하여 값을 수정할 수 있다.

#### [DataFrame의 loc함수 활용]

In [30]:
df.loc['two':'four']    #two~four행



Unnamed: 0,Fname,Lname,Score
two,Park,Taesu,80
three,Lim,Haeyoung,85
four,Choi,Sooryn,90


- DataFrame내 NaN값의 존재 여부를 확인하기 위하여 isnull()함수를 이용한다.
- 또한 fillna()함수를 이용하여 NaN값 행의 value를 변경할 수 있다.
- NaN값 행을 삭제하고자 할 때는 dropna()함수를 사용한다.

<div style = "border : 1px solid green; padding : 5px; width = 50px;">
빈칸(blank) : NaN값을 가진 모든 행을 삭제한다. <br>
axis = value : value에 해당하는 열을 삭제한다.    <br>
how = 'any' : 행의 값 중 NaN값을 포함하는 값이 하나라도 존재한다면                해당 행을 삭제한다.    <br>
how = 'all' : 행의 모든 값이 NaN값이라면 해당 행을 삭제한다.    
<div style = "color : gray;">
</div></div>

#### [DataFrame의 새로운 열 추가]

In [10]:
print(df.isnull())
#NaN값을 가진 행에 0의 값을 넣기
df.fillna(value=0)
#NaN값을 가진 모든 행 삭제
#df.dropna()
#행의 값중 NaN값을 포함하는 값이 하나라도 있으면, 해당 행 삭제
#df.dropna(how=‘any’)
#행의 모든 값이 NaN값이라면 해당 행 삭제
#df.dropna(how=‘all’)

       Fname  Lname  Score
one    False  False  False
two    False  False  False
three  False  False  False


Unnamed: 0,Fname,Lname,Score
one,Sam,Park,100
two,John,Smith,80
three,James,Jordan,85


- sum()함수는 axis를 인자로 받아 해당 DataFrame 열의 합 또는 행의 합을 반환한다.
- DataFrame[열], DataFrame.loc[행] 의 형식으로 해당 행 또는 열의 합을 반환할 수 있다.

<div style = "border : 1px solid green; padding : 5px; width = 50px;">
#Data Frame변수.sum(parameter=value)<br>
#Data Frame변수[value].sum()<br>
#Data Frame변수.loc[value].sum()<br>
<div style = "color : gray;">
parameter : axis(0:열, 1:행)값을 입력 
</div></div>

#### [DataFrame에서 요소의 합 구하기]

In [11]:
import  pandas as pd
data = [[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 11]]
df = pd.DataFrame(data)
# 각 열의 합
print(df.sum(axis=0))
# 각 행의 합
print(df.sum(axis=1))
# 1열의 합
print(df[1].sum())
# 1행의 합
print(df.loc[1].sum())

0    15
1    18
2    21
3    23
dtype: int64
0    10
1    26
2    41
dtype: int64
18
26


- duplicated()함수를 이용하여 요소의 중복 여부를 알 수 있다.

<div style = "border : 1px solid green; padding : 5px; width = 50px;">
#Data Frame변수.duplicated() <br>
<div style = "color : gray;">

</div></div>

#### [DataFrame에서 중복 여부 확인]

In [12]:
import  pandas as pd
# 딕셔너리를 이용한 DataFrame의 초기화

data = {'FirstName': ['Lee', 'Lee', 'Park', 'Lim', 'Choi'],'LastName': ['Jeonghwan', 'Jeonghwan', 'Taesu', 'Haeyoung', 'Sooryn'], 'Age' : [27, 27, 25, 26, 26], 'Score' : [100, 100, 80, 85, 90] }
df = pd.DataFrame(data)
# DataFrame 출력
df
# 중복 여부 출력
df.duplicated()

0    False
1     True
2    False
3    False
4    False
dtype: bool

## 연습문제

### 1. 다음과 같은 데이터셋을 이용해 데이터 프레임을 생성시켜 보자.

- 사람 세 명에 대한 데이터셋
- 이름은 각각 Tom, Lina, Mike
- 몸무게는 70, 60, 55
- 키는 160, 170, 165

### 2. 위에서 생성한 데이터 프레임을 수정 해 보자.

- Lucy, 51, 163 데이터 추가
- BMI 항목 추가
- BMI 항목에 데이터 추가(체중/(키*키))
- 비만 여부 항목 추가
- BMI 지수가 25보다 높다면 비만 여부 항목에 비만 추가, 아니라면 정상

### 3. 위에서 생성한 데이터 프레임을 Matplotlib를 활용하여 그래프화 해보자.

아래와 같은 데이터셋을 활용하여 문제에서 요구하는 그래프를 그려 보자.  

- scatter 형 그래프 
- x의 label은 time  
- y의 label은 velocity 
- 차트의 제목은 height per weight 
- 데이터의 합을 나타내는 실선 형태의 레이블 추가
- 30 이상인 값을 나타내는 점선 형태의 레이블 추가 