# 6.1 엑셀보다 빠르고 강력한 판다스
* 데이터 과학자는 전통적으로 2차원 행렬 형태의 데이터는 개발자가 편리하게 각 요소나 행, 열에 접근할 수 있기 때문이다
* 앞장에서 살펴본 넘파이는 2차원 행렬 형태의 데이터를 지원하지만, 데이터의 속성을 표시하는 행이나 열의 레이블을 가지고 있지 않다는 한계가 있다.
* 하지만 파이썬의 Pandas 패키지를 사용하면 이러한 문제를 해결할 수 있다.



* 판다스는 넘파이를 기반으로 하기 때문에 처리속도가 빠르고, 행과 열로 잘 구조화된 데이터프레임을 제공하며, 이 데이터프레임을 조작할 수 있는 다양한 함수를 지원한다.
* 행과 열에는 레이블이 붙어 있어서 매우 편리하게 각 행과 열에 접근할 수 있으며, 데이터프레임을 결합하거나 그 형태를 변경하는 일도 간편하게 할 수 있다.
* 또한, 이전 장에서 배운 matplotlib과도 완벽하게 통합되어 있기 때문에 데이터 과학을 위한 핵심적인 도구이다.

## Pandas의 주요 특징
* 빠르고 효율적이며 다양한 표현력을 갖춘 자료 구조
* 다양한 형태의 데이터에 적합
  * 이종 자료형의 열을 가진 테이블 데이터
  * 시계열 데이터
  * 레이블을 가진 다양한 행렬 데이터
  * 다양한 관측 통계 데이터

* 핵심구조
  * Series: 1차원 구조를 가진 하나의 열
  * DataFrame: 복수의 열을 가진 2차원 데이터

* 판다스가 잘하는 일
  * 결측 데이터 처리와 필터링
  * 데이터 추가와 삭제
  * 열 데이터의 정렬과 다양한 데이터 조작
  * 파이썬 리스트, 딕셔너리, 넘파이 배열을 데이터프레임으로 손쉽게 변환
  * 데이터프레임의 각 필드들 사이의 상관 관계를 구하는 일
  * 각 데이터프레임 열에서 결측값의 개수와 정강값의 수를 계산
  * matplotlib과 잘 결합되어 손쉽게 데이터를 시각화
  * 한 데이터프레임을 특정한 기준에 따라 여러 개의 데이터프레임으로 분할
  * 두 데이터프레임을 결합하고 다시 인덱싱하는 능력

# 6.2 데이터 교환을 위한 csv 파일 형식
* 앞 장에서 살펴본 넘파이의 2차원 행렬 데이터는 모두 같은 자료값을 가지는 단순한 수치 정보 중심으로만 구성되어 있다는 한계를 Pandas 패키지로 극복 가능
* 넘파이의 다차원 배열과 같이 Pandas는 Series & DataFrame이라는 두 가지의 기본적이고도 다재다능한 데이터 구조를 제공한다.

## Series
* 같은 자료형의 데이터를 저장하는 인덱싱된 1차원 배열인데, 시리즈 데이터를 만드는 것은 Series 클래스를 이용한다.
* 이 클래스를 생성할 때 아래와 같은 값을 가진 리스트를 넘겨주면, 이 리스트를 이용하여 1차원 벡터 구조의 시리즈 데이터 se를 생성하게 된다.

In [None]:
import numpy as np
import pandas as pd

se = pd.Series([1,2,np.nan,4]) # np.nan은 결측값
se

Unnamed: 0,0
0,1.0
1,2.0
2,
3,4.0


* 데이터 과학을 위한 데이터를 다루게 될 경우, 잘 정제된 좋은 데이터보다는 정제되지 않은 데이터나 결측 데이터를 많이 다루게 된다. 이것을 missing value(결손값) or 결측값이라 하는데 판다스는 이것을 탐지하고 수정하는 함수를 제공한다.
* 데이터에 결손값이 있는지를 boolean값으로 반환하는 함수는 isna()이다.
* 여기서 se가 결손값을 가지므로 se.isna()는 NaN이 포함된 세 번째 항목만 True로 반환한다.

In [None]:
se.isna()

Unnamed: 0,0
0,False
1,False
2,True
3,False


* Series 자료구조 se의 첫 번째 원소와 두 번째 원소를 추출하기 위해서는 다음과 같은 인덱싱 기법을 사용한다.

In [None]:
se[0], se[1]

(1.0, 2.0)

* 앞서 살펴본 Series se는 0,1,2,3과 같은 인덱스를 가진 자료값이었는데 이 인덱스는 다음과 같은 방법을 사용하여 'a','b','c','d'와 같은 알파벳 문자로 변경할 수도 있다.
* 이 경우 인덱싱을 할 때는 'a','b'와 같은 알파벳 문자를 인덱스값으로 넘겨주어야한다.

In [None]:
data = [1,2,np.nan,4]
indexed_se = pd.Series(data, index=['a','b','c','d'])
print(indexed_se)

a    1.0
b    2.0
c    NaN
d    4.0
dtype: float64


# 6.3 판다스의 기본 구조인 Series와 DataFrame
* 파이썬의 딕셔너리 구조를 그대로 사용하여 시리즈를 생성할 수도 있다.
* 만일, 동운이네 상점의 1월, 2월, 3월, 4월 수익이 다음과 같은 값을 가지는 경우를 생각해보자.
* 판다스에서는 각월의 수익을 아래와 같이 딕셔너리 구조로 정의한 후, 이 딕셔너리를 이용하여 income_se 시리즈를 생성하는 코드를 만들 수 있다.


In [None]:
income = {'1월':9500, '2월':6200, '3월':6300, '4월':5400}
income_se = pd.Series(income)
print('동윤이네 상점의 수익')
print(income_se)

동윤이네 상점의 수익
1월    9500
2월    6200
3월    6300
4월    5400
dtype: int64


* 앞서 살펴본 동윤이네 상점의 수익 정보와 함께 지출 정보와 같은 새로운 정보가 더 필요한 경우를 생각해보자.
* 만일 이 상점에 매달 일정한 물건 구입 비용이 발생한 경우, 수익과 지출을 모두 표기하기 위해서는 1차원의 시리즈 자료구조로는 표현이 어렵다.
* 따라서 다음과 같이 expenses_se 시리즈 자료를 만들어서 새롭게 데이터를 만들어야 한다.
* 이때 사용되는 2차원 자료구조가 바로 DataFrame이다.

* 이제 다음과 같이 월 수익과 지출을 각각 시리즈로 다음과 같이 정의한 후, 이 정보를 바탕으로 데이터 프레임을 만들어 보도록 하자.
* 데이터 프레임을 생성할 때는 판다스 모듈의 DataFrame() 클래스를 사용한다. 이때 아래와 같이 정의한 시리즈를 값으로 가지는 딕셔너리 구조를 만들어서 '월', '수익', '지출'과 같은 열의 이름을 지정할 수 있다.
* 여기서 df를 이용하여 출력할 경우 주피터 노트북에서 아래와 같이 표를 만들어 주며, print(df)를 사용할 경우 텍스트 형식의 출력을 하게 된다.


In [None]:
month_se = pd.Series(['1월', '2월', '3월', '4월'])
income_se = pd.Series([9500, 6200, 6050, 7000])
expenses_se = pd.Series([5040,2350, 2300, 4800])
df = pd.DataFrame({'월':month_se, '수익':income_se, '지출':expenses_se})
df

Unnamed: 0,월,수익,지출
0,1월,9500,5040
1,2월,6200,2350
2,3월,6050,2300
3,4월,7000,4800


* 넘파이의 argmax() 함수를 사용하여 income_se 시리즈값들 중에서 최대값의 인덱스를 추출한 후 이 인덱스를 이용하여 month_se의 월을 추천해 보도록 하자.
* 다음으로 income_se 시리즈의 최대값과 평균값을 출력해 보자.

In [None]:
m_idx = np.argmax(income_se) # 넘파이의 argmax() 사용
print('최대 수익이 발생한 월:', month_se[m_idx])

print('월 최대 수익:', income_se.max(),\
      ', 월 평균 수익:', income_se.mean())

최대 수익이 발생한 월: 1월
월 최대 수익: 9500 , 월 평균 수익: 7187.5


# 6.4 csv 데이터를 읽고 확인하기
* CSV는 테이블 형식의 데이터를 저장하고 이동하는 데 사용되는 구조화된 텍스트 파일이다.
* Csv stands for comma separated variables
* 하지만 쉼표가 아닌 어떤 구분자라도 사용이 가능하다. (e.g., tab으로 구분하면 TSV)
* csv 파일은 그림과 같이 필드를 나타내는 열과 레코드를 나타내는 행으로 구성된다.
* 예를들어 'Gildong, Hong'이라는 데이터가 있다고 하자. 데이터의 중간에 쉼표가 포함되어 있다. <em>이러한 경우에는 구분자로 사용되는 쉼표와 구분하기 위하여 반드시 데이터를 따옴표로 감싸야 한다</em>
* 데이터의 속성을 한눈에 이해하기에는 불편하다.
* 판다스 모듈은 이러한 csv 파일을 읽어들여서 데이터프레임으로 바꾸는 작업을 간단히 할 수 있는데, 다음과 같이 read_csv 함수를 이용하면 된다. (read_csv() 함수는 웹상에 있는 파일도 바로 읽을 수 있다.)



In [None]:
path = 'https://github.com/dongupak/DataML/raw/main/csv/'
file = path + 'vehicle_prod.csv'
df = pd.read_csv(file) # 원격지에 접속하여 csv를 읽어옴
df

Unnamed: 0.1,Unnamed: 0,2007,2008,2009,2010,2011
0,China,7.71,7.95,11.96,15.84,16.33
1,EU,19.02,17.71,15.0,16.7,17.48
2,US,10.47,8.45,5.58,7.6,8.4
3,Japan,10.87,10.83,7.55,9.09,7.88
4,Korea,4.04,3.78,3.45,4.2,4.62
5,Mexico,2.01,2.05,1.5,2.25,2.54


# 6.5 데이터프레임의 구조
* 데이터프레임에서는 다음과 같이 index와 columns 객체를 정의하여 사용한다.
* 인덱스는 행들의 레이블이고 컬럼스는 열들의 레이블이 저장된 객체이다.
* 주의할 점은 각 행의 인덱스가 0부터 5까지 자동으로 부여되어 있다는 점이며, 비워 두었던 첫 열은 Unamed:0이라는 이름이 부여된 것을 확인할 수 있다.
* 우리가 첫 행의 첫 열 공간을 비워 둔 것은 이 열에 나타나는 국가 이름을 인덱스로 사용하기 위한 것이므로, 자동으로 0부터 정수를 매겨 인덱스로 쓰지 않고, 국가 이름이 있는 0번열을 인덱스로 사용하라고 알려주면 좋을 것이다.
* 이를 위해 판다스의 read_csv() 함수에 index_col이라는 키워드 매개변수에 인자 0을 넘겨주면 첫 번째 열이 인덱스로 사용된다.

In [None]:
df = pd.read_csv(file, index_col = 0)
df

Unnamed: 0,2007,2008,2009,2010,2011
China,7.71,7.95,11.96,15.84,16.33
EU,19.02,17.71,15.0,16.7,17.48
US,10.47,8.45,5.58,7.6,8.4
Japan,10.87,10.83,7.55,9.09,7.88
Korea,4.04,3.78,3.45,4.2,4.62
Mexico,2.01,2.05,1.5,2.25,2.54


* 이 데이터프레임의 컬럼값과 인덱스 값을 출력하기 위해서는 다음과 같이 colums, index 속성을 사용하면 된다.

df.columns # 데이터프레임의 컬럼값들을 살펴보자