### 데이터 과학자가 판다스를 배우는 이유
빅데이터의 시대가 성큼 다가왔다. 미국을 비롯한 데이터 선진국들은 인공지능과 빅테이터 기술을 놀라운 속도로 확산시키며 삶의 패러다임을 바꾸고 있다.  
과거와는 달리 엄청나게 빠른 속도로 쌓여가는 방대한 데이터와, 그 데이터를 저장, 분석할 수 있는 컴퓨팅 파워의 결합이 데이터 과학이라는 새로운 영역을 
출현 가능하게 했다.  
데이터 과학은 데이터를 연구하는 분야이고, 데이터 자체가 가장 중요한 자원이다.  
실제로 **데이터 분석 업무의 80~90%는 데이터를 수집하고 정리하는 일이 차지한다고 한다.** 나머지 10 - 20%는 알고리즘을 선택하고 모델링 결과를 분석하여 
데이터로부터 유용한 정보를 뽑아내는 분석 프로세스의 몫이다.  
데이터과학자가 하는 가장 기초적이고 중요한 일은 데이터를 수집하고 분석이 가능한 형태로 정리하는 것이라고 말할 수 있다. 
pandas라이브러리는 데이터를 수집하고 정리하는 데 최적화된 도구라고 볼 수 있다.  
오픈소스라서 무료라는 장점도 있다. 또한 가장 배우기 쉬운 프로그래밍 언어 중의 하나인 파이썬을 기반으로 하기 때문에 컴퓨터과학이나 프로그램을 전공하지 않은 사람들도 쉽게 따라가며 배우는 것이 가능하다.  
판다스를 배우면 데이터 과학의 80 - 90% 업무를 처리할 수 있고, 데이터과학자에게 필요한 기본적이면서도 아주 중요한 도구를 갖추게 된다. 

### 판다스 자료구조
분석을 위해 다양한 소스로부터 수집하는 데이터는 형태나 속성이 매우 다양하다. 특히 서로 다른 형식을 갖는 여러 종류의 데이터를 컴퓨터가 이해할 수 있도록 동일한 형식을 갖는 구조로 통합할 필요가 있다.  
이를 위해 판다스는 시리즈(Series)와 데이터프레임(DataFrame)이라는 구조화된 데이터 형식을 제공한다.  
서로 다른 종류의 데이터를 한곳에 담는 그릇(컨테이너)이 된다.  
다만 시리즈는 1차원 배열이고, 데이터프레임이 2차원 배열이라는 점에서 차이가 있다.  
판다스의 1차적인 목적은 서로 다른 여러 가지 유형의 데이터를 공통의 포멧으로 정리하는 것이다. 특히 행과 열로 이루어진 2차원 구조의 데이터프레임은 데이터 분석 실무에서 자주 사용된다.  
이 책의 많은 머신러닝 예제들도 데이터프레임으로 정리된 데이터를 사용한다.  

<pre>
<code>
def pandas_learning():
    print('let's go')
</code>
</pre>
link : [Google][https://google.com]  

[google](https://google.com, "google link")


### 시리즈
시리즈는 데이터가 순차적으로 나열된 1차원 배열의 형태를 갖는다. 키와 값이 {k:v}형태로 짝을 이루는 파이썬 딕셔너리와 비슷한 구조를 갖는다고 볼 수 있다.  
딕셔너리와 시리즈의 구조가 비슷하기 때문에 딕셔너리를 시리즈로 변환하는 방법을 많이 사용한다. 판다스는 내장 함수인 Series()를 이용하고, 디셔너리를 함수의 인자로 전달한다.
딕셔너리 -> 시리즈 변환: pandas.Series(딕셔너리)  


In [1]:
import pandas as pd

dict_data = {'a': 1, 'b':2, 'c': 3}

sr = pd.Series(dict_data)

print(type(sr))
print('\n')
print(sr)

<class 'pandas.core.series.Series'>


a    1
b    2
c    3
dtype: int64


#### 인덱스 구조
인덱스는 자기와 짝을 이루는 데이터 값의 순서와 주소를 저장한다. 인덱스를 잘 활용하면 데이터 값의 탐색, 정렬, 선택, 결합 등 데이터 조작을 쉽게 할 수 있다. 인덱스에는 크게 두 가지 종류가 있다. 정수형 위치 인덱스(integer position)와 인덱스 이름(index name) 또는 인덱스 라벨(index label)이 그것이다.  
인덱스 배열 : Series객체.index  
데이터 값 배열: Series객체.values  
판다스 Series() 함수를 사용하여 파이썬 리스트를 시리즈로 변환한다. 단, 리스트를 시리즈로 변활할 때는 딕셔너리의 키처럼 인덱스로 변환될 값이 없다. 따라서 인덱스를 별도로 정의하지 않으면, 디폴트로 정수형 위치 인덱스(0,1,2...)가 자동으로 지정된다. 

In [3]:
list_data = ['2021-11-11', 3.14, 'ABC', 100, True]
sr = pd.Series(list_data)
print(sr)

idx = sr.index
val = sr.values
print(idx)
print('\n')
print(val)

0    2021-11-11
1          3.14
2           ABC
3           100
4          True
dtype: object
RangeIndex(start=0, stop=5, step=1)


['2021-11-11' 3.14 'ABC' 100 True]


### 원소 선택
원소의 위치를 나타내는 주소 역할을 하는 인덱스를 이용하여 시리즈의 원소를 선택한다. 하나의 원소를 선택할 수도 있고, 여러 원소를 한꺼번에 선택할 수도 있다. 
파이썬 리스트 슬라이싱 기법과 비슷하게 인덱스 범위를 지정하여 원소를 선택하는 방법도 있다.  
인덱스의 두 가지 유형에 따라 사용법이 조금 다르다. 정수형 위치 인덱스는 대괄호안에 위치를 나타내는 숫자를 입력하는데 반해, 인덱스 이름을 사용할 때는 대괄화안에 이름과 함께 따옴표를 입력한다. 큰 따옴표와 작은 따옴표 모두 가능하다.  
Series() 함수를 사용하여 파이썬 튜플을 시리즈로 변환한다. 튜플도 리스트처럼 딕셔너리의 키에 해당하는 값이 없어서 시리즈로 변활할 때 정수형 위치 인덱스가 자동 지정된다.
리스트 또는 튜플을 시리즈로 만들 때 정수형 위치 인덱스 대신 인덱스 이름을 따로 지정할 수 있다. Series() 함수의 index 옵션에 인덱스 이름을 직접 전달하는 방식이다.  

In [7]:
tup_data = ('영인', '2010-05-01', '여', True)
sr = pd.Series(tup_data, index=['이름', '생년월일', '성별', '학생여부'])
print(sr)
print(sr.index)
print(sr[0])
print(sr['이름'])

이름              영인
생년월일    2010-05-01
성별               여
학생여부          True
dtype: object
Index(['이름', '생년월일', '성별', '학생여부'], dtype='object')
영인
영인


In [10]:
print(sr[[1,2]])
print(sr[['생년월일', '성별']])

생년월일    2010-05-01
성별               여
dtype: object
생년월일    2010-05-01
성별               여
dtype: object


In [11]:
print(sr[1:2])
print('\n')
print(sr['생년월일':'학생여부'])

생년월일    2010-05-01
dtype: object


생년월일    2010-05-01
성별               여
학생여부          True
dtype: object


### 데이터프레임
데이터프레임은 2차원 배열이다. 행과 열로 만들어지는 2차원 배월 구조는 마이크로소프트 엑셀과 관계형 데이터베이스 등 컴퓨터 관련 다양한 분야에서 사용된다.  판다스의 데이터프레임 자료구조는 대표적인 통계 패키지인 R의 데이터프레임에서 유래했다고 알려져 있다.  
시리즈를 열벡터라고하면, 데이터프레임은 여러개의 열벡터들이 같은 행 인덱스를 기준으로 줄지어 결합된 2차원 벡터 또는 행렬이다.  
데이터프레임은 행과 열을 나타내기 위해 두 가지 종류의 주소를 사용한다. 행 인덱스와 열이름으로 구분한다.  
데이터프레임의 열은 공통의 속성을 갖는 일련의 데이터를 나타내고, 행은 개별 관측대상에 대한 다양한 속성 데이터들의 모음인 레코드가 된다. 
> **데이터프레임 만들기**  
데이터프레임을 만들기 위해서는 같은 길이(원소의 개수가 동일한)의 1차원 배열 여러 개가 필요하다. 데이터프레임은 여러 개의 시리즈(열)을 모아놓은 집합으로 이해하면 된다. 딕셔너리의 값 해당하는 각 리스트가 시리즈 배열로 변환되어 데이터프레임의 열이 된다. 딕셔너리의 키는 각 시리즈이 이름으로 변환되어 최종적으로 데이터프레임의 열 이름이 된다.  
데이터프레임을 만들 때는 판다스 DataFrame()함수를 사용한다.  
딕셔너리 -> 데이터프레임 변환 : pandas.DataFrame(딕셔너리 객체)