# Pandas 학습
1. 데이터 분석을 위한 모듈
2. excel과 가장 큰 차이점 = Pandas는 대용량 데이터 처리가 가능하다
3. 데이터 분석 및 데이터 가공에 절대적으로 사용되는 library
4. 주요 학습 내용
    - DataFrame - excel의 다수의 컬럼들을 보유한 table과 동일하다 간주함
    - Series - DataFrame을 구성하는 column 

**참고**
주피터 노트북 익스텐션을 활용하여 생산성 높이기
> !pip install jupyter_contrib_nbextensions && jupyter contrib nbextension install

상단의 명령어를 통해 설치하면 왼쪽처럼 목차가 뜬다.<br>
설치 후 table of contents, autopep8를 체크하면 된다.<br>
위에 망치모양이 코드의 형태를 이쁘게 맞춰주는 아이다.<br>
vsc에서 shith alt F와 같은 역할 <br>
- `!`이건 prompt 창에서 다음 명령어를 실행하는 것과 같은 기능을 한다.

## 기초 익히기
- 이미 존재하는 파일의 내용으로 DataFrame 생성하기
> 중복 데이터 제거, 결측시 처리

### DataFrame  & Series 구조 
> https://pandas.pydata.org/docs/getting_started/index.html <br>
    
    
- pandas 설치
> !pip show pandas

In [3]:
# 전처리를 위한 library import
# as 키워드는 library 별칭 부여 : pd 관습적으로 사용
import pandas as pd
import numpy as np

In [47]:
s = pd.Series([1, 2, 3])
print(s)
print('--'*20)
print(type(s))
print('--'*20)
# 보유한 데이터
print(s.values)

0    1
1    2
2    3
dtype: int64
----------------------------------------
<class 'pandas.core.series.Series'>
----------------------------------------
[1 2 3]


In [12]:
# 마지막 index = stop - 1
s.index

RangeIndex(start=0, stop=3, step=1)

**결측치 : 데이터 없음을 의미함**
- NaN(not a number) : js에서 숫자가 아님을 의미하는 표현법
- python에선 결측치를 의미함
- 명시적으로 Series에 결측치 적용
- numpy API에 결측치 표현
- 데이터를 관리하기 위해서 간혹 결측치를 임의로 생성해야 할 경우가 있다.

In [14]:
# 결측치 생성
s = pd.Series([1, np.nan, 3])
print(s)
print('--'*20)

# count : 결측치를 제외한 유효한 데이터의 개수를 counting 한다.
print(s.count())

0    1.0
1    NaN
2    3.0
dtype: float64
----------------------------------------
2


**결측치를 치환하는 명령어 : fillna()**

In [17]:
s = s.fillna(0)
s

0    1.0
1    0.0
2    3.0
dtype: float64

**결측치를 삭제하는 명령어 : dropna()**

In [22]:
# 결측치 삭제 : dropna()
s = pd.Series([1, np.nan, 3, 4, np.nan, 6])
print(s)
print('--' * 20)

s = s.dropna()
print(s)

0    1.0
1    NaN
2    3.0
3    4.0
4    NaN
5    6.0
dtype: float64
----------------------------------------
0    1.0
2    3.0
3    4.0
5    6.0
dtype: float64


In [19]:
df = pd.DataFrame(
    {
        "Name": [
            "Braund, Mr. Owen Harris",
            "Allen, Mr. William Henry",
            "Bonnell, Miss. Elizabeth",
        ],
        "Age": [22, 35, 58],
        "Sex": ["male", "male", "female"],
    }
)
df

Unnamed: 0,Name,Age,Sex
0,"Braund, Mr. Owen Harris",22,male
1,"Allen, Mr. William Henry",35,male
2,"Bonnell, Miss. Elizabeth",58,female


### 날짜와 문자열 데이터 다루기 

- Python의 datetime모듈

>date : 연, 월, 일

>time : 시간, 분, 초, 마이크로초(백만분의 1초)

>datetime : date와 time요소

- Pandas의 Timestamp

>날짜와 시간 모두 포함 : 나노초(10억분의 1초) 단위의 정밀도


- timedelta

>날짜의 덧셈과 뺄셈에 유용



In [23]:
# 6일치의 날짜 데이터 생성
# data_range(시작일, 범위) : 시작일로 부터 해당 범위 날짜까지 자동 생성 
datas = pd.date_range('20210628', periods=6)
datas

DatetimeIndex(['2021-06-28', '2021-06-29', '2021-06-30', '2021-07-01',
               '2021-07-02', '2021-07-03'],
              dtype='datetime64[ns]', freq='D')

In [24]:
type(datas)

pandas.core.indexes.datetimes.DatetimeIndex

### np.random 난수 생성

In [26]:
np.random.randn(2, 3)

array([[ 0.2258882 , -0.05629748, -0.40272748],
       [-3.5496841 , -0.5298403 , -1.32241566]])

In [41]:
print(np.random.randint(8))
# 범위가 2 ~ 2 이므로 계속 2만 나온다.
print(np.random.randint(2, 3))

6
2


In [44]:
# 6행 4열의 구조로 날짜를 보유한 datas 변수값을 index로 구성하는 DataFrame 객체 
# pandas로 데이터 처리시에는 numpy 모듈을 필수
df = pd.DataFrame(np.random.randn(6, 4), index=datas)
df

Unnamed: 0,0,1,2,3
2021-06-28,0.316507,-0.52741,-0.605017,1.261473
2021-06-29,0.069595,-0.02109,-2.242459,-0.37615
2021-06-30,0.621617,0.20409,0.082174,0.857012
2021-07-01,-0.943596,-1.881376,-0.378098,0.602923
2021-07-02,0.541145,-0.284489,0.832258,0.566265
2021-07-03,1.165258,-0.198895,-0.440869,1.318195


In [45]:
# 컬럼명 가공
df.columns = ['a', 'b', 'c', 'd']   # 또는!
df = pd.DataFrame(np.random.randn(6, 4), index=datas,
                  columns=['a', 'b', 'c', 'd'])
df

Unnamed: 0,a,b,c,d
2021-06-28,1.747444,-0.708034,0.742717,-0.446046
2021-06-29,-1.541808,-0.947643,-0.215323,0.060244
2021-06-30,0.324549,0.275914,-0.322824,-3.017415
2021-07-01,0.054773,-0.391381,0.423115,0.33793
2021-07-02,0.836957,-0.544874,-0.192745,-1.030811
2021-07-03,-0.221231,0.497988,-0.223669,-0.351674


## row, col의 특정 데이터 검색
특정 컬럼들 값만 도출하기

In [49]:
# [] 연산자 활용
print(df['a'])
print('--' * 20)

# dot 연산자 활용
print(df.a)

2021-06-28    1.747444
2021-06-29   -1.541808
2021-06-30    0.324549
2021-07-01    0.054773
2021-07-02    0.836957
2021-07-03   -0.221231
Freq: D, Name: a, dtype: float64
----------------------------------------
2021-06-28    1.747444
2021-06-29   -1.541808
2021-06-30    0.324549
2021-07-01    0.054773
2021-07-02    0.836957
2021-07-03   -0.221231
Freq: D, Name: a, dtype: float64


**특정 row들 도출하기**

In [50]:
# df의 index가 0 ~ 2의 row들 출력
df[0:3]

Unnamed: 0,a,b,c,d
2021-06-28,1.747444,-0.708034,0.742717,-0.446046
2021-06-29,-1.541808,-0.947643,-0.215323,0.060244
2021-06-30,0.324549,0.275914,-0.322824,-3.017415


In [52]:
# df의 index가 0 ~ 2의 row들의 a col의 데이터 출력
df[0:3]['a']

2021-06-28    1.747444
2021-06-29   -1.541808
2021-06-30    0.324549
Freq: D, Name: a, dtype: float64

# file로 부터 데이터 read해서 data 타입 이해하기
- csv 파일의 내용을 read하면서 DataFrame객체로 생성
- DataFrame 객체의 장점은 다양한 함수가 있기 때문에 조작 및 정제 가능
- 가정사항 : csv 파일은 제공 받음, 단 raw는 보존, 정제 및 분석을 위해서는 최적인 상태로 가공 및 문제점 찾기

In [54]:
df = pd.read_csv('dataset/01.date_data.csv')
df

Unnamed: 0,Name,Birth,email
0,이순신,2021-01-01 9:10,happy@gmail.com
1,홍길동,2021-01-08 9:20,1004@NAVER.COM
2,유관순,2021-02-01 10:20,Iron at yahoo.co.kr
3,이이,2021-02-02 11:40,\tlee@gmail.com
4,김구,2021-02-28 15:10,kim@daum.net\t
5,윤봉길,2021-04-10 19:20,yeon@daum.ac.kr
6,강감찬,2021-06-30 21:20,kkc@gmail.com
7,신사임당,2021-07-20 23:30,monther@NAVER.COM
8,을지문덕,2021-08-28 11:48,ygmd@daum.net
9,유재석,2021-09-01 3:12,yjs at gmail.com


**문자열 타입을 object 타입으로 표현한다.**

In [57]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Name    10 non-null     object
 1   Birth   10 non-null     object
 2   email   10 non-null     object
dtypes: object(3)
memory usage: 368.0+ bytes
