### Pandas
- 행과 열로 구성된 표 형식의 데이터 객체를 만들 수 있는 라이브러리
- 데이터 처리와 분석에 최적화 되어있는 라이브러리
- 빅데이터를 처리하는데 매우 편리한 함수를 제공한다.

**pandas의 구조**
- Series Class : 1차원의 데이터
- DataFrame Class : 2차원의 DataFrame을 만들어준다
- 1차원의 Series 클래스가 모여서 2차원의 DataFrame을 만들어준다.

In [1]:
# 라이브러리 import

import pandas as pd

In [2]:
# pandas 설치 코드
# !pip install pandas

### Series 데이터 
- 1차원의 데이터

In [3]:
# 리스트를 이용하는 방식
population = pd.Series([9904312,3448737,2890451,2466052])    # 인덱스가 쫙 하고 보임
population

0    9904312
1    3448737
2    2890451
3    2466052
dtype: int64

In [4]:
# 딕셔너리를 이용하는 방식
population = pd.Series([9904312,3448737,2890451,2466052],                   
                      index = ['서울','부산','인천','대구'])  #인덱스지정도 가능 
population

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [5]:
# 딕셔너리(키값,밸류값) 를 이용하는 방식
population = pd.Series({     # 키값은 인덱스/ 벨류값은 값으로 들어감
    "서울" : 9904312,
    "부산" : 3448737,
    "인천" : 2890451,
    "대구" : 2466052
})
population

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [6]:
#1. 시리즈와 인덱스의 이름을 지정 하기

# 1-1 시리즈의 이름을 지정
population.name = '인구'
population

서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [7]:
#1-2 인덱스의 제목 지정하는 방법
# 나중에 가면 column의 이름이 된다

population.index.name = '도시'  
population

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [8]:
# 2. 시리즈 데이터 추가, 갱신(수정), 삭제
# 2-1. 데이터 추가(인덱스 확인 후 대입)
population['광주'] = 1420000   # 광주 인덱스에 접근해서 추가해줌
population

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
광주    1420000
Name: 인구, dtype: int64

In [9]:
# 2-2. 데이터 수정
population['부산'] = 3500000
population

#수정과 추가가 방법이 같음(그니까 넣어주거나 수정할때 있는지 없는지 확인하고 해야됨)

도시
서울    9904312
부산    3500000
인천    2890451
대구    2466052
광주    1420000
Name: 인구, dtype: int64

In [10]:
population['서울'] = 9904312

In [11]:
# 2-3 데이터 삭제
del population['서울']    # 한번 삭제하면 없는걸로 나옴(없다고 에러 뜸)
population

도시
부산    3500000
인천    2890451
대구    2466052
광주    1420000
Name: 인구, dtype: int64

In [12]:
#시리즈의 정보 확인하기
# 1. 시리즈의 값을 확인
population.values

array([3500000, 2890451, 2466052, 1420000], dtype=int64)

In [13]:
# 2. 인덱스 값 확인하기.
population.index

Index(['부산', '인천', '대구', '광주'], dtype='object', name='도시')

In [14]:
# 3. 시리즈의 타입을 확인하기
population.dtype     # pandas라이브러리는 numpy기반으로 만들어져서 어느정도의 명령어를
#                         공유하고 있음

dtype('int64')

In [15]:
# 시리즈의 연산 (오,, 더해짐)
population + population    #시리즈+ 시리즈는 연산이 된다
#                             (같은 인덱스끼리 연산됨)

도시
부산    7000000
인천    5780902
대구    4932104
광주    2840000
Name: 인구, dtype: int64

In [16]:
# 오 그냥 정수 들어가도 연산이 됨 

population / 1000000   

도시
부산    3.500000
인천    2.890451
대구    2.466052
광주    1.420000
Name: 인구, dtype: float64

## Indexing/ slicing

In [20]:
population[3]

1420000

In [18]:
population['광주']

1420000

In [27]:
# pandas는 원하는 인덱스(문자로) 값을 가져오는게 된다

population[['광주','인천','대구']]

도시
광주    1420000
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [28]:
# pandas는 원하는 인덱스(숫자로) 값을 가져오는게 된다
population[[3,1,2]]

도시
광주    1420000
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [33]:
population[1 : 4]

도시
인천    2890451
대구    2466052
광주    1420000
Name: 인구, dtype: int64

### Boolean Indexing

In [34]:
population >= 2500000   # 전체에서 확인

도시
부산     True
인천     True
대구    False
광주    False
Name: 인구, dtype: bool

In [35]:
# Boolean Indexing이 가능하다!
population[population >= 2500000]

도시
부산    3500000
인천    2890451
Name: 인구, dtype: int64

In [39]:
# Q1. 인구수가 200만 이하인 데이터만 가져와보기!
population[population <= 2000000]

도시
광주    1420000
Name: 인구, dtype: int64

In [41]:
# Q2. 인구수가 200만 이상 300만이하인 데이터만 가지고오기!
population[(population >= 2000000) & (population <= 3000000)]


도시
인천    2890451
대구    2466052
Name: 인구, dtype: int64

### DataFrame

In [43]:
# 데이터 프레임 생성 :
# 리스트를 가지고 데이터 프레임을 만들어보자!(엑셀처럼 표를 만들어줌!)

data = [ [9904312,3448737,2890451,2466052 ],
         [9631482,2293191,2632035,2431774 ]]

data_df = pd.DataFrame(data)    #위의 데이터를 데이터프레임에 넣어줄꺼다!
data_df 

Unnamed: 0,0,1,2,3
0,9904312,3448737,2890451,2466052
1,9631482,2293191,2632035,2431774


In [44]:
data = [ [9904312,3448737,2890451,2466052 ],
         [9631482,2293191,2632035,2431774 ]]

index = ['2015' , '2010']
col = ['서울','부산','인천','대구']


data_df = pd.DataFrame(data,index = index, columns = col )
data_df 

Unnamed: 0,서울,부산,인천,대구
2015,9904312,3448737,2890451,2466052
2010,9631482,2293191,2632035,2431774


In [47]:
# 딕셔너리를 이용한 데이터 프레임 만들기
# 딕셔너리의 키값은 데이터 프레임

data1 = { "2015" : [9904312, 3448737, 2890451, 2466052],
          "2010" : [9631482, 2293191, 2632035, 2431774]}
data1_df = pd.DataFrame(data1)
data1_df

Unnamed: 0,2015,2010
0,9904312,9631482
1,3448737,2293191
2,2890451,2632035
3,2466052,2431774


In [48]:
# 딕셔너리의 키값은 데이터 프레임
data1 = { "2015" : [9904312, 3448737, 2890451, 2466052],
          "2010" : [9631482, 2293191, 2632035, 2431774] }

data1_df = pd.DataFrame(data1, index = col)   # index는 위에 col 에 있는걸 받아와줌
data1_df

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,2293191
인천,2890451,2632035
대구,2466052,2431774


In [56]:
# 전치 : 행과 열의 위치를 바꿔주는 기능
# Transpose(전치하다)
# 위에 위에 있는 data의 행과 열을 바꿔줌
data_df = data_df.T

In [57]:
data_df       #다시 넣어줘야지 그대로 출력이되지 위에꺼 적용시키고 그냥 출력하면
                # 안바뀐다!

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,2293191
인천,2890451,2632035
대구,2466052,2431774


In [58]:
# 데이터 프레임에 새로운 컬럼(열) 추가하기

data_df['2020'] = [9562546, 3512547, 2517680, 2456016]

data_df



Unnamed: 0,2015,2010,2020
서울,9904312,9631482,9562546
부산,3448737,2293191,3512547
인천,2890451,2632035,2517680
대구,2466052,2431774,2456016


In [59]:
# 데이터 프레임 열 수정하기
data_df['2020'] = [0,0,0,0]

data_df

Unnamed: 0,2015,2010,2020
서울,9904312,9631482,0
부산,3448737,2293191,0
인천,2890451,2632035,0
대구,2466052,2431774,0


In [60]:
# 데이터 프레임 열 삭제하기

del data_df['2020']     #이건 열만할때
data_df

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,2293191
인천,2890451,2632035
대구,2466052,2431774


In [71]:
# 데이터 프레임 행 삭제하기!!
# drop(기준값, axis = 0 or 1) 
# axis : 축 / 0 ,1 의 값만 가지고 있음
# axis 가 0 -> 행의 방향(수직)으로 함수가 작용
# axis가 1 -> 열의 방향(수평)으로 작용

data_df.drop('부산', axis = 0,inplace = True )    # 이건 변수에 넣어주거나 implace를 해주면 다른
                                                 # 행에서 바로 적용가능 


https://blog.naver.com/smhrd_official/222830799092

In [80]:
#ㅎ.. 잘못했다 부산 삭제하고 다시 밑으로 붙히는거 이따 꼭 해보기
data_df['부산'] = [3448737, 2293191]

In [81]:
data_df 

Unnamed: 0,2015,2010,부산
인천,2890451,2632035,3448737
대구,2466052,2431774,2293191


In [73]:
# 데이터 프레임 값 확인
data_df.values

array([[2890451, 2632035],
       [2466052, 2431774]], dtype=int64)

In [74]:
# 데이터 프레임 인덱스 확인
data_df.index

Index(['인천', '대구'], dtype='object')

In [75]:
# 데이터 프레임 컬럼 확인
data_df.columns

Index(['2015', '2010'], dtype='object')

In [76]:
# 데이터 프레임 인덱싱 -> 기존의 인덱싱 방법은 열에 있는 모든 데이터만 가져온다
data_df['2015']

인천    2890451
대구    2466052
Name: 2015, dtype: int64

In [78]:
# 데이터 프레임 슬라이싱
data_df [ '2015' ]

인천    2890451
대구    2466052
Name: 2015, dtype: int64

In [82]:
# 데이터 프레임 슬라이싱 -> 기존의 슬라이싱 방법은 행에만 적용이 된다.
data_df['부산' : '대구']
# 우리가 직접 설정해준 인덱스는 끝깞을 포함한다(원래 +1 해줘야했었는데~! ) ****매우 중요

Unnamed: 0,2015,2010,부산
대구,2466052,2431774,2293191


In [None]:
# 인덱서

# 데이터 프레임 상에서 인덱싱과 슬라이싱을 원활하게 하게 도와주는 도구

# loc : 실제 인덱스명 or 컬럼명을 이용해서 데이터를 가져오는 도구  -> 우리가 만든 인덱스
# iloc : 인덱스 번호를 사용해서 데이터를 가져오는 도구 -> 기존의 인덱스 번호


In [84]:
data1 = { "2015" : [9904312, 3448737, 2890451, 2466052],
          "2010" : [9631482, 2293191, 2632035, 2431774]}

data1_df = pd.DataFrame(data1,index = col)
data1_df

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,2293191
인천,2890451,2632035
대구,2466052,2431774


In [86]:
# loc[행의 시작값 : 행의 끝 값 , 열의 시작 값 : 열의 끝 값]
# 2010년도 부산과 인천 인구 데이터를 가져와보자
data1_df.loc[ '부산' : '인천', '2010' ]

부산    2293191
인천    2632035
Name: 2010, dtype: int64

In [88]:
# 서울에서 부산까지의 2015 2010 데이터를 가져와보자

data1_df.loc[ '서울' : '부산', '2015' :  ]

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,2293191


In [90]:
# iloc[행의 시작값 : 행의 끝 값(얜 포함이 안됨) +1 , 열의 시작 값 : 열의 끝 값+ 1]
data1_df.iloc[ 0 : 2 ,0 : 2 ]

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,2293191


### 성적표 데이터를 이용해서 loc,iloc에 익숙해져보자

In [95]:
# 판다스는 불러오기가 좀더 편함(확장자명을 다 가지고 있어서)
# 이거 한글을 인식하는 코덱의 종류를 추가를 안해주면 오류가남
# 기존의 방식이 아닌 utf-8 방식으로 디코딩 할 수 없다는 의미

# 그래서 이걸 encoding이라는 파라미터를 추가해서 적어 넣어주면?
# 한글을 인식하는 코덱의 종류 : (EUC-KR (더 많이 접할듯), cp949)


score = pd.read_csv('./data/score.csv', encoding = 'EUC-KR', index_col = '과목')
score

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,45,44,73,39
영어,76,92,45,69
국어,47,92,45,69
사회,92,81,85,40
과학,11,79,47,26


In [103]:
# 1. 각반에 과학 점수를 가져와주세요

score.loc['과학', :  ]

1반    11
2반    79
3반    47
4반    26
Name: 과학, dtype: int64

In [102]:
# 2. 4반에 사회점수를 가져와주세요(loc 사용해서)

score.loc[ '사회' , '4반' ]


40

In [100]:
# 3. 2반과 3반의 영어점수를 가지고 오는데, (iloc 사용해주세요)

score.iloc[ 1:2 ,1 : 3 ]

Unnamed: 0_level_0,2반,3반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1
영어,92,45


In [96]:
# 4. 1반 부터 3반까지 수학부터 국어 점수 가져와주세요
score.loc[ '수학' : '국어',  : '3반' ]

Unnamed: 0_level_0,1반,2반,3반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
수학,45,44,73
영어,76,92,45
국어,47,92,45


In [105]:
# 전체반의 영어점수 가져오기
score.loc[ '영어' , : ]


1반    76
2반    92
3반    45
4반    69
Name: 영어, dtype: int64