# pandas

### pandas와 numpy 비교
- 다양한 데이터를 읽고 처리하는데 편리한 라이브러리 
- Pandas를 이용해서 “.csv”  파일을 이용해서 분석하기 편리함 
- 결측성 데이터(손실된 데이터)를 보정할 수 있고, 데이터의 추가, 삭제, 정렬과 조작 등이 가능함(전처리) 
- Numpy는 행렬 데이터를 지원하나, 데이터를 분석하는데 있어 필요한 속성이지만 행이나 열의 레이블이 없다. 
- 하지만, Pandas는 이러한 문제를 해결할 수 있음 

### pandas
- 리스트, 딕셔너리, 넘파이 배열을 데이터 프레임으로 변환 
- ‘.csv’, ‘excel’, ‘JSON’ 등의 다양한 포맷의 파일을 처리 
- 데이터의 결측치 처리를 위해서 데이터 보기, 검사, 필터, 정렬, 그룹화 및 정제

### pandas 설치
- pip install pandas
- import pandas as pd


In [None]:
import pandas as pd

# pandas로 데이터 처리

name_age_data = {'name' : ['김현기', '유미석', '이상민', '장일도'], \
                    'age' : [54, 27, 33, 41],\
                    'math grade' : ['A+', 'A0', 'A-', 'B+']}

frame = pd.DataFrame(name_age_data)
frame

Unnamed: 0,name,age,math grade
0,김현기,54,A+
1,유미석,27,A0
2,이상민,33,A-
3,장일도,41,B+


In [9]:
name_age_data = {'name' : ['김현기', '유미석', '이상민', '장일도'], \
                    'age' : [54, 27, 33, 41],\
                    'math grade' : ['A+', 'A0', 'A-', 'B+']}

frame_index = pd.DataFrame(name_age_data,\
                           columns = ['name', 'age', 'math grade'], \
                           index = ['01', '02', '03', '04'])
frame_index.loc['01', 'math grade']
                           


'A+'

# pandas 시리즈와 데이터프레임
## 시리즈와 데이터 프레임
- **시리즈**
    - 1차원
    - 레이블이 붙어있는 1차원 벡터
- **데이터프레임**
    - 2차원
    - 행과 열로 되어있는 2차원 테이블.
    - 각 열은 시리즈로 구성됨.
- 데이터 프레임의 구조= 시리즈 데이터의 연속 <br>
## 설명
- pandas의 데이터 구조는 numpy 배열을 이용하여 계산 
- 인덱스(index)와 컬럼(columns)가 동일하게 적용 
- Pandas는 시리즈(series) 클래스와 데이터프레임(data frame)클래스를 사용
- pd.read_csv(‘파일이름’, index_col =0) 
- index_col=0 는 첫번째 열을 인덱스로 사용한다는 의미

# series 시리즈
- 1차원 배열의 자료구조 
- 파이썬의 리스트나 튜플과 동일한 자료구조 
- np.nan 은 값이 없다는 것을 의미 
- s1 = pd.Series(“리스트” or “튜플”, index=“리스트” or “튜플”)
## series mothod
- append : 2개 이상의 시리즈 연결 
- describe : 요약 통계량 계산 
- drop_duplicate : 중복값이 없는 시리즈 반환 
- equal : 시리즈 해당 값을 가진 요소가 있는지 확인 
- to_frame : 시리즈를 프래임으로 변환

### 시리즈와 딕셔너리의 차이점
| 비교 항목         | `pd.Series` | `dict` |
|------------------|------------|--------|
| **순서 유지**      | O (인덱스 순서 유지) | Python 3.7+에서는 O (이전 버전에서는 X) |
| **수학 연산 지원** | O (벡터 연산 가능) | X (수동으로 계산해야 함) |
| **브로드캐스팅**  | O (전체 연산 가능) | X (개별 키 접근 필요) |
| **누락값 처리**    | O (`NaN` 지원) | X (`KeyError` 발생) |

In [10]:
import numpy as np
import pandas as pd

series = pd.Series([1, 3, 5, 7, np.nan,11])
series

0     1.0
1     3.0
2     5.0
3     7.0
4     NaN
5    11.0
dtype: float64

In [13]:
series = pd.Series([1, 3, 5, 7, np.nan,11],index = ['a','b','c','d','e','f'])
series

a     1.0
b     3.0
c     5.0
d     7.0
e     NaN
f    11.0
dtype: float64

In [14]:
data = [1, 3, 5, 7, np.nan,11]

series = pd.Series(data,index = ['a','b','c','d','e','f'])

for i, j in series.items() :
    print('인덱스 = %s : 값 %s'%(i, j))

인덱스 = a : 값 1.0
인덱스 = b : 값 3.0
인덱스 = c : 값 5.0
인덱스 = d : 값 7.0
인덱스 = e : 값 nan
인덱스 = f : 값 11.0


# pandas : dataframe
- 2차원의 데이터 구조로 index가 row와 column으로 구성 
- column들이 서로 다른 타입이어도 무방 
- row는 각 개별 테이터를 , column은 각 개별 속성을 나타냄 
- row및 column의 산술연산이 가능함. 
- 사용 형태  
    - 예) s1 = pandas.Dataframe(data, index, columns, dtype, copy) 
    - data: ndarray, series, map, lists, dict, DataFrame, 상수

In [15]:
import numpy as np
import pandas as pd

data = [1,3,5,7,np.nan,11]
dataframe = pd.DataFrame(data)
dataframe

Unnamed: 0,0
0,1.0
1,3.0
2,5.0
3,7.0
4,
5,11.0


In [17]:
data = [['김현기', 54],['유미석',27],['이상민',33],['장일도',41]]
dataframe = pd.DataFrame(data, index = ['rank1','rank2','rank3','rank4']\
                         , columns = ['이름','나이'])
dataframe

Unnamed: 0,이름,나이
rank1,김현기,54
rank2,유미석,27
rank3,이상민,33
rank4,장일도,41


In [18]:
name_series = pd.Series(['김현기', '유미석', '이상민', '장일도'])
age_series = pd.Series([54, 27, 33, 41])
sex_series = pd.Series(['남', '여', '남', '남'])
math_grade_series = pd.Series(['A+', 'A0', 'A-', 'B+'])

frame = pd.DataFrame({'이름' : name_series, '나이':age_series,\
                      '성별' : sex_series, '수학학점' : math_grade_series})
frame

Unnamed: 0,이름,나이,성별,수학학점
0,김현기,54,남,A+
1,유미석,27,여,A0
2,이상민,33,남,A-
3,장일도,41,남,B+


## pandas 다양한 함수 
- frame에 새로운 데이터 입력 
    - dataframe['새로운 열 이름'] = '해당데이터 입력'
- dataframe.describe() 
    - count, mean, std, min, 25%, 50%, 75%, max 값을 표시 
- dataframe[:3]: 3개의 행 출력 
- dataframe.loc(‘index’) 
    - row index의 값을 선택해서 Series형태로 보여줌 
- dataframe.iloc(‘index’) 
    - row index의 default값을 선택해서 Series형태로 보여줌 
- dataframe.sort_values(‘col’)
    - row index의 default값을 선택해서 Series형태로 보여줌

In [19]:
data = [['김현기', 54],['유미석',27],['이상민',33],['장일도',41]]
dataframe = pd.DataFrame(data, index = ['rank1','rank2','rank3','rank4']\
                         , columns = ['이름','나이'])
dataframe['연봉'] = [100, 200, 300, 400]
dataframe

Unnamed: 0,이름,나이,연봉
rank1,김현기,54,100
rank2,유미석,27,200
rank3,이상민,33,300
rank4,장일도,41,400


In [21]:
dataframe.iloc[0] #0번째 인덱스 내용

이름    김현기
나이     54
연봉    100
Name: rank1, dtype: object

In [22]:
dataframe.loc['rank1']

이름    김현기
나이     54
연봉    100
Name: rank1, dtype: object

In [23]:
dataframe.describe()

Unnamed: 0,나이,연봉
count,4.0,4.0
mean,38.75,250.0
std,11.672618,129.099445
min,27.0,100.0
25%,31.5,175.0
50%,37.0,250.0
75%,44.25,325.0
max,54.0,400.0


## pandas : Groupby
- 데이터 분할하기
    - 객체를 분할할 때는 인자로 column 이름이나 리스트 사용
    - dataframe.groupby('column 인자')
    - index를 통한 객체 분할
    - dataframe.set_index('column 인자')
- 데이터 연산하기
    - count(), sum(), min, max, mean, std, var, describe

In [24]:
name_groupby = dataframe.groupby(['이름','나이'])
name_groupby.groups

{('김현기', 54): ['rank1'], ('유미석', 27): ['rank2'], ('이상민', 33): ['rank3'], ('장일도', 41): ['rank4']}

In [25]:
dataframe.set_index(['이름','나이'])

Unnamed: 0_level_0,Unnamed: 1_level_0,연봉
이름,나이,Unnamed: 2_level_1
김현기,54,100
유미석,27,200
이상민,33,300
장일도,41,400


In [26]:
dataframe.count()

이름    4
나이    4
연봉    4
dtype: int64

In [27]:
dataframe.sum()

이름    김현기유미석이상민장일도
나이             155
연봉            1000
dtype: object