# pandas 시작하기

## pandas의 특징
1. 고수준의 자료구조와 파이썬에서 빠르고 쉽게 사용할 수 있는 데이터 분석 도구
2. 다른 산술 계산 도구인 numpy와 scipy, 분석 라이브러리인 statsmodels과 scikit-learn, 시각화 도구인 matplotlib, seaborn과 함께 사용하는 경우가 많음.
3. **numpy와의 가장 큰 차이점은 pandas는 표 형식의 데이터나 다양한 형태의 데이터를 다루는 데 초점을 맞춰 설계했다는 것.**
4. 반면 numpy는 단일 산술 배열 데이터를 다루는 데 특화되어 있음.

# series(pandas), list, ndarray 비교하기
1. list는 차원이 없다.
2. **ndarray에는 없지만, series는 인덱스를 가진다.**
    - 인덱스가 있음으로서 데이터 접근이 용이하고, 기준을 마련하기 좋다.

In [2]:
import numpy as np
import pandas as pd

ll = [i for i in range(100, 110)]
arr = np.array(ll)
ss = pd.Series(ll)

print('list: ', ll)
print('ndarray: ', arr.ndim, arr)
print('series: ', ss.ndim, ss)

list:  [100, 101, 102, 103, 104, 105, 106, 107, 108, 109]
ndarray:  1 [100 101 102 103 104 105 106 107 108 109]
series:  1 0    100
1    101
2    102
3    103
4    104
5    105
6    106
7    107
8    108
9    109
dtype: int64


# Series indexing and slicing

# DataFrame 만들기
1. 사전형으로 만들기
    - 사전의 key는 column 이름, value는 value가 된다.
2. 함수 read_csv()를 이용하여 만들기
    - csv 파일을 불러와 series나 dataframe을 만든다.

In [5]:
import pandas as np

dic = {'name': ['a', 'b', 'c', 'd'], 'level':[1, 3, 5, 7]}
df = pd.DataFrame(dic)
print(type(df))
df.head()

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,name,level
0,a,1
1,b,3
2,c,5
3,d,7


In [15]:
# read_csv
import pandas as np

path ='/Users/jsha/gjai/python_basic/pytest_basic/'
df = pd.read_csv(path + '도시인구.csv', encoding='cp949')
df.head()

Unnamed: 0,도시,인구
0,서울,9705
1,부산,3400
2,대구,2450
3,인천,2939
4,광주,1493


# DataFrame 구조 살펴보기
 - head()
 - tail()
 - columns
 - index

In [28]:
# read_csv
import pandas as np

path ='/Users/jsha/gjai/python_basic/pytest_basic/'
df = pd.read_csv(path + 'presidents_heights.csv', encoding='utf-8')
print(type(df.columns), df.columns)
print(type(df.index), df.index)

df.head()

<class 'pandas.core.indexes.base.Index'> Index(['order', 'name', 'height'], dtype='object')
<class 'pandas.core.indexes.range.RangeIndex'> RangeIndex(start=0, stop=42, step=1)


Unnamed: 0,order,name,height
0,1,George Washington,189
1,2,John Adams,170
2,3,Thomas Jefferson,189
3,4,James Madison,163
4,5,James Monroe,183


# DataFrame column 이름으로 접근하기
- df를 쓰는 이유는 쉽게 접근하기 위한 목적임.
- numpy처럼 숫자 index로 접근할 수 있지만, 직관적으로 column 이름으로 해당 열의 데이터를 뽑아 올 수 있음.
- 하나의 열을 뽑아오면 series 형태가 되고, 이를 dataframe 형태로 반환하려면 하나의 열이름은 리스트 안에 넣고 전달하면 됨.
- 둘 이상의 열을 뽑아오려면, 리스트 안에 열 이름을 넣어 전달하며 결과는 dataframe 형태가 됨.
- **(주의사항)**여기서 numpy와 조금 헷갈릴 수 있음.
    - 2차원 ndarray인 arr가 있다고 할 때, arr[0]은 첫번째 row 전체를 의미함.
    - 2차원 dataframe인 df가 있다고 할 때, df[0]은 첫번째 row 전체를 의미함.
    - 그런데, 2차원 dataframe인 df가 있다고 할 때, df[컬럼명]은 컬럼명의 row 전체를 반환함.

In [27]:
print(type(df['name']), df['name'].head())
print('-'*100)
print(type(df[['name', 'height']]), df[['name', 'height']].head())

<class 'pandas.core.series.Series'> 0    George Washington
1           John Adams
2     Thomas Jefferson
3        James Madison
4         James Monroe
Name: name, dtype: object
----------------------------------------------------------------------------------------------------
<class 'pandas.core.frame.DataFrame'>                 name  height
0  George Washington     189
1         John Adams     170
2   Thomas Jefferson     189
3      James Madison     163
4       James Monroe     183


## 따옴표 처리
- 특히, 큰 따옴표 처리에 어려움이 있다.
- 이럴 때, quoting=3 옵션을 쓰면, 대부분 무리없이 처리된다

In [36]:
# read_csv
import pandas as np

path ='/Users/jsha/gjai/python_basic/pytest_basic/'
df = pd.read_csv(path + '따옴표문서.csv', encoding='cp949')
print(df.head())

df2 = pd.read_csv(path + '따옴표문서.csv', encoding='cp949', quoting=3)
df2.head()

                                      doc
0  오늘 영희가 '제가 제일 일찍 일어났어요!'하며 가족들을 웃게 하였다
1                           나도 그 일을 알고 있다
2        설악산을 다녀온 사람마다 "역시 멋지다"라는 반응을 보인다


Unnamed: 0,doc
0,오늘 영희가 '제가 제일 일찍 일어났어요!'하며 가족들을 웃게 하였다
1,나도 그 일을 알고 있다
2,"""설악산을 다녀온 사람마다 """"역시 멋지다""""라는 반응을 보인다"""


# DataFrame의 행 선택
- 사실 데이터 분석 때 행만 선택하는 경우는 드물다.
- **(주의사항)** 명시적 인덱스와 암묵적 인덱스를 구분하라. 이것만 되면 다 됨. 걱정마.
- 명시적 인덱스: df.index에 박혀 있는 인덱스. 직접 줄 수도 있고, 안주면 직접 0부터 강제 삽입. 이때는 명시적 인덱스와 암묵적 인덱스가 같아지게 됨.
- 암묵적 인덱스: 그냥 무조건 0부터 번호를 매긴 index. 이건 신경쓸 필요없고, 그냥 활용만 하면 돼. 다만, 데이터가 방대해져 row나 column의 이름을 다 외울 수 없을 때, 매우 유용하게 활용할 수 있다.
- <u>** loc은 명시적 인덱스를 활용**</u>
- <u>** iloc은 암묵적 인덱스를 활용** --> 그냥 숫자라고 생각해.</u>


In [50]:
# 더 정확한 예시는 df 생성 때, index 옵션을 써서 명시적 인덱스를 설정해 준 뒤 실시해야 함.
# 나중에 다시 만들어서 해 보자.
import pandas as np

path ='/Users/jsha/gjai/python_basic/pytest_basic/'
df = pd.read_csv(path + 'presidents_heights.csv', encoding='utf-8')
df.head()

# loc의 명시적 인덱스를 이용한 인덱싱과 슬라이싱
print(type(df.loc[0]), df.loc[0]) # 타입은 series, series.name은 명시적 인덱스
print('-'*50)
print(type(df.loc[3]), df.loc[3])
print('-'*50)
print(type(df.loc[2:4]), df.loc[2:4]) # 명시적 인덱스를 이용한 슬라이싱이기에 [include, include]가 된다.

<class 'pandas.core.series.Series'> order                     1
name      George Washington
height                  189
Name: 0, dtype: object
--------------------------------------------------
<class 'pandas.core.series.Series'> order                 4
name      James Madison
height              163
Name: 3, dtype: object
--------------------------------------------------
<class 'pandas.core.frame.DataFrame'>    order              name  height
2      3  Thomas Jefferson     189
3      4     James Madison     163
4      5      James Monroe     183


In [49]:
# iloc의 암묵적 인덱스를 이용한 인덱싱과 슬라이싱
print(type(df.iloc[0]), df.iloc[0]) 
print('-'*50)
print(type(df.iloc[3]), df.iloc[3])
print('-'*50)
print(type(df.iloc[2:4]), df.iloc[2:4]) # 이 케이스에선 이것만 달라. [include, exclude]

<class 'pandas.core.series.Series'> order                     1
name      George Washington
height                  189
Name: 0, dtype: object
--------------------------------------------------
<class 'pandas.core.series.Series'> order                 4
name      James Madison
height              163
Name: 3, dtype: object
--------------------------------------------------
<class 'pandas.core.frame.DataFrame'>    order              name  height
2      3  Thomas Jefferson     189
3      4     James Madison     163


# DataFrame의 열 선택 - 4가지 방법
1. df[열 이름]
2. df[df.columns[index or slicing]
3. df.loc[:, 열이름 index or slicing] # 명시적 인덱스
4. df.iloc[:, 2:5] # 암묵적 인덱스니까 모두 숫자로 표현

In [54]:
import pandas as np

path ='/Users/jsha/gjai/python_basic/pytest_basic/'
df = pd.read_csv(path + 'presidents_heights.csv', encoding='utf-8')
df.head()

# loc의 명시적 인덱스를 이용한 열 선택
print(type(df.loc[:, 'height']), df.loc[:, 'height'].head()) 
print('-'*50)
print(type(df.loc[:, 'name':'height']), df.loc[:, 'name':'height'].head()) 
print('-'*50)
# print(type(df.loc[:, ['name':'height']]), df.loc[:, ['name':'height']].head()) 

<class 'pandas.core.series.Series'> 0    189
1    170
2    189
3    163
4    183
Name: height, dtype: int64
--------------------------------------------------
<class 'pandas.core.frame.DataFrame'>                 name  height
0  George Washington     189
1         John Adams     170
2   Thomas Jefferson     189
3      James Madison     163
4       James Monroe     183
--------------------------------------------------


In [56]:
# iloc의 암묵적 인덱스를 이용한 열 선택
print(type(df.iloc[:, 0]), df.iloc[:, 0].head()) 
print('-'*50)
print(type(df.iloc[:, :2]), df.iloc[:, :2].head()) 
print('-'*50)

<class 'pandas.core.series.Series'> 0    1
1    2
2    3
3    4
4    5
Name: order, dtype: int64
--------------------------------------------------
<class 'pandas.core.frame.DataFrame'>    order               name
0      1  George Washington
1      2         John Adams
2      3   Thomas Jefferson
3      4      James Madison
4      5       James Monroe
--------------------------------------------------


# 데이터 프레임의 행과 열 선택
- 이럴 땐, 속 편하게 loc과 iloc을 사용하자.
- 이유는 슬라이싱도 가능하고, 선택적으로 행과 열을 선택할 때 리스트 안에 넣어서 사용하면 편하기 때문이다.
- loc[행이름시작:행이름끝, 열이름시작:열이름끝] : 명시적 인덱스 이용
- iloc[2:5, 10:15] : 암묵적 인덱스 이용
- loc[[행이름0, 행이름9, 행이름5], [열이름5, 열이름7, 열이름10] : 명시적 인덱스 이용
- iloc[[행번호2, 행번호6], [열번호0, 열번호10, 열번호4]] : 암묵적 인덱스 이용


# 연습문제


In [67]:
import pandas as np

path ='/Users/jsha/gjai/python_basic/pytest_basic/'
df = pd.read_csv(path + 'sales_result.csv', encoding='cp949')
df.head()

Unnamed: 0,id,name,gender,sales
0,1,김원경,F,1000
1,2,박찬웅,M,2000
2,3,조해선,F,1500
3,4,김선영,F,2200
4,5,이화영,F,1700


In [60]:
df[df.sales > 2000]

Unnamed: 0,id,name,gender,sales
3,4,김선영,F,2200
6,7,최필선,M,2200


In [73]:
df.loc[:, ['name', 'sales']]
df.loc[[0, 2, 6], ['name', 'sales']]
df.iloc[[0, 1, 2], [0, 2]]

Unnamed: 0,id,gender
0,1,F
1,2,M
2,3,F


In [61]:
df[df.gender == 'F']

Unnamed: 0,id,name,gender,sales
0,1,김원경,F,1000
2,3,조해선,F,1500
3,4,김선영,F,2200
4,5,이화영,F,1700


In [62]:
df[(df.sales > 2000) & ~(df.gender == 'M')]

Unnamed: 0,id,name,gender,sales
3,4,김선영,F,2200


In [66]:
df[(df.sales > 2000) | ~(df.gender == 'M')]

Unnamed: 0,id,name,gender,sales
0,1,김원경,F,1000
2,3,조해선,F,1500
3,4,김선영,F,2200
4,5,이화영,F,1700
6,7,최필선,M,2200


# 결측값 확인
 - isnull()
 - notnull()

In [76]:
import pandas as np

path ='/Users/jsha/gjai/python_basic/pytest_basic/'
df = pd.read_csv(path + '도시인구.csv', encoding='cp949')

df.isnull()
df.notnull()

Unnamed: 0,도시,인구
0,True,True
1,True,True
2,True,True
3,True,True
4,True,True


# 결측값 처리하기
- dropna()
- fillna()

In [5]:
import numpy as np
import pandas as pd

path ='/Users/jsha/gjai/python_basic/pytest_basic/'

arr = np.empty((4,3))
arr[1, :2] = None
arr[-1] =None
arr
df = pd.DataFrame(arr)
df.iloc[0].isnull()

0    False
1    False
2    False
Name: 0, dtype: bool

# DataFrame과 Series 결합하기

In [6]:
arr = np.arange(10).reshape(5,-1)
df = pd.DataFrame(arr)
ss = pd.Series(np.arange(5)*10)
df
df['ss'] = ss
df

Unnamed: 0,0,1,ss
0,0,1,0
1,2,3,10
2,4,5,20
3,6,7,30
4,8,9,40


# DataFrame / Series 를 csv 파일로 저장하기
- 가능하면 옵션 중에 index=False, header=True는 꼭 해주자.

In [16]:
import os

df.columns = ['first', 'second', 'third']
df.to_csv(path+'makingcsvtest.csv', index=False, header=True, encoding='utf-8')

if os.path.exists(path+'makingcsvtest.csv'):
    file = os.path.join(path, 'makingcsvtest.csv')
    !cat $file
type(file)

first,second,third
0,1,0
2,3,10
4,5,20
6,7,30
8,9,40


str

# DataFrame의 통계 함수
- count() : NA를 제외한 값의 계수
- describe() : Series나 DataFrame의 각 열별 요약통계량. NA와 categorical은 제외
- min(), max() : 최소값과 최대값
- argmin(), argmax() : 최소값과 최대값이 있는 색인 index(정수) 반환
- idxmin(), idxmax() : 최소값과 최대값이 있는 색인 반환
- quantile() : 분위수를 반환
- sum() : 합계
- mean() : 평균
- median() : 중앙값
- mad() : 절대 평균편차
- var() : 표본분산