# Pandas란?

* 자료 구조 및 데이터 분석, 처리를 위한 파이썬 패키지
* 동일한 type으로 구성된 array만 다룰 수 있도록 특화된 NumPy에 비해 일반적
* 다양한 형태의 데이터 처리
    * 다른 자료형의 열을 가진 데이터 테이블
    * 레이블을 가진 다양한 데이터 행렬
    * 집계 데이터
    * 시계열 데이터
* 기본적으로 정의되는 자료 구조인 Series와 DataFrame 사용
    * Series: 하나의 열로 된 1차원 데이터
    * DataFrame: 여러 개의 열을 갖는 2차원 데이터
* NumPy를 기반으로 하여 처리 속도가 매우 빠름
* 행과 열에 레이블이 지정되어 편리하게 접근 가능
* pyplot과 통합되어 데이터 가시화 편리
* 결측 데이터 처리 및 데이터 추가, 정렬, 조작에 용이
* Pandas data structure로는 (1D array와 비슷한) Series, (2D array와 비슷한) DataFrame이 있음


In [None]:
!pip install numpy
!pip install pandas

In [None]:
import numpy as np
import pandas as pd
print(np.__version__)
print(pd.__version__)

# Series

* pandas의 기본 객체 중 하나
* numpy의 ndarray를 기반으로 인덱싱을 기능을 추가하여 1차원 배열을 나타냄
* index와 value의 형태를 가짐
    * value만 갖는 리스트나 ndarray와 구분됨


## Series 생성 - pd.Series()

* 직접 생성하기
    * index는 지정하지 않을 경우, 기본값으로 0, 1, 2, 3, ... 이 자동

In [None]:
s1 = pd.Series([1, 2, 3])
s1

In [None]:
s2 = pd.Series(['a', 'b', 'c'])
s2

In [None]:
s3 = pd.Series(np.arange(200))
s3

* index 지정하기

In [None]:
s4 = pd.Series([1, 2, 3], index=[100, 200, 300])
s4

In [None]:
s5 = pd.Series([1, 2, 3], ['a', 'm', 'k'])
s5

In [None]:
s6 = pd.Series(np.arange(5), np.arange(100, 105), dtype=np.int16)
s6

In [None]:
s7 = pd.Series({1: 'a', 2: 'b', 'name': 'pey'})
s7

In [None]:
s8 = pd.Series({1:'a', 2:'b', 3:'c','이름':'김지호'})
s8

In [None]:
pd.Series(b,a)

## Series index

* `.index` : series의 index 호출
* `.values` : series의 값 호출

In [None]:
s = pd.Series(np.arange(5), index=np.arange(100, 105))
s

In [None]:
s.index
list(s.index)

In [None]:
s.values

* index를 통한 데이터 접근

In [None]:
s[101]

In [None]:
s[104]

* index를 통한 데이터 수정

In [None]:
s[104] = 7
s

* index 재사용

In [None]:
s2 = pd.Series(["a", "b", "c", "d", "e"], s.index)
s2

## Series 변경



In [None]:
s = pd.Series(np.arange(100, 105), index=['a', 'b', 'c', 'd', 'e'])
s

In [None]:
s['a'] = 200
s

In [None]:
s['k'] = 300
s

In [None]:
s.drop('k', inplace = True) #True이면 원본 변경됨.
s

In [None]:
s[['a','b']] = [300,500]
s

## Series 메소드

 * `size` : 개수 반환
 * `shape` : 튜플형태로 shape반환
 * `unique`: 유일한 값만 ndarray로 반환
 * `count` : NaN을 제외한 개수를 반환
 * `mean`: NaN을 제외한 평균
 * `value_counts`: NaN을 제외하고 각 값들의 빈도를 반환
 * `head(n)` : 상위 n개 출력 기본 5개
 * `tail(n)` : 하위 n개 출력 기본 5개

In [None]:
s = pd.Series([1, 1, 2, 3, 2, 1, 2, 3, np.nan, 1, 1, 3])
s

In [None]:
value_list = list(map(str, input().split()))
index_list = range(len(value_list))

text_token = pd.Series(data = value_list, index = index_list)
text_token

In [None]:
len(s)

In [None]:
s.size

In [None]:
s.shape

In [None]:
s.unique()

In [None]:
s.count()

In [None]:
a = np.array([2, 2, 2, 2, np.nan])
a.mean() # mean값 계산 시 nan값으로 인해 mean도 nan으로 출력됨

In [None]:
b = pd.Series(a)
b
b.mean()

In [None]:
s

In [None]:
s.mean() # 자동으로 nan값을 제외하고 평균을 계산해줌 (numpy와의 차이점)

In [None]:
s.value_counts()

In [None]:
s.value_counts(dropna=False)

* index를 활용하여 여러개의 값을 호출한 뒤 함수 적용

In [None]:
s[[5, 7, 8, 10]].value_counts()

In [None]:
s.head()

In [None]:
s.head(7)

In [None]:
s.tail()

## Series 연산

* 스칼라와 연산 시, 각 원소별로 스칼라와의 연산이 적용
* Series와의 연산 시, 각 인덱스가 같은 값끼리 연산이 적용
* 인덱스의 pair가 맞지 않으면, 결과는 NaN

In [None]:
s1 = pd.Series([1,2,3,4,5])
s1 + 3

In [None]:
s1 = pd.Series([1, 2, 3, 4], index=["a", "b", "c", "d"])
s2 = pd.Series([1, 2, 3, 4], index=["d", "c", "b", "a"])

print(s1)
print()
print(s2)
print(s1 + s2) # 같은 인덱스끼리 더하기 연산
print(s1 * s2) # 같은 인덱스끼리 곱하기 연산

In [None]:
s1["f"] = 7
s2["e"] = 8
print(s1)
print(s2)

In [None]:
s1 + s2 # 인덱스의 짝이 맞지 않는 경우 nan값이 출력

## Series 검색




* 슬라이싱 : 리스트나 ndarray와 동일하게 적용



In [None]:
s = pd.Series(np.arange(100, 105))
s

In [None]:
s[1:3]

In [None]:
s = pd.Series(np.arange(100, 105), index=['a', 'c', 'b', 'd', 'e'])
s

In [None]:
s[1:3]

In [None]:
s['c':'d']   # 문자열 인덱싱의 경우 마지막 값 포함

* 논리 인덱싱

In [None]:
s = pd.Series(np.arange(10), index=np.arange(10)+1)
s

In [None]:
s > 5

In [None]:
s[s>5]

In [None]:
s[s % 2 == 0]

In [None]:
s

In [None]:
s.index > 5

In [None]:
s[s.index > 5]

In [None]:
s[(s > 5) &(s < 8)]

In [None]:
s[s>=7]

In [None]:
print((s >= 7).sum()) # True(1)의 합. 즉 s >= 7인 개수

In [None]:
print((s[s>=7]).sum()) # s >= 7인 값들의 합

# DataFrame

* DataFrame은 2차원 구조
* 다른 자료형의 Series가 여러개 같이 묶여있을 수 있음
* 2차원이기 때문에 인덱스가 row, column로 구성됨
* row는 각 개체, column은 변수(속성)를 의미
* 데이터 분석 시 가장 많이 사용되는 구조

* 캐글 데이터 가져와서 구글드라이브에 넣고 호출하기
    * https://www.kaggle.com/hesh97/titanicdataset-traincsv/data

In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [None]:
!ls

In [None]:
train_data = pd.read_csv('/content/drive/MyDrive/AI를위한프로그래밍/train_ap_0402.csv')

In [None]:
train_data.head()

In [None]:
train_data.tail(3)

## DataFrame 구조

 * `index`: 행 속성 확인. 복잡한 데이터의 경우 멀티 인덱스으로 표현 가능
 * `columns`: 열 속성 확인. 복잡한 데이터의 경우 멀티 컬럼으로 표현 가능
 * `shape`: 데이터 크기를 튜플로 표현 (row, column)
 * `describe()` : 숫자형 데이터의 통계치 계산 함수
 * `info()` : 데이터 타입, 각 아이템의 개수 등을 출력하는 함수

In [None]:
train_data.index

In [None]:
train_data.columns

In [None]:
train_data.shape

In [None]:
train_data.describe()

In [None]:
train_data.info()

## DataFrame 생성

* Series로 생성
    * 각 Series의 index가 column이 됨

In [None]:
a = pd.Series([100, 200, 300], index=['a', 'b', 'd'])
b = pd.Series([101, 201, 301], index=['a', 'b', 'k'])
c = pd.Series([110, 210, 310], index=['a', 'b', 'c'])

pd.DataFrame([a, b, c], index=[100, 101, 102])

* dictionary로 생성
    * dict의 key가 column이 됨
    * index 미지정 시 에러

In [None]:
d = {'a' : 100, 'b' : 200, 'c' : 300}
# pd.DataFrame(d)
pd.DataFrame(d, index=np.arange(len(d)))

## csv 읽어오기

* `pd.read_csv(filepath, sep=",", header=None, index_col=None, usecols=None)`
    * `sep`: 각 데이터 값을 구별하기 위한 구분자(separator) 설정
    * `header`: header를 무시할 경우, None 설정
    * `index_col`: index로 사용할 column 설정
    * `usecols`: 실제로 dataframe에 로딩할 columns만 설정

In [None]:
dpath = "./drive/MyDrive/data/"
dpath +'train.csv'

In [None]:
dpath = "/content/drive/MyDrive/AI를위한프로그래밍/"

train_data = pd.read_csv(dpath+'train_ap_0402.csv', index_col='PassengerId', usecols=['PassengerId', 'Survived', 'Pclass', 'Name'])
train_data

In [None]:
train_data.shape

In [None]:
train_data.columns

In [None]:
train_data.index

In [None]:
train_data.describe()

In [None]:
train_data.info()

## DataFrame 검색

* column 선택
    * 기본적으로 `[ ]`는 column을 추출
    * 컬럼 인덱스일 경우 인덱스의 리스트 사용 가능
    * 리스트를 전달할 경우 결과는 Dataframe
    * 하나의 컬럼명을 전달할 경우 결과는 Series
    * `.column_name`으로도 호출 가능

In [None]:
train_data = pd.read_csv(dpath+"train_ap_0402.csv")

a = train_data['Survived']
print(a)
type(a)

In [None]:
a = train_data[['Survived', 'Name', 'Age', 'Embarked']]
print(a)
type(a)

In [None]:
a.Survived

In [None]:
a.Age

* row 선택
    * `.loc`: 인덱스를 이용하여 행 선택
    * `.iloc` : inter based index를 이용하여 행 선택


In [None]:
train_data.info()

In [None]:
train_data.index

In [None]:
train_data

In [None]:
train_data.loc[0] #index명이 0인 행 불러오기

In [None]:
train_data.loc[[1, 2, 3, 4]] #index 이름이 1,2,3,4인 행 불러오기

In [None]:
train_data.index = np.arange(100, 991)
train_data.index

In [None]:
train_data.head()

In [None]:
train_data.loc[100]

In [None]:
train_data.loc[[101, 102, 103, 104]]

In [None]:
train_data.iloc[0] # 0번째 행 추출

In [None]:
train_data.iloc[[1,2,3,4]] # 1,2,3,4번째 행 추출

* 행과 열 동시에 선택
    * `loc`와 `iloc` 속성을 이용할 때, `comma(,)`를 이용하여 행, 열 표시 가능

In [None]:
train_data.loc[[101, 102, 103], ["Name", "Sex", "Age"]] # index 이름이 101,102,103인 행 + "Name", "Sex", "Age" 컬럼들

In [None]:
train_data.iloc[[1, 2, 3], [1, 4, 5]] #1,2,3번째 행 + 1,4,5번째 컬럼

In [None]:
train_data.loc[101:105] #맨 뒤 범위가 포함이 됨

* 슬라이싱
    * pd.DataFrame의 경우 기본적으로 `[]` 연산자가 <u>column 선택</u>에 사용됨
    * 그러나 `[]` 안에 슬라이싱이 지정되면, row 레벨로 지원
    * `loc`와 `iloc`에도 슬라이싱 지정 가능
        * `loc`의 경우 마지막 값 포함
        * `iloc`의 경우 마지막 값 미포함
        * 단, 이 경우 행과 열 동시 선택 불가

In [None]:
train_data["Age"]

In [None]:
train_data[3] # 에러

In [None]:
train_data[1:4]

In [None]:
train_data.loc[100:104]

In [None]:
train_data.iloc[1:4]

In [None]:
train_data.loc[101:104][["Survived","Age"]]

In [None]:
train_data.iloc[1:3][["Survived", "Age"]]

In [None]:
train_data.iloc[1:3]["Survived"]

* 논리 인덱싱
    * pd.DataFrame의 경우 기본적으로 `[]` 연산자가 <u>column 선택</u>에 사용됨
    * 그러나 `[]` 안에 boolean이 지정되면, row 레벨로 지원

* train_data에서 30대이면서 1등석에 탄 사람 추출

In [None]:
pclass_ = train_data["Pclass"] == 1
age_ = (train_data["Age"]>=30) & (train_data["Age"]<40)

print(pclass_ & age_)

In [None]:
train_data[pclass_ & age_]

## DataFrame 변경

In [None]:
import numpy as np
import pandas as pd

In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [None]:
train_data = pd.read_csv('/content/drive/MyDrive/AI를위한프로그래밍/train_ap_0402.csv')

In [None]:
train_data.head()

* 새로운 column 추가
    * `[]` 이용하여 추가하기
    * `insert()` 이용하여 원하는 위치에 추가하기

In [None]:
train_data["Age_double"] = train_data.Age * 2
train_data.head()

In [None]:
train_data['Age_tripple'] = train_data['Age_double'] + train_data['Age']
train_data.head()

In [None]:
train_data.insert(3, 'Fare10', train_data['Fare'] / 10)
train_data.head()

In [None]:
# if-else를 한문장에 쓰기
# <참인 경우 statement> if <condition> else <거짓인 경우 statement>
# True = 1, False = 2
train_data["Agegroup"] = [1 if idx else 2 for idx in list(train_data.Age<30)]
train_data.head()

In [None]:
def agetrans(x):
    if x < 25:
        return 1
    elif x < 30:
        return 2
    else:
        return 3

train_data["Agegroup2"] = train_data.Age.apply(lambda x: agetrans(x))
train_data.head()

In [None]:
def fare_categorize(x):
    if x > 50:
        return 1
    elif x > 10:
        return 2
    else:
        return 3
train_data['fare_category'] = train_data.Fare.apply(lambda x: fare_categorize(x))
train_data.head(10)

In [None]:
dict_ = {"male":1, "female":0}
train_data["male"] = [dict_[i] for i in list(train_data.Sex)]
train_data.head()

 * 특정 column 삭제
    * `drop` 함수 사용하여 삭제
    * 리스트를 사용하여 멀티플 삭제 가능
    * `drop(inplace=True)` 지정 시에만 원본데이터에도 반영

In [None]:
train_data.drop('Age_tripple', axis=1)

In [None]:
train_data.head()

In [None]:
train_data.drop('Age_tripple', axis=1, inplace=True)
train_data.head()

In [None]:
train_data.drop(['Age_double', 'Fare10'], axis=1, inplace=True)
train_data.head()

# **THE END**