# ![title](https://upload.wikimedia.org/wikipedia/commons/e/ed/Pandas_logo.svg)

pandas는 데이터 조작 및 분석을 위해 Python 프로그래밍 언어로 작성된 소프트웨어 라이브러리다.

특히, 숫자로 이루어진 테이블과 시계열을 다루기 위해, 그에 대한 자료 구조와 조작법을 제공한다.

# <font color="blue">pandas 불러오기</font>

pandas는 일반적으로 pd라는 별칭으로 불러온다.

In [0]:
import pandas as pd
pd.__version__

# <font color="blue">pandas에서 사용하는 자료 구조</font>

pandas에서는 다음과 같은 자료 구조를 사용한다.

*   시리즈(Series)
*   데이터프레임(DataFrame)
*   <s>패널(Panel)</s>

## <font color="orange">1. 시리즈(Series)</font>

시리즈는 1차원 배열과 유사하게 사용할 수 있다.

pandas의 Series 클래스의 생성자에 리스트를 전달하여 시리즈 객체를 생성할 수 있다.

In [0]:
num_list = [2, 3, 5, 7, 11]
sr = pd.Series(num_list)

print(sr)
print(type(sr))

리스트의 요소에 대해 인덱스가 자동으로 생성되어 시리즈 객체를 출력할 때 자동으로 표시된다.

혹은 인덱스를 직접 전달할 수도 있다.

In [0]:
menu_list = ["토스트", "제육볶음", "치킨"]
index_list = ["아침", "점심", "저녁"]
sr = pd.Series(menu_list, index_list)

print(sr)

인덱스나 값만 가져올 수도 있다.

In [0]:
print(sr.index)
print(sr.values)
print(type(sr.values))

## <font color="orange">2. 데이터프레임(DataFrame)</font>

데이터프레임은 2차원 배열과 유사하게 사용할 수 있다.

pandas의 DataFrame 클래스의 생성자에 이중 리스트를 전달하여 데이터프레임 객체를 생성할 수 있다.

In [0]:
nums = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]
df = pd.DataFrame(nums)

print(df)
print(type(df))

마찬가지로 리스트의 요소에 대해 인덱스와 컬럼이 자동으로 생성되어 데이터프레임 객체를 출력할 때 자동으로 표시된다.

또한 인덱스나 컬럼을 직접 전달할 수도 있다.

In [0]:
menu = [["토스트", "시리얼", "스크램블드에그"], ["제육볶음", "칼국수", "육개장"], ["치킨", "삼겹살", "라면"]]
index = ["아침", "점심", "저녁"]
columns = ["월", "화", "수"]
df = pd.DataFrame(menu, index, columns)

print(df)

인덱스나 컬럼, 또는 값만 가져올 수도 있다.

In [0]:
print(df.index)
print(df.columns)
print(df.values)
print(type(df.values))

## <s><font color="orange">3. 패널(Panel)</font></s>

패널은 3차원 배열과 유사하게 사용할 수 있다.

그러나 패널은 pandas 0.25.0 버전에서 삭제되었고 더 이상 사용할 수 없다.

# <font color="blue">데이터 조회 및 처리</font>

In [0]:
import numpy as np
import pandas as pd
arr = np.random.randint(100, size=(10, 10))
df = pd.DataFrame(arr, index=list("ABCDEFGHIJ"), columns=list("abcdefghij"))
df

## <font color="orange">간략한 데이터 조회</font>

### df.컬럼명

컬럼의 라벨을 이용해서 특정 열을 선택할 수 있다.

데이터프레임 객체를 생성할 때 컬럼명에 대한 요소 또한 생성되기 때문에 변수를 호출하듯이 사용할 수 있다.

In [0]:
df.a

### df.head(), df.tail()

위(아래)에서부터 n개의 행을 선택한다.

숫자를 전달하지 않으면 5개의 행을 선택한다.

In [0]:
df.head(2)

In [0]:
df.tail(3)

In [0]:
df.head()

In [0]:
df.tail()

## <font color="orange">인덱싱, 슬라이싱</font>

### 기본적인 인덱싱과 슬라이싱

열의 라벨을 이용해서 인덱싱을 할 수 있다.

In [0]:
df["a"]

행의 라벨을 이용해서 슬라이싱을 할 수 있다.

이 때, 파이썬의 일반적인 슬라이싱과 다르게 마지막 요소까지 범위에 포함된다.

In [0]:
df["A":"C"]

열의 순서를 이용해서 인덱싱을 할 수 **없다.**

In [0]:
# df[0]

하지만 행의 순서를 이용해서 슬라이싱은 할 수 있다.

이 때는 파이썬의 일반적인 슬라이싱 문법과 동일하다.

In [0]:
df[0:1]

### df.at, df.iat

라벨 또는 인덱스를 이용해서 특정 위치의 데이터를 가져온다.

In [0]:
df.at["E", "e"]

In [0]:
df.iat[4, 4]

### df.loc, df.iloc

행과 열을 지정하여 데이터를 선택할 수 있다.

*   df.loc[[행], [열]] : 행과 열의 라벨을 이용해서 데이터를 선택한다.
*   df.iloc[[행], [열]] : 행과 열의 인덱스를 이용해서 데이터를 선택한다.

In [0]:
print(df.loc["A", "a"])
print(df.iloc[9, 9])

여러 개의 행과 열을 지정할 수도 있다.

연속되지 않는 행과 열을 지정하거나 중복해서 지정할 수도 있다.

In [0]:
df.loc[["E", "C", "A"], ["c", "c", "c"]]

슬라이싱을 사용할 수 있다.

df.loc의 경우, 인덱스명으로 슬라이싱을 하며 또한 슬라이싱 범위에 end 오프셋이 포함된다.

df.iloc의 경우, 일반적인 슬라이싱 문법과 동일하다.

In [0]:
df.loc["A":"E":2, "f":"j":2]

In [0]:
df.iloc[0:5:2, 5:10:2]

인덱싱과 슬라이싱을 함께 사용할 수도 있다.

In [0]:
df.loc[["H", "I"], ::2]

In [0]:
df.loc["E":"J", ["a", "b", "c", "c", "b", "a"]]

In [0]:
df.iloc[[3, 5, 7], 1::3]

### 조건 인덱싱

기본적인 인덱싱을 할 때, 조건식을 전달할 수 있다.

열 또는 데이터프레임 전체에 대해 조건식을 작성할 수 있다.

In [0]:
df[df.a > 50] # df의 a열의 요소 중 50을 초과하는 값이 있을 때 해당 값의 행을 선택

In [0]:
df[df % 2 == 0] # df의 모든 요소 중 짝수를 선택

## <font color="orange">데이터 수정</font>

인덱싱과 슬라이싱을 통해 선택된 위치에 값을 대입하여 데이터를 수정할 수 있다.

In [0]:
df["e"] = df["f"] = 0
df

In [0]:
df["E":"F"] = 0
df

In [0]:
df.at["E", "e"] = 1
df

In [0]:
df.iat[5, 5] = -1
df

In [0]:
df.loc["D":"G":3, "d":"g":3] = -2
df

In [0]:
df.iloc[-3:, -3:] = -3
df

## <font color="orange">데이터 정렬</font>

### df.sort_values()

행 또는 열을 하나 지정해서 값에 따라 정렬한다.

기본 값은 열을 지정해서 값에 따라 오름차순으로 정렬하는 것이다.

In [0]:
df.sort_values("a")

행을 지정해서 정렬하려면 axis 인수에 1 또는 "columns"를 전달한다.

In [0]:
df.sort_values("A", 1)

내림차순으로 정렬하려면 ascending 인수에 False를 전달한다.

In [0]:
df.sort_values("b", 0, False)

### df.sort_index()

행 또는 열에 대해 정렬한다.

기본 값은 인덱스를 오름차순으로 정렬하는 것이다.

컬럼명에 따라 내림차순으로 정렬하려면 axis 인수와 ascending 인수를 설정한다.

In [0]:
df.sort_index(axis="columns", ascending=False)

# <font color="blue">데이터프레임 조작</font>

## <font color="orange">새로운 행 또는 열 추가</font>

In [0]:
import numpy as np
import pandas as pd
df = pd.DataFrame([[1, 2, 3], [7, 8, 9], [13, 14, 15]], index=list("ABC"), columns=list("abc"))
df

### 리스트를 이용해서 새로운 행 또는 열 추가

리스트를 이용해서 기존의 데이터프레임 객체에 새로운 행 또는 열을 추가할 수 있다.

새로 추가할 라벨을 통해 인덱싱 후 추가할 리스트를 대입한다.

In [0]:
df.loc["D"] = [19, 20, 21] # 새로운 행 추가
df

In [0]:
df["d"] = [4, 10, 16, 22] # 새로운 열 추가
df

### 다차원 배열을 이용해서 새로운 행 또는 열 추가

리스트를 이용해서 새로운 행 또는 열을 추가하는 것과 동일하다.

In [0]:
df.loc["E"] = np.array([25, 26, 27, 28]) # 새로운 행 추가
df

In [0]:
df["e"] = np.array([5, 11, 17, 23, 29]) # 새로운 열 추가
df

### 시리즈를 이용해서 새로운 행 또는 열 추가

시리즈 객체를 이용해서 기존의 데이터프레임 객체에 새로운 행 또는 열을 추가할 수 있다.

이때 시리즈 객체가 같은 인덱스를 갖도록 작성한다.

인덱스를 정확하게 명시하지 않으면 추가되는 열의 요소는 NaN으로 초기화된다.

In [0]:
df.loc["F"] = pd.Series(np.array([31, 32, 33, 34, 35]), index=df.columns) # 새로운 행을 추가하기 때문에 시리즈 객체의 인덱스를 기존의 데이터프레임 객체의 컬럼명으로 지정한다.
df

In [0]:
df["f"] = pd.Series(np.array([6, 12, 18, 24, 30, 36]), index=df.index) # 새로운 열을 추가하기 때문에 시리즈 객체의 인덱스를 기존의 데이터프레임 객체의 인덱스로 지정한다.
df

## <font color="orange">행/열의 변경</font>

In [0]:
import numpy as np
import pandas as pd
df = pd.DataFrame([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
df

### df.reindex()

새로운 행 또는 열을 추가한다.

추가되는 행 또는 열의 요소는 NaN으로 초기화된다.

실행 결과는 원본에 영향을 주지 않고 새로운 데이터프레임 객체를 반환한다.

In [0]:
df.reindex(index=[0, 1, 2, 3], columns=[0, 1, 2, 3])

행 또는 열의 순서를 임의로 섞을 수도 있다.

또한 기존에 존재하던 라벨을 일부러 생략해서 행 또는 열을 제거할 수도 있다.

In [0]:
df.reindex(index=[0, 1], columns=[1, 0])

## <font color="orange">행/열의 삭제</font>

In [0]:
import numpy as np
import pandas as pd
df = pd.DataFrame([[1, 2], [3, 4]], index=["A", "B"], columns=["a", "b"])
df

### df.drop()

행 또는 열을 삭제한다.

실행 결과는 원본에 영향을 주지 않고 새로운 데이터프레임 객체를 반환한다.

In [0]:
df.drop("B") # 행 삭제

In [0]:
df.drop("b", axis=1) # 열 삭제

## <font color="orange">데이터프레임 간의 조합</font>

In [0]:
import numpy as np
import pandas as pd
df = pd.DataFrame([[1, 2], [3, 4]], index=["A", "B"], columns=["a", "b"])
df

### df.append()

새로운 행을 추가한다.

실행 결과는 원본에 영향을 주지 않고 새로운 데이터프레임 객체를 반환한다.

In [0]:
df2 = df.copy()
df.append(df2)

ignore_index 인자의 값을 True로 전달하여 추가할 객체의 인덱스를 무시할 수 있다.

In [0]:
df.append(df2, True)

### df.concat()

두 개 이상의 데이터프레임 객체를 연결한다.

실행 결과는 원본에 영향을 주지 않고 새로운 데이터프레임 객체를 반환한다.

In [0]:
pd.concat([df, df2])

인덱스의 라벨이 일치할 때, axis 인자를 전달하여 행의 방향으로 추가할 수도 있다.

In [0]:
df3 = pd.DataFrame([[5, 6], [7, 8]], index=["A", "B"], columns=["c", "d"])
pd.concat([df, df3], axis=1)

# <font color="blue">통계</font>

In [0]:
import numpy as np
import pandas as pd
arr = np.random.randint(100, size=(10, 10))
df = pd.DataFrame(arr, index=list("ABCDEFGHIJ"), columns=list("abcdefghij"))
df

### df.describe()

각 열에 대한 주요 통계 수치들을 산출한다.

In [0]:
df.describe()

### df.count()

각 행/열에 대한 요소의 개수를 산출한다.

In [0]:
df.count(axis=1) # 각 행의 요소의 개수

In [0]:
df.count() # 각 열의 요소의 개수

### df.mean()

각 행/열에 대한 평균을 산출한다.

In [0]:
df.mean(axis=1) # 각 행의 평균

In [0]:
df.mean() # 각 열의 평균

### df.std()

각 행/열에 대한 표준편차를 산출한다.

In [0]:
df.std(axis=1) # 각 행의 표준편차

In [0]:
df.std() # 각 열의 표준편차

### df.min(), df.max()

각 행/열에 대한 최소/최대값을 산출한다.

In [0]:
df.min(axis=1) # 각 행의 최소값

In [0]:
df.min() # 각 열의 최소값

In [0]:
df.max(axis=1) # 각 행의 최대값

In [0]:
df.max() # 각 열의 최대값