In [6]:
import pandas as pd
# 시리즈값 추가/수정/삭제
s = pd.Series([1,2,3], index=['a', 'b', 'c'])

print("원본 시리즈: ")
print(s)

# 넘파이 배열은 불변 -> 추가 / 삭제 불가능
# 시리즈는 내부에서 배열을 사용 -> 불변?
# 시리즈는 배열을 확장시켜 가변성을 갖도록 만들어 놓음
# 데이터를 추가/삭제하면 시리즈가 자동으로 새로운 배열을 만들어 사용함
# 그래서 사용하는 사람 입장에서는 시리즈가 가변성을 가진것처럼 느낌

# 1. 단일 값 추가
# 존재하지 않는 라벨로 데이터를 저장하면 값이 추가됨
s['d'] = 4
s
# 2. 단일 값 삭제
s = s.drop('d')
s

# 3. 여러 값 삭제
s = s.drop(['a', 'c'])
s

원본 시리즈: 
a    1
b    2
c    3
dtype: int64


b    2
dtype: int64

### DataFrame
- 2차원 배열
- 여러개의 Series를 열로 가짐

### 구조
1. 열(Column) : 데이터의 속성을 나타냄(열 이름)
2. 행(Row, Index) : 데이터 항목을 나타냄(행 라벨)
3. 값(Values) : 실제 데이터를 나타냄

In [None]:
import pandas as pd

# DataFrame 생성
# 1. 리스트 활용
columns = ["A", "B", "C"]
index = ["0번", "1번", "2번"]
values = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]

df = pd.DataFrame(values, columns=columns, index=index)
df
data_list = [
    ["Julia", 25, "LA"],
    ["Kane", 38, "California"],
    ["Romeo", 26, "New York"],
]
df = pd.DataFrame(data_list)
df

# 딕셔너리 활용
data = {
    "이름": ["강 한", "나여주", "사마영"],
    "나이": [23, 23, 25],
    "도시": ["서울", "창원", "청주"],
}

# 딕셔너리의 키를 칼럼 이름으로 사용!
df2 = pd.DataFrame(data)
df2

Unnamed: 0,이름,나이,도시
0,강 한,23,서울
1,나여주,23,창원
2,사마영,25,청주


In [30]:
data_list = [["John", 25, "서울"], ["Jane", 30, "부산"], ["Bob", 35, "대구"]]

df = pd.DataFrame(
    data_list, columns=["이름", "나이", "도시"], index=["0번", "1번", "2번"]
)

# 1. 열 접근
# 데이터프레임에는 열 이름이 존재하므로 열 이름을 활용
df["이름"]
type(df["이름"])

# type(df["이름"])
df["이름"].index
df["이름"].name
# 데이터 프레임의 열을 가져오면 시리즈인것을 확인할 수 있음
# 여러 시리즈를 모아 표 형태로 만든 것임!(중요)

# 2. 여러 열 접근
# 여러 열을 접근할 때 리스트를 활용하는 fancy 인덱싱을 사용
df[["이름", "도시"]]
# 여러 열을 가져오면 표의 형태이므로 데이터 프레임임
type(df[["이름", "도시"]])

# 3. 행 접근하기
# 데이터 프레임은 []을 사용한 인덱싱을 했을 때 열을 선택하게 됨
# 행을 선택하기 위해서는 특별한 속성을 활용함
print(df)
# loc : location, 라벨 기반 인덱싱
df.loc["0번"]

# 슬라이싱을 통해 여러 행을 가져오기
df.loc["1번":"2번"]
# 슬라이싱을 통해 여러 행을 가져오면 데이터 프레임으로 가져옴
# 판다스의 시리즈에서 라벨 슬라이싱이 end를 포함하는 것처럼
# 데이터 프레임 라벨 슬라이싱도 end를 포함함

# iloc : integer location, 정수 기반 인덱싱
df.iloc[0] # iloc은 우리가 익숙한 인덱스 번호를 기반으로 선택
df.iloc[0:2] # 정수기반 슬라이싱을 하면 end 미포함(시리즈와 동일!)

# 4. 특정 값 접근
# loc, iloc로 [행, 열] 인덱싱함
df.loc["0번", "이름"]
df.iloc[0, 0]

# 6. 불리언 인덱싱(마스킹)
df['나이'] >= 30

      이름  나이  도시
0번  John  25  서울
1번  Jane  30  부산
2번   Bob  35  대구


0번    False
1번     True
2번     True
Name: 나이, dtype: bool

In [34]:
# 정렬하기
print(df)

# 나이로 오름차순 정렬
df_sort_asc = df.sort_values("나이")

# 나이로 내림차순 정렬
df_sort_desc = df.sort_values("나이", ascending=False)
df_sort_desc 

      이름  나이  도시
0번  John  25  서울
1번  Jane  30  부산
2번   Bob  35  대구


Unnamed: 0,이름,나이,도시
2번,Bob,35,대구
1번,Jane,30,부산
0번,John,25,서울


In [37]:
# 인덱스/라벨 오름차순 정렬
df.sort_index()

# 내림차순
df.sort_index(ascending=False)

# 1. 열 추가
df["성별"] = ["남", "여", "남"]
df

Unnamed: 0,이름,나이,도시,성별
0번,John,25,서울,남
1번,Jane,30,부산,여
2번,Bob,35,대구,남


In [41]:
# 2. 열 삭제
# drop() 기능 사용, axis(축)로 어떤 방향의 요소를 삭제할 것인지 지정
# axis=0 : 행을 삭제
# axis=1 : 열을 삭제
df_new = df.drop("성별", axis=1)
df_new

# 3. 행 추가
df_new.loc["3번"] = ["Mike", 40, "인천"]
df_new

# 4. 행 삭제



Unnamed: 0,이름,나이,도시
0번,John,25,서울
1번,Jane,30,부산
2번,Bob,35,대구
3번,Mike,40,인천


In [None]:
# 데이터 프레임 주요 속성
df
df.shape
df.dtypes
df.value_counts()
df.columns
df.index

# 주요 메서드
# 1. head(n) : 상위 n개의 행을 조회
# n 생략 시 5개
df.head(1)

# 2. tail(n) : 하위 n개의 행을 조회
df.tail(1)

# 3. info()
# 칼럼 타입, 칼럼 수, 행의 수, 누락된 데이터 수
df.info()

# 4. describe()
# count, mean, std, 최소, 최대, 4분위수를 보여줌
df.describe()

<class 'pandas.core.frame.DataFrame'>
Index: 3 entries, 0번 to 2번
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   이름      3 non-null      object
 1   나이      3 non-null      int64 
 2   도시      3 non-null      object
 3   성별      3 non-null      object
dtypes: int64(1), object(3)
memory usage: 228.0+ bytes


Unnamed: 0,나이
count,3.0
mean,30.0
std,5.0
min,25.0
25%,27.5
50%,30.0
75%,32.5
max,35.0


In [52]:
# 통계함수
import pandas as pd
data = {
    "수학":[95, 52, 56, 95, 74],
    "영어":[88, 64, 89, 97, 100],
    "과학":[77, 92, 94, 68, 87]
}
df = pd.DataFrame(data)
print("원본데이터: ")
print(df)

# 1. 기본 통계 계산
df.sum() # 각 과목의 합계
df.mean()
df.min()
df.max()

# 2. 각 행의 통계 계산
# drop의 axis: 어떤 방향의 요소를 삭제할 것인가?
# 0 : 행 방향의 요소 삭제(행 삭제)
# 1 : 열 방향의 요소 삭제(열 삭제)
# 통계 함수의 axis: 어떤 방향으로 계산을 진행할 것인가?
# 0 : 행을 따라 계산 [행이 쌓이는 방향, 상->하] (열데이터 계산)
# 1 : 열을 따라 계산 [열이 쌓이는 방향, 좌->우] (행 데이터 계산)

# 쉽게 생각하면 drop과 통계함수의 axis는 반대
df.sum(axis=1)
df.mean(axis=1)

# 3. 상관관계 분석


원본데이터: 
   수학   영어  과학
0  95   88  77
1  52   64  92
2  56   89  94
3  95   97  68
4  74  100  87
