In [None]:
import pandas as pd

# DataFrame : 여러 개의 열(Column)으로 구성된 "표"형태의 데이터
# "열 이름" : [값들]
# - 각 열에는 열 이름이 있다.
# - 각 행에는 자동으로 행 번호(index)가 붙는다.

# 딕셔너리 형태로 DataFrame을 만듦
df = pd.DataFrame(
    {
        "Name": [
            "Braund, Mr. Owen Harris",
            "Allen, Mr. William Henry",
            "Bonnell, Miss Elizabeth",
        ],
        "Age": [22, 35, 58],
        "Sex": ["male", "male", "female"],
    }
)

# 전체 출력
print(df)

# 열 하나씩 출력
# 결과는 DataFrame이 아니라, "Series"라는 1차원 자료구조로 나옴
print(df["Name"])
print(df["Age"])
print(df["Sex"])

# Series : 1차원 데이터(열 하나)
# DataFrame : 여러 개의 Series가 모여서 만들어진 2차원 표 형태의 데이터
print(type(df["Age"]))
print(type(df))


                       Name  Age     Sex
0   Braund, Mr. Owen Harris   22    male
1  Allen, Mr. William Henry   35    male
2   Bonnell, Miss Elizabeth   58  female
0     Braund, Mr. Owen Harris
1    Allen, Mr. William Henry
2     Bonnell, Miss Elizabeth
Name: Name, dtype: object
0    22
1    35
2    58
Name: Age, dtype: int64
0      male
1      male
2    female
Name: Sex, dtype: object
<class 'pandas.core.series.Series'>
<class 'pandas.core.frame.DataFrame'>


In [None]:
# 이름이 Age인 Series 생성
ages = pd.Series([22, 35, 58], name="Age")
print(ages)

# DataFrame에서 특정 열 꺼내기
print(df["Age"])


# 기본 통계 함수
# max : 최댓값
print("최대 나이 :", df["Age"].max())

# min : 최소값
print("최소 나이 :", df["Age"].min())

# mean : 평균값
print("평균 나이 :", df["Age"].mean())

# 요약 통계 정보 보기
# describe : 숫자형 열에 대해 "요약 통계 정보"를 한 번에 보여줌
print(df.describe())
# count   3.000000 : 데이터 개수
# mean   38.333333 : 평균
# std    18.230012 : 표준 편차(데이터가 평균에서 얼마나 퍼져 있는지)
# min    22.000000 : 최소값
# 25%    28.500000 : 1사분위수(Q1)
# 50%    35.000000 : 중앙값(median)
# 75%    46.500000 : 3사분위수(Q3)
# max    58.000000 : 최대값


# DataFrame 전체 요약 정보
# info : DataFrame의 "구조 정보"를 보여줌
print(df.info())

0    22
1    35
2    58
Name: Age, dtype: int64
0    22
1    35
2    58
Name: Age, dtype: int64
최대 나이 : 58
최소 나이 : 22
평균 나이 : 38.333333333333336
             Age
count   3.000000
mean   38.333333
std    18.230012
min    22.000000
25%    28.500000
50%    35.000000
75%    46.500000
max    58.000000
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Name    3 non-null      object
 1   Age     3 non-null      int64 
 2   Sex     3 non-null      object
dtypes: int64(1), object(2)
memory usage: 204.0+ bytes
None


In [None]:
# DataFrame에서 특정 행을 선택하는 방법 2가지
# - iloc : "위치(position)"로 선택(0번째, 1번째, 2번째 처럼 순서/번호로 접근)
# - loc : "라벨(label)"로 선택(index에 붙어있는 이름으로 접근)

# iloc
# iloc은 index의 '값'이 뭐든 상관없이, '몇 번쨰 줄이냐'로 가져옴
# ex) df.iloc[0] => 첫 번째 행(0번 위치)
# 결과는 '한 행'이므로 Series(1차원) 형태로 나옴
print(df.iloc[0]) # 0번째 위치(첫 번째 행)
print(df.iloc[1]) # 1번째 위치(두 번째 행)
print(df.iloc[2]) # 2번째 위치(세 번째 행)

# loc
# loc은 'index 라벨'로 접근
# 현재는 iloc과 loc의 결과가 같다.
# index를 '이름'으로 바꾸면(ex : Name 열을 index로 지정)
# log은 이름을 기준으로 접근할 수 있다.
# df.index = ['사람1', '사람2', '사람3']
# df.loc['사람1']로 접근
print(df.loc[0])

Name    Braund, Mr. Owen Harris
Age                          22
Sex                        male
Name: 0, dtype: object
Name    Allen, Mr. William Henry
Age                           35
Sex                         male
Name: 1, dtype: object
Name    Bonnell, Miss Elizabeth
Age                          58
Sex                      female
Name: 2, dtype: object
Name    Braund, Mr. Owen Harris
Age                          22
Sex                        male
Name: 0, dtype: object


In [23]:
# head() : 위쪽(처음 부분) 몇 개의 행만 보여주는 함수
# tail() : 아래쪽(마지막 부분) 몇 개의 행만 보여주는 함수

# 상위 5개
print(df.head())
# head()에 숫자를 안 쓰면 기본값은 5
# 즉, 위에서부터 5개의 행을 보여줌
# 데이터가 5개보다 적으면 있는 만큼만 출력

# 상위 2개
print(df.head(2))
# head(2)는 위에서부터 2개의 행만 출력
# 데이터가 클 때 일부분만 빠르게 확인하는 경우 자주 사용

# 하위 5개
print(df.tail())
# tail()은 숫자를 안 쓰면 기본값은 5
# 아래(끝)에서부터 5개의 행을 보여줌

#하위 2개
print(df.tail(2))
# tail(2)는 마지막에서부터 2개의 행만 출력
# 최근 데이터나 마지막 데이터 확인할 때 자주 사용


                       Name  Age     Sex
0   Braund, Mr. Owen Harris   22    male
1  Allen, Mr. William Henry   35    male
2   Bonnell, Miss Elizabeth   58  female
                       Name  Age   Sex
0   Braund, Mr. Owen Harris   22  male
1  Allen, Mr. William Henry   35  male
                       Name  Age     Sex
0   Braund, Mr. Owen Harris   22    male
1  Allen, Mr. William Henry   35    male
2   Bonnell, Miss Elizabeth   58  female
                       Name  Age     Sex
1  Allen, Mr. William Henry   35    male
2   Bonnell, Miss Elizabeth   58  female


In [26]:
# 조건 필터링(Boolean Indexing)

# 나이가 30 이상인 사람만 보기
print(df[df["Age"] >= 30])

# 성별이 여성(female)인 행만 보기
print(df["Sex"] == "female")

                       Name  Age     Sex
1  Allen, Mr. William Henry   35    male
2   Bonnell, Miss Elizabeth   58  female
0    False
1    False
2     True
Name: Sex, dtype: bool


In [29]:
# 새로운 열 추가
df["Survived"] = [1, 0, 1]
print(df)

# 열 이름 바꾸기
df = df.rename(columns={"Sex" : "Gender"})
print(df)

# 열 삭제하기(axis=1 : 열 / axis=1 : 행)
df = df.drop("Survived", axis=1)
print(df)

                       Name  Age  Gender  Survived
0   Braund, Mr. Owen Harris   22    male         1
1  Allen, Mr. William Henry   35    male         0
2   Bonnell, Miss Elizabeth   58  female         1
                       Name  Age  Gender  Survived
0   Braund, Mr. Owen Harris   22    male         1
1  Allen, Mr. William Henry   35    male         0
2   Bonnell, Miss Elizabeth   58  female         1
                       Name  Age  Gender
0   Braund, Mr. Owen Harris   22    male
1  Allen, Mr. William Henry   35    male
2   Bonnell, Miss Elizabeth   58  female


In [37]:
# 결측치(NaN) 처리
# 결측치란 값이 비어있는 상태
# pandas에서는 보통 Nan(Not a Number)으로 표시
# None을 넣어도 pandas는 자동으로 NaN으로 변환

print(df)
print(df.isnull())
# isnull() : 각 값이 결측치인지(True/False) 확인

df2 = df.copy()
# copy() : 원본 df를 복제(복사본 만들기)

df2.loc[1, "Age"] = None
print(df2.isnull())
# df2의 1번 행(두 번째 사람)의 Age열 값을 None으로 변경
# loc[행 라벨, 열 이름] 형태로 특정 위치의 값을 바꿀 수 있음

print(df2.dropna(axis=0))
# dropna() : 결측치가 있는 부분 제거

print(df2.fillna(0))
# df2 = df2.fillna(0)
# fillna(i) : 결측치를  i값으로 채우기

                       Name  Age  Gender
0   Braund, Mr. Owen Harris   22    male
1  Allen, Mr. William Henry   35    male
2   Bonnell, Miss Elizabeth   58  female
    Name    Age  Gender
0  False  False   False
1  False  False   False
2  False  False   False
    Name    Age  Gender
0  False  False   False
1  False   True   False
2  False  False   False
                      Name   Age  Gender
0  Braund, Mr. Owen Harris  22.0    male
2  Bonnell, Miss Elizabeth  58.0  female
                       Name   Age  Gender
0   Braund, Mr. Owen Harris  22.0    male
1  Allen, Mr. William Henry   0.0    male
2   Bonnell, Miss Elizabeth  58.0  female


In [None]:
# 특정 열만 따로 채우기
# 결측치를 평균 값으로 채우기
print(df2["Age"].fillna(df["Age"].mean()))
# Age 열만 선택해서 fillna를 적용
# NaN을 평균값으로 대체
# 데이터 분석에서 자주 쓰는 방식

# 결측치를 이전 값으로 채우기
print(df2.fillna(method="ffill"))
# ffill : foward fill -> 바로 위(이전 행)의 값으로 NaN을 채움
# 시간순 데이터(날짜 데이터)에서 많이 사용

# 결측치를 다음 값으로 채우기
print(df2.fillna(method="bfill"))
# bfill : backward fill -> 바로 아래(다음 행)의 값으로 NaN을 채움
# ffill과 반대 방향

0    22.000000
1    38.333333
2    58.000000
Name: Age, dtype: float64
                       Name   Age  Gender
0   Braund, Mr. Owen Harris  22.0    male
1  Allen, Mr. William Henry  22.0    male
2   Bonnell, Miss Elizabeth  58.0  female


  print(df2.fillna(method="ffill"))
