# 02. DataFrame

### 01. 데이터 프레임 생성

In [2]:
import pandas as pd

# 딕셔너리로 데이터프레임 생성
data_dict = {
        '이름' : ['김', '이', '박'],
        '나이' : [10, 20, 30],
        '성별' : ['남', '여', '남']
}
df = pd.DataFrame(data_dict)

In [6]:
# 리스트로 데이터프레임 생성
columns = ['이름', '나이', '성별']
data_list = [['김', 10, '남'],
             ['이', 20, '여'],
             ['박', 30, '남']]

df = pd.DataFrame(data=data_list, columns=columns)

In [14]:
# 하나의 시리즈를 하나의 데이터프레임으로 변환
series = pd.Series([1,2,3,4,5], name='Value')
df1 = pd.DataFrame(series)
df2 = series.to_frame()

# 여러개의 시리즈를 하나의 데이터프레임으로 변환
series1 = pd.Series([10, 20, 30, 40, 50], name='V1')
series2 = pd.Series([100, 200, 300, 400, 500], name='V2')
df3 = pd.concat([series1, series2], axis=1)

# 데이터프레임에 시리즈 병합
df4 = pd.concat([df3, series], axis=1)

Unnamed: 0,V1,V2,Value
0,10,100,1
1,20,200,2
2,30,300,3
3,40,400,4
4,50,500,5


### 02. 데이터프레임 속성과 메서드

In [27]:
# 데이터 프레임 생성
names = ['철수', '영희', '짱구', '맹구']
ages = [10, 11, 13, 15]
genders = ['M', 'W', 'M', 'M']
cities = ['서울', '대전', '부산', '천안']

data = {'이름':names, '나이':ages, '성별':genders, '도시':cities}
df = pd.DataFrame(data)

In [None]:
# 열(Columns) 이름 확인
df.columns

# 인덱스(index) 확인
df.index

# 데이터 값(Values) 확인
df.values

# 각 열의 변수 타입(dtypes) 확인
df.dtypes

# 데이터 앞/뒷부분 확인
df.head(2)
df.tail(2)

# DataFrame 정보 확인
df.info()

# DataFrame 형태(Shape) 확인
df.shape

# DataFrame 길이(Len) 확인
len(df)

# DataFrame 크기(Size) 확인
df.size

# DataFrame 통계값(Describe) 확인
df.describe()

### 03. 데이터프레임의 인덱싱과 슬라이싱

In [40]:
import pandas as pd

# DataFrame 생성하기
data_dict = {
    '이름': ['홍길동', '김철수', '이영희', '박지원', '장민주', '신동호', '김민지', '이하늘', '정승우', '한지혜'],
    '나이': [25, 30, 28, 22, 29, 27, 24, 26, None, 23],
    '성별': ['남', '남', '여', '남', '여', '남', '여', '여', None, '여']
}

df = pd.DataFrame(data_dict)
df.index = [1,2,3,4,5,6,7,8,9,10]

In [59]:
# 레이블 기반 인덱싱과 슬라이싱
index1 = df.loc[1]
slice1 = df.loc[1:3]

# 특정 컬럼의 레이블 기반 인덱싱과 슬라이싱
index2 = df.loc[1, '나이']
slice2 = df.loc[1:3, '나이']

# 정수 위치 기반 인덱싱과 슬라이싱
index3 = df.iloc[1]
slice3 = df.iloc[1:3]

# 특정 컬럼의 정수 위치 기반 인덱싱과 슬라이싱 - 모두 숫자
index4 = df.iloc[1, 1]
slice4 = df.iloc[1, 1:3]

### 04. 데이터프레임의 데이터 필터링

In [64]:
import pandas as pd

# DataFrame 생성
data_dict = {
    '이름': ['홍길동', '김철수', '이영희', '박지원', '장민주', '신동호', '김민지', '이하늘', '정승우', '한지혜'],
    '나이': [25, 30, 28, 22, 29, 27, 24, 26, None, 23],
    '성별': ['남', '남', '여', '남', '여', '남', '여', '여', None, '여']
}
df = pd.DataFrame(data_dict)
df.index = [1,2,3,4,5,6,7,8,9,10]
df

Unnamed: 0,이름,나이,성별
1,홍길동,25.0,남
2,김철수,30.0,남
3,이영희,28.0,여
4,박지원,22.0,남
5,장민주,29.0,여
6,신동호,27.0,남
7,김민지,24.0,여
8,이하늘,26.0,여
9,정승우,,
10,한지혜,23.0,여


In [67]:
# 조건을 이용한 필터링1
df1 = df[df['나이']>=28]

# 조건을 이용한 필터링2 - isin
df2 = df[df['이름'].isin(['홍길동', '김철수'])]

# 조건을 이용한 필터링3 - str.contains()
df3 = df[df['이름'].str.contains('지원')]

In [73]:
# AND 조건을 이용한 필터링
df4 = df[(df['나이']>25) & (df['성별']=='남')]

# OR 조건을 이용한 필터링
df5 = df[(df['나이']>25) | (df['성별']=='여자')]

# NOT 조건을 이용한 필터링
df6 = df[df['성별'] != '남자']

### 05. 데이터프레임 열 조작과 정렬

In [98]:
import pandas as pd

# DataFrame 생성하기
data_dict = {
    '이름': ['홍길동', '김철수', '이영희', '박지원', '장민주', '신동호', '김민지', '이하늘', '정승우', '한지혜'],
    '나이': [25, 30, 28, 22, 29, 27, 24, 26, None, 23],
    '성별': ['남', '남', '여', '남', '여', '남', '여', '여', None, '여']
}
df = pd.DataFrame(data_dict)
df.index = [1,2,3,4,5,6,7,8,9,10]

In [99]:
# 특정 열 선택
df1 = df['나이']

# 열 추가
heights = [170, 175, 160, 130, 140, 150, 160, 170, 180, 190]
df['키'] = heights

# 열 삭제 - axis(행/열), inplace(원본수정여부)
df3 = df.drop(['키'], axis=1, inplace=True)

# 열 이름 변경 - 바꾸고자 하는 columns
columns = {'이름':'Name', '나이':'Age', '성별':'Gender'}
df4 = df.rename(columns=columns, inplace=True)

# 특정 열을 기준으로 정렬
df5 = df.sort_values(by='Age', inplace=True)

# 내림차순으로 정렬
df6 = df.sort_values(by='Age', ascending=False)

# 인덱스 재정렬 - drop(기존 인덱스 제거여부)
df7 = df.reset_index(drop=True)

### 06. 데이터 조작 심화

In [2]:
import pandas as pd

# DataFrame 생성
data_dict = {
    '이름': ['홍길동', '김철수', '이영희', '박지원', '장민주', '신동호', '김민지', '이하늘', '정승우', '한지혜'],
    '나이': [25, 30, 28, 22, 29, 27, 24, 26, 20, 23],
    '성별': ['남', '남', '여', '남', '여', '남', '여', '여', '여', '여']
}
df = pd.DataFrame(data_dict)
df.index = [1,2,3,4,5,6,7,8,9,10]

In [10]:
# Apply 열 연산1 - def
def age_category(age):
    if age < 30:
        return 'Young'
    else:
        return 'Adult'
    
df['연령대'] = df['나이'].apply(age_category)


# Apply 열 연산2 - lambda
df['연령대'] = df.apply(lambda x: 'Young' if x['나이'] < 30 else 'Adult', axis=1)


# 여러 컬럼을 사용한 Apply 연산
def combine_age_gender(age, gender):
    return f'{age}세 {gender}'

df['나이와 성별'] = df.apply(lambda row: combine_age_gender(row['나이'], row['성별']), axis=1)

In [11]:
# ApplyMap 함수 사용 - 데이터프레임의 각 요소에 주어진 함수 적용
df_str = df.applymap(lambda x: str(x))

  df_str = df.applymap(lambda x: str(x))


In [13]:
# for문과 데이터프레임 - 각 행을 (인덱스, 시리즈) 쌍으로 반환
for index, row in df.iterrows():
    print(f"인덱스: {index}")
    print(f"이름: {row['이름']}, 나이:{row['나이']}, 성별:{row['성별']}")
    print("-" * 20)

인덱스: 1
이름: 홍길동, 나이:25, 성별:남
--------------------
인덱스: 2
이름: 김철수, 나이:30, 성별:남
--------------------
인덱스: 3
이름: 이영희, 나이:28, 성별:여
--------------------
인덱스: 4
이름: 박지원, 나이:22, 성별:남
--------------------
인덱스: 5
이름: 장민주, 나이:29, 성별:여
--------------------
인덱스: 6
이름: 신동호, 나이:27, 성별:남
--------------------
인덱스: 7
이름: 김민지, 나이:24, 성별:여
--------------------
인덱스: 8
이름: 이하늘, 나이:26, 성별:여
--------------------
인덱스: 9
이름: 정승우, 나이:20, 성별:여
--------------------
인덱스: 10
이름: 한지혜, 나이:23, 성별:여
--------------------


In [14]:
# Groupby 사용하기
df.groupby('성별')['나이'].mean()

성별
남    26.0
여    25.0
Name: 나이, dtype: float64

In [15]:
# Agg 사용하기 - 데이터를 집계하는데 사용
df['나이'].agg(['min', 'max', 'mean', 'median'])

min       20.0
max       30.0
mean      25.4
median    25.5
Name: 나이, dtype: float64