# DataFrame
- 데이터 프레임은 여러개의 Series로 구성된 자료형이다.
- 하나의 컬럼에는 동일 데이터 타입만을 갖는다.

In [2]:
import pandas as pd
import numpy as np

#### 데이터프레임 생성

In [14]:
# 데이터 프레임 생성1 : 딕셔너리의 리스트
datas1 = {
    "name":["John", "Kally"],
    "email":["john@gmail.com", "kally@gmail.com"]
}
df1 = pd.DataFrame(datas1)
df1
df1["name"],df1["email"]

(0     John
 1    Kally
 Name: name, dtype: object,
 0     john@gmail.com
 1    kally@gmail.com
 Name: email, dtype: object)

In [15]:
# 데이터 프레임 생성2 : 리스트의 딕셔너리
datas2 = [
    {"name":"John", "email":"John@gmail.com"},
    {"name":"Kally", "email":"Kally@gmail.com"},
]
df2 = pd.DataFrame(datas2)
df2
df2[['name', 'email']]

Unnamed: 0,name,email
0,John,John@gmail.com
1,Kally,Kally@gmail.com


#### 데이터프레임 인덱스 컨트롤

In [23]:
# 인덱스를 추가하는 방법
df1 = pd.DataFrame(datas2, index=["one", "two"])
df1

Unnamed: 0,name,email
one,John,John@gmail.com
two,Kally,Kally@gmail.com


In [43]:
# 데이터프레임의 구성요소를 개별 호출이 가능하다.
print("Index : >> ", df1.index)
print("Columns : >> ", df1.columns)
print("Values : >> ", df1.values[0])
print()

Index : >>  Index(['one', 'two'], dtype='object')
Columns : >>  Index(['name', 'email'], dtype='object')
Values : >>  ['John' 'John@gmail.com']



In [44]:
# 인덱스가 변경되어 리턴 되는 예.
print(df1.value_counts())

# 인덱스 정보가 숫자가 아닌 데이터의 컬럼 정보로 변경되어 있다.
print(df1.value_counts().index[:0])

# value_counts 의 값은 값의 수가 된다.
print(df1.value_counts().values)

name   email          
John   John@gmail.com     1
Kally  Kally@gmail.com    1
dtype: int64
MultiIndex([], names=['name', 'email'])
[1 1]


#### 데이터 프레임에서 특정 column 또는 row 선택 방법

In [60]:
datas = {
    "name":["John", "Kally"],
    "email":["john@gmail.com", "kally@gmail.com"]
}
df = pd.DataFrame(datas)

# loc 메서드로 row 를 선택
print(df.loc[0])
print(df.loc[0:1])

# 특정 row에 컬럼명 또는 컬럼 인덱스 추출
print(df.loc[0]["name"])
print(df.loc[0][0])

name               John
email    john@gmail.com
Name: 0, dtype: object
    name            email
0   John   john@gmail.com
1  Kally  kally@gmail.com
John
John


In [66]:
# 특정 row 또는 column 정보 변경 또는 추가
# 기존에 존재하는 index 의 경우 수정
df.loc[0][0] = "Jepetto" 

# 존재하지 않는 index 의 경우 추가
df.loc[2] = {"name":"doru", "email":"doru@gmail.com"} 

# 1개의 row 를 구성하는 여러 컬럼중 하나의 특성만 입력하는건 안된다.
# df.loc[2][0] = "Doro" 

df

Unnamed: 0,name,email
0,Jepetto,john@gmail.com
1,Kally,kally@gmail.com
2,doru,doru@gmail.com


In [68]:
# head와 tail
df.head()
df.tail()

Unnamed: 0,name,email
0,Jepetto,john@gmail.com
1,Kally,kally@gmail.com
2,doru,doru@gmail.com


#### apply 함수의 적용

In [77]:
# email 의 컬럼의 도메인을 이용하여 새로운 컬럼 생성을 하고자 하는 경우
def domain(email):
    return email.split("@")[1].split(".")[0]

print(domain(df.loc[0]["email"]))

# 데이터 프레임에 특정 함수를 적용 시킨 결과를 이용하고자 할때 apply 를 사용한다.
df["domain"] = df["email"].apply(domain)
df

df["domain2"] = df["email"].apply(lambda email : email.split("@")[1].split(".")[0])
df

gmail


Unnamed: 0,name,email,domain,domain2
0,Jepetto,john@gmail.com,gmail,gmail
1,Kally,kally@gmail.com,gmail,gmail
2,doru,doru@gmail.com,gmail,gmail


#### 컬럼명 변경

In [80]:
# rename 메서드로 변경
df.rename(columns={"domain2":"subdomain"}, inplace=True)
df

Unnamed: 0,name,email,domain,subdomain
0,Jepetto,john@gmail.com,gmail,gmail
1,Kally,kally@gmail.com,gmail,gmail
2,doru,doru@gmail.com,gmail,gmail
