- DataFrame은 행과 열이 있는 2차원 데이터 테이블(참조점: 인덱스 레이블, 인덱스 위치)

# DataFrame의 개요
- DataFrame 클래스 생성자는 판다스의 최상위 수준에서 사용 가능
- pd.DataFrame() 로 인스턴스화

In [2]:
import pandas as pd
import numpy as np

## 딕셔너리에서 DataFrame 생성
- DataFrame 생성자의 첫번째 매개변수 data

In [3]:
city_data = {
    "City": ["New York City", "Paris", "Barcelona", "Rome"],
    "Country": ["United States", "France", "Spain", "Italy"],
    "Population": pd.Series([8600000, 2141000, 5515000, 2874000])
}

cities = pd.DataFrame(city_data)
cities

Unnamed: 0,City,Country,Population
0,New York City,United States,8600000
1,Paris,France,2141000
2,Barcelona,Spain,5515000
3,Rome,Italy,2874000


- DataFrame은 행 레이블의 인덱스를 가짐.
- DataFrame은 여러 열을 가짐->열 헤더를 두번째 인덱스로 생각
- 열헤더 <-> 인덱스 레이블: transpose 메서드 호출 or T 속성에 접근
- 판다스는 서로 다른 데이터 유형의 인덱스 레이블을 저장 가능

In [4]:
cities.transpose()

Unnamed: 0,0,1,2,3
City,New York City,Paris,Barcelona,Rome
Country,United States,France,Spain,Italy
Population,8600000,2141000,5515000,2874000


In [5]:
cities.T

Unnamed: 0,0,1,2,3
City,New York City,Paris,Barcelona,Rome
Country,United States,France,Spain,Italy
Population,8600000,2141000,5515000,2874000


## 넘파이 ndarray로 DataFrame 생성

In [6]:
#넘파이의 random 모듈에 있는 randint 함수를 사용하여 ndarray 생성
random_data = np.random.randint(1, 101, [3, 5])
random_data

array([[98, 14, 89, 70, 33],
       [39, 19, 86, 84, 93],
       [31, 48, 15, 81, 81]])

In [7]:
pd.DataFrame(data = random_data)

Unnamed: 0,0,1,2,3,4
0,98,14,89,70,33
1,39,19,86,84,93
2,31,48,15,81,81


In [8]:
#DataFrame 생성자의 index 매개변수에 리스트/튜플/ndarray 같은 반복 가능한 객체를 전달 가능->행 레이블 설정
row_labels = ["Morning", "Afternoon", "Evening"]
temperatures = pd.DataFrame(
    data = random_data, index = row_labels
)
temperatures

Unnamed: 0,0,1,2,3,4
Morning,98,14,89,70,33
Afternoon,39,19,86,84,93
Evening,31,48,15,81,81


In [9]:
#DataFrame 생성자의 columns 매개변수에 반복 가능한 객체를 전달하여 열 이름 설정
row_labels = ["Morning", "Afternoon", "Evening"]
column_labels = (
    "Monday",
    "Tuesday",
    "Wednesday",
    "Thursday",
    "Friday"
)
pd.DataFrame(
    data = random_data,
    index = row_labels,
    columns = column_labels,
)

Unnamed: 0,Monday,Tuesday,Wednesday,Thursday,Friday
Morning,98,14,89,70,33
Afternoon,39,19,86,84,93
Evening,31,48,15,81,81


In [11]:
#판다스의 DataFrame은 중복된 행과 열 인덱스를 허용
#;인덱스는 가능한 한 고유한 값을 가지는 것이 좋음. 그래야 쉬운 추출이 가능.
row_labels = ["Morning", "Afternoon", "Morning"]
column_labels = (
    "Monday",
    "Tuesday",
    "Wednesday",
    "Tuesday",
    "Friday"
)
pd.DataFrame(
    data = random_data,
    index = row_labels,
    columns = column_labels,
)

Unnamed: 0,Monday,Tuesday,Wednesday,Tuesday.1,Friday
Morning,98,14,89,70,33
Afternoon,39,19,86,84,93
Morning,31,48,15,81,81


# Series와 DataFrame의 유사점
- Series의 속성, 메서드을 DataFrame에서도 사용 가능
- 다중 열과 2개의 분리된 축을 다루기 때문에 구현 내용이 다름

## read_csv 함수로 DataFrame 가져오기

In [12]:
pd.read_csv("nba.csv")

FileNotFoundError: [Errno 2] No such file or directory: 'nba.csv'