# pandas
- 마이크로소프트 액셀과 유사한 데이터프레임(DataFrame)을 사용하기 위해 필요
- 데이터프레임은 데이터 처리와 분석에 가장 많이 사용되는 2차원 데이터 구조체
- 1차원 데이터 구조체로는 리스트가 널리 사용된다

In [2]:
import pandas as pd
pd.__version__

'1.2.4'

## Pandas Series
* 인덱싱된 1차원 배열
* 리스트나 배열로 만들 수 있음

In [3]:
data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

In [4]:
data.value_counts()

1.00    1
0.50    1
0.75    1
0.25    1
dtype: int64

In [5]:
data.unique()

array([0.25, 0.5 , 0.75, 1.  ])

In [6]:
print(data.index)
print(data.values)

RangeIndex(start=0, stop=4, step=1)
[0.25 0.5  0.75 1.  ]


In [7]:
data[0]

0.25

In [8]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                index=['a','b','c','d'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [9]:
data['b']

0.5

## 데이터 프레임 만들기
- 딕셔너리를 만든 후 이를 데이터프레임으로 바꾸는 방법
- csv 파일을 읽어 만드는 방법
- 액셀 파일을 읽어 만드는 방법
- 배열, 리스트, 튜플로부터 만드는 방법

In [10]:
# 딕셔너리에서 만드는 방법
import pandas as pd

x = {'city': ['서울', '부산', '대구', '대전', '광주'],
        'population': [990, 350, 250, 154, 150],
        'temp': [13, 16, 14, 13, 15]}

data = pd.DataFrame(x)
data

Unnamed: 0,city,population,temp
0,서울,990,13
1,부산,350,16
2,대구,250,14
3,대전,154,13
4,광주,150,15


- 딕셔너리의 키를 컬럼명으로, 값을 데이터로 사용한다
- 인덱스(행 번호)가 자동으로 만들어진다

In [231]:
city = ['서울', '부산', '대구', '대전', '광주']
population = [990, 350, 250, 154, 150]
temp = [13, 16, 14, 13, 15]
data = pd.DataFrame([city, population,temp]).T
data.columns = ['city','population', 'temp']
data

Unnamed: 0,city,population,temp
0,서울,990,13
1,부산,350,16
2,대구,250,14
3,대전,154,13
4,광주,150,15


In [232]:
# 데이터프레임의 구조 보기(shape)
data.shape

(5, 3)

In [233]:
# 샘플(행) 수  - 튜플의 첫번째 값을 본다
data.shape[0]

5

In [234]:
# 컬럼(열) 수 - 튜플의 두번째 값을 본다
data.shape[1]

3

In [235]:
# 컬럼명 모두 보기 (컬럼명은 특수 변수 Index로 표현된다)
data.columns

Index(['city', 'population', 'temp'], dtype='object')

In [236]:
# 일부 컬럼만 보기
data[['city', 'temp']]

Unnamed: 0,city,temp
0,서울,13
1,부산,16
2,대구,14
3,대전,13
4,광주,15


In [15]:
#위에있는 데이터만 보기(행기준)
data.head(2)

Unnamed: 0,city,population,temp
0,서울,990,13
1,부산,350,16


In [16]:
#끝에있는 데이터만 보기
data.tail(2)

Unnamed: 0,city,population,temp
3,대전,154,13
4,광주,150,15


In [18]:
#데이터 프레임에 들어있는 정보 보기
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   city        5 non-null      object
 1   population  5 non-null      int64 
 2   temp        5 non-null      int64 
dtypes: int64(2), object(1)
memory usage: 248.0+ bytes


In [20]:
#주어진 데이터의 통계보기
data.describe() 

Unnamed: 0,population,temp
count,5.0,5.0
mean,378.8,14.2
std,351.378998,1.30384
min,150.0,13.0
25%,154.0,13.0
50%,250.0,14.0
75%,350.0,15.0
max,990.0,16.0


- 원본 데이터는 바뀌지 않는다

In [237]:
data

Unnamed: 0,city,population,temp
0,서울,990,13
1,부산,350,16
2,대구,250,14
3,대전,154,13
4,광주,150,15


In [238]:
# 별도 저장이 필요하면 새로운 변수에 저장한다
data_part = data[['city', 'temp']]
data_part

Unnamed: 0,city,temp
0,서울,13
1,부산,16
2,대구,14
3,대전,13
4,광주,15


- 한 컬럼만 얻기
- 컬럼이 하나인 데이터프레임은 시리즈(Series)라고 한다
 - 시리즈에도 인덱스가 붙어있다

In [239]:
data["temp"]

0    13
1    16
2    14
3    13
4    15
Name: temp, dtype: object

In [240]:
#띄어쓰기가 들어가면 사용할 수 없음
y = data.temp
type(y)
y

0    13
1    16
2    14
3    13
4    15
Name: temp, dtype: object

In [241]:
#띄어쓰기가 들어간 경우 예시
x2 = {'city': ['서울', '부산', '대구', '대전', '광주'],
        'population': [990, 350, 250, 154, 150],
        'temp cel': [13, 16, 14, 13, 15]}

data2 = pd.DataFrame(x2)
data2

Unnamed: 0,city,population,temp cel
0,서울,990,13
1,부산,350,16
2,대구,250,14
3,대전,154,13
4,광주,150,15


In [242]:
data2.temp cel

SyntaxError: invalid syntax (<ipython-input-242-0637d3e9428d>, line 1)

In [243]:
#해당 방식만 가능
data2["temp cel"]

0    13
1    16
2    14
3    13
4    15
Name: temp cel, dtype: int64

In [244]:
#띄어쓰기를 언더바로 대체하는 코드
data2.columns = [c.replace(' ', '_') for c in data2.columns]
data2

Unnamed: 0,city,population,temp_cel
0,서울,990,13
1,부산,350,16
2,대구,250,14
3,대전,154,13
4,광주,150,15


In [245]:
data2.temp_cel

0    13
1    16
2    14
3    13
4    15
Name: temp_cel, dtype: int64

In [246]:
# 컬럼(열) 순서 바꾸어 보기 (view)
data[['city', 'temp', 'population']]

Unnamed: 0,city,temp,population
0,서울,13,990
1,부산,16,350
2,대구,14,250
3,대전,13,154
4,광주,15,150


In [247]:
data

Unnamed: 0,city,population,temp
0,서울,990,13
1,부산,350,16
2,대구,250,14
3,대전,154,13
4,광주,150,15


### 객체 사본 만들기
- 복사본을 만들려면 copy()를 사용해야 한다
- 복사본으로 이후 작업을 수행하고 원본은 보호하기 위해서

In [248]:
# 사본 만들기
df = data.copy()

In [249]:
# copy()를 사용하면 별도의 데이터셋이 만들어진다
x = [1,2,3,4]
y = x
y

[1, 2, 3, 4]

In [250]:
x.append(5)
x

[1, 2, 3, 4, 5]

In [251]:
y

[1, 2, 3, 4, 5]

## 인덱스
- 인덱스는 행에 대한 접근을 쉽게 하기 위해 사용한다

In [252]:
df

Unnamed: 0,city,population,temp
0,서울,990,13
1,부산,350,16
2,대구,250,14
3,대전,154,13
4,광주,150,15


In [253]:
df.index

RangeIndex(start=0, stop=5, step=1)

In [254]:
# 인덱스를 컬럼에서 선택하기
df.set_index('city')

Unnamed: 0_level_0,population,temp
city,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,990,13
부산,350,16
대구,250,14
대전,154,13
광주,150,15


- 원본 데이터는 바뀌지 않는다
- 파이썬의 데이터 복사 최소화 원칙

In [255]:
df

Unnamed: 0,city,population,temp
0,서울,990,13
1,부산,350,16
2,대구,250,14
3,대전,154,13
4,광주,150,15


- 수행 결과를 원본 데이터에 반영하려면 inplace=True 사용

In [256]:
df.set_index('city', inplace=True)
df

Unnamed: 0_level_0,population,temp
city,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,990,13
부산,350,16
대구,250,14
대전,154,13
광주,150,15


### 인데스 원상복귀
- reset_index 사용

In [257]:
df.reset_index(inplace=True)
df

Unnamed: 0,city,population,temp
0,서울,990,13
1,부산,350,16
2,대구,250,14
3,대전,154,13
4,광주,150,15


## 컬럼 이름 바꾸기
- columns 사용

In [258]:
df

Unnamed: 0,city,population,temp
0,서울,990,13
1,부산,350,16
2,대구,250,14
3,대전,154,13
4,광주,150,15


In [259]:
df.columns = ['도시','인구','날씨'] # 즉시 반영된다
df

Unnamed: 0,도시,인구,날씨
0,서울,990,13
1,부산,350,16
2,대구,250,14
3,대전,154,13
4,광주,150,15


## 샘플 추가
- 데이터프레임 합치기 (보통 행 방향으로 합친다-샘플 추가)
- 판다스의  concat() 사용

In [260]:
x2 = {'city': ['인천', '울산'],
        'population': [290, 120],
        'temp': [12.7, 15.5]}
df2 = pd.DataFrame(x2)
df2

Unnamed: 0,city,population,temp
0,인천,290,12.7
1,울산,120,15.5


In [261]:
df2.columns = ['도시','인구','날씨'] 
df2

Unnamed: 0,도시,인구,날씨
0,인천,290,12.7
1,울산,120,15.5


In [262]:
pd.concat([df, df2], axis=0)

Unnamed: 0,도시,인구,날씨
0,서울,990,13.0
1,부산,350,16.0
2,대구,250,14.0
3,대전,154,13.0
4,광주,150,15.0
0,인천,290,12.7
1,울산,120,15.5


In [263]:
# 데이터프레임을 합친다
# 기존의 인덱스 번호는 무시하고 새로 인덱스 만들기
df3 = pd.concat([df, df2], ignore_index=True)
df3

Unnamed: 0,도시,인구,날씨
0,서울,990,13.0
1,부산,350,16.0
2,대구,250,14.0
3,대전,154,13.0
4,광주,150,15.0
5,인천,290,12.7
6,울산,120,15.5


In [264]:
# 데이터 백업
df = df3.copy()

In [265]:
# 인덱스를 컬럼에서 새로 선택한다
df.set_index('도시', inplace=True)
df

Unnamed: 0_level_0,인구,날씨
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,990,13.0
부산,350,16.0
대구,250,14.0
대전,154,13.0
광주,150,15.0
인천,290,12.7
울산,120,15.5


In [266]:
# 인덱스 보기 (인덱스는 특수 변수 Index로 표현된다)
df.index

Index(['서울', '부산', '대구', '대전', '광주', '인천', '울산'], dtype='object', name='도시')

In [267]:
# 세번째 인덱스 보기
df.index[3]

'대전'

## 샘플 추출
- 원하는 샘플(행)을 얻는 방법
- loc, iloc 등을 사용한다

In [268]:
# 인덱스 사용 (loc)
df.loc[['부산','울산']]

Unnamed: 0_level_0,인구,날씨
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
부산,350,16.0
울산,120,15.5


In [269]:
#왜 괄호를 두번 사용하는가? 궁금증에 대한 코드
df.loc['부산']

인구    350
날씨     16
Name: 부산, dtype: object

In [270]:
type(df.loc['부산'])

pandas.core.series.Series

In [271]:
#시리즈의 리스트가 데이터프레임이기 때문
df.loc[['부산']]

Unnamed: 0_level_0,인구,날씨
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
부산,350,16


In [272]:
type(df.loc[['부산']])

pandas.core.frame.DataFrame

In [273]:
# 행의 위치 순서 번호 사용
df.iloc[1:4]

Unnamed: 0_level_0,인구,날씨
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
부산,350,16
대구,250,14
대전,154,13


## 샘플 삭제

In [274]:
# 인덱스를 사용하여 삭제하기
df.drop(["서울", "부산"])

Unnamed: 0_level_0,인구,날씨
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
대구,250,14.0
대전,154,13.0
광주,150,15.0
인천,290,12.7
울산,120,15.5


## 컬럼 추가
- 기존에 없던 컬럼(열) 이름을 지정하면 새로운 열이 만들어진다

In [275]:
# 컬럼에 추가할 내용 (리스트로 제공하는 경우)
cars = [300, 140, 120, 70, 50, 170, 60]
df['자동차'] = cars
df

Unnamed: 0_level_0,인구,날씨,자동차
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
서울,990,13.0,300
부산,350,16.0,140
대구,250,14.0,120
대전,154,13.0,70
광주,150,15.0,50
인천,290,12.7,170
울산,120,15.5,60


In [276]:
# 동일한 값을 컬럼에 추가하는 방법 (값이 복사된다)
df["대도시"] = 1
df

Unnamed: 0_level_0,인구,날씨,자동차,대도시
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서울,990,13.0,300,1
부산,350,16.0,140,1
대구,250,14.0,120,1
대전,154,13.0,70,1
광주,150,15.0,50,1
인천,290,12.7,170,1
울산,120,15.5,60,1


In [277]:
# 특정 조건 만족 여부를 추가하는 방법
# 아래 조건문의 결과는 불리언으로 구성된 시리즈가 된다
b = (df["자동차"] >= 100)
b

도시
서울     True
부산     True
대구     True
대전    False
광주    False
인천     True
울산    False
Name: 자동차, dtype: bool

In [278]:
type(b)

pandas.core.series.Series

In [279]:
# 불리언 시리즈를 새로운 컬럼으로 추가
df['big'] = b
df

Unnamed: 0_level_0,인구,날씨,자동차,대도시,big
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,990,13.0,300,1,True
부산,350,16.0,140,1,True
대구,250,14.0,120,1,True
대전,154,13.0,70,1,False
광주,150,15.0,50,1,False
인천,290,12.7,170,1,True
울산,120,15.5,60,1,False


- 위의 코드는 아래와 같이 간단히 작성할 수 있다

In [280]:
df['big'] = df["자동차"] >= 100
df

Unnamed: 0_level_0,인구,날씨,자동차,대도시,big
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,990,13.0,300,1,True
부산,350,16.0,140,1,True
대구,250,14.0,120,1,True
대전,154,13.0,70,1,False
광주,150,15.0,50,1,False
인천,290,12.7,170,1,True
울산,120,15.5,60,1,False


In [281]:
# 데이터 사본을 백업한다
df_backup = df.copy()

## 컬럼 삭제

In [282]:
# 컬럼 삭제시에는 axis=1 지정
df.drop(["대도시"], axis=1)

Unnamed: 0_level_0,인구,날씨,자동차,big
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서울,990,13.0,300,True
부산,350,16.0,140,True
대구,250,14.0,120,True
대전,154,13.0,70,False
광주,150,15.0,50,False
인천,290,12.7,170,True
울산,120,15.5,60,False


### 딕셔너리를 사용한 (일부) 컬럼 이름 바꾸기
- 딕셔너리의 키:값 조합으로 컬럼명을 바꿀 수 있다
- rename() 사용

In [283]:
my_names = {'big': '100만대이상'}
df.rename(columns = my_names, inplace=True)
df

Unnamed: 0_level_0,인구,날씨,자동차,대도시,100만대이상
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,990,13.0,300,1,True
부산,350,16.0,140,1,True
대구,250,14.0,120,1,True
대전,154,13.0,70,1,False
광주,150,15.0,50,1,False
인천,290,12.7,170,1,True
울산,120,15.5,60,1,False


### 인덱스 리셋
- 인덱스를 0에서 시작하는 새로운 값으로 지정한다
- 기존의 인덱스는 컬럼으로 편입된다

In [284]:
df.reset_index(inplace=True)
df

Unnamed: 0,도시,인구,날씨,자동차,대도시,100만대이상
0,서울,990,13.0,300,1,True
1,부산,350,16.0,140,1,True
2,대구,250,14.0,120,1,True
3,대전,154,13.0,70,1,False
4,광주,150,15.0,50,1,False
5,인천,290,12.7,170,1,True
6,울산,120,15.5,60,1,False


## 누락된 값의 처리

In [285]:
import numpy as np
data = pd.Series([1, np.nan, 'hello', None])
print(data.isnull())

0    False
1     True
2    False
3     True
dtype: bool


In [286]:
print(data.notnull())

0     True
1    False
2     True
3    False
dtype: bool


In [287]:
data[data.notnull()]

0        1
2    hello
dtype: object

In [288]:
data.dropna()

0        1
2    hello
dtype: object

## 데이터프레임에서의 누락된 값의 처리

In [289]:
data = pd.DataFrame([[1, np.nan, 2],
                   [2, 3, 5],
                   [np.nan, 4, 6]])
data

Unnamed: 0,0,1,2
0,1.0,,2
1,2.0,3.0,5
2,,4.0,6


In [290]:
data.isnull()

Unnamed: 0,0,1,2
0,False,True,False
1,False,False,False
2,True,False,False


In [291]:
data.dropna()

Unnamed: 0,0,1,2
1,2.0,3.0,5


In [292]:
data.dropna(axis='columns')

Unnamed: 0,2
0,2
1,5
2,6


## 누락된 값 채우기

In [293]:
data.fillna(0)

Unnamed: 0,0,1,2
0,1.0,0.0,2
1,2.0,3.0,5
2,0.0,4.0,6


In [209]:
df.fillna(method='ffill')# 이전값으로 채움

Unnamed: 0,0,1,2
0,1.0,,2
1,2.0,3.0,5
2,2.0,4.0,6


In [294]:
data.fillna(method='bfill') #다음에 오는 값으로 채움

Unnamed: 0,0,1,2
0,1.0,3.0,2
1,2.0,3.0,5
2,,4.0,6


## 조건 필터링
- 특정 조건에 맞는 샘플을 추출하는 방법

In [295]:
# 값이 True인 항목만 얻는다
df[df['100만대이상']]

Unnamed: 0,도시,인구,날씨,자동차,대도시,100만대이상
0,서울,990,13.0,300,1,True
1,부산,350,16.0,140,1,True
2,대구,250,14.0,120,1,True
5,인천,290,12.7,170,1,True


- 위의 결과는 간단히 아래와 같이 얻을 수 있다

In [296]:
df[df["자동차"] >= 100]

Unnamed: 0,도시,인구,날씨,자동차,대도시,100만대이상
0,서울,990,13.0,300,1,True
1,부산,350,16.0,140,1,True
2,대구,250,14.0,120,1,True
5,인천,290,12.7,170,1,True


In [297]:
# 다른 컬럼에 대한 예
df[df['날씨']>13]

Unnamed: 0,도시,인구,날씨,자동차,대도시,100만대이상
1,부산,350,16.0,140,1,True
2,대구,250,14.0,120,1,True
4,광주,150,15.0,50,1,False
6,울산,120,15.5,60,1,False


### 조건에 맞는 샘플의 인덱스 얻기

In [298]:
index_temp = df[df['날씨'] > 13].index
index_temp

Int64Index([1, 2, 4, 6], dtype='int64')

In [299]:
# 인덱스를 사용하여 원하는 샘플을 얻는 방법
df.loc[index_temp]

Unnamed: 0,도시,인구,날씨,자동차,대도시,100만대이상
1,부산,350,16.0,140,1,True
2,대구,250,14.0,120,1,True
4,광주,150,15.0,50,1,False
6,울산,120,15.5,60,1,False


## 정렬

In [300]:
# 인구를 기준으로 정렬하기
df.sort_values(['인구'])

Unnamed: 0,도시,인구,날씨,자동차,대도시,100만대이상
6,울산,120,15.5,60,1,False
4,광주,150,15.0,50,1,False
3,대전,154,13.0,70,1,False
2,대구,250,14.0,120,1,True
5,인천,290,12.7,170,1,True
1,부산,350,16.0,140,1,True
0,서울,990,13.0,300,1,True


In [301]:
# 내림차순으로 정렬하기
df.sort_values(['인구'], ascending=False)

Unnamed: 0,도시,인구,날씨,자동차,대도시,100만대이상
0,서울,990,13.0,300,1,True
1,부산,350,16.0,140,1,True
5,인천,290,12.7,170,1,True
2,대구,250,14.0,120,1,True
3,대전,154,13.0,70,1,False
4,광주,150,15.0,50,1,False
6,울산,120,15.5,60,1,False


- 데이터프레임에서 한 컬럼을 취하면 시리즈가 된다
- 시리즈에도 인덱스가 붙어있다는 것을 주의

## 데이터 집계

In [310]:
df

Unnamed: 0,도시,인구,날씨,자동차,대도시,100만대이상
0,서울,990,13.0,300,1,True
1,부산,350,16.0,140,1,True
2,대구,250,14.0,120,1,True
3,대전,154,13.0,70,1,False
4,광주,150,15.0,50,1,False
5,인천,290,12.7,170,1,True
6,울산,120,15.5,60,1,False


In [311]:
df.mean

<bound method NDFrame._add_numeric_operations.<locals>.mean of    도시   인구    날씨  자동차  대도시  100만대이상
0  서울  990  13.0  300    1     True
1  부산  350  16.0  140    1     True
2  대구  250  14.0  120    1     True
3  대전  154  13.0   70    1    False
4  광주  150  15.0   50    1    False
5  인천  290  12.7  170    1     True
6  울산  120  15.5   60    1    False>

In [314]:
df.mean(axis=0)

인구         329.142857
날씨          14.171429
자동차        130.000000
대도시          1.000000
100만대이상      0.571429
dtype: float64

In [315]:
df.max(axis=0)

도시           인천
인구          990
날씨         16.0
자동차         300
대도시           1
100만대이상    True
dtype: object

In [316]:
df.min(axis=0)

도시            광주
인구           120
날씨          12.7
자동차           50
대도시            1
100만대이상    False
dtype: object

# 데이터프레임을 파일로 저장
- to_csv(): csv 파일로 저장
- to_excel(): 액셀 파일로 저장

In [302]:
# 데이터프레임을 임의의 파일명을 지정하여 csv 형식으로 저장
# 통상 인덱스 번호는 저장하지 않는다
df.to_csv('cities.csv', index=False)

In [303]:
# 데이터프레임을 임의의 파일명을 지정하여 csv 형식으로 저장
# 통상 인덱스 번호는 저장하지 않는다
df.to_csv('cities.csv', index=False, encoding='euc-kr')

In [304]:
!type cities.csv 
# 리눅스 명령으로 파일 내용보기 cat을 실행
# 윈도우에서는 아래 실행
# !type cities.csv

/bin/bash: 0 줄: type: cities.csv: 찾을 수 없음


In [305]:
# 액셀 파일로 저장하기 (인덱스는 저정하지 않는다)
df.to_excel('cities.xlsx', index=False)

In [306]:
#!ls # 파일 목록보기
# 윈도우에서는 아래 실행
!dir

2주차-마크다운사용법.ipynb  2주차-파이썬기초-3.ipynb  cities.csv
2주차-파이썬기초-1.ipynb    3주차-넘파이기초-2.ipynb  cities.xlsx
2주차-파이썬기초-2.ipynb    3주차-판다스기초-1.ipynb  img


## 파일을 읽어 데이터프레임 만들기
- read_csv(): csv 파일을 데이터프레임으로 읽기
- read_excel(): 액셀, xlsx 파일을 데이터프레임으로 읽기

In [307]:
# csv 파일 읽기
# 인덱스가 자동으로 생성된다
df = pd.read_csv('cities.csv', encoding='euc-kr')  
df

Unnamed: 0,도시,인구,날씨,자동차,대도시,100만대이상
0,서울,990,13.0,300,1,True
1,부산,350,16.0,140,1,True
2,대구,250,14.0,120,1,True
3,대전,154,13.0,70,1,False
4,광주,150,15.0,50,1,False
5,인천,290,12.7,170,1,True
6,울산,120,15.5,60,1,False


In [308]:
# 액셀 읽기
# 인덱스가 자동으로 생성된다
df = pd.read_excel('cities.xlsx')  
df

Unnamed: 0,도시,인구,날씨,자동차,대도시,100만대이상
0,서울,990,13.0,300,1,True
1,부산,350,16.0,140,1,True
2,대구,250,14.0,120,1,True
3,대전,154,13.0,70,1,False
4,광주,150,15.0,50,1,False
5,인천,290,12.7,170,1,True
6,울산,120,15.5,60,1,False
