# 판다스(Pandas) 02 - 파일에서 데이터 불러오기

파일에서 데이터 불러오기 - csv 파일

- 판다스(Pandas) 에서는 파일에서 데이터를 불러오는 'read_csv(...)' 함수인자(parameter)로 파일리음만 넘겨주면 해당 파일이 콤마(,)로 분리된 데이터 파일이라고 인식함

In [1]:
# Read_csv(...) 기본 사용법

import pandas as pd

df1 = pd.read_csv('LEC_02_data.csv')

df1

Unnamed: 0,Name,Country,Age,Job
0,John,USA,31,Student
1,Sabre,France,33,Lawyer
2,Kim,Korea,28,Developer
3,Sato,Japan,40,Chef
4,Lee,Korea,36,Professor
5,Smith,USA,55,CEO


In [2]:
# 데이터프레임 열(column) 이름 변경 / 인덱스 변경

# 현재의 colum / index 출력
print(df1.columns)
print(df1.index)
print(df1.shape)

# column / index 변경
df1.columns = ['이름', '국가', '나이', '직업']

df1.index = ['일', '이', '삼', '사', '오', '육']

df1

Index(['Name', 'Country', 'Age', 'Job'], dtype='object')
RangeIndex(start=0, stop=6, step=1)
(6, 4)


Unnamed: 0,이름,국가,나이,직업
일,John,USA,31,Student
이,Sabre,France,33,Lawyer
삼,Kim,Korea,28,Developer
사,Sato,Japan,40,Chef
오,Lee,Korea,36,Professor
육,Smith,USA,55,CEO


파일에서 데이터 불러오기 - tsv 파일

- 판다스(Pandas)에서는 탭(tab)으로 분리되어 있는 데이터 파일을 불러오는 경우에는 파일이름과 함께 데이터 분리자(seperator)를 나타내는 sep = '\t' 옵션을 'read_csv(...)' 인자로 넘겨주어야 함

In [3]:
# sep = '\t' 옵션을 사용하지 않는 경우

df2 = pd.read_csv('LEC_02_data_tab.txt')
df2

Unnamed: 0,Name\tCountry\tAge\tJob
0,John\tUSA\t31\tStudent
1,Sabre\tFrance\t33\tLawyer
2,Kim\tKorea\t28\tDeveloper
3,Sato\tJapan\t40\tChef
4,Lee\tKorea\t36\tProfessor
5,Smith\tUSA\t55\tCEO


In [5]:
# sep = '\t' 옵션을 사용하는 경우

df2 = pd.read_csv('LEC_02_data_tab.txt', sep = '\t')
df2

Unnamed: 0,Name,Country,Age,Job
0,John,USA,31,Student
1,Sabre,France,33,Lawyer
2,Kim,Korea,28,Developer
3,Sato,Japan,40,Chef
4,Lee,Korea,36,Professor
5,Smith,USA,55,CEO


불러온 데이터 확인하기 - head() 메서드 / tail() 메서드

- 판다스(Pandas)의 head() 메서드는 데이터프레임의 가장 앞에 있는 5개의 데이터를 출력해 주며, tail() 메서드는 가장 뒤에 있는 5개의 데이터를 출력해줌

In [7]:
# 데이터 불러오기

import pandas as pd

df1 = pd.read_csv('LEC_02_data.csv')
df1

Unnamed: 0,Name,Country,Age,Job
0,John,USA,31,Student
1,Sabre,France,33,Lawyer
2,Kim,Korea,28,Developer
3,Sato,Japan,40,Chef
4,Lee,Korea,36,Professor
5,Smith,USA,55,CEO


In [8]:
# head()

df1.head()

Unnamed: 0,Name,Country,Age,Job
0,John,USA,31,Student
1,Sabre,France,33,Lawyer
2,Kim,Korea,28,Developer
3,Sato,Japan,40,Chef
4,Lee,Korea,36,Professor


In [9]:
df1.head(2)

Unnamed: 0,Name,Country,Age,Job
0,John,USA,31,Student
1,Sabre,France,33,Lawyer


In [10]:
# tail()

df1.tail()

Unnamed: 0,Name,Country,Age,Job
1,Sabre,France,33,Lawyer
2,Kim,Korea,28,Developer
3,Sato,Japan,40,Chef
4,Lee,Korea,36,Professor
5,Smith,USA,55,CEO


In [11]:
df1.tail(1)

Unnamed: 0,Name,Country,Age,Job
5,Smith,USA,55,CEO


불러온 데이터 확인하기 - 헤더(header) 정보가 없는 경우

- 헤더(header)정보가 없는 파일에서 데이터를 불러오는 경우 파일이름과 함께 header = None, names = [...] 옵션을 'read_csv(...)' 인자로 넘겨주어야 함

In [12]:
# header 옵션 없이 데이터 불러오기

df3 = pd.read_csv('LEC_02_data_no_header.csv')
df3

Unnamed: 0,John,USA,31,Student
0,Sabre,France,33,Lawyer
1,Kim,Korea,28,Developer
2,Sato,Japan,40,Chef
3,Lee,Korea,36,Professor
4,Smith,USA,55,CEO


In [13]:
# header = None, name[...] 옵션 사용하는 경우

df3 = pd.read_csv('LEC_02_data_no_header.csv', header = None)
df3

Unnamed: 0,0,1,2,3
0,John,USA,31,Student
1,Sabre,France,33,Lawyer
2,Kim,Korea,28,Developer
3,Sato,Japan,40,Chef
4,Lee,Korea,36,Professor
5,Smith,USA,55,CEO


In [14]:
# header = None 을 사용하지 않고 names 옵션만 주어도 동일한 결과가 나온다
df3 = pd.read_csv('LEC_02_data_no_header.csv', header = None, names = ['Name', 'Country', 'Age', 'Job'])
df3

Unnamed: 0,Name,Country,Age,Job
0,John,USA,31,Student
1,Sabre,France,33,Lawyer
2,Kim,Korea,28,Developer
3,Sato,Japan,40,Chef
4,Lee,Korea,36,Professor
5,Smith,USA,55,CEO
