# Pandas는 무엇인가요?
데이터 분석 및 가공에 사용되는 파이썬 라이브러리입니다

In [12]:
import pandas as pd


df = pd.DataFrame({"Fruit":['Apple', 'Banana','Melon','Orange'],
                   "Color": ['red', 'yellow', 'green','orange'],
                   "Price": [2000,3000,5000,4000],
                   "Quantity": [3,4,2,1]})

df.head()

Unnamed: 0,Fruit,Color,Price,Quantity
0,Apple,red,2000,3
1,Banana,yellow,3000,4
2,Melon,green,5000,2
3,Orange,orange,4000,1


# 데이터프레임은 무엇인가요?
가로축과 세로축이 있는 엑셀과 유사한 데이터구조입니다. 가로축은 로우(행), 세로축은 컬럼(열)이라고 합니다.

In [4]:
# 데이터프레임이 가지고 있는 함수의 예제입니다.
# 상위 몇 개의 데이터만 출력 및 확인 가능
df.head()

Unnamed: 0,Fruit,Color,Price,Quantity
0,Apple,red,2000,3
1,Banana,yellow,3000,4
2,Melon,green,5000,2
3,Orange,orange,4000,1


# 시리즈는 무엇인가요?
데이터프레임의 컬럼(행)은 모두 시리즈입니다.

In [5]:
type(df.Color)

pandas.core.series.Series

In [7]:
df.Color = df.Color.str.upper()
df.Fruit = df.Fruit.str.lower()
df.head()

Unnamed: 0,Fruit,Color,Price,Quantity
0,apple,RED,2000,3
1,banana,YELLOW,3000,4
2,melon,GREEN,5000,2
3,orange,ORANGE,4000,1


시리즈는 단순히 파이썬 리스트를 간직한 오브젝트입니다.  
리스트를 파라미터로 주면 바로 시리즈가 생성됩니다.  
시리즈는 데이터 가공 및 분석이 파이썬 리스트보다 훨씬 쉽습니다.

In [8]:
list1 = pd.core.series.Series(['one','two','three'])
list2 = pd.core.series.Series([1,2,3])

In [9]:
pd.DataFrame(data=dict(word = list1, num = list2))

Unnamed: 0,word,num
0,one,1
1,two,2
2,three,3


# 왜 팬더스를 쓰나요?

엑셀과 상당히 유사합니다, 데이터의 수정/가공 및 분석이 용이합니다.    
데이터 가공을 위한 수많은 함수를 지원합니다.  
Numpy 기반으로 데이터 처리가 상당히 빠릅니다.  

# 파일을 데이터프레임으로 불러오기
데이터프레임 (dataframe)은 2차원 자료구조입니다. 로우와 컬럼으로 엑셀 형식과 유사합니다.  
기본적으로 csv 포맷을 지원하지만, 구분자로 컬럼이 구분되어 있는 데이터는 모두 지원합니다.  
read_csv 함수로 파일을 데이터프레임으로 호출할 수 있습니다.

In [10]:
df = pd.read_csv('csv 파일 명')

FileNotFoundError: [Errno 2] No such file or directory: 'csv 파일 명'

만약 파일의 컬럼들이 쉼표로 구분되어 있지 않을 경우라도, delimiter 파라미터에 구분자를 지정해줘서  
컬럼을 제대로 나줘줄 수 있습니다. 아래는 탭으로 컬럼이 구분된 경우의 예제입니다.

In [None]:
df = pd.read_csv('data/friend_list_tab.txt', delimiter = "\t")

만약 파일에 데이터 헤더가 없을 경우, header = None으로 지정해줘서,  
첫번째 데이터가 데이터 헤더로 들어가는 것을 방지해줘야합니다.

In [None]:
df = pd.read_csv('data/friend_list_no_head.csv', header = None)
df.head()

헤더가 없는 데이터를 데이터프레임으로 호출했을 경우,  
아래와 같이 데이터프레임 생성 후에, 컬럼 헤더를 지정해주실 수 있습니다.

In [15]:
df.columns = [1,2,3,4]
df.head()

Unnamed: 0,1,2,3,4
0,Apple,red,2000,3
1,Banana,yellow,3000,4
2,Melon,green,5000,2
3,Orange,orange,4000,1


또한, 파일을 데이터프레임으로 호출하는 동시에, 헤더를 아래와 같이 지정해주실 수도 있습니다.

In [None]:
df = pd.read_csv('data/friend_list_no_head.csv', header = None, names=['name', 'age', 'job'])