# COSADAMA Introduction to Data Science Study

- 작성자: 조용주
- 참고자료: 2020년 코사다마 데이터 분석 커리큘럼(박하람), 파이썬 머신러닝 완벽 가이드(권철민), 비주얼 프로그래밍 수업(김승태), 파이썬으로 데이터 주무르기(민형기)

이번 주차에는 데이터 분석 전문 모듈인 Pandas에 대해 공부합니다. 앞으로 가장 많이 사용하게 되실 모듈이니 꼼꼼히 공부하시고, 스스로 사용해보시며 친해지시길 바랍니다.

## 데이터 분석 끝판왕, Pandas

pandas는 파이썬에서 데이터 처리를 위해 존재하는 가장 인기 있는 라이브러리입니다. 일반적으로 대부분의 데이터 세트는 2차원 데이터입니다. 즉, <strong>행(row)X열(column)</strong>으로 구성돼 있습니다.(excel 시트를 떠올려볼 것) 행과 열의 2차원 데이터가 인기 있는 이유는 바로 인간이 가장 이해하기 쉬운 데이터 구조이면서도 효과적으로 데이터를 담을 수 있는 구조이기 때문입니다. <strong>판다스는 이처럼 행과 열로 이뤄진 2차원 데이터를 효율적으로 가공/처리할 수 있는 다양하고 훌륭한 기능을 제공합니다.</strong>
앞 절에서 넘파이를 소개했지만, 넘<strong>파이의 데이터 핸들링은 편하다고 말하기 어렵습니다. 판다스는 많은 부분이 넘파이 기반으로 작성됐는데, 넘파이보다 훨씬 유연하고 편리하게 데이터 핸들링을 가능하게 해줍니다. 판다스는 파이썬의 리스트, 컬렉션, 넘파이 등의 내부 데이터 뿐만 아니라 CSV 등의 파일을 쉽게 DataFrame으로 변경해 데이터의 가공/분석을 편리하게 수행할 수 있게 만들어줍니다.</strong>
판다스가 파이썬 세계의 대표적인 데이터 핸들링 프레임워크지만, 이 또한 모든 것을 다 정복하겠다라는 생각을 버립시다. 판다스만 해도 별도의 책 한권 분량이 필요하거든요. 지금부터 다룰 판다스 내용들은 정말로 기본 중의 기본만 다루구나 생각하시면 되겠습니다. 이 파트를 보시고 우리 주교재를 보시면 조금 더 이해하기 쉬울 것이라 생각됩니다.

<strong>준비물</strong>
오른쪽 링크를 클릭해 캐글 사이트에 가입한 후, 아래 Data Source 란에 위치한 [캐글의 타이타닉 train.csv](https://www.kaggle.com/c/titanic/data)을 다운받아 자신이 실습하고 있는 파일과 같은 폴더에 넣어두기

In [1]:
import sys 
sys.path.append("/usr/local/lib/python3.8/site-packages")

In [2]:
import pandas as pd

#### 판다스의 자료구조

- Series: 1차원 배열의 자료구조, 인덱스와 함께 구성되어 있음
- DataFrame: 2차원 배열의 자료구조
- Series와 DataFrame의 가장 큰 차이는 Series는 칼럼이 하나 뿐인 데이터 구조체이고, DataFrame은 칼럼이 여러개인 데이터 구조체라는 것

In [3]:
#Series

obj = pd.Series([4,7,-5,3])
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [4]:
obj.values

array([ 4,  7, -5,  3])

In [5]:
obj.index

RangeIndex(start=0, stop=4, step=1)

In [8]:
#인덱스 지정도 가능
obj2 = pd.Series([4,7,-5,3], index=['d','b','a','c'])
obj2 #항상 어떤 데이터가 들어있는지 확인해볼 것!

d    4
b    7
a   -5
c    3
dtype: int64

In [9]:
obj2['d'] = 6
obj2

d    6
b    7
a   -5
c    3
dtype: int64

In [10]:
# 딕셔너리에서 Series 만들기 
sdata = {'Ohio': 35000, 'Texas':71000,
        'Oregon':16000, 'Utah':5000}
obj3 = pd.Series(sdata)
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [11]:
# 인덱스를 이런 식으로 설정하는 것도 가능
state = ['California','Ohio','Oregon','Texas']
obj4 = pd.Series(sdata, index=state)
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

#### 판다스의 DataFrame

- DataFrame은 **컬럼, 인덱스, 데이터** 이 3가지로 구성
- 여러 개의 행과 열로 이뤄진 2차원 데이터를 담는 데이터 구조체 
- DataFrame은 여러 개의 Series로 이뤄졌다고 할 수 있음

In [12]:
# 딕셔너리를 이용해 DataFrame 생성하기 
data = {'state':['Ohio','Ohio','Ohio','Nevada','Nevada'],
       'year':[2000,2001,2002,2001,2002],
       'pop':[1.5,1.7,3.6,2.4,2.9]}
df = pd.DataFrame(data)
df

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


In [13]:
# 칼럼을 원하는 순서대로 보기 
df2 = pd.DataFrame(data, columns=['year','state','pop'])
df2

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9


In [14]:
# 인덱스를 지정하고 싶다면
df3 = pd.DataFrame(data, columns=['year','state','pop','debt'],
                  index=['one','two','three','four','five'])
df3

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,


- NaN: Not a Number, 값이 없다!

#### 파일을 DataFrame으로 로딩하기 

- 판다스는 다양한 포맷으로 된 파일을 DataFrame으로 로딩할 수 있는 편리한 API를 제공함. 
- **pd.read_csv('파일경로명')**: CSV 뿐만 아니라 어떤 필드 구분 문자 기반의 파일 포맷도 DataFrame으로 변환시킴
- read_csv()에 파일경로를 명확히 적어주거나, 같은 폴더에 넣어야만 파일이 로딩됨
- 파일이름을 정확히 적었는지 확인하세요!

In [15]:
titanic_df = pd.read_csv('titanic_train.csv')
titanic_df.head()  # 데이터가 너무 많을 때는 앞의 5개만

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [16]:
type(titanic_df)

pandas.core.frame.DataFrame

In [17]:
# 뒤의 5개만
titanic_df.tail()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


In [18]:
# 앞의 10개만 
titanic_df.head(10)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C


#### DataFrame의 데이터 한번에 알아보기

- DataFrame은 데이터뿐만 아니라 칼럼의 타입, Null 데이터 개수, 데이터 분포도 등의 메타 데이터 등도 조회가 가능함. 

In [20]:
# DataFrame의 행과 열 크기 알아보기 
titanic_df.shape

(891, 12)

아하! 총 891개의 row와 12개의 column으로 이루어져 있구나!

In [21]:
# DataFrame의 총 데이터 건수, 데이터 타입, Null 건수
titanic_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


- 0 to 890: 전체 row 수 
- 891, 891, ... 714, ...: 이 행은 각 칼럼에서 몇개의 데이터가 non-null인지 나타냄. 그럼 714개가 있다는 건 분명 뭔가 missing data가 있다는 말이겠죠?!
- non-null: null값이 아닌 것.(값이 있다는 것)
- object는 편하게 파이썬에서 배운 문자열이라고 생각하면 됩니다.

In [23]:
# DataFrame의 통계요약 정보 
titanic_df.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


갠적으로 판다스는 이런 부분에 있어서 정말 대박이라고 생각해요..! **코드 하나만으로 모든 데이터의 수, 평균, 표준편차, 최솟값, 최댓값 등을 모두 알려주잖아요.** 

- desribe()는 오직 **숫자형 데이터값**만 계산해줍니다. 총 칼럼이 12개여야 하는데 빠진 칼럼들이 많이 보이죠? 그게 숫자형 칼럼이 아니라서 계산을 하지 않은 거에요. 그래서 데이터 타입을 아는 것도 중요합니다. 
- 25%, 50%, 75% 등: 칼럼별 숫자형 데이터값의 n-percentile 분포도

In [24]:
# DataFrame 중 'Pclass' 칼럼만 떼어보기 
titanic_Pclass = titanic_df['Pclass']
titanic_Pclass

0      3
1      1
2      3
3      1
4      3
      ..
886    2
887    1
888    3
889    1
890    3
Name: Pclass, Length: 891, dtype: int64

In [25]:
# 특정한 여러가지 칼럼만 떼어보기 
titanic_df[['Pclass','Age']]   # 여러 개 칼럼은 [ ]로 감싸주는 법 잊지마세요!

Unnamed: 0,Pclass,Age
0,3,22.0
1,1,38.0
2,3,26.0
3,1,35.0
4,3,35.0
...,...,...
886,2,27.0
887,1,19.0
888,3,
889,1,26.0


- **value_count()**: 데이터의 분포도를 확인하는데 유용한 함수. Series 형태로 반환되며 해당 칼럼값의 유형과 건수를 확인할 수 있음.