### Pandas
- data 분석과 조작을 위한 python 의 library

In [None]:
import pandas as pd
import numpy as np
import warnings
warnings.filterwarnings('ignore')

In [None]:
pd.__version__

- PassengerId : 탑승자 일렬번호
- Survived : 생존 여부 (0 - 사망, 1 - 생존)
- Pclass : 선실 등급 (1-일등석, 2-이등석, 3-삼등석)
- Name : 승객 이름
- Sex : 성별
- Age : 나이
- SibSp : 형제(자매), 배우자
- Parch : 부모, 자식
- Ticket : 티켓 번호
- Fare : 운임
- Cabin : 선실 번호
- Embarked : 경유지

In [None]:
'''
pandas 의 read_csv() 함수
   ㄴ csv 파일을 DataFrame 이나 Series 로 변환함
                  ㄴ 2차원       ㄴ 1차원
'''
titanic_df = pd.read_csv('titanic_train.csv')
print(type(titanic_df))
print(titanic_df.shape)

In [None]:
display(titanic_df)

In [None]:
display(titanic_df.head())

In [None]:
display(titanic_df.tail())

In [None]:
display(titanic_df.head(10))

In [None]:
pd.set_option('display.max_rows', 1000)
pd.set_option('display.max_colwidth', 100)
pd.set_option('display.max_columns', 100)

In [None]:
display(titanic_df)

In [None]:
print(titanic_df.columns)

In [None]:
print(titanic_df.index)
print(type(titanic_df.index.values))
print(titanic_df.index.values)

In [None]:
'''
info() 메소드
  ㄴ DataFrame 의 column 명, dtype, 
     Non-Null 건수, data 건수 등...
'''
titanic_df.info()

In [None]:
'''
DataFrame 의 describe() 메소드
 ㄴ 수치 컬럼의 기초통계량을 반환함
    ㄴ dtype 이 숫자형인 컬럼들의
       전체 건수, 평균, 표준편차, 4 분위수(quartile) 를 알려줌
'''
display(titanic_df.describe())

In [None]:
titanic_df.describe(exclude=np.number)

In [None]:
titanic_df.describe(include=np.object)

In [None]:
'''
value_counts() 메소드
  ㄴ 특정 컬럼에서 중복된 값이 몇 개 있는이 반환함
                   ㄴ 동일한 개별 data 값이 몇 개 있는지
                   
 DataFrame 에서 컬럼 하나만 추출하면 기본적으로 Series type 이 됨
   2 차원 구조                                   1 차원 구조
'''
print(titanic_df['Pclass'].head())
print(titanic_df.Pclass.head())

In [None]:
print("titanic_df['Pclass'].value_counts()")
print(titanic_df['Pclass'].value_counts())

In [None]:
titanic_df['Survived'].value_counts()

In [None]:
'''
DataFrame 에서 컬럼 하나를 추출할 때
  1) [] 를 한 번 사용하면 Series 로 추출됨      : 1차원 구조 (행, 열 개념이 없음)
  2) [] 를 두 번 사용하면 DataFrame 으로 추출됨 : 2차원 구조 (행과 열이 있는 구조)
  
DataFrame 에서 컬럼 여러 개를 추출할 때  
  ㄴ [] 를 두 번 사용해야 함
'''
print(type(titanic_df['Pclass']))
print(type(titanic_df[['Pclass']]))

In [None]:
titanic_df['Pclass'].head()

In [None]:
titanic_df[['Pclass']].head()

In [None]:
'''
DataFrame 에서 컬럼 여러 개를 추출할 때  
  ㄴ [] 를 두 번 사용해야 함
'''
# Name, Age
titanic_df[['Name', 'Age']].head()

In [None]:
titanic_df[['Name', 'Age', 'Sex']].head()

In [None]:
'''
titanic_df 의 건수(row의 개수) 알아보기
  ㄴ DataFrame 의 shape 속성 : 행과 열의 개수를 tuple 로 반환함
'''
print(titanic_df.shape)
print('행의 개수')
print(titanic_df.shape[0],'개')
print('열의 개수')
print(titanic_df.shape[1],'개')

In [None]:
'''
 Embarked : 경유지 컬럼
 
 DataFrame 의 nunique() 메소드  <-- unique 한 값의 개수를 반환함
'''
print('타이타닉호의 경유지',titanic_df['Embarked'].nunique(),'곳')
print('경유지별 승객수')
print(titanic_df['Embarked'].value_counts())

In [None]:
'''
결측치 - NULL(null), NaN(nan), Na(na)
          ㄴ 모두 결측치를 의미함         
value_counts() 메소드의 dropna 는 True 가 default 값임
'''
print('결측치까지 포함해서 Embarked 컬럼에서 경유지별 승객수 알아보기')
print('경유지가 기록되지 않은 승객은 2 명임')
print(titanic_df['Embarked'].value_counts(dropna=False))

In [None]:
'''
객실등급별, 경유지별 승객수 알아보기
'''
titanic_df[['Pclass', 'Embarked']].value_counts()

In [None]:
'''
numpy 의 ndarray 와 list, dictionary 를
DataFrame 으로 변환하기
'''
column_name1 = ['col1']
list1 = [1, 2, 3]
arr1 = np.array(list1)

print(list1)
print(arr1)

In [None]:
print('1차원 리스트로 DataFrame 생성하기')
print('columns(컬럼파라미터)를 설정하지 않으면 자동으로 0 이 저장됨')
list1_df = pd.DataFrame(list1)
display(list1_df)

In [None]:
print('컬럼파라미터를 지정해서 컬럼명을 정하고 DataFrame 으로 변환하기')
list1_df = pd.DataFrame(list1, columns=column_name1)
display(list1_df)

In [None]:
print('1차원 ndarray 로 DataFrame 생성하기')
arr1_df = pd.DataFrame(arr1, columns=column_name1)
display(arr1_df)

In [None]:
'''
2행 3열 구조의 2 차원 리스트와 ndarray 로
DataFrame 생성하기
'''
column_name2 = ['col1', 'col2', 'col3']
list2 = [[1, 2, 3],
         [11, 22, 33]]
arr2 = np.array(list2)
print(list2)
print(arr2)

In [None]:
list2_df = pd.DataFrame(list2)
print('2차원 리스트로 DataFrame 생성하기')
print('columns 를 설정하지 않으면 0 1 2 로 자동 생성됨')
display(list2_df)

In [None]:
list2_df = pd.DataFrame(list2, columns=column_name2)
print('2차원 리스트로 DataFrame 생성하기')
print('columns  설정하기')
display(list2_df)

In [None]:
arr2_df = pd.DataFrame(arr2, columns=column_name2)
print('2차원 ndarray 로 DataFrame 생성하기')
display(arr2_df)

In [None]:
'''
dictionary 로 DataFrame 생성하기
  key   :  컬럼명
  value :  data
'''
dict1 = {'col1':[1, 11], 'col2':[2, 22], 'col3':[3, 33]}
dict1_df = pd.DataFrame(dict1)
print('dictionary 로 생성한 DataFrame')
print(type(dict1_df))
display(dict1_df)

In [None]:
'''
DataFrame 을 ndarray, list, dictionary 로 변환하기

DataFrame 의 values 속성을 사용해서
data 를 추출하면 ndarray 가 됨

shape 속성은 ndarray, Series, DataFrame
모두 사용할 수 있음
'''
arr3 = dict1_df.values
print(type(arr3))
print(arr3.shape)
print(arr3)
print(dict1_df.shape)
print(dict1_df)

In [80]:
'''
DataFrame 을 list 로 변환하기
  1) DataFrame 을 values 속성을 사용해서 ndarray 로 변환함
  2) 이 ndarray 를 tolist() 메소드를 호출해서 list 로 변환함
'''
list3 = dict1_df.values.tolist()
print('dict1_df.values')
print(type(dict1_df.values))
print(dict1_df.values)
print(type(dict1_df))
display(dict1_df)
print(type(list3))
print(list3)

dict1_df.values
<class 'numpy.ndarray'>
[[ 1  2  3]
 [11 22 33]]
<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,col1,col2,col3
0,1,2,3
1,11,22,33


<class 'list'>
[[1, 2, 3], [11, 22, 33]]
