# csv, excel 파일의 데이터 정보 확인
* 변수명 = pd.read_csv("csv파일명.csv")
* 변수명 = pd.read_excel("excel파일명.xlsx")

* 한글 인코딩 방식 ( 맥 : utf-8, 윈도우 : cp949 )
* 즉 윈도우에서 한글이 깨지지 않고 출력하기 위해서
* 방법 1). "변수명 = pd.read_csv('csv파일명.csv', encoding='cp949')
* 방법 2). 텍스트 에디터(메모장)를 사용해 복붙 후 저장
* 방법 3). convert to utf-8.

*** Case 1. csv 파일

In [1]:
import pandas as pd

print(pd.__version__) # 버전확인

1.0.5


In [2]:
import pandas as pd

airways = pd.read_csv("국토교통부_세계항공종사자_현황_20191106.csv")
airways

Unnamed: 0,항공사,조종사,기타 운항승무원,객실승무원,정비사,영업인원,공항인원,기타,계
0,Adria Airways,167,0,147,0,74,0,114,502
1,Aeroflot Russian Airlines,2542,187,8539,2851,1658,4993,3491,24261
2,Aerolineas Argentinas,900,0,1751,1707,949,3366,1954,10627
3,Aeromexico,1104,0,2131,86,1084,589,2487,7481
4,Aeromexico Connect,655,0,714,30,0,408,353,2160
...,...,...,...,...,...,...,...,...,...
184,WestJet,1555,167,3240,748,1318,4210,718,11956
185,WestJet Encore,579,39,557,179,0,375,1,1730
186,White Airways,88,0,122,12,20,0,35,277
187,Wideroe,438,0,324,54,0,0,147,963


In [3]:
airways.info()         # 정보(타입, 행렬, Non-Null Count, dtype, memory usage)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 189 entries, 0 to 188
Data columns (total 9 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   항공사       189 non-null    object
 1   조종사       189 non-null    object
 2   기타 운항승무원  189 non-null    int64 
 3   객실승무원     189 non-null    object
 4   정비사       189 non-null    object
 5   영업인원      189 non-null    object
 6   공항인원      189 non-null    object
 7   기타        189 non-null    object
 8   계         189 non-null    object
dtypes: int64(1), object(8)
memory usage: 13.4+ KB


In [4]:
airways.dtypes         # 자료형 확인

항공사         object
조종사         object
기타 운항승무원     int64
객실승무원       object
정비사         object
영업인원        object
공항인원        object
기타          object
계           object
dtype: object

* int 8/16/32/64 : 정수형
* float 8/16/32/64 : 실수형
* object : 문자열
* category : 범주형

In [5]:
print(type(airways))   # 타입 ex. pandas - DataFrame
print(airways.shape)   # 행렬
print(airways.columns) # 컬럼명, dtype

<class 'pandas.core.frame.DataFrame'>
(189, 9)
Index(['항공사', '조종사', '기타 운항승무원', '객실승무원', '정비사', '영업인원', '공항인원', '기타', '계'], dtype='object')


In [6]:
airways.head()         # 앞의 데이터 살펴보기. 괄호 안에 숫자만큼 출력. Default == 5

Unnamed: 0,항공사,조종사,기타 운항승무원,객실승무원,정비사,영업인원,공항인원,기타,계
0,Adria Airways,167,0,147,0,74,0,114,502
1,Aeroflot Russian Airlines,2542,187,8539,2851,1658,4993,3491,24261
2,Aerolineas Argentinas,900,0,1751,1707,949,3366,1954,10627
3,Aeromexico,1104,0,2131,86,1084,589,2487,7481
4,Aeromexico Connect,655,0,714,30,0,408,353,2160


In [7]:
airways.tail()         # 뒤의 데이터 살펴보기. 괄호 안에 숫자만큼 출력. Default == 5

Unnamed: 0,항공사,조종사,기타 운항승무원,객실승무원,정비사,영업인원,공항인원,기타,계
184,WestJet,1555,167,3240,748,1318,4210,718,11956
185,WestJet Encore,579,39,557,179,0,375,1,1730
186,White Airways,88,0,122,12,20,0,35,277
187,Wideroe,438,0,324,54,0,0,147,963
188,Xiamen Airlines,2454,661,5844,3592,3289,3340,3120,22300


In [8]:
airways.describe()     # 수치형 데이터 요약. cf 범주형 데이터

Unnamed: 0,기타 운항승무원
count,189.0
mean,30.941799
std,105.369824
min,0.0
25%,0.0
50%,0.0
75%,4.0
max,682.0


describe() 보충 - 수치형 데이터
* count : 데이터의 개수
* mean : 평균 값
* std : 표준편차(standard deviation). 즉 분산의 양의 제곱근. 표준편차가 작을수록 평균값에서 변량들의 거리가 가깝다.
* min : 최솟값
* 25% : 4분위수(25%) 즉 제 1사분위.
* 50% : 4분위수(50%) 즉 중앙값(median).
* 75% : 4분위수(75%) 즉 제 4사분위.
* max : 최댓값

In [9]:
airways.isnull().sum() # 결측치(missing data). 즉 비어있어 측정되지 못하는 데이터가 몇 개인지 확인.

항공사         0
조종사         0
기타 운항승무원    0
객실승무원       0
정비사         0
영업인원        0
공항인원        0
기타          0
계           0
dtype: int64

*** Case 2. excel 파일

In [10]:
import pandas as pd

people = pd.read_excel("서울특별시 중랑구 연령별 인구수 현황_20201106.xlsx")
people

Unnamed: 0,연 령,Unnamed: 1,중랑구,면목본동,면목2동,면목제3.8동,면목4동,면목5동,면목제7동,상봉제1동,상봉제2동,중화제1동,중화제2동,묵제1동,묵제2동,망우본동,망우제3동,신내1동,신내2동
0,,,인 구 수,인 구 수,인 구 수,인 구 수,인 구 수,인 구 수,인 구 수,인 구 수,인 구 수,인 구 수,인 구 수,인 구 수,인 구 수,인 구 수,인 구 수,인 구 수,인 구 수
1,합 계,계,395997,34618,25005,25682,19037,14164,22330,24884,19776,20308,25922,35622,19480,30467,17231,40091,21380
2,,남,195981,17238,12480,12757,9500,7133,11203,12188,9635,9952,13317,17277,9577,15316,8673,19525,10210
3,,여,200016,17380,12525,12925,9537,7031,11127,12696,10141,10356,12605,18345,9903,15151,8558,20566,11170
4,0세 - 0세,계,1824,151,97,100,80,130,113,132,109,120,94,149,95,109,53,179,113
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
332,,남,2,0,0,0,0,0,1,0,0,0,0,1,0,0,0,0,0
333,,여,2,0,0,0,0,0,0,0,1,0,0,0,0,1,0,0,0
334,110세 이상,계,57,9,1,1,4,2,4,1,5,2,5,4,3,9,6,1,0
335,,남,11,3,0,0,0,0,0,0,1,0,1,0,2,3,1,0,0


In [11]:
people.info()         # 정보(타입, 행렬, Non-Null Count, dtype, memory usage)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 337 entries, 0 to 336
Data columns (total 19 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   연    령      112 non-null    object
 1   Unnamed: 1  336 non-null    object
 2   중랑구         337 non-null    object
 3   면목본동        337 non-null    object
 4   면목2동        337 non-null    object
 5   면목제3.8동     337 non-null    object
 6   면목4동        337 non-null    object
 7   면목5동        337 non-null    object
 8   면목제7동       337 non-null    object
 9   상봉제1동       337 non-null    object
 10  상봉제2동       337 non-null    object
 11  중화제1동       337 non-null    object
 12  중화제2동       337 non-null    object
 13  묵제1동        337 non-null    object
 14  묵제2동        337 non-null    object
 15  망우본동        337 non-null    object
 16  망우제3동       337 non-null    object
 17  신내1동        337 non-null    object
 18  신내2동        337 non-null    object
dtypes: object(19)
memory usage: 50.1+ KB


In [12]:
people.dtypes         # 자료형 확인

연    령        object
Unnamed: 1    object
중랑구           object
면목본동          object
면목2동          object
면목제3.8동       object
면목4동          object
면목5동          object
면목제7동         object
상봉제1동         object
상봉제2동         object
중화제1동         object
중화제2동         object
묵제1동          object
묵제2동          object
망우본동          object
망우제3동         object
신내1동          object
신내2동          object
dtype: object

* int 8/16/32/64 : 정수형
* float 8/16/32/64 : 실수형
* object : 문자열
* category : 범주형

In [13]:
print(type(people))   # 타입 ex. pandas - DataFrame
print(people.shape)   # 행렬
print(people.columns) # 컬럼명, dtype

<class 'pandas.core.frame.DataFrame'>
(337, 19)
Index(['연    령', 'Unnamed: 1', '중랑구', '면목본동', '면목2동', '면목제3.8동', '면목4동',
       '면목5동', '면목제7동', '상봉제1동', '상봉제2동', '중화제1동', '중화제2동', '묵제1동', '묵제2동',
       '망우본동', '망우제3동', '신내1동', '신내2동'],
      dtype='object')


In [14]:
people.head()         # 앞의 데이터 살펴보기. 괄호 안에 숫자만큼 출력. Default == 5

Unnamed: 0,연 령,Unnamed: 1,중랑구,면목본동,면목2동,면목제3.8동,면목4동,면목5동,면목제7동,상봉제1동,상봉제2동,중화제1동,중화제2동,묵제1동,묵제2동,망우본동,망우제3동,신내1동,신내2동
0,,,인 구 수,인 구 수,인 구 수,인 구 수,인 구 수,인 구 수,인 구 수,인 구 수,인 구 수,인 구 수,인 구 수,인 구 수,인 구 수,인 구 수,인 구 수,인 구 수,인 구 수
1,합 계,계,395997,34618,25005,25682,19037,14164,22330,24884,19776,20308,25922,35622,19480,30467,17231,40091,21380
2,,남,195981,17238,12480,12757,9500,7133,11203,12188,9635,9952,13317,17277,9577,15316,8673,19525,10210
3,,여,200016,17380,12525,12925,9537,7031,11127,12696,10141,10356,12605,18345,9903,15151,8558,20566,11170
4,0세 - 0세,계,1824,151,97,100,80,130,113,132,109,120,94,149,95,109,53,179,113


In [15]:
people.tail()         # 뒤의 데이터 살펴보기. 괄호 안에 숫자만큼 출력. Default == 5

Unnamed: 0,연 령,Unnamed: 1,중랑구,면목본동,면목2동,면목제3.8동,면목4동,면목5동,면목제7동,상봉제1동,상봉제2동,중화제1동,중화제2동,묵제1동,묵제2동,망우본동,망우제3동,신내1동,신내2동
332,,남,2,0,0,0,0,0,1,0,0,0,0,1,0,0,0,0,0
333,,여,2,0,0,0,0,0,0,0,1,0,0,0,0,1,0,0,0
334,110세 이상,계,57,9,1,1,4,2,4,1,5,2,5,4,3,9,6,1,0
335,,남,11,3,0,0,0,0,0,0,1,0,1,0,2,3,1,0,0
336,,여,46,6,1,1,4,2,4,1,4,2,4,4,1,6,5,1,0


In [16]:
people.describe()     # 범주형 데이터 요약. cf 수치형 데이터

Unnamed: 0,연 령,Unnamed: 1,중랑구,면목본동,면목2동,면목제3.8동,면목4동,면목5동,면목제7동,상봉제1동,상봉제2동,중화제1동,중화제2동,묵제1동,묵제2동,망우본동,망우제3동,신내1동,신내2동
count,112,336,337,337,337,337,337,337,337,337,337,337,337,337,337,337,337,337,337
unique,112,3,314,224,211,200,190,164,198,195,191,178,215,216,176,213,179,228,191
top,107세 - 107세,계,6,1,0,0,0,0,0,0,0,0,0,1,0,1,0,0,0
freq,1,112,4,14,24,21,23,37,23,32,25,31,21,19,24,17,20,17,27


describe() 보충 - 범주형 데이터
* count : 데이터의 개수
* unique : 중복을 제외한 데이터 개수
* top : 가장 많은 빈도수를 갖는 데이터
* freq : 가장 많은 빈도수를 갖는 데이터의 빈도수

In [17]:
people.isnull().sum() # 결측치(missing data). 즉 비어있어 측정되지 못하는 데이터가 몇 개인지 확인.

연    령        225
Unnamed: 1      1
중랑구             0
면목본동            0
면목2동            0
면목제3.8동         0
면목4동            0
면목5동            0
면목제7동           0
상봉제1동           0
상봉제2동           0
중화제1동           0
중화제2동           0
묵제1동            0
묵제2동            0
망우본동            0
망우제3동           0
신내1동            0
신내2동            0
dtype: int64