# **파이썬 데이터 분석 라이브러리 소개 및 활용법**
### **넘파이(Numpy)**
* 수치 데이터를 다루는 데에 활용하는 파이썬 라이브러리
* n차원 행렬 자료구조 np.array를 사용하여 배열,행렬계싼 등을 간편하고 빠르게 실행할 수 있음
* np라는 별칭 사용

### **판다스(Pandas)**
* 데이터 배열이나 테이블 형태의 데이터 등의 자료 구조를 처리하기 위한 라이브러리
* 많이 사용하는 자료 구조
  * 시리즈(Series)
    * 1차원으로 구성된 데이터 배열
    * `변수명 = pd.Series([data], index=[], name="")` 으로 생성
  * 데이터프레임(DataFrame)
    * 행과 열로 구성된 2차원 데이터 테이블
    * 딕셔너리 형태로 `변수명 = pd.DataFrame({"" : [], "" : [], "" : []})` 생성 가능
    * 리스트 형태로 `변수명 = pd.DataFrame([],[])`도 생성 가능

In [2]:
import numpy as np

a = np.array([1,2,3,4,5])
b = np.array(['대한민국', '포르투갈', '가나', '우루과이'])
c = np.array([1,2,'대한민국', '포르투갈'])

print(a)
print(b)
print(c)

[1 2 3 4 5]
['대한민국' '포르투갈' '가나' '우루과이']
['1' '2' '대한민국' '포르투갈']


In [4]:
import pandas as pd

#시리즈
s = pd.Series(['대한민국','포르투갈','가나','우루과이'], index=['가','나','다','라'], name = "2022 카타르월드컵 H조")

print(s)

가    대한민국
나    포르투갈
다      가나
라    우루과이
Name: 2022 카타르월드컵 H조, dtype: object


In [5]:
#딕셔너리 형태의 데이터프레임
a1 = pd.DataFrame({"a":[1,2,3], "b":[4,5,6], "c":[7,8,9]})
a1

Unnamed: 0,a,b,c
0,1,4,7
1,2,5,8
2,3,6,9


In [7]:
#리스트 형태의 데이터프레임
#data, index순서
a2 = pd.DataFrame([[1,2,3],[4,5,6],[7,8,9]], ["a","b","c"])
a2

Unnamed: 0,0,1,2
a,1,2,3
b,4,5,6
c,7,8,9


# **데이터 불러오기**

In [None]:
import pandas as pd
import numpy as np

In [None]:
#데이터 불러오기
flight = pd.read_csv('/content/Clean_Dataset.csv', encoding = "cp949")
flight

Unnamed: 0.1,Unnamed: 0,airline,flight,source_city,departure_time,stops,arrival_time,destination_city,class,duration,days_left,price
0,0,SpiceJet,SG-8709,Delhi,Evening,zero,Night,Mumbai,Economy,2.17,1,5953
1,1,SpiceJet,SG-8157,Delhi,Early_Morning,zero,Morning,Mumbai,Economy,2.33,1,5953
2,2,AirAsia,I5-764,Delhi,Early_Morning,zero,Early_Morning,Mumbai,Economy,2.17,1,5956
3,3,Vistara,UK-995,Delhi,Morning,zero,Afternoon,Mumbai,Economy,2.25,1,5955
4,4,Vistara,UK-963,Delhi,Morning,zero,Morning,Mumbai,Economy,2.33,1,5955
...,...,...,...,...,...,...,...,...,...,...,...,...
300148,300148,Vistara,UK-822,Chennai,Morning,one,Evening,Hyderabad,Business,10.08,49,69265
300149,300149,Vistara,UK-826,Chennai,Afternoon,one,Night,Hyderabad,Business,10.42,49,77105
300150,300150,Vistara,UK-832,Chennai,Early_Morning,one,Night,Hyderabad,Business,13.83,49,79099
300151,300151,Vistara,UK-828,Chennai,Early_Morning,one,Evening,Hyderabad,Business,10.00,49,81585


In [None]:
#데이터 가공하기
flight2 = pd.read_csv('/content/Clean_Dataset.csv', index_col ='stops', usecols =['stops','departure_time','arrival_time','destination_city'])
flight2

Unnamed: 0_level_0,departure_time,arrival_time,destination_city
stops,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
zero,Evening,Night,Mumbai
zero,Early_Morning,Morning,Mumbai
zero,Early_Morning,Early_Morning,Mumbai
zero,Morning,Afternoon,Mumbai
zero,Morning,Morning,Mumbai
...,...,...,...
one,Morning,Evening,Hyderabad
one,Afternoon,Night,Hyderabad
one,Early_Morning,Night,Hyderabad
one,Early_Morning,Evening,Hyderabad


In [None]:
#데이터프레임에서 범주형 데이터 2개 비교분석
pd.crosstab(index=flight2.destination_city, columns=flight2.arrival_time)

arrival_time,Afternoon,Early_Morning,Evening,Late_Night,Morning,Night
destination_city,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Bangalore,4827,1823,13937,3176,11246,16059
Chennai,2731,3481,9318,975,10680,13183
Delhi,10206,536,13940,6296,10338,16044
Hyderabad,6318,3822,10498,555,7511,14022
Kolkata,5540,2377,17917,1230,11982,10488
Mumbai,8517,3378,12713,1769,10978,21742


In [None]:
#가공된 데이터프레임 csv 파일로 새로 저장하기
flight2.to_csv('./result_flight2.csv')