## Section 01 파이썬 데이터 분석 라이브러리 활용하기

### NumPy
수치 데이터 다룰 때 사용
1. np.ndarray : NumPy의 다차원 배열 객체 클래스
2. np.array(): np.ndarray 객체를 생성하는 함수

In [None]:
import numpy as np

a = np.array([1, 2, 3, 4, 5])
b = np.array(['대한민국', '포르투갈', '가나', '우루과이'])
c = np.array([1, 2, '대한민국', '포르투갈']) # 📌 숫자와 문자열을 같이 사용해서 ndarray를 만들 경우 각 원소를 문자열로 인식한다.

print(a)
print(b)
print(c)

[1 2 3 4 5]
['대한민국' '포르투갈' '가나' '우루과이']
['1' '2' '대한민국' '포르투갈']


### Pandas
데이터 배열이나 tabular data 등의 자료구조를 다룰 때 사용

### Pandas의 기본 자료구조
1. 시리즈(Series) : 데이터프레임의 하위 자료형으로 1차원 배열(데이터프레임의 하나의 column)
2. 데이터프레임(DataFrame) : 행과 열로 구성된 2차원 표

In [None]:
import pandas as pd

s=pd.Series(['대한민국', '포르투갈', '가나', '우루과이'], index=['가', '나', '다', '라'], name="2022 카타르월드컵 H조")

print(s)

가    대한민국
나    포르투갈
다      가나
라    우루과이
Name: 2022 카타르월드컵 H조, dtype: object


In [None]:
# 딕셔너리 형으로 데이터프레임 생성하기 => 각 원소가 열을 구성함
a1 = pd.DataFrame({"a": [1, 2, 3], "b": [4, 5, 6], "c": [7, 8, 9]})
print(a1)

# 리스트 형으로 데이터프레임 생성하기 => 각 원소가 행을 구성함
# a2 = pd.DataFrame([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
a2 = pd.DataFrame([[1, 2, 3], [4, 5, 6], [7, 8, 9]], ["a", "b", "c"])
print(a2)

   a  b  c
0  1  4  7
1  2  5  8
2  3  6  9
   0  1  2
a  1  2  3
b  4  5  6
c  7  8  9


## Section 02 Pandas에서 데이터 불러오기

In [None]:
flight = pd.read_csv('./Clean_Dataset.csv', encoding = "cp949")
flight

Unnamed: 0.1,Unnamed: 0,airline,flight,source_city,departure_time,stops,arrival_time,destination_city,class,duration,days_left,price
0,0,SpiceJet,SG-8709,Delhi,Evening,zero,Night,Mumbai,Economy,2.17,1,5953
1,1,SpiceJet,SG-8157,Delhi,Early_Morning,zero,Morning,Mumbai,Economy,2.33,1,5953
2,2,AirAsia,I5-764,Delhi,Early_Morning,zero,Early_Morning,Mumbai,Economy,2.17,1,5956
3,3,Vistara,UK-995,Delhi,Morning,zero,Afternoon,Mumbai,Economy,2.25,1,5955
4,4,Vistara,UK-963,Delhi,Morning,zero,Morning,Mumbai,Economy,2.33,1,5955
...,...,...,...,...,...,...,...,...,...,...,...,...
300148,300148,Vistara,UK-822,Chennai,Morning,one,Evening,Hyderabad,Business,10.08,49,69265
300149,300149,Vistara,UK-826,Chennai,Afternoon,one,Night,Hyderabad,Business,10.42,49,77105
300150,300150,Vistara,UK-832,Chennai,Early_Morning,one,Night,Hyderabad,Business,13.83,49,79099
300151,300151,Vistara,UK-828,Chennai,Early_Morning,one,Evening,Hyderabad,Business,10.00,49,81585


## Section 03 데이터 저장하기

In [None]:
a2 = pd.DataFrame([[1,2,3],[4,5,6],[7,8,9]], ["a","b","c"])
a2

Unnamed: 0,0,1,2
a,1,2,3
b,4,5,6
c,7,8,9


In [None]:
a2.to_csv('./result_a2.csv')

In [None]:
result=pd.read_csv('./result_a2.csv', encoding="cp949")
result

Unnamed: 0.1,Unnamed: 0,0,1,2
0,a,1,2,3
1,b,4,5,6
2,c,7,8,9


In [None]:
# read_csv 함수의 parameter를 이용해 csv 파일에서 원하는 column만 가지고 데이터프레임 만들기

flight2 = pd.read_csv('./Clean_Dataset.csv', # 📌 usecols는 index_col로 설정한 칼럼명을 반드시 포함해야 한다.
                      index_col='stops', usecols=['stops', 'departure_time', 'arrival_time', 'destination_city'])
flight2

Unnamed: 0_level_0,departure_time,arrival_time,destination_city
stops,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
zero,Evening,Night,Mumbai
zero,Early_Morning,Morning,Mumbai
zero,Early_Morning,Early_Morning,Mumbai
zero,Morning,Afternoon,Mumbai
zero,Morning,Morning,Mumbai
...,...,...,...
one,Morning,Evening,Hyderabad
one,Afternoon,Night,Hyderabad
one,Early_Morning,Night,Hyderabad
one,Early_Morning,Evening,Hyderabad


In [None]:
# crosstab : 범주형 데이터 2개를 비교 분석할 때 사용
pd.crosstab(index=flight["source_city"], columns=flight["arrival_time"])
#pd.crosstab(index=flight.source_city"], columns=flight.arrival_time)

arrival_time,Afternoon,Early_Morning,Evening,Late_Night,Morning,Night
source_city,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Bangalore,6992,3154,14493,2673,10411,14338
Chennai,5152,1606,10830,1999,7106,12007
Delhi,8007,5262,14630,2143,13007,18294
Hyderabad,4816,1581,10539,2092,8854,12924
Kolkata,5941,2156,11304,2414,9595,14937
Mumbai,7231,1658,16527,2680,13762,19038
