## Spocle Game 만들기
- Pandas 사용에 대해 Study 
- 마지막에 Spocle Game 만들어 보기 -> 미국 50개 주 맞추기!

### 1. 파이썬에서 CSV 데이터 읽기 
- weather_data.csv 파일을 받고, 읽기
- 판다스를 이용해보자!

#### CSV는 Comma Separated Values의 줄임말로 콤마로 분류하는 데이터를 말함

In [2]:
# 다운로드 받은 weather_data.csv를 받아서 파일을 열어보자! 

with open('./data/weather_data.csv') as weather_file:
    weather = weather_file.readlines()
    print(weather)

['day,temp,condition\n', 'Monday,12,Sunny\n', 'Tuesday,14,Rain\n', 'Wednesday,15,Rain\n', 'Thursday,14,Cloudy\n', 'Friday,21,Sunny\n', 'Saturday,22,Sunny\n', 'Sunday,24,Sunny']


In [4]:
# 또는 모듈을 사용해서도 가능 
import csv 

with open('./data/weather_data.csv') as weather_file:
    weather = csv.reader(weather_file)
    for row in weather:
        print(row)

['day', 'temp', 'condition']
['Monday', '12', 'Sunny']
['Tuesday', '14', 'Rain']
['Wednesday', '15', 'Rain']
['Thursday', '14', 'Cloudy']
['Friday', '21', 'Sunny']
['Saturday', '22', 'Sunny']
['Sunday', '24', 'Sunny']


In [13]:
# 그럼 행에서 temp 데이터만 뽑아보자 - temp라는 컬럼 제외 
import csv 

with open('./data/weather_data.csv') as weather_file:
    weather = csv.reader(weather_file)
    temperaters = []
    for row in weather:
        if row[1] != "temp":           # 첫 번째 인덱스가 컬럼의 레이블인 "temp"와 같지 않다면
            temperaters.append(int(row[1]))     # 요소들을 빈 리스트에 저장
    print(temperaters)

[12, 14, 15, 14, 21, 22, 24]


#### Pandas 사용하기 
- 참고: [pandas document](https://pandas.pydata.org/docs/)

In [44]:
import pandas as pd  # 모듈 선언

# 판다스 모듈 선언 후 사용하기 
data = pd.read_csv('./data/weather_data.csv')   # 판다스로 데이터 불러오기 
data

Unnamed: 0,day,temp,condition
0,Monday,12,Sunny
1,Tuesday,14,Rain
2,Wednesday,15,Rain
3,Thursday,14,Cloudy
4,Friday,21,Sunny
5,Saturday,22,Sunny
6,Sunday,24,Sunny


In [2]:
# 만약 temp 데이터만 뽑고자 한다면?
data["temp"]

0    12
1    14
2    15
3    14
4    21
5    22
6    24
Name: temp, dtype: int64

### 2. Dataframe과 시리즈: 행과 열 

- type 메소드를 사용해서 데이터 타입을 확인해보니, pandas DataFrame 오브젝트를 갖게 되는 것을 확인할 수 있다.
- 판다스의 두 가지 주요 데이터 구조인 Series와 DataFrame을 언급함.

In [4]:
# 작업하고 있는 객체 유형 확인
print(type(data))

<class 'pandas.core.frame.DataFrame'>


In [5]:
# 데이터 프레임 확인 
data

Unnamed: 0,day,temp,condition
0,Monday,12,Sunny
1,Tuesday,14,Rain
2,Wednesday,15,Rain
3,Thursday,14,Cloudy
4,Friday,21,Sunny
5,Saturday,22,Sunny
6,Sunday,24,Sunny


- DataFrame은 엑셀과 같이 표 형식으로 되어 있는 데이터 타입이다.

In [6]:
# 작업하고 있는 객체 유형 확인
type(data["temp"])

pandas.core.series.Series

In [7]:
data["temp"]

0    12
1    14
2    15
3    14
4    21
5    22
6    24
Name: temp, dtype: int64

- Series는 판다스에서 아주 중요한 개념인데, 기본적으로 리스트와 같은 것이다. 
- 표에서 한 열과 같은 것인데, 위에서 조회한 'temp'열의 row는 시리즈라고 할 수 있다.

#### 판다스의 각종 메소드 사용 예시

In [8]:
# 딕셔너리 형식으로 변경 
data_dict = data.to_dict()
print(data_dict)

{'day': {0: 'Monday', 1: 'Tuesday', 2: 'Wednesday', 3: 'Thursday', 4: 'Friday', 5: 'Saturday', 6: 'Sunday'}, 'temp': {0: 12, 1: 14, 2: 15, 3: 14, 4: 21, 5: 22, 6: 24}, 'condition': {0: 'Sunny', 1: 'Rain', 2: 'Rain', 3: 'Cloudy', 4: 'Sunny', 5: 'Sunny', 6: 'Sunny'}}


In [9]:
# temp의 시리즈를 list 형식으로 변환 
temp_list = data['temp'].to_list()
print(temp_list)

[12, 14, 15, 14, 21, 22, 24]


In [14]:
# 과제 1 - 온도 열의 평균값 구하기 
temp_avg = sum(temp_list) / len(temp_list)
print(temp_avg)

17.428571428571427


In [15]:
# 과제 1의 또다른 방법, mean()메소드 사용 
print(data['temp'].mean())

17.428571428571427


In [17]:
# 과제 2 - 온도 열에서의 최고값 찾기 
print(data['temp'].max())

24


#### 컬럼으로 데이터 조회

In [19]:
# 컬럼을 통해 데이터 얻기 1
print(data['condition'])

0     Sunny
1      Rain
2      Rain
3    Cloudy
4     Sunny
5     Sunny
6     Sunny
Name: condition, dtype: object


In [20]:
# 컬럼을 통해 데이터 얻기 2
data.condition

0     Sunny
1      Rain
2      Rain
3    Cloudy
4     Sunny
5     Sunny
6     Sunny
Name: condition, dtype: object

#### Row를 통해 데이터 얻기

In [25]:
# Row에서 데이터 얻는 법  1
data[data['day'] == 'Monday']

Unnamed: 0,day,temp,condition
0,Monday,12,Sunny


In [24]:
# Row에서 데이터 얻는 법 2
print(data[data.day == 'Monday'])

      day  temp condition
0  Monday    12     Sunny


In [35]:
# 과제 3 - 온도가 가장 높은 데이터가 있는 행을 추출 1
data[data['temp'] == data['temp'].max()]

Unnamed: 0,day,temp,condition
6,Sunday,24,Sunny


In [36]:
# 과제 3 - 온도가 가장 높은 데이터가 있는 행을 추출 2
data[(data.temp == data.temp.max())]

Unnamed: 0,day,temp,condition
6,Sunday,24,Sunny


In [39]:
# 특정 행의 온도나 특정 행의 날씨를 상태를 원할 경우 
monday = data[data.day == 'Monday']
print(monday.condition)

0    Sunny
Name: condition, dtype: object


In [54]:
# 과제 4 - 섭씨로 표시되어 있는 월요일 온도를 화씨로 바꾸자 
# 화씨 계산 법 - (섭씨 X 1.8(9/5)) + 32

monday_temp = monday.temp
monday_temp_F = monday_temp * 9/5 + 32
monday_temp_F

0    53.6
Name: temp, dtype: float64

####  데이터프레임 만드는 방법

In [55]:
# 방법 1 - 딕셔너리 
data_dict = {
    "students": ["Amy", "James", "Gilbert"],
    "score": [76, 56, 65]
}

# 데이터프레임 생성 
student_data = pd.DataFrame(data_dict)
student_data

Unnamed: 0,students,score
0,Amy,76
1,James,56
2,Gilbert,65


In [None]:
# csv 파일로 저장 
student_data.to_csv("student_data.csv")

### 3. 센트럴 파크 다람쥐 데이터 분석 
- 자료 출처: [NYC Open Data](https://data.cityofnewyork.us/Environment/2018-Central-Park-Squirrel-Census-Squirrel-Data/vfnx-vebw)
- 뉴욕 센트럴 파크에 살고 있는 다람쥐 데이터를 이용해서 데이터 분석 

#### 과제 
1. 얼마나 많은 회색 다람쥐가 있는가?
2. 얼마나 많은 시나몬색 다람쥐가 있는가?
3. 얼마나 많은 검정색 다람쥐가 있는가?
4. 새로운 데이터 프레임을 만들고, 최종 csv 파일을 만들기

In [67]:
# 데이터 불러오기 
import pandas as pd 

data = pd.read_csv('data/2018_Central_Park_Squirrel_Census_-_Squirrel_Data.csv')
data.head(5)

# 다람쥐 색상 컬럼에서 색상별로 데이터 확인
data['Primary Fur Color'].value_counts()

# 확인된 데이터를 데이터 프레임으로 만든 후 csv 파일로 저장
color_data = {
    "Primary Fur Color": ["Gray", "Cinnamon", "Black"],
    "Count": [2473, 392, 103]
}
color_data = pd.DataFrame(color_data)
color_data.to_csv('data/squirrel_count.csv')