In [None]:
# Pandas Basics : Pandasの基礎
# Pandas DataFrames：Pandasデータフレーム
# Pandas is a high-level data manipulation tool developed by Wes McKinney. 
# It is built on the Numpy package and its key data structure is called the DataFrame. DataFrames allow you to store and manipulate tabular data in rows of observations and columns of variables.
# There are several ways to create a DataFrame. One way way is to use a dictionary. For example:

# Pandasは Wes Mckinneyさんによって開発された、ハイレベルのデータマニュピレーションツールです。
# Numpy package上で構築されており、key data structureは DataFrame(データフレーム)と呼ばれます。
# DataFrame(データフレーム)は観測値の行と変数の列を含む表形式のデータを保存および操作することができます。
# DataFrame(データフレーム)の作り方はいくつかありますが、1つはdictionaryを使うことです。

dict = {"country": ["Brazil", "Russia", "India", "China", "South Africa"],
       "capital": ["Brasilia", "Moscow", "New Dehli", "Beijing", "Pretoria"],
       "area": [8.516, 17.10, 3.286, 9.597, 1.221],
       "population": [200.4, 143.5, 1252, 1357, 52.98] }# dictionaryの中に、国、首都、面積、人口の列が入ってる

import pandas as pd
brics = pd.DataFrame(dict)
print(brics)

# pandasを pd という名前でインポートしてる
#'dict'という名前の辞書からDataFrameを作成、このDataFrameは、辞書のキーが列の名前となり、それぞれのキーに対応するリストが列のデータとなる　
# 作成したDataFrame 'brics' を出力する。出力すると、インデックスに番号が振られ、国、首都、面積、人口が列として表示された表が得られる

In [None]:
# As you can see with the new brics DataFrame, 
# Pandas has assigned a key for each country as the numerical values 0 through 4. 
# If you would like to have different index values, say, the two letter country code, 
# you can do that easily as well.

# 作成されたbrics DataFrameを見ると、各国に対して0から4までの数値をキーとして割り当てています。
# もし、2文字の国コードのような異なるインデックス値を設定したい場合、それも簡単に行うことができます。

# Set the index for brics
brics.index = ["BR", "RU", "IN", "CH", "SA"] #0,1,2,3,4のところがそれぞれこの2文字に変わる

# Print out brics with new index values
print(brics)

In [None]:
# Another way to create a DataFrame is by importing a csv file using Pandas. Now, the csv cars.csv is stored and can be imported using pd.read_csv:

# DataFrameを作る別の方法として、Pandasを使ってCSVファイルをインポートする方法もあります。
# これはcsvファイル cars.csv が保存されており、pd.read_csv を使ってインポートすることができます。

# Import pandas as pd　pandasをpdという名前でインポートしてる
import pandas as pd

# Import the cars.csv data: carsという名前でcars.csv をインポートしている
cars = pd.read_csv('cars.csv')

# Print out cars　carsを出力
print(cars)

In [None]:
# Indexing DataFrames　DataFrameのインデックス指定
# There are several ways to index a Pandas DataFrame. 
# One of the easiest ways to do this is by using square bracket notation.

# In the example below, you can use square brackets to select one column of the cars DataFrame. 
# You can either use a single bracket or a double bracket. 
# The single bracket will output a Pandas Series, while a double bracket will output a Pandas DataFrame.

# Pandas DataFrameをインデックス指定する方法はいくつかありますが、もっとも簡単な方法の一つは [] を使用することです。

# この例では、[] を使ってcars DataFrameの一つの列を選択することができます。
# 単一の[] を使用することも、[[]]を使用することもできます。
# []を使用するとPandas Seriesが出力され、[[]] を使用するとPandas DataFrameが出力されます。

# pandasとcars.csvをインポート
import pandas as pd
cars = pd.read_csv('cars.csv', index_col = 0)

# country列をPandas Seriesとして出力
print(cars['country'])

# country列をPandas DataFrameとして出力
print(cars[['country']])

# countryとdrives_right列を含むDataFrameを出力
print(cars[['country', 'drives_right']])

In [None]:
# Square brackets can also be used to access observations (rows) from a DataFrame. For example:
# [] は DataFrameのから観測値(行)にアクセスすることもできます。
# 例えば

# Import cars data データをインポート
import pandas as pd
cars = pd.read_csv('cars.csv', index_col = 0)

# Print out first 4 observations 最初の4つの観測値を出力
print(cars[0:4])

# Print out fifth and sixth observation 5番目と6番目の観測値を出力
print(cars[4:6])

In [None]:
# You can also use loc and iloc to perform just about any data selection operation. 
# loc is label-based, which means that you have to specify rows and columns based on their row and column labels. 
# iloc is integer index based, so you have to specify rows and columns by their integer index like you did in the previous exercise.

# データを選択したり操作するために、loc と iloc を使うこともできます。
# loc はラベルベースであり、つまり行と列をそれぞれの行と列のラベルに基づいて指定する必要があります。
# iloc はinteger indec(整数インデックス)ベースで、前の演習で行ったように、
# 行と列をそれぞれのinteger indec(整数インデックス)によって指定する必要があります。

# Import cars data データをインポート
import pandas as pd
cars = pd.read_csv('cars.csv', index_col = 0) 

# Print out observation for Japan 
# 3番目の観測値（整数インデックス2に対応する行）を選択 Japan を出力
print(cars.iloc[2])

# Print out observations for Australia and Egypt 
# loc を使って、「AUS」と「EG」のラベルを持つ行を出力する
print(cars.loc[['AUS', 'EG']])

In [None]:
import pandas as pd
cars = pd.read_csv('cars.csv', index_col = 0) 
print(cars.iloc[2])
print(cars.loc[['AUS', 'EG']])

with open("cars.csv") as f: print(f.read())

In [None]:
cars.csv #の中身はこうやってみれる
with open("cars.csv") as f: print(f.read())

#結果,cars_per_cap,country,drives_right
US,809,United States,True
AUS,731,Australia,False
JAP,588,Japan,False
IN,18,India,False
RU,200,Russia,True
MOR,70,Morocco,True
EG,45,Egypt,True