### Acesso ao sistema de arquivos

In [None]:
import pandas as pd
#from gcsfs import GCSFileSystem
from s3fs import S3FileSystem

#gcs = GCSFileSystem(token='cloud', access='read_only')
s3 = S3FileSystem(anon=True)

details = s3.ls('cesarschool-data-samples/sample01')
print(details)

## `DataFrames`
### Carregamento do primeiro arquivo do diretório

In [None]:
with s3.open(details[1], 'rb') as f:
    df = pd.read_csv(f)
    

### Formato do `DataFrame`

In [None]:
# Tupla (num_linhas, num_colunas)
print(df.shape)
print(df.columns)

### Restrição de linhas

In [None]:
# Carregamento do primeiro arquivo do diretório
# Restrição de linhas carregadas
with s3.open(details[1], 'rb') as f:
    df = pd.read_csv(f, nrows=100)

In [None]:
print(df.shape)
print(df.columns)

### Primeiras n linhas

In [None]:
# Padrão: 5 linhas
print(df.head())

### Últimas n linhas

In [None]:
# Padrão: 5 linhas
print(df.tail())

### Ordenação por valores de campos

In [None]:
print(df.sort_values(by='timestamp').head(2))

In [None]:
print(df.sort_values(by='timestamp').tail())

In [None]:
print(df.head())

In [None]:
df.sort_values(by='timestamp', inplace=True)
print(df.head())

### Seleção de colunas

In [None]:
df_select = df[['country_code', 'user_id']]

In [None]:
df_select.shape

In [None]:
df_select.head()

In [None]:
df_select.tail()

### Filtragem

In [None]:
df_select[df_select['country_code'] == 'CA'].head()

In [None]:
df_select[(df_select['country_code'] == 'CA') & (df_select['lat'] > 50)].head()

### Agrupamentos, agregações, funções

In [None]:
print(df_select.groupby('country_code'))

In [None]:
print(df_select.groupby('country_code').describe())

In [None]:
print(df_select.groupby('country_code')['lat'].count())

In [None]:
print(df_select.groupby('country_code')['lat'].max())

In [None]:
print(df_select.groupby('country_code')['lat'].min())

In [None]:
print(df.groupby('country_code')['lat'].mean())

In [None]:
print(df_select.groupby('country_code')['user_id'].value_counts())

In [None]:
# GroupBy.agg: aplica função para cada coluna de cada grupo.
# Neste caso existe um grupo para cada país e apenas uma coluna
# por grupo: lat

def simple_function(x):
    return x.max()

print(df_select.groupby('country_code').agg(simple_function))

In [None]:
#Visualizando um agrupamento

%matplotlib inline
import matplotlib.pyplot as plt
plt.show(df_select.groupby('country_code')['user_id'].count().plot.bar())

## `Series`
### `Series` derivada de um `DataFrame`

In [None]:
timestamp_series = df['timestamp']

In [None]:
print(type(timestamp_series))

In [None]:
timestamp_series[0:5]

In [None]:
print(timestamp_series.head())

In [None]:
timestamp_series = pd.to_datetime(timestamp_series)
print(timestamp_series.tail())

In [None]:
print(timestamp_series.max())

In [None]:
print(timestamp_series.min())

In [None]:
print(timestamp_series.nlargest(2))

In [None]:
timestamp_series = pd.to_datetime(timestamp_series)
print(timestamp_series.nlargest())

In [None]:
len(timestamp_series)

In [None]:
len(timestamp_series.drop_duplicates())