### Exemplos

In [None]:
import pandas as pd
a = pd.Series([1,2,3,float('NaN'),None])
print(a.isnull())

In [None]:
base_dict = {'A':[1,2,float('NaN')], 'B':[float('NaN'),3,4]}
b = pd.DataFrame(base_dict)
print(b)
print(b.isnull())
print(b.notnull())
print(b.dropna())

### Carregamento de dados

In [None]:
# Identificação de valores nulos em um DataFrame
import pandas as pd
from s3fs import S3FileSystem
s3 = S3FileSystem(anon=True)

details = s3.ls('cesarschool-data-samples/sample01')

with s3.open(details[1], 'rb') as f:
    df = pd.read_csv(f)

### Identificação de valores nulos

In [None]:
# Quantidade total de registros
len(df)

In [None]:
# Quantidade de registros sem 
# nenhuma coluna nula
print(len(df.dropna()))
print(len(df))

In [None]:
# Quantidade de country_codes nulos
len(df[df['country_code'].isnull()])

In [None]:
# Quantidade de country_codes, lat e lng nulos ao mesmo tempo
len(df[(df['country_code'].isnull()) & (df['lat'].isnull()) & (df['lng'].isnull())])

In [None]:
# Quantidade de lat e lng nulos
print ((len(df[df['lat'].isnull()]),len(df[df['lng'].isnull()])))

# Quantidade de registros com lat nulos e lng não nulos
print(len(df[(df['lat'].isnull()) & (df['lng'].isnull())]))

In [None]:
# Quantidade de user_ids nulos
print (len(df[df['user_id'].isnull()]))

In [None]:
# Quantidade de timestamps nulos
print (len(df[df['timestamp'].isnull()]))

### Identificação de valores anômalos

In [None]:
print(df[['lat','lng']].describe())

In [None]:
print(df['country_code'].describe())
print(df['country_code'].unique())

In [None]:
print(df[(df['country_code'].isnull()) & 
         (df['lat'].notnull()) & 
         (df['lng'].notnull())][['lat','lng']].head())

In [None]:
import pandas as pd
df['timestamp'] = pd.to_datetime(df['timestamp'])
print(df['timestamp'].describe())
print(df['timestamp'].max())
print(df['timestamp'].min())

In [None]:
print(df.dtypes)

In [None]:
df['timestamp_datetime'] = pd.to_datetime(df['timestamp'])

In [None]:
print(df['timestamp_datetime'].describe())

In [None]:
import datetime
data = datetime.datetime(2017,11,11,12,0,0)
print(data)
print(data.year)
print(data.month)
print(data.day)

### Funções Lambda
* Funções lambda são funções anônimas em python
* Muito utilizadas. Eficientes com `map()` and `filter()`
* Funções lambda criam códigos que são chamados posteriormente, similar ao `def`
* Retorna funções sem nome

In [None]:
# Exemplo
double = lambda x: x ** 2
print(double(3))

In [None]:
# Comparação com def
#  - Funcões lambda não precisam de definição de retorno
#  - Podem ser aplicadas em qualquer lugar

def cube(x):
    return x ** 3
g = lambda x: x ** 3
print(g(10))
print(cube(10))

In [None]:
# Exemplos com map
# map(function, list)
items = [1, 2, 3, 4]
list(map(lambda x: x + 2 , items))

In [None]:
# Exemplos com filter
# filter(function, list)
items = [1, 2, 3, 4]
list(filter(lambda x: (x%2 != 0), items))

In [None]:
# Funcões lambda podem ser aplicadas as linhas de um pandas dataframe pelo apply
df['year'] = df['timestamp'].apply(lambda x: x.year)

In [None]:
df['year'].describe()

In [None]:
print(df[['year','timestamp']].groupby('year').count())