## **Carregamento de dados e obtenção de informações básicas**

In [None]:
import pandas as pd

In [None]:
arquivo = pd.read_csv("db.csv", sep=';') #dataframe
arquivo.head() #opção: .tail() - exibe os ultimos registros do dataframe

In [None]:
type(arquivo)

In [None]:
arquivo.dtypes

In [None]:
arquivo.info()

In [None]:
arquivo.tail()

In [None]:
arquivo.describe()

In [None]:
arquivo.Ano

In [None]:
arquivo['Ano'].value_counts()

**Utilizar uma coluna como índice**

In [None]:
len(arquivo['Nome'].unique())

In [None]:
arquivo['Ano'].unique()

In [None]:
dados = pd.read_csv('db.csv', sep=';', index_col=0)
dados

## **Fazendo seleções de dados**

In [None]:
dados.columns

In [None]:
dados['Motor'] #série, pois só tem uma dimensão

In [None]:
type(dados['Motor'])

In [None]:
type(dados)

In [None]:
dados[['Ano', 'Valor', 'Motor']] #[ [item1, item2, item3, ..., item n] ]

In [None]:
dados[['Valor']] #Visualização de série como dataframe

**Fatiamentos (slices)**

In [None]:
dados[0:3]

In [None]:
dados[['Motor', 'Valor']][0:3]

In [None]:
[i for i in range(10)] # gera uma lista com 10 elementos que vão de zero a 9.

In [None]:
#dados[[0, 9, 257]][['Motor', 'Valor']], o indice nao é mais numerico
#dados[['Passat']][['Motor', 'Valor']]

**.loc para seleções**

Seleciona um grupo de linhas e colunas segundo os rótulos ou uma matriz booleana

In [None]:
dados.loc['Passat'] #loc -> localization

In [None]:
dados.loc[['Passat', 'DS5']]

In [None]:
dados.loc[['Passat', 'DS5'], ['Motor', 'Valor']]

In [None]:
dados.loc[:, ['Motor', 'Valor']]

**.iloc para seleções**

Seleciona com base nos índices, ou seja, se baseia na posição das informações

In [None]:
dados.iloc[1] #iloc -> index localization

In [None]:
#dados.loc[['Passat', 'DS5'], ['Motor', 'Valor']]
dados.iloc[[1, 3], [0, -1]]

## **Queries nos dados**

In [None]:
#selecionar os carros com motor a diesel
selecao = dados['Motor'] == 'Motor Diesel'
selecao

In [None]:
dados[selecao].head()

In [None]:
#seleção com mais de uma condição (&-and, |-or)
selecao = (dados['Motor'] == 'Motor Diesel') & (dados['Valor'] < 80000)

In [None]:
dados[selecao]

In [None]:
dados[selecao][['Valor', 'Ano']]

**Método query**

In [None]:
#or, &, |
#selecao = (dados['Motor'] == 'Motor Diesel') & (dados['Valor'] < 80000)
dados.query('Motor=="Motor Diesel" and Valor<80000')

## **Iterando nos dados**

In [None]:
l = [10, 20, 30, 50, -100]

In [None]:
# como nao fazer!


In [None]:
for i in l: #for-each - uma iteração para cada elemento
    print(i)

In [None]:
#for i in range(start=0, stop=obrigatorio, step=1)
for i in range(5):
    print(l[i])

In [None]:
#iterar em dataframes
#como não fazer
for item in dados:
    print(item)

In [None]:
#como fazer
list(dados.iterrows())

In [None]:
for id, row in dados.iterrows():
    print(id, row)

**Exemplo**: Calcular a quilometragem média anual

In [None]:
#kmetrage/(anoAtual - anoFabricação)
ano_atual = 2019
for id, row in dados.iterrows():
    anos_rodando = ano_atual - row['Ano']
    if anos_rodando != 0:
        dados.loc[id, 'Km_media'] = row['Quilometragem']/anos_rodando
    else:
        dados.loc[id, 'Km_media'] = 0

dados.head()

**Existem outras formas de iterar**, pesquisar por .itertuples() e .items()

## **Tratamento de dados**

In [None]:
dados.head()

In [None]:
dados.info()
'''
Quilometragem tem 197 infos nao-nulas, teria problema para modelos de machine learning
'''

In [None]:
# NaN -> Not a Number
selecao = dados['Quilometragem'].isna() # isna() verifica se existem valores do tipo NaN
dados[selecao]

In [None]:
dados.fillna(0) #preenche os NaN com 0

In [None]:
dados.fillna(0, inplace=True) #o inplace efetua de fato as alterações no dataframe

In [None]:
dados.head()

In [None]:
dados_tmp = pd.read_csv('db.csv', sep=';')
dados_tmp.head()

In [None]:
#dropna() -> apaga os registros com NaN na Quilometragem
dados_tmp.dropna(subset=['Quilometragem'])

In [None]:
dados_tmp.dropna(subset=['Quilometragem'], inplace=True)
dados_tmp.head()

**carregando dados originais**

In [None]:
dados_tmp['Ano'].hist()

In [None]:
dados_tmp[['Ano']].boxplot()

In [None]:
dados_tmp[['Ano']].plot.bar()

In [None]:
dados_tmp[['Ano']].mean()

In [None]:
dados_tmp[['Ano']].median()