# Manipulação de Dados com Pandas I

## Importando os dados

Neste exemplo, trabalharemos com dados do ShoeFly.com, uma loja de calçados online fictícia. Podemos carregar dados no Pandas de um arquivo csv (variável separada por vírgula). Esses dados representam compras no ShoeFly.com. Vamos examinar as primeiras 10 linhas do nosso conjunto de dados:

In [None]:
import pandas as pd
df = pd.read_csv('shoefly_orders.csv')
df.head(10)

Note que o dataframe tem uma sequência de identificadores, os índices, mesmo tendo um outro identificador, o `id`, nesse exemplo. 

Poderíamos setar o índice para ser justamente esse `id`, com o comando a seguir: 

In [None]:
# solução
df.set_index('id')

Para retroceder e colocar o índice numérico como estava, basta:

In [None]:
df.reset_index()

Veja que surgiu uma coluna extra, caso não precise, você pode acrescentar a flag `drop=True` (use `inplace=True` se não quiser retornar para uma nova variável)

In [None]:
df.reset_index(drop=True, inplace=True)
df

In [None]:
df.to_excel('shoefly_orders.xlsx', index=False)

Se você não sabe o nome das colunas para pesquisar, pode obter com o seguinte comando:

In [None]:
# solução

Para obter informações completas e detalhadas (para devs!), basta rodar o seguinte comando:

In [None]:
# solução

## Extraindo as primeiras informações

Se você quiser apenas os e-mails de todos os clientes, basta selecionar pela coluna:

In [None]:
# solução

Ou selecionar nome, sobrenome e email, o que faz mais sentido:

In [None]:
# solução

Podemos selecionar todos que pediram sandálias pretas.

In [None]:
df[(df.shoe_type == 'sandals') & (df.shoe_color == 'black')]

Ou quem pediu algum calçado branco ou preto?

In [None]:
# df[(df.shoe_color == 'white') | (df.shoe_color == 'black')]
df[df.shoe_color.isin(['white', 'black'])]

Vamos ver o que Susan Dennis pediu.

In [None]:
df[(df.first_name == 'Susan') & (df.last_name == 'Dennis')]

Ainda é possível acessar diretamente usando `loc` ou `iloc`:

In [None]:
df.loc[(df.shoe_type == 'sandals') & (df.shoe_color == 'black'), ['id', 'shoe_material' ]]

In [None]:
df.iloc[1,4]
print(df.iloc[[0,2,5], 2])

Para criar novas colunas com valores baseados em condições usando função lambda, vamos ao seguinte exemplo: Muitos dos nossos clientes querem comprar sapatos veganos (sapatos feitos de materiais que não vêm de animais). Adicione uma nova coluna chamada `shoe_source`, que é `vegan` se os materiais não forem `leather` e `animal` caso contrário.

In [None]:
df['shoe_source'] = df.shoe_material.apply(lambda x: 'vegan' if x != 'leather' else 'animal')
df.head()

## Operando Strings

Similares as funções nativas de Python, temos como saber o tamanho, rebaixar para minúsculas ou aumentar para maiúsculas, fazer replace, verificar se contém, ou ainda fazer split, sempre a partir da propriedade `str`:

In [None]:
# solução

## Exercícios

In [None]:
# Exercício 1


In [None]:
# Exercício 2


In [None]:
# Exercício 3