# Getting and Knowing Your Data

## Chipotle data

### Passo 1 (Importar as bibliotecas)

In [1]:
import numpy as np
import pandas as pd

### Passo 2 (Copiar a URL dos dados para uma variável)

In [2]:
url = 'https://raw.githubusercontent.com/justmarkham/DAT8/master/data/chipotle.tsv'
url

'https://raw.githubusercontent.com/justmarkham/DAT8/master/data/chipotle.tsv'

### Passo 3 (Criar uma variável chipo com o conteúdo da url no formato de dataframe)

Para isso temos que usar o comando `pd.read_csv`!


O parâmetro __sep__ no comando `pd.read_csv` do Pandas é usado para especificar o delimitador que separa os valores nas colunas de um arquivo CSV. O delimitador padrão é a vírgula (,), mas muitos arquivos CSV podem usar outros caracteres como tabulações (\t), pontos e vírgulas (;), ou espaços ( ).

In [3]:
chipo = pd.read_csv(url, sep = '\t')
chipo

Unnamed: 0,order_id,quantity,item_name,choice_description,item_price
0,1,1,Chips and Fresh Tomato Salsa,,$2.39
1,1,1,Izze,[Clementine],$3.39
2,1,1,Nantucket Nectar,[Apple],$3.39
3,1,1,Chips and Tomatillo-Green Chili Salsa,,$2.39
4,2,2,Chicken Bowl,"[Tomatillo-Red Chili Salsa (Hot), [Black Beans...",$16.98
...,...,...,...,...,...
4617,1833,1,Steak Burrito,"[Fresh Tomato Salsa, [Rice, Black Beans, Sour ...",$11.75
4618,1833,1,Steak Burrito,"[Fresh Tomato Salsa, [Rice, Sour Cream, Cheese...",$11.75
4619,1834,1,Chicken Salad Bowl,"[Fresh Tomato Salsa, [Fajita Vegetables, Pinto...",$11.25
4620,1834,1,Chicken Salad Bowl,"[Fresh Tomato Salsa, [Fajita Vegetables, Lettu...",$8.75


### Passo 4 (Verificar os 10 primeiros dados)

In [4]:
chipo.head(10)

Unnamed: 0,order_id,quantity,item_name,choice_description,item_price
0,1,1,Chips and Fresh Tomato Salsa,,$2.39
1,1,1,Izze,[Clementine],$3.39
2,1,1,Nantucket Nectar,[Apple],$3.39
3,1,1,Chips and Tomatillo-Green Chili Salsa,,$2.39
4,2,2,Chicken Bowl,"[Tomatillo-Red Chili Salsa (Hot), [Black Beans...",$16.98
5,3,1,Chicken Bowl,"[Fresh Tomato Salsa (Mild), [Rice, Cheese, Sou...",$10.98
6,3,1,Side of Chips,,$1.69
7,4,1,Steak Burrito,"[Tomatillo Red Chili Salsa, [Fajita Vegetables...",$11.75
8,4,1,Steak Soft Tacos,"[Tomatillo Green Chili Salsa, [Pinto Beans, Ch...",$9.25
9,5,1,Steak Burrito,"[Fresh Tomato Salsa, [Rice, Black Beans, Pinto...",$9.25


### Passo 5 (Verificar as informações do datase)

In [5]:
chipo.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4622 entries, 0 to 4621
Data columns (total 5 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   order_id            4622 non-null   int64 
 1   quantity            4622 non-null   int64 
 2   item_name           4622 non-null   object
 3   choice_description  3376 non-null   object
 4   item_price          4622 non-null   object
dtypes: int64(2), object(3)
memory usage: 180.7+ KB


### Passo 6 (Verificar o número de linhas e colunas

Caso queiramos visualizar apenas linhas ou colunas, utilizamos `.shape[0]` para linhas e `.shape[1]` para colunas

In [6]:
chipo.shape

(4622, 5)

### Passo 7 (Printar o nome de todas as colunas)

In [7]:
chipo.columns

Index(['order_id', 'quantity', 'item_name', 'choice_description',
       'item_price'],
      dtype='object')

### Passo 8 (Como o dataset está indexado?)

In [8]:
chipo.index

RangeIndex(start=0, stop=4622, step=1)

### Passo 9 (Qual foi o item mais pedido?)

Para isso primeiro precisamos __agrupar__ todos os itens usando `.groupby('coluna')` onde no caso a coluna que queremos é a de nomeação dos itens. Depois, utilizamos `.sum()` para __somar as quantidades__ de cada item e todas as outras informações desse item. Para finalmente conseguir __ordenar os dados por quantidade em ordem decrescente__ utilizando `.sort_values(['coluna'], ascending=False)`

In [9]:
c = chipo.groupby('item_name')
c = c.sum()
c = c.sort_values(['quantity'], ascending=False)
c.head(1)

Unnamed: 0_level_0,order_id,quantity,choice_description,item_price
item_name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Chicken Bowl,713926,761,"[Tomatillo-Red Chili Salsa (Hot), [Black Beans...",$16.98 $10.98 $11.25 $8.75 $8.49 $11.25 $8.75 ...


### Passo 10 (Para o item mais pedido, quantos itens foram pedidos?)

Podemos fazer isso usando o método `.idxmax()` para encontrar o índice da linha que possui o __valor máximo__ na coluna __quantity__. Após isso utilizamos o comando `.loc[parametro1, 'parametro2']` para acessar um valor específico no DataFrame. O __parametro 1__ neste caso é o item e o __parametro 2__ é a coluna do item que queremos verificar o valor, como se fosse uma batalha naval.



In [10]:
most_ordered_item = c['quantity'].idxmax()
most_ordered_quantity = c.loc[most_ordered_item, 'quantity']
most_ordered_quantity

761

### Passo 11 (Qual foi o item mais pedido na coluna choice_description?)

In [11]:
c = chipo.groupby('choice_description')
c = c.sum()
c = c.sort_values(['quantity'], ascending=False)['quantity']
c.head(1)

choice_description
[Diet Coke]    159
Name: quantity, dtype: int64

### Passo 12 (Quantos itens foram encomendados no total?)

Para isso somamos a coluna de quantidade de itens para cada pedido.
Esse formato irá se repetir sempre que quisermos somar o valor de uma coluna ao longo do row de dados: `.coluna.sum()`

In [12]:
total = chipo.quantity.sum()
total

4972

### Passo 13 (Transforme o preço do item em um float)

In [13]:
chipo.item_price.dtype

dtype('O')

In [14]:
dollarizer = lambda x: float(x[1:-1])
chipo.item_price = chipo.item_price.apply(dollarizer)

In [15]:
chipo.item_price.dtype

dtype('float64')

### Passo 14 (Qual foi a receita do período no conjunto de dados?)

Diferente da quantidade de pedidos, este somatório da receita total precisa levar em conta dois fatores: o __preço do item__ e a __quantidade de itens levados__ por isso o somatório total será dado por uma multiplicação desses dois parâmetros para cada linha que ele aparece.

In [16]:
total = (chipo['quantity']* chipo['item_price']).sum()
total

39237.02

### Passo 15 (Quantos pedidos e itens diferentes foram feitos no período?)

Podemos utilizar dois métodos, um usando o `idmax()` ja visto;

E outro utilizando o método `.coluna.value_counts().count()`. Este método conta a frequência de cada valor único de uma coluna. O resultado é uma Series onde o índice são os parâmetros únicos da coluna e ao lado são as contagens de aparições desses parâmetros ao longo do row de dados, utilizados posteriormente no `count()` para contar o total de parâmetros não repetidos. Este método facílita bastante quando temos que fazer a contagem de algo __sem considerar valores repetidos__.

In [17]:
orders = chipo.order_id.value_counts()
orders

order_id
926     23
1483    14
205     12
759     11
1786    11
        ..
768      1
341      1
1048     1
94       1
1199     1
Name: count, Length: 1834, dtype: int64

In [18]:
orders = chipo.order_id.value_counts().count()
orders

1834

In [19]:
itens = chipo.item_name.value_counts()
itens

item_name
Chicken Bowl                             726
Chicken Burrito                          553
Chips and Guacamole                      479
Steak Burrito                            368
Canned Soft Drink                        301
Steak Bowl                               211
Chips                                    211
Bottled Water                            162
Chicken Soft Tacos                       115
Chips and Fresh Tomato Salsa             110
Chicken Salad Bowl                       110
Canned Soda                              104
Side of Chips                            101
Veggie Burrito                            95
Barbacoa Burrito                          91
Veggie Bowl                               85
Carnitas Bowl                             68
Barbacoa Bowl                             66
Carnitas Burrito                          59
Steak Soft Tacos                          55
6 Pack Soft Drink                         54
Chips and Tomatillo Red Chili Salsa       48


In [20]:
itens = chipo.item_name.value_counts().count()
itens

50