# Getting and Knowing Your Data

## Chipotle data

### Passo 1 (Importar as bibliotecas)

In [1]:
import numpy as np
import pandas as pd

### Passo 2 (Copiar a URL dos dados para uma variável)

In [2]:
url = 'https://raw.githubusercontent.com/justmarkham/DAT8/master/data/chipotle.tsv'
url

'https://raw.githubusercontent.com/justmarkham/DAT8/master/data/chipotle.tsv'

### Passo 3 (Criar uma variável chipo com o conteúdo da url no formato de dataframe)

Para isso temos que usar o comando `pd.read_csv`!


O parâmetro __sep__ no comando `pd.read_csv` do Pandas é usado para especificar o delimitador que separa os valores nas colunas de um arquivo CSV. O delimitador padrão é a vírgula (,), mas muitos arquivos CSV podem usar outros caracteres como tabulações (\t), pontos e vírgulas (;), ou espaços ( ).

In [3]:
chipo = pd.read_csv(url, sep = '\t')
chipo

Unnamed: 0,order_id,quantity,item_name,choice_description,item_price
0,1,1,Chips and Fresh Tomato Salsa,,$2.39
1,1,1,Izze,[Clementine],$3.39
2,1,1,Nantucket Nectar,[Apple],$3.39
3,1,1,Chips and Tomatillo-Green Chili Salsa,,$2.39
4,2,2,Chicken Bowl,"[Tomatillo-Red Chili Salsa (Hot), [Black Beans...",$16.98
...,...,...,...,...,...
4617,1833,1,Steak Burrito,"[Fresh Tomato Salsa, [Rice, Black Beans, Sour ...",$11.75
4618,1833,1,Steak Burrito,"[Fresh Tomato Salsa, [Rice, Sour Cream, Cheese...",$11.75
4619,1834,1,Chicken Salad Bowl,"[Fresh Tomato Salsa, [Fajita Vegetables, Pinto...",$11.25
4620,1834,1,Chicken Salad Bowl,"[Fresh Tomato Salsa, [Fajita Vegetables, Lettu...",$8.75


### Passo 4 (Verificar os 10 primeiros dados)

In [4]:
chipo.head(10)

Unnamed: 0,order_id,quantity,item_name,choice_description,item_price
0,1,1,Chips and Fresh Tomato Salsa,,$2.39
1,1,1,Izze,[Clementine],$3.39
2,1,1,Nantucket Nectar,[Apple],$3.39
3,1,1,Chips and Tomatillo-Green Chili Salsa,,$2.39
4,2,2,Chicken Bowl,"[Tomatillo-Red Chili Salsa (Hot), [Black Beans...",$16.98
5,3,1,Chicken Bowl,"[Fresh Tomato Salsa (Mild), [Rice, Cheese, Sou...",$10.98
6,3,1,Side of Chips,,$1.69
7,4,1,Steak Burrito,"[Tomatillo Red Chili Salsa, [Fajita Vegetables...",$11.75
8,4,1,Steak Soft Tacos,"[Tomatillo Green Chili Salsa, [Pinto Beans, Ch...",$9.25
9,5,1,Steak Burrito,"[Fresh Tomato Salsa, [Rice, Black Beans, Pinto...",$9.25


### Passo 5 (Verificar as informações do datase)

In [5]:
chipo.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4622 entries, 0 to 4621
Data columns (total 5 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   order_id            4622 non-null   int64 
 1   quantity            4622 non-null   int64 
 2   item_name           4622 non-null   object
 3   choice_description  3376 non-null   object
 4   item_price          4622 non-null   object
dtypes: int64(2), object(3)
memory usage: 180.7+ KB


### Passo 6 (Verificar o número de linhas e colunas)

Caso queiramos visualizar apenas linhas ou colunas, utilizamos `.shape[0]` para linhas e `.shape[1]` para colunas

In [6]:
chipo.shape

(4622, 5)

### Passo 7 (Printar o nome de todas as colunas)

In [7]:
chipo.columns

Index(['order_id', 'quantity', 'item_name', 'choice_description',
       'item_price'],
      dtype='object')

### Passo 8 (Como o dataset está indexado?)

In [8]:
chipo.index

RangeIndex(start=0, stop=4622, step=1)

### Passo 9 (Qual foi o item mais pedido?)

Para isso primeiro precisamos __agrupar__ todos os itens usando `.groupby('coluna')` onde no caso a coluna que queremos é a de nomeação dos itens. Depois, utilizamos `.sum()` para __somar as quantidades__ de cada item e todas as outras informações desse item. Para finalmente conseguir __ordenar os dados por quantidade em ordem decrescente__ utilizando `.sort_values(['coluna'], ascending=False)`

In [9]:
c = chipo.groupby('item_name')
c = c.sum()
c = c.sort_values(['quantity'], ascending=False)
c.head(1)

Unnamed: 0_level_0,order_id,quantity,choice_description,item_price
item_name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Chicken Bowl,713926,761,"[Tomatillo-Red Chili Salsa (Hot), [Black Beans...",$16.98 $10.98 $11.25 $8.75 $8.49 $11.25 $8.75 ...


### Passo 10 (Para o item mais pedido, quantos itens foram pedidos?)

Podemos fazer isso usando o método `.idxmax()` para encontrar o índice da linha que possui o __valor máximo__ na coluna __quantity__. Após isso utilizamos o comando `.loc[parametro1, 'parametro2']` para acessar um valor específico no DataFrame. O __parametro 1__ neste caso é o item e o __parametro 2__ é a coluna do item que queremos verificar o valor, como se fosse uma batalha naval.



In [10]:
most_ordered_item = c['quantity'].idxmax()
most_ordered_quantity = c.loc[most_ordered_item, 'quantity']
most_ordered_quantity

761

### Passo 11 (Qual foi o item mais pedido na coluna choice_description?)

In [11]:
c = chipo.groupby('choice_description')
c = c.sum()
c = c.sort_values(['quantity'], ascending=False)['quantity']
c.head(1)

choice_description
[Diet Coke]    159
Name: quantity, dtype: int64

### Passo 12 (Quantos itens foram encomendados no total?)

Para isso somamos a coluna de quantidade de itens para cada pedido.
Esse formato irá se repetir sempre que quisermos somar o valor de uma coluna ao longo do row de dados: `.coluna.sum()`

In [12]:
total = chipo.quantity.sum()
total

4972

### Passo 13 (Transforme o preço do item em um float)

In [13]:
chipo.item_price.dtype

dtype('O')

In [14]:
dollarizer = lambda x: float(x[1:-1])
chipo.item_price = chipo.item_price.apply(dollarizer)

In [15]:
chipo.item_price.dtype

dtype('float64')

### Passo 14 (Qual foi a receita do período no conjunto de dados?)

Diferente da quantidade de pedidos, este somatório da receita total precisa levar em conta dois fatores: o __preço do item__ e a __quantidade de itens levados__ por isso o somatório total será dado por uma multiplicação desses dois parâmetros para cada linha que ele aparece.

In [16]:
total = (chipo['quantity']* chipo['item_price']).sum()
total

39237.02

### Passo 15 (Quantos pedidos e itens diferentes foram feitos no período?)

Podemos utilizar dois métodos, um usando o `idmax()` ja visto;

E outro utilizando o método `.coluna.value_counts().count()`. Este método conta a frequência de cada valor único de uma coluna. O resultado é uma Series onde o índice são os parâmetros únicos da coluna e ao lado são as contagens de aparições desses parâmetros ao longo do row de dados, utilizados posteriormente no `count()` para contar o total de parâmetros sem repeti-los. Este método facílita bastante quando temos que fazer a contagem de algo __sem considerar valores repetidos__.

In [17]:
orders = chipo.order_id.value_counts()
orders

order_id
926     23
1483    14
205     12
759     11
1786    11
        ..
768      1
341      1
1048     1
94       1
1199     1
Name: count, Length: 1834, dtype: int64

In [18]:
orders = chipo.order_id.value_counts().count()
orders

1834

In [19]:
itens = chipo.item_name.value_counts()
itens

item_name
Chicken Bowl                             726
Chicken Burrito                          553
Chips and Guacamole                      479
Steak Burrito                            368
Canned Soft Drink                        301
Steak Bowl                               211
Chips                                    211
Bottled Water                            162
Chicken Soft Tacos                       115
Chips and Fresh Tomato Salsa             110
Chicken Salad Bowl                       110
Canned Soda                              104
Side of Chips                            101
Veggie Burrito                            95
Barbacoa Burrito                          91
Veggie Bowl                               85
Carnitas Bowl                             68
Barbacoa Bowl                             66
Carnitas Burrito                          59
Steak Soft Tacos                          55
6 Pack Soft Drink                         54
Chips and Tomatillo Red Chili Salsa       48


In [20]:
itens = chipo.item_name.value_counts().count()
itens

50

# Filtering & Sorting

## Chipotle

### Passo 1 (Importar as bibliotecas)

In [21]:
import pandas as pd
import numpy as np

### Passo 2 (Copiar a URL dos dados para uma variável)

In [22]:
url2 = 'https://raw.githubusercontent.com/justmarkham/DAT8/master/data/chipotle.tsv'
url2

'https://raw.githubusercontent.com/justmarkham/DAT8/master/data/chipotle.tsv'

### Passo 3 (Criar uma variável chipo com o conteúdo da url no formato de dataframe)

In [23]:
chipo2 = pd.read_csv(url2, sep = '\t')
chipo2

Unnamed: 0,order_id,quantity,item_name,choice_description,item_price
0,1,1,Chips and Fresh Tomato Salsa,,$2.39
1,1,1,Izze,[Clementine],$3.39
2,1,1,Nantucket Nectar,[Apple],$3.39
3,1,1,Chips and Tomatillo-Green Chili Salsa,,$2.39
4,2,2,Chicken Bowl,"[Tomatillo-Red Chili Salsa (Hot), [Black Beans...",$16.98
...,...,...,...,...,...
4617,1833,1,Steak Burrito,"[Fresh Tomato Salsa, [Rice, Black Beans, Sour ...",$11.75
4618,1833,1,Steak Burrito,"[Fresh Tomato Salsa, [Rice, Sour Cream, Cheese...",$11.75
4619,1834,1,Chicken Salad Bowl,"[Fresh Tomato Salsa, [Fajita Vegetables, Pinto...",$11.25
4620,1834,1,Chicken Salad Bowl,"[Fresh Tomato Salsa, [Fajita Vegetables, Lettu...",$8.75


### Passo 4 (Quantos produtos custam mais do que $10.00?)


Pelo que podemos ver, a coluna `item_price` no DataFrame chipo2 tem o tipo object, o que significa que ela contém valores que não são diretamente interpretados como numéricos (possivelmente strings). Para realizar operações numéricas, precisamos __converter esses valores em números__.

Geralmente, a coluna de preços pode conter símbolos de moeda ou outros caracteres que precisam ser removidos antes da conversão. Vamos primeiro __remover qualquer símbolo de moeda__ e depois converter a coluna para tipo numérico.

In [24]:
chipo2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4622 entries, 0 to 4621
Data columns (total 5 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   order_id            4622 non-null   int64 
 1   quantity            4622 non-null   int64 
 2   item_name           4622 non-null   object
 3   choice_description  3376 non-null   object
 4   item_price          4622 non-null   object
dtypes: int64(2), object(3)
memory usage: 180.7+ KB


In [25]:
# Remover símbolos de moeda e converter para numérico
chipo2['item_price'] = chipo2['item_price'].str.replace('$', '').astype(float)

chipo2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4622 entries, 0 to 4621
Data columns (total 5 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   order_id            4622 non-null   int64  
 1   quantity            4622 non-null   int64  
 2   item_name           4622 non-null   object 
 3   choice_description  3376 non-null   object 
 4   item_price          4622 non-null   float64
dtypes: float64(1), int64(2), object(2)
memory usage: 180.7+ KB


In [26]:
chipo2.query("item_price > 10")

Unnamed: 0,order_id,quantity,item_name,choice_description,item_price
4,2,2,Chicken Bowl,"[Tomatillo-Red Chili Salsa (Hot), [Black Beans...",16.98
5,3,1,Chicken Bowl,"[Fresh Tomato Salsa (Mild), [Rice, Cheese, Sou...",10.98
7,4,1,Steak Burrito,"[Tomatillo Red Chili Salsa, [Fajita Vegetables...",11.75
13,7,1,Chicken Bowl,"[Fresh Tomato Salsa, [Fajita Vegetables, Rice,...",11.25
23,12,1,Chicken Burrito,"[[Tomatillo-Green Chili Salsa (Medium), Tomati...",10.98
...,...,...,...,...,...
4610,1830,1,Steak Burrito,"[Fresh Tomato Salsa, [Rice, Sour Cream, Cheese...",11.75
4611,1830,1,Veggie Burrito,"[Tomatillo Green Chili Salsa, [Rice, Fajita Ve...",11.25
4617,1833,1,Steak Burrito,"[Fresh Tomato Salsa, [Rice, Black Beans, Sour ...",11.75
4618,1833,1,Steak Burrito,"[Fresh Tomato Salsa, [Rice, Sour Cream, Cheese...",11.75


### Passo 5 (Imprimir um quadro de dados com apenas duas colunas item_name e item_price)

In [27]:
chipo2[['item_name','item_price']]

Unnamed: 0,item_name,item_price
0,Chips and Fresh Tomato Salsa,2.39
1,Izze,3.39
2,Nantucket Nectar,3.39
3,Chips and Tomatillo-Green Chili Salsa,2.39
4,Chicken Bowl,16.98
...,...,...
4617,Steak Burrito,11.75
4618,Steak Burrito,11.75
4619,Chicken Salad Bowl,11.25
4620,Chicken Salad Bowl,8.75


### Passo 6 (Ordenando pelo nome do item)

Para isso usamos o método `.sort_values(by = "coluna")` podemos fazer isso para todas as colunas.

In [28]:
chipo2.sort_values(by = "item_name")

Unnamed: 0,order_id,quantity,item_name,choice_description,item_price
3389,1360,2,6 Pack Soft Drink,[Diet Coke],12.98
341,148,1,6 Pack Soft Drink,[Diet Coke],6.49
1849,749,1,6 Pack Soft Drink,[Coke],6.49
1860,754,1,6 Pack Soft Drink,[Diet Coke],6.49
2713,1076,1,6 Pack Soft Drink,[Coke],6.49
...,...,...,...,...,...
2384,948,1,Veggie Soft Tacos,"[Roasted Chili Corn Salsa, [Fajita Vegetables,...",8.75
781,322,1,Veggie Soft Tacos,"[Fresh Tomato Salsa, [Black Beans, Cheese, Sou...",8.75
2851,1132,1,Veggie Soft Tacos,"[Roasted Chili Corn Salsa (Medium), [Black Bea...",8.49
1699,688,1,Veggie Soft Tacos,"[Fresh Tomato Salsa, [Fajita Vegetables, Rice,...",11.25


### Passo 7 (Qual foi a quantidade do item mais caro encomendado?)

Para exibir apenas o valor da quantidade, podemos usar a propriedade `.values` do DataFrame, junto com o índice apropriado para extrair o valor. Usamos `[0][0]` para acessar o primeiro elemento do array resultante, pois o método retorna um array.

In [29]:
item_caro = chipo2['item_price'].idxmax()
chipo2.loc[item_caro, 'item_price']

44.25

In [30]:
quantidade = chipo2.query("item_price == 44.25")
valor_quantidade = quantidade[['quantity']].values[0][0]
valor_quantidade

15

### Passo 8 (Quantas vezes foi pedido uma Salada Vegetariana?)

In [31]:
veganas = chipo2.query("item_name == 'Veggie Salad Bowl'")
veganas

Unnamed: 0,order_id,quantity,item_name,choice_description,item_price
186,83,1,Veggie Salad Bowl,"[Fresh Tomato Salsa, [Fajita Vegetables, Rice,...",11.25
295,128,1,Veggie Salad Bowl,"[Fresh Tomato Salsa, [Fajita Vegetables, Lettu...",11.25
455,195,1,Veggie Salad Bowl,"[Fresh Tomato Salsa, [Fajita Vegetables, Rice,...",11.25
496,207,1,Veggie Salad Bowl,"[Fresh Tomato Salsa, [Rice, Lettuce, Guacamole...",11.25
960,394,1,Veggie Salad Bowl,"[Fresh Tomato Salsa, [Fajita Vegetables, Lettu...",8.75
1316,536,1,Veggie Salad Bowl,"[Fresh Tomato Salsa, [Fajita Vegetables, Rice,...",8.75
1884,760,1,Veggie Salad Bowl,"[Fresh Tomato Salsa, [Fajita Vegetables, Rice,...",11.25
2156,869,1,Veggie Salad Bowl,"[Tomatillo Red Chili Salsa, [Fajita Vegetables...",11.25
2223,896,1,Veggie Salad Bowl,"[Roasted Chili Corn Salsa, Fajita Vegetables]",8.75
2269,913,1,Veggie Salad Bowl,"[Fresh Tomato Salsa, [Fajita Vegetables, Rice,...",8.75


In [32]:
veganas.order_id.value_counts().count()

18

### Passo 9 (Quantas vezes alguém pediu mais de um refrigerante em lata?)

In [33]:
soda = chipo2[(chipo2.item_name == "Canned Soda") & (chipo.quantity > 1)]
soda.order_id.value_counts().count()

18

# GroupBy

## Alcohol_Consumptior

### Passo 1 (Importar as bibliotecas)

In [34]:
import pandas as pd
import numpy as np

### Passo 2 (Copiar a URL dos dados para uma variável)

In [35]:
url3 = 'https://raw.githubusercontent.com/justmarkham/DAT8/master/data/drinks.csv'
url3

'https://raw.githubusercontent.com/justmarkham/DAT8/master/data/drinks.csv'

### Passo 3 (Criar uma variável drinks com o conteúdo da url no formato de dataframe)

In [36]:
drinks = pd.read_csv(url3)
drinks

Unnamed: 0,country,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol,continent
0,Afghanistan,0,0,0,0.0,AS
1,Albania,89,132,54,4.9,EU
2,Algeria,25,0,14,0.7,AF
3,Andorra,245,138,312,12.4,EU
4,Angola,217,57,45,5.9,AF
...,...,...,...,...,...,...
188,Venezuela,333,100,3,7.7,SA
189,Vietnam,111,2,1,2.0,AS
190,Yemen,6,0,0,0.1,AS
191,Zambia,32,19,4,2.5,AF


### Passo 4 (Qual continente bebe mais cerveja em média?)

Para obtermos essas estatísticas, primeiramente __agrupamos os dados__ por continentes, depois __identificamos qual coluna queremos retirar os dados__ que no nosso caso é a `.beer_servings`, e por fim, tiramos a __média dos valores__ com o método `.mean()`.

In [37]:
drinks.groupby('continent').beer_servings.mean()

continent
AF     61.471698
AS     37.045455
EU    193.777778
OC     89.687500
SA    175.083333
Name: beer_servings, dtype: float64

### Passo 5 (Para cada continente imprima as estatísticas de consumo de vinho)

Para este caso, selecionamos a coluna `.wine_servings`e utilizamos o método `describe()`para gerar as estatísticas gerais de cada continente.

In [38]:
drinks.groupby('continent').wine_servings.describe()

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
continent,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
AF,53.0,16.264151,38.846419,0.0,1.0,2.0,13.0,233.0
AS,44.0,9.068182,21.667034,0.0,0.0,1.0,8.0,123.0
EU,45.0,142.222222,97.421738,0.0,59.0,128.0,195.0,370.0
OC,16.0,35.625,64.55579,0.0,1.0,8.5,23.25,212.0
SA,12.0,62.416667,88.620189,1.0,3.0,12.0,98.5,221.0


### Passo 6 (Imprima o consumo médio de álcool por continente para cada coluna)

Para isso usamos __dois conjuntos de colchetes__ para __selecionar múltiplas colunas de um DataFrame__ no Pandas.

Poderiamos também selecionar um intervalo de colunas usando índices em vez de nomes de colunas com oo método `.iloc`, para selecionar colunas por seus índices de posição.

In [39]:
drinks.groupby('continent')[['beer_servings', 'spirit_servings', 'wine_servings','total_litres_of_pure_alcohol']].mean()

Unnamed: 0_level_0,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol
continent,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
AF,61.471698,16.339623,16.264151,3.007547
AS,37.045455,60.840909,9.068182,2.170455
EU,193.777778,132.555556,142.222222,8.617778
OC,89.6875,58.4375,35.625,3.38125
SA,175.083333,114.75,62.416667,6.308333


### Passo 7 (Imprima o consumo mediano de álcool por continente para cada coluna)

In [40]:
drinks.groupby('continent')[['beer_servings', 'spirit_servings', 'wine_servings','total_litres_of_pure_alcohol']].median()

Unnamed: 0_level_0,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol
continent,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
AF,32.0,3.0,2.0,2.3
AS,17.5,16.0,1.0,1.2
EU,219.0,122.0,128.0,10.0
OC,52.5,37.0,8.5,1.75
SA,162.5,108.5,12.0,6.85


### Passo 8 (Imprima os valores médio, mínimo e máximo para consumo de bebidas espirituosas)

Para isso, após selecionar a devida coluna, devemos utilizar o método `.agg([funções])` para __aplicar múltiplas funções de agregação__.

In [41]:
drinks.groupby('continent').spirit_servings.agg(['mean', 'min', 'max'])

Unnamed: 0_level_0,mean,min,max
continent,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
AF,16.339623,0,152
AS,60.840909,0,326
EU,132.555556,0,373
OC,58.4375,0,254
SA,114.75,25,302
