In [1]:
import pandas as pd

<h1>Criando dados</h1>

Existem dois tipos principais de objetos no pandas: O <b> DataFrame </b> e as <b>Séries</b>.  

<h2> DataFrame </h2>

Um DataFrame é uma tabela. Esta contém uma array(sequência) de entradas individuais, no qual cada uma contém um valor. Cada entrada corresponde a uma linha e uma coluna.

Por exemplo, vamos considerar o seguinte DataFrame.

In [16]:
pd.DataFrame({"Yes": [50, 21], 
              "No":[131, 2]})

Unnamed: 0,Yes,No
0,50,131
1,21,2


Neste exemplo, a entrada "0,NO" tem como valor de entradra de 131. A entrada "0,Yes" tem o valor de 50, e assim por diante.

As entradas de um DataFrame não então limitadas a apenas inteiros. Por exemplo, vejamos um DataFrame que tem valores de strings.

In [4]:
pd.DataFrame({"Bob": ["I liked it.", "It was awful."], "Sue":["Pretty good.", "Bland."]})

Unnamed: 0,Bob,Sue
0,I liked it.,Pretty good.
1,It was awful.,Bland.


Nós estamos utilizando o construtor `pd.DataFrame()` para gerar o obejto DataFrame. A sintaxe para declarar um novo objeto é um dicionário no qual as chaves são os nomes das colunas (`Bob` e `Sue` no exemplo anterior), e seus valores em uma lista de entradas. Com essa receita podemos contruir um novo DataFrame.

O construtor dicionário-lista direciona os valores da lista para os respectivos nomes de coluna, porém organiza de forma crescente, contando de 0 (0,1,2,3, ...) para os títulos das linhas. Algumas vezes está OK esse comportamento,porém algumas vezes queremos também dar título as linhas.

A lista de títulos de linhas que usamos no DataFrame é conhecida como <b> Index </b>. Nós podemos colocar esses nomes usando o parâmetro `index` no nosso construtor:

In [17]:
pd.DataFrame({"Bob":["I liked it.", "It was awful."],
              "Sue":["Pretty good.", "Bland."]},
            index=["Product A", "Product B"])

Unnamed: 0,Bob,Sue
Product A,I liked it.,Pretty good.
Product B,It was awful.,Bland.


<h2> Series </h2>

Uma Series, pelo contrário, é uma sequencia de valores(ou de dados). Se o DataFrame é uma tabela, a Series é uma lista. E fato, você pode criar uma série com nada mais nada menos que uma lista.

In [18]:
pd.Series([1, 2, 3, 4, 5])

0    1
1    2
2    3
3    4
4    5
dtype: int64

A Series é, em sua essência, uma única coluna de um DataFrame. Então você pode dar a uma coluna valores da mesma forma que antes, usando o parametro `index`. Porém, Series não possui nome de coluna, possui apenas um nome geral:

In [19]:
pd.Series([30, 35, 40], index=["2015 Sales", "2016 Sales", "2017 Sales"], name="Product A")

2015 Sales    30
2016 Sales    35
2017 Sales    40
Name: Product A, dtype: int64

As Series e os DataFrames estão intimamente relacionados. Ajuda pensar que um DataFrame na verdade é justamente um monte de Séries grudadas. Falaremos mais sobre isso adiante. 

<h1> Lendo arquivos de dados </h1>

Ter a habilidade de criar um DataFrame ou uma Series na mão pode ser util. Porém, na maioria das vezes, nós não vamos criar nossos dados na mão. Ao invés, vamos trabalhar com dados já existentes.

Dados podem ser armazenados em diferentes formas e formatos. De longe , a forma mais básica de armazenamento é o formato de arquivo CSV. Quando você abre um arquivo CSV você pega algo como isso:

```
Product A,Product B,Product C,
30,21,9,
35,34,1,
41,11,11
```

Então um arquivo CSV é uma tabela com valores separados por virgulas. Devido a isso temos o nome CSV "Comma-Separated Values", ou CSV.

Agora vamos ver como um dataset real parece quando lemos em um DataFrame. Vamos utilizar a função `pd.read_csv()` para ler um dado em um DataFrame:

(obs): baixe o arquivo utilizado neste tutorial em : https://www.kaggle.com/zynicide/wine-reviews. Guarde na mesma pasta que está seu arquivo no jupyter notebook para poder reproduzir esse tutorial. 


In [20]:
wine_reviews = pd.read_csv("winemag-data-130k-v2.csv")

Nós podemos utilizar o atributo `Shape` para ver quão grande é o DataFrame resultante:

In [21]:
wine_reviews.shape

(129971, 14)

Então nosso novo DataFrame tem praticamente 130,000 linhas montadas sobre 14 difentes colunas. Isso representa quase 2 milhões de entradas.

Nós podemos examinar o conteúdo resultado do DataFrame usando comando `head()`, no qual nos mostra as 5 primeiras linhas:

In [22]:
wine_reviews.head()

Unnamed: 0.1,Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
1,1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
2,2,US,"Tart and snappy, the flavors of lime flesh and...",,87,14.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Rainstorm 2013 Pinot Gris (Willamette Valley),Pinot Gris,Rainstorm
3,3,US,"Pineapple rind, lemon pith and orange blossom ...",Reserve Late Harvest,87,13.0,Michigan,Lake Michigan Shore,,Alexander Peartree,,St. Julian 2013 Reserve Late Harvest Riesling ...,Riesling,St. Julian
4,4,US,"Much like the regular bottling from 2012, this...",Vintner's Reserve Wild Child Block,87,65.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Sweet Cheeks 2012 Vintner's Reserve Wild Child...,Pinot Noir,Sweet Cheeks


A função `pd.read_csv()` foi muito bem construída, com mais de 30 parâmetros opcionais que você pode especificar. Por exemplo, você pode ver neste DataSet que o arquivo CSV tem pré-construido um index, no qual o pandas não pega automaticamente. Para fazer o pandas usar a para fazer a indexacão(ao invés de criar uma do zero), podemos especificar um `index_col`.

In [23]:
wine_reviews = pd.read_csv("winemag-data-130k-v2.csv", index_col=0)
wine_reviews.head()

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
2,US,"Tart and snappy, the flavors of lime flesh and...",,87,14.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Rainstorm 2013 Pinot Gris (Willamette Valley),Pinot Gris,Rainstorm
3,US,"Pineapple rind, lemon pith and orange blossom ...",Reserve Late Harvest,87,13.0,Michigan,Lake Michigan Shore,,Alexander Peartree,,St. Julian 2013 Reserve Late Harvest Riesling ...,Riesling,St. Julian
4,US,"Much like the regular bottling from 2012, this...",Vintner's Reserve Wild Child Block,87,65.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Sweet Cheeks 2012 Vintner's Reserve Wild Child...,Pinot Noir,Sweet Cheeks


<h1> Exercícios </h1>

## 1.

Na célula abaixo, crie um DataFrame `frutas` no seguinte formato:

![](https://i.imgur.com/Ax3pp2A.png)

In [28]:
# Seu código aqui. Não esqueça de mostrar seu DataFrame

<details><summary>Clique aqui para ver a resposta.</summary>

```python
frutas = pd.DataFrame({"Apples":[30],
                       "Bananas":[21]})
frutas
```

</details>


## 2.

Crie um DataFrame `venda_de_frutas` que seja igual ao diagrama abaixo:

![](https://i.imgur.com/CHPn7ZF.png)

In [32]:
# Seu código aqui. Não esqueça de mostrar seu DataFrame

<details><summary>Clique aqui para ver a resposta.</summary>

```python
venda_de_frutas = pd.DataFrame({"Apples":[35, 41],
                                "Bananas":[21, 34]},
                                index=["2017 Sales", "2018 Sales"])
venda_de_frutas
```

</details>

## 3.

Crie a variável `ingredientes` com uma Series que pareça como:

```
Flour     4 cups
Milk       1 cup
Eggs     2 large
Spam       1 can
Name: Dinner, dtype: object

```

In [36]:
# Seu código aqui. Não esqueça de mostrar sua Serie.

<details><summary>Clique aqui para ver a resposta.</summary>

```python
ingredientes = pd.Series(["4 cups", "1 cup", "2 large", "1 can"], 
                         index=["Flour", "Milk", "Eggs", "Spam"], 
                         name="Dinner")
ingredientes
```

</details>

## 4.

Leia o seguinte csv: winemag-data_first150k.csv. Aloque na variável `reviews`.

![](https://i.imgur.com/74RCZtU.png)

In [39]:
# Seu código aqui. Não esqueça de mostrar seu DataFrame.

<details><summary>Clique aqui para ver a resposta.</summary>

```python
reviews = pd.read_csv("winemag-data_first150k.csv", index_col=0)
reviews
```

</details>

## 5.

Rode a célula abaixo e mostre o DataFrame `animais`:

In [41]:
animais = pd.DataFrame({'Cows': [12, 20], 'Goats': [22, 19]}, index=['Year 1', 'Year 2'])
animais

Na célula abaixo, escreva um código para salvar esse DataFrame no formato csv com o nome de `animais.csv`

In [43]:
# Seu código aqui.

<details><summary>Clique aqui para ver a resposta.</summary>

```python
animais.to_csv("animais.csv")
```

</details>