# pandas
Disponível no [kaggle](https://www.kaggle.com/learn/pandas)

In [1]:
import pandas as pd

Em pandas, __DataFrame__ e __Series__ são objetos essenciais

## DataFrame
- tabela
- matriz com entradas individuais, cada uma com um determinado valor
- cada entrada corresponde a uma linha (registro) e coluna

In [2]:
pd.DataFrame({'Yes': [50, 21], 'No': [131, 2]})

Unnamed: 0,Yes,No
0,50,131
1,21,2


- _DataFrame's_ podem conter dados que não são inteiros

- Geralmente o construtor ```pd.DataFrame()``` gera um objeto _DataFrame_.

- A sintaxe costuma possuir um dicionário, sendo que suas chaves representam as colunas, e seus valores estão em uma lista de entradas.

  - Quando necessário, é possível também nomear as linhas do _DataFrame_, utilizando ```index``` após o dicionário

In [4]:
pd.DataFrame({'Bob': ['I liked it.', 'It was awful.'],
              'Sue': ['Pretty good.', 'Bland.']},
             index = ['Product A', 'Product B'])

Unnamed: 0,Bob,Sue
Product A,I liked it.,Pretty good.
Product B,It was awful.,Bland.


## Series
- sequência de valores
- lista

In [6]:
pd.Series([number for number in range(1, 5)])

0    1
1    2
2    3
3    4
dtype: int64

- _Series_ é um _DataFrame_ de coluna única
- não possui _name_ para colunas, mas sim, geral

In [9]:
pd.Series([30, 40, 45],
          index = ['2015 Sales', '2016 Sales', '2017 Sales'],
          name = 'Product A')

2015 Sales    30
2016 Sales    40
2017 Sales    45
Name: Product A, dtype: int64

### Leitura de Dados
- dados podem ser armazenados de vários formas
  - o exemplo mais básico é o formato CSV

In [29]:
csv_file = open('winemag-data-130k-v2.csv', 'w')
csv_file.write("""Product A,Product B,Product C
30,21,9
35,34,1
41,11,11""")
csv_file.close()

In [30]:
csv_file = open('winemag-data-130k-v2.csv', 'r')
print(csv_file.readlines())

['Product A,Product B,Product C\n', '30,21,9\n', '35,34,1\n', '41,11,11']


- CSV é uma tabela com valores separados por vírgula
- ```pd.read_csv()``` lê dados de um CSV

In [36]:
wine_reviews = pd.read_csv("winemag-data-130k-v2.csv")

- o atributo ```shape``` verifica o tamanho do _DataFrame_ resultante
  - ele retorna ```(quantide de linhas, quantidade de colunas)```

In [37]:
wine_reviews.shape

(3, 3)

- o comando ```head()``` examina o conteúdo do _DataFrame_, retornando as 5 primeiras linhas

In [38]:
wine_reviews.head()

Unnamed: 0,Product A,Product B,Product C
0,30,21,9
1,35,34,1
2,41,11,11


- ```index_col``` fará com que a coluna informada seja considerada como indice

In [43]:
wine_reviews = pd.read_csv("winemag-data-130k-v2.csv", index_col = 0)
wine_reviews.head()

Unnamed: 0_level_0,Product A,Product B
Product C,Unnamed: 1_level_1,Unnamed: 2_level_1
9,30,21
1,35,34
11,41,11
