| Conceito        | Biblioteca | O que é                                                                              | Analogia simples                                 |
| --------------- | ---------- | ------------------------------------------------------------------------------------ | ------------------------------------------------ |
| **`ndarray`**   | NumPy      | Estrutura base: um array **multidimensional** com elementos do mesmo tipo.           | Uma **tabela sem rótulos**, só números.          |
| **`Series`**    | pandas     | Um **vetor unidimensional** com **índices** e valores.                               | Uma **coluna de planilha** (com nomes de linha). |
| **`DataFrame`** | pandas     | Uma **tabela bidimensional** com **linhas e colunas** nomeadas (conjunto de Series). | Uma **planilha do Excel**.                       |


**Series**

É baseada em cima do NumPy ndarray, mas com índices rotulados.

Cada elemento tem um rótulo (index) que você pode usar para acessar valores.

Os dados podem ser de qualquer tipo: números, texto, datas, etc.

**DataFrame**

- É uma coleção de várias Series organizadas em colunas.

- Cada coluna é uma Series.

- Tem índices (linhas) e nomes de colunas, parecido com uma tabela do Excel.

------

## Working With Attributes in Python

In [4]:
import pandas as pd

In [2]:
products = ["A","B","C","D"]
products

['A', 'B', 'C', 'D']

In [3]:
type(products)

list

In [6]:
product_categories = pd.Series(products)
product_categories

0    A
1    B
2    C
3    D
dtype: object

`object` é o tipo de dados padrão atribuído aos dados, que não são numéricos.

In [7]:
type(product_categories)

pandas.core.series.Series

In [8]:
type(pd.Series(products))

pandas.core.series.Series

In [9]:
daily_rates_dollars = pd.Series([40,45,50,60])
daily_rates_dollars

0    40
1    45
2    50
3    60
dtype: int64

In [10]:
print(daily_rates_dollars)

0    40
1    45
2    50
3    60
dtype: int64


In [18]:
import numpy as np

In [19]:
array_a = np.array([10,20,30,40,50])
array_a

array([10, 20, 30, 40, 50])

Nós podemos checar um tipo de um objeto digitando **`type(object)`**:

In [20]:
type(array_a)

numpy.ndarray

Objetos Python contém:
- Dados
- Metadados
- Funcões/métodos

**Atributo**: Uma variável que fornece metadados sobre um objeto.

**Método**: Uma função que pode ser associada a um objeto.

In [23]:
array_a.dtype

dtype('int64')

In [24]:
array_a.size

5

In [25]:
type(array_a.size)

int

## Using an Index in pandas

In [28]:
import pandas as pd

In [29]:
prices_per_category = {'Product A': 22250,'Product B': 16600,'Product C': 15600}
prices_per_category

{'Product A': 22250, 'Product B': 16600, 'Product C': 15600}

In [30]:
type(prices_per_category)

dict

In [31]:
prices_per_category = pd.Series(prices_per_category)
prices_per_category

Product A    22250
Product B    16600
Product C    15600
dtype: int64

In [32]:
type(prices_per_category)

pandas.core.series.Series

In [33]:
prices_per_category.index

Index(['Product A', 'Product B', 'Product C'], dtype='object')

In [35]:
type(prices_per_category.index)

pandas.core.indexes.base.Index

### Label-based vs Position-based Indexing

In [36]:
import pandas as pd

In [37]:
series_a = pd.Series([10,20,30,40,50])
series_a

0    10
1    20
2    30
3    40
4    50
dtype: int64

In [38]:
series_a.index

RangeIndex(start=0, stop=5, step=1)

In [39]:
type(series_a.index)

pandas.core.indexes.range.RangeIndex

In [40]:
list(series_a.index)

[0, 1, 2, 3, 4]

In [41]:
prices_per_category = pd.Series({'Product A': 22250,'Product B': 16600,'Product C': 12500})
prices_per_category

Product A    22250
Product B    16600
Product C    12500
dtype: int64

In [42]:
prices_per_category.index

Index(['Product A', 'Product B', 'Product C'], dtype='object')

In [45]:
type(prices_per_category.index)

pandas.core.indexes.base.Index

## More on Working with Indices in Python

In [1]:
import pandas as pd

In [2]:
series_a = pd.Series([10,20,30,40,50])
prices_per_category = pd.Series({'Product A': 22250, 'Product B': 16600, 'Product C': 12500})

In [3]:
series_a

0    10
1    20
2    30
3    40
4    50
dtype: int64

In [4]:
series_a[0]

np.int64(10)

In [5]:
prices_per_category

Product A    22250
Product B    16600
Product C    12500
dtype: int64

In [6]:
prices_per_category['Product A']

np.int64(22250)

In [7]:
prices_per_category[0]

  prices_per_category[0]


np.int64(22250)

In [None]:
series_b = pd.Series([10,20,30,40,50], index = [1,2,3,4,5])
series_b

In [None]:
series_b[0]

## Using Methods in Python

In [2]:
import pandas as pd

In [3]:
start_date_deposits = pd.Series({
    '7/4/2014'  : 2000,
    '1/2/2015'  : 2000,
    '12/8/2012' : 1000,
    '2/20/2015' : 2000,
    '10/28/2013': 2000,
    '4/19/2015' : 2000,
    '7/4/2016'  : 2000,
    '4/24/2014' : 2000,
    '9/3/2015'  : 4000,
    '7/25/2016' : 2000,
    '5/1/2014'  : 2000,
    '3/29/2013' : 2000,
    '10/3/2014' : 2000,
    '9/18/2015' : 2500,
})

In [4]:
start_date_deposits

7/4/2014      2000
1/2/2015      2000
12/8/2012     1000
2/20/2015     2000
10/28/2013    2000
4/19/2015     2000
7/4/2016      2000
4/24/2014     2000
9/3/2015      4000
7/25/2016     2000
5/1/2014      2000
3/29/2013     2000
10/3/2014     2000
9/18/2015     2500
dtype: int64

In [5]:
start_date_deposits.head()

7/4/2014      2000
1/2/2015      2000
12/8/2012     1000
2/20/2015     2000
10/28/2013    2000
dtype: int64

In [6]:
start_date_deposits.tail()

7/25/2016    2000
5/1/2014     2000
3/29/2013    2000
10/3/2014    2000
9/18/2015    2500
dtype: int64

## Introduction to Pandas Dataframes
>Um DataFrame em Pandas é uma tabela de dados bidimensional (como uma planilha do Excel), formada por linhas e colunas

In [7]:
import pandas as pd

**Construa um DataFrame a partir de um dicionário de listas.**

In [8]:
data = {'ProductName':['Product A', 'Product B', 'Product C'], 'ProductPrice':[22250, 16600, 12500]}
df = pd.DataFrame(data)
df

Unnamed: 0,ProductName,ProductPrice
0,Product A,22250
1,Product B,16600
2,Product C,12500


**Construa um DataFrame a partir de um dicionário de lista + especificando um index**.

In [9]:
data = {'ProductName':['Product A', 'Product B', 'Product C'], 'ProductPrice':[22250, 16600, 12500]}
df = pd.DataFrame(data, index = ['A','B','C'])
df

Unnamed: 0,ProductName,ProductPrice
A,Product A,22250
B,Product B,16600
C,Product C,12500


In [10]:
data = {'ProductName':['Product A', 'Product B', 'Product C'], 'ProductPrice':[22250, 16600, 12500]}
product_IDs = ['A','B','C']
df = pd.DataFrame(data, index = product_IDs)
df

Unnamed: 0,ProductName,ProductPrice
A,Product A,22250
B,Product B,16600
C,Product C,12500


**Construa um DataFrame a partir de uma lista de dicionários.**

In [12]:
data = [{'ProductName':'Product A', 'ProductPrice':22250},
        {'ProductName':'Product B', 'ProductPrice':16600},
        {'ProductName':'Product C', 'ProductPrice':12500}]
df = pd.DataFrame(data)
df

Unnamed: 0,ProductName,ProductPrice
0,Product A,22250
1,Product B,16600
2,Product C,12500


**Construa um DataFrame a partir de um dicionário de séries do Pandas.**

In [13]:
serie_products = pd.Series(['Product A','Product B','Product C'])
serie_prices = pd.Series([22250, 16600, 12500])

In [14]:
data = {'ProductName': serie_products, 'ProductPrice': serie_prices}
df = pd.DataFrame(data)
df

Unnamed: 0,ProductName,ProductPrice
0,Product A,22250
1,Product B,16600
2,Product C,12500


In [16]:
serie_products = pd.Series(['Product A','Product B','Product C'], index = ['A','B','C'])
serie_prices = pd.Series([22250, 16600, 12500], index = ['A','B','C'])

data = {'ProductName': serie_products, 'ProductPrice': serie_prices}
df = pd.DataFrame(data)
df

Unnamed: 0,ProductName,ProductPrice
A,Product A,22250
B,Product B,16600
C,Product C,12500


**Construa um DataFrame a partir de uma lista de listas.**

In [17]:
data = [['Product A', 22250],['Product B', 16600],['Product C', 12500]]
df = pd.DataFrame(data)
df

Unnamed: 0,0,1
0,Product A,22250
1,Product B,16600
2,Product C,12500


In [18]:
df.columns = ['ProductName','ProductPrice']
df

Unnamed: 0,ProductName,ProductPrice
0,Product A,22250
1,Product B,16600
2,Product C,12500


In [19]:
df.index = ['A','B','C']
df

Unnamed: 0,ProductName,ProductPrice
A,Product A,22250
B,Product B,16600
C,Product C,12500


**Como construir um DataFrame de forma profissional**.

In [21]:
df = pd.DataFrame(data = [['Product A', 22250], ['Product B', 16600], ['Product C', 12500]],
                  columns = ['ProductName', 'ProductPrice'],
                  index = ['A', 'B', 'C'])
df

Unnamed: 0,ProductName,ProductPrice
A,Product A,22250
B,Product B,16600
C,Product C,12500


In [22]:
df.shape

(3, 2)