# Introdução ao Numpy e ao Pandas
Após concluir esta unidade, você estará apto a:

- Entender as principais características das bibliotecas Numpy e Pandas;
- Aprender a utilização de objetos dos tipos ndarrays, Series e DataFrames;
- Utilizar as principais funcionalidades do NumPy e Pandas para tratamento, manipulação e análise de dados.

# Numpy
NumPy é uma biblioteca Python de código aberto que facilita operações numéricas eficientes em grandes quantidades de dados. A estrutura de dados principal nesta biblioteca é o poderoso array NumPy, __[ndarray](https://numpy.org/doc/stable/reference/generated/numpy.ndarray.html)__, que pode ter qualquer número de dimensões. A biblioteca NumPy contém muitos recursos úteis para realizar operações matemáticas e lógicas nessas matrizes especiais. NumPy é uma parte de um conjunto de bibliotecas Python que são usadas para computação científica devido aos seus recursos de análise de dados eficientes.

# Pandas
Pandas é uma biblioteca com ferramentas de manipulação de dados que são construídas em cima e adicionadas àquelas da biblioteca NumPy estabelecida. Ele se baseia na estrutura do array NumPy para implementação de seus objetos e, portanto, compartilha muitos recursos com o NumPy e é frequentemente usado junto com ele. O Pandas também faz parte do conjunto de bibliotecas usadas para computação científica.

# Instalação
Para instalar as biblitecas NumPy e Pandas, basta utilizar o seguinte comando:

- pip install numpy pandas

Ou, se você estiver utilizando o Poetry:

- poetry add numpy pandas

Ou ainda, se você estiver utilizando o Anaconda:

- conda install numpy pandas

Depois de instalar essas bibliotecas, você está pronto para abrir qualquer ambiente de codificação Python (recomendamos o Jupyter Notebook). Antes de usar essas bibliotecas, você precisará importá-las usando as seguintes linhas de código. Usaremos as abreviações np e pd, respectivamente, para simplificar nossas chamadas de função no futuro.

In [1]:
import numpy as np
import pandas as pd

# Matrizes NumPy (NumPy Arrays)
Os NumPy arrays são únicos por serem mais flexíveis do que as listas normais do Python. Eles são chamados de ndarrays, pois podem ter qualquer número de dimensões. Eles contêm uma coleção de itens de qualquer tipo de dados e podem ser um vetor (unidimensional) ou uma matriz (multidimensional). Os NumPy arrays permitem acesso rápido a elementos e manipulação de dados eficiente.

O código a seguir inicializa uma lista Python chamada list1:

In [5]:
list1 = [1, 2, 3, 4]
print(list1)
print(type(list1))

[1, 2, 3, 4]
<class 'list'>


Para converter isso em um ndarray unidimensional com uma linha e quatro colunas, podemos usar a função np.array():

In [6]:
array1 = np.array(list1)
print(array1)
print(type(array1))

[1 2 3 4]
<class 'numpy.ndarray'>


Para obter um ndarray bidimensional de uma lista, devemos começar com uma lista de listas Python:

In [9]:
list2 =[[1, 2, 3], [4, 5, 6]]
print(list2)
array2 = np.array(list2)
print(array2)

[[1, 2, 3], [4, 5, 6]]
[[1 2 3]
 [4 5 6]]


Na saída acima, você pode notar que a impressão do NumPy array é exibida de uma forma que demonstra claramente sua estrutura multidimensional: duas linhas e três colunas.

Muitas operações podem ser realizadas em NumPy arrays, o que os torna muito úteis para manipular dados:

- Selecionar elementos do array
- Fatiar arrays
- Redimensionar arrays
- Dividir arrays
- Combinar arrays
- Operações numéricas (min, max, mean, etc)

As operações matemáticas podem ser executadas em todos os valores em um ndarray de uma só vez, em vez de ter que percorrer os valores, como é necessário com uma lista Python. Isso é muito útil em muitos cenários. Digamos que você seja dono de uma loja de brinquedos e decida diminuir o preço de todos os brinquedos em € 2 para uma promoção de fim de semana. Com os preços dos brinquedos armazenados em um ndarray, você pode facilitar essa operação facilmente.

In [10]:
precos = np.array([5, 8, 3, 6])
print(precos - 2)

[3 6 1 4]


In [26]:
# teste
preco = [5, 8, 3, 6]
for i in range(0, len(preco)):
    print(preco[i], end = " ")
print(len(preco))

5 8 3 6 4


Se, no entanto, você tivesse armazenado os preços em uma lista Python, teria que percorrer manualmente toda a lista para diminuir em cada preço.

Para aprender mais sobre NumPy, assista o seguinte vídeo:
__[Python NumPy Tutotial for Beginners](https://www.youtube.com/watch?v=QUT1VHiLmmI&feature=emb_logo)__

# Pandas Series e Dataframes
Assim como o ndarray é a base da biblioteca NumPy, a Series é o objeto central da biblioteca pandas. Um objeto Series no pandas é muito semelhante a uma NumPy array unidimensional, mas tem funcionalidade adicional que permite que os valores da série sejam indexados usando rótulos. Um NumPy ndarray não tem flexibilidade para fazer isso. Essa identificação é útil quando você está armazenando dados que possuem outros dados associados a eles. Digamos que você queira armazenar as idades dos alunos em um curso online para, eventualmente, descobrir a idade média dos alunos. Se armazenado em ndarray, você só poderia acessar essas idades com os índices internos 0,1,2 ... Com um objeto Series, os índices de valores são definidos como 0,1,2 ... por padrão, mas você pode personalizar os índices para serem outros valores, como nomes de alunos, para que uma idade possa ser acessada usando um nome. Os índices personalizados de uma Série são estabelecidos enviando valores para o construtor da Série, como você verá a seguir.

Uma série contém itens de qualquer tipo de dados e pode ser criada enviando um valor escalar, lista Python, dicionário ou ndarray como parâmetro para o construtor da série pandas. Se um dicionário for enviado, as chaves podem ser usadas como índices.

In [28]:
# Crie uma série usando uma matriz NumPy de idades com índices numéricos padrão
idades = np.array([13, 25, 19])
series_1 = pd.Series(idades)
print(series_1)

0    13
1    25
2    19
dtype: int32


Ao imprimir uma série, o tipo de dados de seus elementos também é impresso. Para personalizar os índices de um objeto Series, use o argumento index do construtor Series.

In [29]:
idades = np.array([13, 25, 19])
series1 = pd.Series(idades, index = ['João', 'Maria', 'José'])
print(series1)

João     13
Maria    25
José     19
dtype: int32


Os objetos Series fornecem mais informações do que os arrays NumPy. Imprimir uma ndarray de idades não imprime os índices nem nos permite personalizá-los.

Outro tipo importante de objeto na biblioteca do pandas é o __[DataFrame](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html)__. Este objeto é semelhante em forma a uma matriz, pois consiste em linhas e colunas. Tanto as linhas quanto as colunas podem ser indexadas com números inteiros ou nomes de String. Um DataFrame pode conter muitos tipos diferentes de tipos de dados, mas dentro de uma coluna, tudo deve ser o mesmo tipo de dados. Uma coluna de um DataFrame é essencialmente uma série. Todas as colunas devem ter o mesmo número de elementos (linhas).

Existem diferentes maneiras de preencher um DataFrame, como com um arquivo CSV, uma consulta SQL, uma lista Python ou um dicionário. Aqui, criamos um DataFrame usando uma lista de listas Python. Cada lista aninhada representa os dados em uma linha do DataFrame. Usamos as colunas de palavras-chave para passar a lista de nossos nomes de coluna personalizados.

In [41]:
df = pd.DataFrame([
    ['Linus Torvalds', '123 Main St', 51],
    ['Guido Van Rossum', '456 Maple Ave', 65],
    ['Richard Stallman', '789 Broadway', 68],
], columns = ['nome', 'endereco', 'idade'])
df

Unnamed: 0,nome,endereco,idade
0,Linus Torvalds,123 Main St,51
1,Guido Van Rossum,456 Maple Ave,65
2,Richard Stallman,789 Broadway,68


Os índices de linha padrão são 0,1,2 ..., mas podem ser alterados. Por exemplo, eles podem ser definidos para serem os elementos em uma das colunas do DataFrame. Para usar a coluna de nomes como índices em vez dos valores numéricos padrão, podemos executar o seguinte comando em nosso DataFrame:

In [50]:
df.set_index('nome')
# df.set_index([pd.Index([1,2,3]), 'nome'])

Unnamed: 0_level_0,endereco,idade
nome,Unnamed: 1_level_1,Unnamed: 2_level_1
Linus Torvalds,123 Main St,51
Guido Van Rossum,456 Maple Ave,65
Richard Stallman,789 Broadway,68


DataFrames são úteis porque tornam muito mais fácil selecionar, manipular e resumir dados. Seu formato tabular (uma tabela com linhas e colunas) também torna mais fácil rotular, ler e exportar dados de e para uma planilha. Compreender o poder dessas novas estruturas de dados é a chave para desbloquear muitos novos caminhos para manipulação, exploração e análise de dados!

Para aprender sobre Pandas, confira o vídeo a seguir: [Python Pandas](https://www.youtube.com/watch?time_continue=1&v=vmEHCJofslg&feature=emb_logo)