Pandas é uma biblioteca Python muito útil para manipulação de dados. Ela trabalha basicamente com duas estruturas: [DataFrame](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html) e [Series](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html).
    
Series são similares aos vetores, porém, a Serie possui um rótulo. DataFrame é similar a matrizes, porém, cada coluna e linha também pode possuir um rótulo. Além disso, com tais estruturas, vocês podem usar diversos métodos para obter, manipular, agrupar e filtrar os dados [Veja aqui mais propriedades dessas duas estruturas](https://pandas.pydata.org/pandas-docs/stable/getting_started/overview.html).

Este roteiro é bem introdutório apenas com as funcionalidades mais importantes (e as que iremos usar mais frequentemente nas práticas). Para roteiros mais abrangentes, recomendo: [link1](https://www.machinelearningplus.com/python/101-pandas-exercises-python/), [link2](https://www.kaggle.com/marcelopacote/curso-pandas-primeira-lista-de-exercicios).


In [None]:
import pandas as pd
import numpy as np

## Series

Series é similar a um vetor, porém é possível definir rótulos aos indices além de realizar manipulações e consultas facilmente

In [None]:
idade = pd.Series([10,40,40,20])
print(idade)

In [None]:
idades = pd.Series([10,40,40,20],index=["Alice","Bob","Carol","Daniel"])
print(idades)

Comandos interessantes: é possivel, neste exemplo, quantas pessoas tem uma determinada idade:

In [None]:
idades.value_counts()

Além de outras estatisticas

In [None]:
idades.describe()

**Navegando nos valores de value_counts**:

In [None]:
for idade,qtd_pessoas in idades.value_counts().iteritems():
    print("Idade: "+str(idade)+" Quantidade: "+str(qtd_pessoas))

## DataFrame

DataFrame é similar a uma matriz, porém, possui operações de filtrar, contabilizar e manipular elementos. Para cada coluna, colocamos seus elementos.

In [None]:
contatos = pd.DataFrame({'Nome' : ["Alice", "Bob", "Carol", "Daniel", "Elisa"],
                   'Idade' : [12, 34, 12, 32,23],
                   'Altura': [1.4,1.6,1.35,1.5,1.55],
                   'Cidade' : ["Belo Horizonte","São Paulo","São Paulo","Rio de Janeiro","Belo Horizonte"],
                   })

In [None]:
contatos

Outra forma de criar:

In [None]:
pd.DataFrame([["Alice",12 ,1.4  , "Belo Horizonte"],
               ["Bob",34, 1.6,"São Paulo"],
                ["Carol",12,1.35, "São Paulo"],
                ["Daniel",31, 1.5, "Rio de Janeiro"],
                ["Elisa",23, 1.55, "Belo Horizonte"],
                        ],
                       columns = ["Nome","Idade","Altura","Cidade"])

**Adicionar uma nova coluna**

In [None]:
contatos["Peso"] =  pd.Series([20,50,45,55,60])

**Funções para ordenar:**

In [None]:
contatos_ord = contatos.sort_values(by="Nome")
contatos_ord

Atenção: Assim como a maioria das operações, é retornado um DataFrame ordenado. O DataFrame **contatos** não muda a sua ordem. Para que seja feita a alteração direta no DataFrame, usamos inplace=True

In [None]:
contatos.sort_values(by="Altura",inplace=True)
contatos

**Filtrar**:

In [None]:
contatos[contatos["Idade"]<18]

**Agrupar e cal**

In [None]:
contatos.groupby(["Cidade"]).mean()

**Como cada coluna é uma série, podemos usar o value_counts**:

In [None]:
contatos["Cidade"].value_counts()

**Visualizar os resultados**

In [None]:
contatos.plot.scatter(x='Idade',
                       y='Altura',
                       c='Peso',
                     colormap='viridis')

In [None]:
#filtra os contatos por cidade (para fazer grupos)
contatosBH = contatos[contatos["Cidade"]=="Belo Horizonte"]
contatosSP = contatos[contatos["Cidade"]=="São Paulo"]

#Cria o plot com os dois grupos
plot_gp1 = contatosBH.plot.scatter(x='Idade', y='Altura', color='DarkBlue', label='BH')
contatosSP.plot.scatter(x='Idade', y='Altura', color='Red', label='SP',ax=plot_gp1)

Veja: [documentação](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.plot.html), [exemplos](https://towardsdatascience.com/a-guide-to-pandas-and-matplotlib-for-data-exploration-56fad95f951c) e [mais exemplos](https://pandas.pydata.org/pandas-docs/stable/user_guide/visualization.html)