# Pandas

<img src="img/pandas_logo.png" alt="drawing" width="600"/>

A biblioteca Pandas fornece um conjuto de ferramentas de alta performace e de fácil utilização para trabalharmos com análise de dados, manipulação, vizualização e leitura de dados, sendo indispensável para quem trabalha com data science em Python.

### Séries
Séries são objetos unidimensionais parecidos com arrays(vetores), sua diferença é que Séries sempre possuirão índices. Lembre-se que os índices do python, por padrão, começam pelo 0.

In [29]:
import numpy
import pandas as pd
import matplotlib.pyplot as plt

In [30]:
numpy.random.seed(50)
notas = pd.Series(numpy.random.randint(1,10,6))
notas

0    1
1    1
2    2
3    5
4    7
5    6
dtype: int32

In [31]:
notas.dtypes

dtype('int32')

A primeira coluna ao mostrar a Série são os indíces, já a segunda os valores de cada índice.

Podemos checar os valores da Série utilizando o atributo `.values`

In [32]:
notas.values

array([1, 1, 2, 5, 7, 6])

Podemos checar os indices da Série utilizando o atributo `.index`

In [33]:
notas.index

RangeIndex(start=0, stop=6, step=1)

Perceba que os índices foram criados automaticamente. Entretanto, somos capazes de criar rótulos para os índices de nossa série.  
Suponha que a seguinte Série se trata do desempenho de 6 alunos em uma prova.

In [34]:
numpy.random.seed(17) #Fixando uma semente para gerar números aleatórios
notas = pd.Series(numpy.random.randint(1,10,6), # (limite inferior,limite superior,quantidade de números gerados) 
                  ['Daniel', 'Fernando', 'Maria', 'Carlos', 'Márcia', 'Luciana'])

In [35]:
notas

Daniel      2
Fernando    7
Maria       7
Carlos      1
Márcia      7
Luciana     5
dtype: int32

In [36]:
notas.index

Index(['Daniel', 'Fernando', 'Maria', 'Carlos', 'Márcia', 'Luciana'], dtype='object')

Podemos verificar o valor de uma linha apenas passando o valor do índice.

In [37]:
notas['Maria']

7

Se utilizarmos operadores lógicos podemos filtrar nosso objeto. No seguinte exemplo queremos apenas os alunos que possuem a nota acima da média da turma.

In [38]:
notas[notas > notas.mean()]

Fernando    7
Maria       7
Márcia      7
Luciana     5
dtype: int32

OBS.: Apenas operadores Bitwise são aceitos:  `|, <, >, <=, >=, ==, !=, &`    
Operadores como `or` e `and` não são aceitos!

Também podemos alterar os índices já criados, nesse caso adicionaremos a letra "A" após cada nome indicando a turma do aluno.

In [39]:
notas.index = [nota + ' A' for nota in notas.index]

OBS.: O comando [nota + ' A' for nota in notas.index] é uma forma curta de se criar uma lista.
<br>
Utilizamos o ciclo `for`  para percorrer todos os índices da série e adicionar o caracter 'A' no final de cada índice. Observe que o ciclo está escrito dentro de uma lista, assim, no final da execução dessa linha de código, todos os elementos alterados irão ser salvos nessa nova lista.

In [40]:
notas

Daniel A      2
Fernando A    7
Maria A       7
Carlos A      1
Márcia A      7
Luciana A     5
dtype: int32

Um outro exemplo:

In [41]:
[numero for numero in range(1,11)]

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

### Séries a partir de dicionários

Desse jeito as chaves serão consideradas como os índices.

In [42]:
series_dict = pd.Series({'a':1,
                         'b': 2,
                         'c': 10,
                         'f':35})
series_dict

a     1
b     2
c    10
f    35
dtype: int64

#### Adicionando índices a uma série que não possui valores para tal.

In [43]:
series_nan = pd.Series(series_dict, ['a','b', 'c','d','f', 'g'])
series_nan

a     1.0
b     2.0
c    10.0
d     NaN
f    35.0
g     NaN
dtype: float64

Estamos atribuindo novos índices para os valores presentes na série anterior. Observe que os valores serão preenchidos de acordo com os índices já existentes. Aqueles índices que não existem na série, serão preenchidos por padrão com o valor `NaN`.
<br>
O `NaN`, Not A Number, é um valor que existe no pacote numpy , aqui vemos que o pandas importa o numpy para suas dependências e o utiliza implicitamente.

In [44]:
numpy.nan

nan

Porém veja que `NaN` é um float

In [45]:
type(numpy.nan)

float

Podemos alterar valores de índices da seguinte maneira:

In [46]:
series_nan['d'] = 13.
series_nan

a     1.0
b     2.0
c    10.0
d    13.0
f    35.0
g     NaN
dtype: float64

### Operações com Séries

Podemos aplicar funções em nossas séries.

Diferente das listas do python, podemos realizar operações em todos os valores da série.
<br>
Exemplo:

In [47]:
numeros = [2,3,4,5,6]

In [48]:
numeros**2

TypeError: unsupported operand type(s) for ** or pow(): 'list' and 'int'

In [None]:
series_nan**2

O método `numpy.log()` Aplicará o logaritmo  natural em todos os valores da série.

In [None]:
numpy.log(series_nan)

O método `.mean()` irá realizar a média aritmética dos valores.

In [None]:
series_nan.mean()

O método `.describe` nos retornará um resumo descritivo das nossas variáveis.

In [None]:
series_nan.describe()

E por último podemos dar um nome as nossas Séries utilizando o argumento `name` dentro de `pd.Series`

In [None]:
serie_nomeada = pd.Series([5, 4, 3, 1, 7, numpy.nan], name='Número')
serie_nomeada

Também podemos renomea-las utilizando o método `.rename`

In [None]:
serie_renomeada = serie_nomeada.rename('Números')
serie_renomeada

### Dataframes

Dataframes e séries são bem parecidos e possuem métodos semelhantes, a grande diferença é que um Dataframe é um objeto bidimensional parecido com uma planilha.

#### Criando um Dataframe a partir de um  dicionário:

Diferente do método `pd.Series()` o  `pd.Dataframe` irá transformar as chaves dos dicionários em colunas ao invés de índices.

In [None]:
numpy.random.seed(555)
df = pd.DataFrame({'Aluno' : ['Daniel', 'Fernando', 'Maria', 'Carlos', 'Márcia'],
                   'Faltas' : numpy.random.randint(0,5,5),
                   'Prova' : numpy.random.normal(7, 1, 5).round(2),
                   'Seminário': numpy.random.normal(8, 1, 5).round(2),})

df

#### Verificando os tipos de variáveis em nosso Dataframe

Podemos verificar os tipos das variáveis de um Dataframe utilizando o atribuido `.dtypes`

In [None]:
df.dtypes

#### Vendo algumas informações de um Dataframe

O método `.info()` gera informações sobre um DataFrame. É possível indentificar o tipo dos dados de cada coluna, o índice, valores não nulos e uso da memória.

In [None]:
df.info()

#### Calculando estatística descritivas resumo

O uso do método `.describe()` em Dataframes é semelhante ao uso em séries.

In [None]:
df.describe()

#### Filtrando uma coluna específica de um Dataframe

Para filtrar uma coluna especifica de um Dataframe, basta utilizar a seguinte sintaxe:
<br>
*dataframe.Nome_da_Coluna*

In [None]:
df.Aluno

Outra maneira é utilizar o nome da coluna dentro de colchetes.

In [None]:
df['Aluno']

#### Selecionando dois ou mais colunas

Para selecionar mais de uma coluna de um Dataframe basta passar uma lista entre os colchetes com o nome das colunas desejadas.

In [None]:
df[['Aluno', 'Prova']]

Observe que um Dataframe é um conjunto de Séries onde cada coluna é uma série.

In [None]:
type(df.Aluno)

#### Filtrando utilizando operadores Bitwise

Para filtrar utilizando operadores Bitwise basta acrescentar entre colchetes a série do Dataframe e em seguida o perador seguido da sua condição.
<br>
Exemplos:

In [None]:
df[df["Prova"] > 7.0]

In [None]:
df[(df["Seminário"] > 8.0) & (df["Prova"] > 6)]

#### Filtrando a partir de um índice

O método `.loc[i]` irá extrair do DataFrame os valores para o índice i.

In [None]:
df.loc[3]

#### Ordenando o Dataframe

Para ordenar um Dataframe em ordem crescente basta utilizar o método `.sort_values` passando o nome da coluna que será ordenada para o argumento `by`.

In [None]:
df.sort_values(by=['Faltas'])

Para ordenar em ordem decrescente basta acrescentar o argumento `ascending = False`

In [None]:
df.sort_values(by='Faltas', ascending=False)

### Leitura de arquivos

A leitura de arquivos é bem simples no pandas. Todas os métodos que leem arquivos começam com `.read_`  
São alguns deles:  
    `.read_csv`  
    `.read_excel`  
    `.read_clipboard`  
    `.read_sql`  
    `.read_json`

Para visualizar todos, aqui no Jupyter Notebook podemos escrever `pd.read_` e em seguida pressionar a tecla **TAB**. O Jupyter nos mostrará segestões. Navegue com as setinhas do teclado para ver todas as sugestões

In [None]:
data = pd.read_csv('datasets\\StudentsPerformance.csv')
data

Veja que o Dataframe é muito grande, os métodos `.head()` e `.tail()` mostram respectivametente as primeiras e as últimas linhas do dataframe

In [None]:
data.head()

In [None]:
data.tail()

Ambos podem receber a quantidade de linhas a serem mostradas como argumento.

In [None]:
data.head(10)

In [None]:
data.tail(10)

#### Nome das colunas

In [None]:
data.columns

### Manipulação de dados

#### Obtendo valores únicos de uma coluna

In [None]:
data.gender.unique()

In [None]:
data['race/ethnicity'].unique()

#### Calculando a frequência dos valores

In [None]:
data.gender.value_counts()

O argumento `normalize` recebe  um Booleano, em caso de `True` ele calculará a proporção.

In [None]:
data.gender.value_counts(normalize=True)

#### Groupby

O método `.groupby()` serve para agrupar as variaveis aos nossos critérios, o que é de grande ajuda quando precisamos calcular algumas medidas dessas variáveis agrupadas.

In [None]:
data.groupby('gender').mean()

In [None]:
data.groupby('gender').mean()['math score'].sort_values()

Agrupando em mais de uma variável

In [None]:
media_matematica_por_genero_raca = data.groupby(['gender','race/ethnicity']).mean()['math score']
media_matematica_por_genero_raca

#### Aggregators

A função `.agg` recebe um dicionário, onde a chave é o nome da coluna que será criada e o conteúdo é a quantidade especificada para ser gerada para cada grupo especificado no `.groupby`

In [None]:
data.groupby(['gender', 'lunch', 'race/ethnicity'])\
.agg({"gender": "count",
      "math score": "mean",
      "race/ethnicity": "count",})

OBS.: Percebe que o tipo de objeto que o groupby será após aplicar o método `.mean()` é uma série com múltiplos indices.

In [None]:
print(type(media_matematica_por_genero_raca))
media_matematica_por_genero_raca.index

### Apply
Com o apply podemos aplicar a mesma função em todos os elementos de uma coluna.

In [None]:
def retorna_apenas_a_letra_do_grupo(grupo):
    return grupo[-1]

In [None]:
data['race/ethnicity'].apply(retorna_apenas_a_letra_do_grupo).head(10)

#### Funções Lambda

Um jeito rápido de criar funções curtas é utilizando as funções lambdas.Enquanto funções normais podem ser criada utilizando def como prefixo, as funções lambda são criadas utilizando `lambda`.
<br>
Para cria-las deve-se utilizar a seguinte sintaxe: 
<br>
<span style="color:green">lambda</span> argumento1,....argumentoN : o que será retornado.
<br>
Exemplo:


In [None]:
elevar = lambda a,b: a**b
elevar(2,3)

Agora sabendo disso, podemos aplica-las utilizando o método `.apply` 

In [None]:
data['race/ethnicity'].apply(lambda x: x[-1]).head(10)

In [None]:
data['math score'].apply(lambda x: x/10).head(10)

In [None]:
data.head(10)

In [None]:
data['race/ethnicity'] = data['race/ethnicity'].apply(lambda x: x[-1])
data.head(10)

## Referências

http://pandas.pydata.org/pandas-docs/stable/getting_started/10min.html  
http://pandas.pydata.org/pandas-docs/stable/user_guide/cookbook.html#cookbook  
https://medium.com/data-hackers/uma-introdução-simples-ao-pandas-1e15eea37fa1  
https://www.shanelynn.ie/merge-join-dataframes-python-pandas-index-1/  