# Pandas

<img src="img/pandas_logo.png" alt="drawing" width="600"/>

A biblioteca Pandas fornece um conjuto de ferramentas de alta performace e de fácil utilização para trabalharmos com análise de dados, manipulação, visualização e leitura de dados, sendo indispensável para quem trabalha com data science em Python.

### Séries
Séries são objetos unidimensionais parecidos com arrays(vetores), sua diferença é que Séries sempre possuirão índices. Lembre-se que os índices do python, por padrão, começam pelo 0.

In [1]:
import numpy
import pandas as pd
import matplotlib.pyplot as plt

In [2]:
numpy.random.seed(50)
notas = pd.Series(numpy.random.randint(1,10,6))
notas

0    1
1    1
2    2
3    5
4    7
5    6
dtype: int64

In [3]:
notas.dtypes

dtype('int64')

A primeira coluna ao mostrar a Série são os indíces, já a segunda os valores de cada índice.

Podemos checar os valores da Série utilizando o atributo `.values`

In [4]:
notas.values

array([1, 1, 2, 5, 7, 6])

Podemos checar os indices da Série utilizando o atributo `.index`

In [5]:
notas.index

RangeIndex(start=0, stop=6, step=1)

Perceba que os índices foram criados automaticamente. Entretanto, somos capazes de criar rótulos para os índices de nossa série.  
Suponha que a seguinte Série se trata do desempenho de 6 alunos em uma prova.

In [6]:
numpy.random.seed(17) #Fixando uma semente para gerar números aleatórios
notas = pd.Series(numpy.random.randint(1,10,6), # (limite inferior,limite superior,quantidade de números gerados) 
                  ['Daniel', 'Fernando', 'Maria', 'Carlos', 'Márcia', 'Luciana'])

In [7]:
notas

Daniel      2
Fernando    7
Maria       7
Carlos      1
Márcia      7
Luciana     5
dtype: int64

In [8]:
notas.index

Index(['Daniel', 'Fernando', 'Maria', 'Carlos', 'Márcia', 'Luciana'], dtype='object')

Podemos verificar o valor de uma linha apenas passando o valor do índice.

In [9]:
notas['Maria']

7

Se utilizarmos operadores lógicos podemos filtrar nosso objeto. No seguinte exemplo queremos apenas os alunos que possuem a nota acima da média da turma.

In [10]:
notas[notas > notas.mean()]

Fernando    7
Maria       7
Márcia      7
Luciana     5
dtype: int64

OBS.: Apenas operadores Bitwise são aceitos:  `|, <, >, <=, >=, ==, !=, &`    
Operadores como `or` e `and` não são aceitos!

Também podemos alterar os índices já criados, nesse caso adicionaremos a letra "A" após cada nome indicando a turma do aluno.

In [11]:
notas.index = [nota + ' A' for nota in notas.index]

OBS.: O comando [nota + ' A' for nota in notas.index] é uma forma curta de se criar uma lista.
<br>
Utilizamos o ciclo `for`  para percorrer todos os índices da série e adicionar o caracter 'A' no final de cada índice. Observe que o ciclo está escrito dentro de uma lista, assim, no final da execução dessa linha de código, todos os elementos alterados irão ser salvos nessa nova lista.

In [12]:
notas

Daniel A      2
Fernando A    7
Maria A       7
Carlos A      1
Márcia A      7
Luciana A     5
dtype: int64

Um outro exemplo:

In [13]:
[numero for numero in range(1,11)]

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

Verifique que, ao tentar modificar apenas um posição do índice ocorre um erro. Isto ocorre porque índices são atributos imutáveis.

In [14]:
notas.index[0] = "Ana"

TypeError: Index does not support mutable operations

### Séries a partir de dicionários

Desse jeito as chaves serão consideradas como os índices.

In [15]:
series_dict = pd.Series({'a':1,
                         'b': 2,
                         'c': 10,
                         'f':35})
series_dict

a     1
b     2
c    10
f    35
dtype: int64

#### Adicionando índices a uma série que não possui valores para tal.

In [16]:
series_nan = pd.Series(series_dict, ['a','b', 'c','d','f', 'g'])
series_nan

a     1.0
b     2.0
c    10.0
d     NaN
f    35.0
g     NaN
dtype: float64

Estamos atribuindo novos índices para os valores presentes na série anterior. Observe que os valores serão preenchidos de acordo com os índices já existentes. Aqueles índices que não existem na série, serão preenchidos por padrão com o valor `NaN`.
<br>
O `NaN`, Not A Number, é um valor que existe no pacote numpy , aqui vemos que o pandas importa o numpy para suas dependências e o utiliza implicitamente.

In [17]:
numpy.nan

nan

Porém veja que `NaN` é um float, logo o tipo da série é mudado para `float64`.

In [18]:
type(numpy.nan)

float

Podemos alterar valores de índices da seguinte maneira:

In [19]:
series_nan['d'] = 13.
series_nan

a     1.0
b     2.0
c    10.0
d    13.0
f    35.0
g     NaN
dtype: float64

### Operações com Séries

Podemos aplicar funções em nossas séries.

Diferente das listas do python, podemos realizar operações em todos os valores da série.
<br>
Exemplo:

In [20]:
numeros = [2,3,4,5,6]

In [21]:
numeros ** 2

TypeError: unsupported operand type(s) for ** or pow(): 'list' and 'int'

In [22]:
series_nan**2

a       1.0
b       4.0
c     100.0
d     169.0
f    1225.0
g       NaN
dtype: float64

O método `numpy.log()` Aplicará o logaritmo  natural em todos os valores da série.

In [23]:
numpy.log(series_nan)

a    0.000000
b    0.693147
c    2.302585
d    2.564949
f    3.555348
g         NaN
dtype: float64

O método `.mean()` irá realizar a média aritmética dos valores.

In [24]:
series_nan.mean()

12.2

O método `.describe` nos retornará um resumo descritivo das nossas variáveis.

In [25]:
series_nan.describe()

count     5.000000
mean     12.200000
std      13.736812
min       1.000000
25%       2.000000
50%      10.000000
75%      13.000000
max      35.000000
dtype: float64

E por último podemos dar um nome as nossas Séries utilizando o argumento `name` dentro de `pd.Series`

In [26]:
serie_nomeada = pd.Series([5, 4, 3, 1, 7, numpy.nan], name='Número')
serie_nomeada

0    5.0
1    4.0
2    3.0
3    1.0
4    7.0
5    NaN
Name: Número, dtype: float64

Também podemos renomea-las utilizando o método `.rename`

In [27]:
serie_renomeada = serie_nomeada.rename('Números')
serie_renomeada

0    5.0
1    4.0
2    3.0
3    1.0
4    7.0
5    NaN
Name: Números, dtype: float64

### Dataframes

Dataframes e séries são bem parecidos e possuem métodos semelhantes, a grande diferença é que um Dataframe é um objeto bidimensional parecido com uma planilha.

#### Criando um Dataframe a partir de um  dicionário:

Diferente do método `pd.Series()` o  `pd.Dataframe` irá transformar as chaves dos dicionários em colunas ao invés de índices.

In [28]:
numpy.random.seed(555)
df = pd.DataFrame({'Aluno' : ['Daniel', 'Fernando', 'Maria', 'Carlos', 'Márcia'],
                   'Faltas' : numpy.random.randint(0,5,5),
                   'Prova' : numpy.random.normal(7, 1, 5).round(2),
                   'Seminário': numpy.random.normal(8, 1, 5).round(2),})

df

Unnamed: 0,Aluno,Faltas,Prova,Seminário
0,Daniel,2,7.32,8.85
1,Fernando,1,7.7,8.98
2,Maria,1,6.4,7.37
3,Carlos,4,6.77,8.02
4,Márcia,1,5.06,7.94


#### Verificando os tipos de variáveis em nosso Dataframe

Podemos verificar os tipos das variáveis de um Dataframe utilizando o atribuido `.dtypes`

In [29]:
df.dtypes

Aluno         object
Faltas         int64
Prova        float64
Seminário    float64
dtype: object

#### Vendo algumas informações de um Dataframe

O método `.info()` gera informações sobre um DataFrame. É possível indentificar o tipo dos dados de cada coluna, o índice, valores não nulos e uso da memória.

In [30]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
Aluno        5 non-null object
Faltas       5 non-null int64
Prova        5 non-null float64
Seminário    5 non-null float64
dtypes: float64(2), int64(1), object(1)
memory usage: 288.0+ bytes


#### Calculando estatística descritivas resumo

O uso do método `.describe()` em Dataframes é semelhante ao uso em séries.

In [31]:
df.describe()

Unnamed: 0,Faltas,Prova,Seminário
count,5.0,5.0,5.0
mean,1.8,6.65,8.232
std,1.30384,1.019363,0.67355
min,1.0,5.06,7.37
25%,1.0,6.4,7.94
50%,1.0,6.77,8.02
75%,2.0,7.32,8.85
max,4.0,7.7,8.98


#### Filtrando uma coluna específica de um Dataframe

Para filtrar uma coluna especifica de um Dataframe, basta utilizar a seguinte sintaxe:
<br>
*dataframe.Nome_da_Coluna*

In [32]:
df.Aluno

0      Daniel
1    Fernando
2       Maria
3      Carlos
4      Márcia
Name: Aluno, dtype: object

Outra maneira é utilizar o nome da coluna dentro de colchetes.

In [33]:
df['Aluno']

0      Daniel
1    Fernando
2       Maria
3      Carlos
4      Márcia
Name: Aluno, dtype: object

#### Selecionando dois ou mais colunas

Para selecionar mais de uma coluna de um Dataframe basta passar uma lista entre os colchetes com o nome das colunas desejadas.

In [34]:
df[['Aluno', 'Prova']]

Unnamed: 0,Aluno,Prova
0,Daniel,7.32
1,Fernando,7.7
2,Maria,6.4
3,Carlos,6.77
4,Márcia,5.06


Observe que um Dataframe é um conjunto de Séries onde cada coluna é uma série.

In [35]:
type(df.Aluno)

pandas.core.series.Series

#### Filtrando utilizando operadores Bitwise

Para filtrar utilizando operadores Bitwise basta acrescentar entre colchetes a série do Dataframe e em seguida o perador seguido da sua condição.
<br>
Exemplos:

In [36]:
df[df["Prova"] > 7.0]

Unnamed: 0,Aluno,Faltas,Prova,Seminário
0,Daniel,2,7.32,8.85
1,Fernando,1,7.7,8.98


In [37]:
df[(df["Seminário"] > 8.0) & (df["Prova"] > 6)]

Unnamed: 0,Aluno,Faltas,Prova,Seminário
0,Daniel,2,7.32,8.85
1,Fernando,1,7.7,8.98
3,Carlos,4,6.77,8.02


#### Filtrando a partir de um índice

O método `.loc[i]` irá extrair do DataFrame os valores para o índice i.

In [38]:
df.loc[3]

Aluno        Carlos
Faltas            4
Prova          6.77
Seminário      8.02
Name: 3, dtype: object

#### Ordenando o Dataframe

Para ordenar um Dataframe em ordem crescente basta utilizar o método `.sort_values` passando o nome da coluna que será ordenada para o argumento `by`.

In [39]:
df.sort_values(by=['Faltas'])

Unnamed: 0,Aluno,Faltas,Prova,Seminário
1,Fernando,1,7.7,8.98
2,Maria,1,6.4,7.37
4,Márcia,1,5.06,7.94
0,Daniel,2,7.32,8.85
3,Carlos,4,6.77,8.02


Para ordenar em ordem decrescente basta acrescentar o argumento `ascending = False`

In [40]:
df.sort_values(by='Faltas', ascending=False)

Unnamed: 0,Aluno,Faltas,Prova,Seminário
3,Carlos,4,6.77,8.02
0,Daniel,2,7.32,8.85
1,Fernando,1,7.7,8.98
2,Maria,1,6.4,7.37
4,Márcia,1,5.06,7.94


### Leitura de arquivos

A leitura de arquivos é bem simples no pandas. Todas os métodos que leem arquivos começam com `.read_`  
São alguns deles:  
    `.read_csv`  
    `.read_excel`  
    `.read_clipboard`  
    `.read_sql`  
    `.read_json`

Para visualizar todos, aqui no Jupyter Notebook podemos escrever `pd.read_` e em seguida pressionar a tecla **TAB**. O Jupyter nos mostrará segestões. Navegue com as setinhas do teclado para ver todas as sugestões

In [41]:
data = pd.read_csv('datasets/StudentsPerformance.csv')
data

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,female,group B,bachelor's degree,standard,none,72,72,74
1,female,group C,some college,standard,completed,69,90,88
2,female,group B,master's degree,standard,none,90,95,93
3,male,group A,associate's degree,free/reduced,none,47,57,44
4,male,group C,some college,standard,none,76,78,75
...,...,...,...,...,...,...,...,...
995,female,group E,master's degree,standard,completed,88,99,95
996,male,group C,high school,free/reduced,none,62,55,55
997,female,group C,high school,free/reduced,completed,59,71,65
998,female,group D,some college,standard,completed,68,78,77


Veja que o Dataframe é muito grande, os métodos `.head()` e `.tail()` mostram respectivametente as primeiras e as últimas linhas do dataframe

In [42]:
data.head()

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,female,group B,bachelor's degree,standard,none,72,72,74
1,female,group C,some college,standard,completed,69,90,88
2,female,group B,master's degree,standard,none,90,95,93
3,male,group A,associate's degree,free/reduced,none,47,57,44
4,male,group C,some college,standard,none,76,78,75


In [43]:
data.tail()

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
995,female,group E,master's degree,standard,completed,88,99,95
996,male,group C,high school,free/reduced,none,62,55,55
997,female,group C,high school,free/reduced,completed,59,71,65
998,female,group D,some college,standard,completed,68,78,77
999,female,group D,some college,free/reduced,none,77,86,86


Ambos podem receber a quantidade de linhas a serem mostradas como argumento.

In [44]:
data.head(10)

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,female,group B,bachelor's degree,standard,none,72,72,74
1,female,group C,some college,standard,completed,69,90,88
2,female,group B,master's degree,standard,none,90,95,93
3,male,group A,associate's degree,free/reduced,none,47,57,44
4,male,group C,some college,standard,none,76,78,75
5,female,group B,associate's degree,standard,none,71,83,78
6,female,group B,some college,standard,completed,88,95,92
7,male,group B,some college,free/reduced,none,40,43,39
8,male,group D,high school,free/reduced,completed,64,64,67
9,female,group B,high school,free/reduced,none,38,60,50


In [45]:
data.tail(10)

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
990,male,group E,high school,free/reduced,completed,86,81,75
991,female,group B,some high school,standard,completed,65,82,78
992,female,group D,associate's degree,free/reduced,none,55,76,76
993,female,group D,bachelor's degree,free/reduced,none,62,72,74
994,male,group A,high school,standard,none,63,63,62
995,female,group E,master's degree,standard,completed,88,99,95
996,male,group C,high school,free/reduced,none,62,55,55
997,female,group C,high school,free/reduced,completed,59,71,65
998,female,group D,some college,standard,completed,68,78,77
999,female,group D,some college,free/reduced,none,77,86,86


#### Nome das colunas

In [46]:
data.columns

Index(['gender', 'race/ethnicity', 'parental level of education', 'lunch',
       'test preparation course', 'math score', 'reading score',
       'writing score'],
      dtype='object')

### Manipulação de dados

#### Obtendo valores únicos de uma coluna

In [47]:
data.gender.unique()

array(['female', 'male'], dtype=object)

In [48]:
data['race/ethnicity'].unique()

array(['group B', 'group C', 'group A', 'group D', 'group E'],
      dtype=object)

#### Calculando a frequência dos valores

In [49]:
data.gender.value_counts()

female    518
male      482
Name: gender, dtype: int64

O argumento `normalize` recebe  um Booleano, em caso de `True` ele calculará a proporção.

In [50]:
data.gender.value_counts(normalize=True)

female    0.518
male      0.482
Name: gender, dtype: float64

#### Groupby

O método `.groupby()` serve para agrupar as variaveis aos nossos critérios, o que é de grande ajuda quando precisamos calcular algumas medidas dessas variáveis agrupadas.

Suponha que queremos calcular as médias dos desempenhos agrupados por gênero.

In [51]:
data.groupby('gender').mean()

Unnamed: 0_level_0,math score,reading score,writing score
gender,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,63.633205,72.608108,72.467181
male,68.728216,65.473029,63.311203


In [52]:
data.groupby('gender').mean()['math score'].sort_values()

gender
female    63.633205
male      68.728216
Name: math score, dtype: float64

Agora suponha que queremos cálcular a média do desempenho em matemática quanto ao gênero e grupo étnico.

In [53]:
media_matematica_por_genero_raca = data.groupby(['gender','race/ethnicity']).mean()['math score']
media_matematica_por_genero_raca

gender  race/ethnicity
female  group A           58.527778
        group B           61.403846
        group C           62.033333
        group D           65.248062
        group E           70.811594
male    group A           63.735849
        group B           65.930233
        group C           67.611511
        group D           69.413534
        group E           76.746479
Name: math score, dtype: float64

#### Aggregators

O método `.agg` recebe um dicionário, onde a chave é o nome da coluna que será criada e o valor é a função que será calculada para cada grupo especificado no `.groupby`.

Suponha que queremos saber a quantidade de observações e a média e variância da pontuação em matemática dos grupos divididos em gênero, qualidade do almoço e etnia.

In [54]:
data.groupby(['gender', 'lunch', 'race/ethnicity'])\
.agg({"gender": "count",
      "math score": ["mean", numpy.var]}) # Pode-se passar mais do que uma função utilizando uma lista

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,gender,math score,math score
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,count,mean,var
gender,lunch,race/ethnicity,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
female,free/reduced,group A,14,49.928571,145.917582
female,free/reduced,group B,39,56.512821,289.940621
female,free/reduced,group C,62,52.83871,222.957166
female,free/reduced,group D,51,58.039216,224.238431
female,free/reduced,group E,23,61.304348,242.403162
female,standard,group A,22,64.0,163.047619
female,standard,group B,65,64.338462,229.852404
female,standard,group C,118,66.864407,159.981457
female,standard,group D,78,69.961538,131.44006
female,standard,group E,46,75.565217,212.162319


OBS.: Perceba que o tipo de objeto que o groupby será após aplicar o método `.mean()` é uma série com múltiplos indices.

In [55]:
print(type(media_matematica_por_genero_raca))
media_matematica_por_genero_raca.index

<class 'pandas.core.series.Series'>


MultiIndex([('female', 'group A'),
            ('female', 'group B'),
            ('female', 'group C'),
            ('female', 'group D'),
            ('female', 'group E'),
            (  'male', 'group A'),
            (  'male', 'group B'),
            (  'male', 'group C'),
            (  'male', 'group D'),
            (  'male', 'group E')],
           names=['gender', 'race/ethnicity'])

### Apply
Com o apply podemos aplicar a mesma função em todos os elementos de uma coluna.

In [56]:
def retorna_apenas_a_letra_do_grupo(grupo):
    return grupo[-1]

In [57]:
data['race/ethnicity'].apply(retorna_apenas_a_letra_do_grupo).head(10)

0    B
1    C
2    B
3    A
4    C
5    B
6    B
7    B
8    D
9    B
Name: race/ethnicity, dtype: object

#### Funções Lambda

Um jeito rápido de criar funções curtas é utilizando as funções lambda. Enquanto funções normais podem ser criadas utilizando `def` como prefixo, as funções lambda são criadas utilizando `lambda`.
<br>
Para criá-las deve-se utilizar a seguinte sintaxe: 
<br>  
<span style="color:green">lambda</span> argumento1,....argumentoN: o que será retornado.
<br>  
Exemplo:

In [58]:
elevar = lambda a,b: a**b
elevar(2,3)

8

Agora sabendo disso, podemos aplicá-las utilizando o método `.apply` 

In [59]:
data['race/ethnicity'].apply(lambda x: x[-1]).head(10)

0    B
1    C
2    B
3    A
4    C
5    B
6    B
7    B
8    D
9    B
Name: race/ethnicity, dtype: object

In [60]:
data['math score'].apply(lambda x: x/10).head(10)

0    7.2
1    6.9
2    9.0
3    4.7
4    7.6
5    7.1
6    8.8
7    4.0
8    6.4
9    3.8
Name: math score, dtype: float64

In [61]:
data.head(10)

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,female,group B,bachelor's degree,standard,none,72,72,74
1,female,group C,some college,standard,completed,69,90,88
2,female,group B,master's degree,standard,none,90,95,93
3,male,group A,associate's degree,free/reduced,none,47,57,44
4,male,group C,some college,standard,none,76,78,75
5,female,group B,associate's degree,standard,none,71,83,78
6,female,group B,some college,standard,completed,88,95,92
7,male,group B,some college,free/reduced,none,40,43,39
8,male,group D,high school,free/reduced,completed,64,64,67
9,female,group B,high school,free/reduced,none,38,60,50


In [62]:
data['race/ethnicity'] = data['race/ethnicity'].apply(lambda x: x[-1])
data.head(10)

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,female,B,bachelor's degree,standard,none,72,72,74
1,female,C,some college,standard,completed,69,90,88
2,female,B,master's degree,standard,none,90,95,93
3,male,A,associate's degree,free/reduced,none,47,57,44
4,male,C,some college,standard,none,76,78,75
5,female,B,associate's degree,standard,none,71,83,78
6,female,B,some college,standard,completed,88,95,92
7,male,B,some college,free/reduced,none,40,43,39
8,male,D,high school,free/reduced,completed,64,64,67
9,female,B,high school,free/reduced,none,38,60,50


## Referências

http://pandas.pydata.org/pandas-docs/stable/getting_started/10min.html  
http://pandas.pydata.org/pandas-docs/stable/user_guide/cookbook.html#cookbook  
https://medium.com/data-hackers/uma-introdução-simples-ao-pandas-1e15eea37fa1  
https://www.shanelynn.ie/merge-join-dataframes-python-pandas-index-1/  