# Pandas

<img src="img/pandas_logo.png" alt="drawing" width="600"/>

A biblioteca Pandas fornece um conjuto de ferramentas de alta performace e de fácil utilização para trabalharmos com análise de dados, manipulação, vizualização e leitura de dados, sendo indispensável para quem trabalha com data science em Python.

### Séries
Séries são objetos unidimensionais parecidos com arrays, sua diferença é que Séries sempre possuirão índices.

In [1]:
import numpy
import pandas as pd
import matplotlib.pyplot as plt

In [2]:
numpy.random.seed(50)
notas = pd.Series(numpy.random.randint(1,10,6))
notas

0    1
1    1
2    2
3    5
4    7
5    6
dtype: int32

In [3]:
notas.dtypes

dtype('int32')

A primeira coluna ao mostrar a Série são os indíces, já a segunda os valores de cada índice.

Podemos checar os valores da Série utilizando o atributo `.values`

In [4]:
notas.values

array([1, 1, 2, 5, 7, 6])

Podemos checar os indices da Série utilizando o atributo `.index`

In [5]:
notas.index

RangeIndex(start=0, stop=6, step=1)

Perceba que os índices foram criados automaticamente. Entretanto, somos capazes de criar rótulos para os índices de nossa série.  
Suponha que a seguinte Série se trata do desempenho de 6 alunos em uma prova.

In [6]:
numpy.random.seed(17)
notas = pd.Series(numpy.random.randint(1,10,6), 
                  ['Daniel', 'Fernando', 'Maria', 'Carlos', 'Márcia', 'Luciana'])

In [7]:
notas

Daniel      2
Fernando    7
Maria       7
Carlos      1
Márcia      7
Luciana     5
dtype: int32

In [8]:
notas.index

Index(['Daniel', 'Fernando', 'Maria', 'Carlos', 'Márcia', 'Luciana'], dtype='object')

Podemos verificar o valor de uma linha apenas passando o valor do índice.

In [9]:
notas['Maria']

7

Se utilizarmos operadores lógicos podemos filtrar nosso objeto. No seguinte exemplo queremos apenas os alunos que possuem a nota acima da média da turma.

In [10]:
notas[notas > notas.mean()]

Fernando    7
Maria       7
Márcia      7
Luciana     5
dtype: int32

OBS.: Apenas operadores Bitwise são aceitos:  `|, <, >, <=, >=, ==, !=, &`    
Operadores como `or` e `and` não são aceitos!

Também podemos alterar os índices já criados, nesse caso adicionaremos a letra "A" após cada nome indicando a turma do aluno.

In [11]:
notas.index = [nota + ' A' for nota in notas.index]

In [12]:
notas

Daniel A      2
Fernando A    7
Maria A       7
Carlos A      1
Márcia A      7
Luciana A     5
dtype: int32

OBS.: O comando `[nota + ' A' for nota in notas.index]` é uma forma curta de se criar uma lista

In [13]:
[numero for numero in range(1,11)]

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

### Séries a partir de dicionários

In [14]:
series_dict = pd.Series({'a':1,
                         'b': 2,
                         'c': 10,
                         'f':35})
series_dict

a     1
b     2
c    10
f    35
dtype: int64

#### Adicionando índices a uma série que não possui valores para tal.

In [15]:
series_nan = pd.Series(series_dict, ['a','b', 'c','d','f', 'g'])

In [16]:
series_nan['d'] = 13.
series_nan

a     1.0
b     2.0
c    10.0
d    13.0
f    35.0
g     NaN
dtype: float64

O `NaN`, Not A Number, é um valor que existe no pacote numpy , aqui vemos que o pandas importa o numpy para suas dependências e o utiliza implicitamente.

In [17]:
numpy.nan

nan

Porém veja que `NaN` é um float

In [18]:
type(numpy.nan)

float

### Operações com Séries

Podemos aplicar funções em nossas séries.

In [19]:
series_nan*2

a     2.0
b     4.0
c    20.0
d    26.0
f    70.0
g     NaN
dtype: float64

In [20]:
numpy.log(series_nan)

a    0.000000
b    0.693147
c    2.302585
d    2.564949
f    3.555348
g         NaN
dtype: float64

In [21]:
series_nan.mean()

12.2

In [22]:
series_nan.describe()

count     5.000000
mean     12.200000
std      13.736812
min       1.000000
25%       2.000000
50%      10.000000
75%      13.000000
max      35.000000
dtype: float64

E por último podemos dar um nome as nossas Séries

In [23]:
serie_nomeada = pd.Series([5, 4, 3, 1, 7, numpy.nan], name='Númer')
serie_nomeada

0    5.0
1    4.0
2    3.0
3    1.0
4    7.0
5    NaN
Name: Númer, dtype: float64

In [24]:
serie_renomeada = serie_nomeada.rename('Números')
serie_renomeada

0    5.0
1    4.0
2    3.0
3    1.0
4    7.0
5    NaN
Name: Números, dtype: float64

### Dataframes

Dataframes e séries são bem parecidos e possuem métodos semelhantes, a grande diferença é que um Dataframe é um objeto bidimensional parecido com uma planilha.

#### Criando um Dataframe a partir de um  dicionário:

In [25]:
numpy.random.seed(555)
df = pd.DataFrame({'Aluno' : ['Daniel', 'Fernando', 'Maria', 'Carlos', 'Márcia'],
                   'Faltas' : numpy.random.randint(0,5,5),
                   'Prova' : numpy.random.normal(7, 1, 5).round(2),
                   'Seminário': numpy.random.normal(8, 1, 5).round(2),})

df

Unnamed: 0,Aluno,Faltas,Prova,Seminário
0,Daniel,2,7.32,8.85
1,Fernando,1,7.7,8.98
2,Maria,1,6.4,7.37
3,Carlos,4,6.77,8.02
4,Márcia,1,5.06,7.94


#### Verificando os tipos de variáveis em nosso Dataframe

In [26]:
df.dtypes

Aluno         object
Faltas         int32
Prova        float64
Seminário    float64
dtype: object

#### Vendo algumas informações de um Dataframe

In [27]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
Aluno        5 non-null object
Faltas       5 non-null int32
Prova        5 non-null float64
Seminário    5 non-null float64
dtypes: float64(2), int32(1), object(1)
memory usage: 160.0+ bytes


#### Calculando estatística descritivas

In [28]:
df.describe()

Unnamed: 0,Faltas,Prova,Seminário
count,5.0,5.0,5.0
mean,1.8,6.65,8.232
std,1.30384,1.019363,0.67355
min,1.0,5.06,7.37
25%,1.0,6.4,7.94
50%,1.0,6.77,8.02
75%,2.0,7.32,8.85
max,4.0,7.7,8.98


#### Filtrando uma coluna específica de um Dataframe

In [29]:
df.Aluno

0      Daniel
1    Fernando
2       Maria
3      Carlos
4      Márcia
Name: Aluno, dtype: object

In [30]:
df['Aluno']

0      Daniel
1    Fernando
2       Maria
3      Carlos
4      Márcia
Name: Aluno, dtype: object

#### Selecionando dois ou mais colunas

In [31]:
df[['Aluno', 'Prova']]

Unnamed: 0,Aluno,Prova
0,Daniel,7.32
1,Fernando,7.7
2,Maria,6.4
3,Carlos,6.77
4,Márcia,5.06


Observe que um Dataframe é um conjunto de Séries onde cada coluna é um série.

In [32]:
type(df.Aluno)

pandas.core.series.Series

#### Filtrando utilizando operadores Bitwise

In [33]:
df[df["Prova"] > 7.0]

Unnamed: 0,Aluno,Faltas,Prova,Seminário
0,Daniel,2,7.32,8.85
1,Fernando,1,7.7,8.98


In [34]:
df[(df["Seminário"] > 8.0) & (df["Prova"] > 6)]

Unnamed: 0,Aluno,Faltas,Prova,Seminário
0,Daniel,2,7.32,8.85
1,Fernando,1,7.7,8.98
3,Carlos,4,6.77,8.02


#### Filtrando a partir de um índice

In [35]:
df.loc[3]

Aluno        Carlos
Faltas            4
Prova          6.77
Seminário      8.02
Name: 3, dtype: object

#### Ordenando o Dataframe

Ordem crescente

In [36]:
df.sort_values(by=['Faltas'])

Unnamed: 0,Aluno,Faltas,Prova,Seminário
1,Fernando,1,7.7,8.98
2,Maria,1,6.4,7.37
4,Márcia,1,5.06,7.94
0,Daniel,2,7.32,8.85
3,Carlos,4,6.77,8.02


Em ordem desrescente

In [37]:
df.sort_values(by='Faltas', ascending=False)

Unnamed: 0,Aluno,Faltas,Prova,Seminário
3,Carlos,4,6.77,8.02
0,Daniel,2,7.32,8.85
1,Fernando,1,7.7,8.98
2,Maria,1,6.4,7.37
4,Márcia,1,5.06,7.94


### Leitura de arquivos

A leitura de arquivos é bem simples no pandas. Todas os métodos que leem arquivos começam com `.read_`  
São alguns deles:  
    `.read_csv`  
    `.read_excel`  
    `.read_clipboard`  
    `.read_sql`  
    `.read_json`

Para visualizar todos, aqui no Jupyter Notebook podemos escrever `pd.read_` e em seguida pressionar a tecla **TAB**. O Jupyter nos mostrará segestões. Navegue com as setinhas do teclado para ver todas as sugestões

In [38]:
data = pd.read_csv('datasets\\StudentsPerformance.csv')
data

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,female,group B,bachelor's degree,standard,none,72,72,74
1,female,group C,some college,standard,completed,69,90,88
2,female,group B,master's degree,standard,none,90,95,93
3,male,group A,associate's degree,free/reduced,none,47,57,44
4,male,group C,some college,standard,none,76,78,75
5,female,group B,associate's degree,standard,none,71,83,78
6,female,group B,some college,standard,completed,88,95,92
7,male,group B,some college,free/reduced,none,40,43,39
8,male,group D,high school,free/reduced,completed,64,64,67
9,female,group B,high school,free/reduced,none,38,60,50


Veja que o Dataframe é muito grande, os métodos `.head()` e `.tail()` mostram respectivametente as primeiras e as últimas linhas do dataframe

In [39]:
data.head()

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,female,group B,bachelor's degree,standard,none,72,72,74
1,female,group C,some college,standard,completed,69,90,88
2,female,group B,master's degree,standard,none,90,95,93
3,male,group A,associate's degree,free/reduced,none,47,57,44
4,male,group C,some college,standard,none,76,78,75


In [40]:
data.tail()

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
995,female,group E,master's degree,standard,completed,88,99,95
996,male,group C,high school,free/reduced,none,62,55,55
997,female,group C,high school,free/reduced,completed,59,71,65
998,female,group D,some college,standard,completed,68,78,77
999,female,group D,some college,free/reduced,none,77,86,86


Ambos podem receber a quantidade de linhas a serem mostradas como argumento.

In [41]:
data.head(10)

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,female,group B,bachelor's degree,standard,none,72,72,74
1,female,group C,some college,standard,completed,69,90,88
2,female,group B,master's degree,standard,none,90,95,93
3,male,group A,associate's degree,free/reduced,none,47,57,44
4,male,group C,some college,standard,none,76,78,75
5,female,group B,associate's degree,standard,none,71,83,78
6,female,group B,some college,standard,completed,88,95,92
7,male,group B,some college,free/reduced,none,40,43,39
8,male,group D,high school,free/reduced,completed,64,64,67
9,female,group B,high school,free/reduced,none,38,60,50


In [42]:
data.tail(10)

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
990,male,group E,high school,free/reduced,completed,86,81,75
991,female,group B,some high school,standard,completed,65,82,78
992,female,group D,associate's degree,free/reduced,none,55,76,76
993,female,group D,bachelor's degree,free/reduced,none,62,72,74
994,male,group A,high school,standard,none,63,63,62
995,female,group E,master's degree,standard,completed,88,99,95
996,male,group C,high school,free/reduced,none,62,55,55
997,female,group C,high school,free/reduced,completed,59,71,65
998,female,group D,some college,standard,completed,68,78,77
999,female,group D,some college,free/reduced,none,77,86,86


#### Nome das colunas

In [43]:
data.columns

Index(['gender', 'race/ethnicity', 'parental level of education', 'lunch',
       'test preparation course', 'math score', 'reading score',
       'writing score'],
      dtype='object')

### Manipulação de dados

#### Obtendo valores únicos de uma coluna

In [44]:
data.gender.unique()

array(['female', 'male'], dtype=object)

In [45]:
data['race/ethnicity'].unique()

array(['group B', 'group C', 'group A', 'group D', 'group E'],
      dtype=object)

#### Calculando a frequência dos valores

In [46]:
data.gender.value_counts()

female    518
male      482
Name: gender, dtype: int64

O argumento `normalize` recebe  um Booleano, em caso de `True` ele calculará a proporção.

In [47]:
data.gender.value_counts(normalize=True)

female    0.518
male      0.482
Name: gender, dtype: float64

#### Groupby

O método `.groupby()` serve para agrupar as variaveis aos nossos critérios, o que é de grande ajuda quando precisamos calcular algumas medidas dessas variáveis agrupadas.

In [48]:
data.groupby('gender').mean()

Unnamed: 0_level_0,math score,reading score,writing score
gender,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,63.633205,72.608108,72.467181
male,68.728216,65.473029,63.311203


In [49]:
data.groupby('gender').mean()['math score'].sort_values()

gender
female    63.633205
male      68.728216
Name: math score, dtype: float64

Agrupando em mais de uma variável

In [50]:
media_matematica_por_genero_raca = data.groupby(['gender','race/ethnicity']).mean()['math score']
media_matematica_por_genero_raca

gender  race/ethnicity
female  group A           58.527778
        group B           61.403846
        group C           62.033333
        group D           65.248062
        group E           70.811594
male    group A           63.735849
        group B           65.930233
        group C           67.611511
        group D           69.413534
        group E           76.746479
Name: math score, dtype: float64

#### Aggregators

A função `.agg` recebe um dicionário, onde a chave é o nome da coluna que será criada e o conteúdo é a quantidade especificada para ser gerada para cada grupo especificado no `.groupby`

In [51]:
data.groupby(['gender', 'lunch', 'race/ethnicity'])\
.agg({"gender": "count",
      "math score": "mean",
      "race/ethnicity": "count",})

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,gender,math score,race/ethnicity
gender,lunch,race/ethnicity,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
female,free/reduced,group A,14,49.928571,14
female,free/reduced,group B,39,56.512821,39
female,free/reduced,group C,62,52.83871,62
female,free/reduced,group D,51,58.039216,51
female,free/reduced,group E,23,61.304348,23
female,standard,group A,22,64.0,22
female,standard,group B,65,64.338462,65
female,standard,group C,118,66.864407,118
female,standard,group D,78,69.961538,78
female,standard,group E,46,75.565217,46


OBS.: Percebe que o tipo de objeto que o groupby será após aplicar o método `.mean()` é uma série com múltiplos indices.

In [52]:
print(type(media_matematica_por_genero_raca))
media_matematica_por_genero_raca.index

<class 'pandas.core.series.Series'>


MultiIndex(levels=[['female', 'male'], ['group A', 'group B', 'group C', 'group D', 'group E']],
           codes=[[0, 0, 0, 0, 0, 1, 1, 1, 1, 1], [0, 1, 2, 3, 4, 0, 1, 2, 3, 4]],
           names=['gender', 'race/ethnicity'])

### Apply
Com o apply podemos aplicar a mesma função em todos os elementos de uma coluna.

In [53]:
def retorna_apenas_a_letra_do_grupo(grupo):
    return grupo[-1]

In [54]:
data['race/ethnicity'].apply(retorna_apenas_a_letra_do_grupo).head(10)

0    B
1    C
2    B
3    A
4    C
5    B
6    B
7    B
8    D
9    B
Name: race/ethnicity, dtype: object

#### Funções Lambda

Um jeito rápido de criar funções curtas é utilizando as funções lambdas.Enquanto funções normais podem ser criada utilizando def como prefixo, as funções lambda são criadas utilizando `lambda`.
<br>
Para cria-las deve-se utilizar a seguinte sintaxe: lambda argumento1,....argumentoN : o que será retornado.
<br>
Exemplo:


In [55]:
quadrado = lambda a: a*a
quadrado(4)

16

Agora sabendo disso, podemos aplica-las utilizando o método `.apply` 

In [56]:
data['race/ethnicity'].apply(lambda x: x[-1]).head(10)

0    B
1    C
2    B
3    A
4    C
5    B
6    B
7    B
8    D
9    B
Name: race/ethnicity, dtype: object

In [57]:
data['math score'].apply(lambda x: x/10).head(10)

0    7.2
1    6.9
2    9.0
3    4.7
4    7.6
5    7.1
6    8.8
7    4.0
8    6.4
9    3.8
Name: math score, dtype: float64

In [58]:
data.head(10)

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,female,group B,bachelor's degree,standard,none,72,72,74
1,female,group C,some college,standard,completed,69,90,88
2,female,group B,master's degree,standard,none,90,95,93
3,male,group A,associate's degree,free/reduced,none,47,57,44
4,male,group C,some college,standard,none,76,78,75
5,female,group B,associate's degree,standard,none,71,83,78
6,female,group B,some college,standard,completed,88,95,92
7,male,group B,some college,free/reduced,none,40,43,39
8,male,group D,high school,free/reduced,completed,64,64,67
9,female,group B,high school,free/reduced,none,38,60,50


In [59]:
data['race/ethnicity'] = data['race/ethnicity'].apply(lambda x: x[-1])
data.head(10)

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,female,B,bachelor's degree,standard,none,72,72,74
1,female,C,some college,standard,completed,69,90,88
2,female,B,master's degree,standard,none,90,95,93
3,male,A,associate's degree,free/reduced,none,47,57,44
4,male,C,some college,standard,none,76,78,75
5,female,B,associate's degree,standard,none,71,83,78
6,female,B,some college,standard,completed,88,95,92
7,male,B,some college,free/reduced,none,40,43,39
8,male,D,high school,free/reduced,completed,64,64,67
9,female,B,high school,free/reduced,none,38,60,50


## Referências

http://pandas.pydata.org/pandas-docs/stable/getting_started/10min.html  
http://pandas.pydata.org/pandas-docs/stable/user_guide/cookbook.html#cookbook  
https://medium.com/data-hackers/uma-introdução-simples-ao-pandas-1e15eea37fa1  
https://www.shanelynn.ie/merge-join-dataframes-python-pandas-index-1/  