## Métodos mais comuns 





A biblioteca __Pandas__ possui muitas funções e métodos implementados que nos ajudam, e muito, em nosso dia-a-dia na análise exploratória de dados. 

Nesta aula, vamos aprender a utilizar os mais comuns conforme estão listados abaixo:

* `rename` : renomeia os 'rótulos' dos eixos (índices ou colunas)

* `apply` : aplica uma determinada função ao longo de um eixo quando for chamado diretamente pelo _DataFrame_ ou aplica uma função numa _Series_ em questão

* `map` : "mapeia" uma _Series_ aplicando determinada função a cada elemento desta

* `agg` : agrega uma ou mais operações à uma _Series_

* `min` : retorna o valor mínimo de uma _Series_

* `max` : retorna o valor máximo de uma _Series_

* `sum` : retorna a soma dos valores de uma _Series_

* `mean` : retorna a média dos valores de uma _Series_

* `count` : conta as células não vazias de cada linha ou coluna

* `value_counts` : retorna uma _Series_ contendo a contagem de linhas exclusivas no _DataFrame_

* `sort_values` : classifica / ordena os valores ao longo de qualquer eixo

* `insert` : insire uma nova coluna no _DataFrame_ no local especificado

* `drop` : remova linhas ou colunas especificando diretamente seus nomes

In [113]:
import pandas as pd

# Para que os numeros fiquem com duas casas decimais
pd.options.display.float_format = '{:,.2f}'.format

* Criando DF com 5 colunas e 7 linhas
(Notação de dicionário)

In [114]:

df = pd.DataFrame(
    {
        'Linguagem': ['Python', 'R', 'SQL', 'C', 'Java', 'Javascript', 'Elixir'],
        'Popularidade': ['Alta', 'Baixa', 'Altíssima', 'Média', 'Altíssima', 'Altíssima', 'Baixa'],
        'Versão': [3.10, 4.2, None, None, 11, 16, 1.12],
        'Desenvolvedores': [7_000_000, 500_000, 20_000_000, 3_500_000, 16_000_000, 25_000_000, 200_000],
        'Data de Lançamento': ['1991-02-20', '1993-08-03', '1986-01-01', '1972-01-01', '1995-05-23', '1995-12-04', '2012-01-01']
    }
)

df



Unnamed: 0,Linguagem,Popularidade,Versão,Desenvolvedores,Data de Lançamento
0,Python,Alta,3.1,7000000,1991-02-20
1,R,Baixa,4.2,500000,1993-08-03
2,SQL,Altíssima,,20000000,1986-01-01
3,C,Média,,3500000,1972-01-01
4,Java,Altíssima,11.0,16000000,1995-05-23
5,Javascript,Altíssima,16.0,25000000,1995-12-04
6,Elixir,Baixa,1.12,200000,2012-01-01


* Construção de um novo DF, mas dessa vez, passando os parâmetros nomeadas - data, collumns e index. Repare que o parâmetro nomeado data está vazio, logo, os valores serao apresentados como NaN.

In [115]:

dfs = pd.DataFrame(
    data=[],
    columns=['Lógica de Programação', 'Python', 'Data Science', 'HTML & CSS', 'JavaScript', 'React Native'],
    index=['Amanda', 'Camila', 'Cinthia', 'Gisele', 'Helen', 'Carol', 'Clara', 'Paula']
)

dfs


Unnamed: 0,Lógica de Programação,Python,Data Science,HTML & CSS,JavaScript,React Native
Amanda,,,,,,
Camila,,,,,,
Cinthia,,,,,,
Gisele,,,,,,
Helen,,,,,,
Carol,,,,,,
Clara,,,,,,
Paula,,,,,,


* Importaremos a biblioteca Numpy - Numeric Python - para nos auxiliar a "popular" nosso DF com as notas dentro do intervalo de 5 a 10 ao longo das colunas.

In [116]:
import numpy as np

dfs = dfs.apply(lambda nota: np.random.uniform(low = 5.0, high = 10.0, size= 8), axis = "index")
dfs

Unnamed: 0,Lógica de Programação,Python,Data Science,HTML & CSS,JavaScript,React Native
Amanda,6.81,6.67,6.37,6.1,7.32,6.58
Camila,7.63,5.28,8.58,6.27,8.19,8.19
Cinthia,9.35,5.89,7.69,8.67,7.46,6.28
Gisele,7.74,9.35,5.45,6.78,5.01,7.82
Helen,6.51,7.89,7.68,7.07,6.55,5.38
Carol,9.99,8.51,9.21,7.75,9.21,9.26
Clara,9.46,8.65,9.55,6.53,9.25,7.94
Paula,8.16,9.01,6.69,5.53,6.58,8.81


* Na célula acima usamos o método apply. Se precisar de ajuda, basta solicitar ajuda com um ponto de interrogação logo após o método




In [117]:
dfs.apply?

* Criar coluna e calcular a média de todas as notas

In [118]:
dfs['Média'] = dfs.mean(axis = 'columns')
dfs

Unnamed: 0,Lógica de Programação,Python,Data Science,HTML & CSS,JavaScript,React Native,Média
Amanda,6.81,6.67,6.37,6.1,7.32,6.58,6.64
Camila,7.63,5.28,8.58,6.27,8.19,8.19,7.36
Cinthia,9.35,5.89,7.69,8.67,7.46,6.28,7.56
Gisele,7.74,9.35,5.45,6.78,5.01,7.82,7.02
Helen,6.51,7.89,7.68,7.07,6.55,5.38,6.85
Carol,9.99,8.51,9.21,7.75,9.21,9.26,8.99
Clara,9.46,8.65,9.55,6.53,9.25,7.94,8.56
Paula,8.16,9.01,6.69,5.53,6.58,8.81,7.46


* LEMBRE-SE: Se precisar de ajuda pra ver a assinatura da função mean, basta colocar um ponto de interrogação após o método.

In [119]:
dfs.mean?

* Com a coluna média criada e devidamente calculada, desejamos criar uma nova coluna com base na média da mesma.
* Assim, criaremos uma coluna chamada situação que receberá APROVADO se a média for maior que 7 e REPROVADO se for menor que 7.
* Usaremos o método map e a expressão lambda.

In [120]:
dfs['Situação'] = dfs['Média'].map(lambda media:'APROVADO' if media > 7 else 'REPROVADO')
dfs

Unnamed: 0,Lógica de Programação,Python,Data Science,HTML & CSS,JavaScript,React Native,Média,Situação
Amanda,6.81,6.67,6.37,6.1,7.32,6.58,6.64,REPROVADO
Camila,7.63,5.28,8.58,6.27,8.19,8.19,7.36,APROVADO
Cinthia,9.35,5.89,7.69,8.67,7.46,6.28,7.56,APROVADO
Gisele,7.74,9.35,5.45,6.78,5.01,7.82,7.02,APROVADO
Helen,6.51,7.89,7.68,7.07,6.55,5.38,6.85,REPROVADO
Carol,9.99,8.51,9.21,7.75,9.21,9.26,8.99,APROVADO
Clara,9.46,8.65,9.55,6.53,9.25,7.94,8.56,APROVADO
Paula,8.16,9.01,6.69,5.53,6.58,8.81,7.46,APROVADO




* Repare que as 2 colunas recentemente criadas foram para o final do DataFrame.

E se quisermos inserir uma coluna em outra posição?

* Devemos usar o método insert passando o índice em que essa nova coluna deverá ser inserida.

* No caso abaixo, queremos a coluna status na primeira posição, assim, como python tem indexação iniciada por 0, devemos passar o valor 0 para o método insert

In [121]:
situacao = dfs['Média'].map(lambda media:'APROVADO' if media > 7 else 'REPROVADO')
dfs.insert(0, 'Status', situacao)
dfs

Unnamed: 0,Status,Lógica de Programação,Python,Data Science,HTML & CSS,JavaScript,React Native,Média,Situação
Amanda,REPROVADO,6.81,6.67,6.37,6.1,7.32,6.58,6.64,REPROVADO
Camila,APROVADO,7.63,5.28,8.58,6.27,8.19,8.19,7.36,APROVADO
Cinthia,APROVADO,9.35,5.89,7.69,8.67,7.46,6.28,7.56,APROVADO
Gisele,APROVADO,7.74,9.35,5.45,6.78,5.01,7.82,7.02,APROVADO
Helen,REPROVADO,6.51,7.89,7.68,7.07,6.55,5.38,6.85,REPROVADO
Carol,APROVADO,9.99,8.51,9.21,7.75,9.21,9.26,8.99,APROVADO
Clara,APROVADO,9.46,8.65,9.55,6.53,9.25,7.94,8.56,APROVADO
Paula,APROVADO,8.16,9.01,6.69,5.53,6.58,8.81,7.46,APROVADO


##Rename

In [122]:
df.rename?

In [123]:
df

Unnamed: 0,Linguagem,Popularidade,Versão,Desenvolvedores,Data de Lançamento
0,Python,Alta,3.1,7000000,1991-02-20
1,R,Baixa,4.2,500000,1993-08-03
2,SQL,Altíssima,,20000000,1986-01-01
3,C,Média,,3500000,1972-01-01
4,Java,Altíssima,11.0,16000000,1995-05-23
5,Javascript,Altíssima,16.0,25000000,1995-12-04
6,Elixir,Baixa,1.12,200000,2012-01-01


* Renomear todas as colunas para letras maiusculas, fazendo alteração em memória
inplace = TRUE

In [124]:
# Caixa baixa
df.rename(str.lower, axis = 'columns', inplace = True)
df

Unnamed: 0,linguagem,popularidade,versão,desenvolvedores,data de lançamento
0,Python,Alta,3.1,7000000,1991-02-20
1,R,Baixa,4.2,500000,1993-08-03
2,SQL,Altíssima,,20000000,1986-01-01
3,C,Média,,3500000,1972-01-01
4,Java,Altíssima,11.0,16000000,1995-05-23
5,Javascript,Altíssima,16.0,25000000,1995-12-04
6,Elixir,Baixa,1.12,200000,2012-01-01


In [125]:
# Caixa alta
df.rename(str.upper, axis = 'columns', inplace = True)
df

Unnamed: 0,LINGUAGEM,POPULARIDADE,VERSÃO,DESENVOLVEDORES,DATA DE LANÇAMENTO
0,Python,Alta,3.1,7000000,1991-02-20
1,R,Baixa,4.2,500000,1993-08-03
2,SQL,Altíssima,,20000000,1986-01-01
3,C,Média,,3500000,1972-01-01
4,Java,Altíssima,11.0,16000000,1995-05-23
5,Javascript,Altíssima,16.0,25000000,1995-12-04
6,Elixir,Baixa,1.12,200000,2012-01-01


* Se quisermos renomear apenas uma coluna, devemos passar o parâmetro nomeado columns= com a notação de dicionário para mapear qual ou quais colunas se deseja renomear.

    inplace=True para alteração em memória

In [126]:
df.rename(columns={'LINGUAGEM' : 'LINGUAGENS'}, inplace = True)
df

Unnamed: 0,LINGUAGENS,POPULARIDADE,VERSÃO,DESENVOLVEDORES,DATA DE LANÇAMENTO
0,Python,Alta,3.1,7000000,1991-02-20
1,R,Baixa,4.2,500000,1993-08-03
2,SQL,Altíssima,,20000000,1986-01-01
3,C,Média,,3500000,1972-01-01
4,Java,Altíssima,11.0,16000000,1995-05-23
5,Javascript,Altíssima,16.0,25000000,1995-12-04
6,Elixir,Baixa,1.12,200000,2012-01-01


In [127]:
df.rename(
    index={0:'A', 1: 'B', 2: 'C', 3: 'D', 4: 'D', 5: 'E', 6: 'F'},
    inplace = True
)
df

Unnamed: 0,LINGUAGENS,POPULARIDADE,VERSÃO,DESENVOLVEDORES,DATA DE LANÇAMENTO
A,Python,Alta,3.1,7000000,1991-02-20
B,R,Baixa,4.2,500000,1993-08-03
C,SQL,Altíssima,,20000000,1986-01-01
D,C,Média,,3500000,1972-01-01
D,Java,Altíssima,11.0,16000000,1995-05-23
E,Javascript,Altíssima,16.0,25000000,1995-12-04
F,Elixir,Baixa,1.12,200000,2012-01-01


## Apply

In [128]:
df.apply?

In [129]:
df[['LINGUAGENS']]

Unnamed: 0,LINGUAGENS
A,Python
B,R
C,SQL
D,C
D,Java
E,Javascript
F,Elixir


Usamos o método apply para colocarmos tudo em caixa alta

In [130]:
df['LINGUAGENS'].apply(lambda txt: txt.upper())

A        PYTHON
B             R
C           SQL
D             C
D          JAVA
E    JAVASCRIPT
F        ELIXIR
Name: LINGUAGENS, dtype: object

In [131]:
df['POPULARIDADE'].apply(lambda txt: txt.swapcase())

A         aLTA
B        bAIXA
C    aLTÍSSIMA
D        mÉDIA
D    aLTÍSSIMA
E    aLTÍSSIMA
F        bAIXA
Name: POPULARIDADE, dtype: object

In [132]:
df['POPULARIDADE'].apply(lambda txt: txt.upper())

A         ALTA
B        BAIXA
C    ALTÍSSIMA
D        MÉDIA
D    ALTÍSSIMA
E    ALTÍSSIMA
F        BAIXA
Name: POPULARIDADE, dtype: object

## Map

In [70]:
df.index.map?

In [73]:
df['DATA DE LANÇAMENTO'].map?

In [75]:
df.index

Index(['A', 'B', 'C', 'D', 'D', 'E', 'F'], dtype='object')

In [77]:
df.index.map(lambda item: item.lower())

Index(['a', 'b', 'c', 'd', 'd', 'e', 'f'], dtype='object')

## Agg

* Agregação

In [78]:
df.agg?

* Recuperamos os valores da série 'versão'

In [79]:
df['VERSÃO']

A    3.10
B    4.20
C     NaN
D     NaN
D   11.00
E   16.00
F    1.12
Name: VERSÃO, dtype: float64


* Com o método agg podemos passar vários outros métodos através de uma lista e assim recuperarmos as informações de uma determinada Series.

* No caso abaixo, pegamos os valores mínimo, máximo, a média e a soma dos da Series VERSÃO




In [80]:
df['VERSÃO'].agg(['min', 'max', 'mean', 'sum']).to_frame().transpose()

Unnamed: 0,min,max,mean,sum
VERSÃO,1.12,16.0,7.08,35.42


In [81]:
df['VERSÃO'].agg(['min', 'max']).to_frame().transpose()

Unnamed: 0,min,max
VERSÃO,1.12,16.0


In [82]:
df['VERSÃO'].agg(['mean', 'sum']).to_frame().transpose()

Unnamed: 0,mean,sum
VERSÃO,7.08,35.42


In [83]:
df['VERSÃO'].agg([ 'max']).to_frame().transpose()

Unnamed: 0,max
VERSÃO,16.0


## Min

In [84]:
df['VERSÃO'].min?

In [85]:
df['VERSÃO'].min()

1.12

## Max

In [86]:
df['VERSÃO'].max?

In [87]:
df['VERSÃO'].max()

16.0

## Sum

In [88]:
df['DESENVOLVEDORES'].sum?

In [89]:
df['DESENVOLVEDORES']

A     7000000
B      500000
C    20000000
D     3500000
D    16000000
E    25000000
F      200000
Name: DESENVOLVEDORES, dtype: int64

In [90]:
df['DESENVOLVEDORES'].sum()

72200000

## Count

In [91]:
df.count?

In [92]:
df.count(axis = 'columns')

A    5
B    5
C    4
D    4
D    5
E    5
F    5
dtype: int64

In [93]:
df.count(axis = 'index').to_frame().transpose()

Unnamed: 0,LINGUAGENS,POPULARIDADE,VERSÃO,DESENVOLVEDORES,DATA DE LANÇAMENTO
0,7,7,5,7,7


In [94]:
df['POPULARIDADE'].count()

7

## Value_Counts

In [95]:
df.value_counts?

In [96]:
df['POPULARIDADE']

A         Alta
B        Baixa
C    Altíssima
D        Média
D    Altíssima
E    Altíssima
F        Baixa
Name: POPULARIDADE, dtype: object

* Quando aplicamos o value_counts diretamente no DataFrame, devemos espeficar o subconjunto ao qual desejar observar.

* Para isso, usamos o parâmetro nomeado subset=

In [97]:
df.value_counts(subset='POPULARIDADE')

POPULARIDADE
Altíssima    3
Baixa        2
Alta         1
Média        1
dtype: int64

## Sort_Values

In [98]:
df.sort_values?

* Ordenação que por padrão é realizada de forma ascendente

* O parâmetro nomeado by= informa por qual Series, podendo ser uma ou uma lista, ocorrerá a ordenação


In [99]:
df.sort_values(by = 'VERSÃO')

Unnamed: 0,LINGUAGENS,POPULARIDADE,VERSÃO,DESENVOLVEDORES,DATA DE LANÇAMENTO
F,Elixir,Baixa,1.12,200000,2012-01-01
A,Python,Alta,3.1,7000000,1991-02-20
B,R,Baixa,4.2,500000,1993-08-03
D,Java,Altíssima,11.0,16000000,1995-05-23
E,Javascript,Altíssima,16.0,25000000,1995-12-04
C,SQL,Altíssima,,20000000,1986-01-01
D,C,Média,,3500000,1972-01-01


In [102]:
df.sort_values(by = 'DESENVOLVEDORES')

Unnamed: 0,LINGUAGENS,POPULARIDADE,VERSÃO,DESENVOLVEDORES,DATA DE LANÇAMENTO
F,Elixir,Baixa,1.12,200000,2012-01-01
B,R,Baixa,4.2,500000,1993-08-03
D,C,Média,,3500000,1972-01-01
A,Python,Alta,3.1,7000000,1991-02-20
D,Java,Altíssima,11.0,16000000,1995-05-23
C,SQL,Altíssima,,20000000,1986-01-01
E,Javascript,Altíssima,16.0,25000000,1995-12-04



* Podemos, também, utilizar outro parâmetro nomeado ascending=False para que a ordenação ocorra de forma decrescente




In [101]:
df.sort_values(by = 'DESENVOLVEDORES', ascending = False)

Unnamed: 0,LINGUAGENS,POPULARIDADE,VERSÃO,DESENVOLVEDORES,DATA DE LANÇAMENTO
E,Javascript,Altíssima,16.0,25000000,1995-12-04
C,SQL,Altíssima,,20000000,1986-01-01
D,Java,Altíssima,11.0,16000000,1995-05-23
A,Python,Alta,3.1,7000000,1991-02-20
D,C,Média,,3500000,1972-01-01
B,R,Baixa,4.2,500000,1993-08-03
F,Elixir,Baixa,1.12,200000,2012-01-01


## Inserir novas colunas no DF


Podemos inserir novas colunas em nosso DataFrame de algumas maneiras, mas nesta aula veremos as 2 mais comuns.

Normalmente, quando queremos inserir uma nova coluna, basta chamarmos nosso DataFrame com o nome da nova coluna. Veja a sintaxe abaxio:

* nome_do_dataframe['nome_da_nova_coluna']

O Pandas buscará pela coluna em questão. Se não encontrar, ele a criará no final do DataFrame.

Mas e se quisermos inserir uma coluna numa posição específica?

Nestes casos, devemos usar o método insert.

* SINTAXE

DataFrame.insert(loc, column, value, allow_duplicates=False)

loc : valor inteiro para a posição da coluna, lembrando que a indexação do python inicia-se SEMPRE por zero. Este valor deve ser maior ou igual a zero e não pode ser menor ou igual à quantidade de colunas

column : nome da coluna

value : valor da coluna. Este valor pode ser uma outra Series, um array ou o resultado de algum cálculo entre as Series do DataFrame em questão

allow_duplicates : tem por padrão o valor de False, para evitar duplicações, porém, pode ser alterado para True e, assim, teremos colunas duplicadas

OBS : se allow_duplicates estiver como False e se a coluna já estiver contida no DataFrame, uma exceção do tipo ValueError será gerada


## Remover colunas no DF

* SINTAXE

DataFrame.drop('label', axis='columns')

labels : nome da coluna ou lista com os nomes das colunas

axis :

0 ou 'index' : para remover do índice
1 ou 'columns' : para remover das colunas
inplace : valor booleano. Tem como padrão False e retorna uma cópia do seu DataFrame. Se for passado True, altera em memória e retorna None

In [110]:
# Exibir as 3 primeiras linhas
dfs.head(3)

Unnamed: 0,Status,Lógica de Programação,Python,Data Science,HTML & CSS,JavaScript,React Native
Amanda,APROVADO,5.77,9.47,9.77,5.16,6.2,9.0
Camila,APROVADO,7.95,7.33,5.08,8.14,6.6,7.5
Cinthia,REPROVADO,5.87,7.99,7.7,5.16,9.66,5.43


In [133]:
dfs.drop(['Média','Situação'], axis='columns', inplace=True)
dfs

Unnamed: 0,Status,Lógica de Programação,Python,Data Science,HTML & CSS,JavaScript,React Native
Amanda,REPROVADO,6.81,6.67,6.37,6.1,7.32,6.58
Camila,APROVADO,7.63,5.28,8.58,6.27,8.19,8.19
Cinthia,APROVADO,9.35,5.89,7.69,8.67,7.46,6.28
Gisele,APROVADO,7.74,9.35,5.45,6.78,5.01,7.82
Helen,REPROVADO,6.51,7.89,7.68,7.07,6.55,5.38
Carol,APROVADO,9.99,8.51,9.21,7.75,9.21,9.26
Clara,APROVADO,9.46,8.65,9.55,6.53,9.25,7.94
Paula,APROVADO,8.16,9.01,6.69,5.53,6.58,8.81


## Formatando valores

In [134]:
df.dtypes

LINGUAGENS             object
POPULARIDADE           object
VERSÃO                float64
DESENVOLVEDORES         int64
DATA DE LANÇAMENTO     object
dtype: object

In [136]:
df['DATA DE LANÇAMENTO'] = pd.to_datetime(df['DATA DE LANÇAMENTO'])
df


Unnamed: 0,LINGUAGENS,POPULARIDADE,VERSÃO,DESENVOLVEDORES,DATA DE LANÇAMENTO
A,Python,Alta,3.1,7000000,1991-02-20
B,R,Baixa,4.2,500000,1993-08-03
C,SQL,Altíssima,,20000000,1986-01-01
D,C,Média,,3500000,1972-01-01
D,Java,Altíssima,11.0,16000000,1995-05-23
E,Javascript,Altíssima,16.0,25000000,1995-12-04
F,Elixir,Baixa,1.12,200000,2012-01-01


In [137]:
df.dtypes

LINGUAGENS                    object
POPULARIDADE                  object
VERSÃO                       float64
DESENVOLVEDORES                int64
DATA DE LANÇAMENTO    datetime64[ns]
dtype: object

Usamos o método map para percorrer todos os valores da Series DATA DE LANÇAMENTO, formatando sua saída com o método strftime do objeto datetime através da expressão lambda

In [138]:
df['DATA DE LANÇAMENTO'] = df['DATA DE LANÇAMENTO'].map(lambda dt: dt.strftime('%d/%m/%Y'))
df

Unnamed: 0,LINGUAGENS,POPULARIDADE,VERSÃO,DESENVOLVEDORES,DATA DE LANÇAMENTO
A,Python,Alta,3.1,7000000,20/02/1991
B,R,Baixa,4.2,500000,03/08/1993
C,SQL,Altíssima,,20000000,01/01/1986
D,C,Média,,3500000,01/01/1972
D,Java,Altíssima,11.0,16000000,23/05/1995
E,Javascript,Altíssima,16.0,25000000,04/12/1995
F,Elixir,Baixa,1.12,200000,01/01/2012
