# Principais métodos 

## Os mais comuns

A biblioteca __Pandas__ possui muitas funções e métodos implementados que nos ajudam, e muito, em nosso dia-a-dia na análise exploratória de dados. 

Nesta aula, vamos aprender a utilizar os mais comuns conforme estão listados abaixo:

* `rename` : renomeia os 'rótulos' dos eixos (índices ou colunas)

* `apply` : aplica uma determinada função ao longo de um eixo quando for chamado diretamente pelo _DataFrame_ ou aplica uma função numa _Series_ em questão

* `map` : "mapeia" uma _Series_ aplicando determinada função a cada elemento desta

* `agg` : agrega uma ou mais operações à uma _Series_

* `min` : retorna o valor mínimo de uma _Series_

* `max` : retorna o valor máximo de uma _Series_

* `sum` : retorna a soma dos valores de uma _Series_

* `mean` : retorna a média dos valores de uma _Series_

* `count` : conta as células não vazias de cada linha ou coluna

* `value_counts` : retorna uma _Series_ contendo a contagem de linhas exclusivas no _DataFrame_

* `sort_values` : classifica / ordena os valores ao longo de qualquer eixo

* `insert` : insire uma nova coluna no _DataFrame_ no local especificado

* `drop` : remova linhas ou colunas especificando diretamente seus nomes

### Exemplos

In [None]:
# Importação da biblioteca pandas
import pandas as pd

# Configuração para que os números fiquem com 2 casas decimais
pd.options.display.float_format = '{:,.2f}'.format

Construindo um _DataFrame_ pequeno com 5 colunas e 7 linhas usando a notação de dicionários

In [None]:
df = pd.DataFrame(
    {
        'Linguagem': ['Python', 'R', 'SQL', 'C', 'Java', 'Javascript', 'Elixir'],
        'Popularidade': ['Alta', 'Baixa', 'Altíssima', 'Média', 'Altíssima', 'Altíssima', 'Baixa'],
        'Versão': [3.10, 4.2, None, None, 11, 16, 1.12],
        'Desenvolvedores': [7_000_000, 500_000, 20_000_000, 3_500_000, 16_000_000, 25_000_000, 200_000],
        'Data de Lançamento': ['1991-02-20', '1993-08-03', '1986-01-01', '1972-01-01', '1995-05-23', '1995-12-04', '2012-01-01']
    }
)

df

Unnamed: 0,Linguagem,Popularidade,Versão,Desenvolvedores,Data de Lançamento
0,Python,Alta,3.1,7000000,1991-02-20
1,R,Baixa,4.2,500000,1993-08-03
2,SQL,Altíssima,,20000000,1986-01-01
3,C,Média,,3500000,1972-01-01
4,Java,Altíssima,11.0,16000000,1995-05-23
5,Javascript,Altíssima,16.0,25000000,1995-12-04
6,Elixir,Baixa,1.12,200000,2012-01-01


Construção de novo _DataFrame_, mas desta vez, passando os parâmetros nomeadas - __data__, __columns__ e __index__. Repare que o parâmetro nomeado __data__ está vazio, logo os valores serão apresentados como NaN

In [None]:
dfs = pd.DataFrame(
    data=[],
    columns=['Lógica de Programação', 'Python', 'Data Science', 'HTML & CSS', 'JavaScript', 'React Native'],
    index=['Amanda', 'Camila', 'Cinthia', 'Gisele', 'Helen', 'Carol', 'Clara', 'Paula']
)

dfs

Unnamed: 0,Lógica de Programação,Python,Data Science,HTML & CSS,JavaScript,React Native
Amanda,,,,,,
Camila,,,,,,
Cinthia,,,,,,
Gisele,,,,,,
Helen,,,,,,
Carol,,,,,,
Clara,,,,,,
Paula,,,,,,


Importaremos a biblioteca __numpy__ - _Numeric Python_ - para nos auxiliar a "popular" nosso _DataFrame_ com as notas dentro do intervalo de 5 à 10 ao longo das colunas

In [None]:
import numpy as np

dfs = dfs.apply(lambda nota: np.random.uniform(low=5.0, high=10.0, size=8), axis='index')
dfs

Unnamed: 0,Lógica de Programação,Python,Data Science,HTML & CSS,JavaScript,React Native
Amanda,6.91,7.54,5.17,7.58,7.79,6.44
Camila,9.2,9.19,7.25,8.32,7.41,9.16
Cinthia,6.59,7.8,8.18,8.09,9.66,6.84
Gisele,8.85,6.85,6.47,8.19,7.19,9.55
Helen,5.25,8.37,7.69,5.79,7.17,8.4
Carol,9.28,8.17,5.45,6.97,6.2,6.9
Clara,9.84,5.58,6.25,8.45,7.38,6.52
Paula,8.48,9.54,9.48,8.96,9.77,7.61


Na célula acima, usamos o método _apply_. Se precisar de ajuda, basta solicitar colocando o ponto de interrogação logo após o método

In [None]:
dfs.apply?

Este _DataFrame_ não possui a informação de média de cada aluna. Vamos criar esta coluna e calcular a média

In [None]:
dfs['Média'] = dfs.mean(axis='columns')
dfs

Unnamed: 0,Lógica de Programação,Python,Data Science,HTML & CSS,JavaScript,React Native,Média
Amanda,6.91,7.54,5.17,7.58,7.79,6.44,6.9
Camila,9.2,9.19,7.25,8.32,7.41,9.16,8.42
Cinthia,6.59,7.8,8.18,8.09,9.66,6.84,7.86
Gisele,8.85,6.85,6.47,8.19,7.19,9.55,7.85
Helen,5.25,8.37,7.69,5.79,7.17,8.4,7.11
Carol,9.28,8.17,5.45,6.97,6.2,6.9,7.16
Clara,9.84,5.58,6.25,8.45,7.38,6.52,7.34
Paula,8.48,9.54,9.48,8.96,9.77,7.61,8.97


__LEMBRE-SE__ : se precisar de ajuda para ver a _assinatura_ da função _mean_, basta colocar o ponto de interrogação após o método

In [None]:
dfs.mean?

Com a coluna _média_ criada e devidamente calculada, desejamos criar uma nova coluna para termos a situação de cada aluna com base na média da mesma.

Assim, criaremos uma coluna chamada _situação_ que receberá AP se a média for maior que 7 e RP se for menor que 7.

Usaremos o método _map_ e a expressão _lambda_ que vimos na aula passada.

In [None]:
dfs['Situação'] = dfs['Média'].map(lambda media: 'AP' if media > 7 else 'RP')
dfs

Unnamed: 0,Lógica de Programação,Python,Data Science,HTML & CSS,JavaScript,React Native,Média,Situação
Amanda,6.91,7.54,5.17,7.58,7.79,6.44,6.9,RP
Camila,9.2,9.19,7.25,8.32,7.41,9.16,8.42,AP
Cinthia,6.59,7.8,8.18,8.09,9.66,6.84,7.86,AP
Gisele,8.85,6.85,6.47,8.19,7.19,9.55,7.85,AP
Helen,5.25,8.37,7.69,5.79,7.17,8.4,7.11,AP
Carol,9.28,8.17,5.45,6.97,6.2,6.9,7.16,AP
Clara,9.84,5.58,6.25,8.45,7.38,6.52,7.34,AP
Paula,8.48,9.54,9.48,8.96,9.77,7.61,8.97,AP


Para ajuda sobre o método map

In [None]:
dfs['Média'].map?

Repare que as 2 colunas recentemente criadas foram para o final do _DataFrame_. 

E se quisermos inserir uma coluna em outra posição?

Devemos usar o método _insert_ passando o índice em que essa nova coluna deverá ser inserida.

No caso abaixo, queremos a coluna status na primeira posição, assim, como python tem indexação iniciada por 0, devemos passar o valor 0 para o método _insert_

In [None]:
situacao = dfs['Média'].map(lambda media: 'AP' if media > 7 else 'RP')
dfs.insert(0, 'Status', situacao)
dfs

Unnamed: 0,Status,Lógica de Programação,Python,Data Science,HTML & CSS,JavaScript,React Native,Média,Situação
Amanda,RP,6.91,7.54,5.17,7.58,7.79,6.44,6.9,RP
Camila,AP,9.2,9.19,7.25,8.32,7.41,9.16,8.42,AP
Cinthia,AP,6.59,7.8,8.18,8.09,9.66,6.84,7.86,AP
Gisele,AP,8.85,6.85,6.47,8.19,7.19,9.55,7.85,AP
Helen,AP,5.25,8.37,7.69,5.79,7.17,8.4,7.11,AP
Carol,AP,9.28,8.17,5.45,6.97,6.2,6.9,7.16,AP
Clara,AP,9.84,5.58,6.25,8.45,7.38,6.52,7.34,AP
Paula,AP,8.48,9.54,9.48,8.96,9.77,7.61,8.97,AP


#### Rename

In [None]:
df.rename?

In [None]:
df

Unnamed: 0,Linguagem,Popularidade,Versão,Desenvolvedores,Data de Lançamento
0,Python,Alta,3.1,7000000,1991-02-20
1,R,Baixa,4.2,500000,1993-08-03
2,SQL,Altíssima,,20000000,1986-01-01
3,C,Média,,3500000,1972-01-01
4,Java,Altíssima,11.0,16000000,1995-05-23
5,Javascript,Altíssima,16.0,25000000,1995-12-04
6,Elixir,Baixa,1.12,200000,2012-01-01


Renomearemos todas as colunas para letras maiúsculas fazendo a alteração em memória, `inplace=True` 

In [None]:
df.rename(str.upper, axis='columns', inplace=True)
df

Unnamed: 0,LINGUAGEM,POPULARIDADE,VERSÃO,DESENVOLVEDORES,DATA DE LANÇAMENTO
0,Python,Alta,3.1,7000000,1991-02-20
1,R,Baixa,4.2,500000,1993-08-03
2,SQL,Altíssima,,20000000,1986-01-01
3,C,Média,,3500000,1972-01-01
4,Java,Altíssima,11.0,16000000,1995-05-23
5,Javascript,Altíssima,16.0,25000000,1995-12-04
6,Elixir,Baixa,1.12,200000,2012-01-01


Com o atributo `columns` podemos ver que as colunas foram renomeadas com sucesso

In [None]:
df.columns

Index(['LINGUAGEM', 'POPULARIDADE', 'VERSÃO', 'DESENVOLVEDORES',
       'DATA DE LANÇAMENTO'],
      dtype='object')

Se quisermos renomear apenas uma coluna, devemos passar o parâmetro nomeado `columns=` com a notação de dicionário para mapear qual ou quais colunas se deseja renomear.

`inplace=True` para alteração em memória

In [None]:
df.rename(columns={'LINGUAGEM': 'LINGUAGENS'}, inplace=True)
df

Unnamed: 0,LINGUAGENS,POPULARIDADE,VERSÃO,DESENVOLVEDORES,DATA DE LANÇAMENTO
0,Python,Alta,3.1,7000000,1991-02-20
1,R,Baixa,4.2,500000,1993-08-03
2,SQL,Altíssima,,20000000,1986-01-01
3,C,Média,,3500000,1972-01-01
4,Java,Altíssima,11.0,16000000,1995-05-23
5,Javascript,Altíssima,16.0,25000000,1995-12-04
6,Elixir,Baixa,1.12,200000,2012-01-01


Se for necessário ou se desejarmos, podemos renomear o índice do nosso _DataFrame_. Para isso, passamos para o parâmetro nomeado `index=` um dicionário mapeando os valores antigos e novos

In [None]:
df.rename(
    index={0: 'A', 1: 'B', 2: 'C', 3: 'D', 4: 'E', 5: 'F', 6: 'G'}, 
    inplace=True
    )
df

Unnamed: 0,LINGUAGENS,POPULARIDADE,VERSÃO,DESENVOLVEDORES,DATA DE LANÇAMENTO
A,Python,Alta,3.1,7000000,1991-02-20
B,R,Baixa,4.2,500000,1993-08-03
C,SQL,Altíssima,,20000000,1986-01-01
D,C,Média,,3500000,1972-01-01
E,Java,Altíssima,11.0,16000000,1995-05-23
F,Javascript,Altíssima,16.0,25000000,1995-12-04
G,Elixir,Baixa,1.12,200000,2012-01-01


#### Apply

In [None]:
df.apply?

Retorna os valores da _Series_ LINGUAGENS

In [None]:
df['LINGUAGENS']

A        Python
B             R
C           SQL
D             C
E          Java
F    Javascript
G        Elixir
Name: LINGUAGENS, dtype: object

Usamos o método `apply` para aplicarmos na _Series_ LINGUAGENS a função _lambda_ que coloca todos os valores em caixa alta

In [None]:
df['LINGUAGENS'].apply(lambda txt: txt.upper())

A        PYTHON
B             R
C           SQL
D             C
E          JAVA
F    JAVASCRIPT
G        ELIXIR
Name: LINGUAGENS, dtype: object

Retorna os valores da _Series_ POPULARIDADE

In [None]:
df['POPULARIDADE']

A         Alta
B        Baixa
C    Altíssima
D        Média
E    Altíssima
F    Altíssima
G        Baixa
Name: POPULARIDADE, dtype: object

Usamos o método `apply` para aplicarmos na Series POPULARIDADE a função lambda que inverte maúsculas e minúsculas

In [None]:
df['POPULARIDADE'].apply(lambda txt: txt.swapcase())

A         aLTA
B        bAIXA
C    aLTÍSSIMA
D        mÉDIA
E    aLTÍSSIMA
F    aLTÍSSIMA
G        bAIXA
Name: POPULARIDADE, dtype: object

#### Map

In [None]:
df.index.map?

In [None]:
df['Data de Lançamento'].map?

Pegamos o índice do _DataFrame_

In [None]:
df.index

Index(['A', 'B', 'C', 'D', 'E', 'F', 'G'], dtype='object')

Através do método `map` percorremos todos os elementos do índice, colocando-os em caixa baixa com a expressão _lambda_

In [None]:
df.index.map(lambda item: item.lower())

Index(['a', 'b', 'c', 'd', 'e', 'f', 'g'], dtype='object')

#### Agg

In [None]:
df.agg?

Recuperamos os valores da _Series_ VERSÃO

In [None]:
df['VERSÃO']

A    3.10
B    4.20
C     NaN
D     NaN
E   11.00
F   16.00
G    1.12
Name: VERSÃO, dtype: float64

Com o método `agg` podemos passar vários outros métodos através de uma lista e assim recuperarmos as informações de uma determinada _Series_.

No caso abaixo, pegamos os valores mínimo, máximo, a média e a soma dos da _Series_ VERSÃO

In [None]:
df['VERSÃO'].agg(['min', 'max', 'mean', 'sum']).to_frame().transpose()

Unnamed: 0,min,max,mean,sum
VERSÃO,1.12,16.0,7.08,35.42


In [None]:
df['VERSÃO'].agg(['min', 'max']).to_frame().transpose()

Unnamed: 0,min,max
VERSÃO,1.12,16.0


#### Min

In [None]:
df['VERSÃO'].min?

Retorna o valor mínimo da _Series_ em questão

In [None]:
df['VERSÃO'].min()

1.12

#### Max

In [None]:
df['VERSÃO'].max?

Retorna o valor máximo da _Series_ em questão

In [None]:
df['VERSÃO'].max()

16.0

#### Sum

In [None]:
df['DESENVOLVEDORES'].sum?

Recuperamos os valores da _Series_ DESENVOLVEDORES

In [None]:
df['DESENVOLVEDORES']

A     7000000
B      500000
C    20000000
D     3500000
E    16000000
F    25000000
G      200000
Name: DESENVOLVEDORES, dtype: int64

Somamos todos os seus valores com o método `sum`

In [None]:
df['DESENVOLVEDORES'].sum()

72200000

#### Count

In [None]:
df.count?

In [None]:
df

Unnamed: 0,LINGUAGENS,POPULARIDADE,VERSÃO,DESENVOLVEDORES,DATA DE LANÇAMENTO
A,Python,Alta,3.1,7000000,1991-02-20
B,R,Baixa,4.2,500000,1993-08-03
C,SQL,Altíssima,,20000000,1986-01-01
D,C,Média,,3500000,1972-01-01
E,Java,Altíssima,11.0,16000000,1995-05-23
F,Javascript,Altíssima,16.0,25000000,1995-12-04
G,Elixir,Baixa,1.12,200000,2012-01-01


Contamos quantas células estão preenchidas em cada linha, percorrendo todas as colunas do _DataFrame_

In [None]:
df.count(axis='columns')

A    5
B    5
C    4
D    4
E    5
F    5
G    5
dtype: int64

Contamos quantas células estão preenchidas em cada coluna, percorrendo todas as linhas do _DataFrame_

In [None]:
df.count(axis='index').to_frame().transpose()

Unnamed: 0,LINGUAGENS,POPULARIDADE,VERSÃO,DESENVOLVEDORES,DATA DE LANÇAMENTO
0,7,7,5,7,7


Recuperamos os valores da _Series_ POPULARIDADE

In [None]:
df['POPULARIDADE']

A         Alta
B        Baixa
C    Altíssima
D        Média
E    Altíssima
F    Altíssima
G        Baixa
Name: POPULARIDADE, dtype: object

Contamos os números de células preenchidas nesta _Series_

In [None]:
df['POPULARIDADE'].count()

7

#### Value_Counts

In [None]:
df.value_counts?

In [None]:
df['POPULARIDADE']

A         Alta
B        Baixa
C    Altíssima
D        Média
E    Altíssima
F    Altíssima
G        Baixa
Name: POPULARIDADE, dtype: object

Quando aplicamos o `value_counts` diretamente no _DataFrame_, devemos espeficar o subconjunto ao qual desejar observar. 

Para isso, usamos o parâmetro nomeado `subset=`

In [None]:
df.value_counts(subset='POPULARIDADE')

POPULARIDADE
Altíssima    3
Baixa        2
Alta         1
Média        1
dtype: int64

#### Sort_Values

In [None]:
df.sort_values?

Ordenação que por padrão é realizada de forma _ascendente_

O parâmetro nomeado `by=` informa por qual _Series_, podendo ser uma ou uma lista, ocorrerá a ordenação

In [None]:
df.sort_values(by='VERSÃO')

Unnamed: 0,LINGUAGENS,POPULARIDADE,VERSÃO,DESENVOLVEDORES,DATA DE LANÇAMENTO
G,Elixir,Baixa,1.12,200000,2012-01-01
A,Python,Alta,3.1,7000000,1991-02-20
B,R,Baixa,4.2,500000,1993-08-03
E,Java,Altíssima,11.0,16000000,1995-05-23
F,Javascript,Altíssima,16.0,25000000,1995-12-04
C,SQL,Altíssima,,20000000,1986-01-01
D,C,Média,,3500000,1972-01-01


Podemos, também, utilizar outro parâmetro nomeado `ascending=False` para que a ordenação ocorra de forma decrescente

In [None]:
df.sort_values(by='DESENVOLVEDORES', ascending=False)

Unnamed: 0,LINGUAGENS,POPULARIDADE,VERSÃO,DESENVOLVEDORES,DATA DE LANÇAMENTO
F,Javascript,Altíssima,16.0,25000000,1995-12-04
C,SQL,Altíssima,,20000000,1986-01-01
E,Java,Altíssima,11.0,16000000,1995-05-23
A,Python,Alta,3.1,7000000,1991-02-20
D,C,Média,,3500000,1972-01-01
B,R,Baixa,4.2,500000,1993-08-03
G,Elixir,Baixa,1.12,200000,2012-01-01


## Inserir novas colunas no DataFrame

Podemos inserir novas colunas em nosso _DataFrame_ de algumas maneiras, mas nesta aula veremos as 2 mais comuns. 

Normalmente, quando queremos inserir uma nova coluna, basta chamarmos nosso _DataFrame_ com o nome da nova coluna. Veja a _sintaxe_ abaxio:

`nome_do_dataframe['nome_da_nova_coluna']`

O __Pandas__ buscará pela coluna em questão. Se não encontrar, ele a criará no final do _DataFrame_.

_**Mas e se quisermos inserir uma coluna numa posição específica?**_

Nestes casos, devemos usar o método `insert`.

__SINTAXE__ 

`DataFrame.insert(loc, column, value, allow_duplicates=False)`

* __loc__ : valor inteiro para a posição da coluna, lembrando que a indexação do python inicia-se __SEMPRE__ por zero. Este valor deve ser maior ou igual a zero e não pode ser menor ou igual à quantidade de colunas

* __column__ : nome da coluna

* __value__ : valor da coluna. Este valor pode ser uma outra _Series_, um array ou o resultado de algum cálculo entre as _Series_ do DataFrame em questão

* __allow_duplicates__ : tem por padrão o valor de _False_, para evitar duplicações, porém, pode ser alterado para _True_ e, assim, teremos colunas duplicadas

__OBS__ : se `allow_duplicates` estiver como False e se a coluna já estiver contida no _DataFrame_, uma exceção do tipo __ValueError__ será gerada 


## Remover colunas no DataFrame

Assim como podemos inserir novas colunas, podemos remover colunas de nosso _DataFrame_. 

__SINTAXE__

`DataFrame.drop('label', axis='columns')`

* __labels__ : nome da coluna ou lista com os nomes das colunas

* __axis__ : 

  * 0 ou 'index' : para remover do índice
  * 1 ou 'columns' : para remover das colunas

* __inplace__ : valor booleano. Tem como padrão _False_ e retorna uma cópia do seu _DataFrame_. Se for passado _True_, altera em memória e retorna None

In [None]:
dfs.head(3)

Unnamed: 0,Status,Lógica de Programação,Python,Data Science,HTML & CSS,JavaScript,React Native,Média,Situação
Amanda,RP,6.91,7.54,5.17,7.58,7.79,6.44,6.9,RP
Camila,AP,9.2,9.19,7.25,8.32,7.41,9.16,8.42,AP
Cinthia,AP,6.59,7.8,8.18,8.09,9.66,6.84,7.86,AP


In [None]:
dfs.drop(['Média', 'Situação'], axis='columns', inplace=True)
dfs

Unnamed: 0,Status,Lógica de Programação,Python,Data Science,HTML & CSS,JavaScript,React Native
Amanda,RP,6.91,7.54,5.17,7.58,7.79,6.44
Camila,AP,9.2,9.19,7.25,8.32,7.41,9.16
Cinthia,AP,6.59,7.8,8.18,8.09,9.66,6.84
Gisele,AP,8.85,6.85,6.47,8.19,7.19,9.55
Helen,AP,5.25,8.37,7.69,5.79,7.17,8.4
Carol,AP,9.28,8.17,5.45,6.97,6.2,6.9
Clara,AP,9.84,5.58,6.25,8.45,7.38,6.52
Paula,AP,8.48,9.54,9.48,8.96,9.77,7.61


## Formatando valores

In [None]:
df.dtypes

Linguagem              object
Popularidade           object
Versão                float64
Desenvolvedores         int64
Data de Lançamento     object
dtype: object

In [None]:
df

Unnamed: 0,LINGUAGENS,POPULARIDADE,VERSÃO,DESENVOLVEDORES,DATA DE LANÇAMENTO
A,Python,Alta,3.1,7000000,1991-02-20
B,R,Baixa,4.2,500000,1993-08-03
C,SQL,Altíssima,,20000000,1986-01-01
D,C,Média,,3500000,1972-01-01
E,Java,Altíssima,11.0,16000000,1995-05-23
F,Javascript,Altíssima,16.0,25000000,1995-12-04
G,Elixir,Baixa,1.12,200000,2012-01-01


Para converter a _Series_ DATA DE LANÇAMENTO para o tipo _datetime_

In [None]:
df['DATA DE LANÇAMENTO'] = pd.to_datetime(df['DATA DE LANÇAMENTO'])

In [None]:
df.head(2)

Unnamed: 0,LINGUAGENS,POPULARIDADE,VERSÃO,DESENVOLVEDORES,DATA DE LANÇAMENTO
A,Python,Alta,3.1,7000000,1991-02-20
B,R,Baixa,4.2,500000,1993-08-03


In [None]:
df.dtypes

LINGUAGENS                    object
POPULARIDADE                  object
VERSÃO                       float64
DESENVOLVEDORES                int64
DATA DE LANÇAMENTO    datetime64[ns]
dtype: object

Usamos o método `map` para percorrer todos os valores da _Series_ DATA DE LANÇAMENTO, formatando sua saída com o método `strftime` do objeto _datetime_ através da expressão _lambda_

In [None]:
df['DATA DE LANÇAMENTO'] = df['DATA DE LANÇAMENTO'].map(lambda dt: dt.strftime('%d/%m/%Y'))

In [None]:
df

Unnamed: 0,LINGUAGENS,POPULARIDADE,VERSÃO,DESENVOLVEDORES,DATA DE LANÇAMENTO
A,Python,Alta,3.1,7000000,20/02/1991
B,R,Baixa,4.2,500000,03/08/1993
C,SQL,Altíssima,,20000000,01/01/1986
D,C,Média,,3500000,01/01/1972
E,Java,Altíssima,11.0,16000000,23/05/1995
F,Javascript,Altíssima,16.0,25000000,04/12/1995
G,Elixir,Baixa,1.12,200000,01/01/2012


In [None]:
df.dtypes

Linguagem              object
Popularidade           object
Versão                float64
Desenvolvedores         int64
Data de Lançamento     object
dtype: object

## Hora de Praticar!

### Atividade de Sala de Aula

Vamos trabalhar no dataset de faturamento de vinhos que utilizamos na primeria aula:

`https://raw.githubusercontent.com/rafaelpuyau/infinity_school/main/ds/datasets/faturamento_quinzena_nov2021.csv`

In [None]:
import pandas as pd

In [None]:
dataset = r'https://raw.githubusercontent.com/rafaelpuyau/infinity_school/main/ds/datasets/faturamento_quinzena_nov2021.csv'
df = pd.read_csv(dataset, sep=';')

In [None]:
df.head()

Unnamed: 0,data,estilo,quantidade de garrafas,preço da garrafa,total
0,2021-11-01,tinto,7,150.0,1050.0
1,2021-11-01,branco,4,75.0,300.0
2,2021-11-01,espumante,5,75.89,379.45
3,2021-11-02,tinto,3,150.0,450.0
4,2021-11-02,branco,2,75.0,150.0


Qual foi o valor total, em R$, vendido no período?

In [None]:
df['total'].sum()

38879.13

Qual o valor mais caro de garrafa?

In [None]:
df['preço da garrafa'].max()

150.0

E o mais barato?

In [None]:
df['preço da garrafa'].min()

75.0

Qual a média de preço das garrafas?

In [None]:
round(df['preço da garrafa'].mean(), 2)

100.3

Podemos pegar as três informações anteriores de uma única vez através do método `agg`

In [None]:
df['preço da garrafa'].agg(['min', 'max', 'mean'])

min     75.00
max    150.00
mean   100.30
Name: preço da garrafa, dtype: float64

Quantas garrafas foram vendidas no total no período?

In [None]:
df['quantidade de garrafas'].sum()

371

In [None]:
df.dtypes

data                       object
estilo                     object
quantidade de garrafas      int64
preço da garrafa          float64
total                     float64
dtype: object

Remova a coluna total do _DataFrame_

In [None]:
df.drop('total', axis='columns', inplace=True)

Crie uma nova coluna chamada _sub-total_ com o valor de total de cada venda

In [None]:
df['sub-total'] = df['quantidade de garrafas'] * df['preço da garrafa']

Renomeie a coluna _sub-total_ para _SUB-TOTAL_

In [None]:
df.rename(columns={
    'sub-total': 'SUB-TOTAL'
}, inplace=True)

Inserir o símbolo R$ antes dos sub-totais e formatar para apenas 2 casas decimais

In [None]:
df['SUB-TOTAL'] = df['SUB-TOTAL'].map(lambda st: f'R${st:,.2f}')
df.head()

Unnamed: 0,data,estilo,quantidade de garrafas,preço da garrafa,total,SUB-TOTAL
0,2021-11-01,tinto,7,150.0,1050.0,"R$1,050.00"
1,2021-11-01,branco,4,75.0,300.0,R$300.00
2,2021-11-01,espumante,5,75.89,379.45,R$379.45
3,2021-11-02,tinto,3,150.0,450.0,R$450.00
4,2021-11-02,branco,2,75.0,150.0,R$150.00


Colocar todos os estilos com a primeira letra em maúscula

In [None]:
df['estilo'] = df['estilo'].apply(lambda e: e.title())
df.head()

Unnamed: 0,data,estilo,quantidade de garrafas,preço da garrafa,total,SUB-TOTAL
0,2021-11-01,Tinto,7,150.0,1050.0,"R$1,050.00"
1,2021-11-01,Branco,4,75.0,300.0,R$300.00
2,2021-11-01,Espumante,5,75.89,379.45,R$379.45
3,2021-11-02,Tinto,3,150.0,450.0,R$450.00
4,2021-11-02,Branco,2,75.0,150.0,R$150.00


Salve seu _DataFrame_ em um novo arquivo CSV

In [None]:
df.to_csv('/content/drive/MyDrive/2022/Data Science/atividade01.csv', index=False)