In [40]:
import pandas as pd
import numpy as np
from sklearn import datasets

In [10]:
wine = pd.DataFrame(datasets.load_wine()['data'])
wine.columns = datasets.load_wine().feature_names

# Manipulação de dados em pandas para usuários de R
A ideia aqui é trazer um pouco da minha experiência com manipulação de dados nas duas linguagens de programação, facilitando a migração principalmente de usuários de dplyr que estão agora usando pandas para a manipulação de dados.

O formato das duas linguagens é naturalmente diferente, mas é possível adaptar a forma de aplicar as manipulações feitas em R para algo semelhante em pandas.

O objetivo desse documento é tentar trazer um pouco das equivalências que podem ser feitas no pandas para quem veio do dplyr.

Espero que ajude que passar por aqui!

## Criando colunas 
Para criar colunas, no R usamos normalmente a função `dplyr::mutate`. Embora seja possível realizar essa tarefa sem usar nenhuma biblioteca, no contexto de manipulação de dados, o uso de `mutate` é preferível. No pandas, apesar de um pouco mais verboso, podemos usar o `assign`, que tem funcionalidade semelhante.

Como exemplo, vou usar o dataset `wine`, da biblioteca `sklearn`. 

Suponha que eu queira criar colunas com a razão de alguns componentes, como magnésio e flavonóides, pela concentração de álcool. A forma comum seria usando o cálculo através de colunas diretamente, mas isso também pode ser feito com `assign`.


In [15]:
wine.head()

Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline
0,14.23,1.71,2.43,15.6,127.0,2.8,3.06,0.28,2.29,5.64,1.04,3.92,1065.0
1,13.2,1.78,2.14,11.2,100.0,2.65,2.76,0.26,1.28,4.38,1.05,3.4,1050.0
2,13.16,2.36,2.67,18.6,101.0,2.8,3.24,0.3,2.81,5.68,1.03,3.17,1185.0
3,14.37,1.95,2.5,16.8,113.0,3.85,3.49,0.24,2.18,7.8,0.86,3.45,1480.0
4,13.24,2.59,2.87,21.0,118.0,2.8,2.69,0.39,1.82,4.32,1.04,2.93,735.0


In [16]:
wine.describe()

Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline
count,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0
mean,13.000618,2.336348,2.366517,19.494944,99.741573,2.295112,2.02927,0.361854,1.590899,5.05809,0.957449,2.611685,746.893258
std,0.811827,1.117146,0.274344,3.339564,14.282484,0.625851,0.998859,0.124453,0.572359,2.318286,0.228572,0.70999,314.907474
min,11.03,0.74,1.36,10.6,70.0,0.98,0.34,0.13,0.41,1.28,0.48,1.27,278.0
25%,12.3625,1.6025,2.21,17.2,88.0,1.7425,1.205,0.27,1.25,3.22,0.7825,1.9375,500.5
50%,13.05,1.865,2.36,19.5,98.0,2.355,2.135,0.34,1.555,4.69,0.965,2.78,673.5
75%,13.6775,3.0825,2.5575,21.5,107.0,2.8,2.875,0.4375,1.95,6.2,1.12,3.17,985.0
max,14.83,5.8,3.23,30.0,162.0,3.88,5.08,0.66,3.58,13.0,1.71,4.0,1680.0


**Forma comum de criar colunas em python**

In [None]:
wine['magnesium_by_alcohol'] = wine['magnesium'] / wine['alcohol']
wine['flavanoids_by_alcohol'] = wine['flavanoids'] / wine['alcohol']

**Criando colunas com pandas**

In [None]:
wine.assign(
    magnesium_by_alcohol = lambda dff: dff['magnesium'] / dff['alcohol'],
    flavanoids_by_alcohol = lambda dff: dff['flavanoids'] / dff['alcohol']
)

Perceba que para usar assign, você também tem que usar uma `lambda function`. A `lambda function` será uma grande aliada na manipulação de dados, principalmente quando você precisa fazer transformações mais complexas. Nesses dois casos, você pode ter a percepção visual que a forma comum de criar as colunas é mais rápida de se fazer por exigir menos caracteres. Realmente exige menos caracteres, mas a segunda forma exige menos caracteres especiais, que, pelo menos para mim, acaba fazendo com que a segunda seja mais rápido de escrever. 

Concordo que realmente há o inconveniente de se usar o recurso da função lambda, mas acho que para quem vem do dplyr essa pode ser uma forma de criar colunas mais próxima ao `mutate`. Na verdade, para usuários mais atentos do `dplyr`, esse método é mais equivalente ao `transform`, pois uma coluna criada que foi criada no `assign` não pode ser referenciada logo em seguida, como seria possível no `mutate`. Para isso você precisaria criar outro `assign`. Retomarei esse ponto mais adiante ao falar de como substituir o `pipe`, muito usado na manipulação de dados com R.

### Criando colunas de categorias
Para criar colunas de categorias baseado em valores de outra coluna, no `dplyr` há algumas formas de fazer isso, sendo que o `ifelse` provavelmente seja a mais comum para criação de uma coluna com poucas categorias, mas também vemos, por vezes, o uso de `case_when` quando precisamos criar um número maior de categorias ou queremos deixar o código mais legível.

Há diversas formas de fazer isso em python. Vou apresentar a seguir as formas que vejo mais frequentemente. Como exemplo, vou criar duas colunas:
- Uma coluna baseado na coluna `ash`, que dirá se o valor está acima ou abaixo da média dos valores da coluna inteira
- Uma coluna de categorias baseado nos quartis da coluna `nonflavanoid_phenols`, que chamarei de `nfp_cat`

A primeira delas é com `np.where`, que seria o equivalente ao `ifelse` do dplyr:

In [45]:
wine.assign(
    ash_comparison = lambda dff: np.where(dff['ash'] < 2.366517, 'abaixo_media', 'acima_media'),
    nfp_cat = lambda dff: np.where(dff['nonflavanoid_phenols'] < 0.27, 'primeiro_quartil',
                                  np.where(dff['nonflavanoid_phenols'] < 0.34, 'segundo_quartil',
                                           np.where(dff['nonflavanoid_phenols'] < 0.4375, 'terceiro_quartil', 'quarto_quartil')))
).head()

Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline,ash_comparison,nfp_cat
0,14.23,1.71,2.43,15.6,127.0,2.8,3.06,0.28,2.29,5.64,1.04,3.92,1065.0,acima_media,segundo_quartil
1,13.2,1.78,2.14,11.2,100.0,2.65,2.76,0.26,1.28,4.38,1.05,3.4,1050.0,abaixo_media,primeiro_quartil
2,13.16,2.36,2.67,18.6,101.0,2.8,3.24,0.3,2.81,5.68,1.03,3.17,1185.0,acima_media,segundo_quartil
3,14.37,1.95,2.5,16.8,113.0,3.85,3.49,0.24,2.18,7.8,0.86,3.45,1480.0,acima_media,primeiro_quartil
4,13.24,2.59,2.87,21.0,118.0,2.8,2.69,0.39,1.82,4.32,1.04,2.93,735.0,acima_media,terceiro_quartil


Agora, mostrando o mesmo processo com `np.select`, que seria equivalente ao `case_when` usado no R. Os parâmetros do `np.select` são basicamente uma lista de condições, uma lista de categorias para cada condição, na mesma ordem das condições e, opcionalmente, um valor padrão/default. Se você não colocar nenhum valor como default e o valor não atender nenhuma das condições, a função preencherá a linha com o valor 0 (zero).

In [57]:
pd.__version__

'1.4.2'

In [61]:
wine_cat = wine.assign(
    ash_comparison = lambda dff: np.select([dff['ash'] < 2.366517], ['abaixo_media'], 'acima_media'), # aqui cloquei como padrão estar acima da média
    nfp_cat = lambda dff: np.select(
            [
                dff['nonflavanoid_phenols'] < 0.27,
                dff['nonflavanoid_phenols'] < 0.34,
                dff['nonflavanoid_phenols'] < 0.4375,
                dff['nonflavanoid_phenols'] >= 0.4375,
            ],
            [
                'primeiro_quartil',
                'segundo_quartil',
                'terceiro_quartil',
                'quarto_quartil'
            ],
            np.nan # aqui coloquei o valor vazio - np.nan equivale a vazio no pandas e não somente como um "not a number"
    )
) 