<a href="https://colab.research.google.com/github/FGalvao77/Dicas-para-uso-do-Pandas/blob/main/Dicas_para_uso_do_Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# <center>Mudar valores<center>

---


## <center>Métodos dos pandas para alterar os valores de um DataFrame pandas ou uma série de pandas.<center>

_**<center>pandas.DataFrame.agg: Agregar em Colunas ou Linhas usando múltiplas operações<center>**_

Se você deseja agregar colunas ou linhas usando uma ou mais operações, tente ``pd.DataFrame.agg``.

In [None]:
# importando função e biblioteca necessária
from collections import Counter
import pandas as pd

In [None]:
# definindo uma função para cálculo 
def count_two(nums: list):
  return Counter(nums)[2]

In [None]:
# exemplo 1
df = pd.DataFrame(
    {'col_1': [1, 3, 5],
     'col_2': [2, 4, 6]}
)

df.agg(['sum', count_two])

Unnamed: 0,col_1,col_2
sum,9,12
count_two,0,1


In [None]:
# exemplo 2
df = pd.DataFrame(
    {'col_1': [1, 3, 5],
     'col_2': [2, 4, 6], 
     'col_3': [3, 7, 3], 
     'col_4': [-3, 8, 1]}
)

df.agg(['sum', count_two])

Unnamed: 0,col_1,col_2,col_3,col_4
sum,9,12,13,6
count_two,0,1,0,0


_**<center>pandas.DataFrame.agg: Aplicar agregações diferentes
para colunas diferentes<center>**_

Se você quiser aplicar agregações diferentes a diferentes olunas, insira um dicionário de metódos para coluna e agregação e utilize o método ``pd.DataFrame.agg``

In [None]:
# exemplo 1
df = pd.DataFrame(
    {'a': [1, 2, 3, 4], 
     'b': [2, 3, 4, 5]}
)

df.agg(
    {'a': ['sum', 'mean'], 
     'b': ['min', 'max']})

Unnamed: 0,a,b
max,,5.0
mean,2.5,
min,,2.0
sum,10.0,


In [None]:
# exemplo 2
df = pd.DataFrame(
    {'a': [1, 2, 3, 4], 
     'b': [2, 3, 4, 5], 
     'c': [44, 41, 21, 14]}
)

df.agg(
    {'a': ['sum', 'mean'], 
     'b': ['min', 'max'], 
     'c': ['sum', 'std', 'mean', 'min', 'max']})

Unnamed: 0,a,b,c
max,,5.0,44.0
mean,2.5,,30.0
min,,2.0,14.0
std,,,14.764823
sum,10.0,,120.0


_**<center>pandas.DataFrame.pipe: Aumente a legibilidade de seu código ao aplicar funções múltiplas a um Quadro de dados<center>**_

Se você deseja aumentar a legibilidade do seu código ao aplicar várias funções a um DataFrame, use o métódo ``pd.DataFrame.pipe``

In [None]:
from textblob import TextBlob

def remove_white_space(df: pd.DataFrame):
  df['text'] = df['text'].apply(lambda row: row.strip())
  return df

def get_sentiment(df: pd.DataFrame):
  df['sentiment'] = df['text'].apply(lambda row: 
                                     TextBlob(row).sentiment[0])
  return df

df = pd.DataFrame(
    {'text': ['It is a beautiful day today    ', 
              '   This movie is terrible']}
)

df = (df.pipe(remove_white_space).
      pipe(get_sentiment))

df

Unnamed: 0,text,sentiment
0,It is a beautiful day today,0.85
1,This movie is terrible,-1.0


In [None]:
def remove_white_space(df: pd.DataFrame):
  df['text'] = df['text'].apply(lambda row: row.strip())
  return df

def get_sentiment(df: pd.DataFrame):
  df['sentiment'] = df['text'].apply(lambda row: 
                                     TextBlob(row).sentiment[0])
  return df

df = pd.DataFrame(
    {'text': ['I am not terrible    ', 
              '   You are very happy']}
)

df = (df.pipe(remove_white_space).
      pipe(get_sentiment))

df

Unnamed: 0,text,sentiment
0,I am not terrible,0.5
1,You are very happy,1.0


In [None]:
def remove_white_space(df: pd.DataFrame):
  df['text'] = df['text'].apply(lambda row: row.strip())
  return df

def get_sentiment(df: pd.DataFrame):
  df['sentiment'] = df['text'].apply(lambda row: 
                                     TextBlob(row).sentiment[0])
  return df

df = pd.DataFrame(
    {'text': ['We are now fine!    ', 
              '   You are beautiful and wonderful!']}
)

df = (df.pipe(remove_white_space).
      pipe(get_sentiment))

df

Unnamed: 0,text,sentiment
0,We are now fine!,0.520833
1,You are beautiful and wonderful!,0.925


In [None]:
def remove_white_space(df: pd.DataFrame):
  df['text'] = df['text'].apply(lambda row: row.strip())
  return df

def get_sentiment(df: pd.DataFrame):
  df['sentiment'] = df['text'].apply(lambda row: 
                                     TextBlob(row).sentiment[0])
  return df

df = pd.DataFrame(
    {'text': ['This is very bad!    ', 
              '   Happy birthday!']}
)

df = (df.pipe(remove_white_space).
      pipe(get_sentiment))

df

Unnamed: 0,text,sentiment
0,This is very bad!,-1.0
1,Happy birthday!,1.0


In [None]:
from textblob import TextBlob
import pandas as pd

def remove_white_space(df: pd.DataFrame):
  df['text'] = df['text'].apply(lambda row: row.strip())
  return df

def get_sentiment(df: pd.DataFrame):
  df['sentiment'] = df['text'].apply(lambda row: 
                                     TextBlob(row).sentiment[0])
  return df

df = pd.DataFrame(
    {'text': ['Today is beautiful and wonderful as your beautiful smile, my love!    ', 
              '   You are not fine!']}
)

df = (df.pipe(remove_white_space).
      pipe(get_sentiment))

df

Unnamed: 0,text,sentiment
0,Today is beautiful and wonderful as your beaut...,0.725
1,You are not fine!,-0.260417


In [None]:
from textblob import TextBlob
import pandas as pd

def remove_white_space(df: pd.DataFrame):
  df['text'] = df['text'].apply(lambda row: row.strip())
  return df

def get_sentiment(df: pd.DataFrame):
  df['sentiment'] = df['text'].apply(lambda row: 
                                     TextBlob(row).sentiment[0])
  return df

df = pd.DataFrame(
    {'text': ['beautiful, wonderful, love, peace!    ', 
              '   hate, war, bad!']}
)

df = (df.pipe(remove_white_space).
      pipe(get_sentiment))

df

Unnamed: 0,text,sentiment
0,"beautiful, wonderful, love, peace!",0.825
1,"hate, war, bad, blood!",-0.8375


_**<center>pandas.Series.map: Alterar os valores de uma série de pandas
Usando um Dicionário<center>**_

If you want to change values of a pandas Series using a dictionary, use o métódo ``pd.Series.map``

In [None]:
s = pd.Series(['a', 'b', 'c'])

s.map({'a': 1,
       'b': 2,
       'c': 3})

0    1
1    2
2    3
dtype: int64

_**<center>pandas.Series.str: Manipular dados de texto em um pandas Series<center>**_

Se você estiver trabalhando os dados de texto em uma série pandas, em vez de criar suas próprias funções, usar o métódo ``pd.Series.str`` para acessar métodos comuns para processar string.

O código abaixo mostra como converter o texto para minúsculas e, em seguida, substituir “e” por “a”.

In [None]:
fruits = pd.Series(['Orange', 'Apple', 'Grape'])
fruits

0    Orange
1     Apple
2     Grape
dtype: object

In [None]:
fruits.str.lower()

0    orange
1     apple
2     grape
dtype: object

In [None]:
fruits.str.lower().str.replace('e', 'a')

0    oranga
1     appla
2     grapa
dtype: object

Encontre outros métodos de string úteis [aqui](https://pandas.pydata.org/pandas-docs/stable/user_guide/text.html#string-methods).

_**<center>set_categories in Pandas: Classificar coluna categórica por um
Pedidos Específicos<center>**_

Se você quiser classificar a coluna categórica do DataFrame do pandas por uma ordem específica, como pequeno, médio, grande, use o métódo `` df.col.cat.set_categories()``.

In [None]:
df = pd.DataFrame(
    {'col_1': ['large', 'small', 'mini', 'medium', 'mini'], 
    'col_2': [1, 2, 3, 4, 5]}
)

ordered_sizes = 'large', 'medium', 'small', 'mini'

df.col_1 = df.col_1.astype('category')
df.col_1.cat.set_categories(ordered_sizes, ordered=True, 
                            inplace=True)
df.sort_values(by='col_1')

Unnamed: 0,col_1,col_2
0,large,1
3,medium,4
1,small,2
2,mini,3
4,mini,5


_**<center>parse_dates: Converter colunas em data e hora quando
Usando Pandas para ler arquivos CSV<center>**_

Se houver colunas datetime em seu arquivo csv, use o parâmetro ``parse_dates`` quando ler arquivo csv com pandas. Isso reduz uma etapa extra para converter essas colunas de string para datetime após a leitura do arquivo.

In [None]:
df = pd.read_csv('/content/data.csv', sep=';', 
                 parse_dates=['date_column_1', 'date_column_2'])

In [None]:
df

Unnamed: 0,date_column_1,date_column_2,value
0,2021-02-10,2021-02-11,3
1,2021-02-12,2021-02-13,3


In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2 entries, 0 to 1
Data columns (total 3 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   date_column_1  2 non-null      datetime64[ns]
 1   date_column_2  2 non-null      datetime64[ns]
 2   value          2 non-null      int64         
dtypes: datetime64[ns](2), int64(1)
memory usage: 176.0 bytes


_**<center>Pandas.Series.isin: Filtrar linhas somente se coluna
contém valores de outra lista<center>**_

Ao trabalhar com um Dataframe pandas, se você deseja selecionar as linhas quando uma coluna contém valores de outra lista, a maneira mais rápida é usar ``isin``.

No exemplo abaixo, a linha 2 é filtrada porque 3 não está na lista.

In [None]:
df = pd.DataFrame(
    {'a': [1, 2, 3], 
     'b': [4, 5, 6]}
)

df

Unnamed: 0,a,b
0,1,4
1,2,5
2,3,6


In [None]:
l = [1,2,6,7]
df.a.isin(l)

0     True
1     True
2    False
Name: a, dtype: bool

In [None]:
df = df[df.a.isin(l)]
df

Unnamed: 0,a,b
0,1,4
1,2,5


_**<center>Especificar sufixos ao usar: df.merge()<center>**_

Se você estiver mesclando 2 dataframes com os mesmos recursos usando ``df.merge()``, pode ser confuso saber a qual dataframe a_x ou a_y pertence.

In [None]:
df1 = pd.DataFrame({'left_key': [1, 2, 3], 'a': [4, 5, 6]})
df2 = pd.DataFrame({'right_key': [1, 2, 3], 'a': [5, 6, 7]})

df1.merge(df2, left_on='left_key', right_on='right_key')

Unnamed: 0,left_key,a_x,right_key,a_y
0,1,4,1,5
1,2,5,2,6
2,3,6,3,7


A melhor maneira é especificar sufixos dos recursos em cada Dataframe como abaixo. Agora a_x torna-se a_left e a_y torna-se a_right.

In [None]:
df1.merge(df2, left_on='left_key', right_on='right_key', 
          suffixes=('_left', '_right'))

Unnamed: 0,left_key,a_left,right_key,a_right
0,1,4,1,5
1,2,5,2,6
2,3,6,3,7


Experimente se quiser que os nomes de suas colunas sejam menos confusos

_**<center>Destaque seu DataFrame de pandas<center>**_

Você já quis destacar o DataFrame do seu pandas para analisá-lo mais facilmente? Para exemplo, os valores positivos serão destacados como verdes e os valores negativos serão destacado em vermelho.

Isso poderia ser feito com `` df.style.apply(highlight_condition_func)``.

In [None]:
df = pd.DataFrame(
    {'col_1': [-5, -2, 1, 4], 
     'col_2': [2, 3, -1, 4]}
)

df

Unnamed: 0,col_1,col_2
0,-5,2
1,-2,3
2,1,-1
3,4,4


In [None]:
def highlight_number(row):
  return [
          'background-color: red; color: white'

          if cell <= 0
          else 'background-color: green; color: white'
          for cell in row
  ]

In [None]:
df.style.apply(highlight_number)

Unnamed: 0,col_1,col_2
0,-5,2
1,-2,3
2,1,-1
3,4,4


In [None]:
import numpy as np

df_1 = pd.DataFrame(
    {'col_1': [-5, -2, 1, 4], 
     'col_2': [2, 3, -1, 4], 
     'col_3': [0, 7, 5, 11],
     'col_4': [np.nan, -.5, -.01, np.nan]}
)

df_1

Unnamed: 0,col_1,col_2,col_3,col_4
0,-5,2,0,
1,-2,3,7,-0.5
2,1,-1,5,-0.01
3,4,4,11,


In [None]:
def highlight_number(row):
  return [
          'background-color: red; color: white'

          if cell <= 0
          else 'background-color: green; color: white'
          
          for cell in row
  ]

In [None]:
df_1.style.apply(highlight_number)

Unnamed: 0,col_1,col_2,col_3,col_4
0,-5,2,0,
1,-2,3,7,-0.5
2,1,-1,5,-0.01
3,4,4,11,


_**<center>Atribuir valores a várias novas colunas<center>**_

Se você quiser atribuir valores a várias colunas novas, em vez de atribuí-los separadamente, você pode fazer tudo em uma linha de código com ``df.assign``.

No código abaixo, primeiro criei col_3 e, em seguida, usei col_3 para criar col_4. Tudo está em um linha de código.

In [None]:
df = pd.DataFrame(
    {'col_1': [1,2], 
     'col_2': [3,4]}
)

df = df.assign(col_3 = lambda x: 
               x.col_1 * 100 + x.col_2).assign(col_4 = lambda x: 
                                               x.col_2 * x.col_3)

df

Unnamed: 0,col_1,col_2,col_3,col_4
0,1,3,103,309
1,2,4,204,816


_**<center>Reduza a memória de pandas.DataFrame<center>**_

Se você quiser reduzir a memória do seu DataFrame do pandas, comece alterando os dados tipo de coluna. Se sua variável categórica tiver baixa cardinalidade, altere o tipo de dados para categoria como abaixo.

In [None]:
from sklearn.datasets import load_iris

data = load_iris()
df = pd.DataFrame(data.data, columns=data.feature_names)
# X, y = load_iris(as_frame=True, return_X_y=True)
# df = pd.concat([X, pd.DataFrame(y, columns=["target"])], axis=1)
df.memory_usage()

Index                 128
sepal length (cm)    1200
sepal width (cm)     1200
petal length (cm)    1200
petal width (cm)     1200
dtype: int64

In [None]:
df = df.astype('category')
df.memory_usage()

Index                 128
sepal length (cm)    1710
sepal width (cm)      974
petal length (cm)    1774
petal width (cm)      966
dtype: int64

A memória agora está reduzida a quase um quinto do que era!

_**<center>pandas.DataFrame.explode: Transforme cada elemento em
um iterável para uma linha.<center>**_

Ao trabalhar com o DataFrame do pandas, se você quiser transformar cada elemento em um iterável para uma linha, use o metódo ``explode``.

In [None]:
df = pd.DataFrame({'a': [[1, 2], [4, 5]], 'b': [11, 13]})
df


Unnamed: 0,a,b
0,"[1, 2]",11
1,"[4, 5]",13


In [None]:
df.explode('a')

Unnamed: 0,a,b
0,1,11
0,2,11
1,4,13
1,5,13


_**<center>pandas.cut: Bin os valores de um DataFrame em discretos
intervalos.<center>**_

Se você quiser agrupar os valores do seu Dataframe em intervalos discretos, use o metódo ``pd.cut``.

In [None]:
df = pd.DataFrame(
    {'a': [1, 3, 7, 11, 14, 17]}
)

bins = [0, 5, 10, 15, 20]

df['binned'] = pd.cut(df['a'], bins=bins)
df

Unnamed: 0,a,binned
0,1,"(0, 5]"
1,3,"(0, 5]"
2,7,"(5, 10]"
3,11,"(10, 15]"
4,14,"(10, 15]"
5,17,"(15, 20]"


_**<center>Avançar Preencha os pandas: Use o valor anterior para preencher
o valor atual ausente.<center>**_

Se você quiser usar o valor anterior em uma coluna ou linha para preencher o valor atual em falta em um DataFrame do pandas, use `` df.fillna(method='ffill')``. ffill significa para a frente preencher.

In [None]:
import numpy as np

df = pd.DataFrame(
    {'a': [1, np.nan, 3], 
     'b': [4, 5, np.nan], 
     'c': [1 ,2 , 3]}
)

df

Unnamed: 0,a,b,c
0,1.0,4.0,1
1,,5.0,2
2,3.0,,3


In [None]:
df = df.fillna(method='ffill')
df

Unnamed: 0,a,b,c
0,1.0,4.0,1
1,1.0,5.0,2
2,3.0,5.0,3


_**<center>pandas.pivot_table:Transforme seu DataFrame em uma tabela dinâmica.<center>**_

Uma tabela dinâmica é útil para resumir e analisar os padrões em seus dados. Se você quiser transforme seu DataFrame em uma tabela dinâmica, use `` dpandas.pivot_table``. 

In [None]:
df = pd.DataFrame(
    {'item': ['apple', 'apple', 'apple', 'apple', 'apple'], 
     'size': ['small', 'small', 'large', 'large', 'large'],
     'location': ['Walmart', 'Aldi', 'Walmart', 'Aldi', 'Aldi'],
     'price': [3, 2, 4, 3, 2.5]
    }
)

df

Unnamed: 0,item,size,location,price
0,apple,small,Walmart,3.0
1,apple,small,Aldi,2.0
2,apple,large,Walmart,4.0
3,apple,large,Aldi,3.0
4,apple,large,Aldi,2.5


In [None]:
pivot = pd.pivot_table(
    df, values='price', index=['item', 'size'], 
    columns=['location'], aggfunc='mean'
)

pivot

Unnamed: 0_level_0,location,Aldi,Walmart
item,size,Unnamed: 2_level_1,Unnamed: 3_level_1
apple,large,2.75,4.0
apple,small,2.0,3.0


In [None]:
def personal_data():
  name = input('Digite seu nome:  ')
  age = input('Digite sua idade: ')
  return name + ' ' + age


In [None]:
personal_data()

Digite seu nome:  Fernando
Digite sua idade: 44


'Fernando 44'