# Códigos para uso da biblioteca Pandas

Lista de comandos úteis e explicados para manuseio de data frames

In [1]:
#para importar
import pandas as pd

In [None]:
#para abrir um arquivo csv
df = pd.read_csv('nome_do_arquivo.csv', sep=',') #o separador não é obrigatório

#para abrir um arquivo excel
df = pd.read_excel('nome_do_arquivo.xlsx')

#para acessar uma aba específica do arquivo xlsx
df = pd.read_excel('nome_do_arquivo.xlsx', sheetname='nomedaaba')

#para salvar um novo csv
nomedodataframe.to_csv('nome_do_arquivo.csv', encoding='utf-8') #não esquecer do encoding

#para saber em qual pasta o jupyter está rodando
pwd

#para ver arquivos que podem ser acessados dentro dessa pasta
ls

In [None]:
#para 'chamar' uma linha aleatória do dataframe
df.sample()

#para ver as primeiras linhas do dataframe
df.head() #é possível colocar um número de linhas dentro dos parênteses

#para ver as últimas linhas do dataframe
df.tail #também é possível definir uma quantidade de linhas

In [None]:
#conta a quantidade de linhas e colunas (linhas, colunas). É sem parênteses mesmo.
df.shape 

#para ver os tipos de dados disponíveis no dataframe (tabela)
df.dtypes

In [None]:
#transforma dados de uma coluna em float
df['nome_da_coluna'] = pd.to_numeric(df['nome_da_coluna']) 

In [None]:
#Remover uma coluna. O 1 signigica coluna, assim como 0 significa linha
df = df.drop('nome_da_coluna', 1)

**Para criar um novo dataframe apenas com as colunas desejadas, ou seja, sem precisar remover as indesejadas, basta criar um novo dataframe e selecionar as colunas necessárias. Confira o exemplo a seguir:**

Suponhamos que eu tenha um dataframe *df*. Para preparar outro com as colunas que eu quero, vou definir outro chamado *df_final* e o código será assim:

In [None]:
#renomear uma coluna
df = df.rename(columns={'nome_atual_da_coluna': 'novo_nome_da_coluna'})

In [None]:
#pegar uma lista de nomes de colunas
df.columns

In [None]:
#Pedir nomes unicos na coluna DonorNome
df['nome_da_coluna'].unique()

In [None]:
#tira os espacos do início e do final da célula
df['nome_da_coluna'] = df['nome_da_coluna'].map(str.strip)

In [None]:
#define formato de data para uma coluna
df['nome_da_coluna'] = pd.to_datetime(df['nome_da_coluna'], format="%d/%m/%y")

In [None]:
#cria coluna nova com parte da informação da coluna de data
df['nova_coluna'] = pd.DatetimeIndex(df['nova_coluna']).year

#o código acima cria uma coluna apenas com o ano da data. Para criar com apenas o mês:
df['nova_coluna'] = pd.DatetimeIndex(df['nova_coluna']).month

 **Para criar um novo dataframe apenas com as colunas desejadas, ou seja, sem precisar remover as indesejadas, basta criar um novo dataframe e selecionar as colunas necessárias. Confira o exemplo a seguir:**

Suponhamos que eu tenha um dataframe *df*. Para preparar outro com as colunas que eu quero, vou definir outro chamado *df_final* e o código será assim:

In [None]:
df_final = df[['coluna_que_quero1','coluna_que_quero2', 'coluna_que_quero3']]

**A seguir, códigos úteis para análises básicas:**

In [None]:
#aplica um filtro de valor em uma coluna
df[df['nome_da_coluna'] < 1000
#nesse caso, serão mostradas apenas as linhas com valor menor que 1000 na coluna escolhida.

In [None]:
#organiza o dataframe em ordem crescente, a partir de determinada coluna
df.sort_values(by='nome_da_coluna')

#para organizar o dataframe em ordem decrescente, a partir de determinada coluna
df.sort_values(by='nome_da_coluna', ascending=False)

In [None]:
#mostrar a soma de valores de uma coluna
df['nome_da_coluna'].sum()

#não custa lembrar que é possível ter uma "amostra" sobre os dados guardados no dataframe com 
df.describe()


In [None]:
#contar quantas vezes um nome aparece em uma coluna
df['nome_da_coluna'].value_counts()

In [None]:
#agrupar por nome de uma coluna e somar valores de outra

grupo = df.groupby('nome_da_coluna_comnomesporexemplo')['nome_coluna_com_valores'].sum()

#é uma espécie de tabela dinâmica, pois mostra, por exemplo, lista de doadores e valores totais doados por cada um.

 **Algumas linhas para análises um pouco mais complexas:**

In [None]:
#para fazer um filtro em uma coluna pelo termo de alguma linha
#serve, por exemplo, para filtrar um Estado em coluna com vários

df.loc[df['nome_da_coluna'] == 'Espírito Santo']

#é possível fazer esse filtro com número ou mesmo com uma conta.
#a seguir, mostrando apenas as linhas com mais de 50%.

df.loc[df['nome_da_coluna_com_número']*100 >= 50]