## Instalando a biblioteca

In [None]:
# Basta rodar essa célula
!pip install pandas

## Importando a bilbioteca

In [None]:
import pandas as pd

## DataFrames e Series

In [None]:
# Passando dados para o pandas através de um dicionário
dados = {
    'Nome': ["Ana", "Bruno", "Carlos"],
    'Idade': [25, 40, 32]
}

# Um DataFrame do pandas é uma tabela de dados, com linhas e colunas
df = pd.DataFrame(dados)
df

In [None]:
# Uma series do pandas é uma coluna de dados com um índice
series = pd.Series([10, 20 ,30])
series

## Lendo tabelas

In [None]:
# Pode ser read_qualquercoisa, porém o mais comum é csv
df = pd.read_csv('funcionarios.csv')
df

## Manipulação básica de visualização

In [None]:
# Pra ver apenas as primeiras linhas da tabela, use
df.head()

In [None]:
# Pra ver apenas as ultimas linhas da tabela, use
df.tail()

In [None]:
# Pra visualizar apenas colunas específicas, passe o nome delas dentro de []
df[['Nome', 'Idade']]

In [None]:
# Serve assim também
df['Nome']

## Séries booleanas e filtros

In [None]:
# Isso aqui é um série booleana, vai te mostrar só o que você pediu
df['Idade'] > 40

In [None]:
# E isso aqui é um filtro, vai te mostrar a tabela inteira, só que filtrado
df[df['Idade'] > 40]

In [None]:
# O filtro pode ser útil em situação assim
df[df['Salário'] > 5000]

## Combinando filtros

In [None]:
filtro_maior_que_30 = df['Idade'] > 30
filtro_mais_que_5mil = df['Salário'] > 5000

df[filtro_maior_que_30 & filtro_mais_que_5mil]

## Criando e removendo colunas

In [None]:
# Adicionando uma coluna
df['Sálario Anual'] = df['Salário'] * 12
df

In [None]:
# Removendo uma coluna
# A função axis serve para indicar o que o pandas está removendo(axis=0 → linhas | axis=1 → colunas)
df = df.drop('Sálario Anual', axis=1)
df

## Resumindo dados

In [None]:
# mostra um resumo do DataFrame, incluindo colunas, tipos de dados e quantidade de valores não nulos
df.info()

In [None]:
# exibe estatísticas básicas das colunas numéricas, como média, mínimo e máximo
df.describe()

In [None]:
# calcula a soma de todos os valores da coluna Salário
df['Salário'].sum()

In [None]:
# calcula a média dos valores da coluna Salário
df['Salário'].mean()

## Limpeza de dados

In [None]:
# carregando outro csv
df = pd.read_csv('funcionarios_nulos.csv')
df

In [None]:
# se quiser remover todas as linhas que tem algum valor nulo, basta usar
df.dropna()

In [None]:
# se quiser remover todas as linhas que tem valores nulos em uma coluna específica, basta usar
df.dropna(subset='Idade')

In [None]:
# fillna() substitui os valores vazios (NaN) por outro valor que você escolher.
media_idade = df['Idade'].mean()
df['Idade'] = df['Idade'].fillna(media_idade)

In [None]:
# podemos mudar o tipo de dado de uma coluna também
df['Idade'] = df['Idade'].astype(int)
df

## Contando ocorrências

In [None]:
# voltando para o primeiro csv
df = pd.read_csv('funcionarios.csv')

In [None]:
# value_counts() conta quantas vezes cada valor aparece naquela coluna
df['Ativo'].value_counts()

In [None]:
# outro exemplo de value_counts()
df['ID Departamento'].value_counts()

## Opções de agregação

In [None]:
# dividindo o DataFrame por departamento (isso sozinho não faz nada)
df.groupby('ID Departamento')

In [None]:
# dividindo o DataFrame por departamento e somando os salários dentro de cada grupo
df.groupby('ID Departamento')['Salário'].sum()

In [None]:
# exibindo o maior salário dentro de cada departamento
df.groupby('ID Departamento')['Salário'].max()

## Ordenando dados

In [None]:
# ordenando o data frame pelo salário (menor pro maior)
df.sort_values(by='Salário')

In [None]:
# ordenando o data frame pelo salário (maior pro menor)
df.sort_values(by='Salário', ascending=False)

## Combinando dados

In [None]:
# lendo um novo csv
df_dept =pd.read_csv('departamentos.csv')
df_dept

In [None]:
# pd.merge() combina duas tabelas, juntando-as pelas colunas em comum
# caso as duas tabelas tenham uma coluna com um nome em comum, apenas faça assim
df_final = pd.merge(df, df_dept)
df_final

In [None]:
# e use isso aqui para caso não tenha nome de colunas iguais
# em left fica a tabela principal, no right fica a coluna com os dados extras
df_final = pd.merge(df, df_dept, left_on='ID Departamento', right_on='ID Departamento')
df_final

In [None]:
# vamos ler mais algumas informações extras
df_novos = pd.read_csv('novos_funcionarios.csv')
df_novos

In [None]:
# agora vamos mesclar as novas informações com a tabela principal
# pd.concat() junta dois data frames um embaixo do outro
# ignore_index=True reorganiza os índices para ficarem em ordem
df_todos = pd.concat([df, df_novos], ignore_index=True)
df_todos

## Escrevendo dados em arquivos

In [72]:
df_todos.to_csv('todos_funcionario.csv')