<a href="https://colab.research.google.com/github/soueuwilliam/aprendizadoDeMaquina/blob/main/tutoriais/Crashcourse_Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Introdução

 A biblioteca [Pandas](https://pandas.pydata.org/docs/index.html) é uma ferramenta de análise e manipulação de dados em Python. Ela oferece estruturas de dados poderosas e flexíveis para facilitar o trabalho com dados tabulares e séries temporais.

Graças à sua sintaxe simples e eficiente, o Pandas é amplamente utilizado em ciência de dados, análise financeira, bioinformática, engenharia e muitas outras áreas onde o trabalho com dados é essencial.

O pandas fornece dois tipos de classes para gerenciamento de dados:

- Series: uma matriz unidimensional rotulada contendo dados de qualquer tipo
como inteiros, strings, objetos Python etc.
- DataFrame: uma estrutura de dados bidimensional que contém dados como uma matriz bidimensional ou uma tabela com linhas e colunas.

O DataFrame, que é essencialmente uma tabela bidimensional com linhas e colunas rotuladas, permite que você realize operações de forma eficiente em grandes conjuntos de dados, incluindo seleção, filtragem, agregação, limpeza, transformação e visualização de dados.

Vale dizer que o Pandas é construído sobre o [NumPy](https://numpy.org/) e estende suas funcionalidades, fornecendo estruturas de dados de alto nível e ferramentas para análise de dados. Então, ao trabalhar com dados, muitas vezes você usará tanto Pandas quanto NumPy juntos, aproveitando as vantagens de ambas as bibliotecas para análise e manipulação de dados.

Além disso, o Pandas possui integração direta com [Matplotlib](https://matplotlib.org/), o que facilita a visualização de dados armazenados em estruturas de dados do Pandas.

Dessa forma, o Pandas fornece métodos convenientes para criar gráficos diretamente a partir de objetos DataFrame e Series usando Matplotlib. Isso simplifica o processo de criação de visualizações a partir de dados Pandas, eliminando a necessidade de escrever código adicional para preparar os dados para plotagem.

# Importar o Pandas

Para utilizar os recursos do Pandas é necessário realizar a importação. Em geral, para facilitar, é adicionado um _alias_ no pacote.

Vamos aproveitar também para importar o Numpy e o Matplotlib, também usando um _alias_.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# Criando DataFrames

Existem algumas maneiras para criar um DataFrame no Pandas. Além da ideia de utilizar Nympy arrays ou Series para preencher um DataFrame, vamos ver algumas outras maneiras nas próximas seções.

## Lista de Dicionários

A partir de uma lista de dicionários, conseguimos preencher um DataFrame por linhas, em que cada entrada da lista se transforma em uma nova linha do DataFrame.

In [None]:
list_of_dicts = [
    {"name": "Ginger", "breed": "Dachshund", "height_cm": 22, "weight_kg": 10, "date_of_birth": "2019-03-14"},
    {"name": "Scout", "breed": "Dalmatian", "height_cm": 59, "weight_kg": 25, "date_of_birth": "2019-05-09"}
    ]
df = pd.DataFrame(list_of_dicts)
df

## Dicionário de listas

Uma outra abordagem é preencher o DataFrame coluna por coluna. Para isso, podemos utilizar um dicionário de listas.

In [None]:
dict_of_lists = {
    "name": ["Ginger", "Scout"],
    "breed": ["Dachshund", "Dalmatian"],
    "height_cm": [22, 59],
    "weight_kg": [10, 25],
    "date_of_birth": ["2019-03-14", "2019-05-09"]
    }
df = pd.DataFrame(dict_of_lists)
df

# Importando e exportando dados

Em muitas situações (talvez, a maioria), os dados a serem analisados estão armazenados em fontes externas. O Pandas possui um amplo conjunto de métodos para fazer a leitura e escrita de arquivos em formatos específicos. Uma lista completa dos formatos pode ser vista [aqui](https://pandas.pydata.org/docs/user_guide/io.html).

Para fins de exemplificação, vamos trabalhar com um formato bastante comum, o CSV.

Para a maior parte deste Notebooke, vamos usar uma base de dados com informações sobre salário para cargos na área de Ciência de Dados. Os dados foram coletados nesse [repostório no Kaggle](https://www.kaggle.com/datasets/ruchi798/data-science-job-salaries).

Primeiro, vamos trazer para o ambiente do Google Colab um conjunto de dados.

In [None]:
!wget https://raw.githubusercontent.com/danielsabino/IMD1101-AM-2024.1/main/data/ds_salaries.csv

Agora, para fazer preencher um DataFrame com os referidos dados, basta usar o método `.read_csv()`.

In [None]:
df = pd.read_csv('ds_salaries.csv')

De maneira semalhante, se quisermos salvar o conteúdo de DataFrame em um arquivo CSV, basta usar o método `.to_csv()`.

In [None]:
df.to_csv('arquivo.csv')

# Métodos e atributos básicos

Assim que uma base de dados é carregada, a primeira coisa a fazer é explorar e verificar o que contém nela. Alguns métodos podem ser usados para obter algumas informações úteis:

- `head()`: retorna as primeiras linhas da dataframe - bom para ver exemplos de valores que estão armazenados;
- `tail()`: retorna as últimas linhas da dataframe - bom para ver exemplos de valores que estão armazenados;
- `info()`: mostra informações para cada coluna, como o tipo de cada uma delas e a quantidade de valores faltosos;
- `describe()`: traz algumas estatísticas básicas para cada coluna;
- `shape`: mostra a quantidade de linhas e colunas do dataframe.

In [None]:
df.head()

In [None]:
df.tail()

In [None]:
df.info()

In [None]:
df.describe()

In [None]:
df.shape

# Estrutura de um DataFrame

Para melhor entender um objeto do tipo DataFrame, é importante entender que eles são compostos de três componentes básicos, que podem ser acessados por meio dos seguintes atributos:

- `values`: um array NumPy bidimensional com os valores armazenados no DataFrame;
- `columns`: um índice com os nomes das colunas;
- `index`: um índice para as linhas - podem ser números ou nomes.

PS: um índice é um tipo de dados do Pandas (`index`), que pode ser enxergado como uma lista de strings ou números.

In [None]:
df.values

In [None]:
df.columns

In [None]:
df.index

# Ordenando e selecionando

## Ordenando linhas

Um opção interessante para analisar os dados é realizar a ordenação a partir de uma coluna específica. Para isso, podemos usar o método `sort_values()`.

In [None]:
df.sort_values('work_year')

 Você pode configurar o parâmetro `ascending` para indicar se quer o dado ordenado de forma crescente ou descrescente.

In [None]:
df.sort_values('salary', ascending=False)

Também é possível passar uma lista de colunas para fazer uma ordenação múltipla (de acordo com a ordem informada na lista). A extensão também é válida para o parâmetro de ordenação.

In [None]:
df.sort_values(['salary', 'experience_level'], ascending=[False, True])

## Selecionando colunas

As vezes, pode ser útil focar em uma única coluna do conjunto de dados. Com o Pandas, é fácil fazer isso. Basta utilizar o operador de seleção `[]` informando uma lista de colunas que se deseja mostrar.

In [None]:
df['employee_residence']

In [None]:
df[['employee_residence','company_location']]

## Selecionando linhas

Da mesma forma que podemos selecionar colunas, podemos também escolher somente algumas linhas para mostrar. Existem múltiplas maneiras de fazer isso.

A primeira é utilizar uma condição específica para obter somente as linhas cuja condição é atendida (a condição pode estar relacionada a uma coluna). Por exemplo, se quisermos obter saber quais cargos possuem salário maior que 100.000, basta fazer o seguinte:

In [None]:
df['salary'] > 100000

Usamos o resultado dessa condição dentro como valor de indexação para acessar somente as linhas desejadas.

In [None]:
df[df['salary'] > 100000]

As operações podem ser feitas facilmente não só com números mas com outros tipos de dados, como strings e datas.

In [None]:
df[df['company_size'] == 'L']

A seleção baseada em múltiplas condições deve ser acompanhada de operadores lógicos. Os operadores mais comuns são:

`&`: operador and;
`|`: operador or;
`~`: operador not.

Para facilitar a leitura, podemos atribuir as condições à variáveis específicas de forma separadas e utilizar essas variáveis como índices para seleção.

In [None]:
data_scientists = df['job_title'] == 'Data Scientist'
good_salaries = df['salary'] > 100000
df[data_scientists & good_salaries]

Se for agregar todo o código em uma só linha, o opreador de parênteses deve ser usado para separar as condições

In [None]:
df[(df['job_title'] == 'Data Scientist') & (df['salary'] > 100000)]

Para colunas do tipo categórico, é possível utilizar o método `isin()` informando uma lista de valores.

In [None]:
df[df['salary_currency'].isin(['BRL','GBP'])]

# Adicionando colunas

Para criar uma nova coluna no DataFrame, basta fazer uma referência dentro do operador `[]` atribuindo valores.

Vamos supor que desejamos adicionar uma coluna de salário mensal no nosso dataset.

In [None]:
df['montly_salary'] = df['salary_in_usd'] / 12
df.head()

Podemos combinar as habilidades de ordenar, selecionar linhas e colunas, e adicionar novas colunas.

Por exemplo, se quisermos responder a pergunta: qual os melhores valores de hora de trabalho o cargo de Cientista de Dados que trabalha em uma empresa dos Estados Unidos?

PS: vamos considerar 160 horas de trabalho por mês para fins de exemplificação.

In [None]:
df_ds_usa = df[(df['job_title'] == 'Data Scientist') & (df['company_location'] == 'US')]
df_ds_usa['hour_value'] = df_ds_usa['montly_salary'] / 160
df_ds_usa.sort_values('hour_value', ascending=False).head()

# Estatísticas sumarizadas

Já usamos o método describe para obter algumas estatísticas sobre os dados. Podemos de forma individual, obter algumas dessas estatísticas também.



In [None]:
df['salary_in_usd'].mean()

In [None]:
df['salary_in_usd'].median()

In [None]:
df['salary_currency'].mode()

In [None]:
df['salary_in_usd'].min()

In [None]:
df['salary_in_usd'].max()

In [None]:
df['salary_in_usd'].var()

In [None]:
df['salary_in_usd'].std()

In [None]:
df['salary_in_usd'].quantile(q = 0.4)

In [None]:
df['salary_in_usd'].cumsum()

A função `agg()` agrega funções definidas pelo usuário para extrair uma ou múltiplas estatísticas ao mesmo tempo.

In [None]:
# Define o percentil 30 de uma coluna
def pct30(column):
  return column.quantile(0.3)

# Define o percentil 40 de uma coluna
def pct40(column):
  return column.quantile(0.4)

def iqr(column):
  return column.quantile(0.75) - column.quantile(0.25)

In [None]:
print(df['salary_in_usd'].agg([pct30, pct40]))

In [None]:
print(df[['salary_in_usd','montly_salary']].agg([iqr, np.median]))

## Contagem

Para trabalhar com dados categóricos, podemos realizar a contagem de determinados valores de atributos. Para isso, vamos usar o método `value_counts()`.

In [None]:
df['job_title'].value_counts()

Esse método aceita o parâmetro `normalize` para mostrar a proporção de cada categoria.

In [None]:
df['job_title'].value_counts(normalize=True)

Podemos filtrar o dataset, por exemplo, para considerar somente os 5 cargos com mais pessoas. Sabemos que os cargos são:
- Data Scientist,
- Data Engineer,
- Data Analyst
- Machine Learning Engineer
- Research Scientist

Isso pode ser confirmado obtendo os primeiros 5 índices retornados pelo método `.value_counts()`.

In [None]:
df['job_title'].value_counts().index[:5]

Basta, então, filtrar as linhas por cargos que estão nessa lista.

In [None]:
top5 = df['job_title'].value_counts().index[:5]
df = df[df['job_title'].isin(top5)]

# Agrupamento

Você pode agrupar estatísticas sobre os porções semelhantes dos dados para ter uma visão mais ampla.

O método `groupby()` agrupa os dados de um atributos cujos valores são iguais.

In [None]:
df.groupby('job_title')['salary_in_usd']

O objeto gerado não traz muita informação útil diretamente. Mas, você pode usar esse recurso para calcular algumas estatísticas.

Por exemplo, saber qual a média salarial por cargo.

In [None]:
df.groupby('job_title')['salary_in_usd'].mean()

Podemos associar esse método com o `agg` para obter múltiplas estatísticas ao mesmo tempo.

In [None]:
df.groupby('job_title')['salary_in_usd'].agg([np.min,np.max,np.mean,np.median])

É possível agrupar por mais de um atributo.

In [None]:
df.groupby(['job_title', 'experience_level'])['salary_in_usd'].agg([np.min,np.max,np.mean,np.median])

# `drop_duplicates()`

O Pandas oferece uma maneira fácil de remover entradas duplicadas no conjunto de dados por meio do método `drop_duplicates()`.

In [None]:
df.drop_duplicates()

Como não foi especificado parâmetros, o método elimina as linhas que possuem todas as colunas com valores exatamente iguais. Nesse caso, não haviam dados duplicados.

Mas, podemos especificar as colunas que queremos utilizar para fazer essa comparação. Podemos, por exemplo, remover entradas que tenham o mesmo:

- `work_year`;
- `experience_level`;
- `employment_type`;
- `job_title`
- `salary_in_usd`
- `company_location`


In [None]:
df = df.drop_duplicates(subset=['work_year', 'experience_level', 'employment_type', 'job_title', 'salary_in_usd', 'company_location'])
df

Note que foram removidas 58 linhas com entradas duplicadas nas colunas especificadas.

# Pivot Tables

Existe uma outra maneira de agrupar valores. Você pode criar tabelas dinâmicas indicando quais colunas deseja agrupar valores. Para isso, será utilizado o método `pivot_tables()`.

Esse método recebe como parâmetros os valores (`values`) que serão agrupados e a coluna pela qual tais valores serão agrupados (`index`). Por padrão, é mostrado a média dos valores agrupados.

In [None]:
df.pivot_table(values='salary_in_usd', index='job_title')

Outras medidas, no entanto, podem ser utilizadas para mostrar valores agrupados. Basta informar no parâmetro `aggfunc`. Por exemplo, se quisermos mostrar a mediana ao invés da média, basta fazer:

In [None]:
df.pivot_table(values='salary_in_usd', index='job_title', aggfunc=np.median)

Um uso interessante de tabelas dinâmicas é utilizar duas variáveis para agrupar valores. Dessa forma, é possível fazer um cruzamento de informações.

Por exemplo, podemos querer saber a média salarial por nível de experiência (semelhante ao que foi feito usando o groupby.

In [None]:
df.pivot_table(values='salary_in_usd', index='job_title', columns='experience_level')

Os valores `Nan` acontecem porque não existem alguns valores associados às linhas ou colunas. Podemos incluir um valor para entrar como padrão caso isso aconteça.

Também é possível incluir uma linha e coluna resumo.

In [None]:
df.pivot_table(values='salary_in_usd', index='job_title', columns='experience_level', fill_value=0, margins=True)

# Indexação Explícita

Como já foi visto antes, cada DataFrame possui um índice para cada linha. Esse índice pode ser utilizado para fazer uma indexação explícita e obter um subconjunto de linhas do dataset.

Para obter a lista de índices, basta analisar o atributo `index`.

In [None]:
df.index

Nesse caso, os índices são números inteiros. Mas, você pode configurar colunas para serem os índices do DataFrame. Para isso, basta usar o método `set_index` e especificar a(s) coluna(s) a ser(em) utilizada(s) como índice.

Vale salientar que esse método não altera o DataFrame e você precisa atribuir a um novo objeto ou configurar o parâmetro `inplace` para que as alterações tenham efeito.

In [None]:
df.set_index('job_title', inplace=True)

Com base nisso, é possível referenciar linhas do DataFrame por meio do operador `.loc[]`. Ele aceita valores de índices para selecionar as linhas de acordo com o valor especificado para o índice.

In [None]:
df.loc['Data Scientist']

Podemos ainda fazer a ordenação do DataFrame com base nos valores dos índices. Basta usarmos o método `.sort_index().

In [None]:
df.sort_index(inplace=True)
df.head()

Você pode desfazer essa operação utilizando o método `reset_index()`. Essa reconfiguração pode ainda ser feita descartando os valores que estavam sendo utilizados como índice ou não por meio do parâmetro `drop` (o valor default é False).



In [None]:
df.reset_index(drop=True)

Como queremos os dados referentes ao cargo, vamos fazer a alteração persistir no DataFrame, deixando esse dado.

In [None]:
df.reset_index(drop=False, inplace=True)

In [None]:
df.head()

Vale dizer que esse tipo de indexação pode ser feita em múltiplos níveis, aninhando colunas. Por exemplo, podemos utilizar como índice a chave `job_title` e `experience_level`.

Isso pode ser útil quando houver alguma relação de hierarquia ou dependência entre os dados. Por outro, pode ficar mais confuso gerenciar essa indexação.

Para acessar os valores por meio do operador `.loc[]`, temos que passar a "chave composta" como uma tupla.

_PS: Para fins de exemplificação, os resultados serão atribuídos a um outro DataFrame._

In [None]:
df_new = df.set_index(['job_title', 'experience_level'])

In [None]:
df_new.loc[('Data Scientist', 'SE')]

Você pode passar mais de uma combinação para selecionar linhas.

In [None]:
jobs_exp = [('Data Analyst', 'MI'), ('Data Scientist', 'SE')]
df_new.loc[jobs_exp]

## Fatiamento

De forma semelhantes às listas, é possível fazer o fatiamento de um DataFrame para obter uma parte dele. A primeira maneira de fazer isso é utilizando o operador `.loc[]`. Basta passar o valor inicial do índice e o valor final (nesse caso, é incluído dentro da seleção).

In [None]:
df.loc[0:10]

Veja que usamos o valor do índice para fazer o fatiamento. Se o índice fosse outro, poderíamos adotar a mesma abordagem.

Vamos novamente considerar que o `job_title` é índice e fazer uma fatiamento com base nisso.

In [None]:
df_new = df.set_index('job_title')
df_new.loc['Data Analyst':'Data Scientist']

É possível também fazer o fatiamento de colunas passando um outro intervalo como segundo parâmetro do operador `.loc[]`.

In [None]:
df_new.loc['Data Analyst':'Data Scientist', 'work_year':'salary']

A outra maneira de fatiar o DataFrame é utilizar o operador `.iloc[]`. A diferença principal é que você não se refere necessariamente ao índice e deve especificar as posições de linhas e colunas do DataFrame.

O funcionamento é ainda mais parecido com o fatiamento de listas. Aqui, o primeiro parâmetro seleciona as linhas e o segundo, as colunas. Se trabalharmos como o operador `:`, o último valor não é incluído na seleção.

Então, para obter as 10 primeiras linhas das quinta e sexta colunas, devemos fazer:

In [None]:
df_new.iloc[:10, 4:6]

# Visualização de Dados

Como mencioando antes, o Pandas tem como uma das bases o `matplotlib`, uma biblioteca para visualizção de dados.

Isso significa que mostrar os dados de um DataFrame em formato de gráfico é bastante simples. Vamos verificar algumas formas de fazer isso.

## Histograma

In [None]:
df['salary_in_usd'].hist()
plt.show()

Você pode ajustar a quantidade de intervalos em que os dados serão divididos usando o parâmetro `bins`.

In [None]:
df['salary_in_usd'].hist(bins = 5)
plt.show()

## Barras

Para escolher um tipo de gráfico, é possível utilizar o método `plot` e parâmetro `kind`.

De fato, todos os tipos de gráfico podem ser feitos utilizando o método `.plot()`. A lista completa de gráficos possíveis pode ser vista [aqui](https://pandas.pydata.org/docs/user_guide/visualization.html) e incluem os seguintes tipos:

- `bar` ou `barh` para gráficos de barra;
- `hist` para histogramas;
- `box` para boxplot;
- `kde` ou `density` para densidade;
- `area` para gráficos de área;
- `scatter` para dispersão;
- `hexbin` para mapas exagonais;
- `pie` para gráficos de pizza.



In [None]:
avg_salary = df.groupby('job_title')['salary_in_usd'].mean()
avg_salary.plot(kind='bar')
plt.show()

## Pizza

In [None]:
df['job_title'].value_counts().plot(kind='pie')
plt.show()

Podemos adicionar outros elementos no gráfico, como título e legenda.

In [None]:
df['job_title'].value_counts().index

In [None]:
df['job_title'].value_counts().plot(kind='pie', title='Média Salarial')
plt.legend(df['job_title'].value_counts().index, loc='upper center', fontsize='small', ncols=5)
plt.show()

# Valores faltosos

Uma das tarefas mais importantes na análise de dados consiste em verificar se existem valores faltando no conjunto de dados.

Para exemplificar um conjunto com dados faltosos, vamos fazer uma nova importação da mesma base, mas onde alguns valores da coluna 'salary_in_usd' foram aleatoriamente removidos.

In [None]:
!wget 'https://raw.githubusercontent.com/danielsabino/IMD1101-AM-2024.1/main/data/ds_salaries2.csv'

In [None]:
df2 = pd.read_csv('ds_salaries2.csv', sep=';')

## `.isna()`

Por meio do método `.isna()` conseguimos verificar para todos os campos da base se o dado está presente ou não.

In [None]:
df2.isna()

No entato, quando a base se torna maior, essa visualização não é muito últil. Podemos usar o método `.any()` para avaliar se existe algum dados faltoso em cada coluna do DataFrame.

In [None]:
df2.isna().any()

Podemos ainda saber a quantidade de valores faltosos nas colunas por meio do método `.sum()`.

In [None]:
df2.isna().sum()

Esse é um dado que pode ser visualizado.

In [None]:
df2.isna().sum().plot(kind='bar')
plt.show()

Para tratar esse problema, podemos usar algumas abordagens. As duas mais comuns são: remover as linhas que possuem algum dado faltando ou preencher os campos que estão com valores faltando.

## `.dropna()`

Esse método simplesmente remove todas as linhas que possme valores faltando. Se não for especificado parâmetros, se alguma coluna tiver valores faltando, a linha é removida.

In [None]:
df2.dropna()

Mas, essa verificação pode ser feita considerando alguma(s) coluna(s) em específico.

In [None]:
df2.dropna(subset=['work_year'])

Nesse caso, como a coluna `work_year` possui todos valores para todas as linhas, nenhuma foi removida.

## `.fillna()`

Uma outra forma de contornar o problema de dados faltosos é atribuir valores para preencher o campo. O método `.fillna` insere um valor pré-determinado toda vez que encontra um campo faltando dado. Podemos preencher, por exemplo, o campo com o valor 0.

In [None]:
df2.fillna(0)

Ou podemos preencher com um valor central, como a mediana.

In [None]:
med = np.median(df2['salary_in_usd'])
df2['salary_in_usd'].fillna('salary_in_usd', inplace=True)

Podemos verificar que não existem mais colunas com valores faltosos.

In [None]:
df2.isna().sum()