<a href="https://colab.research.google.com/github/CaioVArruda/Artigos_medium/blob/main/Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

By Caio Viani Arruda
_____
#**Pandas**

![](https://miro.medium.com/max/720/1*koYA6G9V4mC-mmz1OomMLg.jpeg)

Uma biblioteca muito utilizada em Python com inúmeras funcionalidades para quem gosta da experiência de analisar dados. Podemos ler, manipular, agregar e plotar dados em poucos passos. Trabalhando de maneira integrada com outras bibliotecas.

Vamos trazer o conceito de dataframe muito usado no pandas, consiste ns composição dos nossos dados seja o número de colunas e o números de linhas, cada coluna no pandas recebe o nome de series e um amontado de series recebe o nome de dataframe, ou seja, de maneira bem simples por comparar a uma tabela de excel.

Além de suas funcionalidades esta biblioteca é tão popular por ser considerada de fácil aprendizado e uso, sendo porta de entrada para aqueles que desejam ingressar no mundo de Data analysis ou Data science.

Como dito logo acima essas análises podem ser refinidas quando integramos o pandas a outras ferramentas que potencializam o seu poder analítico, como:

* **Seaborn**: Estatística e visualização;
* **Numpy**: Cálculos numéricos;
* **Matplotlib**: Visualização;
* **Scikit-learn**: classificação, clusterização e regressão;

# Instalando pandas

A depender do ambiente em que estiver codificando será necessário instalar o pandas ou qualquer outra biblioteca.

In [1]:
# Jupyter notebbok
!pip install pandas

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


Para impostar o pandas utilizamos o seguinte comando.

In [2]:
# Importando o pandas
import pandas as pd

**Obs**: a utilização do pd se dá como uma abreviatura do nome da própria biblioteca, facilitando a sua utilização quando necessário. Isto é apenas uma convenção, se quiser pode nomeá-la como bem entender.

# Aprendendo a ler arquivos

Vamos utilizar os comando pd.read e observar quantas extensões são possíveis de ler no pandas.

In [None]:
# Lendo arquivos
pd.read_excel('caminho do arquivo') #para o exemplo utilizamos a extensão do excel

Para conseguir acessar todas as extensões suportadas pelo colab basta fazer como o exemplo abaixo e apertar tab.

Podemos ainda atribuir esse arquivo a uma variável de sua preferência nesse caso vamos nomeá-la de df:

In [None]:
df = pd.read_excel('caminho do arquivo') # para o exemplo utilizamos a extensão do excel

# Abas e colunas

Essa nossa variável agora pode ser analisada de diversas manieras, como no exemplo usamos uma extensão xlsx, ou seja, excel, podemos percorre todas as suas abas, se está tiver mais de uma claro, da seguinte maneira:

In [None]:
# Para acessar uma aba
df['sheet_name']

# Para acessar uma coluna de uma determinada aba
df['sheet_name']['column_name']

# Comandos simples, mas importante

O pandas possui comandos que nos possibilitam ter um olhar mais intrínseco e específico dos nossos dados, possibilitando ver as primeiras ou últimas linhas do nosso comando, transpor os dados do dataframe e até mesmo a estrutura deste.

In [None]:
# As 5 primeiras entradas
df.head() # Note que podemos inserir argumentos para selecionarmos outras quantidades de linhas

# As 5 últimas entradas
df.tail() # Neste também podemos fornecer outros argumentos.

# Transpondo os dados 
df.T 

Temos dois comandos muito interessantes para descobrirmos o tamanho do nosso dataframe, sua composição e quais tipos de dados constituiem o nosso banco de dados, são eles:

In [None]:
# Dimensões do df
df.shape # retorna o número de linhas e colunas

# O comando abaixo retorna quais tipos constituem cada coluna, número de entradas e outras informações
df.info()

# Descrevendo o df

Para uma análise descritiva rápida existe um comando específico para esta tarefa, a qual nos retorna as medidas de tendência central, média, mediana, desvio padrão e os quartis.

In [None]:
# Comando para as medidas de tendência central
df.describe()

Vale resaltar que o pandas nos permite executar algumas operações aritméticas como soma, média, desvio padrão e alguns outros.

In [None]:
# Utilizando as operações
# Soma
df['coluna_nome'].sum()

# Média
df['coluna_name'].mean()

# Adicionando ou removendo colunas

O pandas nos permite saber quantas colunas temos no df e qual o nome delas, possibilitando ainda acrescentar ou excluir uma determinada coluna, veja que estes comandos podem ser uma mão na roda quando pensamos em manipulação, vejamos:

In [None]:
# Nome das colunas
df.columns

# Adicionando uma coluna
df['coluna_nome'] = objeto ou condição que retorna um objeto

# excluindo um coluna
del df['coluna_nome']

**Obs**: É possível filtrar o que queremos do banco de dados por meio de um arranjo de statements, seja para selecionar um tipo específico do dado ou um período tempo, mas este é um assunto pra outra hora.

Um outro comando muito legal é o dtypes(), nos fornece o tipo de cada objeto de cada coluna quando pesquisamos com esse comando.

In [None]:
# Identificando os tipos de cada coluna
df.dtypes()

# Índice

O índice por padrão é estabelecido numericamente, mas este pode ser configurado ao escolher uma das séries (uma das colunas) para exercer essa função, por meio dos comandos:

In [None]:
# Alterando o índice
df.set_index('coluna_nome', inplace=True) # precisamos fornecer o nome da coluna como argumento e o inplace serve para substituir

# Outra forma
df = df.set_index('coluna_nome') # neste não precisa do inplace porque estamos fazendo a alteração diretamente no dataframe

**Obs:** como dito o índice varia de 0 até n-1. Outra ressalva que vale ser feita é o argumento inplace o qual é necessário para gerar a alteração definitiva no nosso df, se não for pelo inplace então precisamos atribuir novamente, se nenhuma dessas maneiras forem feitas o dataframe permanece como original.

# Identificando valores únicos, contando valores e alterando seu tipo

Para estas três tarefas a biblioteca possui comandos específicos e de uma facilidade gigante para aqueles que estão manipulando o dataframe, por meio deles podemos identifcar valores únicos, este nos permite captar incongruências quando existir, podemos ainda contar os valores de uma determinada coluna linha a linha e até mesmo converter o tipo do dado de uma determinada coluna. Vejamos como proceder:

In [None]:
# Valores únicos
df['coluna_nome'].unique() # retorna valores únicos como um array np

# Contando valores
df['coluna_nome'].value_counts() # retorna uma contagem dos valores que aparecem nessa coluna

# Alterando o tipo do dado de uma dada coluna
df['coluna_nome'].astype() # converte o tipo de dado de uma coluna específica

# Conclusão

Conseguimos perceber que mesmo abordando aspectos mais básicos dessa biblioteca ela nos permite fazer boas manipulações com a nossa base de dados, lógico que existem muitas outras ferramentas dentro da caixa do pandas as quais não foram exploradas neste artigo, mais acredito que num futuro próximo podemos tentar tornar esse conhecimento tangível a todos que estão inciando na programação.
Qualquer dúvida, crítica ou sugestão ficarei feliz em ouvir. Abraços até o próximo.