<img src='https://github.com/davibarbosabdj/Minicurso_pandas/blob/main/imagens/logo_pandas.png?raw=true' width='115px' style='float: right'>

# <center><strong>Introdução a Biblioteca Pandas</strong></center>
### <center>Projeto Engedados - UFC Campus Jardins de Anita Itapajé</center>
---

#### **O que é o Pandas?**

O pandas é uma biblioteca de código aberto para a linguagem de programação Python que é usada principalmente para análise e manipulação de dados. Ela fornece estruturas de dados e ferramentas de análise de alta performance e fáceis de usar, permitindo que os usuários manipulem dados tabulares com facilidade. O pandas é amplamente utilizado em ciência de dados, finanças, análise de negócios e outras áreas onde a análise de dados é fundamental.
<br>
#### **Por que o Pandas é importante para Análise de Dados?**

O pandas é importante para análise de dados porque oferece uma ampla gama de ferramentas e funcionalidades para manipulação e análise de dados de forma eficiente e eficaz. Com o pandas, os usuários podem importar e exportar dados de várias fontes, limpar e preparar dados para análise, manipular e transformar dados para uso em modelos de análise e visualizações de dados, e realizar análises estatísticas e de séries temporais.

Além disso, o pandas oferece suporte para lidar com dados faltantes, integrar dados de várias fontes e visualizar os resultados da análise em gráficos e tabelas interativas. Como resultado, os usuários podem analisar grandes conjuntos de dados com mais rapidez e facilidade, permitindo que tomem decisões informadas com base em insights valiosos extraídos dos dados.

Em resumo, o pandas é importante para análise de dados porque permite que os usuários trabalhem com dados de forma mais eficiente e eficaz, economizando tempo e aumentando a precisão dos resultados.

#### **Instalando e Importando o Pandas**

Para instalar o pandas, você pode usar o pip, o gerenciador de pacotes padrão do Python. Basta abrir o terminal ou prompt de comandos e digitar o seguinte comando: 

~~~python
pip install pandas
~~~

Após a instalação, você pode importar o pandas em seus scripts Python utilizando seguinte comando: 

In [2]:
import pandas as pd

#### Criação de DataFrames

DataFrame (DF) é uma das estruturas de dados centrais do pandas, que é uma biblioteca Python amplamente usada para análise de dados. Um DataFrame é uma tabela bidimensional, semelhante a uma planilha, onde os dados são organizados em linhas e colunas.

- A partir de um Dicionário:

Você pode criar um DataFrame a partir de um dicionário onde as chaves representam os nomes das colunas e os valores são listas que preenchem as colunas.

In [None]:
# Criando um df

In [3]:
# Criando um df a partir de uma lista de dicionarios 


### **1. Manipulação de Dados Básica**

**Dataset: Customer Call List**

A base de dados Customer Call List é uma valiosa fonte de informações sobre os clientes da empresa. Contendo colunas essenciais, como o ID do cliente, telefone, nome, endereço e outros campos relevantes, essa base de dados permite à empresa manter contato com seus clientes e fornecer um atendimento personalizado.

#### 1.1 Lendo a nossa base de dados

Existem várias maneiras de importar um dataset no Python usando o Pandas, que é uma biblioteca popular para análise de dados.

In [4]:
#Leitura dos dados no formato csv


In [5]:
#Leitura dos dados no formato excel


In [6]:
#Leitura dos dados no formato json


#### 1.2 Visualizando a nossa base de dados

In [7]:
#Visualizando as primeiras linhas do nosso dataframe - .head()


In [8]:
#Visualizando as ultimas linhas do nosso dataframe - .tail()


In [9]:
#Visualizando as informações gerais do nosso data frame - .info()


In [10]:
#Retornando o nome das colunas do dataframe .columns


#### 1.3 Manipulação das Colunas do Dataframe 

Podemos realizar diversas manipulações nas colunas de um dataframe utilizando as funcionalidades do Pandas.

In [11]:
#Renomear colunas - .rename()


In [12]:
#Mudando a ordem das colunas - 


Para criar uma nova coluna em um data frame, basta atribuirmos uma lista/series de valores a uma constante a uma nova chave do df.

*Obs: A quantidade de valores da lista deve ser igual ao número de linhas/registros do df.*

In [13]:
#Criar novas colunas 


In [14]:
#Deletar colunas - .drop() e del df[column]


#### **1.4 Series**

Uma Series é uma estrutura de dados unidimensional que contém um array de dados e um array correspondente de rótulos, chamado de índice. É uma estrutura de dados flexível e útil para várias operações de manipulação de dados e análise de dados, especialmente quando se trabalha com dados em colunas de um DataFrame.

**Importância das Séries:**

As séries são importantes porque permitem que você trabalhe facilmente com dados em uma forma mais simples e organizada. Elas fornecem várias funcionalidades úteis, como cálculos estatísticos, manipulação de dados e criação de gráficos.

Além disso, as séries são frequentemente usadas como componentes de DataFrames, que são a estrutura de dados mais amplamente usada no pandas. DataFrames são tabelas que consistem em séries, onde cada série é uma coluna. Ao entender como trabalhar com séries, você estará bem preparado para manipular e analisar dados em geral usando o pandas.






In [15]:
#Selecionando uma coluna inteira 


### **2. Manipulação de Dados**

A manipulação de dados em um DataFrame no pandas envolve várias etapas, desde selecionar dados específicos até realizar operações, limpeza e verificação. 

O pandas oferece uma variedade de métodos e ferramentas para tornar esse processo eficiente e eficaz, permitindo que você trabalhe com conjuntos de dados de forma flexível e poderosa.

- **Seleção de Dados:** Você pode selecionar linhas e colunas específicas do DataFrame usando índices ou rótulos.

- **Operações com Colunas e Linhas:** Você pode realizar operações aritméticas e de transformação em colunas e linhas.

- **Tratamento de Valores Faltantes:** Lidar com valores nulos (NaN) em seus dados usando métodos como ``dropna()`` e ``fillna()``.

- **Verificação de Dados Faltantes e Inconsistentes:** Identificar e lidar com dados faltantes ou inconsistentes em seu DataFrame.

- **Filtragem de Dados:** Filtrar linhas do DataFrame com base em condições específicas.

- **Ordenação de Dados:** Ordenar os dados com base em valores de coluna.

- **Transformação de Dados:** Aplicar funções, mapeamentos e transformações aos dados.

#### 2.1 Selecionando os dados 
Existem várias maneiras de selecionar dados usando o pandas. Indexação, Condição, Colunas... 

#### Seleção de dados - .loc[]

O ```.loc[]``` é um método usado para acessar um grupo de linhas e colunas por meio de rótulos ou uma condição booleana. Ele funciona da seguinte forma:

- **Usando rótulos:** Você especifica os rótulos das linhas e colunas que deseja selecionar. Por exemplo, ```df.loc[2, 'idade']``` selecionará o valor da coluna 'idade' na linha com rótulo 2.

- **Usando rótulos e fatias:** Você também pode usar fatias para selecionar um intervalo de rótulos, como ```df.loc[1:3, 'idade':'nome']```.

- **Usando uma condição booleana:** Você pode usar uma condição booleana para selecionar linhas com base em uma expressão, como ```df.loc[df['idade'] > 25]```.

In [16]:
#Seleção -.loc[]


#### Seleção por indexação - .iloc[]

O ```iloc``` é um método usado para acessar um grupo de linhas e colunas por meio de índices inteiros. Ele funciona da seguinte forma:

- **Usando índices inteiros:** Você especifica os índices das linhas e colunas que deseja selecionar. Por exemplo, ```df.iloc[0, 2]``` selecionará o valor na primeira linha e terceira coluna.

- **Usando índices inteiros e fatias:** Assim como o loc, você também pode usar fatias para selecionar um intervalo de índices, como ```df.iloc[1:3, 0:2]```.

- **Usando índices inteiros com condição booleana:** Você pode combinar o iloc com uma condição booleana para selecionar linhas com base em uma expressão, como ```df.iloc[df['idade'] > 25]```.

In [17]:
#Seleção-.iloc[]


#### 2.2 Operações com colunas e linhas 

As operações com colunas em um DataFrame são uma parte essencial da manipulação de dados. Você pode realizar uma variedade de operações para transformar, calcular e manipular os valores de uma coluna.

In [18]:
# Aritmética entre Colunas:


In [19]:
# Aplicação de Funções:


#### 2.3 Tratamento de valores faltantes ou inconsistências

O tratamento de valores faltantes e inconsistências é uma etapa crucial na manipulação de dados, pois dados ausentes ou inconsistentes podem afetar a qualidade das análises e modelos que você constrói.

In [20]:
# Verificação de valores faltantes  


In [21]:
import numpy as np

In [22]:
# Preenchelos com outros valores 


#### 2.4 Filtragem de dados

A filtragem de dados é uma técnica fundamental para selecionar um subconjunto específico de dados em um DataFrame com base em determinados critérios ou condições. Ela ajuda a trabalhar de forma mais eficiente com grandes conjuntos de dados, focando apenas nos dados relevantes para uma análise ou tarefa específica.

In [23]:
# Filtrar os dados de acordo com a coluna sobrenome == "Skywalker"


In [24]:
# Filtrar os dados dos clientes que não podem ser contactados


In [25]:
# Filtrando os clientes que podem ser contactados 


In [26]:
# Filtragens condicionais


#### 2.5 Ordenação de dados 

O método ```sort_values()``` é uma ferramenta valiosa do pandas que permite reorganizar um DataFrame de acordo com os valores em uma ou mais colunas. Isso é particularmente útil para visualizar dados de forma ordenada e para realizar análises mais eficientes.

In [27]:
# Ordenando de acordo com a coluna 


In [28]:
# Ordenando a partir da coluna Primeiro Nome


#### 2.6 Conversão de Dados 

A conversão de dados no contexto da análise de dados com o pandas é essencial para garantir que os conjuntos de dados estejam prontos para análise precisa e eficiente. Por meio de métodos como pd.to_datetime(), .astype() e outros, é possível transformar colunas em diferentes tipos de dados, como datas, números inteiros, categorias e strings. Essa flexibilidade permite ajustar os dados às necessidades específicas da análise, melhorando a precisão dos cálculos e a eficácia das operações.

In [29]:
# Criando um DataFrame de exemplo


In [30]:
# Convertendo coluna para tipo de dados datetime


In [31]:
# Convertendo coluna para tipo de dados numéricos (int)


In [32]:
# Convertendo coluna para tipo de dados categóricos


In [33]:
# Convertendo coluna para tipo de dados string


In [34]:
# Exibindo o DataFrame resultante
