# Pandas -  A potente biblioteca para análise de dados do Python
 - ### Explorando funções básicas 


Pandas é uma biblioteca de software de código aberto amplamente utilizada na linguagem de programação Python para manipulação e análise de dados. Foi criada por Wes McKinney em 2008 enquanto trabalhava na AQR Capital Management e desde então se tornou uma das ferramentas mais populares para análise de dados em Python.

O Pandas oferece estruturas de dados flexíveis e eficientes, especialmente duas estruturas principais: Series e DataFrame.

- *Series* é uma estrutura unidimensional que pode armazenar dados de qualquer tipo;

- *DataFrame* é uma estrutura bidimensional que se assemelha a uma planilha, com linhas e colunas rotuladas, permitindo manipulação de dados de forma poderosa e intuitiva.

Além das estruturas de dados, o Pandas fornece uma ampla gama de funcionalidades para ler e escrever dados em diversos formatos, como CSV, Excel, SQL, JSON, entre outros. 

Ele também oferece funcionalidades para limpeza, transformação, agregação e análise de dados, tornando-o uma ferramenta essencial para cientistas de dados, analistas e desenvolvedores que trabalham com dados em Python.

Neste notebook, eu irei aplicar algumas funções do Pandas pra exemplificar. 

## 1. Estrutura de dados

O Pandas fornece duas estruturas de dados fundamentais: Series e DataFrame.

Compreender essas estruturas de dados é essencial para um tratamento eficaz de dados com o Pandas.

### 1.1 Series
*Series* é uma matriz rotulada unidimensional que pode conter vários tipos de dados, como inteiros, flutuantes, strings ou até mesmo objetos personalizados. É semelhante a uma coluna em uma planilha do Excel ou a uma única coluna em uma tabela SQL.

Os principais recursos da série incluem:

- ***Rotulagem***: Cada elemento de uma Serie possui um rótulo ou índice, que permite fácil acesso e manipulação de dados;

- ***Dados homogêneos***: Ao contrário das listas em Python, Series normalmente armazena dados do mesmo tipo, garantindo consistência.

- ***Operações vetorizadas***: você pode realizar operações vetorizadas em séries, tornando-as eficientes para cálculos elemento a elemento. Este recurso permite executar operações com eficiência em colunas ou séries inteiras sem a necessidade de loops explícitos. É possivel adicionar, subtrair e multiplicar as séries (colunas de um dataframe) por uma série ou escalar.

**Vamos criar uma Serie e aplicar uma função vetorizada para visualizar!**

In [70]:
import pandas as pd

data = [1, 2, 3, 4]
series = pd.Series(data, name='MySeries')

# Operação vetorizada
series = series * 2 
series

0    2
1    4
2    6
3    8
Name: MySeries, dtype: int64

### 1.2 DataFrame

Um DataFrame é uma estrutura de dados tabular bidimensional com eixos rotulados (linhas e colunas). 

Assemelha-se a uma planilha ou tabela SQL e é a principal estrutura de dados para análise de dados no Pandas.

Os principais recursos dos DataFrames incluem:

 - ***Colunas***: Cada coluna em um DataFrame é uma Serie, o que significa que pode conter diferentes tipos de dados;

- ***Indexação***: DataFrames possuem índices de linha e coluna, permitindo uma seleção flexível de dados;

- ***Alinhamento de dados***: Assim como o Series, os DataFrames podem alinhar dados com base em rótulos, tornando as operações fáceis e intuitivas;

- ***Integração de dados***: você pode mesclar, unir e concatenar DataFrames para combinar e analisar dados de várias fontes.

**Vamos criar um dataframe e aplicar uma função para renomear as colunas!**

In [71]:
import pandas as pd

data = {
 "Name": ["Alice", "Bob", "Charlie", "David"],
 "Age": [25, 30, 35, 40],
 "City": ["New York", "San Francisco", "Los Angeles", "Chicago"]
}

'''No formato acima, o objeto data é um dict. 
Veja o retorno do código abaixo.'''
type(data)

dict

In [72]:
# transformando em um dataframe
df = pd.DataFrame(data)

# Pronto, agora é um df
type(df)

pandas.core.frame.DataFrame

#### Dando uma olhadinha no df

In [73]:
df.head()

Unnamed: 0,Name,Age,City
0,Alice,25,New York
1,Bob,30,San Francisco
2,Charlie,35,Los Angeles
3,David,40,Chicago


#### Renomeando as colunas com Pandas

In [74]:
# Renaming the 'Name' column to 'Person_Name'
df.rename(columns={'Name':'Person_Name'})

Unnamed: 0,Person_Name,Age,City
0,Alice,25,New York
1,Bob,30,San Francisco
2,Charlie,35,Los Angeles
3,David,40,Chicago


## Carregamento de dados e inspeção inicial

#### 2.1 Lendo dados de diferentes formatos (CSV, Excel, SQL, etc.)

Pandas fornece uma ampla variedade de funções e métodos para carregar dados de várias fontes e formatos com eficiência em DataFrames.

In [75]:
'''
import pandas as pd

# carrega dados de um csv pelo nome - data.csv
df_csv = pd.read_csv('data.csv')

# arrega dados de um excel pelo nome - data.xlsx
df_excel = pd.read_excel('data.xlsx')

# Especificando a aba do excel
df_sheet1 = pd.read_excel('data.xlsx', sheet_name='Sheet1')

# Crie um mecanismo SQLAlchemy
from sqlalchemy import create_engine
engine = create_engine('sqlite:///mydatabase.db')

# Carrega dados de uma tabela de banco de dados SQL
query = 'SELECT * FROM mytable'
df_sql = pd.read_sql_query(query, engine)

# Carregar dados de uma tabela HTML em uma página da web
url = 'https://example.com/data-table.html'
df_html_table = pd.read_html(url)

# Carregar dados de um arquivo JSON
df_json = pd.read_json('data.json')

# Carregar dados do arquivo Parquet
df_parquet = pd.read_parquet('data.parquet')
'''

'''
Nenhum dos códigos funcionam, servem apenas como exemplo de sintaxe.
'''

'\nNenhum dos códigos funcionam, servem apenas como exemplo de sintaxe.\n'

****Parâmetros importantes a serem lembrados para usar o read_csv:****

- **1. filepath**: especifica o caminho para o arquivo CSV que você deseja ler. Você pode fornecer um caminho de arquivo (como uma string), uma URL ou um objeto semelhante a um arquivo;

- **2.** Para substituir nomes de colunas, você deve usar **names** como um parâmetro com a lista de novos nomes de colunas;

- **3. sep**: significa "separador" e define o caractere usado para separar campos no arquivo CSV. O padrão é uma vírgula (,), mas você pode especificar outros caracteres, como tabulações ('\t'), ponto e vírgula (';') ou qualquer delimitador personalizado;

- **4. index_col**: é o parâmetro que especifica quais colunas devem ser usadas como índice de quadros de dados. Você pode passar um nome de coluna ou um índice de coluna (baseado em 0) para esse parâmetro;

- **5. skiprows**: permite pular um número específico de linhas no início do arquivo CSV. Pode ser útil se houver metadados ou comentários no início do arquivo que você deseja ignorar.

#### 2.2 Exibindo DataFrames


Em geral, exibir um dataframe é o primeiro passo para compreender seu conteúdo. Você pode simplesmente digitar o nome do dataframe e executar a célula para ver as 5 linhas superiores e as 5 linhas inferiores. 

o Pandas oferece vários outros métodos para exibir diferentes partes do seu quadro de dados:

 - ****.head(n)****: Exibe as primeiras n linhas do quadro de dados. É útil para obter uma visão geral rápida da estrutura dos dados sem se sobrecarregar com muitas informações ou, se quiser apenas ver os nomes das colunas, você pode usar .columns;

- ****.tail(n)****: Semelhante a .head(), este método mostra as últimas n linhas do DataFrame. É útil para verificar o final do conjunto de dados;

- ****.sample(n)****: Serve para ver linhas aleatórias do DataFrame.

In [76]:
df.head()

Unnamed: 0,Name,Age,City
0,Alice,25,New York
1,Bob,30,San Francisco
2,Charlie,35,Los Angeles
3,David,40,Chicago


In [77]:
df.tail()

Unnamed: 0,Name,Age,City
0,Alice,25,New York
1,Bob,30,San Francisco
2,Charlie,35,Los Angeles
3,David,40,Chicago


In [78]:
# df.sample(n=2) # deixei comentado para usar o df com outros métodos

#### 2.3 Exploração de dados: formato, informação, descrição


Pandas fornece métodos para obter insights fundamentais sobre seus dados. Estas são as primeiras coisas que você precisa verificar ao explorar seus dados.


- ****1. .shape****: Fornece um Serie onde o primeiro elemento especifica o número de amostras/linhas e o segundo elemento especifica o número de colunas;

- ****2. .info()****: Fornece um resumo conciso do DataFrame, incluindo os tipos de dados, contagens não nulas e uso de memória. É um excelente ponto de partida para entender a estrutura dos dados, ou se você quiser apenas ver os tipos de dados, pode usar ****.dtypes****;

- ****3. .describe()****: O método gera estatísticas básicas para cada coluna numérica no DataFrame, como contagem, média, desvio padrão, valores mínimos e máximos.

In [79]:
# Shape
df.shape

(4, 3)

In [80]:
print(f'O dataframe contém {df.shape[0]} linhas e {df.shape[1]} colunas.')

O dataframe contém 4 linhas e 3 colunas.


In [81]:
# para confirmar
df

Unnamed: 0,Name,Age,City
0,Alice,25,New York
1,Bob,30,San Francisco
2,Charlie,35,Los Angeles
3,David,40,Chicago


In [82]:
# info
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Name    4 non-null      object
 1   Age     4 non-null      int64 
 2   City    4 non-null      object
dtypes: int64(1), object(2)
memory usage: 224.0+ bytes


In [83]:
# Estatisticas básicas
df.describe()

# Repare que ele pegou apenas a coluna númerica

Unnamed: 0,Age
count,4.0
mean,32.5
std,6.454972
min,25.0
25%,28.75
50%,32.5
75%,36.25
max,40.0


##### 2.4 Valores únicos, contagens de valores e estatísticas básicas



Para dados categóricos ou discretos, você podemos explorar valores únicos e suas frequências:

- ****.nunique()****: Calcula o número de valores únicos em cada coluna. É útil para compreender a diversidade de dados em colunas categóricas;

- ****.column_name ou ['column_name']****: Para acessar uma coluna específica no DataFrame. Você só pode usar a segunda abordagem quando o nome da coluna tiver espaços;

****.value_counts()****: Conta as ocorrências de cada valor exclusivo em uma coluna específica. É particularmente útil para colunas categóricas.

In [84]:
# dataframe com 6 valores
unique_df = pd.DataFrame(["saulo","saulo","dri","su","sil"])

unique_df.shape

(5, 1)

In [85]:
# Quantos valores unicos
unique_df.nunique()

0    4
dtype: int64

In [86]:
# para acessar uma coluna - Ambos retornam o mesmo resultado
df.City
df['City']

0         New York
1    San Francisco
2      Los Angeles
3          Chicago
Name: City, dtype: object

In [87]:
# Por padrão, as contagens de valores não retornarão a contagem de valores ausentes
unique_df.value_counts()

saulo    2
dri      1
sil      1
su       1
dtype: int64

In [88]:
# Por padrão, as contagens de valores não retornarão a contagem de valores ausentes
# escolhendo uma coluna
df['City'].value_counts()


New York         1
San Francisco    1
Los Angeles      1
Chicago          1
Name: City, dtype: int64

In [89]:
# Por padrão, as contagens de valores não retornarão a contagem de valores ausentes
# escolhendo uma coluna - do outro modo
df.City.value_counts()


New York         1
San Francisco    1
Los Angeles      1
Chicago          1
Name: City, dtype: int64

In [90]:
# use dropna = False, para também obter as contagens de valores ausentes junto com outros
df['City'].value_counts(dropna=False)

New York         1
San Francisco    1
Los Angeles      1
Chicago          1
Name: City, dtype: int64

In [91]:
# estatisticas básicas - média
df.Age.mean() # dataframe.column_name.mean()

32.5

In [92]:
# estatisticas básicas - mediana
df.Age.median() # dataframe.column_name.median()

32.5

In [93]:
# estatisticas básicas
df.Age.mode() # dataframe.column_name.mode()

0    25
1    30
2    35
3    40
dtype: int64

In [94]:
# estatisticas básicas
df.Age.std() # dataframe.column_name.mode()

6.454972243679028

## 3. Seleção e indexação de dados

A seleção e indexação de dados são operações fundamentais no Pandas, permitindo extrair subconjuntos específicos de dados de um DataFrame.

#### 3.1. Selecionando Colunas e Linhas

 Você pode selecionar colunas e linhas específicas de um DataFrame usando colchetes ****[]****, ****.loc[]****, and ****.iloc[]****[]:

 - ****Colchetes []****: Seleciona uma ou mais colunas por seus nomes, você pode usar colchetes com os nomes das colunas como uma lista. indexing methods:


In [95]:
# select_columns = df[['coluna1', 'coluna 2']]

df[['Name', 'Age']]


Unnamed: 0,Name,Age
0,Alice,25
1,Bob,30
2,Charlie,35
3,David,40


- ****.loc[]****: Faz uma seleção baseada em rótulo: O indexador ****.loc[]**** permite selecionar linhas e colunas por rótulo. Você pode especificar rótulos de linha e coluna.

In [96]:
# selected_data = df.loc[3:6, ['Column1', 'Column2']]

df.loc[2:3,['Name', "Age"]]


Unnamed: 0,Name,Age
2,Charlie,35
3,David,40


- ****.iloc[]****: Realiza uma seleção baseada em número inteiro: O indexador ****.iloc[]**** permite selecionar linhas e colunas por localização de número inteiro, o que é útil para indexação numérica.

In [97]:
# selected_data = df.iloc[1:4, 0:2]
df.iloc[2:4, 0:2]

Unnamed: 0,Name,Age
2,Charlie,35
3,David,40


#### 3.2. Filtragem/Seleção Condicional

A seleção condicional permite filtrar linhas com base em critérios específicos.

Você pode usar a indexação booleana (verdadeiro [TRUE] ou falso [FALSE]) para fazer isso.

Quando você passa uma lista de booleanos ( length = length of samples/rows ) para um quadro de dados, o quadro de dados seleciona as linhas específicas onde o índice da lista booleana é True.

- ****Boolean Indexing****: Crie uma máscara booleana aplicando uma condição a uma coluna e, em seguida, use essa máscara para filtrar linhas para a Condição Verdadeira.

In [98]:
df

Unnamed: 0,Name,Age,City
0,Alice,25,New York
1,Bob,30,San Francisco
2,Charlie,35,Los Angeles
3,David,40,Chicago


In [99]:
boolean_mask = df['Age'] > 30 # Mascara com a condição idade > 30
filtered_data = df[boolean_mask] # Aplica a mascara no df (repare que retorna o que é true)

filtered_data.head()

Unnamed: 0,Name,Age,City
2,Charlie,35,Los Angeles
3,David,40,Chicago


- ****Multiple Conditions****: Combine várias condições usando operadores lógicos (**&** para **AND**, **|** para **OR**) e use parênteses para maior clareza.

Também é possivel usar .isin() um método do pandas para verificar se um valor de uma lista de coisas atende um critério.

In [100]:
# Visualizado o df
df

Unnamed: 0,Name,Age,City
0,Alice,25,New York
1,Bob,30,San Francisco
2,Charlie,35,Los Angeles
3,David,40,Chicago


In [101]:
boolean_mask = (df['Age'] > 25) & (df['City'] == 'Chicago')
filtered_data = df[boolean_mask]
filtered_data

Unnamed: 0,Name,Age,City
3,David,40,Chicago


In [102]:
boolean_mask = (df['Age'] >= 25) & (df['Age'] <= 35)
filtered_data = df[boolean_mask]
filtered_data

Unnamed: 0,Name,Age,City
0,Alice,25,New York
1,Bob,30,San Francisco
2,Charlie,35,Los Angeles


In [103]:
city_ny_la = filtered_data.City.isin(['New York','Los Angeles'])
city_ny_la

0     True
1    False
2     True
Name: City, dtype: bool

#### 3.3. Filtragem/Seleção Condicional

O Pandas fornece vários métodos para personalizar e redefinir o índice do DataFrame.

- ****set_index()****: Este método permite definir uma ou mais colunas como índice do DataFrame. É útil quando você deseja realizar operações em uma coluna específica.

Para salvá-lo, temos que modificar o dataframe existente com o atualizado. Ou se você deseja salvá-lo diretamente, você pode usar o parâmetro inplace=True

In [105]:
# Ambos salvarão os dados após a modificação

# df = df.set_index('ID') 
# df.set_index('ID',inplace=True)


- ****reset_index()****: O método reset_index() redefine o índice para o índice inteiro padrão e, opcionalmente, remove o índice existente.

In [111]:
df = df.reset_index(drop=True) # nada acontece pq o df não tem uma coluna index

## Referencias 

- [Documentação oficial do Pandas](pandas.pydata.org);

- [Pandas Demystified: A Comprehensive Handbook for Data Enthusiasts](https://medium.com/python-in-plain-english/pandas-demystified-a-comprehensive-handbook-for-data-enthusiasts-part-1-136127e407f);