<h1>📌 Explorando a Biblioteca Pandas em Python: seleção de dados</h1>

<h3>📌 Um Guia Prático para Iniciantes</h3>

<p style='font-size:16px;'>A biblioteca Pandas é uma das ferramentas mais poderosas e populares da linguagem Python para análise e manipulação de dados. Criada por Wes McKinney, ela se tornou essencial para cientistas de dados, analistas e desenvolvedores que trabalham com grandes volumes de informações.</p>

<p>O Pandas (derivado de Panel Data) é uma biblioteca de código aberto voltada para trabalhar com dados estruturados, ou seja, dados organizados em tabelas.</p>

<h3>📌 Seleção de dados</h3>

<p style='font-size:16px;'>A seleção de dados é uma das tarefas mais importantes no uso do Pandas, pois permite acessar informações de forma flexível. No Pandas, a seleção é feita principalmente por indexação (usando colchetes [] - operador de indexação), usando os métodos .loc (para rótulos) e .iloc (para índices numéricos), entre outras formas. Você pode selecionar colunas específicas, múltiplas colunas, linhas baseadas em condições ou por posição, e até subconjuntos que combinam linhas e colunas.</p>

📌Autor: Carlos da Costa<br>
📌Recife, PE - Brasil<br>
📌Telefone: +55 81 99712 9140<br>
📌Telegram: @jcarlossc<br>
📌Blogger linguagem R: https://informaticus77-r.blogspot.com/<br>
📌Blogger linguagem Python: https://informaticus77-python.blogspot.com/<br>
📌Email: jcarlossc1977@gmail.com<br>
📌Portfólio em construção: https://portfolio-carlos-costa.netlify.app/<br>
📌LinkedIn: https://www.linkedin.com/in/carlos-da-costa-669252149/<br>
📌GitHub: https://github.com/jcarlossc<br>
📌Kaggle: https://www.kaggle.com/jcarlossc/<br>
📌Twitter/X: https://x.com/jcarlossc1977

In [1]:
# Importando a biblioteca Pandas
import pandas as pd

In [2]:
# Criando um DataFrame de exemplo
dados = pd.DataFrame(
    {
    'nome': ['Teresa', 'Soares', 'Jose', 'Carlos', 'Maria', 'Teresa'],
    'idade': [3, 35, 31, 48, 40, 56],
    'cidade': ['Recife', 'Paulista', 'Olinda', 'Caruaru', 'Petrolina', 'Timbauba'],
    'salario': [3200, 4500, 5000, 3700, 6000, 7000]
    }
)

In [3]:
# Informações sobre quantidade de observações(6), número de colunas(4),
# uso de memória e tipos de dados.
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 4 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   nome     6 non-null      object
 1   idade    6 non-null      int64 
 2   cidade   6 non-null      object
 3   salario  6 non-null      int64 
dtypes: int64(2), object(2)
memory usage: 324.0+ bytes


<h2>📌 Seleção de colunas</h2>

In [4]:
# Selecionar uma única coluna.
dados['nome']

0    Teresa
1    Soares
2      Jose
3    Carlos
4     Maria
5    Teresa
Name: nome, dtype: object

In [5]:
# Selecionar multiplas colunas.
dados[['nome', 'idade']]

Unnamed: 0,nome,idade
0,Teresa,3
1,Soares,35
2,Jose,31
3,Carlos,48
4,Maria,40
5,Teresa,56


<h2>📌 Seleção por índices e posições com iloc.</h2>

In [6]:
# Seleciona a primeira linha.
dados.iloc[0]        

nome       Teresa
idade           3
cidade     Recife
salario      3200
Name: 0, dtype: object

In [7]:
# Da 1ª à 3ª linha (exclusive)
dados.iloc[0:3]      

Unnamed: 0,nome,idade,cidade,salario
0,Teresa,3,Recife,3200
1,Soares,35,Paulista,4500
2,Jose,31,Olinda,5000


In [8]:
# Seleciona primeira coluna.
dados.iloc[:, 0]     

0    Teresa
1    Soares
2      Jose
3    Carlos
4     Maria
5    Teresa
Name: nome, dtype: object

In [9]:
# Duas primeiras colunas
dados.iloc[:, 0:2]   

Unnamed: 0,nome,idade
0,Teresa,3
1,Soares,35
2,Jose,31
3,Carlos,48
4,Maria,40
5,Teresa,56


In [10]:
# Seleciona elemento linha 2, coluna 3
dados.iloc[1, 2]     

'Paulista'

<h2>📌 Seleção por rótulo(label) com loc.</h2>

In [11]:
# Seleciona linhas com íntervalo de índices e nomes de colunas.
dados.loc[0:2, ['nome', 'cidade']]                   

Unnamed: 0,nome,cidade
0,Teresa,Recife
1,Soares,Paulista
2,Jose,Olinda


In [12]:
# Definindo a coluna "name" como índice (rótulo das linhas).
dados_loc = pd.DataFrame(dados).set_index('nome')

In [13]:
# Seleciona uma linha pelo rótulo.
dados_loc.loc['Teresa']

Unnamed: 0_level_0,idade,cidade,salario
nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Teresa,3,Recife,3200
Teresa,56,Timbauba,7000


In [14]:
# Seleciona uma linha pelo rótulo.
dados_loc.loc[['Carlos', 'Teresa']]

Unnamed: 0_level_0,idade,cidade,salario
nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Carlos,48,Caruaru,3700
Teresa,3,Recife,3200
Teresa,56,Timbauba,7000


In [15]:
# Seleciona linha e coluna.
dados_loc.loc['Soares', 'salario']

4500

In [16]:
# Seleciona linhas e colunas específicas.
dados_loc.loc['Soares':'Jose', ['idade', 'cidade']]

Unnamed: 0_level_0,idade,cidade
nome,Unnamed: 1_level_1,Unnamed: 2_level_1
Soares,35,Paulista
Jose,31,Olinda


<h2>📌 Seleção por valores nulos ou duplicados</h2>

In [17]:
# Seleção por dados nulos.
dados[dados['idade'].isna()] 

Unnamed: 0,nome,idade,cidade,salario


In [18]:
# Seleciona linhas sem valores nulos.
dados[dados['idade'].notna()]

Unnamed: 0,nome,idade,cidade,salario
0,Teresa,3,Recife,3200
1,Soares,35,Paulista,4500
2,Jose,31,Olinda,5000
3,Carlos,48,Caruaru,3700
4,Maria,40,Petrolina,6000
5,Teresa,56,Timbauba,7000


In [19]:
# Seleciona valores duplicados.
dados[dados.duplicated('nome', keep=False)]

Unnamed: 0,nome,idade,cidade,salario
0,Teresa,3,Recife,3200
5,Teresa,56,Timbauba,7000


<h2>📌 Seleção e ordenação de dados</h2>

In [20]:
# Seleciona e ordena por idade.
dados.sort_values('idade', ascending=True)

Unnamed: 0,nome,idade,cidade,salario
0,Teresa,3,Recife,3200
2,Jose,31,Olinda,5000
1,Soares,35,Paulista,4500
4,Maria,40,Petrolina,6000
3,Carlos,48,Caruaru,3700
5,Teresa,56,Timbauba,7000


<h2>📌 Seleção de célula única com .at[] e .iat[]</h2>

In [21]:
# Seleciona Valor da coluna da terceira linha. 
dados.at[2, 'cidade']

'Olinda'

In [22]:
# Seleciona o valor da terceira linha da terceira coluna.
dados.iat[2, 2]

'Olinda'

<h2>📌 Seleção com amostragem e limites</h2>

In [23]:
# Seleciona as 3 primeiras linhas
dados.head(3)

Unnamed: 0,nome,idade,cidade,salario
0,Teresa,3,Recife,3200
1,Soares,35,Paulista,4500
2,Jose,31,Olinda,5000


In [24]:
# Seleciona as 2 últimas linhas.
dados.tail(2)  

Unnamed: 0,nome,idade,cidade,salario
4,Maria,40,Petrolina,6000
5,Teresa,56,Timbauba,7000


In [25]:
# Seleciona 2 linhas aleatórias.
dados.sample(2)  

Unnamed: 0,nome,idade,cidade,salario
3,Carlos,48,Caruaru,3700
4,Maria,40,Petrolina,6000
