<a href="https://colab.research.google.com/github/HuelFra/phyton/blob/main/Dataframe.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
'''
No pandas, que é uma biblioteca do Python para análise de dados, um DataFrame é a estrutura de dados principal
usada para armazenar e manipular dados em formato tabular (semelhante a uma planilha do Excel ou a uma tabela de banco de dados).

📌 O que é um DataFrame?
Um DataFrame é uma tabela bidimensional com:
- Linhas (com um índice para cada uma);
- Colunas (com nomes e tipos de dados específicos)

✅ Principais características:
Permite selecionar, filtrar, agrupar, ordenar e transformar dados com facilidade.
Pode importar/exportar dados de arquivos como CSV, Excel, SQL, JSON, etc.
Suporta operações vetorizadas, ou seja, muito mais rápidas que loops tradicionais.

🛠 Fontes comuns de DataFrames:
Leitura de arquivos com pd.read_csv(), pd.read_excel()
Dados vindos de bancos com pd.read_sql()
Construção manual com listas, dicionários ou arrays '''

In [6]:
# Criando um dataframe pandas - Considerando que já foram instalados anteriormente
import numpy as nd
import pandas as pd

In [7]:
#Dataframe no pandas
dados = {
    'Nome': ['Ana', 'Bruno', 'Carla','Daniel'],
    'Idade':[25,30,35,40],
    'Cidade':['São Paulo','Rio de Janeiro','Belo Horizonte','Curitiba']
}
resultado_dataframe = pd.DataFrame(dados)
print(resultado_dataframe)

     Nome  Idade          Cidade
0     Ana     25       São Paulo
1   Bruno     30  Rio de Janeiro
2   Carla     35  Belo Horizonte
3  Daniel     40        Curitiba


In [None]:
#Uma outra maneira de atribuir o Dataframe é:
pd.DataFrame(data=dados)

Unnamed: 0,Nome,Idade,Cidade
0,Ana,25,São Paulo
1,Bruno,30,Rio de Janeiro
2,Carla,35,Belo Horizonte
3,Daniel,40,Curitiba


In [8]:
#Nosso Dataframe já está com as colunas nomeadas, mas uma outramaneira de nomea-las é usando o index "".split()
pd.DataFrame(data=dados, index="a b c d".split(), columns="Nome Idade Cidade".split())

Unnamed: 0,Nome,Idade,Cidade
a,Ana,25,São Paulo
b,Bruno,30,Rio de Janeiro
c,Carla,35,Belo Horizonte
d,Daniel,40,Curitiba


In [9]:
#Como selecionar dados de um DataFrame. Selecionar dados de um Dataframe
mudando_dataframe = pd.DataFrame(data=dados, index="a b c d".split(), columns="Nome Idade Cidade".split())
mudando_dataframe["Idade"]

Unnamed: 0,Idade
a,25
b,30
c,35
d,40


In [10]:
#Retornando o tipo do Dataframe. Ele retornará o tipo de todo o Dataframe
type(mudando_dataframe)

In [11]:
#Retornar os dados de mais de uma coluna
mudando_dataframe[["Nome","Idade"]]

Unnamed: 0,Nome,Idade
a,Ana,25
b,Bruno,30
c,Carla,35
d,Daniel,40


In [None]:
#Tratando uma coluna como um atributo do Dataframe.
'''
Tratar uma coluna como um atributo do DataFrame em pandas é uma forma alternativa e mais prática de acessar os dados — embora tenha limitações.
Modo tradicional: mudando_dataframe["Idade"]
Modo atributo: mudando_dataframe.Idade

🎯 Por que usar como atributo?
✔️ Vantagens:
Sintaxe mais limpa e legível;
Boa para uso interativo e scripts simples;

✅ Quando usar cada um?
Forma	        Quando usar
df['coluna']	Sempre que for manipular, modificar ou acessar colunas com nomes incomuns
df.coluna	    Para leitura rápida de colunas com nomes simples e seguros
'''

In [12]:
mudando_dataframe.Cidade

Unnamed: 0,Cidade
a,São Paulo
b,Rio de Janeiro
c,Belo Horizonte
d,Curitiba


In [13]:
#Inserindo uma nova coluna no Dataframe
mudando_dataframe["Estado"] = "SP RJ MG PR".split()
mudando_dataframe

Unnamed: 0,Nome,Idade,Cidade,Estado
a,Ana,25,São Paulo,SP
b,Bruno,30,Rio de Janeiro,RJ
c,Carla,35,Belo Horizonte,MG
d,Daniel,40,Curitiba,PR


In [None]:
#Se quisermos somar as idades e colocar o resultado em uma nova coluna:
'''
🧮 O que isso faz?
É o mesmo que fazer:
mudando_dataframe["Soma_idades"] = 2 * mudando_dataframe["Idade"]
Ou seja, vai multiplicar cada idade por 2:

Idade	   Soma_idades (= Idade + Idade)
25	     50
30	     60
35	     70
40	     80

'''
mudando_dataframe["Soma_idades"] = mudando_dataframe["Idade"] + mudando_dataframe["Idade"]
mudando_dataframe

Unnamed: 0,Nome,Idade,Cidade,Estado,Soma_idades
a,Ana,25,São Paulo,SP,50
b,Bruno,30,Rio de Janeiro,RJ,60
c,Carla,35,Belo Horizonte,MG,70
d,Daniel,40,Curitiba,PR,80


In [None]:
# Conhecendo as funções loc()
'''
✅ .loc[] – O que é e para que serve?
.loc[] é uma função do pandas usada para acessar linhas e colunas por rótulo (nome), e não por posição numérica. Seriam linhas específicas.

df.loc[linha, coluna]

linha: índice ou condição
coluna: nome da coluna ou fatia de colunas

A grosso modo, podemos dizer que o comando .loc[] permite que fatie os dados por linhas e colunas.
'''


In [14]:
import pandas as pd

dados = {
    'Nome': ['Ana', 'Bruno', 'Carlos'],
    'Idade': [25, 30, 35]
}
df = pd.DataFrame(dados)

# Acessar a linha com índice 1 (Bruno) e a coluna 'Idade':
df.loc[1, 'Idade']  # Resultado: 30

np.int64(30)

In [15]:
#Selecionar apenas quem tem 25 e 35 anos
mudando_dataframe.loc[(mudando_dataframe["Idade"] == 25) | (mudando_dataframe["Idade"] == 35)]

Unnamed: 0,Nome,Idade,Cidade,Estado
a,Ana,25,São Paulo,SP
c,Carla,35,Belo Horizonte,MG


In [16]:
# Uma outra maneira. Nesse caso você especifica as colunas que deseja que apareçam:
mudando_dataframe.loc[["a","c"], ["Nome","Idade"]]

Unnamed: 0,Nome,Idade
a,Ana,25
c,Carla,35


In [17]:
# Pessoas com idade maior que 28
df.loc[df['Idade'] > 28]

Unnamed: 0,Nome,Idade
1,Bruno,30
2,Carlos,35


In [None]:
# Conhecendo a função iloc
'''
A função iloc no Pandas é usada para selecionar dados por índice de posição (ou seja, com base na ordem
das linhas e colunas, e não pelos rótulos).

df.iloc[linha, coluna]

linha: índice ou fatia de linha (ex: 0, 0:5, [-1], etc.).
coluna: índice ou fatia de coluna (opcional).

iloc é baseado em posição numérica (índice começa em 0).

Para seleção por rótulo, use loc em vez de iloc.

In [22]:
import pandas as pd

dataframe_new = pd.DataFrame({
    'Nome': ['Ana', 'Bruno', 'Carlos'],
    'Idade': [23, 35, 31],
    'Cidade': ['SP', 'RJ', 'BH']
})

In [23]:
#1) Selecionar a primeira linha:
dataframe_new.iloc[0]

Unnamed: 0,0
Nome,Ana
Idade,23
Cidade,SP


In [39]:
 #2)  Selecionar a segunda linha e primeira coluna:
 dataframe_new.iloc[1,0]

'Bruno'

In [25]:
 #3) Selecionar as primeiras duas linhas:
 dataframe_new.iloc[0:2]

Unnamed: 0,Nome,Idade,Cidade
0,Ana,23,SP
1,Bruno,35,RJ


In [27]:
# 4) Selecionar todas as linhas da segunda coluna:
dataframe_new.iloc[:,1]

Unnamed: 0,Idade
0,23
1,35
2,31


In [29]:
# 5) Selecionar a última linha:
dataframe_new.iloc[-1]

Unnamed: 0,2
Nome,Carlos
Idade,31
Cidade,BH


In [30]:
#4) Selecionar as primeiras duas linhas e as primeiras duas colunas:
dataframe_new.iloc[:2,:2]

Unnamed: 0,Nome,Idade
0,Ana,23
1,Bruno,35


In [34]:
#Selecionar a segunda linha:
dataframe_new.iloc[1]

Unnamed: 0,1
Nome,Bruno
Idade,35
Cidade,RJ
