# DataFrame 

##### Um DataFrame é uma estrutura de dados bidimensional no Pandas, semelhante a uma tabela em um banco de dados ou uma planilha em Excel. Ele é composto por linhas e colunas, onde cada coluna pode conter diferentes tipos de dados (números, strings, etc.). Os DataFrames possuem índices que permitem acesso e manipulação fácil dos dados. Essa estrutura é amplamente utilizada em ciência de dados para análise e manipulação de grandes conjuntos de dados. Se precisar de mais detalhes ou exemplos, é só avisar!

In [1]:
# Importar a biblioteca
import pandas as pd

The history saving thread hit an unexpected error (OperationalError('attempt to write a readonly database')).History will not be written to the database.


In [2]:
data = {
        "nome": ["Paulo", "Victor", "João", "Pedro"],
        "Idade":[25, 30, 27, 26],
        "Cidade":["Imperatriz","Ribamar Fiquene","Açailandia","Maraba"]} 

df = pd.DataFrame(data)

In [4]:
# Exibir o DataFrame
print(df)

     nome  Idade           Cidade
0   Paulo     25       Imperatriz
1  Victor     30  Ribamar Fiquene
2    João     27       Açailandia
3   Pedro     26           Maraba


# Manipulando DataFrame

In [5]:
# Acessar uma coluna específica
idades = df["Idade"]
print(idades)

0    25
1    30
2    27
3    26
Name: Idade, dtype: int64


In [6]:
# Filtrando linhas
filtro = df[df["Idade"] > 28]
print(filtro)

     nome  Idade           Cidade
1  Victor     30  Ribamar Fiquene


In [50]:
# Adicionar uma nova coluna
df["Salario"] = [5000, 2000, 1500, 10000]
print(df)

     nome  Idade           Cidade  Salario
0   Paulo     25       Imperatriz     5000
1  Victor     30  Ribamar Fiquene     2000
2    João     27       Açailandia     1500
3   Pedro     26           Maraba    10000


In [52]:
# Adicionar uma nova linha
df.loc[4] = ["Rodrigo", 22, "São Luis", 3500]
print(df)

      nome  Idade           Cidade  Salario
0    Paulo     25       Imperatriz     5000
1   Victor     30  Ribamar Fiquene     2000
2     João     27       Açailandia     1500
3    Pedro     26           Maraba    10000
4  Rodrigo     22         São Luis     3500


In [9]:
# Calcular estatísticas descritivas
estatisticas = df.describe()
print("\nEstatísticas Descritivas:")
print(estatisticas)



Estatísticas Descritivas:
           Idade       Salario
count   4.000000      4.000000
mean   27.000000   4625.000000
std     2.160247   3902.456491
min    25.000000   1500.000000
25%    25.750000   1875.000000
50%    26.500000   3500.000000
75%    27.750000   6250.000000
max    30.000000  10000.000000


In [12]:
df["Idade"][1] 

30

# Máscara Booleana 

In [8]:
# Aplicando uma máscara booleana para filtrar linhas onde a idade é maior que 28
mascara = df['Idade'] > 28
filtro = df[mascara]

print("DataFrame filtrado (Idade > 28):")
print(filtro)

DataFrame filtrado (Idade > 28):
     nome  Idade           Cidade  Salario
1  Victor     30  Ribamar Fiquene     2000


# Acessando elementos especificos

In [15]:
# Acessar coluna
df["nome"]

0     Paulo
1    Victor
2      João
3     Pedro
Name: nome, dtype: object

In [17]:
# Acessar linha por índice
# Use o método iloc[] para acessar por índice numérico
df.iloc[0] #Acessa a primeira linha
#df.iloc[1] #Acessa a segunda linha

nome            Paulo
Idade              25
Cidade     Imperatriz
Salario          5000
Name: 0, dtype: object

In [23]:
print(df) #Fiz esse só para verificar 

     nome  Idade           Cidade  Salario
0   Paulo     25       Imperatriz     5000
1  Victor     30  Ribamar Fiquene     2000
2    João     27       Açailandia     1500
3   Pedro     26           Maraba    10000


In [22]:
# Acessa linha pro condição:
df[df["Idade"]> 26]

Unnamed: 0,nome,Idade,Cidade,Salario
1,Victor,30,Ribamar Fiquene,2000
2,João,27,Açailandia,1500


In [36]:
# Acessa elemento específico 
# Use o loc[] para acessar por rótulo de linha e coluna
#df.loc[0, "nome"]
#df.loc[1, "nome"]
df.loc[2, "Cidade"]
#df.loc[1, "Cidade"]
#df.loc[3, "Salario"]

'Açailandia'

In [31]:
# Altera um elemento
# Use o loc[] para acessar por rótulo de linha e coluna
df.loc[0, "nome"] = "Lucas"
#df.loc[0, "nome"] = "Paulo"
df["nome"]

0     Lucas
1    Victor
2      João
3     Pedro
Name: nome, dtype: object

In [32]:
df.loc[0, "nome"] = "Paulo"
df["nome"]

0     Paulo
1    Victor
2      João
3     Pedro
Name: nome, dtype: object

In [46]:
#Outra coisa especifica/ Use mascara booleana
#mask = (df["Idade"] == 26) -- Aqui da errado
df["Idade"] == 26

0    False
1    False
2    False
3     True
Name: Idade, dtype: bool

In [48]:
mask = (df["Idade"] == 26)
df[mask]

Unnamed: 0,nome,Idade,Cidade,Salario
3,Pedro,26,Maraba,10000


# Estatística de coluna

In [39]:
media = df['Idade'].mean()
print(media)
print(type(media))
#ou
df['Idade'].mean()

27.0
<class 'numpy.float64'>


27.0

In [54]:
df.loc[2, "Cidade"] = "Lima"

In [55]:
df.loc[2, "Cidade"]

'Lima'