<a href="https://colab.research.google.com/github/JaCaRego/JaCaRego/blob/main/Estrutura_de_dados.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# Estudo Dataframe
'''
Um DataFrame é uma estrutura de dados fundamental na biblioteca pandas do Python,
usada para organizar e manipular dados de forma eficiente. Pense nele como uma
tabela ou planilha bidimensional, onde os dados são dispostos em linhas e colunas.
'''

import pandas as pd
'''
Pandas é uma biblioteca de código aberto para a linguagem de programação Python,
amplamente utilizada para análise e manipulação de dados. Ela oferece
estruturas de dados flexíveis e eficientes, como Series (dados unidimensionais)
e, principalmente, DataFrames (dados bidimensionais em formato de tabela),
que facilitam o trabalho com dados estruturados.
'''


# Lista: uma coleção ordenada de elementos que podem ser de qualquer tipo
lista_nomes = ['Ana', 'Marcos', 'Carlos']
print('Lista de Nomes: \n', lista_nomes)
print('Primeiro Elemento na lista: \n', lista_nomes[0])

# Dicionário: Estrutura composta de pares chave-valor
dicionario_pessoa = {
    'Nome': 'Ana',
    'Idade': 20,
    'cidade': 'São Paulo'
}
print('Dicionario de uma pessoa: \n', dicionario_pessoa)
print('Atributo do Dicionario: \n', dicionario_pessoa.get('nome'))

# Lista de dicionários: Estrutura de dados que combina listas e dicionários
dados = [
    {'nome': 'Ana', 'idade': 20, 'cidade': 'São Paulo'},
    {'nome': 'Marcos', 'idade': 25, 'cidade': 'São José dos Campos'},
    {'nome': 'Carlos', 'idade': 35, 'cidade': 'Rio de Janeiro'},
]
# DataFrame: Estrutura de dados bidimensional (tabular = em forma de tabela)
df = pd.DataFrame(dados)
print('DataFrame \n', df)

# Selecionar coluna
print(df['nome'])

# Selecionar varias colunas
print(df[['nome', 'idade']])

# Selecionar linhas pelo índice
print('Primeira linha \n', df.iloc[0])

# Adicionar uma nova coluna
df['salario'] = [4100, 3600, 5200]
'''
len(df): Este comando, na verdade, não é exclusivo de DataFrames, mas é muito
útil com eles. A função len() em Python retorna o número de itens em um objeto.
Quando aplicada a um DataFrame (len(df)), ela retorna o número de linhas no DataFrame.

.loc[]: Este é um indexador usado para acessar um grupo de linhas e colunas por
seus rótulos (nomes).

'''

# Adicionar um novo registro - len é para ver tamanho do df
df.loc[len(df)] = {
    'nome': 'João',
    'idade': 30,
    'cidade': 'Taubaté',
    'salario': 4800
}
print('DataFrame atual \n', df)

'''
Em pandas, o parâmetro axis define se a operação será aplicada nas linhas
(axis=0) ou nas colunas (axis=1)

Quando inplace=True, a operação modifica o DataFrame original diretamente.
Ou seja, a coluna 'salario' foi removida do seu DataFrame df sem a necessidade
de atribuir o resultado de volta para df (como faria se fosse
df = df.drop('salario', axis=1)). Se inplace fosse False (o padrão),
o método drop retornaria um novo DataFrame sem a coluna 'salario',
e o DataFrame original df permaneceria inalterado, a menos que
você atribuísse o resultado de volta para df.

'''

# Removendo uma coluna(axis=1=coluna, 0=linha);
# inplace=true= no próprio data frame substitui df = df.drop[informação]
df.drop('salario', axis=1, inplace=True)

# Filtrando pessoas com mais de 29 anos
filtro_idade = df[df['idade'] >= 30]
print('Filtro \n', filtro_idade)

# Salvando o DataFrame em um arquivo CSV
df.to_csv('dados.csv', index=False)

'''
Ao salvar um DataFrame em um arquivo CSV, o pandas por padrão escreve o índice
do DataFrame como uma coluna no arquivo. Ao definir index=False, você está
dizendo ao pandas para não incluir o índice do DataFrame como uma coluna no
arquivo CSV. No seu caso, como o índice padrão é numérico e sequencial
(0, 1, 2, 3), geralmente não é necessário salvá-lo no arquivo, a menos que
ele contenha informações importantes

'''

# Lendo um arquivo CSV em um DataFrame
df_lido = pd.read_csv('dados.csv')
print('\n Leitura do CSV \n' , df_lido)


Lista de Nomes: 
 ['Ana', 'Marcos', 'Carlos']
Primeiro Elemento na lista: 
 Ana
Dicionario de uma pessoa: 
 {'Nome': 'Ana', 'Idade': 20, 'cidade': 'São Paulo'}
Atributo do Dicionario: 
 None
DataFrame 
      nome  idade               cidade
0     Ana     20            São Paulo
1  Marcos     25  São José dos Campos
2  Carlos     35       Rio de Janeiro
0       Ana
1    Marcos
2    Carlos
Name: nome, dtype: object
     nome  idade
0     Ana     20
1  Marcos     25
2  Carlos     35
Primeira linha 
 nome            Ana
idade            20
cidade    São Paulo
Name: 0, dtype: object
DataFrame atual 
      nome  idade               cidade  salario
0     Ana     20            São Paulo     4100
1  Marcos     25  São José dos Campos     3600
2  Carlos     35       Rio de Janeiro     5200
3    João     30              Taubaté     4800
Filtro 
      nome  idade          cidade
2  Carlos     35  Rio de Janeiro
3    João     30         Taubaté

 Leitura do CSV 
      nome  idade               cida