# Operações com DF

In [28]:
import pandas as pd
import numpy as np

# Número de linhas
n = 3

# Gerar dados
nomes = ['Nome_' + str(i) for i in range(n)]
idades = [25,25,99]
descricoes = ['Descricao longa com muito texto ' * 10 for _ in range(n)]  # string longa repetida

# Criar o DataFrame
df = pd.DataFrame({
    'Nome': nomes,
    'Idade': idades,
    'Descricao': descricoes
})

# Exibir o DataFrame
print(df)

     Nome  Idade                                          Descricao
0  Nome_0     25  Descricao longa com muito texto Descricao long...
1  Nome_1     25  Descricao longa com muito texto Descricao long...
2  Nome_2     99  Descricao longa com muito texto Descricao long...


As vezes algumas series são muito pesadas, consomem muita memória, pode ser que vale a pena remover ela temporariamente das análises.

Sempre verificar se os dados são números ou objetos

In [29]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   Nome       3 non-null      object
 1   Idade      3 non-null      int64 
 2   Descricao  3 non-null      object
dtypes: int64(1), object(2)
memory usage: 204.0+ bytes


In [30]:
# Nesse caso Descrição consome muita memória RAM, pode valer a pena tirar ele da análise
df.memory_usage(deep=True) 

Index         132
Nome          165
Idade          24
Descricao    1107
dtype: int64

In [31]:
# Valores únicos
df['Idade'].unique()

array([25, 99])

In [32]:
# Quantidade de valores únicos
df['Idade'].nunique()

2

In [33]:
# Valores únicos e quantidades
df['Idade'].value_counts()

Idade
25    2
99    1
Name: count, dtype: int64

## Funções

In [34]:
def calcula(x):
    return x + 1000

df[['Idade']].apply(calcula)

print('----')

df[['Idade']].apply(lambda x: x+1000)

----


Unnamed: 0,Idade
0,1025
1,1025
2,1099


In [35]:
# Maior valor
print(df[['Idade']].max())
print('----')

# Pega o índice do maior valor
print(df[['Idade']].idxmax())

Idade    99
dtype: int64
----
Idade    2
dtype: int64


In [36]:
print(df[df['Idade'] == 25])
print('----')
print(df[df['Idade'] == 25].sum())

     Nome  Idade                                          Descricao
0  Nome_0     25  Descricao longa com muito texto Descricao long...
1  Nome_1     25  Descricao longa com muito texto Descricao long...
----
Nome                                              Nome_0Nome_1
Idade                                                       50
Descricao    Descricao longa com muito texto Descricao long...
dtype: object


In [37]:
# Ordena pela idade
df.sort_values(by='Idade')

Unnamed: 0,Nome,Idade,Descricao
0,Nome_0,25,Descricao longa com muito texto Descricao long...
1,Nome_1,25,Descricao longa com muito texto Descricao long...
2,Nome_2,99,Descricao longa com muito texto Descricao long...


## Classificando

In [48]:
df = pd.DataFrame({'Comida':['Laranja', 'Laranja', 'Laranja', 'Cebola', 'Cebola'],
                   'Preço': [10, 25, 13, 65, 32]})
dict_map = {'Laranja':'Fruta', 'Cebola':'Verdura'}
df

Unnamed: 0,Comida,Preço
0,Laranja,10
1,Laranja,25
2,Laranja,13
3,Cebola,65
4,Cebola,32


In [49]:
df['Tipo'] = df['Comida'].map(dict_map)
df

Unnamed: 0,Comida,Preço,Tipo
0,Laranja,10,Fruta
1,Laranja,25,Fruta
2,Laranja,13,Fruta
3,Cebola,65,Verdura
4,Cebola,32,Verdura


## Modificando a tabela

In [None]:
df.pivot_table(index="Tipo", columns='Comida', values='Preço')

Comida,Cebola,Laranja
Tipo,Unnamed: 1_level_1,Unnamed: 2_level_1
Fruta,,16.0
Verdura,48.5,
