# 1. Listas X Pandas

In [None]:
# Exemplo de análise com listas nativas
dados = [10, 15, 20, 25]
media = sum(dados) / len(dados)
print("Média (lista):", media)

Média (lista): 17.5


In [None]:
import pandas as pd

serie = pd.Series([10, 15, 20, 25])
print("Média (Pandas):", serie.mean())
print("Índices:", serie.index)

Média (Pandas): 17.5
Índices: RangeIndex(start=0, stop=4, step=1)


In [None]:
serie

Unnamed: 0,0
0,10
1,15
2,20
3,25


# 2. Séries: estrutura unidimensional

In [None]:
import pandas as pd
s = pd.Series([100, 200, 300])
s

Unnamed: 0,0
0,100
1,200
2,300


In [None]:
# Com índice personalizado
s = pd.Series([2, 4, 6], index=['a', 'b', 'c'])
print(s)

a    2
b    4
c    6
dtype: int64


## 2.1 Indexaçao e seleçao de dados em séries

In [None]:
s = pd.Series([10, 20, 30], index=['x', 'y', 'z'])
print(s['y'])  # Seleção por rótulo

20


## 2.2 Operaçoes basicas em séries

In [None]:
s = pd.Series([1, 2, 3])
print(s * 10)  # Operação vetorizada

0    10
1    20
2    30
dtype: int64


In [None]:
s1 = pd.Series([1, [1,2,3], "a"], index=['a', 'b', 'c'])
s1

Unnamed: 0,0
a,1
b,"[1, 2, 3]"
c,a


In [None]:
s1 = pd.Series([1, 2, 3], index=['a', 'b', 'c'])
s2 = pd.Series([1, 2, 3], index=['b', 'c', 'a'])
s1

Unnamed: 0,0
a,1
b,2
c,3


In [None]:
s2

Unnamed: 0,0
b,1
c,2
a,3


In [None]:
s1 = pd.Series([1, 2, 3], index=['a', 'b', 'c'])
s2 = pd.Series([1, 2, 3], index=['b', 'c', 'a'])
soma = s1 + s2
print(soma)

a    4
b    3
c    5
dtype: int64


# 3. Dataframes: estrutura bidimensional

In [None]:
import pandas as pd

df = pd.DataFrame({'nome': ['Ana', 'Pedro'], 'idade': [23, 35]})
df

Unnamed: 0,nome,idade
0,Ana,23
1,Pedro,35


In [None]:
# Índice personalizado
df = pd.DataFrame({'x': [10, 20], 'y': [30, 40]}, index=['a', 'b'])
df

Unnamed: 0,x,y
a,10,30
b,20,40


In [None]:
# Índice personalizado
df = pd.DataFrame({'x': [10, 20], 'y': [30, 40]})
df

Unnamed: 0,x,y
0,10,30
1,20,40


In [None]:
df['x']

Unnamed: 0,x
a,10
b,20


In [None]:
df.iloc[0] # acessar linha pelo numero dela

In [None]:
df.loc["a"] # acessar linha pelo indice dela

Unnamed: 0,a
x,10
y,30


In [None]:
df.T

Unnamed: 0,a,b
x,10,20
y,30,40


## 3.1 Carregando dados de arquivo CSV

In [None]:
# Simulação (já que não podemos abrir um arquivo real agora)
df = pd.read_csv('exemplo.csv')  # Suponha que exista um arquivo exemplo.csv
df.head()

In [None]:
# Lendo apenas as cinco primeiras linhas ao carregar
df = pd.read_csv('exemplo.csv', nrows=5)
print(df)

## 3.2 Visualizando as primeiras e ultimas linhas

In [None]:
df = pd.DataFrame({'nome': ['A', 'B', 'C', 'D', 'E'], 'idade': [16, 17, 18, 19, 20]})
df.head(3)  # 3 primeiras linhas

Unnamed: 0,nome,idade
0,A,16
1,B,17
2,C,18


In [None]:
df.tail(2) # 2 ultimas linhas

Unnamed: 0,nome,idade
3,D,19
4,E,20


## 3.3 Informaçoes basicas sobre o dataframe

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   nome    5 non-null      object
 1   idade   5 non-null      int64 
dtypes: int64(1), object(1)
memory usage: 212.0+ bytes


In [None]:
df.describe()

Unnamed: 0,idade
count,5.0
mean,18.0
std,1.581139
min,16.0
25%,17.0
50%,18.0
75%,19.0
max,20.0


In [None]:
print("Shape:", df.shape)
print("Tipos das colunas:\n", df.dtypes)

Shape: (5, 2)
Tipos das colunas:
 nome     object
idade     int64
dtype: object


# 3.4 Operaçoes basicas com dataframes

### 3.4.1 Selecionar fatias do dataframe

In [None]:
#data = {'Nome': ['Alice', 'Fabio', 'Marcia', 'Joaquim'], 'Idade': [25, 30, 32, 40]}

data = {
    'Nome': ['Alice', 'Fabio', 'Marcia', 'Joaquim'],
    'Idade': [25, 30, 32, 40],
    'Grupo': ['A', 'B', 'A', 'B']  # Coluna categórica para agrupamento
}

df = pd.DataFrame(data, index=['a', 'b', 'c', 'd'])
df

Unnamed: 0,Nome,Idade,Grupo
a,Alice,25,A
b,Fabio,30,B
c,Marcia,32,A
d,Joaquim,40,B


In [None]:
# Selecionar uma coluna
df['Nome']

Unnamed: 0,Nome
a,Alice
b,Fabio
c,Marcia
d,Joaquim


In [None]:
# Selecionar uma linha por nome do indice
df.loc['a']

Unnamed: 0,a
Nome,Alice
Idade,25
Grupo,A


In [None]:
# Selecionar uma linha por numero do indice
df.iloc[0]

Unnamed: 0,a
Nome,Alice
Idade,25
Grupo,A


In [None]:
df.loc["a","Nome"]

'Alice'

In [None]:
# Selecionar fatia do dataframe
df[0:4]

Unnamed: 0,Nome,Idade,Grupo
a,Alice,25,A
b,Fabio,30,B
c,Marcia,32,A
d,Joaquim,40,B


In [None]:
df['Idade'] > 30

Unnamed: 0,Idade
a,False
b,False
c,True
d,True


In [None]:
# Filtrar pessoas com idade maior que 30
print("\nPessoas com idade maior que 30:")
df[df['Idade'] > 30]


Pessoas com idade maior que 30:


Unnamed: 0,Nome,Idade,Grupo
c,Marcia,32,A
d,Joaquim,40,B


and --> &
or --> |

In [None]:
df[(df['Grupo'] == "A") & (df['Idade'] > 30)]

Unnamed: 0,Nome,Idade,Grupo,Maior de idade
c,Marcia,32,A,True


In [None]:
df[(df['Grupo'] == "A") | (df['Idade'] > 30)]

Unnamed: 0,Nome,Idade,Grupo,Maior de idade
a,Alice,25,A,True
c,Marcia,32,A,True
d,Joaquim,40,B,True


### 3.4.2 Filtrar

In [None]:
# Adicionar nova coluna com base na idade
df['Maior de idade'] = df['Idade'] >= 18
print("\nDataFrame com nova coluna 'Maior de idade':")
df


DataFrame com nova coluna 'Maior de idade':


Unnamed: 0,Nome,Idade,Grupo,Maior de idade
a,Alice,25,A,True
b,Fabio,30,B,True
c,Marcia,32,A,True
d,Joaquim,40,B,True


### 3.4.3 Estatisticas basicas

In [None]:
# Calcular estatísticas básicas
print("\nEstatísticas da idade:")
print(df['Idade'].describe())


Estatísticas da idade:
count     4.000000
mean     31.750000
std       6.238322
min      25.000000
25%      28.750000
50%      31.000000
75%      34.000000
max      40.000000
Name: Idade, dtype: float64


### 3.4.4 Ordenamento

In [None]:
# Ordenar por idade decrescente
print("\nDataFrame ordenado por idade (decrescente):")
print(df.sort_values(by='Idade', ascending=False))


DataFrame ordenado por idade (decrescente):
      Nome  Idade Grupo
d  Joaquim     40     B
c   Marcia     32     A
b    Fabio     30     B
a    Alice     25     A


### 3.4.5 Agrupamento

In [None]:
df

Unnamed: 0,Nome,Idade,Grupo
a,Alice,25,A
b,Fabio,30,B
c,Marcia,32,A
d,Joaquim,40,B


In [None]:
df.groupby('Grupo')['Idade'].mean()

Unnamed: 0_level_0,Idade
Grupo,Unnamed: 1_level_1
A,28.5
B,35.0


In [None]:
# Agrupar por 'Grupo' e calcular média da idade
print("\nMédia da idade por grupo:")
print(df.groupby('Grupo')['Idade'].mean())

# Contar quantos membros há em cada grupo
print("\nContagem de membros por grupo:")
print(df.groupby('Grupo').size())

# Agregações múltiplas por grupo
print("\nAgregações múltiplas por grupo (média e desvio padrão):")
print(df.groupby('Grupo')['Idade'].agg(['mean', 'std']))


Média da idade por grupo:
Grupo
A    28.5
B    35.0
Name: Idade, dtype: float64

Contagem de membros por grupo:
Grupo
A    2
B    2
dtype: int64

Agregações múltiplas por grupo (média e desvio padrão):
       mean       std
Grupo                
A      28.5  4.949747
B      35.0  7.071068


In [None]:
# Aplicar função customizada por grupo (ex: range de idade)
print("\nDiferença entre idade máxima e mínima por grupo:")
print(df.groupby('Grupo')['Idade'].agg(lambda x: x.max() - x.min()))


Diferença entre idade máxima e mínima por grupo:
Grupo
A     7
B    10
Name: Idade, dtype: int64


### 3.4.6 Tabela dinamica (pivot table)

In [None]:
# tabela dinamica: pivot table

# Dados com nomes repetidos em dias diferentes
df_pivot = pd.DataFrame({
    'Nome': ['Alice', 'Alice', 'Fabio', 'Fabio', 'Marcia'],
    'Dia': ['Seg', 'Ter', 'Seg', 'Ter', 'Seg'],
    'Horas Estudo': [2, 3, 1, 4, 5]
})

# Pivot table: soma das horas por pessoa e dia
tabela = pd.pivot_table(df_pivot, values='Horas Estudo', index='Nome', columns='Dia', aggfunc='sum', fill_value=0)
print("Tabela dinâmica (pivot table):")
tabela

Tabela dinâmica (pivot table):


Dia,Seg,Ter
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1
Alice,2,3
Fabio,1,4
Marcia,5,0


### 3.4.7 Juntar dataframes

In [None]:
# juntar dois dataframes

# Dados de pessoas
df1 = pd.DataFrame({
    'Nome': ['Alice', 'Fabio', 'Marcia'],
    'Idade': [25, 30, 32]
})

# Dados de cidades
df2 = pd.DataFrame({
    'Nome': ['Alice', 'Fabio', 'Marcia'],
    'Cidade': ['São Paulo', 'Rio de Janeiro', 'Belo Horizonte']
})

# Juntando pelo nome
df_merged = pd.merge(df1, df2, on='Nome')
print("\nDataFrame após merge:")
df_merged


DataFrame após merge:


Unnamed: 0,Nome,Idade,Cidade
0,Alice,25,São Paulo
1,Fabio,30,Rio de Janeiro
2,Marcia,32,Belo Horizonte


### 3.4.8 Manipulaçao de datas

In [None]:
# Criar DataFrame com datas
df_data = pd.DataFrame({
    'Nome': ['Alice', 'Fabio', 'Marcia'],
    'Data de Nascimento': ['1999-05-14', '1994-08-22', '1991-12-01']
})

# Converter para tipo datetime
df_data['Data de Nascimento'] = pd.to_datetime(df_data['Data de Nascimento'])

# Calcular idade (em anos aproximados)
hoje = pd.to_datetime('today')
df_data['Idade Estimada'] = (hoje - df_data['Data de Nascimento']).dt.days // 365

# Extrair ano e mês
df_data['Ano'] = df_data['Data de Nascimento'].dt.year
df_data['Mês'] = df_data['Data de Nascimento'].dt.month

print("\nDataFrame com manipulação de datas:")
df_data


DataFrame com manipulação de datas:


Unnamed: 0,Nome,Data de Nascimento,Idade Estimada,Ano,Mês
0,Alice,1999-05-14,26,1999,5
1,Fabio,1994-08-22,30,1994,8
2,Marcia,1991-12-01,33,1991,12
