1. Criação de DataFrame: DataFrame é uma estrutura de dados bidimensional, ou seja, os dados são alinhados de forma tabular em linhas e colunas.

In [None]:
import pandas as pd

data = {
    'Nome': ['João', 'Ana', 'Carlos'],
    'Idade': [23, 45, 30],
    'Cidade': ['São Paulo', 'Rio de Janeiro', 'Belo Horizonte']
}

df = pd.DataFrame(data)


2. Leitura de arquivos: Pandas pode ler arquivos CSV, Excel, SQL e muitos outros tipos de arquivos.


In [None]:
df = pd.read_csv('nome_do_arquivo.csv')


3. Seleção de dados: Você pode selecionar dados de um DataFrame de várias maneiras.


In [None]:
# Selecionando uma coluna
df['Nome']

# Selecionando várias colunas
df[['Nome', 'Idade']]

# Selecionando linhas
df[0:2]


4. Filtragem de dados: Pandas permite filtrar dados com base em condições.


In [None]:
# Filtrando por idade
df[df['Idade'] > 30]


5. Manipulação de dados: Pandas oferece uma variedade de funções para manipular dados, como groupby, merge, concat, etc.

In [None]:
# Agrupando por cidade e calculando a média de idade
df.groupby('Cidade')['Idade'].mean()


6. Tratamento de dados faltantes: Pandas oferece funções para tratar dados faltantes, como dropna e fillna.


In [None]:
# Preenchendo dados faltantes com zero
df.fillna(0)


7. Visualização de dados: Pandas se integra bem com Matplotlib para fornecer recursos de visualização de dados.


In [None]:
df['Idade'].plot(kind='hist')


#### **Ecercicíos**:

In [None]:
# 1.Crie um DataFrame a partir de um dicionário ou de um arquivo CSV.

df = pd.read_excel('AtividadeExtraVoo(85).xlsx', sheet_name='AtividadeExtraVoo')

In [None]:
# 2.Selecione uma coluna do DataFrame.

print(df['Guerra'][2])

In [None]:
# 3.Selecione várias colunas do DataFrame.
print(df[['Guerra','Nome']])

In [None]:
# 4.Selecione um intervalo de linhas do DataFrame.
print(df[0:2])

In [None]:
# 5.Filtre o DataFrame com base em uma condição.
print(df[df['CIF'] > 45777])


In [None]:
# 6.Agrupe o DataFrame por uma coluna e calcule a média de outra coluna.

##Não vou fazer pois os dados que estamos trabalhando sao strings

In [None]:
# 7.Trate os dados faltantes no DataFrame.
df.fillna(0)

In [None]:
# 8.Crie um histograma de uma coluna do DataFrame.

#Precisa utilizar matplotlib

## Aula 2: Funções Avançadas do Pandas

1. **Manipulação de strings**: Pandas oferece uma série de operações de string, que tornam fácil operar em dados de string.


In [None]:
# Convertendo uma coluna para string
df['coluna'] = df['coluna'].astype(str)

# Aplicando uma função de string a uma coluna
df['coluna'] = df['coluna'].str.lower()


2. **Aplicação de funções**: Você pode aplicar uma função a cada elemento de uma coluna usando a função apply.


In [None]:
# Definindo a função
def dobrar(x):
    return x * 2

# Aplicando a função
df['coluna'] = df['coluna'].apply(dobrar)



3. **Merge, join e concatenação**: Pandas oferece várias maneiras de combinar DataFrames, incluindo merge e concatenação.


In [None]:
# Concatenando dois DataFrames
df3 = pd.concat([df1, df2])

# Fazendo merge de dois DataFrames
df3 = pd.merge(df1, df2, on='coluna_comum')


4.**Pivotamento de dados**: Pandas permite que você pivote seus dados para obter uma visão diferente dos dados.


In [None]:
# Pivotando os dados
pivot_df = df.pivot(index='coluna1', columns='coluna2', values='coluna3')


5 . **Manipulação de datas e horas**: Pandas é muito poderoso quando se trata de manipular datas e horas.


In [None]:
# Convertendo uma coluna para datetime
df['data'] = pd.to_datetime(df['data'])

# Extraindo o ano de uma coluna de data
df['ano'] = df['data'].dt.year


#### **Exercicíos:**

In [None]:
#1. Converta uma coluna do seu DataFrame para string e aplique uma função de string a ela.


In [None]:
#2. Aplique uma função a uma coluna do seu DataFrame usando a função apply.


In [None]:
# 3.Concatene dois DataFrames.


In [None]:
#4. Faça o merge de dois DataFrames em uma coluna comum.


In [None]:
#5. Pivote os dados do seu DataFrame.


In [None]:
#6. Converta uma coluna do seu DataFrame para datetime e extraia o ano dela.


### **Aula 3: Técnicas Avançadas de Manipulação de Dados com Pandas**



1. Manipulação de Índices: Os índices são muito úteis no Pandas e permitem que você acesse as linhas de forma mais eficiente.


In [None]:
# Definindo uma coluna como índice
df.set_index('Nome', inplace=True)

# Resetando o índice
df.reset_index(inplace=True)


2. Métodos de Janela: Os métodos de janela são usados para operações de janela deslizante. Eles são muito úteis para análise de séries temporais.


In [None]:
# Calculando a média móvel
df['coluna'].rolling(window=3).mean()


3. Crosstab: O método crosstab permite que você crie uma tabela de contingência, que é uma tabela mostrando a frequência com que certos grupos de dados aparecem.



In [None]:
pd.crosstab(df['coluna1'], df['coluna2'])


4. Cut e qcut: Esses métodos são usados para dividir os dados em compartimentos.


In [None]:
# Cut
pd.cut(df['coluna'], bins=3)

# qcut
pd.qcut(df['coluna'], q=4)


5. Get dummies: Este método é usado para codificar variáveis categóricas.


In [None]:
pd.get_dummies(df['coluna'])


#### **Exercicíos:**

In [73]:
#1.Defina uma coluna do seu DataFrame como índice e depois redefina o índice.


In [None]:
#2. Calcule a média móvel de uma coluna do seu DataFrame.


In [None]:
#3. Crie uma tabela de contingência de duas colunas do seu DataFrame.


In [None]:
#4. Divida uma coluna do seu DataFrame em compartimentos usando cut e qcut.


In [None]:
#5. Codifique uma variável categórica do seu DataFrame usando get_dummies.


### **Aula 4: Manipulação de Dados Temporais com Pandas**



1.Conversão de strings para datetime: Pandas é muito poderoso quando se trata de manipular datas e horas.


In [None]:
df['data'] = pd.to_datetime(df['data'])


2.Extração de partes de uma data: Você pode extrair o ano, mês, dia, hora, minuto e segundo de uma data.


In [None]:
df['ano'] = df['data'].dt.year
df['mês'] = df['data'].dt.month
df['dia'] = df['data'].dt.day
df['hora'] = df['data'].dt.hour
df['minuto'] = df['data'].dt.minute
df['segundo'] = df['data'].dt.second


3. Diferença entre datas: Pandas permite que você calcule a diferença entre duas datas.


In [None]:
df['diferença'] = df['data1'] - df['data2']


4.Resampling: Resampling é uma técnica muito útil em séries temporais onde você pode alterar a frequência dos seus dados.


In [None]:
# Resampling para frequência mensal e calculando a média
df.resample('M').mean()


5.Shifting: Shifting é uma técnica onde você pode deslocar os dados para frente ou para trás.


In [None]:
# Shifting os dados 2 períodos para frente
df.shift(2)


#### **Exercicíos:**

1.Converta uma coluna do seu DataFrame para datetime.


2.Extraia o ano, mês, dia, hora, minuto e segundo de uma coluna de data.


Calcule a diferença entre duas colunas de data.


Faça resampling de uma coluna de data para uma frequência mensal e calcule a média.


Desloque os dados de uma coluna 2 períodos para frente.
