- Análise de Dados com Pandas
    - Análise Exploratória de Dados
      - Métodos de resumo estatístico
      - Visualização de dados com Matplotlib e Seaborn
    - Manipulação Avançada de Dados
      - Junção, combinação e remodelação de DataFrames
      - Técnicas de slicing, loc e iloc
      - Trabalhando com datas e séries temporais
    - Casos de Uso Avançados
      - Análise de séries temporais
      - Dados de geolocalização
      - Integração do Pandas com outras bibliotecas (Scikit-learn, SciPy)

***A Análise Exploratória de Dados (EDA)*** 

É um passo crucial no processo de análise de dados, permitindo compreender melhor as características fundamentais dos dados através de resumos estatísticos e visualizações gráficas. 

Aplicando métodos de EDA usando Pandas e utilizando Matplotlib e Seaborn para visualização de dados.

## Métodos de Resumo Estatístico


Descrevendo os dados: Utilize describe() para obter um resumo estatístico que inclui tendência central, dispersão e forma da distribuição dos dados numéricos.


In [None]:
import pandas as pd
df = pd.read_excel('dadosFictícios/Exemplo_Aula_10.xlsx')
# Resumo estatístico das colunas numéricas
df.describe()
df

Correlação entre variáveis: O método corr() é útil para encontrar a correlação entre colunas numéricas em um DataFrame. Correlações podem indicar a relação entre variáveis.


In [None]:
# Calculando a correlação
df.corr()

Contagens únicas e valores modais: nunique() e mode() ajudam a identificar a diversidade de valores e os valores mais frequentes em colunas categóricas.

In [None]:
# Número de valores únicos por coluna
print(df.nunique())

# Valor mais comum em cada coluna
df.mode()

## Visualização de Dados com Matplotlib e Seaborn


Visualizações são uma parte integral da EDA, fornecendo insights rápidos que podem não ser óbvios apenas por resumos numéricos.

Histogramas: Úteis para visualizar a distribuição de dados numéricos.

In [None]:
import matplotlib.pyplot as plt

df['Preço'].hist(bins=15)
plt.show()

Gráficos de dispersão: Bom para identificar relações entre variáveis.


In [None]:
plt.scatter(df['coluna_x'], df['coluna_y'])
plt.show()


Boxplots: Oferecem uma boa visualização da distribuição de dados, destacando outliers.


In [None]:
import seaborn as sns

sns.boxplot(x='categoria', y='valor', data=df)
plt.show()

## Exemplo Prático

Suponha que temos um DataFrame df_vendas com dados sobre vendas de produtos, incluindo as colunas categoria, valor_venda e quantidade. Vamos realizar uma EDA básica nesses dados.

In [None]:
# Resumo estatístico
print(df_vendas.describe())

# Correlação entre 'valor_venda' e 'quantidade'
print(df_vendas[['valor_venda', 'quantidade']].corr())

# Visualização da distribuição de 'valor_venda'
plt.figure(figsize=(8, 4))
sns.histplot(df_vendas['valor_venda'], bins=30, kde=True)
plt.title('Distribuição do Valor de Venda')
plt.show()

# Boxplot de 'valor_venda' por 'categoria'
plt.figure(figsize=(8, 4))
sns.boxplot(x='categoria', y='valor_venda', data=df_vendas)
plt.title('Valor de Venda por Categoria')
plt.show()


# Manipulação Avançada de Dados

Após uma compreensão inicial dos dados por meio da análise exploratória, o próximo passo é aprofundar-se na manipulação avançada de dados. 

Essa etapa permite preparar os dados para análises mais complexas, incluindo a modelagem de dados. 

Vamos explorar técnicas avançadas de manipulação usando Pandas, abrangendo junção, combinação, remodelação de DataFrames, e trabalhando com datas e séries temporais.



### Junção, Combinação e Remodelação de DataFrames
  - Junção de DataFrames: Utilize merge() para combinar DataFrames baseando-se em colunas-chave, similar a junções SQL.


In [None]:
# Junção de dois DataFrames
df_juncao = pd.merge(df1, df2, on='coluna_chave')


Concatenação de DataFrames: concat() é usado para concatenar DataFrames verticalmente ou horizontalmente.


In [None]:
# Concatenação vertical
df_concat_vert = pd.concat([df1, df2])

# Concatenação horizontal
df_concat_horiz = pd.concat([df1, df2], axis=1)


Pivotamento e Mesclagem de Dados: pivot() e melt() permitem remodelar DataFrames, facilitando a análise.


In [None]:
# Pivotando
df_pivotado = df.pivot(index='data', columns='categoria', values='valor')

# Mesclagem (unpivot)
df_mesclado = df.melt(id_vars=['data'], value_vars=['categoria'])


## Trabalhando com Datas e Séries Temporais

Pandas oferece poderosas funcionalidades para manipulação de datas e séries temporais, tornando mais fácil trabalhar com dados temporais.

Conversão de strings para datetime: Use to_datetime() para converter colunas de data em formato string para datetime, facilitando operações subsequentes.


In [None]:
df['data'] = pd.to_datetime(df['data'])


Selecionando e filtrando datas: Após a conversão, é fácil selecionar períodos específicos ou filtrar baseado em datas.


In [None]:
# Selecionando um período específico
df_periodo = df.set_index('data')['2020-01-01':'2020-12-31']

# Filtrando um intervalo específico
df_filtrado = df[(df['data'] >= '2020-01-01') & (df['data'] <= '2020-12-31')]


Agregação e resample de séries temporais: resample() é útil para mudar a frequência dos dados temporais, permitindo agregação.


In [None]:
# Agregando dados mensais a partir de dados diários
df_mensal = df.set_index('data').resample('M').sum()


## Exemplo Prático
Imagine um DataFrame df_vendas com as colunas data, produto, categoria, e valor_venda, e um DataFrame df_estoque com produto, estoque_inicial, e estoque_final. Vamos realizar algumas operações de manipulação avançada nestes DataFrames.


In [None]:
import pandas as pd

# Convertendo a coluna 'data' para datetime
df_vendas['data'] = pd.to_datetime(df_vendas['data'])

# Junção dos DataFrames baseado em 'produto'
df_completo = pd.merge(df_vendas, df_estoque, on='produto')

# Agregando vendas mensais
df_vendas_mensais = df_completo.set_index('data').resample('M').agg({'valor_venda': 'sum', 'estoque_final': 'mean'})

# Exibindo o resultado
print(df_vendas_mensais.head())


Este exemplo ilustra como preparar e manipular dados para análises mais detalhadas, utilizando técnicas de junção, agregação temporal, e conversão de tipos de dados.



# Casos de Uso Avançados

Explorando casos de uso avançados que demonstram o poder do Pandas em análises de dados complexas, incluindo análise de séries temporais, dados de geolocalização e integração do Pandas com outras bibliotecas para enriquecer suas capacidades de análise.

## Análise de Séries Temporais

O Pandas oferece funcionalidades robustas para análise de séries temporais, permitindo trabalhar com facilidade em dados cronológicos para análises mais profundas, como tendências, sazonalidade e padrões de tempo.

- Decomposição de séries temporais: Explorar componentes de tendência e sazonalidade.

- Janelas móveis: Aplicar funções estatísticas e outras operações em janelas de tempo para suavização ou cálculo de médias móveis.


In [None]:
# Calculando média móvel de 7 dias para 'valor_venda'
df_vendas['valor_venda'].rolling(window=7).mean().plot()


## Dados de Geolocalização

Com Pandas, é possível manipular dados de geolocalização para análises geográficas, que podem ser úteis em vários domínios, como logística, planejamento urbano e marketing.

### Manipulação de coordenadas geográficas: 
Analisar dados baseados em localização.

- Integração com bibliotecas de geoprocessamento: Como Geopandas para visualização e análise espacial.


- Integração do Pandas com Outras Bibliotecas
    - O Pandas pode ser integrado com uma série de outras bibliotecas para análises mais específicas ou avançadas, incluindo:

- Scikit-learn para Machine Learning: Preparação de dados antes da aplicação de modelos de machine learning.


In [None]:
from sklearn.model_selection import train_test_split

# Preparando dados para modelagem
X = df.drop('coluna_alvo', axis=1)
y = df['coluna_alvo']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


## SciPy para análises estatísticas: 

Realizar testes estatísticos ou operações matemáticas complexas.


- Matplotlib e Seaborn para visualizações avançadas: Criar gráficos complexos e visualizações de dados personalizadas.


## Exemplo Prático

Vamos considerar um caso onde você possui um DataFrame df_vendas com informações de vendas diárias, incluindo a data e o valor de vendas, e você deseja analisar tendências e padrões sazonais.


In [None]:
import pandas as pd

# Simulação do DataFrame 'df_vendas'
# Aqui, você substituiria por seu próprio carregamento de dados

# Decomposição de séries temporais (usando statsmodels, por exemplo)
from statsmodels.tsa.seasonal import seasonal_decompose

# Definindo o índice como data para análise de séries temporais
df_vendas.set_index('data', inplace=True)

# Decompondo a série temporal
resultado = seasonal_decompose(df_vendas['valor_venda'], model='additive')

# Visualizando componentes
resultado.plot().set_size_inches(10, 12)


Este exemplo mostra como você pode começar a trabalhar com análises de séries temporais no Pandas, preparando o caminho para explorações mais profundas e sofisticadas de padrões nos dados.