# Aula de Análise Exploratória de Dados com Pandas

## Objetivos da Aula

- Entender o que é Análise Exploratória de Dados (EDA - Exploratory Data Analysis)
- Aprender a manipular DataFrames com a biblioteca Pandas
- Realizar análises básicas em um conjunto de dados
- Visualizar dados usando gráficos básicos

## Conteúdo

1. Introdução à Análise Exploratória de Dados
2. Instalação e Importação de Bibliotecas
3. Carregamento de Dados
4. Exploração Inicial dos Dados
5. Limpeza e Transformação dos Dados
6. Análise Estatística Básica
7. Visualização de Dados
8. Conclusão

## 1. Introdução à Análise Exploratória de Dados

A Análise Exploratória de Dados (EDA) é uma abordagem para analisar conjuntos de dados de forma a resumir suas características principais, frequentemente com métodos visuais. A EDA é uma prática fundamental em ciência de dados e estatística, pois fornece uma visão inicial e abrangente dos dados que você está trabalhando.

### Por que é importante?

- Identificar padrões, relações e anomalias nos dados
- Formular hipóteses para análises mais aprofundadas
- Tomar decisões informadas sobre modelagem de dados

### O que vamos usar?

- **Pandas**: Uma biblioteca Python para manipulação e análise de dados
- **Matplotlib**: Uma biblioteca Python para criação de gráficos e visualizações

In [None]:
# 2. Instalação e Importação de Bibliotecas

!pip install pandas matplotlib

In [None]:
# Importando as bibliotecas necessárias
import pandas as pd
import matplotlib.pyplot as plt

## 3. Carregamento de Dados

Vamos começar carregando um conjunto de dados para explorar. Utilizaremos um conjunto de dados sobre vinhos, que contém diversas características e avaliações.

### Como carregar um conjunto de dados com Pandas

- `pd.read_csv('caminho/para/o/arquivo.csv')`: Para ler arquivos CSV
- `pd.read_excel('caminho/para/o/arquivo.xlsx')`: Para ler arquivos Excel
- `pd.read_sql_query('SELECT * FROM tabela', conexao)`: Para ler de um banco de dados SQL

Um pouquinho de conhecimento sobre pH e vinhos... (fonte:[winefun](https://winefun.com.br/acidez-no-vinho-entenda-melhor-como-ela-afeta-nossa-percepcao-e-como-pode-ser-medida/))

Relembrando nossas aulas de química, **quanto menor o pH, mais ácida a solução**; inversamente, **quanto maior o pH, mais alcalina ela é**. A escala de pH, vamos relembrar, vai de 0 a 14, sendo as extremidades as mais intensas, tanto em termos de acidez como alcalinidade. Já o centro da escala (sete) é onde temos o pH neutro, representado pela água.

O pH de grande parte dos vinhos fica entre 2,6 e 4,2, sendo, portanto, soluções ácidas. Curiosamente, os vinhos mais ácidos costumam ser os vinhos brancos doces, com pHs que dificilmente superam 3. Brancos leves ficam em torno de 3,1 a 3,2, com tintos e brancos de corpo médio ao redor de 3,5 e tintos mais encorpados e de menor acidez na faixa de 3,8 a 4. A diferença pode parecer pequena, mas vale lembrar que a escala do pH é exponencial. Isso significa que um pH 3 indica uma solução dez vezes mais ácida que uma de pH 4.

In [None]:
# 4. Exploração Inicial dos Dados

# Carregando o conjunto de dados de vinhos
df = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv', sep=';')

In [None]:
# Exibindo as primeiras 5 linhas do DataFrame
df.head()

## 5. Limpeza e Transformação dos Dados

Antes de prosseguir com a análise, é crucial garantir que os dados estejam limpos e prontos para análise.

### Tarefas comuns de limpeza de dados:

- Remover ou tratar valores nulos
- Renomear colunas
- Converter tipos de dados
- Filtrar dados

In [None]:
# Verificando a presença de valores nulos
df.isnull().sum()

In [None]:
# Exibindo as colunas do DataFrame
df.columns

In [None]:
# Renomeando as colunas do DataFrame

df.rename(columns={'fixed acidity':'acidez fixada', 'volatile acidity':'acidez volátil', 'citric acid':'ácido cítrico', 'residual sugar':'açúcar residual',
       'chlorides':'cloridos', 'free sulfur dioxide':'dióxido sulfúrico livre', 'total sulfur dioxide':'dióxido sulfúrico total', 'density':'densidade',
       'sulphates':'sulfatos', 'alcohol':'álcool', 'quality':'qualidade'}, inplace=True)

In [None]:
# Verificando os tipos dos dados

df.info()

In [None]:
from pandas._libs.hashtable import PyObjectHashTable
# Filtrando dados

# Suponha que quiséssemos encontrar os vinhos mais encorpados, com acidez entre 3.8 e 4

pH = df['pH']
df_Encorpados = df[(pH > 3.8) & (pH < 4)]
df_Encorpados

In [None]:
qual= df['qualidade']
df_qualidade_superior = df[(qual > qual.mean())]
df_qualidade_superior.sort_values(by='pH').head()

## 6. Análise Estatística Básica

Uma vez que os dados estão limpos, podemos prosseguir com algumas análises estatísticas básicas.

### Funções úteis do Pandas para análise estatística:

- `df.describe()`: Resumo estatístico
- `df.corr()`: Matriz de correlação
- `df['coluna'].value_counts()`: Contagem de valores únicos em uma coluna

In [None]:
# Resumo estatístico do DataFrame
df.describe()

In [None]:
# Matriz de Correlação
df.corr()

In [None]:
mask = df['qualidade'] > df['qualidade'].mean()

In [None]:
df[mask]

In [None]:
df['qualidade'].mean()

## 7. Visualização de Dados

A visualização é uma parte crucial da análise de dados. Gráficos e outras formas de visualização podem fornecer insights que não são óbvios apenas olhando para os dados brutos.

### Tipos de gráficos comuns:

- Histograma
- Gráfico de barras
- Gráfico de dispersão
- Gráfico de caixa (boxplot)

In [None]:
# Histograma da qualidade dos vinhos
plt.hist(df['qualidade'], bins=10, alpha=0.7, color='blue', edgecolor='black')
plt.title('Histograma da Qualidade dos Vinhos')
plt.xlabel('Qualidade')
plt.ylabel('Frequência')
plt.show()

## 8. Conclusão

Nesta aula, abordamos os conceitos básicos da Análise Exploratória de Dados usando Pandas. Aprendemos como carregar, limpar e transformar dados para análise. Também realizamos algumas análises estatísticas básicas e visualizações.

### Próximos passos:

- Aprofundar em técnicas de visualização de dados
- Aprender sobre outras bibliotecas para análise de dados, como Seaborn e Plotly
- Realizar análises mais complexas, incluindo aprendizado de máquina

## 9. Análises Avançadas com Pandas

Nesta seção, vamos explorar algumas funcionalidades mais avançadas do Pandas para análise de dados.

### Tópicos abordados:

- Uso de funções em DataFrames
- Aplicação de `apply`
- Agrupamento com `groupby`
- Outras funcionalidades úteis

In [None]:
# 9.1 Uso de funções em DataFrames

# Definindo uma função para categorizar a qualidade do vinho
def categorize_quality(qualidade):
    if qualidade >= 7:
        return 'Alta'
    elif qualidade >= 5:
        return 'Média'
    else:
        return 'Baixa'

# Aplicando a função à coluna 'quality' e criando uma nova coluna 'quality_category'
df['categoria_qualidade'] = df['qualidade'].apply(categorize_quality)

# Exibindo as primeiras 5 linhas do DataFrame atualizado
df.head()

In [None]:
# 9.2 Aplicação de `apply` para operações mais complexas

# Calculando a média de álcool por categoria de qualidade
average_alcohol_by_quality = df.groupby('categoria_qualidade')['álcool'].apply(lambda x: x.mean())

# Exibindo o resultado
average_alcohol_by_quality

In [None]:
# 9.3 Agrupamento com `groupby`

# Agrupando os dados por 'quality_category' e calculando a média das características
grouped_by_quality = df.groupby('categoria_qualidade').mean()

# Exibindo o resultado
grouped_by_quality

In [None]:
# 9.4 Outras funcionalidades úteis

# Filtrando vinhos com qualidade alta e baixo teor de álcool
high_quality_low_alcohol = df[(df['categoria_qualidade'] == 'Alta') & (df['álcool'] < 10)]

# Exibindo o resultado
high_quality_low_alcohol.head()

Seleção de Dados com loc e iloc
Nesta seção, vamos explorar como usar loc e iloc para selecionar dados em um DataFrame do Pandas.

Tópicos abordados:
Seleção de dados com loc
Seleção de dados com iloc


In [None]:
# 10.1 Seleção de dados com `loc`
# Selecionando vinhos de qualidade 'Alta' e apenas as colunas 'pH' e 'alcohol'

high_quality_pH_alcohol = df.loc[df['categoria_qualidade'] == 'Alta', ['pH', 'álcool']]

# Exibindo as primeiras 5 linhas do resultado
high_quality_pH_alcohol.head()

In [None]:
# 10.2 Seleção de dados com `iloc`
# Selecionando as 5 primeiras linhas e as 3 primeiras colunas
first_rows_columns = df.iloc[:5, :3]
# Exibindo o resultado
first_rows_columns