## Análise Exploratória de Dados (EDA) - Parte 1

A **Análise Exploratória de Dados (EDA)** é a etapa inicial de investigação dos dados, onde buscamos entender suas principais características e comportamentos. Isso é feito por meio de gráficos, estatísticas descritivas e visualizações, o que permite identificar padrões, detectar valores nulos e outliers, e explorar relações entre variáveis.

### Objetivo:
Obter **insights preliminares** sobre os dados antes de aplicar técnicas mais avançadas (como, por exemplo, de Machine Learning), orientando assim o próximo passo da análise.

### Ferramentas e Técnicas Usadas na EDA:
- **Medidas Estatísticas**: Média, mediana, moda, desvio padrão, quartis.
- **Gráficos**: Gráficos de dispersão, histogramas, boxplots.

### -> Biblioteca Pandas
- É justamente a biblioteca Pandas que nos ajuda a fazer esta investigação inicial dos dados. 

---------------------------------------------------------------------------------------------------------------------

## Métodos e Atributos do Pandas 
- **Métodos**:
    - `head()` : Retorna as primeiras 5 linhas do DataFrame.
    - `tail()` : Retorna as últimas 5 linhas do DataFrame.
    - `describe()` : Exibe estatísticas descritivas como contagem, média, desvio padrão, valor mínimo, valor máximo, etc.

- **Atributos**:
    - `shape` : retorna as dimensões (ou a "forma") de um array. De forma mais simples, exibe o número de linhas e colunas do dataset.
    - `columns` : Mostra os nomes das colunas.
    - `dtypes` : Mostra o tipo de dados de cada coluna.


In [None]:
# em código (execute cada um separadamente, em células diferentes e observe a saída)
df.head()
df.tail()
df.describe()

df.shape
df.columns
df.dtypes

-------

## Seleção de Dados no Pandas

1. **Indexação em um dataFrame (modo simples)**

- Mostrando uma coluna
```python
coluna_um = df['NomeColuna 1']
coluna_um
```
<br>

- Mostrando duas colunas
```python
coluna_um_quatro = df[['NomeColuna1', 'NomeColuna4']]
coluna_um_quatro
```
<br>

- Mostrando uma linha com slice
```python
df[0:1]
```
<br>

- Mostrando um conjunto de linhas com slice
```python
df[2:6]
```
<br>


2. **Indexação em um dataframe com `loc` e `iloc`**

No pandas, `loc` e `iloc` são usados para selecionar dados de um **DataFrame**.

- loc: 
    - Baseado em rótulos: Utiliza rótulos de linhas e colunas para selecionar dados.
    - Sintaxe: `df.loc[linha, coluna]`
    - Exemplo: `df.loc[0, 'Nome']` seleciona o valor na primeira linha e na coluna 'Nome'.

- iloc:
    - Baseado em índices inteiros: Utiliza índices numéricos para selecionar dados, semelhante à indexação em listas.
    - Sintaxe: `df.iloc[linha, coluna]`
    - Exemplo: `df.iloc[0, 1]` seleciona o valor na primeira linha e na segunda coluna.

In [None]:
# Outros exemplos:
df.loc[:, 'Coluna1']    # seleciona todas as linhas da Coluna1

df.iloc[[0,3,4], [0, 1, 2]]   # seleciona as linhas 0, 3 e 4 das colunas 0, 1 e 2

df.loc[df['Age'] > 50]  # filtro usando loc -> selecionando todas as linhas na qual os valores da coluna 'Age' sejam maiores que 50

-------

## Outras funções básicas
1. Usando Groupby <br>
O método groupby() permite agrupar os dados em um DataFrame com base em uma ou mais colunas e, em seguida, aplicar funções de agregação (como soma, média, contagem, etc.) sobre os grupos formados.

In [None]:
# Sintaxe básica
df.groupby('coluna_chave')['coluna_agregada'].função()

# Exemplo:
import pandas as pd

data = {
    'Nome': ['Ana', 'Pedro', 'Maria', 'João', 'Carla', 'Felipe', 'Camila'],
    'Idade': [28, 34, 29, 40, 32, 26, 30],
    'Cidade': ['SP', 'RJ', 'MG', 'RS', 'SP', 'RJ', 'MG'],
    'Salário': [3500, 5000, 4200, 4800, 3700, 3100, 4400],
    'Departamento': ['RH', 'TI', 'Marketing', 'Financeiro', 'RH', 'Vendas', 'TI']
}

df = pd.DataFrame(data)

# Agrupando por Departamento e calculando a média salarial
salario_por_departamento = df.groupby('Departamento')['Salário'].mean()
print(salario_por_departamento)

Saída: <br><br>
![image.png](attachment:image.png)

2. Como criar uma nova coluna em um dataframe já existente

In [None]:
import pandas as pd

# Exemplo de DataFrame
data = {'Nome': ['Ana', 'João', 'Maria', 'Pedro'],
        'Idade': [23, 35, 22, 40]}

df = pd.DataFrame(data)

# Criando uma nova coluna 'Idade_mais_5', adicionando 5 à coluna 'Idade'
df['Idade_mais_5'] = df['Idade'] + 5

# Exibindo o DataFrame com a nova coluna
print(df)

Saída: <br><br>
![image.png](attachment:image.png)

3. Como remover linhas e colunas

In [None]:
# remover a primeira linha
df.drop(0, inplace=True)    # lembrando que inplace=True altera o próprio dataset

# remover uma coluna
df.drop(columns=['Coluna Aleatória']. inplace=True)

4. Como aplicar funções em colunas com `apply()`

In [None]:
import pandas as pd

# Exemplo da função
def calc_faixa_etaria(idade):
    if idade < 13:
        return 'Criança'
    elif idade < 18:
        return 'Adolescente'
    elif idade < 60:
        return 'Adulto'
    else:
        return 'Idoso'

# Exemplo de DataFrame
data = {'Name': ['Ana', 'João', 'Maria', 'Pedro'],
        'Age': [10, 15, 30, 65]}

df = pd.DataFrame(data)

# Aplicando a função calc_faixa_etaria na coluna 'Age' e criando a nova coluna 'Faixa_Etaria'
df['Faixa_Etaria'] = df['Age'].apply(calc_faixa_etaria)

# Exibindo o DataFrame com a nova coluna
print(df)

Saída: <br><br>
![image.png](attachment:image.png)

4. Como salvar o dataset (nesse caso, como um arquivo csv)

In [None]:
df.to_csv('dados_editados.csv', index=False)    # index False pois não queremos incluir a coluna de índices

---------

## Mais sobre o método `describe()` do Pandas e Estatística

O método `describe()` do Pandas é utilizado para gerar estatísticas descritivas sobre um DataFrame ou Series. Ele resume dados numéricos e categóricos fornecendo informações como:

- **count**: contagem dos valores.
- **mean**: média aritmética.
- **std**: desvio padrão.
- **min**: valor mínimo.
- **25%**: primeiro quartil (Q1).
- **50%**: mediana (Q2).
- **75%**: terceiro quartil (Q3).
- **max**: valor máximo.


Outras medidas que podemos utilizar:
- **mode()**: cálculo da moda.
- **mean()**: cálculo da média.
- **median()**: cálculoda da mediana.

In [None]:
import pandas as pd

df = pd.DataFrame({
    'A': [1, 2, 3, 4, 4, 5],
    'B': [10, 20, 30, 40, 40, 50]
})

df.describe()

In [None]:
moda = df['A'].mode()
media = df['B'].mean()
mediana = df['A'].median()

print(moda)
print(f'{media:.2f}')
print(mediana)

-------

### Conceitos estatísticos
#### -> O que são **quartis**?
Os quartis são divisões dos dados em **quatro partes iguais**, organizadas em ordem crescente. Eles ajudam a entender como os dados estão **distribuídos**, fornecendo **pontos de corte** que dividem o conjunto de dados em 25%, 50% e 75%. <br>
- **Primeiro Quartil** (Q1 - 25%): Separa os 25% menores valores dos 75% restantes. Representa o valor abaixo do qual estão os primeiros 25% dos dados.<br>
- **Segundo Quartil** (Q2 - 50%): É a mediana, o ponto central que divide os dados em duas metades iguais.<br>
- **Terceiro Quartil** (Q3 - 75%): Separa os 75% menores valores dos 25% maiores. Indica onde estão os 75% mais baixos dos dados.
<br><br>

Exemplo:
[2, 4, 7, 10, 12, 15, 18, 20, 22, 24, 27]

- Q1 (25%):
    - O primeiro quartil (Q1) será o valor que separa os primeiros 25% dos números.<br>
    - Aqui, o Q1 é 7 (aproximadamente 25% dos dados estão abaixo de 7).

- Q2 (Mediana, 50%):
    - O segundo quartil (Q2), ou mediana, é o valor central.<br>
    - Neste caso, o Q2 é 15 (metade dos dados estão abaixo de 15).

- Q3 (75%):
    - O terceiro quartil (Q3) separa os primeiros 75% dos números.<br>
    - Aqui, o Q3 é 22 (75% dos dados estão abaixo de 22).

------

#### -> O que é desvio padrão?
O desvio padrão é uma medida que indica o quanto os valores de um conjunto de dados se **afastam** da média. Ele mostra a **dispersão** ou **variação** dos dados. Se o desvio padrão for baixo, significa que os valores estão **próximos** da média. Se for alto, os valores estão mais **espalhados**.<br>

Fórmula:
- Desvio padrão (σ) = raiz quadrada da média dos quadrados das diferenças entre cada valor e a média.

Em resumo, o desvio padrão ajuda a entender o quanto os dados variam em relação ao valor médio.

[➡ Próxima Seção: EDA (Tratamento de Valores Nulos)](https://github.com/biankyrou/data-science-lab/blob/main/Guia%20de%20Estudos/4-%20Pandas%20e%20Matplotlib/2-%20EDA%20-%20Tratamento%20de%20Valores%20Nulos.ipynb)
