<img src='https://github.com/davibarbosabdj/Minicurso_pandas/blob/main/imagens/logo_pandas.png?raw=true' width='115px' style='float: right'>

# <center><strong>AED - Análise Exploratória de Dados</strong></center>
### <center><strong>Projeto Engedados - UFC Campus Jardins de Anita Itapajé</strong></center>
---

### **3. Análise Exploratória de Dados** 


A Análise Exploratória de Dados (AED) é uma fase crucial no processo de compreender um conjunto de dados. Ela é uma abordagem investigativa, onde mergulhamos nos dados para revelar padrões, tendências e características ocultas. Durante a AED, buscamos entender a estrutura dos dados, identificar possíveis lacunas ou inconsistências, explorar relações entre variáveis e até mesmo desvendar possíveis anomalias.

A AED nos permite formular perguntas relevantes, criar hipóteses e, posteriormente, orientar análises mais aprofundadas. Ela não apenas nos ajuda a identificar o que está acontecendo nos dados, mas também a entender o "porquê" por trás desses padrões. Através da exploração dos dados, podemos identificar oportunidades, desafios e áreas que requerem mais investigação. Isso é crucial para tomar decisões informadas, ajustar estratégias e extrair insights significativos. Em essência, a AED é uma jornada que nos conduz a descobertas valiosas, preparando o terreno para análises mais avançadas e decisões fundamentadas.

Os principais pontos a serem abordados na AED incluem:

- **Resumo Estatístico:** Calcular estatísticas descritivas para entender tendências centrais e dispersão dos dados.

- **Agregação:** Agrupar dados por categorias e aplicar funções de agregação para analisar características específicas.

- **Visualização:** Criar gráficos para representar visualmente os padrões e tendências nos dados.

- **Extração de Insights:** Identificar insights preliminares que podem orientar análises mais aprofundadas.

#### 3.1 Estatísticas Descritivas

Estatísticas descritivas são ferramentas fundamentais para compreender os padrões e as características centrais de um conjunto de dados. Com o Pandas, você pode facilmente calcular várias estatísticas que oferecem insights valiosos.

In [1]:
import pandas as pd

data = {'Nome': ['Alice', 'Bob', 'Carol', 'David', 'Eve', 'Carl'],
        'Idade': [25, 30, 22, 35, 28, 78],
        'Salario': [50000, 60000, 45000, 70000, 55000, 10000]}

df = pd.DataFrame(data)

In [2]:
# Média das idades


In [3]:
# Mediana das idades


In [4]:
# Desvio padrão dos salários


In [5]:
# Valor mínimo e máximo dos salários


In [6]:
# Resumo estatístico das colunas numéricas


#### 3.2 Agregação de Dados

A agregação de dados é um processo fundamental na análise de dados, envolvendo a combinação, resumo e cálculo de informações estatísticas a partir de conjuntos de dados brutos. É uma maneira de extrair insights valiosos e informações significativas de grandes volumes de informações.

O método `groupby()` é uma função poderosa no pandas que permite agrupar um DataFrame por uma ou mais colunas e aplicar operações agregadas nos grupos resultantes. Isso é especialmente útil quando você deseja analisar e resumir os dados com base em categorias específicas.

In [7]:
data = {'Nome': ['Alice', 'Bob', 'Carol', 'David', 'Eve', 'Bob', 'Davi', 'Carl', 'Raimundo'],
        'Idade': [25, 30, 22, 35, 28, 17, 21, 32, 78],
        'Salario': [5000, 6000, 4500, 7000, 55000, 2130, 3000, 4500, 1500],
        'Departamento': ['Vendas', 'TI', 'Vendas', 'RH', 'TI', 'Vendas', 'RH', 'TI', 'TI']}

df = pd.DataFrame(data)
df

Unnamed: 0,Nome,Idade,Salario,Departamento
0,Alice,25,5000,Vendas
1,Bob,30,6000,TI
2,Carol,22,4500,Vendas
3,David,35,7000,RH
4,Eve,28,55000,TI
5,Bob,17,2130,Vendas
6,Davi,21,3000,RH
7,Carl,32,4500,TI
8,Raimundo,78,1500,TI


In [8]:
# Média dos salários por departamento


In [9]:
# Soma dos salários por departamento


In [10]:
# Contagem de funcionários por departamento


In [11]:
# Estatísticas descritivas por departamento


### **4. Integrações** 

A integração do Pandas com outras bibliotecas Python é um aspecto crucial na análise de dados, pois permite ampliar as capacidades do Pandas combinando-o com outras ferramentas poderosas. Isso permite criar fluxos de trabalho mais avançados e realizar análises mais complexas.

A integração envolve a combinação do Pandas com bibliotecas como NumPy, Matplotlib, Seaborn, SciPy, Scikit-learn e mais. Cada uma dessas bibliotecas traz recursos específicos que podem ser aproveitados para ampliar a funcionalidade e a profundidade das análises.

Essas integrações ampliam o poder analítico do Pandas e permite explorar dados de maneira mais aprofundada, utilizando técnicas avançadas. Ao aprender a integrar o Pandas com outras bibliotecas, você ganha habilidades para lidar com cenários mais complexos de análise de dados e amplia seu conjunto de ferramentas para solucionar problemas do mundo real.

In [12]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# Criando o DataFrame
data = {'Nome': ['Alice', 'Bob', 'Carol', 'David', 'Emily', 'Joana', 'Maria', 'Wanddin'],
        'Idade': [28, 35, 22, 29, 31, 21, 21, 21],
        'Salário': [5000, 6000, 4500, 5500, 5200, 2500, 2700, 2500],
        'Departamento': ['Vendas', 'TI', 'Vendas', 'RH', 'TI', 'TI', 'TI', 'RH']}

df = pd.DataFrame(data)

In [13]:
# Gráfico de dispersão entre Departamento e Salário

In [14]:
# Gráfico de barras para Idade


In [15]:
# Gráfico de boxplot para Salário


<img src='https://storage.googleapis.com/kaggle-datasets-images/3464851/6055631/447e2410f7f51b7d0f29962ae89dfef6/dataset-cover.jpg?t=2023-06-30-01-28-18' width='300px' style='float: right'>

# <center><strong>AED - Análise Exploratória de Dados- Dados dos 1000 melhores filmes IMDB</strong></center>
### <center><strong>Projeto Engedados - UFC Campus Jardins de Anita Itapajé</strong></center>
---

- **Entendimento Inicial:** Comece entendendo a estrutura da base de dados. Verifique quais são as colunas disponíveis, o tipo de informações contidas e a organização geral dos dados.

- **Limpeza dos Dados:** Verifique se há dados faltantes ou informações inconsistentes. Limpeza é crucial para garantir que sua análise seja precisa.

- **Estatísticas Descritivas:** Calcule estatísticas descritivas básicas, como média, mediana, desvio padrão, mínimo e máximo para métricas relevantes, como avaliações, duração dos filmes, etc.

- **Gêneros:** Explore a frequência dos gêneros de filmes presentes na lista. Quais gêneros são mais comuns?

- **Conclusões:** Ao final, resuma as principais conclusões que você tirou da análise. O que você aprendeu sobre os filmes na lista?

In [16]:
import pandas as pd

In [17]:
# lendo os dados 



In [18]:
# df.info


In [19]:
# df.columns


In [20]:
# df.rename



In [21]:
# visualização do df 



In [22]:
# Verificação de valores faltantes  


In [23]:
# Selecionando os dados que tem o genero = drama 


In [24]:
# Selecionando os dados que tem o genero = drama e rating >= 6


In [25]:
# Selecionando os dados que tem o genero = drama e meta avaliacao >= 60 


In [26]:
# Agrupando os dados por rating 
