# Aula de Pandas para Ci√™ncia de Dados


# <center>üìä Pandas: A Biblioteca Essencial para An√°lise de Dados em Python</center>

O **Pandas** √© a principal biblioteca Python para **manipula√ß√£o e an√°lise profissional de dados**. Desenvolvida como projeto *open-source*, tornou-se o padr√£o da ind√∫stria para trabalhar com informa√ß√µes estruturadas.

## üîç Principais Caracter√≠sticas

### üèóÔ∏è Estruturas de Dados
- `DataFrame`: Tabelas multidimensionais (como planilhas Excel avan√ßadas)
- `Series`: Arrays unidimensionais otimizados (colunas de dados)

### ‚ö° Funcionalidades-Chave

```
python
# Exemplo de c√≥digo embutido
df = pd.DataFrame({'coluna': [1, 2, 3]})
print(df.head())
```



In [None]:
# Importa√ß√£o do pandas
import pandas as pd
import numpy as np


## 2. Criando DataFrames

Podemos criar DataFrames a partir de diversos tipos de fontes de dados como:
- Dicion√°rios
- Listas
- Arrays NumPy
- Arquivos externos (CSV, Excel, etc)


In [None]:
# Criando um DataFrame a partir de um dicion√°rio
data = {
    'Nome': ['Ana', 'Jo√£o', 'Maria', 'Carlos'],
    'Idade': [25, 30, 22, 35],
    'Cidade': ['S√£o Paulo', 'Rio de Janeiro', 'Belo Horizonte', 'Porto Alegre']
}

df = pd.DataFrame(data)
df

## 3. Opera√ß√µes B√°sicas com DataFrames

**Inspe√ß√£o de Dados**

***Visualiza√ß√µes***

In [None]:
# Visualizando as primeiras linhas
print("Primeiras linhas:")
print(df.head(2))

# Visualizando as √∫ltimas linhas
print("\n√öltimas linhas:")
print(df.tail(2))

# Informa√ß√µes sobre o DataFrame
print("\nInforma√ß√µes do DataFrame:")
print(df.info())

# Estat√≠sticas descritivas
print("\nEstat√≠sticas descritivas:")
print(df.describe())

## 4. Sele√ß√£o e Indexa√ß√£o

**Acessando partes do DataFrame**

In [None]:
# Selecionando uma coluna
print("Coluna Nome:")
print(df['Nome'])

# Selecionando m√∫ltiplas colunas
print("\nColunas Nome e Idade:")
print(df[['Nome', 'Idade']])

# Selecionando linhas por √≠ndice
print("\nSegunda linha:")
print(df.iloc[1])

# Selecionando com condi√ß√µes
print("\nPessoas com mais de 25 anos:")
print(df[df['Idade'] > 25])

## 5. Lidando com Dados Faltantes

***Identifica√ß√£o e tratamento de valores nulos***

Dados faltantes (NaN - Not a Number) s√£o comuns em an√°lise de dados. Vamos aprender a lidar com eles.

In [None]:
# Criando DataFrame com dados faltantes
data = {
    'Nome': ['Ana', 'Jo√£o', 'Maria', 'Carlos', None],
    'Idade': [25, 30, None, 35, 28],
    'Cidade': ['S√£o Paulo', 'Rio de Janeiro', None, 'Porto Alegre', 'Curitiba']
}

df_nan = pd.DataFrame(data)
print("DataFrame original:")
print(df_nan)

# Identificando valores faltantes
print("\nValores faltantes:")
print(df_nan.isnull())

# Removendo linhas com valores faltantes
print("\nRemovendo linhas com NaN:")
print(df_nan.dropna())

# Preenchendo valores faltantes
print("\nPreenchendo NaN com valores padr√£o:")
print(df_nan.fillna({'Nome': 'Desconhecido', 'Idade': df_nan['Idade'].mean(), 'Cidade': 'N√£o informada'}))

## 6. Agrega√ß√£o e Agrupamento

***An√°lise de dados agregados***

Opera√ß√µes de agrega√ß√£o s√£o essenciais para an√°lise de dados.

In [None]:
# Criando DataFrame de exemplo
vendas = {
    'Vendedor': ['Ana', 'Jo√£o', 'Ana', 'Carlos', 'Jo√£o', 'Maria'],
    'Produto': ['TV', 'Notebook', 'Celular', 'TV', 'Celular', 'Notebook'],
    'Valor': [2000, 3500, 1500, 2200, 1400, 3600],
    'Data': ['2023-01-15', '2023-01-20', '2023-01-10', '2023-02-05', '2023-02-15', '2023-03-10']
}

df_vendas = pd.DataFrame(vendas)
df_vendas['Data'] = pd.to_datetime(df_vendas['Data'])

# Agrega√ß√µes b√°sicas
print("Soma dos valores:")
print(df_vendas['Valor'].sum())

print("\nM√©dia dos valores:")
print(df_vendas['Valor'].mean())

# Agrupamento
print("\nTotal de vendas por vendedor:")
print(df_vendas.groupby('Vendedor')['Valor'].sum())

print("\nM√©dia de vendas por produto:")
print(df_vendas.groupby('Produto')['Valor'].mean())

## 7. Visualiza√ß√£o B√°sica com Pandas

***Gr√°ficos b√°sicos com Pandas***

O Pandas oferece integra√ß√£o com Matplotlib para visualiza√ß√µes simples.


In [None]:
# Gr√°fico de barras
df_vendas['Produto'].value_counts().plot(kind='bar', title='Vendas por Produto')

# Histograma
df_vendas['Valor'].plot(kind='hist', bins=5, title='Distribui√ß√£o de Valores')

# Boxplot
df_vendas.boxplot(column='Valor', by='Produto')