# Python

## Manipulação de dados
### DataFrames

O que veremos nesse tutorial?

1. leitura de dados
2. selecionar linhas
3. selecionar colunas
4. filtro de linhas
5. groupby com estatísticas
6. renomear colunas 
7. dados faltantes


## 1. Leitura dos dados

In [None]:
# importando biblioteca
import pandas as pd

In [None]:
# ler os dados
sp500 = pd.read_csv('data/sp500.csv')

### Mensurando tempo de exeução da leitura dos dados

In [None]:
%time df = pd.read_csv('data/sp500.csv')

In [None]:
%timeit df = pd.read_csv('data/sp500.csv')

#### Mostrando as 10 primeiras linhas

In [None]:
sp500.head(10)

## 2. Selecionar linhas

In [None]:
## selecionando as linhas 1, 10 e 100
sp500.iloc[[0, 9, 99]]

In [None]:
## removendo as linhas 1, 10 e 100
sp500.drop(index=[0, 9, 99])

# alternativa
excluir = [0, 9, 99]
sp500[~sp500.index.isin(excluir)]

## 3. Selecionar colunas

In [None]:
sp500.close
sp500['close']

# se vc quiser fazer uma cópia da coluna
sp500['close'].copy()

In [None]:
## mais de uma coluna
sp500[['symbol', 'close', 'volume']]

# alternativa mais veloz
sp500.loc[:,['symbol', 'close', 'volume']]

In [None]:
## removendo colunas específicas
sp500.drop(columns=['high', 'open'])

## 4. Selecionando linhas a partir de condições

In [None]:
sp500[sp500['volume'] < 1000]

In [None]:
sp500.query('volume < 1000')

In [None]:
sp500[(sp500.volume < 1000) & (sp500.close > 60)]

In [None]:
sp500.query('volume < 1000 & close > 60')

### Select

In [None]:
# selecionar as colunas que iniciam com v
colunas = sp500.columns[sp500.columns.str.startswith('v')].to_list()

sp500[colunas]

In [None]:
# não vamos selecionar as colunas que iniciam com v
colunas = sp500.columns\
[~sp500.columns.str.startswith('v')].to_list()

sp500[colunas]

In [None]:
# mais de uma condição
colunas = sp500.columns[sp500.columns.str.startswith('v') | sp500.columns\
.str.startswith('c')].to_list()

sp500[colunas]

## 5. Groupby

#### Calculando estatísticas

In [None]:
## descrevendo as estatísticas básicas
sp500.describe()

In [None]:
sp500.describe().loc[['mean', 'std']]

In [None]:
# vamos fazer o grupo por symbol e calcular a média do volume
sp500.groupby('symbol')['volume'].agg('mean')

In [None]:
# ordenando de forma crescente
sp500.groupby('symbol')['volume'].agg('mean')\
.sort_values()

# ordenando de forma decrescente
sp500.groupby('symbol')['volume'].agg('mean')\
.sort_values(ascending=False)

In [None]:
sp500_g = sp500.groupby('symbol')
estatisticas = sp500_g['close'].agg(['mean', 'std'])

estatisticas

## 6. Renomeando colunas

In [None]:
# resetar index 
# estatisticas.reset_index(inplace=True)
estatisticas.rename(columns={'symbol':'ticker',
                             'mean':'media',
                             'std':'desvio'})

## 7. Dados faltantes

In [None]:
# somar a quantidade de dados faltantes para cada coluna
sp500.isnull().sum()

In [None]:
# drop NaN
sp500.dropna()

In [None]:
# dropando NaN apenas em high
sp500.dropna(subset=['high'])