# Obtendo dados com pandas

## 1. Importando dados de um csv

### Lendo o arquivo localmente

In [4]:
import pandas as pd
from io import StringIO
import requests

In [2]:
path = '../data_analytics_engineering/dados/aula3/16zpallagi.csv'

tax_data = pd.read_csv(path)
tax_data.head()

Unnamed: 0,STATEFIPS,STATE,zipcode,agi_stub,N1,mars1,MARS2,MARS4,PREP,N2,...,N10300,A10300,N85530,A85530,N85300,A85300,N11901,A11901,N11902,A11902
0,1,AL,0,1,815440,477700,105350,221200,440830,1296920,...,367320,330066,0,0,0,0,63420,51444,711580,1831661
1,1,AL,0,2,495830,211930,142340,128890,272440,996240,...,398050,984297,0,0,0,0,74090,110889,416090,1173463
2,1,AL,0,3,263390,83420,137870,36340,154880,584000,...,253180,1349246,0,0,0,0,64000,143060,195130,543284
3,1,AL,0,4,167190,29420,124060,10610,99700,421720,...,165830,1425430,0,0,0,0,45020,128920,117410,381329
4,1,AL,0,5,217440,20240,188080,4880,129410,601040,...,216720,3922449,390,155,60,19,82940,423629,126130,506526


In [3]:
tax_data[tax_data.agi_stub.isna()]

Unnamed: 0,STATEFIPS,STATE,zipcode,agi_stub,N1,mars1,MARS2,MARS4,PREP,N2,...,N10300,A10300,N85530,A85530,N85300,A85300,N11901,A11901,N11902,A11902


### Lendo de uma url

In [5]:
url = 'https://www.irs.gov/pub/irs-soi/16zpallagi.csv'
req = requests.get(url).text

In [6]:
tax_data_2 = pd.read_csv(StringIO(req))
tax_data_2.head()

Unnamed: 0,STATEFIPS,STATE,zipcode,agi_stub,N1,mars1,MARS2,MARS4,PREP,N2,...,N10300,A10300,N85530,A85530,N85300,A85300,N11901,A11901,N11902,A11902
0,1,AL,0,1,815440,477700,105350,221200,440830,1296920,...,367320,330066,0,0,0,0,63420,51444,711580,1831661
1,1,AL,0,2,495830,211930,142340,128890,272440,996240,...,398050,984297,0,0,0,0,74090,110889,416090,1173463
2,1,AL,0,3,263390,83420,137870,36340,154880,584000,...,253180,1349246,0,0,0,0,64000,143060,195130,543284
3,1,AL,0,4,167190,29420,124060,10610,99700,421720,...,165830,1425430,0,0,0,0,45020,128920,117410,381329
4,1,AL,0,5,217440,20240,188080,4880,129410,601040,...,216720,3922449,390,155,60,19,82940,423629,126130,506526


In [8]:
tax_data_2.shape

(179796, 147)

### Modificando importações de arquivo csv

#### Limitando Colunas
Para escolher as colunas que deseja carregar, use o argumento ```usecols```

Você pode definir uma lista de números ou nomes de colunas ou uma função para filtrar nomes de colunas

In [9]:
col = ['STATEFIPS', 'STATE', 'zipcode', 'agi_stub', 'N1']
tax_data_by_name = pd.read_csv(path, usecols=col)
tax_data_by_name.head()

Unnamed: 0,STATEFIPS,STATE,zipcode,agi_stub,N1
0,1,AL,0,1,815440
1,1,AL,0,2,495830
2,1,AL,0,3,263390
3,1,AL,0,4,167190
4,1,AL,0,5,217440


In [10]:
col = [0, 1, 2, 3, 4]
tax_data_by_index = pd.read_csv(path, usecols=col)
tax_data_by_index.head()

Unnamed: 0,STATEFIPS,STATE,zipcode,agi_stub,N1
0,1,AL,0,1,815440
1,1,AL,0,2,495830
2,1,AL,0,3,263390
3,1,AL,0,4,167190
4,1,AL,0,5,217440


In [12]:
# verifica se são iguais e retorna True caso seja
tax_data_by_name.equals(tax_data_by_index)

True

Limite o número de linhas carregadas com o argumento ```nrows```

In [13]:
tax_data_first100 = pd.read_csv(path, nrows=100)
tax_data_first100

Unnamed: 0,STATEFIPS,STATE,zipcode,agi_stub,N1,mars1,MARS2,MARS4,PREP,N2,...,N10300,A10300,N85530,A85530,N85300,A85300,N11901,A11901,N11902,A11902
0,1,AL,0,1,815440,477700,105350,221200,440830,1296920,...,367320,330066,0,0,0,0,63420,51444,711580,1831661
1,1,AL,0,2,495830,211930,142340,128890,272440,996240,...,398050,984297,0,0,0,0,74090,110889,416090,1173463
2,1,AL,0,3,263390,83420,137870,36340,154880,584000,...,253180,1349246,0,0,0,0,64000,143060,195130,543284
3,1,AL,0,4,167190,29420,124060,10610,99700,421720,...,165830,1425430,0,0,0,0,45020,128920,117410,381329
4,1,AL,0,5,217440,20240,188080,4880,129410,601040,...,216720,3922449,390,155,60,19,82940,423629,126130,506526
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
95,1,AL,35035,6,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
96,1,AL,35040,1,2360,1450,320,550,1040,3560,...,1160,1104,0,0,0,0,210,186,2040,4788
97,1,AL,35040,2,2190,950,550,570,920,4360,...,1750,4554,0,0,0,0,330,559,1850,5356
98,1,AL,35040,3,1410,460,670,230,660,3180,...,1350,7109,0,0,0,0,290,649,1110,2946


Use ``nrows`` e ``skiprows`` para processar um arquivo em partes

``skiprows`` aceita uma lista de números de linha, um número de linhas ou uma função para filtrar linhas

``header=None`` indica para o pandas que não há nomes de colunas

#### Atribuindo Nomes de Colunas

Forneça nomes de coluna passando uma lista para o argumento ``names``.

A lista DEVE ter um nome para cada coluna em seus dados.

Se você só precisa renomear algumas colunas, faça isso depois de carregar os dados.

### Tratamento de erros e falta de dados

#### Problemas comuns de importação de arquivos

- Tipos de dados da coluna errados

- Valores  faltando

- Registros que não podem ser lidos

#### Especificando tipos de dados

O pandas infere automaticamente tipos de dados das colunas

Use a palavra-chave ``dtype`` para especificar os tipos de dados de uma coluna

``dtype`` aceita como parâmetro um dicionário de nomes de colunas e tipos de dados

#### Customizando valores de dados ausentes

O pandas interpreta automaticamente alguns valores como ausentes ou NA

Usamos a palavra-chave ``na_values`` para definir valores ausentes personalizados

Podemos passar um único valor, uma lista ou um dicionário de colunas e valores

#### Linhas com Erros

Defina ``error_bad_lines=False`` para pular registros não analisáveis

Defina ``warning_bad_lines=True`` para ver as mensagens quando os registros são ignorados

## 2. Carregando planilhas

As planilhas têm sua própria função de carregamento no pandas: ``read_excel()``

### Carregando colunas e linhas selecionadas

``read_excel()`` tem muitos argumentos em comum com ``read_csv()``
- ``nrows``: limita o número de linhas para carregar
- ``skiprows``: especifica a quantidade de linhas ou números de linha a serem ignorados
- ``usecols``: seleciona colunas por nome, número posicional ou letra

### Obtendo dados de várias planilhas
#### Selecionando uma única aba
Por padrão, a função ``read_excel()`` carrega a primeira planilha de um arquivo Excel

Para carregar outras planilhas, devemos usar o argumento ``sheet_name``

Podemos especificar planilhas por nome e/ou número de posição (indexado por zero)

Passe uma lista de nomes/números para carregar mais de uma aba por vez

Quaisquer argumentos passados para ``read_excel()`` se aplicam a todas as planilhas lidas

### Selecionando várias abas

#### Carregando todas as planilhas

### Trabalhando com várias planilhas

## 3. Conectando a um Banco de Dados

### Dependências

Usaremos o SQLAlchemy para ler as tabelas do banco de dados sakila. 

Em seguida, usaremos as funcionalidades do pandas para realizar as consultas.

O SQLAlchemy fornece um Object Relational Mapper (ORM) além do SQLAlchemy Core. 
- O ORM nos fornece uma API orientada a objetos para bancos de dado. 
- O Core é uma linguagem SQL Expression padronizada para trabalhar com bancos de dados. 

### Criando uma conexão com o banco de dados

#### Carregando a tabela de atores em um DataFrame pandas

#### Exibindo o nome e o sobrenome de todos os atores.

#### Exibindo o nome e o sobrenome de cada ator em uma única coluna em letras maiúsculas. 

#### Desafio: Mostre o id, nome e sobrenome de um ator, do qual você conhece apenas o primeiro nome, "Joe".