# Obtendo dados com pandas

## 1. Importando dados de um csv

### Lendo o arquivo localmente

In [None]:
import pandas as pd
# Fonte: https://www.irs.gov/statistics/soi-tax-stats-individual-income-tax-statistics-2016-zip-code-data-soi

path = 'data/16zpallagi.csv'

tax_data = pd.read_csv(path)
tax_data.head(10)

In [None]:
tax_data[tax_data.agi_stub.isna()]

In [None]:
tax_data.shape

### Lendo de uma url

In [None]:
from io import StringIO
import requests

url = 'https://www.irs.gov/pub/irs-soi/16zpallagi.csv'

req = requests.get(url).text

tax_data = pd.read_csv(StringIO(req))

tax_data.shape


### Modificando importações de arquivo csv

#### Limitando Colunas
Para escolher as colunas que deseja carregar, use o argumento ```usecols```

Você pode definir uma lista de números ou nomes de colunas ou uma função para filtrar nomes de colunas

In [None]:
col_names = ['STATEFIPS', 'STATE', 'zipcode', 'agi_stub', 'N1']

# Carregando colunas por nome
tax_data_by_name = pd.read_csv(path, usecols=col_names)
tax_data_by_name.head(3)

In [None]:
# Carregando colunas pelo índice
col_nums = [0,1,2,3,4]

tax_data_by_index = pd.read_csv(path, usecols=col_nums)
tax_data_by_index.head(3)

In [None]:
tax_data_by_name.equals(tax_data_by_index)

Limite o número de linhas carregadas com o argumento ```nrows```

In [None]:
tax_data_first100 = pd.read_csv(path, nrows=100)
tax_data_first100.head()

Use ``nrows`` e ``skiprows`` para processar um arquivo em partes

``skiprows`` aceita uma lista de números de linha, um número de linhas ou uma função para filtrar linhas

``header=None`` indica para o pandas que não há nomes de colunas

In [None]:
batch_size = 1000

for i in range(0,179795):
    tax_data_next = pd.read_csv(path, nrows=batch_size, skiprows=i*batch_size)
tax_data_next.head()

In [None]:
next_tax_no_header = pd.read_csv(path, nrows=1000, skiprows=100, header=None)
next_tax_no_header.head()

#### Atribuindo Nomes de Colunas

Forneça nomes de coluna passando uma lista para o argumento ``names``.

A lista DEVE ter um nome para cada coluna em seus dados.

Se você só precisa renomear algumas colunas, faça isso depois de carregar os dados.

In [None]:
tax_data_next = pd.read_csv(path, nrows=1000, skiprows=2, header=None)
tax_data_next.head()

In [None]:
col_names = list(tax_data_first100)
tax_next500 = pd.read_csv(
                path,
                nrows=500,
                skiprows=1000,
                header=None,
                names=col_names
)

tax_next500.head(2)

### Tratamento de erros e falta de dados

#### Problemas comuns de importação de arquivos

- Tipos de dados da coluna errados

- Valores  faltando

- Registros que não podem ser lidos

#### Especificando tipos de dados

O pandas infere automaticamente tipos de dados das colunas

In [None]:
tipos = tax_data.dtypes
print(tax_data.dtypes)
tax_data.info()

Use a palavra-chave ``dtype`` para especificar os tipos de dados de uma coluna

``dtype`` aceita como parâmetro um dicionário de nomes de colunas e tipos de dados

In [None]:
tax_data = pd.read_csv(path, dtype={"zipcode": str})
tax_data.dtypes

#### Customizando valores de dados ausentes

O pandas interpreta automaticamente alguns valores como ausentes ou NA

In [None]:
tax_data.head()

Usamos a palavra-chave ``na_values`` para definir valores ausentes personalizados

Podemos passar um único valor, uma lista ou um dicionário de colunas e valores

In [None]:
tax_data[tax_data.isna()]

In [None]:
tax_data[tax_data['zipcode'] == 0]

In [None]:
tax_data = pd.read_csv(path, na_values={"zipcode":[0]})
tax_data[tax_data.zipcode.isna()]

In [None]:
tax_data.isnull().sum()

#### Linhas com Erros

Defina ``error_bad_lines=False`` para pular registros não analisáveis

Defina ``warning_bad_lines=True`` para ver as mensagens quando os registros são ignorados

In [None]:
tax_data = pd.read_csv(path, error_bad_lines=True, warn_bad_lines=True)

## 2. Carregando planilhas

### Instalando dependência

In [None]:
!pip install openpyxl

As planilhas têm sua própria função de carregamento no pandas: ``read_excel()``

In [None]:
path_xlsx = 'data/fcc_survey.xlsx'
survey = pd.read_excel(path_xlsx)

In [None]:
survey.head()

### Carregando colunas e linhas selecionadas

``read_excel()`` tem muitos argumentos em comum com ``read_csv()``
- ``nrows``: limita o número de linhas para carregar
- ``skiprows``: especifica a quantidade de linhas ou números de linha a serem ignorados
- ``usecols``: seleciona colunas por nome, número posicional ou letra

In [None]:
colunas = "K, AB:AG"

survey = pd.read_excel(path_xlsx, 
                       nrows=100, 
                       skiprows=3, 
                       usecols=colunas, 
                       header=None)
survey.head()

### Obtendo dados de várias planilhas
#### Selecionando uma única aba
Por padrão, a função ``read_excel()`` carrega a primeira planilha de um arquivo Excel

Para carregar outras planilhas, devemos usar o argumento ``sheet_name``

Podemos especificar planilhas por nome e/ou número de posição (indexado por zero)

Passe uma lista de nomes/números para carregar mais de uma aba por vez

Quaisquer argumentos passados para ``read_excel()`` se aplicam a todas as planilhas lidas

In [None]:
colunas = "K, AB:AG"

survey = pd.read_excel(path_xlsx, 
                       nrows=100, 
                       skiprows=3, 
                       usecols=colunas, 
                       header=None,
                       sheet_name=1)
survey.head()

### Selecionando várias abas

In [None]:
import pandas as pd

path_xlsx = 'data/fcc_survey.xlsx'
all_survey = pd.read_excel(path_xlsx, nrows=1000, sheet_name=['2016','2017'])
type(all_survey)

In [None]:
all_survey.keys()

In [None]:
all_survey = pd.read_excel(path_xlsx, nrows=10, sheet_name=[0,'2017'])
type(all_survey)

#### Carregando todas as planilhas

In [None]:
all_survey = pd.read_excel(path_xlsx, nrows=10, sheet_name=None)
type(all_survey)

In [None]:
all_survey.values()

In [None]:
all_survey[0].shape

In [None]:
all_survey['2017'].shape

In [None]:
all_survey.values()

In [None]:
names1 = list(all_survey[0])
names1

In [None]:
names2 = list(all_survey['2017'])
names2

### Trabalhando com várias planilhas

In [None]:
todas = pd.DataFrame()


todas = pd.concat(all_survey.values())
    
todas.shape

In [None]:
todas.head()

### Carregando todas as abas

Passando ``sheet_name=None`` para ``read_excel()`` lê todas as planilhas em uma pasta de trabalho

### Juntando tudo

## 3. Conectando a um Banco de Dados

### Dependências

Usaremos o SQLAlchemy para ler as tabelas do banco de dados sakila. 

Em seguida, usaremos as funcionalidades do pandas para realizar as consultas.

O SQLAlchemy fornece um Object Relational Mapper (ORM) além do SQLAlchemy Core. 
- O ORM nos fornece uma API orientada a objetos para bancos de dado. 
- O Core é uma linguagem SQL Expression padronizada para trabalhar com bancos de dados. 


In [None]:
!pip install sqlalchemy

### Criando uma conexão com o banco de dados

In [6]:
from sqlalchemy import create_engine
from sqlalchemy import inspect

# https://www.kaggle.com/datasets/atanaskanev/sqlite-sakila-sample-database
engine = create_engine('sqlite:///data/sqlite-sakila.db')
# engine = create_engine('postgresql://scott:tiger@localhost:5432/mydatabase')

insp = inspect(engine)

# listando as tabelas disponíveis no banco de dados
insp.get_table_names()

['actor',
 'address',
 'category',
 'city',
 'country',
 'customer',
 'film',
 'film_actor',
 'film_category',
 'film_text',
 'inventory',
 'language',
 'payment',
 'rental',
 'staff',
 'store']

In [None]:
!pip install --upgrade pandas

In [None]:
!pip install sqlalchemy==1.4.46

#### Carregando a tabela de atores em um DataFrame pandas

In [7]:
sql_query = '''
select * from actor
'''
actor_df = pd.read_sql_query(sql_query, engine)
#actor_df.set_index('actor_id', inplace=True, )
actor_df.head()

Unnamed: 0,actor_id,first_name,last_name,last_update
0,1,PENELOPE,GUINESS,2021-03-06 15:51:59
1,2,NICK,WAHLBERG,2021-03-06 15:51:59
2,3,ED,CHASE,2021-03-06 15:51:59
3,4,JENNIFER,DAVIS,2021-03-06 15:51:59
4,5,JOHNNY,LOLLOBRIGIDA,2021-03-06 15:51:59


#### Exibindo o nome e o sobrenome de todos os atores.

In [9]:
# actor_df.loc[:, ['first_name', 'last_name']]
actor_df[['first_name', 'last_name']].head()

Unnamed: 0,first_name,last_name
0,PENELOPE,GUINESS
1,NICK,WAHLBERG
2,ED,CHASE
3,JENNIFER,DAVIS
4,JOHNNY,LOLLOBRIGIDA


#### Exibindo o nome e o sobrenome de cada ator em uma única coluna em letras maiúsculas. 

In [11]:
first_name = actor_df.first_name.map(lambda x: x.upper())
last_name = actor_df.last_name.map(lambda x: x.upper())
actor_df['Actor Name'] = first_name + ' ' + last_name
actor_df['Actor Name'].head()

0       PENELOPE GUINESS
1          NICK WAHLBERG
2               ED CHASE
3         JENNIFER DAVIS
4    JOHNNY LOLLOBRIGIDA
Name: Actor Name, dtype: object

#### Desafio: Mostre o id, nome e sobrenome de um ator, do qual você conhece apenas o primeiro nome, "Joe".

In [13]:
actor_df[['actor_id', 'first_name', 'last_name']][actor_df['first_name'] == 'JOE']

Unnamed: 0,actor_id,first_name,last_name
8,9,JOE,SWANK
