# Entradas de dados com Pandas

- Importação do Pandas

In [1]:
import pandas as pd

## Tipos de dados:

### CSV

In [8]:
df_csv = pd.read_csv('dados/aluguel.csv')
df_csv.sample(3)

Unnamed: 0,Tipo;Bairro;Quartos;Vagas;Suites;Area;Valor;Condominio;IPTU;Valor m2;Tipo Agregado
7564,Apartamento;Recreio dos Bandeirantes;2;2;2;92;...
7366,Apartamento;Penha;1;1;0;60;850.0;314.0;0.0;14....
654,Apartamento;Recreio dos Bandeirantes;3;0;3;186...


Perceba que não conseguimos realizar a vizualização correta, para resolver este problema basta que passamos o parametro ``sep = ';'``  

In [9]:
df_csv = pd.read_csv('dados/aluguel.csv',sep=';')
df_csv.sample(3)

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU,Valor m2,Tipo Agregado
19304,Quitinete,Leme,1,0,0,31,1200.0,450.0,553.0,38.71,Apartamento
10008,Apartamento,Barra da Tijuca,2,0,0,58,1300.0,624.0,106.0,22.41,Apartamento
8053,Apartamento,Camorim,3,1,1,75,1700.0,600.0,80.0,22.67,Apartamento


Obs: São poucos os dados csv que necessitam deste separador, geralmente não será necessário

---

###  JSON

> Geralmente dados provindos de APIs chegam no formato JSON

In [15]:
df_json = pd.read_json('dados/aluguel.json')
df_json.head(3)

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000,,
2,Conjunto Comercial/Sala,Barra da Tijuca,0,4,0,150,5200,4020.0,1111.0


**Obs**: Alguns dados vindo em jsons podem ficar formatados levemente diferente
veja o exemplo

In [30]:
df_json = pd.read_json('dados/realestates.json')
df_json

Unnamed: 0,normal,highlights
output,{'listings': [{'imovel': {'tipos': {'proprieda...,{'listings': [{'imovel': {'tipos': {'proprieda...


> Nestes casos podemos usar o ``pd.json_normalize()`` 

In [31]:
df_normal = pd.json_normalize(data=df_json['normal'])
df_normal

Unnamed: 0,listings
0,"[{'imovel': {'tipos': {'propriedade': 'Casa'},..."


In [40]:
df_json_listings = pd.json_normalize(data=df_normal['listings'].iloc[0],sep='_')
df_json_listings.head(3)

Unnamed: 0,imovel_tipos_propriedade,imovel_endereco_bairro,imovel_endereco_localizacao_type,imovel_endereco_localizacao_coordinates,imovel_vagasGaragem,imovel_area,imovel_caracteristicas_propriedade,imovel_caracteristicas_condominio,imovel_caracteristicas_entorno,anuncio_tipos_publicacao,anuncio_tipos_listagem,anuncio_valores_venda,anuncio_valores_aluguel,anuncio_valores_condominio,anuncio_valores_iptu,anuncio_descricao
0,Casa,Barra da Tijuca,Point,"[-43.3039086, -23.0139692]",4,279,"['Área de Serviço', 'Terraço', 'Churrasqueira'...","['Churrasqueira', 'Salão de Jogos', 'Sauna', '...","['Próximo a Escola Particular', 'Próximo ao Me...",Padrão,Lançamento,2400000.0,0.0,790.0,5700.0,"Amplo imóvel para venda com 3 quartos, sendo 1..."
1,Apartamento,Campo Grande,Point,"[0, 0]",1,60,['Sauna'],"['Elevador', 'Playground', 'Salão de Festas', ...","['Próximo ao Shopping', 'Próximo a Áreas de La...",Padrão,Usado,200000.0,0.0,0.0,0.0,"Amplo imóvel para venda com 2 quartos, sendo 0..."
2,Cobertura,Barra da Tijuca,Point,"[-43.3037186, -22.9951304]",2,380,"['Acessibilidade', 'Área de Serviço', 'Sauna',...","['Sauna', 'Playground', 'Quadra Poliesportiva'...",['Próximo a Escola Particular'],Premium,Usado,4400000.0,0.0,1200.0,850.0,"Amplo imóvel para venda com 5 quartos, sendo 4..."


> Dificilmente se encontra esses casos, é interesssante utilizar um json viewer para entender melhor a estrutura do json e saber como lidar com ele ate chegar no DataFrame

---

### TXT

In [42]:
df_txt = pd.read_table('dados/aluguel.txt')
df_txt.head(3)

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000,,
2,Conjunto Comercial/Sala,Barra da Tijuca,0,4,0,150,5200,4020.0,1111.0


---

#### EXCEL

In [43]:
df_excel = pd.read_excel('dados/aluguel.xlsx')
df_excel.head(3)

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000,,
2,Conjunto Comercial/Sala,Barra da Tijuca,0,4,0,150,5200,4020.0,1111.0


- Quando trazemos dados do excel conseguimos realizar algumas formatações 
> Podemos trazer especificos dados de especificas planilhas

In [48]:
df_excel = pd.read_excel(
    io = 'dados/bairros.xlsx',           #Input (Arquivo)
    sheet_name = 'Preço médio por tipo', # Qual a planilha
    usecols = 'C:E',                     # Colunas que os dados estão
    header = 2,                          # Linha que começa o cabeçalho
    index_col = [0,1],                   # Cria a coluna do bairro ou seja, qual vai ser o index
    names = ['bairros','tipo','valor_m2_bairro'] #nome das colunas
)
df_excel.head(3)

Unnamed: 0_level_0,Unnamed: 1_level_0,valor_m2_bairro
bairros,tipo,Unnamed: 2_level_1
São Cristóvão,Casa,13793
São Cristóvão,Apartamento,6306
São Cristóvão,Cobertura,11695


---

### HTML

Podemos trazer tantos dos arquivos html quanto de páginas WEB

In [50]:
df_html = pd.read_html('dados/dados_html_1.html')

In [51]:
df_html

[  FAIXA ETÁRIA UNAFISCO SAÚDE SOFT II SOFT PARTICIPATIVO      UNIQUE
 0      00 A 18               R$218,99           R$192,60    R$334,48
 1      19 A 23               R$263,63           R$207,67    R$380,06
 2      24 A 28               R$322,44           R$224,26    R$464,39
 3      29 A 33               R$402,05           R$258,63    R$566,68
 4      34 A 38               R$455,17           R$306,37    R$664,61
 5      39 A 43               R$489,29           R$417,93    R$742,72
 6      44 A 48               R$582,65           R$495,24    R$869,47
 7      49 A 53               R$718,86           R$562,64  R$1.046,29
 8      54 A 58               R$908,54           R$721,00  R$1.355,74
 9   59 OU MAIS             R$1.244,50         R$1.151,62  R$2.003,53]

Por padrão o ``read_html()`` traz os dataframes dentro de um array, então ele trará todos os <tables> que tem no html em formato de dataframe dentro de uma lista

In [52]:
df_html[0]

Unnamed: 0,FAIXA ETÁRIA,UNAFISCO SAÚDE SOFT II,SOFT PARTICIPATIVO,UNIQUE
0,00 A 18,"R$218,99","R$192,60","R$334,48"
1,19 A 23,"R$263,63","R$207,67","R$380,06"
2,24 A 28,"R$322,44","R$224,26","R$464,39"
3,29 A 33,"R$402,05","R$258,63","R$566,68"
4,34 A 38,"R$455,17","R$306,37","R$664,61"
5,39 A 43,"R$489,29","R$417,93","R$742,72"
6,44 A 48,"R$582,65","R$495,24","R$869,47"
7,49 A 53,"R$718,86","R$562,64","R$1.046,29"
8,54 A 58,"R$908,54","R$721,00","R$1.355,74"
9,59 OU MAIS,"R$1.244,50","R$1.151,62","R$2.003,53"


In [54]:
df_html_link = pd.read_html('https://unafiscosaude.org.br/site/relatorios-e-demonstrativos-financeiros/')

In [59]:
df_html_link[0].head(3)

Unnamed: 0,Região,Conselheiro / Suplente,DS
0,"1ª Região DF,GO,MT,MS e TO",Titular: : Adelson Alves de Sousa,BRASILIA - DF
1,"1ª Região DF,GO,MT,MS e TO",Suplente: Maria Aparecida de Sousa Gomes da Silva,BRASILIA - DF
2,"2ª Região AC,AP, AM, PA,RO, PR",Titular: Eduardo Toledo da Silva,AMAZONAS - AM



---

### SQL

Podemos tranformar uma consulta SQL do banco em um Data Frame, mas para isso precisamos realizar a conexao com um banco

In [66]:
from sqlalchemy import create_engine

# engine = create_engine('postgresql://{user}:{password}@{host}:{port}/{db}'.format(
#                         user='SEU USUARIO',
#                         password='SUA SENHA',
#                         host='HOST DO BANCO',
#                         port='PORTA',
#                         db='nome_do_banco',)

engine = create_engine('sqlite:///:memory:')

A partir do momento que a conexão este feita basta realizar o select

In [65]:
# df_sql = pd.read_sql('SELECT * FROM table', engine)

# engine.dispose()