<a href="https://colab.research.google.com/github/Mansoldo/leitura_diferentes_fontes/blob/main/projeto_leitura_arquivos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 1. Analisar os dados de compras

### 1.1 Premissas do projeto

Um supermercado que está planejando uma liquidação de fim de ano, e querem oferecer uma assinatura que conceder 20% de desconto em todas as compras.

O time de marketing entende que a melhor maneira de diminuir os custos com a campanha seja analisar os dados de compras dos clientes e entender quais teriam mais chances de aderir à assinatura.

**Objetivos:**

*   Entender quais clientes teriam mais chance de aderir à assinatura
*   Oferecer diretamente para essas pessoas



# 2. Importação da biblioteca e extração da fonte de dados

### 2.1 Importação e leitura

In [1]:
# Importando a biblioteca
import pandas as pd

In [2]:
# Definindo a fonte de dados
url = 'https://raw.githubusercontent.com/alura-cursos/Pandas/main/superstore_data.csv'

In [3]:
# Lendo a base de dados com separador de vírgula
dados_mercado = pd.read_csv(url)

In [4]:
# Checando a base
dados_mercado.head()

Unnamed: 0,Id,Year_Birth,Education,Marital_Status,Income,Kidhome,Teenhome,Dt_Customer,Recency,MntWines,...,MntFishProducts,MntSweetProducts,MntGoldProds,NumDealsPurchases,NumWebPurchases,NumCatalogPurchases,NumStorePurchases,NumWebVisitsMonth,Response,Complain
0,1826,1970,Graduation,Divorced,84835.0,0,0,6/16/2014,0,189,...,111,189,218,1,4,4,6,1,1,0
1,1,1961,Graduation,Single,57091.0,0,0,6/15/2014,0,464,...,7,0,37,1,7,3,7,5,1,0
2,10476,1958,Graduation,Married,67267.0,0,1,5/13/2014,0,134,...,15,2,30,1,3,2,5,2,0,0
3,1386,1967,Graduation,Together,32474.0,1,1,11/5/2014,0,10,...,0,0,0,1,1,0,2,7,0,0
4,5371,1989,Graduation,Single,21474.0,1,0,8/4/2014,0,6,...,11,0,34,2,3,1,2,7,1,0


In [5]:
# Lendo a base de dados com separador ;
url_2 = 'https://raw.githubusercontent.com/alura-cursos/Pandas/main/superstore_data_ponto_virgula.csv'

In [6]:
# Lendo a nova base
dados_ponto_virgula = pd.read_csv(url_2)

In [7]:
# Conferindo a base
dados_ponto_virgula

Unnamed: 0,Id;Year_Birth;Education;Marital_Status;Income;Kidhome;Teenhome;Dt_Customer;Recency;MntWines;MntFruits;MntMeatProducts;MntFishProducts;MntSweetProducts;MntGoldProds;NumDealsPurchases;NumWebPurchases;NumCatalogPurchases;NumStorePurchases;NumWebVisitsMonth;Response;Complain
0,1826;1970;Graduation;Divorced;84835;0;0;6/16/2...
1,1;1961;Graduation;Single;57091;0;0;6/15/2014;0...
2,10476;1958;Graduation;Married;67267;0;1;5/13/2...
3,1386;1967;Graduation;Together;32474;1;1;11/5/2...
4,5371;1989;Graduation;Single;21474;1;0;8/4/2014...
...,...
2235,10142;1976;PhD;Divorced;66476;0;1;7/3/2013;99;...
2236,5263;1977;2n Cycle;Married;31056;1;0;1/22/2013...
2237,22;1976;Graduation;Divorced;46310;1;0;3/12/201...
2238,528;1978;Graduation;Married;65819;0;0;11/29/20...


In [8]:
# Definindo o separador para leitura do arquivo
dados_ponto_virgula = pd.read_csv(url_2, sep = ';')

In [9]:
# Checando novamente a base
dados_ponto_virgula.head()

Unnamed: 0,Id,Year_Birth,Education,Marital_Status,Income,Kidhome,Teenhome,Dt_Customer,Recency,MntWines,...,MntFishProducts,MntSweetProducts,MntGoldProds,NumDealsPurchases,NumWebPurchases,NumCatalogPurchases,NumStorePurchases,NumWebVisitsMonth,Response,Complain
0,1826,1970,Graduation,Divorced,84835.0,0,0,6/16/2014,0,189,...,111,189,218,1,4,4,6,1,1,0
1,1,1961,Graduation,Single,57091.0,0,0,6/15/2014,0,464,...,7,0,37,1,7,3,7,5,1,0
2,10476,1958,Graduation,Married,67267.0,0,1,5/13/2014,0,134,...,15,2,30,1,3,2,5,2,0,0
3,1386,1967,Graduation,Together,32474.0,1,1,11/5/2014,0,10,...,0,0,0,1,1,0,2,7,0,0
4,5371,1989,Graduation,Single,21474.0,1,0,8/4/2014,0,6,...,11,0,34,2,3,1,2,7,1,0


### 2.1 Checando o tipo de arquivo

In [10]:
# Importando biblioteca que detecta o encoding do arquivo
#import chardet

# Abrindo o arquivo em modo binário
#with open('/content/base_dados_clientes.csv', 'rb') as file:
  #print(chardet.detect(file.read()))

In [11]:
# Atribuindo a um dataframe
#df_tipo = pd.read_csv('/content/base_dados_clientes.csv', sep = ';', encoding = 'UTF-8-SIG')

# Lendo o dataframe
#df_tipo.head()

# 3. Parâmetros da função read_csv

### 3.1 Alguns parâmetros da função

In [12]:
# Trazendo somente as 5 primeiras linhas
dados_primeiras_linhas = pd.read_csv(url, nrows = 5)

In [13]:
# Verificando o dataframe
dados_primeiras_linhas

Unnamed: 0,Id,Year_Birth,Education,Marital_Status,Income,Kidhome,Teenhome,Dt_Customer,Recency,MntWines,...,MntFishProducts,MntSweetProducts,MntGoldProds,NumDealsPurchases,NumWebPurchases,NumCatalogPurchases,NumStorePurchases,NumWebVisitsMonth,Response,Complain
0,1826,1970,Graduation,Divorced,84835,0,0,6/16/2014,0,189,...,111,189,218,1,4,4,6,1,1,0
1,1,1961,Graduation,Single,57091,0,0,6/15/2014,0,464,...,7,0,37,1,7,3,7,5,1,0
2,10476,1958,Graduation,Married,67267,0,1,5/13/2014,0,134,...,15,2,30,1,3,2,5,2,0,0
3,1386,1967,Graduation,Together,32474,1,1,11/5/2014,0,10,...,0,0,0,1,1,0,2,7,0,0
4,5371,1989,Graduation,Single,21474,1,0,8/4/2014,0,6,...,11,0,34,2,3,1,2,7,1,0


In [14]:
# Trazendo somente algumas colunas
dados_selecao = pd.read_csv(url, usecols = ['Id', 'Year_Birth', 'Income'])

In [15]:
# Conferindo o dataframe que contém apenas as colunas especificadas
dados_selecao

Unnamed: 0,Id,Year_Birth,Income
0,1826,1970,84835.0
1,1,1961,57091.0
2,10476,1958,67267.0
3,1386,1967,32474.0
4,5371,1989,21474.0
...,...,...,...
2235,10142,1976,66476.0
2236,5263,1977,31056.0
2237,22,1976,46310.0
2238,528,1978,65819.0


In [16]:
# Trazendo as colunas através dos índices
dados_selecao_ind = pd.read_csv(url, usecols = [0,1,4])

#  Conferindo
dados_selecao_ind.head(5)

Unnamed: 0,Id,Year_Birth,Income
0,1826,1970,84835.0
1,1,1961,57091.0
2,10476,1958,67267.0
3,1386,1967,32474.0
4,5371,1989,21474.0


### 3.2 Salvando um dataframe em CSV

In [17]:
# Salvando ao dataframe de seleção em um csv
dados_selecao.to_csv('clientes_mercado.csv')

In [18]:
# Lendo o arquivo csv
clientes_mercado = pd.read_csv('/content/clientes_mercado.csv')

# Verificando o dataframe
clientes_mercado

Unnamed: 0.1,Unnamed: 0,Id,Year_Birth,Income
0,0,1826,1970,84835.0
1,1,1,1961,57091.0
2,2,10476,1958,67267.0
3,3,1386,1967,32474.0
4,4,5371,1989,21474.0
...,...,...,...,...
2235,2235,10142,1976,66476.0
2236,2236,5263,1977,31056.0
2237,2237,22,1976,46310.0
2238,2238,528,1978,65819.0


In [19]:
# Salvando novamente o arquivo, mas sem o índice
dados_selecao.to_csv('clientes_mercado_atualizado.csv', index = False)

# Lendo o arquivo
clientes_mercado = pd.read_csv('/content/clientes_mercado_atualizado.csv')

# Verificando o dataframe
clientes_mercado

Unnamed: 0,Id,Year_Birth,Income
0,1826,1970,84835.0
1,1,1961,57091.0
2,10476,1958,67267.0
3,1386,1967,32474.0
4,5371,1989,21474.0
...,...,...,...
2235,10142,1976,66476.0
2236,5263,1977,31056.0
2237,22,1976,46310.0
2238,528,1978,65819.0


# 4. Análise de gastos hospitalares públicos

### 4.1 Realizar a leitura do arquivo

* Verificar se o arquivo está separado por vírgula ou ponto e vírgula
* Codificação do arquivo
* Desconsiderar as 3 primeiras linhas
* Desconsiderar as últimas 9 linhas
* Para deletar as últimas linhas, adicionar o parâmetro "engine"




### 4.2 Leitura do arquivo

In [20]:
# Lendo a base de dados
url = 'https://raw.githubusercontent.com/alura-cursos/Pandas/main/dados_sus.csv'

In [21]:
# Obtendo os dados /
# skiprows - Elimina as primeiras linhas /
# skipfooter - Elimina as últimas /
# Engine - motor usado para leitura, obrigatório com o parâmetro skipfooter
dados = pd.read_csv(url, encoding = 'ISO-8859-1', sep = ';', skiprows = 3, skipfooter = 9, engine = 'python')

# Conferindo o arquivo
dados.head(3)

Unnamed: 0,Unidade da Federação,2008/Jan,2008/Fev,2008/Mar,2008/Abr,2008/Mai,2008/Jun,2008/Jul,2008/Ago,2008/Set,...,2020/Jul,2020/Ago,2020/Set,2020/Out,2020/Nov,2020/Dez,2021/Jan,2021/Fev,2021/Mar,Total
0,Rondônia,138852839,293128342,154168252,152531496,164595384,140615068,306527901,323149461,311717863,...,1182468713,1173330776,1020198514,795513945,935794629,888083655,926601459,773059704,1102330947,99641125468
1,Acre,90241600,149720626,179402848,173046942,181944392,182849600,251175459,208910714,227570853,...,391519320,364014282,339124221,404432144,327659010,369699731,371572312,353842792,407704592,45004853047
2,Amazonas,473552942,711899057,819663549,825937842,783139990,847727362,936885872,935253270,936309935,...,1976946014,1805993143,1784101563,1640831510,1989561791,1776516769,2143028917,2591713455,2203217622,191724793605


 # 5. Leitura de arquivos em Excel

### 5.1 Excel: Utilizando planilhas

In [22]:
# Coletando a base de dados bruta
url_excel = 'https://github.com/alura-cursos/Pandas/blob/main/emissoes_CO2.xlsx?raw=True'

In [23]:
# Lendo o arquivo da base de dados
dados_co2 = pd.read_excel(url_excel)

In [24]:
# Lendo o dataframe
dados_co2.head()

Unnamed: 0,País,ISO 3166-1 alpha-3,Ano,Total,Carvão,Oléo,Gás,Cimento,Queima,Outro,Per Capita
0,Afeganistão,AFG,1750,0.0,,,,,,,
1,Afeganistão,AFG,1751,0.0,,,,,,,
2,Afeganistão,AFG,1752,0.0,,,,,,,
3,Afeganistão,AFG,1753,0.0,,,,,,,
4,Afeganistão,AFG,1754,0.0,,,,,,,


In [25]:
# Conferindo as abas da base de dados
pd.ExcelFile(url_excel).sheet_names

['emissoes_C02', 'emissoes_percapita', 'fontes']

### 5.2 Parâmetros da função read_excel

In [26]:
# Coletando os dados da segunda aba
percapita = pd.read_excel(url_excel, sheet_name = 'emissoes_percapita')

In [27]:
# Exibindo
percapita.head()

Unnamed: 0,País,ISO 3166-1 alpha-3,Ano,Total,Carvão,Óleo,Gás,Cimento,Queima,Outro
0,Afeganistão,AFG,1750,,,,,,,
1,Afeganistão,AFG,1751,,,,,,,
2,Afeganistão,AFG,1752,,,,,,,
3,Afeganistão,AFG,1753,,,,,,,
4,Afeganistão,AFG,1754,,,,,,,


In [28]:
# Coletando os dados da terceira aba
fontes = pd.read_excel(url_excel, sheet_name = 'fontes')

# Exibindo a terceira aba
fontes.head()

Unnamed: 0,País,ISO 3166-1 alpha-3,Ano,Total,Carvão,Oléo,Gás,Cimento,Queima,Outro,Per Capita
0,Afeganistão,AFG,1750,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
1,Afeganistão,AFG,1751,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
2,Afeganistão,AFG,1752,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
3,Afeganistão,AFG,1753,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
4,Afeganistão,AFG,1754,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]


In [29]:
# Lendo um determinado intervalo
intervalo = pd.read_excel(url_excel, sheet_name = 'emissoes_C02', usecols = 'A:D')

# Exibindo
intervalo

Unnamed: 0,País,ISO 3166-1 alpha-3,Ano,Total
0,Afeganistão,AFG,1750,0.000000e+00
1,Afeganistão,AFG,1751,0.000000e+00
2,Afeganistão,AFG,1752,0.000000e+00
3,Afeganistão,AFG,1753,0.000000e+00
4,Afeganistão,AFG,1754,0.000000e+00
...,...,...,...,...
63099,Global,WLD,2017,3.609674e+10
63100,Global,WLD,2018,3.682651e+10
63101,Global,WLD,2019,3.708256e+10
63102,Global,WLD,2020,3.526409e+10


In [30]:
# Lendo um determinado intervalo e as 10 primeiras linhas
intervalo_2 = pd.read_excel(url_excel, sheet_name = 'emissoes_C02', usecols = 'A:D', nrows = 10)

# Exibindo
intervalo_2

Unnamed: 0,País,ISO 3166-1 alpha-3,Ano,Total
0,Afeganistão,AFG,1750,0
1,Afeganistão,AFG,1751,0
2,Afeganistão,AFG,1752,0
3,Afeganistão,AFG,1753,0
4,Afeganistão,AFG,1754,0
5,Afeganistão,AFG,1755,0
6,Afeganistão,AFG,1756,0
7,Afeganistão,AFG,1757,0
8,Afeganistão,AFG,1758,0
9,Afeganistão,AFG,1759,0


### 5.3 Salvando arquivo com extensão Excel

In [31]:
# Salvando para formato Excel
percapita.to_excel('co2_percapita.xlsx', index = False)

In [32]:
# Exibindo o nosso arquivo salvo em Excel
pd.read_excel('/content/co2_percapita.xlsx')

Unnamed: 0,País,ISO 3166-1 alpha-3,Ano,Total,Carvão,Óleo,Gás,Cimento,Queima,Outro
0,Afeganistão,AFG,1750,,,,,,,
1,Afeganistão,AFG,1751,,,,,,,
2,Afeganistão,AFG,1752,,,,,,,
3,Afeganistão,AFG,1753,,,,,,,
4,Afeganistão,AFG,1754,,,,,,,
...,...,...,...,...,...,...,...,...,...,...
63099,Global,WLD,2017,4749682.0,1908857.0,1610910.0,940144.0,198416.0,51579.0,39776.0
63100,Global,WLD,2018,4792753.0,1919213.0,1596350.0,979965.0,204225.0,53634.0,39366.0
63101,Global,WLD,2019,4775633.0,1896468.0,1589920.0,984878.0,208309.0,56569.0,39490.0
63102,Global,WLD,2020,4497423.0,1807760.0,1427353.0,963695.0,208844.0,51981.0,37789.0


# 6. Lendo direto do Google Planilhas

In [33]:
# ID do sheet
sheet_id = '1lzq0k-41-MbbS63C3Q9i1wPvLkSJt9zhr4Jolt1vEog'

# url da planilha
url = f'https://docs.google.com/spreadsheets/d/{sheet_id}/gviz/tq?tqx=out:csv&sheet'

In [34]:
# Dados da base da dados
dados_co2_sheets = pd.read_csv(url)

# Visualizando
dados_co2_sheets.head(5)


Unnamed: 0,País,ISO 3166-1 alpha-3,Ano,Total,Carvão,Oléo,Gás,Cimento,Queima,Outro,Per Capita
0,Afeganistão,AFG,1750,0,,,,,,,
1,Afeganistão,AFG,1751,0,,,,,,,
2,Afeganistão,AFG,1752,0,,,,,,,
3,Afeganistão,AFG,1753,0,,,,,,,
4,Afeganistão,AFG,1754,0,,,,,,,


In [35]:
# Acessando a segunda aba da planilha
sheet_id = '1lzq0k-41-MbbS63C3Q9i1wPvLkSJt9zhr4Jolt1vEog'
sheet_name = 'emissoes_percapita'
url_percapita = f'https://docs.google.com/spreadsheets/d/{sheet_id}/gviz/tq?tqx=out:csv&sheet={sheet_name}'

In [36]:
# Atribuindo e visualizando
percapita_sheet  = pd.read_csv(url_percapita)

percapita_sheet.head(5)

Unnamed: 0,País,ISO 3166-1 alpha-3,Ano,Total,Carvão,Óleo,Gás,Cimento,Queima,Outro
0,Afeganistão,AFG,1750,,,,,,,
1,Afeganistão,AFG,1751,,,,,,,
2,Afeganistão,AFG,1752,,,,,,,
3,Afeganistão,AFG,1753,,,,,,,
4,Afeganistão,AFG,1754,,,,,,,


In [37]:
# Acessando a terceira aba da planilha
sheet_id = '1lzq0k-41-MbbS63C3Q9i1wPvLkSJt9zhr4Jolt1vEog'
sheet_name = 'fontes'
url_fontes = f'https://docs.google.com/spreadsheets/d/{sheet_id}/gviz/tq?tqx=out:csv&sheet={sheet_name}'

In [38]:
# Atribuindo e visualizando
fontes_sheet  = pd.read_csv(url_fontes)

fontes_sheet.head(5)

Unnamed: 0,País,ISO 3166-1 alpha-3,Ano,Total,Carvão,Oléo,Gás,Cimento,Queima,Outro,Per Capita
0,Afeganistão,AFG,1750,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
1,Afeganistão,AFG,1751,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
2,Afeganistão,AFG,1752,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
3,Afeganistão,AFG,1753,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
4,Afeganistão,AFG,1754,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]


# 7. Base de dados de emissões de CO2

### 7.1 Obtendo os dados

In [39]:
# Pegando o id da planilha
sheet_id = '1pvBoLyX8kP0TjtUbadVMGdTl4yzm6bHMThhPiqCVtpw'

# Definindo a url
url = f'https://docs.google.com/spreadsheets/d/{sheet_id}/gviz/tq?tqx=out:csv&sheet'

# Fazendo a leitura
dados_co2_desafio = pd.read_csv(url)

# Salvando
dados_co2_desafio.to_csv('dados_emissoes_co2_desafio.csv', index = False)

# 8. Leitura de arquivos JSON

### 8.1 Dados de pacientes

In [40]:
# importando pandas novamente
import pandas as pd

In [41]:
# Realizando a leitura do arquivo json
dados_pacientes = pd.read_json('/content/pacientes.json')

# Visualizando o dataframe
dados_pacientes

Unnamed: 0,ID_paciente,Doenca_cardiaca,IMC,Fumante,Consumo_alcool,AVC,Saude_fisica,Saude_mental,Dificuldade_caminhar,Sexo_biologico,Faixa_etaria,Raca,Diabetes,Atividade_fisica,Saude_geral,Horas_sono,Asma,Doenca_renal,Cancer_pele
0,0,Nao,16.60,Sim,Nao,Nao,3,30,Nao,Feminino,55-59,Branca,Sim,Sim,Muito boa,5,Sim,Nao,Sim
1,1,Nao,20.34,Nao,Nao,Sim,0,0,Nao,Feminino,80 ou +,Branca,Nao,Sim,Muito boa,7,Nao,Nao,Nao
2,2,Nao,26.58,Sim,Nao,Nao,20,30,Nao,Masculino,65-69,Branca,Sim,Sim,Razoavel,8,Sim,Nao,Nao
3,3,Nao,24.21,Nao,Nao,Nao,0,0,Nao,Feminino,75-79,Branca,Nao,No,Boa,6,Nao,Nao,Sim
4,4,Nao,23.71,Nao,Nao,Nao,28,0,Sim,Feminino,40-44,Branca,Nao,Sim,Muito boa,8,Nao,Nao,Nao
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,995,Nao,28.29,Sim,Nao,Nao,10,20,Nao,Feminino,65-69,Preta,Sim,Sim,Razoavel,8,Nao,Nao,Nao
996,996,Nao,25.69,Sim,Nao,Nao,0,0,Nao,Feminino,75-79,Branca,Nao,Sim,Excelente,8,Nao,Nao,Nao
997,997,Sim,26.99,Nao,Nao,Nao,1,0,Nao,Masculino,70-74,Branca,Nao,Sim,Muito boa,8,Nao,Nao,Nao
998,998,Nao,44.29,Nao,Nao,Nao,30,0,Sim,Feminino,70-74,Branca,Sim,No,Boa,6,Sim,Nao,Nao


In [42]:
# Realizando a leitura do segundo arquivo json
dados_pacientes_2 = pd.read_json('/content/pacientes_2.json')

# Visualizando o dataframe
dados_pacientes_2

Unnamed: 0,Pesquisa,Ano,Pacientes
0,Principais Indicadores de Doenca Cardiaca,2020,"{'ID': '01', 'Faixa_etaria': '55-59', 'Sexo_bi..."
1,Principais Indicadores de Doenca Cardiaca,2020,"{'ID': '02', 'Faixa_etaria': '80 ou +', 'Sexo_..."
2,Principais Indicadores de Doenca Cardiaca,2020,"{'ID': '03', 'Faixa_etaria': '65-69', 'Sexo_bi..."


### 8.2 Estrutura JSON

In [43]:
# Normalizando o dataframe (só é válido para dicionários ou lista de dicionários)
df_normalizado = pd.json_normalize(dados_pacientes_2['Pacientes'])

# Visualizando o dataframe normalizado
df_normalizado

Unnamed: 0,ID,Faixa_etaria,Sexo_biologico,Raça,IMC,Fumante,Consumo_alcool,Saude_fisica,Saude_mental,Dificuldade_caminhar,Atividade_fisica,Saude_geral,Horas_sono,Problemas_saude
0,1,55-59,Feminino,Branca,16.6,Sim,Nao,3,30,Nao,Sim,Muito boa,5,"[Diabetes, Asma, Cancer_pele]"
1,2,80 ou +,Feminino,Branca,20.34,Nao,Nao,0,0,Nao,Sim,Muito boa,7,[AVC]
2,3,65-69,Masculino,Branca,26.58,Sim,Nao,20,30,Nao,Sim,Muito boa,8,"[diabetes, Asma]"


In [44]:
# Copiando o conteúdo
dados_dict = {
  "Pesquisa": "Principais Indicadores de Doenca Cardiaca",
  "Ano": 2020,
  "Pacientes": [
    {
      "ID": "01",
      "Faixa_etaria": "55-59",
      "Sexo_biologico": "Feminino",
      "Raça": "Branca",
      "IMC": 16.6,
      "Fumante": "Sim",
      "Consumo_alcool": "Nao",
      "Saude_fisica": 3,
      "Saude_mental": 30,
      "Dificuldade_caminhar": "Nao",
      "Atividade_fisica": "Sim",
      "Saude_geral": "Muito boa",
      "Horas_sono": 5,
      "Problemas_saude": [
        "Diabetes",
        "Asma",
        "Cancer_pele"
      ]
    },
    {
      "ID": "02",
      "Faixa_etaria": "80 ou +",
      "Sexo_biologico": "Feminino",
      "Raça": "Branca",
      "IMC": 20.34,
      "Fumante": "Nao",
      "Consumo_alcool": "Nao",
      "Saude_fisica": 0,
      "Saude_mental": 0,
      "Dificuldade_caminhar": "Nao",
      "Atividade_fisica": "Sim",
      "Saude_geral": "Muito boa",
      "Horas_sono": 7,
      "Problemas_saude": [
        "AVC"
      ]
    },
    {
      "ID": "03",
      "Faixa_etaria": "65-69",
      "Sexo_biologico": "Masculino",
      "Raça": "Branca",
      "IMC": 26.58,
      "Fumante": "Sim",
      "Consumo_alcool": "Nao",
      "Saude_fisica": 20,
      "Saude_mental": 30,
      "Dificuldade_caminhar": "Nao",
      "Atividade_fisica": "Sim",
      "Saude_geral": "Muito boa",
      "Horas_sono": 8,
      "Problemas_saude": [
        "diabetes",
        "Asma"
      ]
    }
  ]
}

# Adicionando as colunas de Pesquisa e Ano
df_normalizado_2 = pd.json_normalize(dados_dict, record_path = ['Pacientes'], meta = ['Pesquisa', 'Ano'])

# Visualizando
df_normalizado_2



Unnamed: 0,ID,Faixa_etaria,Sexo_biologico,Raça,IMC,Fumante,Consumo_alcool,Saude_fisica,Saude_mental,Dificuldade_caminhar,Atividade_fisica,Saude_geral,Horas_sono,Problemas_saude,Pesquisa,Ano
0,1,55-59,Feminino,Branca,16.6,Sim,Nao,3,30,Nao,Sim,Muito boa,5,"[Diabetes, Asma, Cancer_pele]",Principais Indicadores de Doenca Cardiaca,2020
1,2,80 ou +,Feminino,Branca,20.34,Nao,Nao,0,0,Nao,Sim,Muito boa,7,[AVC],Principais Indicadores de Doenca Cardiaca,2020
2,3,65-69,Masculino,Branca,26.58,Sim,Nao,20,30,Nao,Sim,Muito boa,8,"[diabetes, Asma]",Principais Indicadores de Doenca Cardiaca,2020


In [45]:
# Tipo do variável
type(dados_dict)

dict

In [46]:
# Tratando com módulo JSON
import json

# Lendo o arquivo
with open('/content/pacientes_2.json', 'r') as f:
  dados = json.loads(f.read())

# Normalizando os dados com os parâmetros de recorte
# Record_path especifica o que deve ser normalizado
# Meta indica quais colunas queremos a mais no dataframe
pd.json_normalize(dados, record_path = 'Pacientes', meta = ['Pesquisa', 'Ano'])

Unnamed: 0,ID,Faixa_etaria,Sexo_biologico,Raça,IMC,Fumante,Consumo_alcool,Saude_fisica,Saude_mental,Dificuldade_caminhar,Atividade_fisica,Saude_geral,Horas_sono,Problemas_saude,Pesquisa,Ano
0,1,55-59,Feminino,Branca,16.6,Sim,Nao,3,30,Nao,Sim,Muito boa,5,"[Diabetes, Asma, Cancer_pele]",Principais Indicadores de Doenca Cardiaca,2020
1,2,80 ou +,Feminino,Branca,20.34,Nao,Nao,0,0,Nao,Sim,Muito boa,7,[AVC],Principais Indicadores de Doenca Cardiaca,2020
2,3,65-69,Masculino,Branca,26.58,Sim,Nao,20,30,Nao,Sim,Muito boa,8,"[diabetes, Asma]",Principais Indicadores de Doenca Cardiaca,2020


### 8.3 Escrevendo em json

In [47]:
# Escrevendo
df_normalizado_2.to_json('historico_pacientes_normalizado.json')

In [48]:
# Visualizando o arquivo salvo
pd.read_json('/content/historico_pacientes_normalizado.json')

Unnamed: 0,ID,Faixa_etaria,Sexo_biologico,Raça,IMC,Fumante,Consumo_alcool,Saude_fisica,Saude_mental,Dificuldade_caminhar,Atividade_fisica,Saude_geral,Horas_sono,Problemas_saude,Pesquisa,Ano
0,1,55-59,Feminino,Branca,16.6,Sim,Nao,3,30,Nao,Sim,Muito boa,5,"[Diabetes, Asma, Cancer_pele]",Principais Indicadores de Doenca Cardiaca,2020
1,2,80 ou +,Feminino,Branca,20.34,Nao,Nao,0,0,Nao,Sim,Muito boa,7,[AVC],Principais Indicadores de Doenca Cardiaca,2020
2,3,65-69,Masculino,Branca,26.58,Sim,Nao,20,30,Nao,Sim,Muito boa,8,"[diabetes, Asma]",Principais Indicadores de Doenca Cardiaca,2020


### 8.4 Lendo arquivo através de API

In [49]:
# Importando biblioteca Json e Requests
import requests
import json

# Requisitando dados da API
dados_frutas = requests.get('https://fruityvice.com/api/fruit/all')

# Coletando as informações do arquivo com atributo text
resultado = json.loads(dados_frutas.text)

# Visualizando
pd.DataFrame(resultado)

Unnamed: 0,name,id,family,order,genus,nutritions
0,Persimmon,52,Ebenaceae,Rosales,Diospyros,"{'calories': 81, 'fat': 0.0, 'sugar': 18.0, 'c..."
1,Strawberry,3,Rosaceae,Rosales,Fragaria,"{'calories': 29, 'fat': 0.4, 'sugar': 5.4, 'ca..."
2,Banana,1,Musaceae,Zingiberales,Musa,"{'calories': 96, 'fat': 0.2, 'sugar': 17.2, 'c..."
3,Tomato,5,Solanaceae,Solanales,Solanum,"{'calories': 74, 'fat': 0.2, 'sugar': 2.6, 'ca..."
4,Pear,4,Rosaceae,Rosales,Pyrus,"{'calories': 57, 'fat': 0.1, 'sugar': 10.0, 'c..."
5,Durian,60,Malvaceae,Malvales,Durio,"{'calories': 147, 'fat': 5.3, 'sugar': 6.75, '..."
6,Blackberry,64,Rosaceae,Rosales,Rubus,"{'calories': 40, 'fat': 0.4, 'sugar': 4.5, 'ca..."
7,Lingonberry,65,Ericaceae,Ericales,Vaccinium,"{'calories': 50, 'fat': 0.34, 'sugar': 5.74, '..."
8,Kiwi,66,Actinidiaceae,Struthioniformes,Apteryx,"{'calories': 61, 'fat': 0.5, 'sugar': 9.0, 'ca..."
9,Lychee,67,Sapindaceae,Sapindales,Litchi,"{'calories': 66, 'fat': 0.44, 'sugar': 15.0, '..."


In [50]:
# Normalizando
dados_frutas_normalizados = pd.json_normalize(resultado)

# Verificando
dados_frutas_normalizados

Unnamed: 0,name,id,family,order,genus,nutritions.calories,nutritions.fat,nutritions.sugar,nutritions.carbohydrates,nutritions.protein
0,Persimmon,52,Ebenaceae,Rosales,Diospyros,81,0.0,18.0,18.0,0.0
1,Strawberry,3,Rosaceae,Rosales,Fragaria,29,0.4,5.4,5.5,0.8
2,Banana,1,Musaceae,Zingiberales,Musa,96,0.2,17.2,22.0,1.0
3,Tomato,5,Solanaceae,Solanales,Solanum,74,0.2,2.6,3.9,0.9
4,Pear,4,Rosaceae,Rosales,Pyrus,57,0.1,10.0,15.0,0.4
5,Durian,60,Malvaceae,Malvales,Durio,147,5.3,6.75,27.1,1.5
6,Blackberry,64,Rosaceae,Rosales,Rubus,40,0.4,4.5,9.0,1.3
7,Lingonberry,65,Ericaceae,Ericales,Vaccinium,50,0.34,5.74,11.3,0.75
8,Kiwi,66,Actinidiaceae,Struthioniformes,Apteryx,61,0.5,9.0,15.0,1.1
9,Lychee,67,Sapindaceae,Sapindales,Litchi,66,0.44,15.0,17.0,0.8


In [51]:
type(resultado)

list

# 9. HTML e XML

### 9.1 Lendo arquivos WEB

Projeto: Sistema de recomendação de filmes

- Coleta de dados: artigo que possui os 100 melhores filmes do cinema

In [52]:
# Importando novamente a biblioteca Pandas
import pandas as pd

# Variável com os dados da página
dados_html = pd.read_html('/content/historico_filmes.html')

# Visualizando todos os elementos contidos
dados_html

[                                                    0  \
 0                                                1998   
 1                                                1999   
 2                                                2000   
 3                                                2001   
 4                                                2002   
 5                                                2003   
 6                                                2004   
 7                                                2005   
 8                                                2005   
 9                                                2006   
 10                                               2006   
 11                                               2007   
 12                                               2008   
 13  .mw-parser-output .hlist dl,.mw-parser-output ...   
 
                                                     1  
 0                                          100 Movies  
 1            

In [53]:
# Verificando o tipo da variável
type(dados_html)

list

In [54]:
# Verificando qual o tamanho
len(dados_html)

2

In [55]:
# Buscando os melhores filmes
top_filmes = dados_html[1]

# Conferindo a tabela
top_filmes

Unnamed: 0,Film,Release year,Director,Production companies,1998 Rank,2007 Rank
0,Citizen Kane,1941,Orson Welles,RKO Radio Pictures,1,1
1,Casablanca,1942,Michael Curtiz,Warner Bros. Pictures,2,3
2,The Godfather,1972,Francis Ford Coppola,"Paramount Pictures, Alfran Productions",3,2
3,Gone with the Wind,1939,Victor Fleming,Selznick International Pictures,4,6
4,Lawrence of Arabia,1962,David Lean,Horizon Pictures,5,7
...,...,...,...,...,...,...
118,Sophie's Choice,1982,Alan J. Pakula,ITC Entertainment,-,91
119,The Last Picture Show,1971,Peter Bogdanovich,BBS Productions,-,95
120,Do the Right Thing,1989,Spike Lee,40 Acres and a Mule Filmworks,-,96
121,Blade Runner,1982,Ridley Scott,"The Ladd Company, Shaw Brothers",-,97


### 9.2 Escrevendo arquivos HTML

In [56]:
# Salvando o dataframe num arquivo HTML
top_filmes.to_html('top_filmes.html')

### 9.3 Escrevendo arquivos em CSV

In [57]:
# Salvando o dataframe em CSV
top_filmes.to_csv('top_filmes.csv', index = False)

In [58]:
# Visualizando o arquivo
pd.read_csv('/content/top_filmes.csv')

Unnamed: 0,Film,Release year,Director,Production companies,1998 Rank,2007 Rank
0,Citizen Kane,1941,Orson Welles,RKO Radio Pictures,1,1
1,Casablanca,1942,Michael Curtiz,Warner Bros. Pictures,2,3
2,The Godfather,1972,Francis Ford Coppola,"Paramount Pictures, Alfran Productions",3,2
3,Gone with the Wind,1939,Victor Fleming,Selznick International Pictures,4,6
4,Lawrence of Arabia,1962,David Lean,Horizon Pictures,5,7
...,...,...,...,...,...,...
118,Sophie's Choice,1982,Alan J. Pakula,ITC Entertainment,-,91
119,The Last Picture Show,1971,Peter Bogdanovich,BBS Productions,-,95
120,Do the Right Thing,1989,Spike Lee,40 Acres and a Mule Filmworks,-,96
121,Blade Runner,1982,Ridley Scott,"The Ladd Company, Shaw Brothers",-,97


### 9.4 Lendo e escrevendo em arquivos XML

In [59]:
# Lendo o arquivo XML
dados_imdb = pd.read_xml('/content/imdb_top_1000.xml')

In [60]:
# Exibindo as primeiras linhas
dados_imdb.head(3)

Unnamed: 0,index,Poster_Link,Series_Title,Released_Year,Certificate,Runtime,Genre,IMDB_Rating,Overview,Meta_score,Director,Star1,Star2,Star3,Star4,No_of_Votes,Gross
0,0,https://m.media-amazon.com/images/M/MV5BMDFkYT...,The Shawshank Redemption,1994,A,142 min,Drama,9.3,Two imprisoned men bond over a number of years...,80.0,Frank Darabont,Tim Robbins,Morgan Freeman,Bob Gunton,William Sadler,2343110,28341469
1,1,https://m.media-amazon.com/images/M/MV5BM2MyNj...,The Godfather,1972,A,175 min,"Crime, Drama",9.2,An organized crime dynasty's aging patriarch t...,100.0,Francis Ford Coppola,Marlon Brando,Al Pacino,James Caan,Diane Keaton,1620367,134966411
2,2,https://m.media-amazon.com/images/M/MV5BMTMxNT...,The Dark Knight,2008,UA,152 min,"Action, Crime, Drama",9.0,When the menace known as the Joker wreaks havo...,84.0,Christopher Nolan,Christian Bale,Heath Ledger,Aaron Eckhart,Michael Caine,2303232,534858444


In [61]:
# Escrevendo em arquivo XML
dados_imdb.to_xml('filmes_imdb.xml')

# 10. Trabalhando com banco de dados

In [2]:
# Importando as bibliotecas
import pandas as pd
import sqlalchemy

In [3]:
# Verificando a versão
sqlalchemy.__version__

'1.4.51'

In [82]:
# Instalando uma versão anterior
!pip install --upgrade 'sqlalchemy<2.0'

Collecting sqlalchemy<2.0
  Downloading SQLAlchemy-1.4.51-cp310-cp310-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_17_x86_64.manylinux2014_x86_64.whl (1.6 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.6/1.6 MB[0m [31m9.3 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: sqlalchemy
  Attempting uninstall: sqlalchemy
    Found existing installation: SQLAlchemy 2.0.24
    Uninstalling SQLAlchemy-2.0.24:
      Successfully uninstalled SQLAlchemy-2.0.24
[31mERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
ipython-sql 0.5.0 requires sqlalchemy>=2.0, but you have sqlalchemy 1.4.51 which is incompatible.[0m[31m
[0mSuccessfully installed sqlalchemy-1.4.51


In [4]:
# Importando o motor para criação do banco, metadados, tabela e inspecionar
from sqlalchemy import create_engine, MetaData, Table, inspect

In [5]:
# Criando o banco e indicando que ele é local
engine = create_engine('sqlite:///:memory:')

### 10.1 Escrevendo em um banco de dados

In [6]:
#Atribuindo a base numa variável

url = 'https://raw.githubusercontent.com/alura-cursos/Pandas/main/clientes_banco.csv'

In [7]:
# Lendo o arquivo
dados = pd.read_csv(url)

# Visualizando o arquivo
dados.head(5)

Unnamed: 0,ID_Cliente,Idade,Grau_escolaridade,Estado_civil,Tamanho_familia,Categoria_de_renda,Ocupacao,Anos_empregado,Rendimento_anual,Tem_carro,Moradia
0,5008804,32,Ensino superior,União-estável,2,Empregado,Outro,12,427500.0,1,Apartamento alugado
1,5008805,32,Ensino superior,União-estável,2,Empregado,Outro,12,427500.0,1,Apartamento alugado
2,5008806,58,Ensino médio,Casado,2,Empregado,Segurança,3,112500.0,1,Casa/apartamento próprio
3,5008808,52,Ensino médio,Solteiro,1,Associado comercial,Vendas,8,270000.0,0,Casa/apartamento próprio
4,5008809,52,Ensino médio,Solteiro,1,Associado comercial,Vendas,8,270000.0,0,Casa/apartamento próprio


In [8]:
# Escrevendo no banco
dados.to_sql('clientes', engine, index = False)

438463

In [9]:
# Conferindo os dados no banco
inspector = inspect(engine)

# Printando os nomes das tabelas
print(inspector.get_table_names())

['clientes']


In [11]:
# Criando consultas para buscar apenas a renda dos que estão empregados
query = 'SELECT * FROM clientes WHERE Categoria_de_renda = "Empregado"'

# Lendo a consulta especificada
empregados = pd.read_sql(query, engine)

# Verificando o dataframe
empregados

Unnamed: 0,ID_Cliente,Idade,Grau_escolaridade,Estado_civil,Tamanho_familia,Categoria_de_renda,Ocupacao,Anos_empregado,Rendimento_anual,Tem_carro,Moradia
0,5008804,32,Ensino superior,União-estável,2,Empregado,Outro,12,427500.0,1,Apartamento alugado
1,5008805,32,Ensino superior,União-estável,2,Empregado,Outro,12,427500.0,1,Apartamento alugado
2,5008806,58,Ensino médio,Casado,2,Empregado,Segurança,3,112500.0,1,Casa/apartamento próprio
3,5008815,46,Ensino superior,Casado,2,Empregado,Contabilidade,2,270000.0,1,Casa/apartamento próprio
4,5112956,46,Ensino superior,Casado,2,Empregado,Contabilidade,2,270000.0,1,Casa/apartamento próprio
...,...,...,...,...,...,...,...,...,...,...,...
226054,6837905,43,Ensino médio,Casado,3,Empregado,Outro,7,355050.0,1,Casa/apartamento próprio
226055,6837906,43,Ensino médio,Casado,3,Empregado,Outro,7,355050.0,1,Casa/apartamento próprio
226056,6839936,34,Ensino médio,Casado,3,Empregado,Construção Civil,5,135000.0,1,Casa/apartamento próprio
226057,6840222,43,Ensino médio,Solteiro,1,Empregado,Construção Civil,8,103500.0,0,Casa/apartamento próprio


In [12]:
# Criando uma nova tabela
empregados.to_sql('empregados', con = engine, index = False)

226059

In [13]:
# Lendo a tabela inteira
pd.read_sql_table('empregados', engine)

Unnamed: 0,ID_Cliente,Idade,Grau_escolaridade,Estado_civil,Tamanho_familia,Categoria_de_renda,Ocupacao,Anos_empregado,Rendimento_anual,Tem_carro,Moradia
0,5008804,32,Ensino superior,União-estável,2,Empregado,Outro,12,427500.0,1,Apartamento alugado
1,5008805,32,Ensino superior,União-estável,2,Empregado,Outro,12,427500.0,1,Apartamento alugado
2,5008806,58,Ensino médio,Casado,2,Empregado,Segurança,3,112500.0,1,Casa/apartamento próprio
3,5008815,46,Ensino superior,Casado,2,Empregado,Contabilidade,2,270000.0,1,Casa/apartamento próprio
4,5112956,46,Ensino superior,Casado,2,Empregado,Contabilidade,2,270000.0,1,Casa/apartamento próprio
...,...,...,...,...,...,...,...,...,...,...,...
226054,6837905,43,Ensino médio,Casado,3,Empregado,Outro,7,355050.0,1,Casa/apartamento próprio
226055,6837906,43,Ensino médio,Casado,3,Empregado,Outro,7,355050.0,1,Casa/apartamento próprio
226056,6839936,34,Ensino médio,Casado,3,Empregado,Construção Civil,5,135000.0,1,Casa/apartamento próprio
226057,6840222,43,Ensino médio,Solteiro,1,Empregado,Construção Civil,8,103500.0,0,Casa/apartamento próprio


In [14]:
# Lendo a tabela inteira especificando as colunas
pd.read_sql_table('empregados', engine, columns = ['ID_Cliente', 'Grau_escolaridade', 'Rendimento_anual'])

Unnamed: 0,ID_Cliente,Grau_escolaridade,Rendimento_anual
0,5008804,Ensino superior,427500.0
1,5008805,Ensino superior,427500.0
2,5008806,Ensino médio,112500.0
3,5008815,Ensino superior,270000.0
4,5112956,Ensino superior,270000.0
...,...,...,...
226054,6837905,Ensino médio,355050.0
226055,6837906,Ensino médio,355050.0
226056,6839936,Ensino médio,135000.0
226057,6840222,Ensino médio,103500.0


### 10.2 Atualizando um banco de dados

In [15]:
# Especificando a consulta
query = 'SELECT * FROM clientes'

# Lendo a consulta
pd.read_sql(query, engine)

Unnamed: 0,ID_Cliente,Idade,Grau_escolaridade,Estado_civil,Tamanho_familia,Categoria_de_renda,Ocupacao,Anos_empregado,Rendimento_anual,Tem_carro,Moradia
0,5008804,32,Ensino superior,União-estável,2,Empregado,Outro,12,427500.0,1,Apartamento alugado
1,5008805,32,Ensino superior,União-estável,2,Empregado,Outro,12,427500.0,1,Apartamento alugado
2,5008806,58,Ensino médio,Casado,2,Empregado,Segurança,3,112500.0,1,Casa/apartamento próprio
3,5008808,52,Ensino médio,Solteiro,1,Associado comercial,Vendas,8,270000.0,0,Casa/apartamento próprio
4,5008809,52,Ensino médio,Solteiro,1,Associado comercial,Vendas,8,270000.0,0,Casa/apartamento próprio
...,...,...,...,...,...,...,...,...,...,...,...
438458,6840104,62,Ensino médio,Divorciado,1,Pensionista,Outro,0,135000.0,0,Casa/apartamento próprio
438459,6840222,43,Ensino médio,Solteiro,1,Empregado,Construção Civil,8,103500.0,0,Casa/apartamento próprio
438460,6841878,22,Ensino superior,Solteiro,1,Associado comercial,Vendas,1,54000.0,0,Mora com os pais
438461,6842765,59,Ensino médio,Casado,2,Pensionista,Outro,0,72000.0,0,Casa/apartamento próprio


In [16]:
# Especificando a consulta para deletar o cliente que não faz mais parte
query = 'DELETE FROM clientes WHERE ID_Cliente = 5008804'

# Método connect para executar a instrução delete
with engine.connect() as conn:
  conn.execute(query)

# Visualizando novamente o dataframe
pd.read_sql_table('clientes', engine)

Unnamed: 0,ID_Cliente,Idade,Grau_escolaridade,Estado_civil,Tamanho_familia,Categoria_de_renda,Ocupacao,Anos_empregado,Rendimento_anual,Tem_carro,Moradia
0,5008805,32,Ensino superior,União-estável,2,Empregado,Outro,12,427500.0,1,Apartamento alugado
1,5008806,58,Ensino médio,Casado,2,Empregado,Segurança,3,112500.0,1,Casa/apartamento próprio
2,5008808,52,Ensino médio,Solteiro,1,Associado comercial,Vendas,8,270000.0,0,Casa/apartamento próprio
3,5008809,52,Ensino médio,Solteiro,1,Associado comercial,Vendas,8,270000.0,0,Casa/apartamento próprio
4,5008810,52,Ensino médio,Solteiro,1,Associado comercial,Vendas,8,270000.0,0,Casa/apartamento próprio
...,...,...,...,...,...,...,...,...,...,...,...
438457,6840104,62,Ensino médio,Divorciado,1,Pensionista,Outro,0,135000.0,0,Casa/apartamento próprio
438458,6840222,43,Ensino médio,Solteiro,1,Empregado,Construção Civil,8,103500.0,0,Casa/apartamento próprio
438459,6841878,22,Ensino superior,Solteiro,1,Associado comercial,Vendas,1,54000.0,0,Mora com os pais
438460,6842765,59,Ensino médio,Casado,2,Pensionista,Outro,0,72000.0,0,Casa/apartamento próprio


In [18]:
# Atualizando o registro
query = 'UPDATE clientes SET Grau_escolaridade = "Ensino Superior" WHERE ID_Cliente = 5008808'

# Método connect para executar a instrução update
with engine.connect() as conn:
  conn.execute(query)

# Visualizando novamente o dataframe
pd.read_sql_table('clientes', engine)

Unnamed: 0,ID_Cliente,Idade,Grau_escolaridade,Estado_civil,Tamanho_familia,Categoria_de_renda,Ocupacao,Anos_empregado,Rendimento_anual,Tem_carro,Moradia
0,5008805,32,Ensino superior,União-estável,2,Empregado,Outro,12,427500.0,1,Apartamento alugado
1,5008806,58,Ensino médio,Casado,2,Empregado,Segurança,3,112500.0,1,Casa/apartamento próprio
2,5008808,52,Ensino Superior,Solteiro,1,Associado comercial,Vendas,8,270000.0,0,Casa/apartamento próprio
3,5008809,52,Ensino médio,Solteiro,1,Associado comercial,Vendas,8,270000.0,0,Casa/apartamento próprio
4,5008810,52,Ensino médio,Solteiro,1,Associado comercial,Vendas,8,270000.0,0,Casa/apartamento próprio
...,...,...,...,...,...,...,...,...,...,...,...
438457,6840104,62,Ensino médio,Divorciado,1,Pensionista,Outro,0,135000.0,0,Casa/apartamento próprio
438458,6840222,43,Ensino médio,Solteiro,1,Empregado,Construção Civil,8,103500.0,0,Casa/apartamento próprio
438459,6841878,22,Ensino superior,Solteiro,1,Associado comercial,Vendas,1,54000.0,0,Mora com os pais
438460,6842765,59,Ensino médio,Casado,2,Pensionista,Outro,0,72000.0,0,Casa/apartamento próprio
