# Pandas: Trabalhando com diferentes formatos de arquivo
Esse notebook tem por objetivo conter todos os códigos realizados para estudar a biblioteca pandas

## **Objetivo:** Aprender a importar e exportar em diferentes formatos de arquivos utilizando a biblioteca Pandas.

## **O que irá conter nesse notebook:**
- Ler e escrever arquivos nos formatos CSV, EXCEL, JSON, HTML e XML
- Criar um banco e dados local
- Compreender como escrever no banco de dados
- Realizar consultas SQL
- Atualizar informações

# Códigos

## Bibliotecas

In [1]:
import pandas as pd

## 1 - Fazendo leitura de arquivos CSV
Quando temos um arquivo separado por vírgulas, temos um arquivo .csv, que em inglês significa "comma-separated values" (valores separados por vírgula).

### 1.1 - Lendo um arquivo CSV

Para ler um arquivo .csv no pandas devemos usar a função `read_csv()`

In [2]:
url_csv = 'https://raw.githubusercontent.com/alura-cursos/pandas/main/superstore_data.csv'
dados_superstore = pd.read_csv(url_csv)
dados_superstore.head(2)

Unnamed: 0,Id,Year_Birth,Education,Marital_Status,Income,Kidhome,Teenhome,Dt_Customer,Recency,MntWines,...,MntFishProducts,MntSweetProducts,MntGoldProds,NumDealsPurchases,NumWebPurchases,NumCatalogPurchases,NumStorePurchases,NumWebVisitsMonth,Response,Complain
0,1826,1970,Graduation,Divorced,84835.0,0,0,6/16/2014,0,189,...,111,189,218,1,4,4,6,1,1,0
1,1,1961,Graduation,Single,57091.0,0,0,6/15/2014,0,464,...,7,0,37,1,7,3,7,5,1,0


Porém o que acontece se esse arquivo `.csv` estiver separado por `;` ao invés de `,`?

Caso isso ocorra deveremos usar um argumento da função `read_csv` chamado `sep` que quer dizer separador. A partir dele iremos especificar o tipo de separação do nosso arquivo `.csv` para que a função consiga ler

In [3]:
url_2 = 'https://raw.githubusercontent.com/alura-cursos/Pandas/main/superstore_data_ponto_virgula.csv'
dados_superstore_2 = pd.read_csv(url_2, sep=";")
dados_superstore_2.head(2)

Unnamed: 0,Id,Year_Birth,Education,Marital_Status,Income,Kidhome,Teenhome,Dt_Customer,Recency,MntWines,...,MntFishProducts,MntSweetProducts,MntGoldProds,NumDealsPurchases,NumWebPurchases,NumCatalogPurchases,NumStorePurchases,NumWebVisitsMonth,Response,Complain
0,1826,1970,Graduation,Divorced,84835.0,0,0,6/16/2014,0,189,...,111,189,218,1,4,4,6,1,1,0
1,1,1961,Graduation,Single,57091.0,0,0,6/15/2014,0,464,...,7,0,37,1,7,3,7,5,1,0


### 1.2 - [Parâmetros da função](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html) `read_csv()`

Pegando um número específico de linhas

In [4]:
dados_linhas_especifica = pd.read_csv(url_csv, nrows=3)
dados_linhas_especifica

Unnamed: 0,Id,Year_Birth,Education,Marital_Status,Income,Kidhome,Teenhome,Dt_Customer,Recency,MntWines,...,MntFishProducts,MntSweetProducts,MntGoldProds,NumDealsPurchases,NumWebPurchases,NumCatalogPurchases,NumStorePurchases,NumWebVisitsMonth,Response,Complain
0,1826,1970,Graduation,Divorced,84835,0,0,6/16/2014,0,189,...,111,189,218,1,4,4,6,1,1,0
1,1,1961,Graduation,Single,57091,0,0,6/15/2014,0,464,...,7,0,37,1,7,3,7,5,1,0
2,10476,1958,Graduation,Married,67267,0,1,5/13/2014,0,134,...,15,2,30,1,3,2,5,2,0,0


Pegando colunas específicas

In [5]:
dados_colunas_especificas = pd.read_csv(url_csv, usecols=['Id', 'Year_Birth', 'Income'])
dados_colunas_especificas.head(2)

Unnamed: 0,Id,Year_Birth,Income
0,1826,1970,84835.0
1,1,1961,57091.0


### 1.3 Escrevendo arquivos CSV
Usaremos a função `to_csv()` para criar um arquivo csv baseado em um Dataframe. Botamos o parâmetro `index` na função, pois nossa base de dados já possui uma coluna index e como por padrão esse argumento ven como True, precisamos setar ele como False para não termos 2 colunas de id

In [6]:
dados_colunas_especificas.to_csv('cliente_mercado.csv', index=False)

### 1.4 Desafios
Temos um arquivo no formato CSV, que foi obtido na página Informações de Saúde (TABNET) - DATASUS. Este arquivo contém os gastos hospitalares públicos de cada uma das Unidades da Federação brasileira no período de janeiro de 2008 a março de 2021.

1. Verifique se o arquivo CSV está separado por vírgula ou ponto e vírgula. `sep`
2. A codificação do arquivo é ISO-8859-1. `encoding`
3. As três primeiras linhas linhas do arquivo podem ser desconsideradas, pois o cabeçalho só começa na quarta linha. `skiprows`
4. As 9 últimas linhas também podem ser desconsideradas, pois são apenas informações sobre onde os dados foram obtidos. `skipfooter`
5. Para deletar as últimas linhas é necessário adicionar o parâmetro engine='python'

In [7]:
url_sus = 'https://raw.githubusercontent.com/alura-cursos/Pandas/main/dados_sus.csv'

dados_sus = pd.read_csv(url_sus, sep=';', encoding='ISO-8859-1', skipfooter=9, skiprows=3, engine='python')
dados_sus.head()

Unnamed: 0,Unidade da Federação,2008/Jan,2008/Fev,2008/Mar,2008/Abr,2008/Mai,2008/Jun,2008/Jul,2008/Ago,2008/Set,...,2020/Jul,2020/Ago,2020/Set,2020/Out,2020/Nov,2020/Dez,2021/Jan,2021/Fev,2021/Mar,Total
0,Rondônia,138852839,293128342,154168252,152531496,164595384,140615068,306527901,323149461,311717863,...,1182468713,1173330776,1020198514,795513945,935794629,888083655,926601459,773059704,1102330947,99641125468
1,Acre,90241600,149720626,179402848,173046942,181944392,182849600,251175459,208910714,227570853,...,391519320,364014282,339124221,404432144,327659010,369699731,371572312,353842792,407704592,45004853047
2,Amazonas,473552942,711899057,819663549,825937842,783139990,847727362,936885872,935253270,936309935,...,1976946014,1805993143,1784101563,1640831510,1989561791,1776516769,2143028917,2591713455,2203217622,191724793605
3,Roraima,65788953,77793931,71868803,83999439,86234796,83244066,99669309,89427118,91042417,...,301548830,282648618,292804391,309031373,362103105,345446094,326692847,351977373,398553008,32887696509
4,Pará,1886474411,1955375820,2193734270,2084282969,2324995288,2324068756,2400222356,2334121803,2517226132,...,4080412643,4438571588,3682024947,3696593134,3900431580,3801514579,3835468246,3768831423,3327639289,470530900229


## 2 - Utilizando planilhas
Temos um novo conjunto de dados: um grupo de pesquisa com dados das emissões de gás carbônico (CO2) pelos países ao longo dos anos. Eles querem analisar esses dados com o objetivo de entender os impactos ambientais gerados pelos países e pensar em questões de sustentabilidade.

### 2.1 - Lendo um arquivo Excel

In [8]:
url_excel = 'https://github.com/alura-cursos/Pandas/blob/main/emissoes_CO2.xlsx?raw=True'

dados_emissoes_co2 = pd.read_excel(url_excel)

In [9]:
dados_emissoes_co2.head(3)

Unnamed: 0,País,ISO 3166-1 alpha-3,Ano,Total,Carvão,Oléo,Gás,Cimento,Queima,Outro,Per Capita
0,Afeganistão,AFG,1750,0.0,,,,,,,
1,Afeganistão,AFG,1751,0.0,,,,,,,
2,Afeganistão,AFG,1752,0.0,,,,,,,


Dado que temos um Dataset que é um excel, como podemos saber quantas páginas/sheets ele tem? Para isso usamos uma função do pandas `ExcelFile()` junto com `sheet_names`

In [10]:
pd.ExcelFile(url_excel).sheet_names

['emissoes_C02', 'emissoes_percapita', 'fontes']

### 2.2 - [Parâmetros da função](https://pandas.pydata.org/docs/reference/api/pandas.read_excel.html) `read_excel`

Especificando uma página para ser lida no `read_excel`, para isso usaremos o argumento `sheet_name`

Ele por padrão vem com o valor 0, ou seja, acaba pegando a primeira página da nossa planilha

In [11]:
dados_excel_percapita = pd.read_excel(url_excel, sheet_name='emissoes_percapita')

In [12]:
dados_excel_percapita.head(3)

Unnamed: 0,País,ISO 3166-1 alpha-3,Ano,Total,Carvão,Óleo,Gás,Cimento,Queima,Outro
0,Afeganistão,AFG,1750,,,,,,,
1,Afeganistão,AFG,1751,,,,,,,
2,Afeganistão,AFG,1752,,,,,,,


Assim como no read_csv também podemos especificar as colunas que queremos pegar usando o arugmento `usecols`, mas por ser um arquivo Excel devemos especificar as colunas usando as letras.

Exemplo: (e.g. “A:E” or “A,C,E:F”)

In [13]:
intervalo = pd.read_excel(url_excel, sheet_name='emissoes_C02', usecols='A,C:E,K')

In [14]:
intervalo.head(3)

Unnamed: 0,País,Ano,Total,Carvão,Per Capita
0,Afeganistão,1750,0.0,,
1,Afeganistão,1751,0.0,,
2,Afeganistão,1752,0.0,,


### 2.3 - Escrevendo arquivos Excel
Nessa parte irei criar um arquivo Excel que irá conter apenas os dados de Emissões de carbono do Brasil

Para isso devemos utilizar a função `to_excel`

In [15]:
dados_emissoes_co2_brasil = dados_emissoes_co2[dados_emissoes_co2['País'] == 'Brasil']
dados_emissoes_co2_brasil.head(3)

Unnamed: 0,País,ISO 3166-1 alpha-3,Ano,Total,Carvão,Oléo,Gás,Cimento,Queima,Outro,Per Capita
7344,Brasil,BRA,1750,0.0,,,,,,,
7345,Brasil,BRA,1751,0.0,,,,,,,
7346,Brasil,BRA,1752,0.0,,,,,,,


In [16]:
dados_emissoes_co2_brasil.to_excel('emissoes_CO2_brasil.xlsx', index=False)

### 2.4 - Lendo dados do Google Planilhas
No Google Planilhas, é possível obter o link da planilha e compartilhá-lo com outras pessoas. Além disso, podemos usar esse link para acessar a planilha no Colab!

Criação do REGEX para evitar de ter que ficar pegando o ID da planilha manualmente

In [17]:
# Essa parte estou fazendo para evitar de ter que pegar o ID na mão
import re

# URL do Google Sheets
url_google_sheets = 'https://docs.google.com/spreadsheets/d/1J6d4g_rDrnoxVjyn1jrOyKZ6ZXuGmEYjx-oaR-80pmM/edit?usp=sharing'

# Regex para extrair o ID da planilha
match = re.search(r'/d/([a-zA-Z0-9_-]+)/', url_google_sheets)

id_planilha = match.group(1)

Adicionando o parâmetro `gviz/tq?tqx=out:csv`

Para ter acesso à planilha, é necessário acessar a API de visualização de dados do Google.

No caso, queremos criar a comunicação entre o Google Colab e o Google Planilhas. O parâmetro `gviz/tq` permite o acesso à API responsável por essa comunicação.

Após gviz/tq, adicionaremos um ponto de interrogação e o parâmetro `tqx=out:csv&sheet`



In [18]:
api_visualizacao_google = 'gviz/tq?tqx=out:csv&sheet'

In [19]:
url_planilha = f'https://docs.google.com/spreadsheets/d/{id_planilha}/{api_visualizacao_google}'

dados_google_sheets = pd.read_csv(url_planilha)

In [20]:
dados_google_sheets.head(3)

Unnamed: 0,País,ISO 3166-1 alpha-3,Ano,Total,Carvão,Oléo,Gás,Cimento,Queima,Outro,Per Capita
0,Afeganistão,AFG,1750,0,,,,,,,
1,Afeganistão,AFG,1751,0,,,,,,,
2,Afeganistão,AFG,1752,0,,,,,,,


Mas caso precisemos pegar uma outra página da nossa planilha? Para isso é só depois de `sheet` adicionar o nome da página

In [21]:
sheet_name = 'emissoes_percapita'
api_visualizacao_google = f'gviz/tq?tqx=out:csv&sheet={sheet_name}'
url_planilha = f'https://docs.google.com/spreadsheets/d/{id_planilha}/{api_visualizacao_google}'

dados_google_sheets = pd.read_csv(url_planilha)

In [22]:
dados_google_sheets.head(3)

Unnamed: 0,País,ISO 3166-1 alpha-3,Ano,Total,Carvão,Óleo,Gás,Cimento,Queima,Outro
0,Afeganistão,AFG,1750,,,,,,,
1,Afeganistão,AFG,1751,,,,,,,
2,Afeganistão,AFG,1752,,,,,,,


## 3 - Fazendo leitura de arquivos JSON
Agora, temos um hospital que deseja acessar os dados de pacientes, mas os arquivos estão todos no formato JSON.

JSON é uma sigla em inglês para JavaScript Object Notation.

### 3.1 - Lendo um arquivo JSON

In [23]:
# dados_json = pd.read_json()
# dados_json.head(3)

Nem sempre os JSON acabam vindo da forma correta, algumas vezes eles podem acabar vindo assim:

Quando isso acontece, temos que normalizá-los

In [24]:
dados_json2 = pd.read_json()
dados_json2.head(3)

### 3.2 - Normalizando arquivos JSON
Quando tivermos problemas na leitura de um JSON temos que analisar sua estrutura, para isso acessamos [JSON Crack](https://jsoncrack.com/) para analisar a estrutura

Para normalizar esses dados usaremos uma função que normaliza os dados em formato JSON (json_normalize()). Dentro dos parênteses da função, passaremos o data frame que desejamos normalizar (dados_pacientes_2).

Em seguida, abriremos colchetes ([]) e, dentro deles, abriremos aspas simples, para indicar qual coluna deve ser normalizada, Pacientes.

In [25]:
dados_json2_normalizado = pd.json_normalize(dados_json2['Pacientes'])
dados_json2_normalizado.head(3)

NameError: name 'dados_json2' is not defined

Normalização de dados é um processo importante em ciência de dados que tem como objetivo organizar e padronizar dados para facilitar a análise e comparação entre eles.

### 3.3 - Escrevendo arquivos JSON

In [None]:
dados_json2_normalizado.to_json('historico_pacientes_normalizado.json')

### 3.4 - Obtendo um JSON de uma API
Uma empresa de alimentos saudáveis está enfrentando um problema com a popularidade de seus produtos. Apesar de oferecer opções saudáveis, muitos(as) clientes estão relutantes em comprar os produtos devido à falta de informação sobre os valores nutricionais das frutas que são utilizadas na produção dos alimentos

In [26]:
import requests
import json

In [27]:
dados_frutas = requests.get('https://fruityvice.com/api/fruit/all')

resultado = json.loads(dados_frutas.text)

Normalizando a coluna nutritions

In [28]:
info_nutri_frutas_normalizado = pd.json_normalize(resultado)
info_nutri_frutas_normalizado.head(3)

Unnamed: 0,name,id,family,order,genus,nutritions.calories,nutritions.fat,nutritions.sugar,nutritions.carbohydrates,nutritions.protein
0,Persimmon,52,Ebenaceae,Rosales,Diospyros,81,0.0,18.0,18.0,0.0
1,Strawberry,3,Rosaceae,Rosales,Fragaria,29,0.4,5.4,5.5,0.8
2,Banana,1,Musaceae,Zingiberales,Musa,96,0.2,17.2,22.0,1.0


## 4 - Fazendo leitura de arquivos HTML e XML
Uma pessoa está criando um sistema de recomendação de filmes. Mas, para isso, ela precisa de dados de filmes, de avaliações que as pessoas deram para eles.

Ela encontrou um artigo web [sobre os 100 melhores filmes listados pelo Instituto Americano de Cinema](https://en.wikipedia.org/wiki/AFI%27s_100_Years...100_Movies). Esse artigo está na Wikipedia e, na lateral direita da página, temos uma tabela contendo outros artigos criados pelo mesmo instituto, de 1998 a 2008.

**`OBS:`** A página foi salva em HTML e está no drive desse notebook

### 4.1 - Lendo páginas web
Antes de ler uma página web devemos saber se o que vamos consumir é de fato uma tabela. Para isso devemos ir ná página, inspecionar e procurar no HTML usando o `ctrl + F` uma tag `<table>`

In [30]:
dados_html = pd.read_html('/content/filmes_wikipedia.html')

  soup = BeautifulSoup(udoc, features="html5lib", from_encoding=from_encoding)


ValueError: No tables found

O resultado dessa função será uma lista contendo todas as tags `<table>` presentes no HTML

In [None]:
dados_html

In [None]:
len(dados_html)

In [None]:
top_filmes = dados_html[1]

top_filmes.head(3)

### 4.2 - Escrevendo arquivos HTML

In [None]:
top_filmes.to_html('top_filmes.html')

### 4.3 - Lendo/escrevendo arquivos XML
Esse nome é uma sigla da expressão em inglês Extensible Markup Language, ou "Linguagem de marcação estendida". Sua estrutura de tags é muito parecida com o HTML.

No nosso arquivo, temos uma tag logo no início chamada `<data>`. Essa é a tag raiz que indica o início do documento. Em seguida temos uma tag chamada `<row>`, "linha" em português. Para cada linha, temos várias tags que contêm as informações que estarão em cada uma das colunas.

In [31]:
url_xml = 'https://raw.githubusercontent.com/alura-cursos/Pandas/main/imdb_top_1000.xml'

dados_xml = pd.read_xml(url_xml)

dados_xml.head(1)

Unnamed: 0,index,Poster_Link,Series_Title,Released_Year,Certificate,Runtime,Genre,IMDB_Rating,Overview,Meta_score,Director,Star1,Star2,Star3,Star4,No_of_Votes,Gross
0,0,https://m.media-amazon.com/images/M/MV5BMDFkYT...,The Shawshank Redemption,1994,A,142 min,Drama,9.3,Two imprisoned men bond over a number of years...,80.0,Frank Darabont,Tim Robbins,Morgan Freeman,Bob Gunton,William Sadler,2343110,28341469


Salvando os filmes com nota acima de 9 no IMBD

In [32]:
filme_nota_9 = dados_xml[dados_xml['IMDB_Rating'] >= 9]

filme_nota_9.to_xml('filmes_com_nota_9.xml')

### 4.4 - Desafio
Vanessa é uma cientista de dados que está realizando algumas análises com dados ambientais. Ela está desenvolvendo um projeto para avaliar o impacto ambiental das atividades humanas em diferentes países do mundo, mas para isso precisa das estimativas populacionais desses países.

**`OBS:`** Eu já sei que o índice do HTML a ser buscado é 0, pois ao inspecionar a página eu vi que era a primeira tabela

In [33]:
dados_paises = pd.read_html('/content/populacao_paises.html')[0]

dados_paises.head(2)

  soup = BeautifulSoup(udoc, features="html5lib", from_encoding=from_encoding)


ValueError: No tables found

## 5 - Trabalhando com banco de dados
O time de dados de uma Instituição Financeira possui um arquivo CSV que contém os dados de todos os clientes cadastrados. Porém, o que eles querem é pegar esse arquivo, colocar em um banco de dados local e a partir dele realizar consultas SQL. Assim será possível analisar dados, obter insights e tomar decisões estratégicas.

### 5.0 - Preparando o ambiente

In [34]:
import sqlalchemy
from sqlalchemy import create_engine, MetaData, Table, inspect, text

### 5.1 - Criando um banco de dados local
Usaremos o SQLite, um banco de dados que vem naturalmente instalado no Google Colab. Nesse trecho de código o memory indica que estamos usando um banco de dados local.

In [35]:
engine = create_engine('sqlite:///:memory:')

### 5.2 - Escrevendo um banco de dados

Consumindo a base de dados

In [36]:
url = 'https://raw.githubusercontent.com/alura-cursos/Pandas/main/clientes_banco.csv'

dados = pd.read_csv(url)

dados.head(3)

Unnamed: 0,ID_Cliente,Idade,Grau_escolaridade,Estado_civil,Tamanho_familia,Categoria_de_renda,Ocupacao,Anos_empregado,Rendimento_anual,Tem_carro,Moradia
0,5008804,32,Ensino superior,União-estável,2,Empregado,Outro,12,427500.0,1,Apartamento alugado
1,5008805,32,Ensino superior,União-estável,2,Empregado,Outro,12,427500.0,1,Apartamento alugado
2,5008806,58,Ensino médio,Casado,2,Empregado,Segurança,3,112500.0,1,Casa/apartamento próprio


Adicionando os dados no banco de dados

In [37]:
dados.to_sql('clientes', engine, index=False)

438463

Utilizando a função inspect importada anteriormente para visualizar os dados

In [38]:
inspector = inspect(engine)

print(inspector.get_table_names())

['clientes']


### 5.3 - Lendo uma consulta SQL

In [39]:
query = 'SELECT * FROM clientes WHERE Categoria_de_renda = "Empregado"'

In [40]:
empregados = pd.read_sql(query, engine)

In [41]:
empregados.head(3)

Unnamed: 0,ID_Cliente,Idade,Grau_escolaridade,Estado_civil,Tamanho_familia,Categoria_de_renda,Ocupacao,Anos_empregado,Rendimento_anual,Tem_carro,Moradia
0,5008804,32,Ensino superior,União-estável,2,Empregado,Outro,12,427500.0,1,Apartamento alugado
1,5008805,32,Ensino superior,União-estável,2,Empregado,Outro,12,427500.0,1,Apartamento alugado
2,5008806,58,Ensino médio,Casado,2,Empregado,Segurança,3,112500.0,1,Casa/apartamento próprio


In [42]:
empregados.to_sql('empregado', con=engine, index=False)

226059

In [43]:
inspector = inspect(engine)

print(inspector.get_table_names())

['clientes', 'empregado']


In [44]:
pd.read_sql_table('empregado', engine).head(3)

Unnamed: 0,ID_Cliente,Idade,Grau_escolaridade,Estado_civil,Tamanho_familia,Categoria_de_renda,Ocupacao,Anos_empregado,Rendimento_anual,Tem_carro,Moradia
0,5008804,32,Ensino superior,União-estável,2,Empregado,Outro,12,427500.0,1,Apartamento alugado
1,5008805,32,Ensino superior,União-estável,2,Empregado,Outro,12,427500.0,1,Apartamento alugado
2,5008806,58,Ensino médio,Casado,2,Empregado,Segurança,3,112500.0,1,Casa/apartamento próprio


### 5.4 - Atualizando um banco de dados

#### Deletando

In [45]:
query = 'SELECT * FROM clientes'

pd.read_sql(query, engine).head(2)

Unnamed: 0,ID_Cliente,Idade,Grau_escolaridade,Estado_civil,Tamanho_familia,Categoria_de_renda,Ocupacao,Anos_empregado,Rendimento_anual,Tem_carro,Moradia
0,5008804,32,Ensino superior,União-estável,2,Empregado,Outro,12,427500.0,1,Apartamento alugado
1,5008805,32,Ensino superior,União-estável,2,Empregado,Outro,12,427500.0,1,Apartamento alugado


Suponhamos que a pessoa de ID 5008804 cancelou sua conta na instituição financeira. Isso significa que ela não faz mais parte do quadro de clientes.

Estamos usando um método chamado connect para estabelecer uma conexão com o banco de dados. Estamos pedindo para executar a query com o método execute que quando chamado, executa a instrução SQL diretamente no banco de dados, usando a conexão estabelecida.

In [46]:
query = text('DELETE FROM clientes WHERE ID_Cliente = :id_cliente')

# Executa a query
with engine.connect() as conn:
    conn.execute(query, {'id_cliente': 5008804})
    conn.commit()

In [47]:
pd.read_sql_table('clientes', engine)

Unnamed: 0,ID_Cliente,Idade,Grau_escolaridade,Estado_civil,Tamanho_familia,Categoria_de_renda,Ocupacao,Anos_empregado,Rendimento_anual,Tem_carro,Moradia
0,5008805,32,Ensino superior,União-estável,2,Empregado,Outro,12,427500.0,1,Apartamento alugado
1,5008806,58,Ensino médio,Casado,2,Empregado,Segurança,3,112500.0,1,Casa/apartamento próprio
2,5008808,52,Ensino médio,Solteiro,1,Associado comercial,Vendas,8,270000.0,0,Casa/apartamento próprio
3,5008809,52,Ensino médio,Solteiro,1,Associado comercial,Vendas,8,270000.0,0,Casa/apartamento próprio
4,5008810,52,Ensino médio,Solteiro,1,Associado comercial,Vendas,8,270000.0,0,Casa/apartamento próprio
...,...,...,...,...,...,...,...,...,...,...,...
438457,6840104,62,Ensino médio,Divorciado,1,Pensionista,Outro,0,135000.0,0,Casa/apartamento próprio
438458,6840222,43,Ensino médio,Solteiro,1,Empregado,Construção Civil,8,103500.0,0,Casa/apartamento próprio
438459,6841878,22,Ensino superior,Solteiro,1,Associado comercial,Vendas,1,54000.0,0,Mora com os pais
438460,6842765,59,Ensino médio,Casado,2,Pensionista,Outro,0,72000.0,0,Casa/apartamento próprio


#### Atualizando

In [48]:
query = text('UPDATE clientes SET Grau_escolaridade = :grau WHERE ID_Cliente = :id_cliente')

# Executa a query
with engine.connect() as conn:
    conn.execute(query, {'grau': 'Ensino superior', 'id_cliente': 5008808})
    conn.commit()

# Lê a tabela
pd.read_sql_table('clientes', engine)

Unnamed: 0,ID_Cliente,Idade,Grau_escolaridade,Estado_civil,Tamanho_familia,Categoria_de_renda,Ocupacao,Anos_empregado,Rendimento_anual,Tem_carro,Moradia
0,5008805,32,Ensino superior,União-estável,2,Empregado,Outro,12,427500.0,1,Apartamento alugado
1,5008806,58,Ensino médio,Casado,2,Empregado,Segurança,3,112500.0,1,Casa/apartamento próprio
2,5008808,52,Ensino superior,Solteiro,1,Associado comercial,Vendas,8,270000.0,0,Casa/apartamento próprio
3,5008809,52,Ensino médio,Solteiro,1,Associado comercial,Vendas,8,270000.0,0,Casa/apartamento próprio
4,5008810,52,Ensino médio,Solteiro,1,Associado comercial,Vendas,8,270000.0,0,Casa/apartamento próprio
...,...,...,...,...,...,...,...,...,...,...,...
438457,6840104,62,Ensino médio,Divorciado,1,Pensionista,Outro,0,135000.0,0,Casa/apartamento próprio
438458,6840222,43,Ensino médio,Solteiro,1,Empregado,Construção Civil,8,103500.0,0,Casa/apartamento próprio
438459,6841878,22,Ensino superior,Solteiro,1,Associado comercial,Vendas,1,54000.0,0,Mora com os pais
438460,6842765,59,Ensino médio,Casado,2,Pensionista,Outro,0,72000.0,0,Casa/apartamento próprio


### 5.5 - Desafios

1. Criar o banco de dados local com a biblioteca SQLAlchemy.

2. Escrever os dados do arquivo CSV neste banco de dados local.

3. Realizar três atualizações no banco de dados:
- Atualizar o registro do cliente de ID 6840104 que teve o rendimento anual alterado para 300000.
- Excluir o registro do cliente de ID 5008809, pois essa pessoa não possui mais conta na instituição financeira.
- Criar um novo registro de cliente seguindo as especificações abaixo:
  - ID_Cliente: 6850985
  - Idade: 33
  - Grau_escolaridade: Doutorado
  - Estado_civil: Solteiro
  - Tamanho_familia: 1
  - Categoria_de_renda: Empregado
  - Ocupacao: TI
  - Anos_empregado: 2
  - Rendimento_anual: 290000
  - Tem_carro: 0
  - Moradia: Casa/apartamento próprio

In [10]:
import sqlalchemy
import pandas as pd
from sqlalchemy import create_engine, MetaData, Table, inspect, text

# Criando o banco de dados
banco_dados = create_engine('sqlite:///:memory:')

# Consumindo a API que está no formato CSV
url = 'https://raw.githubusercontent.com/alura-cursos/Pandas/main/clientes_banco.csv'

dados = pd.read_csv(url)

In [11]:
# Adicionando os dados no banco de dados
dados.to_sql('clientes', banco_dados, index=False)

438463

In [12]:
# Atualizando o registro do cliente de ID 6840104
query = text('UPDATE clientes SET Rendimento_anual = :rend_anual WHERE ID_Cliente = :id_cliente')

# Executa a query
with banco_dados.connect() as conn:
    conn.execute(query, {'rend_anual': 300000, 'id_cliente': 6840104})
    conn.commit()

In [13]:
# Excluindo o registro do cliente de ID 5008809
query = text('DELETE FROM clientes WHERE ID_Cliente = :id_cliente')

# Executa a query
with banco_dados.connect() as conn:
    conn.execute(query, {'id_cliente': 5008809})
    conn.commit()

Para adicionar um novo registro, podemos utilizar a cláusula `INSERT INTO` que nos permite adicionar novos dados de forma prática e rápida.

Para utilizar essa cláusula, primeiro é necessário especificar o nome da tabela na qual o registro será inserido. Em seguida, devemos passar, entre parênteses, os nomes das colunas onde serão adicionados os novos valores. **É importante lembrar que a ordem dos nomes deve ser a mesma ordem em que os valores serão passados.**

In [14]:
query = text('INSERT INTO clientes (ID_Cliente, Idade, Grau_escolaridade, Estado_civil, ' \
        'Tamanho_familia, Categoria_de_renda, Ocupacao, Anos_empregado, ' \
        'Rendimento_anual, Tem_carro, Moradia) ' \
        'VALUES (6850985, 33, "Doutorado", "Solteiro", 1, "Empregado", "TI", ' \
        '2, 290000, 0, "Casa/apartamento próprio")')

# Executa a query
with banco_dados.connect() as conn:
    conn.execute(query)
    conn.commit()

In [16]:
pd.read_sql_table('clientes', banco_dados)

Unnamed: 0,ID_Cliente,Idade,Grau_escolaridade,Estado_civil,Tamanho_familia,Categoria_de_renda,Ocupacao,Anos_empregado,Rendimento_anual,Tem_carro,Moradia
0,5008804,32,Ensino superior,União-estável,2,Empregado,Outro,12,427500.0,1,Apartamento alugado
1,5008805,32,Ensino superior,União-estável,2,Empregado,Outro,12,427500.0,1,Apartamento alugado
2,5008806,58,Ensino médio,Casado,2,Empregado,Segurança,3,112500.0,1,Casa/apartamento próprio
3,5008808,52,Ensino médio,Solteiro,1,Associado comercial,Vendas,8,270000.0,0,Casa/apartamento próprio
4,5008810,52,Ensino médio,Solteiro,1,Associado comercial,Vendas,8,270000.0,0,Casa/apartamento próprio
...,...,...,...,...,...,...,...,...,...,...,...
438458,6840222,43,Ensino médio,Solteiro,1,Empregado,Construção Civil,8,103500.0,0,Casa/apartamento próprio
438459,6841878,22,Ensino superior,Solteiro,1,Associado comercial,Vendas,1,54000.0,0,Mora com os pais
438460,6842765,59,Ensino médio,Casado,2,Pensionista,Outro,0,72000.0,0,Casa/apartamento próprio
438461,6842885,51,Ensino médio,Casado,2,Empregado,Vendas,3,121500.0,0,Casa/apartamento próprio


# Extras:

## Erro de encoding arquivo CSV

Um cientista de dados recebeu uma tarefa: Analisar um arquivo CSV contendo informações sobre as vendas da empresa em um determinado período.

Então lá foi ele e escreveu o seguinte código:
```python
import pandas as pd
df = pd.read_csv('/content/dados.csv')
```

E recebeu o seguinte erro:
```cmd
UnicodeDecodeError: o codec 'utf-8' não pode decodificar o byte 0xe7 na posição 18: byte de continuação inválido
```

- **Mas por que isso ocorreu?**

O erro de encoding ocorre quando a biblioteca Pandas não consegue interpretar corretamente os caracteres de um arquivo CSV. Isso pode acontecer quando ele contém caracteres especiais que não são reconhecidos pela biblioteca Pandas ou quando foi salvo em um formato de codificação diferente do esperado.

Para resolver esse erro, é necessário identificar a codificação correta do arquivo CSV e especificá-la ao carregar o arquivo com a biblioteca Pandas. Essa codificação padrão é o UTF-8, mas em alguns casos, o arquivo pode ter sido salvo com uma codificação diferente, como ISO-8859-1.

- **Como resulver:**

Podemos usar uma biblioteca chamada chardet para detectar o encoding de um arquivo CSV. Para utilizar essa biblioteca no Google Colab, basta realizar sua importação:

``` python
import chardet

with open('/content/dados.csv', 'rb') as file:
    print(chardet.detect(file.read()))
```

Ao executar o código Giovanna obteve o seguinte resultado:

``` python
{'encoding': 'ISO-8859-1', 'confidence': 0.73, 'language': ''}
```

Agora ela sabe que o arquivo CSV provavelmente possui a codificação ISO-8859-1 com uma confiança de 0.73. Para especificar a codificação correta ao carregar o arquivo CSV com a biblioteca Pandas, é possível usar um parâmetro chamado encoding:

```python
df = pd.read_csv('/content/dados.csv', encoding='ISO-8859-1')
```