# Introdução à Leitura de Dados Externos
Antes de começarmos a explorar os detalhes técnicos, é importante entender por que a leitura de dados externos é tão crucial. Em muitos casos, os dados não são criados dentro do código, mas sim coletados de fontes externas, como bancos de dados, planilhas ou arquivos de texto. No entanto, para este guia, vamos nos concentrar em dois formatos amplamente utilizados: CSV e Excel.

# Por que CSV e Excel?
CSV (Valores Separados por Vírgulas):
Arquivos CSV são simples e fáceis de ler e escrever. Eles armazenam dados em formato de tabela, onde cada linha representa um registro e cada coluna é separada por um caractere específico (geralmente uma vírgula). Essa simplicidade torna o CSV um formato muito popular para a troca de dados entre diferentes sistemas.

Excel:
Arquivos Excel (.xlsx) são mais complexos, mas oferecem recursos adicionais, como formatação e múltiplas planilhas em um único arquivo. Eles são amplamente utilizados em ambientes corporativos, especialmente quando se lida com dados que exigem mais organização e formatação.

# 2.1. Lendo Arquivos CSV

Para ler um arquivo CSV, usamos a função pd.read_csv(). Essa função é muito flexível e permite personalizar a leitura de acordo com as necessidades específicas do seu arquivo.

Exemplo Prático
Vamos carregar o conjunto de dados do Spotify:

import pandas as pd # Caminho para o arquivo CSV path = 'spotify_data.csv' # Lendo o arquivo CSV df = pd.read_csv(path, sep=',')

No exemplo acima:

pd.read_csv() é a função usada para ler o arquivo CSV.
O parâmetro `sep=',`` define o separador de colunas. No caso de arquivos CSV, o separador é geralmente uma vírgula, mas pode variar.


# 2.2. Entendendo o Separador

Um dos aspectos mais importantes ao trabalhar com arquivos CSV é o separador de colunas. Se o seu arquivo usar um separador diferente (como ponto e vírgula ou tabulação), você precisará especificá-lo na função read_csv().

Dica Prática
Se você não souber qual é o separador do seu arquivo, um truque simples é abrir o arquivo em um editor de texto (como o Bloco de Notas ou o VS Code) e observar como as colunas estão separadas.

# 2.3. Tratando Erros Comuns
Quando você está lendo um arquivo CSV, é comum enfrentar problemas como:

Erros de separador: Se o separador não for definido corretamente, o pandas pode interpretar erroneamente as colunas.
Valores faltantes: Algumas linhas podem conter valores ausentes ou inconsistentes.
Para resolver esses problemas, você pode usar os seguintes parâmetros na função read_csv():

na_values: Especifica quais valores devem ser tratados como ausentes.
error_bad_lines: Ignora linhas com formatos inválidos. Exemplo com tratamento de erros df = pd.read_csv(path, sep=',', na_values=['NA', ''], error_bad_lines=False)

# 2.4. Escrevendo Arquivos CSV

Assim como lemos arquivos CSV, também podemos salvar DataFrames em formato CSV usando a função to_csv().

Exemplo Prático
Vamos salvar um DataFrame modificado em um novo arquivo CSV:

# Salvando o DataFrame em um novo arquivo CSV df.to_csv('novo_arquivo.csv', sep=',', index=False)

No exemplo acima:

sep=',' define o separador de colunas.
index=False evita que o índice do DataFrame seja salvo no arquivo.
# 2.5. Prática: Trabalhando com o Conjunto de Dados do Spotify

Agora que você já sabe como ler e escrever arquivos CSV, vamos aplicar esses conceitos no conjunto de dados do Spotify.

Passo 1: Carregando os Dados
df = pd.read_csv('spotify_data.csv', sep=',')

Passo 2: Explorando os Dados
Você pode usar as seguintes funções para explorar os dados:

df.head(): Mostra as primeiras linhas do DataFrame.
df.info(): Fornece informações sobre as colunas e tipos de dados.
df.describe(): Gera estatísticas resumidas.
Passo 3: Salvando um Subconjunto de Dados
Suponha que você queira salvar apenas as colunas "ArtistName" e "AlbumName" em um novo arquivo CSV:

df_albums = df[['ArtistName', 'AlbumName']].drop_duplicates() df_albums.to_csv('artistas_e_albuns.csv', sep=',', index=False)

No exemplo acima:

drop_duplicates() remove linhas duplicadas.
to_csv() salva o subconjunto de dados em um novo arquivo.
