## Leitura CSV

In [1]:
import pandas as pd

In [2]:
url = 'https://raw.githubusercontent.com/YuriArduino/Estudos_Pandas/refs/heads/data-tests/superstore_data.csv'
superstore_data = pd.read_csv(url, sep=',')
superstore_data.head()

Unnamed: 0,Id,Year_Birth,Education,Marital_Status,Income,Kidhome,Teenhome,Dt_Customer,Recency,MntWines,...,MntFishProducts,MntSweetProducts,MntGoldProds,NumDealsPurchases,NumWebPurchases,NumCatalogPurchases,NumStorePurchases,NumWebVisitsMonth,Response,Complain
0,1826,1970,Graduation,Divorced,84835.0,0,0,6/16/2014,0,189,...,111,189,218,1,4,4,6,1,1,0
1,1,1961,Graduation,Single,57091.0,0,0,6/15/2014,0,464,...,7,0,37,1,7,3,7,5,1,0
2,10476,1958,Graduation,Married,67267.0,0,1,5/13/2014,0,134,...,15,2,30,1,3,2,5,2,0,0
3,1386,1967,Graduation,Together,32474.0,1,1,11/5/2014,0,10,...,0,0,0,1,1,0,2,7,0,0
4,5371,1989,Graduation,Single,21474.0,1,0,8/4/2014,0,6,...,11,0,34,2,3,1,2,7,1,0


In [3]:
url_2 = 'https://raw.githubusercontent.com/YuriArduino/Estudos_Pandas/refs/heads/data-tests/superstore_data_ponto_virgula.csv'
superstore_data_2 = pd.read_csv(url_2, sep=';')
superstore_data_2.head()

Unnamed: 0,Id,Year_Birth,Education,Marital_Status,Income,Kidhome,Teenhome,Dt_Customer,Recency,MntWines,...,MntFishProducts,MntSweetProducts,MntGoldProds,NumDealsPurchases,NumWebPurchases,NumCatalogPurchases,NumStorePurchases,NumWebVisitsMonth,Response,Complain
0,1826,1970,Graduation,Divorced,84835.0,0,0,6/16/2014,0,189,...,111,189,218,1,4,4,6,1,1,0
1,1,1961,Graduation,Single,57091.0,0,0,6/15/2014,0,464,...,7,0,37,1,7,3,7,5,1,0
2,10476,1958,Graduation,Married,67267.0,0,1,5/13/2014,0,134,...,15,2,30,1,3,2,5,2,0,0
3,1386,1967,Graduation,Together,32474.0,1,1,11/5/2014,0,10,...,0,0,0,1,1,0,2,7,0,0
4,5371,1989,Graduation,Single,21474.0,1,0,8/4/2014,0,6,...,11,0,34,2,3,1,2,7,1,0



# Erro de encoding ao ler CSV no Pandas

Ao tentar ler um arquivo CSV com Pandas, pode surgir o erro:

```
UnicodeDecodeError: 'utf-8' codec can't decode byte ...
```

Isso acontece quando o Pandas não consegue interpretar caracteres do arquivo devido à diferença de codificação. O padrão é **UTF-8**, mas arquivos podem estar em outra codificação, como **ISO-8859-1**.

---

## Detectando a codificação do arquivo com chardet

A biblioteca `chardet` é usada para **detectar a codificação de arquivos de texto**. Ela analisa os bytes do arquivo e retorna a codificação mais provável, sem alterar o conteúdo.

```python
import chardet

with open('/*.csv', 'rb') as file:
    resultado = chardet.detect(file.read())

print(resultado)
```

O resultado é um dicionário indicando:

* `'encoding'`: codificação mais provável
* `'confidence'`: confiança da detecção (0 a 1)
* `'language'`: linguagem associada (opcional)

Exemplo de saída:

```python
{'encoding': 'ISO-8859-1', 'confidence': 0.73, 'language': ''}
```

---

## Lendo o CSV com a codificação correta

Depois de identificar a codificação, especifique-a ao carregar o arquivo no Pandas:

```python
df = pd.read_csv('/content/dados.csv', encoding='ISO-8859-1')
```

Assim, o Pandas consegue ler o arquivo sem gerar erros de encoding.

---

#Parâmetros

`nrow()s`: Este é um parâmetro que você usa com a função pd.read_csv(). Ele serve para especificar quantas linhas do arquivo CSV você quer ler. É útil quando o arquivo é muito grande e você só precisa carregar uma parte dele para ter uma ideia do conteúdo, economizando memória e tempo de processamento.

`head()`: Este é um método que você usa em um DataFrame (que já foi carregado na memória). Ele serve para exibir as primeiras N linhas do DataFrame. Por padrão, ele mostra as 5 primeiras linhas, mas você pode especificar outro número dentro dos parênteses, como em df.head(10). É usado para visualizar o início do DataFrame depois que ele já foi criado.

`nrows()`

In [4]:
# Quando temos um DataFrame muito grande e queremos apenas ter uma
# visualização geral do conteúdo.
dados_primeiras_linhas = pd.read_csv(url,nrows=5)
dados_primeiras_linhas

Unnamed: 0,Id,Year_Birth,Education,Marital_Status,Income,Kidhome,Teenhome,Dt_Customer,Recency,MntWines,...,MntFishProducts,MntSweetProducts,MntGoldProds,NumDealsPurchases,NumWebPurchases,NumCatalogPurchases,NumStorePurchases,NumWebVisitsMonth,Response,Complain
0,1826,1970,Graduation,Divorced,84835,0,0,6/16/2014,0,189,...,111,189,218,1,4,4,6,1,1,0
1,1,1961,Graduation,Single,57091,0,0,6/15/2014,0,464,...,7,0,37,1,7,3,7,5,1,0
2,10476,1958,Graduation,Married,67267,0,1,5/13/2014,0,134,...,15,2,30,1,3,2,5,2,0,0
3,1386,1967,Graduation,Together,32474,1,1,11/5/2014,0,10,...,0,0,0,1,1,0,2,7,0,0
4,5371,1989,Graduation,Single,21474,1,0,8/4/2014,0,6,...,11,0,34,2,3,1,2,7,1,0


`usecols`

In [5]:
#Parâmetro que consegue mostrar apenas algumas colunas.
dados_selecao = pd.read_csv(url, usecols=['Id', 'Year_Birth', 'Income'])
dados_selecao

Unnamed: 0,Id,Year_Birth,Income
0,1826,1970,84835.0
1,1,1961,57091.0
2,10476,1958,67267.0
3,1386,1967,32474.0
4,5371,1989,21474.0
...,...,...,...
2235,10142,1976,66476.0
2236,5263,1977,31056.0
2237,22,1976,46310.0
2238,528,1978,65819.0


In [6]:
#Podemos usar o mesmo padrão, contudo usando o Id
dados_selecao = pd.read_csv(url, usecols=[0,1,4])
dados_selecao

Unnamed: 0,Id,Year_Birth,Income
0,1826,1970,84835.0
1,1,1961,57091.0
2,10476,1958,67267.0
3,1386,1967,32474.0
4,5371,1989,21474.0
...,...,...,...
2235,10142,1976,66476.0
2236,5263,1977,31056.0
2237,22,1976,46310.0
2238,528,1978,65819.0


#Função to_csv()

`Salvar Data Frame`

In [7]:
dados_selecao.to_csv('clientes_mercado.csv')

`Ler Csv: `

In [8]:
clientes_mercado = pd.read_csv('/content/clientes_mercado.csv')
clientes_mercado.head(5)

Unnamed: 0.1,Unnamed: 0,Id,Year_Birth,Income
0,0,1826,1970,84835.0
1,1,1,1961,57091.0
2,2,10476,1958,67267.0
3,3,1386,1967,32474.0
4,4,5371,1989,21474.0


`Remover o index: `

In [9]:
dados_selecao.to_csv('dados_mercado.csv', index=False)
clientes_mercado_sem_index = pd.read_csv('/content/dados_mercado.csv')
clientes_mercado_sem_index.head(5)

Unnamed: 0,Id,Year_Birth,Income
0,1826,1970,84835.0
1,1,1961,57091.0
2,10476,1958,67267.0
3,1386,1967,32474.0
4,5371,1989,21474.0


##Exercícios


 Temos um arquivo no formato CSV, que foi obtido na página Informações de Saúde (TABNET) - DATASUS. Este arquivo contém os gastos hospitalares públicos de cada uma das Unidades da Federação brasileira no período de janeiro de 2008 a março de 2021.

1. Verifique se o arquivo CSV está separado por vírgula ou ponto e vírgula.

In [20]:
pd.read_csv('/content/dados_sus.csv', nrows=5)

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe7 in position 56: invalid continuation byte

In [21]:
import chardet

with open('/content/dados_sus.csv', 'rb') as file:
    resultado = chardet.detect(file.read())

print(resultado)

{'encoding': 'ISO-8859-1', 'confidence': 0.73, 'language': ''}


2. A codificação do arquivo é ISO-8859-1.

In [23]:
pd.read_csv('/content/dados_sus.csv', nrows=5, encoding='ISO-8859-1', sep=';')

ParserError: Error tokenizing data. C error: Expected 1 fields in line 4, saw 161


3. As três primeiras linhas linhas do arquivo podem ser desconsideradas, pois o cabeçalho só começa na quarta linha.

In [36]:
pd.read_csv('/content/dados_sus.csv', nrows=5, encoding='ISO-8859-1', sep=';', skiprows=3)

Unnamed: 0,Unidade da Federação,2008/Jan,2008/Fev,2008/Mar,2008/Abr,2008/Mai,2008/Jun,2008/Jul,2008/Ago,2008/Set,...,2020/Jul,2020/Ago,2020/Set,2020/Out,2020/Nov,2020/Dez,2021/Jan,2021/Fev,2021/Mar,Total
0,Rondônia,138852839,293128342,154168252,152531496,164595384,140615068,306527901,323149461,311717863,...,1182468713,1173330776,1020198514,795513945,935794629,888083655,926601459,773059704,1102330947,99641125468
1,Acre,90241600,149720626,179402848,173046942,181944392,182849600,251175459,208910714,227570853,...,391519320,364014282,339124221,404432144,327659010,369699731,371572312,353842792,407704592,45004853047
2,Amazonas,473552942,711899057,819663549,825937842,783139990,847727362,936885872,935253270,936309935,...,1976946014,1805993143,1784101563,1640831510,1989561791,1776516769,2143028917,2591713455,2203217622,191724793605
3,Roraima,65788953,77793931,71868803,83999439,86234796,83244066,99669309,89427118,91042417,...,301548830,282648618,292804391,309031373,362103105,345446094,326692847,351977373,398553008,32887696509
4,Pará,1886474411,1955375820,2193734270,2084282969,2324995288,2324068756,2400222356,2334121803,2517226132,...,4080412643,4438571588,3682024947,3696593134,3900431580,3801514579,3835468246,3768831423,3327639289,470530900229


In [37]:
pd.read_csv('/content/dados_sus.csv', encoding='ISO-8859-1', sep=';', skiprows=3)

Unnamed: 0,Unidade da Federação,2008/Jan,2008/Fev,2008/Mar,2008/Abr,2008/Mai,2008/Jun,2008/Jul,2008/Ago,2008/Set,...,2020/Jul,2020/Ago,2020/Set,2020/Out,2020/Nov,2020/Dez,2021/Jan,2021/Fev,2021/Mar,Total
0,Rondônia,138852839.0,293128342.0,154168252.0,152531496.0,164595384.0,140615068.0,306527901.0,323149461.0,311717863.0,...,1182468713.0,1173330776.0,1020198514.0,795513945.0,935794629.0,888083655.0,926601459.0,773059704.0,1102330947.0,99641125468.0
1,Acre,90241600.0,149720626.0,179402848.0,173046942.0,181944392.0,182849600.0,251175459.0,208910714.0,227570853.0,...,391519320.0,364014282.0,339124221.0,404432144.0,327659010.0,369699731.0,371572312.0,353842792.0,407704592.0,45004853047.0
2,Amazonas,473552942.0,711899057.0,819663549.0,825937842.0,783139990.0,847727362.0,936885872.0,935253270.0,936309935.0,...,1976946014.0,1805993143.0,1784101563.0,1640831510.0,1989561791.0,1776516769.0,2143028917.0,2591713455.0,2203217622.0,191724793605.0
3,Roraima,65788953.0,77793931.0,71868803.0,83999439.0,86234796.0,83244066.0,99669309.0,89427118.0,91042417.0,...,301548830.0,282648618.0,292804391.0,309031373.0,362103105.0,345446094.0,326692847.0,351977373.0,398553008.0,32887696509.0
4,Pará,1886474411.0,1955375820.0,2193734270.0,2084282969.0,2324995288.0,2324068756.0,2400222356.0,2334121803.0,2517226132.0,...,4080412643.0,4438571588.0,3682024947.0,3696593134.0,3900431580.0,3801514579.0,3835468246.0,3768831423.0,3327639289.0,470530900229.0
5,Amapá,112097334.0,126874033.0,97465124.0,114113732.0,86634618.0,144097895.0,142665948.0,147555138.0,165134143.0,...,325339945.0,294639844.0,241601923.0,220373204.0,221853226.0,256691960.0,280288634.0,281784931.0,318821098.0,30986009259.0
6,Tocantins,344159269.0,498568885.0,620561260.0,498448209.0,551100246.0,492793422.0,544560228.0,541371038.0,559666950.0,...,915557236.0,839026772.0,872963249.0,777088566.0,52784046.0,67527705.0,41955349.0,31916087.0,135775133.0,102002827264.0
7,Maranhão,1072350639.0,1355967941.0,1398514236.0,1480941646.0,1450572738.0,1490809132.0,1578489940.0,1519531289.0,1495127775.0,...,3547348949.0,3221903729.0,3007715272.0,3320077847.0,3194267033.0,3078340358.0,3073875031.0,3092448499.0,3966367748.0,387106949804.0
8,Piauí,798514243.0,1007992825.0,1029837245.0,1077597633.0,1039836088.0,1052825388.0,1104010792.0,1054917640.0,1089919897.0,...,1990857327.0,2566353749.0,2023078272.0,2238921572.0,1891160450.0,2088397279.0,2268939032.0,1940026901.0,2001832575.0,228088880274.0
9,Ceará,1553982190.0,2573510155.0,2872462575.0,3067645706.0,3060445347.0,3127239518.0,3092539136.0,2785143872.0,3036271990.0,...,5601950633.0,6171949169.0,5662591977.0,5907459633.0,5691649966.0,5084935322.0,5207821888.0,5317125341.0,6207961854.0,659183665018.0


4. As 9 últimas linhas também podem ser desconsideradas, pois são apenas informações sobre onde os dados foram obtidos.

5. Para deletar as últimas linhas é necessário adicionar o parâmetro engine='python'.

In [43]:
pd.read_csv('/content/dados_sus.csv', encoding='ISO-8859-1', sep=';', skiprows=3).tail(7)

Unnamed: 0,Unidade da Federação,2008/Jan,2008/Fev,2008/Mar,2008/Abr,2008/Mai,2008/Jun,2008/Jul,2008/Ago,2008/Set,...,2020/Jul,2020/Ago,2020/Set,2020/Out,2020/Nov,2020/Dez,2021/Jan,2021/Fev,2021/Mar,Total
28,Fonte: Ministério da Saúde - Sistema de Infor...,,,,,,,,,,...,,,,,,,,,,
29,Notas:,,,,,,,,,,...,,,,,,,,,,
30,"Dados referentes aos últimos seis meses, suje...",,,,,,,,,,...,,,,,,,,,,
31,"A partir do processamento de junho de 2012, h...",,,,,,,,,,...,,,,,,,,,,
32,Até maio de 2012 estas informações estão...,,,,,,,,,,...,,,,,,,,,,
33,"De junho de 2012 a outubro de 2015, estã...",,,,,,,,,,...,,,,,,,,,,
34,"A partir de novembro de 2015, estão disp...",,,,,,,,,,...,,,,,,,,,,


In [31]:
# Lê o arquivo CSV
# encoding='ISO-8859-1': especifica a codificação do arquivo para que caracteres especiais sejam lidos corretamente.
# sep=';': especifica que o delimitador entre as colunas é ponto e vírgula.
# skiprows=3: pula as 3 primeiras linhas do arquivo, que não fazem parte dos dados.
# skipfooter=9: pula as 9 últimas linhas do arquivo, que são informações adicionais.
# engine='python': necessário para usar o parâmetro skipfooter.

pd.read_csv('/content/dados_sus.csv', encoding='ISO-8859-1', sep=';', skiprows=3, skipfooter=9, engine='python')

Unnamed: 0,Unidade da Federação,2008/Jan,2008/Fev,2008/Mar,2008/Abr,2008/Mai,2008/Jun,2008/Jul,2008/Ago,2008/Set,...,2020/Jul,2020/Ago,2020/Set,2020/Out,2020/Nov,2020/Dez,2021/Jan,2021/Fev,2021/Mar,Total
0,Rondônia,138852839,293128342,154168252,152531496,164595384,140615068,306527901,323149461,311717863,...,1182468713,1173330776,1020198514,795513945,935794629,888083655,926601459,773059704,1102330947,99641125468
1,Acre,90241600,149720626,179402848,173046942,181944392,182849600,251175459,208910714,227570853,...,391519320,364014282,339124221,404432144,327659010,369699731,371572312,353842792,407704592,45004853047
2,Amazonas,473552942,711899057,819663549,825937842,783139990,847727362,936885872,935253270,936309935,...,1976946014,1805993143,1784101563,1640831510,1989561791,1776516769,2143028917,2591713455,2203217622,191724793605
3,Roraima,65788953,77793931,71868803,83999439,86234796,83244066,99669309,89427118,91042417,...,301548830,282648618,292804391,309031373,362103105,345446094,326692847,351977373,398553008,32887696509
4,Pará,1886474411,1955375820,2193734270,2084282969,2324995288,2324068756,2400222356,2334121803,2517226132,...,4080412643,4438571588,3682024947,3696593134,3900431580,3801514579,3835468246,3768831423,3327639289,470530900229
5,Amapá,112097334,126874033,97465124,114113732,86634618,144097895,142665948,147555138,165134143,...,325339945,294639844,241601923,220373204,221853226,256691960,280288634,281784931,318821098,30986009259
6,Tocantins,344159269,498568885,620561260,498448209,551100246,492793422,544560228,541371038,559666950,...,915557236,839026772,872963249,777088566,52784046,67527705,41955349,31916087,135775133,102002827264
7,Maranhão,1072350639,1355967941,1398514236,1480941646,1450572738,1490809132,1578489940,1519531289,1495127775,...,3547348949,3221903729,3007715272,3320077847,3194267033,3078340358,3073875031,3092448499,3966367748,387106949804
8,Piauí,798514243,1007992825,1029837245,1077597633,1039836088,1052825388,1104010792,1054917640,1089919897,...,1990857327,2566353749,2023078272,2238921572,1891160450,2088397279,2268939032,1940026901,2001832575,228088880274
9,Ceará,1553982190,2573510155,2872462575,3067645706,3060445347,3127239518,3092539136,2785143872,3036271990,...,5601950633,6171949169,5662591977,5907459633,5691649966,5084935322,5207821888,5317125341,6207961854,659183665018


O motor de leitura padrão do `pandas` (é baseado em C, para ser mais rápido) não suporta essa funcionalidade.

O motor `Python` é mais flexível e consegue lidar com o skipfooter, mas pode ser um pouco mais lento para arquivos muito grandes em comparação com o motor C. Por isso, o pandas usa o motor C por padrão e exige especificar explicitamente engine='python' para funcionalidades como skipfooter.