# pandas lendo csv da internet

### Essa é uma das formas de importar arquivos da internet, direto do pandas. Mas nem sempre você vai conseguir abrir assim direto.

### 2 situações principais em que você consegue fazer direto

1. Arquivo csv direto no link (melhor dos mundos)
2. O arquivo csv é gerado para você, mas fica no meio de uma requisição que precisa ser tratada.

### Caso 1: csv direto no link

- Criei um arquivo csv e disponibilizei o link para download no Drive: https://drive.google.com/uc?authuser=0&id=1Ru7s-x3YJuStZK1mqr_qNqiHVvdHUN66&export=download

In [9]:
import pandas as pd

url = "https://drive.google.com/uc?authuser=0&id=1Ru7s-x3YJuStZK1mqr_qNqiHVvdHUN66&export=download"
df = pd.read_csv(url)
display(df.head())

Unnamed: 0,Date,Price,Open,High,Low,Change %
0,"Jan 01, 2020",4.0195,4.0195,4.0195,4.0195,0.00%
1,"Dec 31, 2019",4.0195,4.0201,4.0201,4.0195,0.00%
2,"Dec 30, 2019",4.0195,4.0484,4.0484,4.0084,-0.65%
3,"Dec 27, 2019",4.046,4.0568,4.0614,4.0339,-0.25%
4,"Dec 26, 2019",4.056,4.0827,4.0827,4.0453,-0.68%


In [10]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3913 entries, 0 to 3912
Data columns (total 6 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Date      3913 non-null   object 
 1   Price     3913 non-null   float64
 2   Open      3913 non-null   float64
 3   High      3913 non-null   float64
 4   Low       3913 non-null   float64
 5   Change %  3913 non-null   object 
dtypes: float64(4), object(2)
memory usage: 183.6+ KB


In [13]:
df_data = df.copy()
df_data['Data'] = pd.to_datetime(df_data['Date'], format='%b %d, %Y')
df_data.head()

Unnamed: 0,Date,Price,Open,High,Low,Change %,Data
0,"Jan 01, 2020",4.0195,4.0195,4.0195,4.0195,0.00%,2020-01-01
1,"Dec 31, 2019",4.0195,4.0201,4.0201,4.0195,0.00%,2019-12-31
2,"Dec 30, 2019",4.0195,4.0484,4.0484,4.0084,-0.65%,2019-12-30
3,"Dec 27, 2019",4.046,4.0568,4.0614,4.0339,-0.25%,2019-12-27
4,"Dec 26, 2019",4.056,4.0827,4.0827,4.0453,-0.68%,2019-12-26


### Caso 2: csv em uma requisição que precisa ser tratada

Pesquisei por histórico de preços do café no Google e cheguei nesse site: https://portalweb.cooxupe.com.br:9080/portal/precohistoricocafe_2.jsp

In [34]:
import requests
import pandas as pd
import io 


url2 = 'https://portalweb.cooxupe.com.br:9080/portal/precohistoricocafe_2.jsp?d-3496238-e=2&6578706f7274=1'

conexao = requests.get(url2).content
arquivo = io.StringIO(conexao.decode('latin1'))
df_cafe = pd.read_csv(arquivo, sep='\\t', engine='python')
df_cafe.head()

Unnamed: 0,"""Ano""","""Janeiro""","""Fevereiro""","""Março""","""Abril""","""Maio""","""Junho""","""Julho""","""Agosto""","""Setembro""","""Outubro""","""Novembro""","""Dezembro"""
0,"""2025""","""2256.79""","""2564.1""","""2554.43""","""2564.42""","""2382.57""","""2152.81""","""""","""""","""""","""""","""""",""""""
1,"""2024""","""974.46""","""1005.54""","""1023.45""","""1145.12""","""1186.17""","""1240.85""","""1216.35""","""1279.77""","""1316.36""","""1463.25""","""1732.67""","""2063.69"""
2,"""2023""","""1030.14""","""1130.26""","""1103.37""","""1115.24""","""1030.64""","""927.88""","""878.5""","""868.24""","""802.59""","""800.95""","""845.6""","""925.46"""
3,"""2022""","""1480.49""","""1488.11""","""1258.22""","""1253.25""","""1259.21""","""1256.28""","""1119.45""","""1075.91""","""1098.56""","""1032.75""","""915.26""","""994.22"""
4,"""2021""","""639.23""","""695.33""","""726.88""","""744.05""","""811.06""","""793.67""","""762.36""","""772.03""","""851.11""","""1113.29""","""1285.94""","""1446.66"""


### Apenas para lembrar os tipos de encoding principais que vamos usar:

- encoding='latin1'
- encoding='ISO-8859-1'
- encoding='utf-8'
- encoding='cp1252'