# Leitura de arquivos CSV, Excel, JSON

# Lendo CSV

## BNDESPar
- https://pt.wikipedia.org/wiki/Banco_Nacional_de_Desenvolvimento_Econ%C3%B4mico_e_Social
- https://pt.wikipedia.org/wiki/BNDESPAR
- https://dados.gov.br/dataset/renda-variavel
    - https://dadosabertos.bndes.gov.br/dataset/68a85772-df73-4c8b-8b8c-398f494fcca8/resource/10ff2d60-02d1-4619-8e42-24fc2a5927dd/download/renda-variavel-participacoes-acionarias-historico-da-carteira.csv
- https://www.bndes.gov.br/wps/portal/site/home/transparencia/consulta-operacoes-bndes/carteira-acionaria

In [1]:
import pandas as pd

In [2]:
participacoes_acionarias = pd.read_csv(
    'https://dadosabertos.bndes.gov.br/dataset/68a85772-df73-4c8b-8b8c-398f494fcca8/resource/10ff2d60-02d1-4619-8e42-24fc2a5927dd/download/renda-variavel-participacoes-acionarias-historico-da-carteira.csv',
    sep=';',
    decimal=',')
participacoes_acionarias.head()

Unnamed: 0,sigla,razao_social,cnpj,tipo_de_ativo,ano,setor_de_atividade,total_pp,on_pp,pn_pp,aberta_fechada,acordo_de_acionistas_em_vigor,indicado_para_conselho_de_administracao,indicado_para_conselho_fiscal
0,ABICO,ABICO - CIA. DE INVESTIMENTOS ÁRABE E BRASILEIRO,42.470.443/0001-96,PARTICIPAÇÃO ACIONÁRIA,2024,OUTROS SETORES,35.0,35.0,0.0,FECHADA,NÃO,NÃO,NÃO
1,ABICO,ABICO - CIA. DE INVESTIMENTOS ÁRABE E BRASILEIRO,42.470.443/0001-96,PARTICIPAÇÃO ACIONÁRIA,2023,OUTROS SETORES,35.0,35.0,0.0,FECHADA,NÃO,NÃO,NÃO
2,ABICO,ABICO - CIA. DE INVESTIMENTOS ÁRABE E BRASILEIRO,42.470.443/0001-96,PARTICIPAÇÃO ACIONÁRIA,2022,OUTROS SETORES,35.0,35.0,0.0,FECHADA,NÃO,NÃO,NÃO
3,ABICO,ABICO - CIA. DE INVESTIMENTOS ÁRABE E BRASILEIRO,42.470.443/0001-96,PARTICIPAÇÃO ACIONÁRIA,2021,OUTROS SETORES,35.0,35.0,0.0,FECHADA,NÃO,NÃO,NÃO
4,ABICO,ABICO - CIA. DE INVESTIMENTOS ÁRABE E BRASILEIRO,42.470.443/0001-96,PARTICIPAÇÃO ACIONÁRIA,2020,OUTROS SETORES,35.0,35.0,0.0,FECHADA,NÃO,NÃO,NÃO


In [3]:
participacoes_acionarias.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2287 entries, 0 to 2286
Data columns (total 13 columns):
 #   Column                                   Non-Null Count  Dtype  
---  ------                                   --------------  -----  
 0   sigla                                    2287 non-null   object 
 1   razao_social                             2287 non-null   object 
 2   cnpj                                     2286 non-null   object 
 3   tipo_de_ativo                            2287 non-null   object 
 4   ano                                      2287 non-null   int64  
 5   setor_de_atividade                       2283 non-null   object 
 6   total_pp                                 2264 non-null   float64
 7   on_pp                                    2264 non-null   float64
 8   pn_pp                                    2264 non-null   float64
 9   aberta_fechada                           2286 non-null   object 
 10  acordo_de_acionistas_em_vigor            2287 no

### Qual a quantidade de participações em cada ano?

In [4]:
participacoes_acionarias['ano'].value_counts()

ano
2011    172
2009    158
2012    157
2013    155
2010    154
2008    145
2007    143
2014    133
2006    130
2015    125
2016    124
2017    108
2018    101
2019     87
2020     87
2021     83
2023     75
2022     75
2024     75
Name: count, dtype: int64

### Em quais empresas o BNDESP já teve participação?

In [None]:
participacoes_acionarias.sigla.unique()

### Em quais empresas o BNDESP tem participação em 2021?

In [None]:
participacoes_acionarias[participacoes_acionarias['ano'] == 2021].sigla.unique()

# Lendo Excel


## Brasileirão
- https://github.com/adaoduque/Brasileirao_Dataset
- https://github.com/adaoduque/Brasileirao_Dataset/raw/master/campeonato-brasileiro-full.xlsx
- https://raw.githubusercontent.com/adaoduque/Brasileirao_Dataset/master/campeonato-brasileiro-estatisticas-full.csv

In [None]:
# o responsável pelo repositório arquivou o excel. Portanto basta usar a célula abaixo.
# brasileirao = pd.read_excel('https://github.com/adaoduque/Brasileirao_Dataset/raw/master/campeonato-brasileiro-full.xlsx')

In [None]:
brasileirao = pd.read_excel('https://github.com/LucasSerra/EBAC-parte-1/raw/main/mod-4/input/campeonato-brasileiro-full.xlsx')

In [None]:
brasileirao.head()

In [None]:
brasileirao.dtypes

### Qual o maior vencedor de jogos?

In [None]:
brasileirao.Vencedor.value_counts()

### Qual a tabela de jogos vencidos por clube na temporada de 2020? 
(periodo temp = '2020-01-01' a '2021-02-26')

In [None]:
cond = (brasileirao['Data'] >= '2020-01-01')& (brasileirao['Data'] <= '2021-02-26')
cond

In [None]:
brasileirao[cond]['Vencedor'].value_counts()

### Qual a quantidade de partidas realizadas em cada estádio?

In [None]:
brasileirao.Arena.value_counts()

# Lendo JSON

## MeiliSearch
- https://github.com/meilisearch/MeiliSearch
- https://raw.githubusercontent.com/meilisearch/MeiliSearch/main/datasets/movies/movies.json

In [None]:
movies = pd.read_json('https://raw.githubusercontent.com/meilisearch/MeiliSearch/main/datasets/movies/movies.json')

In [None]:
movies.head()

### Quais são os tipos de dados das colunas?

In [None]:
movies.dtypes

### Qual genêro predominante no conjunto de dados?

In [None]:
movies.genres.explode().value_counts()

### Qual o ano de lançamento predominante da base??

In [None]:
filmes.release_date.to_list()

In [None]:
lst[0].year

In [None]:
lst = []
for filme in filmes.release_date.to_list():
#     print(filme)
    try:
        lst.append(datetime.fromtimestamp(filme).year)
    except:
        lst.append(np.nan)
lst

In [None]:
filmes['ano'] = lst

In [None]:
filmes['ano'].value_counts()