# Leitura de arquivos CSV, Excel, JSON

# Lendo CSV

## BNDESPar
- https://pt.wikipedia.org/wiki/Banco_Nacional_de_Desenvolvimento_Econ%C3%B4mico_e_Social
- https://pt.wikipedia.org/wiki/BNDESPAR
- https://dados.gov.br/dataset/renda-variavel
    - https://dadosabertos.bndes.gov.br/dataset/68a85772-df73-4c8b-8b8c-398f494fcca8/resource/10ff2d60-02d1-4619-8e42-24fc2a5927dd/download/renda-variavel-participacoes-acionarias-historico-da-carteira.csv
- https://www.bndes.gov.br/wps/portal/site/home/transparencia/consulta-operacoes-bndes/carteira-acionaria

In [1]:
import pandas as pd

In [2]:
participacoes_acionarias = pd.read_csv(
    'https://dadosabertos.bndes.gov.br/dataset/68a85772-df73-4c8b-8b8c-398f494fcca8/resource/10ff2d60-02d1-4619-8e42-24fc2a5927dd/download/renda-variavel-participacoes-acionarias-historico-da-carteira.csv',
    sep=';',
    decimal=',')
participacoes_acionarias.head()

Unnamed: 0,sigla,razao_social,cnpj,tipo_de_ativo,ano,setor_de_atividade,total_pp,on_pp,pn_pp,aberta_fechada,acordo_de_acionistas_em_vigor,indicado_para_conselho_de_administracao,indicado_para_conselho_fiscal
0,ABICO,ABICO - CIA. DE INVESTIMENTOS ÁRABE E BRASILEIRO,42.470.443/0001-96,PARTICIPAÇÃO ACIONÁRIA,2023,OUTROS SETORES,35.0,35.0,0.0,FECHADA,NÃO,NÃO,NÃO
1,ABICO,ABICO - CIA. DE INVESTIMENTOS ÁRABE E BRASILEIRO,42.470.443/0001-96,PARTICIPAÇÃO ACIONÁRIA,2022,OUTROS SETORES,35.0,35.0,0.0,FECHADA,NÃO,NÃO,NÃO
2,ABICO,ABICO - CIA. DE INVESTIMENTOS ÁRABE E BRASILEIRO,42.470.443/0001-96,PARTICIPAÇÃO ACIONÁRIA,2021,OUTROS SETORES,35.0,35.0,0.0,FECHADA,NÃO,NÃO,NÃO
3,ABICO,ABICO - CIA. DE INVESTIMENTOS ÁRABE E BRASILEIRO,42.470.443/0001-96,PARTICIPAÇÃO ACIONÁRIA,2020,OUTROS SETORES,35.0,35.0,0.0,FECHADA,NÃO,NÃO,NÃO
4,ABICO,ABICO - CIA. DE INVESTIMENTOS ÁRABE E BRASILEIRO,42.470.443/0001-96,PARTICIPAÇÃO ACIONÁRIA,2019,OUTROS SETORES,35.0,35.0,0.0,FECHADA,NÃO,NÃO,NÃO


In [3]:
participacoes_acionarias.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2213 entries, 0 to 2212
Data columns (total 13 columns):
 #   Column                                   Non-Null Count  Dtype  
---  ------                                   --------------  -----  
 0   sigla                                    2213 non-null   object 
 1   razao_social                             2213 non-null   object 
 2   cnpj                                     2212 non-null   object 
 3   tipo_de_ativo                            2213 non-null   object 
 4   ano                                      2213 non-null   int64  
 5   setor_de_atividade                       2209 non-null   object 
 6   total_pp                                 2190 non-null   float64
 7   on_pp                                    2190 non-null   float64
 8   pn_pp                                    2190 non-null   float64
 9   aberta_fechada                           2212 non-null   object 
 10  acordo_de_acionistas_em_vigor            2213 no

### Qual a quantidade de participações em cada ano?

In [4]:
participacoes_acionarias['ano'].value_counts()

ano
2011    172
2009    158
2012    157
2013    155
2010    154
2008    145
2007    143
2014    133
2006    130
2015    125
2016    124
2017    108
2018    101
2019     87
2020     87
2021     83
2023     76
2022     75
Name: count, dtype: int64

### Em quais empresas o BNDESP já teve participação?

In [5]:
participacoes_acionarias.sigla.unique()

array(['ABICO', 'AÇOS VILLARES', 'AES BRASIL ENER', 'AES COMM RJ',
       'AES ELPA', 'AES TE', 'AES TH', 'AES TIETÊ', 'AES TIETÊ ENERG',
       'AES URUGUAIANA', 'ÁGUIA', 'ALCOOLQUÍMICA', 'ALFATEST', 'ALTUS',
       'ALUPAR', 'AMATA', 'AMATA URBEM', 'AMBEV', 'AMERICANAS',
       'AMERICEL', 'ARACRUZ', 'ARCELORMITTAL', 'AUTEL', 'BANCO DO BRASIL',
       'BCPAR', 'BEMATECH', 'BERTIN', 'BIO FILL', 'BIOMM', 'BIONNOVATION',
       'BLOCKBIT', 'BM&F BOVESPA', 'BNB', 'BOM GOSTO', 'BOMBRIL',
       'BR MALLS', 'BRADESCO', 'BRADESPAR', 'BRASAGRO', 'BRASIL FOODS',
       'BRASIL TEL PART', 'BRASILIANA PART', 'BRASILINTERPART', 'BRASKEM',
       'BRASPÉROLA', 'BRICLOG', 'BRQ', 'CADAM', 'CARBOMIL', 'CASA ANGLO',
       'CASAL', 'CBD', 'CBO HOLDING', 'CBPAK', 'CCR', 'CCX', 'CEAL',
       'CEG', 'CEMIG', 'CEMIG DISTRIB.', 'CEMIG GT', 'CESP', 'CETIP S.A.',
       'CHAPECÓ', 'CI&T', 'CIELO', 'CIMETAL', 'CIPHER', 'CLAMPER',
       'CLARO', 'COMTEX', 'COMTRAFO', 'COPASA', 'COPEL', 'COSAN',
       'COSA

### Em quais empresas o BNDESP tem participação em 2021?

In [6]:
participacoes_acionarias[participacoes_acionarias['ano'] == 2021].sigla.unique()

array(['ABICO', 'AES BRASIL ENER', 'AES ELPA', 'ALCOOLQUÍMICA', 'AMATA',
       'AMATA URBEM', 'BIOMM', 'BLOCKBIT', 'BOMBRIL', 'BRASAGRO',
       'BRASILIANA PART', 'BRASILINTERPART', 'BRASPÉROLA', 'BRQ', 'CADAM',
       'CARBOMIL', 'CASA ANGLO', 'CASAL', 'CEG', 'CEMIG', 'CHAPECÓ',
       'COPASA', 'COPEL', 'COTEMINAS', 'CSN', 'CTC', 'CTC/RJ',
       'CTTU/RECIFE', 'DETEN', 'EBP', 'ELEBRA', 'ELETROBRÁS', 'EMBRAER',
       'ENERGISA', 'ENGIE BRASIL', 'ERB', 'GRANBIO', 'HIDROVIAS',
       'IGUA SANEAMENTO', 'INDEPENDÊNCIA', 'IOCHPE', 'ITAITUBA',
       'ITAUTINGA', 'JBS', 'KOSMOS', 'LBR', 'LIFEMED', 'LORENZ', 'MADEF',
       'METANOR', 'METRÔ/SP', 'NESBER', 'NETUNO', 'NILZA', 'NOVA AMERICA',
       'NOVADATA', 'OCEANA', 'OI', 'OTP', 'OURO FINO SAUDE',
       'PADTEC HOLDING', 'PARANAPANEMA', 'PETROBRAS', 'PRATICA', 'PROGEN',
       'QUALITY SOFT', 'RECEPTA', 'RENOVA', 'ROCHA', 'SAM', 'SPRINGER',
       'SPRINGS GLOBAL', 'STARA', 'SUNEW', 'TAUM CHEMIE', 'TBM',
       'TRANSNORDESTINA', 'T

# Lendo Excel


## Brasileirão
- https://github.com/adaoduque/Brasileirao_Dataset
- https://github.com/adaoduque/Brasileirao_Dataset/raw/master/campeonato-brasileiro-full.xlsx
- https://raw.githubusercontent.com/adaoduque/Brasileirao_Dataset/master/campeonato-brasileiro-estatisticas-full.csv

In [7]:
# o responsável pelo repositório arquivou o excel. Portanto basta usar a célula abaixo.
# brasileirao = pd.read_excel('https://github.com/adaoduque/Brasileirao_Dataset/raw/master/campeonato-brasileiro-full.xlsx')

In [8]:
brasileirao = pd.read_excel('https://github.com/LucasSerra/EBAC-parte-1/raw/main/mod-4/input/campeonato-brasileiro-full.xlsx')

In [9]:
brasileirao.head()

Unnamed: 0,Rodada,Data,Horário,Dia,Mandante,Visitante,Vencedor,Arena,Mandante Placar,Visitante Placar,Estado Mandante,Estado Visitante,Estado Vencedor
0,1,2000-07-29,16h00,Sábado,Fluminense,Bahia,Fluminense,Maracanã,2,0,RJ,BA,RJ
1,1,2000-07-29,16h00,Sábado,Vasco,Sport,Sport,São Januário,0,2,RJ,PE,PE
2,1,2000-07-29,16h00,Sábado,Vitória,Palmeiras,Vitória,Barradão,4,1,ES,SP,ES
3,1,2000-07-30,17h00,Domingo,Botafogo-RJ,Atlético-MG,-,Caio Martins,0,0,RJ,MG,-
4,1,2000-07-30,18h30,Domingo,Juventude,Flamengo,-,Alfredo Jaconi,1,1,RS,RJ,-


In [10]:
brasileirao.dtypes

Rodada                      object
Data                datetime64[ns]
Horário                     object
Dia                         object
Mandante                    object
Visitante                   object
Vencedor                    object
Arena                       object
Mandante Placar              int64
Visitante Placar             int64
Estado Mandante             object
Estado Visitante            object
Estado Vencedor             object
dtype: object

### Qual o maior vencedor de jogos?

In [11]:
brasileirao.Vencedor.value_counts()

Vencedor
-                  2148
São Paulo           366
Santos              333
Grêmio              322
Internacional       322
Cruzeiro            322
Flamengo            319
Corinthians         306
Athlético-PR        306
Fluminense          306
Atlético-MG         302
Palmeiras           294
Vasco               226
Goiás               223
Botafogo-RJ         210
Coritiba            194
Vitória             152
Figueirense         151
Ponte Preta         149
Sport               139
Bahia               135
Paraná              104
São Caetano         103
Juventude            96
Chapecoense          69
Guarani              63
Fortaleza            61
Portuguesa           57
Avaí                 57
Ceará                54
Náutico              54
Atlético-GO          51
Criciúma             50
Paysandu             50
América-MG           38
Botafogo-rj          26
Santa Cruz           25
Gama                 21
Bragantino           13
Barueri              12
Santo André          11
Brasili

### Qual a tabela de jogos vencidos por clube na temporada de 2020? 
(periodo temp = '2020-01-01' a '2021-02-26')

In [12]:
cond = (brasileirao['Data'] >= '2020-01-01')& (brasileirao['Data'] <= '2021-02-26')
cond

0       False
1       False
2       False
3       False
4       False
        ...  
8314     True
8315     True
8316     True
8317     True
8318     True
Name: Data, Length: 8319, dtype: bool

In [13]:
brasileirao[cond]['Vencedor'].value_counts()

Vencedor
-                108
Flamengo          21
Atlético-MG       20
Internacional     20
São Paulo         18
Fluminense        18
Palmeiras         15
Athlético-PR      15
Grêmio            14
Santos            14
Ceará             14
Bragantino        13
Corinthians       13
Atlético-GO       12
Bahia             12
Sport             12
Vasco             10
Fortaleza         10
Goiás              9
Coritiba           7
Botafogo-RJ        5
Name: count, dtype: int64

### Qual a quantidade de partidas realizadas em cada estádio?

In [None]:
brasileirao.Arena.value_counts()

# Lendo JSON

## MeiliSearch
- https://github.com/meilisearch/MeiliSearch
- https://raw.githubusercontent.com/meilisearch/MeiliSearch/main/datasets/movies/movies.json

In [None]:
movies = pd.read_json('https://raw.githubusercontent.com/meilisearch/MeiliSearch/main/datasets/movies/movies.json')

In [None]:
movies.head()

### Quais são os tipos de dados das colunas?

In [None]:
movies.dtypes

### Qual genêro predominante no conjunto de dados?

In [None]:
movies.genres.explode().value_counts()

### Qual o ano de lançamento predominante da base??

In [None]:
filmes.release_date.to_list()

In [None]:
lst[0].year

In [None]:
lst = []
for filme in filmes.release_date.to_list():
#     print(filme)
    try:
        lst.append(datetime.fromtimestamp(filme).year)
    except:
        lst.append(np.nan)
lst

In [None]:
filmes['ano'] = lst

In [None]:
filmes['ano'].value_counts()