# <center>Curso de Modelagem de Dados para IA - PARTE 4</center>

<img src="img/image.jpg" alt="Drawing" style="width: 300px;"/>


## Lendo Dados Tabulares e Arrays
### E/S para Matrizes NumPy
Quando se trabalha apenas com arrays NumPy, há uma variedade de funções para E/S de array, documentadas <a href="https://docs.scipy.org/doc/numpy/reference/routines.io.html">aqui</a>. Essas funções diferem se os dados são armazenados em um arquivo em texto simples, um arquivo .npy binário, um arquivo .npz compactado ou em um arquivo de texto.

### E/S para arrays em outros formatos
Dados de matrizes, ou coleções de matrizes agrupadas, às vezes são produzidas e/ou armazenadas em outros formatos, como ***HDF5***, ***MATLAB .mat***, ***IDL*** e ***NetCDF***. O módulo ***h5py*** fornece uma interface Python para arquivos HDF5, extraindo conjuntos de dados nomeados em matrizes numpy. O módulo ***scipy.io*** fornece funções para ler e gravar arquivos *mat* estilo MATLAB (versão 4 a 7.1), arquivos *IDL*, arquivos *Matrix Market*, arquivos *Fortran* não formatados, arquivos *netcdf*, arquivos *Harwell-Boeing*, arquivos de som *WAV* e arquivos *arff*.

### E/S para Dataframes Pandas
Para lidar com dados tabulares, o Pandas fornece várias funções úteis para ler dados em diferentes formatos, incluindo (mas não limitado a):

- **read_csv**: leitura de um arquivo simples CSV (separado por vírgula) para um DataFrame
- **read_excel**: leitura de uma tabela do Excel para um DataFrame
- **read_sql_query**: leitura dos resultados de uma consulta SQL em um banco de dados para um DataFrame

Além disso, existem métodos de saída correspondentes para gravar dataframes em arquivos em vários formatos (por exemplo, *DataFrame.to_csv()*, *DataFrame.to_excel()*. A documentação on-line sobre todas as funções de E/S disponíveis pode ser encontrada <a href="https://pandas.pydata.org/pandas-docs/stable/reference/frame.html#serialization-io-conversion">aqui</a>.

A seguir, examinaremos algumas dessas funções de entrada com os diferentes conjuntos de dados.

### Lendo dados formatados em CSV para dataframes
Como os dados do dataset sobre Beisebol são todos armazenados em arquivos *csv*, podemos usar a função ***read_csv*** do pandas para ingerir esses dados. Conforme observado, os dados não estão apenas em um único arquivo csv, mas em 27 deles. Felizmente, o módulo *glob* — parte da Python Standard Library — fornece uma função conveniente que pode ser usada para identificar todos os arquivos *csv* em um diretório especificado, sem precisar digitar todos os nomes. O código a seguir define e chama uma função que usa *glob.glob* para obter os nomes de todos os arquivos *csv* em um diretório especificado e, em seguida, a função *pd.read_csv* para converter cada arquivo em um DataFrame pandas. Todos os DataFrames são armazenados e retornados em um dicionário Python chamado *dfs*, digitado no nome do arquivo *csv* associado (sem o sufixo ".csv" à direita):

In [17]:
import glob, os
import pandas as pd

In [18]:
def read_all_databank_core_csv(directory):
    """
    read all csv files in the specified baseball databank directory and
    populate a dictionary storing each of the tables keyed to its name
    """
    dfs = {}
    files = glob.glob('{}/*.csv'.format(directory))
    for f in files:
        d, name = os.path.split(f)
        table = os.path.splitext(name)[0]
        df = pd.read_csv(f)
        dfs[table] = df
    return dfs

bbdfs = read_all_databank_core_csv('data/baseballdatabank/core')


Para facilitar o acesso a alguns dataframes com os quais iremos trabalhar, podemos criar algumas variáveis para referenciar essas tabelas com mais facilidade:

In [11]:
# extract a few for further processing
batting = bbdfs['Batting']
pitching = bbdfs['Pitching']
teams = bbdfs['Teams']

Ao trabalhar com um novo conjunto de dados, geralmente é bom dar uma olhada para ter uma ideia do que os dados contêm. Podemos verificar as primeiras linhas de alguns deles com o método ***head()*** (o número padrão de linhas é 5):

In [12]:
batting.head()

Unnamed: 0,playerID,yearID,stint,teamID,lgID,G,AB,R,H,2B,...,RBI,SB,CS,BB,SO,IBB,HBP,SH,SF,GIDP
0,abercda01,1871,1,TRO,,1,4,0,0,0,...,0.0,0.0,0.0,0,0.0,,,,,0.0
1,addybo01,1871,1,RC1,,25,118,30,32,6,...,13.0,8.0,1.0,4,0.0,,,,,0.0
2,allisar01,1871,1,CL1,,29,137,28,40,4,...,19.0,3.0,1.0,2,5.0,,,,,1.0
3,allisdo01,1871,1,WS3,,27,133,28,44,10,...,27.0,1.0,1.0,0,2.0,,,,,0.0
4,ansonca01,1871,1,RC1,,25,120,29,39,11,...,16.0,6.0,2.0,2,1.0,,,,,0.0


In [16]:
teams.head()

Unnamed: 0,yearID,lgID,teamID,franchID,divID,Rank,G,Ghome,W,L,...,DP,FP,name,park,attendance,BPF,PPF,teamIDBR,teamIDlahman45,teamIDretro
0,1871,,BS1,BNA,,3,31,,20,10,...,24,0.834,Boston Red Stockings,South End Grounds I,,103,98,BOS,BS1,BS1
1,1871,,CH1,CNA,,2,28,,19,9,...,16,0.829,Chicago White Stockings,Union Base-Ball Grounds,,104,102,CHI,CH1,CH1
2,1871,,CL1,CFC,,8,29,,10,19,...,15,0.818,Cleveland Forest Citys,National Association Grounds,,96,100,CLE,CL1,CL1
3,1871,,FW1,KEK,,7,19,,7,12,...,8,0.803,Fort Wayne Kekiongas,Hamilton Field,,101,107,KEK,FW1,FW1
4,1871,,NY2,NNA,,5,33,,16,17,...,14,0.84,New York Mutuals,Union Grounds (Brooklyn),,90,88,NYU,NY2,NY2


E podemos obter algumas informações básicas de resumo sobre esses vários dataframes com o método ***info()***. Vemos, por exemplo, que a tabela de dados de rebatidas contém 107.429 linhas, 22 colunas e usa aproximadamente 18,0 MB de memória:

In [13]:
batting.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 107429 entries, 0 to 107428
Data columns (total 22 columns):
 #   Column    Non-Null Count   Dtype  
---  ------    --------------   -----  
 0   playerID  107429 non-null  object 
 1   yearID    107429 non-null  int64  
 2   stint     107429 non-null  int64  
 3   teamID    107429 non-null  object 
 4   lgID      106691 non-null  object 
 5   G         107429 non-null  int64  
 6   AB        107429 non-null  int64  
 7   R         107429 non-null  int64  
 8   H         107429 non-null  int64  
 9   2B        107429 non-null  int64  
 10  3B        107429 non-null  int64  
 11  HR        107429 non-null  int64  
 12  RBI       106673 non-null  float64
 13  SB        105061 non-null  float64
 14  CS        83888 non-null   float64
 15  BB        107429 non-null  int64  
 16  SO        105329 non-null  float64
 17  IBB       70778 non-null   float64
 18  HBP       104612 non-null  float64
 19  SH        101360 non-null  float64
 20  SF  

### Lendo planilhas do Excel em dataframes
Enquanto os dados do dataset sobre Beisebol são armazenados em arquivos *csv*, os dados do California Wildfire estão em uma planilha do **Excel**, mas podemos usar uma função pandas semelhante para lê-los. Um arquivo de planilha pode conter várias planilhas, portanto, geralmente será necessário especificar quais nomes de planilhas ler. No caso dos dados de incêndios florestais, os incêndios dos anos 1878 a 2016 são armazenados na planilha denominada "2016" e os incêndios do ano de 2017 estão na planilha denominada "2017". Por enquanto, vamos ler apenas os dados incluídos na planilha de 2016, usando a função ***read_excel***. Revisitaremos esse conjunto de dados mais tarde para examiná-lo com mais detalhes, mas por enquanto podemos dar um pequena espiada.

In [14]:
df16 = pd.read_excel('data/wildfires/Fires_100.xlsx', sheet_name='2016')

In [15]:
df16.head()

Unnamed: 0,YEAR,STATE,AGENCY,UNIT_ID,FIRE_NAME,INC_NUM,ALARM_DATE,CONT_DATE,CAUSE,COMMENTS,REPORT_AC,GIS_ACRES,C_METHOD,OBJECTIVE
0,1878,California,Contract County,Los Angeles County,,0,<Null>,<Null>,14 - Unknown / Unidentified,,<Null>,59468.88,<Null>,Suppression (Wildfire)
1,1895,California,Contract County,Los Angeles County,,0,<Null>,<Null>,14 - Unknown / Unidentified,,<Null>,628.1136,<Null>,Suppression (Wildfire)
2,1896,California,Contract County,Los Angeles County,,0,<Null>,<Null>,14 - Unknown / Unidentified,,<Null>,7531.717,<Null>,Suppression (Wildfire)
3,1898,California,Contract County,Los Angeles County,,0,<Null>,<Null>,14 - Unknown / Unidentified,,<Null>,1660.103,<Null>,Suppression (Wildfire)
4,1898,California,Contract County,Los Angeles County,,0,<Null>,<Null>,14 - Unknown / Unidentified,,<Null>,428.4387,<Null>,Suppression (Wildfire)
