# Disciplina de Mineração de Dados

## Introdução aos Pandas

Universidade Federal de Sergipe, Campus Prof. Alberto Carvalho - Itabaiana

Professores:

- Raphael Silva Fontes

- Prof. Dr. Methanias Colaço Rodrigues Júnior

---

### Lendo e escrevendo dados em formato texto

| Função | Descrição |
| --- | --- |
| read_csv | Carrega dados delimitados de um arquivo, uma URl ou um objeto do tipo arquivo; utiliza vírgula como delimitador padrão.
| read_table | Carrega dados delimitados de um arquivo, uma URl ou um objeto do tipo arquivo; utiliza a tabulação ('\t') como delimitador padrão. | 
| read_fwf | Lê dados em formato de coluna com tamanho fixo; sem delimitadores |
| read_clipboard | versão da função read_table que lê dados da área de transferência (clipboard, ctrl c); é bastante útil para converter tabelas de página web |
| read_excel | Lê ddos tabulares de um arquivo Excel XLS ou XLSX |
| read_hdf | Lê arquivos HDF5 escritos pelo pandas |
| read_html | Lê todas as tabelas que se encontram no documento HTML especificado |
| read_json | Lê dados de uma representação em string JSON |
| read_msgpack | Lê dados codificados pelo pandas no formato binário MessagePack |
| read_pickle | Lê um objeto arbitrário armazenado no formato pickle do Python |
| read_sas | Lê um conjunto de dados SAS armazenados em um dos formatos personalizados do sistema SAS |
| read_sql | Lê o resultado de uma consulta SQL na forma de DataFrame do Pandas; Utiliza o SQLAlchemy |
| read_stata | Lê um conjunto de dados no formato de arquivo Stata |
| read_feather | Lê o formato de arquivo binário Feather |

Importamos o pacote pandas

In [None]:
import pandas as pd

Lembro o arquivo brazil_covid19_cities.csv e atribuimos-o a um DataFrame

In [None]:
df = pd.read_csv('brazil_covid19_cities.csv')

Apresentamos o cabeçalho do nosso DataFrame

In [None]:
df.head()

Unnamed: 0,date,state,name,code,cases,deaths
0,2020-03-27,AC,Acrelândia,120001.0,0,0
1,2020-03-27,AC,Assis Brasil,120005.0,0,0
2,2020-03-27,AC,Brasiléia,120010.0,0,0
3,2020-03-27,AC,Bujari,120013.0,0,0
4,2020-03-27,AC,Capixaba,120017.0,0,0


Verificamos quantidade de linhas, colunas, tipos dos dados nas colunas e se há algum dado falando

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1297810 entries, 0 to 1297809
Data columns (total 6 columns):
 #   Column  Non-Null Count    Dtype  
---  ------  --------------    -----  
 0   date    1297810 non-null  object 
 1   state   1297810 non-null  object 
 2   name    1297810 non-null  object 
 3   code    1297810 non-null  float64
 4   cases   1297810 non-null  int64  
 5   deaths  1297810 non-null  int64  
dtypes: float64(1), int64(2), object(3)
memory usage: 59.4+ MB


Verificamos como estão distribuidos os dados do nosso DataFrame

In [None]:
df.describe()

Unnamed: 0,code,cases,deaths
count,1297810.0,1297810.0,1297810.0
mean,325358.6,441.4245,14.35516
std,98482.23,3885.948,184.2846
min,110001.0,0.0,0.0
25%,251210.0,1.0,0.0
50%,314627.5,33.0,1.0
75%,411920.0,187.0,4.0
max,530010.0,330266.0,13949.0


Buscamos os estados que estão presentes

In [None]:
df['state'].unique()

array(['AC', 'AL', 'AM', 'AP', 'BA', 'CE', 'DF', 'ES', 'GO', 'MA', 'MG',
       'MS', 'MT', 'PA', 'PB', 'PE', 'PI', 'PR', 'RJ', 'RN', 'RO', 'RR',
       'RS', 'SC', 'SE', 'SP', 'TO'], dtype=object)

Selecionamos um estado para explorarmos os seus dados

In [None]:
df_sergipe = df.loc[df['state'] == 'SE']

Verificamos quantos e quais municípios estão presentes

In [None]:
df_sergipe['name'].unique(), len(df_sergipe['name'].unique())

(array(['Amparo de São Francisco', 'Aquidabã', 'Aracaju', 'Arauá',
        'Areia Branca', 'Barra dos Coqueiros', 'Boquim', 'Brejo Grande',
        'Campo do Brito', 'Canhoba', 'Canindé de São Francisco', 'Capela',
        'Carira', 'Carmópolis', 'Cedro de São João', 'Cristinápolis',
        'Cumbe', 'Divina Pastora', 'Estância', 'Feira Nova', 'Frei Paulo',
        'Gararu', 'General Maynard', 'Gracho Cardoso', 'Ilha das Flores',
        'Indiaroba', 'Itabaiana', 'Itabaianinha', 'Itabi',
        "Itaporanga d'Ajuda", 'Japaratuba', 'Japoatã', 'Lagarto',
        'Laranjeiras', 'Macambira', 'Malhada dos Bois', 'Malhador',
        'Maruim', 'Moita Bonita', 'Monte Alegre de Sergipe', 'Muribeca',
        'Neópolis', 'Nossa Senhora Aparecida', 'Nossa Senhora da Glória',
        'Nossa Senhora das Dores', 'Nossa Senhora de Lourdes',
        'Nossa Senhora do Socorro', 'Pacatuba', 'Pedra Mole', 'Pedrinhas',
        'Pinhão', 'Pirambu', 'Poço Redondo', 'Poço Verde',
        'Porto da Folha', 'Pr

Vamos observar como foi o crescimento de casos no estado por dia.

In [None]:
df_sergipe.groupby('date', as_index=False).sum()

Unnamed: 0,date,code,cases,deaths,mes,new_cases,new_deaths
0,2020-03-27,21029422.0,0,0,225,0.0,0.0
1,2020-03-28,21029422.0,16,0,225,0.0,0.0
2,2020-03-29,21029422.0,16,0,225,0.0,0.0
3,2020-03-30,21029422.0,16,0,225,0.0,0.0
4,2020-03-31,21029422.0,19,0,225,0.0,0.0
...,...,...,...,...,...,...,...
228,2020-11-10,21029422.0,85574,2246,825,0.0,0.0
229,2020-11-11,21029422.0,85643,2247,825,0.0,0.0
230,2020-11-12,21029422.0,85804,2250,825,0.0,0.0
231,2020-11-13,21029422.0,85893,2254,825,0.0,0.0


Vamos observar como foi o crescimento de casos no estado por mês.

Para atender a esse objetivo, devemos:
- Criar uma nova coluna para selecionar o mês do registro;
- Converter essa coluna para inteiro, com o intuíto de evitar ordenação por ordem alfabetica ao invés de númerica;
- Coletar o último dia do mês que teve relatório;
- Ordenar o agrupamento por ordem cronológica.

Criar uma nova coluna para selecionar o mês do registro

In [None]:
df_sergipe['mes'] = df_sergipe['date'].apply(lambda row: int(row.split('-')[1]))

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """Entry point for launching an IPython kernel.


Vamos conferir se o mês foi extraído corretamente

In [None]:
df_sergipe.head()

Unnamed: 0,date,state,name,code,cases,deaths,mes
4711,2020-03-27,SE,Amparo de São Francisco,280010.0,0,0,3
4712,2020-03-27,SE,Aquidabã,280020.0,0,0,3
4713,2020-03-27,SE,Aracaju,280030.0,0,0,3
4714,2020-03-27,SE,Arauá,280040.0,0,0,3
4715,2020-03-27,SE,Areia Branca,280050.0,0,0,3


Criaremos um método para coletar o valor correspondente de casos no mês por município.
Como os dados são diários e incrementais, se somarmos os dados teremos um valor que não corresponde com a realidade.
Existem algumas formas de fazer isso:

1. Agrupar os dados por mês, retornando a data do valor máximo. Dessa forma, teremos a última data do mês;
2. Realizar a diferença dos dias (para contabilizar o crescimento). Desse método, será possível saber a diferença de casos entre os dias e apontar um crescimento ou declinio no quantitativo de casos.

**Método 1**

In [None]:
ultimos_relatorios = df_sergipe.groupby('mes', as_index=False).max()['date']
casos_cidades = []

for relatorio in ultimos_relatorios:
    cidades = df_sergipe.loc[df_sergipe['date'] == relatorio]
    for i, cidade in cidades.iterrows():
        casos_cidades.append([cidade['name'], cidade['code'], cidade['cases'], 
                            cidade['deaths'], cidade['mes']])

df_sergipe_1 = pd.DataFrame(casos_cidades, columns=['cidade', 'codigo', 'casos', 'obitos', 'mes'])

**Método 2**

Utilize a função diff()

Conferimos como ficaram os dados

In [None]:
df_sergipe_1.head()

Unnamed: 0,cidade,codigo,casos,obitos,mes
0,Amparo de São Francisco,280010.0,0,0,3
1,Aquidabã,280020.0,0,0,3
2,Aracaju,280030.0,16,0,3
3,Arauá,280040.0,0,0,3
4,Areia Branca,280050.0,0,0,3


Agora podemos fazer um agrupamento por mês dos casos de todos os municípios, efetuando a soma dos valores.

In [None]:
df_sergipe_1[['mes', 'casos', 'obitos']].groupby('mes', as_index=False).sum()

Unnamed: 0,mes,casos,obitos
0,3,19,0
1,4,447,12
2,5,6999,158
3,6,25411,676
4,7,58713,1434
5,8,72528,1857
6,9,77440,2036
7,10,84326,2206
8,11,85980,2257


Assim como também é possível ver o crescimento por cidade:

In [None]:
df_sergipe_1[['cidade', 'mes', 'casos', 'obitos']].loc[df_sergipe_1['cidade'] == 'Itabaiana'].groupby('mes', as_index=False).sum()

Unnamed: 0,mes,casos,obitos
0,3,0,0
1,4,14,0
2,5,288,4
3,6,1112,21
4,7,3207,67
5,8,4311,83
6,9,4615,90
7,10,4797,94
8,11,4835,97
