# Carregando e salvando arquivos

Nesta seção vamos apresentar alguns exemplos de como lidar com dados estruturados, em particular com dataframes. Para isto vamos utilizar uma das bibliotecas mais conhecidas de Python, o pandas.

**Referências**
* [Python for Data Analysis: Data Wrangling with Pandas, Numpy, and Ipython](https://www.amazon.com.br/Python-Data-Analysis-Wrangling-Ipython/dp/1449319793)
* [Learning pandas - Python Data Discovery and Analysis Made Easy](https://www.amazon.com.br/Learning-pandas-Discovery-Analysis-English-ebook/dp/B00W9Q7VPA/ref=sr_1_1?__mk_pt_BR=%C3%85M%C3%85%C5%BD%C3%95%C3%91&keywords=Learning+Pandas+%E2%80%93+Python+Data+Discovery+and+Analysis+Made+Easy&qid=1584127199&s=books&sr=1-1)
* [Learning the Pandas Library: Python Tools for Data Munging, Analysis, and Visualization](https://www.amazon.com.br/Learning-Pandas-Library-Analysis-Visualization-ebook/dp/B01GIE03GW/ref=sr_1_1?__mk_pt_BR=%C3%85M%C3%85%C5%BD%C3%95%C3%91&keywords=Learning+the+Pandas+Library&qid=1584127248&s=books&sr=1-1)

## Criando um data frame

O pandas utiliza uma estrutura de dados conhecida por dataframe que é uma estrutura de duas dimensões de dados tabulares cujo tamanho pode ser alterado e as colunas em geral são heterogêneas, ou seja podem ser de diversos tipos de dados, como por exemplo textos e números. A estrutura do dataframe do pandas é muito similar a uma planilha do Excel. Abaixo vamos dar um exemplo de como criar um dataframe, observe que precisamos importar a biblioteca pandas e podemos dar um alias para chamar as funções da biblioteca. Em geral as pessoas usam a abreviação df (de dataframe) para nomear seus dataframes, igual se nomeia uma planilha.

In [38]:
import pandas as pd

# primeiro definimos a estrutura do dataframe
df = {
      'a':[1,2,7,3,4],
      'b':[6,5,3,2,'a'], 
      }

# depois precisamos definir a estrutura como um dataframe do pandas
df = pd.DataFrame(df)

# mostra o dataframe
df

Unnamed: 0,a,b
0,1,6
1,2,5
2,7,3
3,3,2
4,4,a


## Exemplo 2: diversos tipos de variáveis

No próximo exemplo vamos mostrar um dataframe com colunas de diferentes tipos de variáveis

In [42]:
df = {
      'código':[1,2,"1",4],
      'nome':['John','Paul','George','Ringo'], 
      'instrumento':['vocal','baixo','guitarra','bateria'],
      'nascimento':['1940-10-09','1942-06-18','1943-02-25','1940-07-07']
      }

df = pd.DataFrame(df)

df

Unnamed: 0,código,nome,instrumento,nascimento
0,1,John,vocal,1940-10-09
1,2,Paul,baixo,1942-06-18
2,1,George,guitarra,1943-02-25
3,4,Ringo,bateria,1940-07-07


## Como obter informações sobre o dataframe

Abaixo mostramos como obter informações sobre o dataframe: nome e quantidade de colunas, quantidade de linhas, contagem não nulo e tipo da variável.

In [43]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 4 columns):
código         4 non-null object
nome           4 non-null object
instrumento    4 non-null object
nascimento     4 non-null object
dtypes: object(4)
memory usage: 256.0+ bytes


In [44]:
df.dtypes 

código         object
nome           object
instrumento    object
nascimento     object
dtype: object

## Transformando o tipo de variável de uma coluna específica do dataframe

Note pela saída de código acima que a data de nascimento tem o tipo de variável definido como object. Abaixo vamos ensinar como transformar esta coluna em um tipo específico de variável para datas usando a função to_datetime do pandas.

In [45]:
df['nascimento'] = pd.to_datetime(df['nascimento'])

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 4 columns):
código         4 non-null object
nome           4 non-null object
instrumento    4 non-null object
nascimento     4 non-null datetime64[ns]
dtypes: datetime64[ns](1), object(3)
memory usage: 256.0+ bytes


# Dados faltantes em tabelas

Vamos chamar uma biblioteca chamada numpy para darmos um exemplo sobre dados faltantes (missing) em um dataframe. Para isto vamos utilizar a função nan do numpy para definir os campos faltantes no dataframe que vamos criar.

In [46]:
import numpy as np

df = pd.DataFrame({
      'a':[1,np.nan,7,3,np.nan],
      'b':[np.nan,5,np.nan,2,6], 
      'c':[1,4,8,9,3],
      'd':[0,7,21,100,3]
      })

df

Unnamed: 0,a,b,c,d
0,1.0,,1,0
1,,5.0,4,7
2,7.0,,8,21
3,3.0,2.0,9,100
4,,6.0,3,3


## Exemplo: operações com colunas numéricas de um dataframe - soma

In [50]:
#%%timeit
df['e'] = df['c'] + df['d']

df

Unnamed: 0,a,b,c,d,e
0,1.0,,1,0,1
1,,5.0,4,7,11
2,7.0,,8,21,29
3,3.0,2.0,9,100,109
4,,6.0,3,3,6


## Exemplo: operações com colunas numéricas de um dataframe - multiplicação

In [26]:
df['f'] = df['c'] * df['d']

df

Unnamed: 0,a,b,c,d,e,f
0,1.0,,1,0,1,0
1,,5.0,4,7,11,28
2,7.0,,8,21,29,168
3,3.0,2.0,9,100,109,900
4,,6.0,3,3,6,9


## Exemplo: operações com colunas numéricas de um dataframe - divisão

In [27]:
df['g'] = df['d'] / df['c']

df

Unnamed: 0,a,b,c,d,e,f,g
0,1.0,,1,0,1,0,0.0
1,,5.0,4,7,11,28,1.75
2,7.0,,8,21,29,168,2.625
3,3.0,2.0,9,100,109,900,11.111111
4,,6.0,3,3,6,9,1.0


## Exemplo: operações com colunas numéricas de um dataframe - divisão por zero

In [28]:
df['h'] = df['e'] / df['f']

df

Unnamed: 0,a,b,c,d,e,f,g,h
0,1.0,,1,0,1,0,0.0,inf
1,,5.0,4,7,11,28,1.75,0.392857
2,7.0,,8,21,29,168,2.625,0.172619
3,3.0,2.0,9,100,109,900,11.111111,0.121111
4,,6.0,3,3,6,9,1.0,0.666667


# Agora vamos aprender a como ler um arquivo em csv utilizando o pandas.

In [55]:
df = pd.read_csv('01_introducao_basica.csv',encoding='latin-1',delimiter=';',low_memory = True)
df

Unnamed: 0,campo_1,campo_2,campo_3,campo_4,campo_5,campo_6,campo_7,campo_8,campo_9,campo_10
0,1,4,65,30,100,86,27,34,22,98
1,2,17,81,89,25,55,30,11,8,32
2,3,46,57,73,85,60,44,11,87,59
3,4,11,52,12,65,86,62,50,92,11
4,5,15,78,76,6,20,89,54,88,47
...,...,...,...,...,...,...,...,...,...,...
495,496,54,42,55,100,58,91,88,98,49
496,497,80,90,4,32,40,32,42,48,57
497,498,44,27,42,79,14,17,66,65,94
498,499,14,93,69,75,41,77,61,6,17
