# Aula 3.2 - Pandas pt1

O Pandas é uma das bibliotecas de processamento de dados do Python mais importantes. As estruturas de dados básicas dele são Series e Dataframes, que nos ajudam a expressar dados na forma de tabelas.

---

## Introdução

In [1]:
# No caso do numpy, sempre usamos a abreviação "np".
import numpy as np

# No caso do pandas, nos sempre usamos a abreviação "pd"
import pandas as pd

Antes de discutirmos como funcionam as estruturas de dados básicas do Pandas, vamos tentar fazer algo mais básico: Ler dados externos. 

Vamos ver como ler arquivos do tipo csv.

In [2]:
# A função "read_csv" é a função básica para leitura de arquivos do tipo csv.
df = pd.read_csv('dados/dados_artificiais.csv')

In [None]:
df

In [None]:
# A nossa variável "df" é chamada um Pandas DataFrame.
print(type(df))

In [None]:
# Um dataframe nada mais é do que uma tabela.
# Nós podemos também pegar cada coluna da tabela como um Pandas Series.
display(df['altura'])
print(type(df['altura']))

Existe, porém, um problema. Arquivos csv vem de todas as formas possíveis e imaginárias.

É igual o Bob Esponja com uma caixa vazia: A brincadeira não tem limites.

Vamos então ter muitas dificuldades em ler alguns arquivos de dados agora, pra não ter mais dificuldade no futuro. Para isso, colocamos no drive uma pasta com dados disponibilizados pelo livro "Estatística Básica", dos autores Bussab e Morettin.

Tentemos ler todos eles usando a função read_csv.

Se precisar de ajuda: https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html

In [38]:
# Ler os dados cd_brasil
df_cd_brasil = pd.read_csv('dados/cd_brasil_estat_basica_bussab_morettin.csv', decimal=',')
print(df_cd_brasil.head())
print(df_cd_brasil.dtypes)

  regiao  uf  superficie  pop_urbana  pop_rural      total  densidade
0  Norte  RO      238513    762864.0   468143.0  1231007.0       5.16
1  Norte  AC      153150    315401.0   168322.0   483726.0       3.16
2  Norte  AM     1577820   1766166.0   623113.0  2389279.0       1.51
3  Norte  RR      225116    174277.0    72854.0   247131.0       1.10
4  Norte  PA     1253165   2949017.0  2561832.0  5510849.0       4.40
regiao         object
uf             object
superficie      int64
pop_urbana    float64
pop_rural     float64
total         float64
densidade     float64
dtype: object


In [7]:
# Ler os dados cd_municipios
df_cd_municipios = pd.read_csv('dados/cd_municipios_estat_basica_bussab_morettin.csv', sep=';')
df_cd_municipios.head()

Unnamed: 0,n,municipio,populacao
0,1,São Paulo(SP),9888
1,2,Rio de Janeiro(RJ),5569
2,3,Salvador(BA),2246
3,4,Belo Horizonte(MG),2109
4,5,Fortaleza(CE),2015


In [28]:
# Ler os dados cd_notas
df_cd_notas = pd.read_csv('dados/cd_notas_estat_basica_bussab_morettin.csv', sep=" ", index_col=0, decimal=',', thousands='.')
df_cd_notas.head()

Unnamed: 0,nota
1,3.5
2,6.5
3,5.0
4,8.5
5,4.5


In [25]:
# Ler os dados cd_veiculos
df_cd_veiculos = pd.read_csv('dados/cd_veiculos_estat_basica_bussab_morettin.csv', quotechar = '"', index_col=0, sep=" ")
df_cd_veiculos.head()

Unnamed: 0,veiculo,preco,comprimento,moto,N_I
1,Asia Towner,9440,336,40,I
2,Audi A3,38850,415,125,I
3,Chevrolet Astra,10532,411,110,N
4,Chevrolet Blazer,16346,46,106,N
5,Chevrolet Corsa,6176,373,60,N


Também é muito comum querermos criar dataframes do zero. Talvez estejamos usando dados simulados, talvez seja o resultado de algum outro pipeline de dados. Existem milhares de motivos. 

In [39]:
# Agora temos a tabela de dados abaixo.
table = np.array([[1.67, 89., 1],
                  [1.79, 85., 0],
                  [1.69, 65., 1],
                  [1.54, 57., 0],
                  [1.50, 45., 1],
                  [1.78, 91., 0],
                  [1.72, 67., 1],
                  [1.77, 76., 1]])

# Pesquise em https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html,
# e veja como podemos transformar essa tabela de dados em um dataframe.
pd.DataFrame(table)


Unnamed: 0,0,1,2
0,1.67,89.0,1.0
1,1.79,85.0,0.0
2,1.69,65.0,1.0
3,1.54,57.0,0.0
4,1.5,45.0,1.0
5,1.78,91.0,0.0
6,1.72,67.0,1.0
7,1.77,76.0,1.0
