# Aula 3.2 - Pandas pt1

O Pandas é uma das bibliotecas de processamento de dados do Python mais importantes. As estruturas de dados básicas dele são Series e Dataframes, que nos ajudam a expressar dados na forma de tabelas.

---

## Introdução

In [1]:
# No caso do numpy, sempre usamos a abreviação "np".
import numpy as np

# No caso do pandas, nos sempre usamos a abreviação "pd"
import pandas as pd

Antes de discutirmos como funcionam as estruturas de dados básicas do Pandas, vamos tentar fazer algo mais básico: Ler dados externos. 

Vamos ver como ler arquivos do tipo csv.

In [2]:
# A função "read_csv" é a função básica para leitura de arquivos do tipo csv.
df = pd.read_csv('dados_artificiais.csv')

In [3]:
df

Unnamed: 0,altura,peso,sexo
0,1.788811,65.648102,0
1,1.566784,76.642768,0
2,2.092193,55.468185,1
3,1.782471,67.281997,1
4,1.735767,69.289008,0
5,1.686975,56.840051,0
6,1.797105,65.208973,1
7,1.187349,48.164764,0
8,1.595891,45.410648,1
9,1.396282,67.930113,0


In [4]:
# A nossa variável "df" é chamada um Pandas DataFrame.
print(type(df))

<class 'pandas.core.frame.DataFrame'>


In [5]:
# Um dataframe nada mais é do que uma tabela.
# Nós podemos também pegar cada coluna da tabela como um Pandas Series.
display(df['altura'])
print(type(df['altura']))

0     1.788811
1     1.566784
2     2.092193
3     1.782471
4     1.735767
5     1.686975
6     1.797105
7     1.187349
8     1.595891
9     1.396282
10    1.606148
11    1.707590
12    1.735513
13    1.672055
14    1.723377
15    1.684574
16    1.733259
17    1.757900
18    1.913338
19    1.456048
Name: altura, dtype: float64

<class 'pandas.core.series.Series'>


Existe, porém, um problema. Arquivos csv vem de todas as formas possíveis e imaginárias.

É igual o Bob Esponja com uma caixa vazia: A brincadeira não tem limites.

Vamos então ter muitas dificuldades em ler alguns arquivos de dados agora, pra não ter mais dificuldade no futuro. Para isso, colocamos no drive uma pasta com dados disponibilizados pelo livro "Estatística Básica", dos autores Bussab e Morettin.

Tentemos ler todos eles usando a função read_csv.

Se precisar de ajuda: https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html

In [31]:
# Ler os dados cd_brasil
cd_brasil = pd.read_csv("cd_brasil_estat_basica_bussab_morettin.csv", decimal=',')
cd_brasil.head()

Unnamed: 0,regiao,uf,superficie,pop_urbana,pop_rural,total,densidade
0,Norte,RO,238513,762864.0,468143.0,1231007.0,5.16
1,Norte,AC,153150,315401.0,168322.0,483726.0,3.16
2,Norte,AM,1577820,1766166.0,623113.0,2389279.0,1.51
3,Norte,RR,225116,174277.0,72854.0,247131.0,1.1
4,Norte,PA,1253165,2949017.0,2561832.0,5510849.0,4.4


In [37]:
# Ler os dados cd_municipios
cd_municipios = pd.read_csv("cd_municipios_estat_basica_bussab_morettin.csv", decimal=',', sep=";", index_col=0)
cd_municipios.head()

Unnamed: 0_level_0,municipio,populacao
n,Unnamed: 1_level_1,Unnamed: 2_level_1
1,São Paulo(SP),988.8
2,Rio de Janeiro(RJ),556.9
3,Salvador(BA),224.6
4,Belo Horizonte(MG),210.9
5,Fortaleza(CE),201.5


In [45]:
# Ler os dados cd_notas
cd_notas = pd.read_csv("cd_notas_estat_basica_bussab_morettin.csv", sep=" ", decimal=',')
cd_notas.head()

Unnamed: 0,nota
1,3.5
2,6.5
3,5.0
4,8.5
5,4.5


In [42]:
# Ler os dados cd_veiculos
cd_veiculos = pd.read_csv("cd_veiculos_estat_basica_bussab_morettin.csv", sep=" ", decimal=',')
cd_veiculos.head()

Unnamed: 0,veiculo,preco,comprimento,moto,N_I
1,Asia Towner,9440,3.36,40,I
2,Audi A3,38850,4.15,125,I
3,Chevrolet Astra,10532,4.11,110,N
4,Chevrolet Blazer,16346,4.6,106,N
5,Chevrolet Corsa,6176,3.73,60,N


Também é muito comum querermos criar dataframes do zero. Talvez estejamos usando dados simulados, talvez seja o resultado de algum outro pipeline de dados. Existem milhares de motivos. 

In [48]:
# Agora temos a tabela de dados abaixo.
table = np.array([[1.67, 89., 1],
                  [1.79, 85., 0],
                  [1.69, 65., 1],
                  [1.54, 57., 0],
                  [1.50, 45., 1],
                  [1.78, 91., 0],
                  [1.72, 67., 1],
                  [1.77, 76., 1]])

# Pesquise em https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html,
# e veja como podemos transformar essa tabela de dados em um dataframe.

pd.DataFrame(table, columns=['altura', 'peso', 'sexo'])

Unnamed: 0,altura,peso,sexo
0,1.67,89.0,1.0
1,1.79,85.0,0.0
2,1.69,65.0,1.0
3,1.54,57.0,0.0
4,1.5,45.0,1.0
5,1.78,91.0,0.0
6,1.72,67.0,1.0
7,1.77,76.0,1.0
