O <b>pandas</b>, talvez sejá uma das bibliotecas mais famosa que temos no python.

O principal intuido dessa biblioteca é proporcionar ao desenvolver, a possibilidade de se trabalhar com estruturas de dados complexas. 

Outra tarefa estremamente importante, que o pandas ajuda, é a parte de limpeza e entendimento dos dados.

O processo de limpeza dos dados, pode ser custoso e demorado. É necessário identificar os dados que estão faltando e descobrir se existem possíveis valores que podem alterar o resultado. Sem o tratamento adequado, não é possível realizar uma análise concreta.

<b>Vamos agora fazer o entendimento do pandas.</b>

In [1]:
#primeiro vamos importar a biblioteca
import pandas as pd
import numpy as np

<b>Series</b> <br>
Uma Series é como um array unidimensional, uma lista de valores. Toda Series possui um índice, o index, que dá rótulos a cada elemento da lista. Abaixo criamos uma Series notas, o index desta Series é a coluna à esquerda, que vai de 0 a 4 neste caso, que o pandas criou automaticamente, já que não especificamos uma lista de rótulos.

In [8]:
notas = pd.Series([2,7,5,10,6])


In [9]:
#notas = pd.Series([2,7,5,10,6, 'a'])
notas

0     2
1     7
2     5
3    10
4     6
dtype: int64

Outra facilidade proporcionada pela estrutura são seus métodos que fornecem informações estatísticas sobre os valores, como média .mean() e desvio padrão .std(). 

In [10]:
print("Média:", notas.mean())
print("Desvio padrão:", notas.std())

Média: 6.0
Desvio padrão: 2.9154759474226504


Para resumir brevemente as estatísticas dos dados se usa o .describe()

In [18]:
salarios = pd.Series([1580,2340,2890.40,3000,4500,2300,4000,2190])
print(salarios.sum(), salarios.count(), salarios.describe())
notas.describe()

22800.4 8 count       8.000000
mean     2850.050000
std       976.892459
min      1580.000000
25%      2272.500000
50%      2615.200000
75%      3250.000000
max      4500.000000
dtype: float64


count     5.000000
mean      6.000000
std       2.915476
min       2.000000
25%       5.000000
50%       6.000000
75%       7.000000
max      10.000000
dtype: float64

A estrutura é flexível o suficiente pra aplicarmos algumas expressões matemáticas e funções matemáticas do numpy diretamente:

In [21]:
print(salarios**2)
notas**2

0     2496400.00
1     5475600.00
2     8354412.16
3     9000000.00
4    20250000.00
5     5290000.00
6    16000000.00
7     4796100.00
dtype: float64


0      4
1     49
2     25
3    100
4     36
dtype: int64

In [24]:
print(np.log(salarios))
np.log(notas)

0    7.365180
1    7.757906
2    7.969150
3    8.006368
4    8.411833
5    7.740664
6    8.294050
7    7.691657
dtype: float64


0    0.693147
1    1.945910
2    1.609438
3    2.302585
4    1.791759
dtype: float64

<b>DataFrame</b> é uma estrutura bidimensional de dados, como uma planilha. Abaixo criaremos um DataFrame que possui valores de diferentes tipos, usando um dicionário como entrada dos dados:

In [53]:
dic = {"chave1": 45, "chave2": 23}
df = pd.DataFrame({'Aluno' : ["Wilfred", "Abbie", "Harry", "Julia", "Carrie"],
                   'Faltas' : [3,4,2,1,4],
                   'Prova' : [2,7,5,10,6],
                   'Seminário': [8.5,7.5,9.0,7.5,8.0]})

In [54]:
print(dic)
df

{'chave1': 45, 'chave2': 23}


Unnamed: 0,Aluno,Faltas,Prova,Seminário
0,Wilfred,3,2,8.5
1,Abbie,4,7,7.5
2,Harry,2,5,9.0
3,Julia,1,10,7.5
4,Carrie,4,6,8.0


Avaliando os tipos de dados, de um dataframe

In [55]:
df.dtypes

Aluno         object
Faltas         int64
Prova          int64
Seminário    float64
dtype: object

É possível acessar a lista de colunas de forma bem intuitiva:

In [57]:
df.columns

Index(['Aluno', 'Faltas', 'Prova', 'Seminário'], dtype='object')

Voce pode acessar a coluna pelo nome dela.

In [52]:
df["Seminário"]

0    oi
1    oi
2    oi
3    oi
4    oi
Name: Seminário, dtype: object

Muitas vezes é necessário selecionarmos valores específicos de um DataFrame, seja uma linha ou uma célula específica, e isso pode ser feito de diversas formas. A documentação oficial contém vasta informação para esse tipo de tarefa, aqui nos concentraremos nas formas mais comuns de selecionarmos dados.

Para selecionar pelo index ou rótulo usamos o atributo .loc:

In [60]:
#df.loc[3]
df_aula = df.loc[1:3]
print(df_aula)

   Aluno  Faltas  Prova  Seminário
1  Abbie       4      7        7.5
2  Harry       2      5        9.0
3  Julia       1     10        7.5


ou por:

In [16]:
df[df["Seminário"] > 8.0]

Unnamed: 0,Aluno,Faltas,Prova,Seminário
0,Wilfred,3,2,8.5
2,Harry,2,5,9.0


In [17]:
df[(df["Seminário"] > 8.0) & (df["Prova"] > 3)]

Unnamed: 0,Aluno,Faltas,Prova,Seminário
2,Harry,2,5,9.0


In [67]:
#faltas maior que 4 e provas maior que 5
df[(df["Faltas"]==5) | (df["Prova"] > 4)]

Unnamed: 0,Aluno,Faltas,Prova,Seminário
1,Abbie,4,7,7.5
2,Harry,2,5,9.0
3,Julia,1,10,7.5
4,Carrie,4,6,8.0


<b>Leitura de Dados</b><br>
Na seção anterior vimos como manipular dados que foram criados durante esta apresentação, acontece que, na maioria das vezes, queremos analisar dados que já estão prontos. O pandas nos fornece uma série de funcionalidades de leitura de dados, pros mais diversos formatos estruturais de dados, experimente a auto-completação de pd.read_<TAB>, entre eles estão:<br>
    
pd.read_csv, para ler arquivos .csv, formato comum de armazenar dados de tabelas<br>

pd.read_xlsx, para ler arquivos Excel .xlsx, é necessário instalar uma biblioteca adicional pra esta funcionalidade.<br>

pd.read_html, para ler tabelas diretamente de um website <br>

Usaremos para analisar dados externos nesta introdução o .read_csv, pois é neste formato que se encontram nossos dados. CSV, ou comma-separated values é um formato muito comum de dados abertos, trata-se, como a sigla sugere, de valores divididos por vírgula, apesar de o caracter separador poder ser o ponto-e-vírgula ou outro.<br>
O arquivo dados.csv está na mesma pasta do nosso script, então podemos passar como argumento do .read_csv apenas o seu nome. Outro argumento interessante da função é o sep, que por padrão é a vírgula, mas que pode ser definido como outro caractere caso seu dado esteja usando outro separador.

In [68]:
df = pd.read_csv("dados.csv")

In [79]:
df.head(4)

<bound method Series.unique of 0       Botafogo
1       Botafogo
2       Botafogo
3       Botafogo
4       Botafogo
          ...   
1992      Tijuca
1993      Tijuca
1994      Tijuca
1995      Tijuca
1996      Tijuca
Name: bairro, Length: 1997, dtype: object>

In [20]:
df.tail()

Unnamed: 0,condominio,quartos,suites,vagas,area,bairro,preco,pm2
1992,1080,3,1.0,1.0,80,Tijuca,680000,8500.0
1993,750,3,0.0,1.0,82,Tijuca,650000,7926.83
1994,700,3,1.0,1.0,100,Tijuca,629900,6299.0
1995,1850,3,1.0,2.0,166,Tijuca,1600000,9638.55
1996,800,3,1.0,1.0,107,Tijuca,540000,5046.73


Além de confiar em mim, quando mencionei os bairros que continham no nosso conjunto de dados, você pode verificar a informação usando um método que lista os valores únicos numa coluna:

In [80]:
df["bairro"].unique()

array(['Botafogo', 'Copacabana', 'Gávea', 'Grajaú', 'Ipanema', 'Leblon',
       'Tijuca'], dtype=object)

In [81]:
df["bairro"].value_counts()

Copacabana    346
Tijuca        341
Botafogo      307
Ipanema       281
Leblon        280
Grajaú        237
Gávea         205
Name: bairro, dtype: int64

Os valores contados também podem ser normalizados para expressar porcentagens:

In [23]:
df["bairro"].value_counts(normalize=True)

Copacabana    0.173260
Tijuca        0.170756
Botafogo      0.153731
Ipanema       0.140711
Leblon        0.140210
Grajaú        0.118678
Gávea         0.102654
Name: bairro, dtype: float64

Group by

In [87]:
df['count'] = '1' #cria uma coluna com todos valores igual 1
df[['condominio','quartos','count']].groupby(['condominio']).count()

# exporta para CSV
df[['condominio','bairro','count']].groupby(['bairro']).mean().to_csv('aula.csv')

#df.groupby("bairro").mean()

In [25]:
df.groupby("bairro").mean()["pm2"].sort_values()

bairro
Grajaú         6145.624473
Tijuca         7149.804985
Copacabana    11965.298699
Botafogo      12034.486189
Gávea         16511.582780
Ipanema       19738.407794
Leblon        20761.351036
Name: pm2, dtype: float64

É comum queremos aplicar uma função qualquer aos dados, ou à parte deles, neste caso o pandas fornece o método .apply. Por exemplo, para deixar os nomes dos bairros como apenas as suas três primeiras letras

In [26]:
def truncar(bairro):
    return bairro[:3]
df["bairro"].apply(truncar)

0       Bot
1       Bot
2       Bot
3       Bot
4       Bot
       ... 
1992    Tij
1993    Tij
1994    Tij
1995    Tij
1996    Tij
Name: bairro, Length: 1997, dtype: object

ou usando a função por lambda

In [27]:
df["bairro"].apply(lambda x: x[:3])

0       Bot
1       Bot
2       Bot
3       Bot
4       Bot
       ... 
1992    Tij
1993    Tij
1994    Tij
1995    Tij
1996    Tij
Name: bairro, Length: 1997, dtype: object

No pandas é possivel tratarmos dados incompletos

In [90]:
df2 = df.head()
# procura no campo pm2 o que for igual 12031.25 trocar valor por nan
df2 = df2.replace({"pm2": {12031.25: np.nan}})
df2

Unnamed: 0,condominio,quartos,suites,vagas,area,bairro,preco,pm2,count
0,350,1,0.0,1.0,21,Botafogo,340000,16190.48,1
1,800,1,0.0,1.0,64,Botafogo,770000,,1
2,674,1,0.0,1.0,61,Botafogo,600000,9836.07,1
3,700,1,1.0,1.0,70,Botafogo,700000,10000.0,1
4,440,1,0.0,1.0,44,Botafogo,515000,11704.55,1


O pandas simplifica a remoção de quaiquer linhas ou colunas que possuem um np.nan, por padrão o .dropna() retorna as linhas que não contém um NaN:

In [91]:
#dropar todas linhas com NaN
df2.dropna()

Unnamed: 0,condominio,quartos,suites,vagas,area,bairro,preco,pm2,count
0,350,1,0.0,1.0,21,Botafogo,340000,16190.48,1
2,674,1,0.0,1.0,61,Botafogo,600000,9836.07,1
3,700,1,1.0,1.0,70,Botafogo,700000,10000.0,1
4,440,1,0.0,1.0,44,Botafogo,515000,11704.55,1


preenchendo valores.

In [92]:
#preencher com valor 99 onde tiver NaN
df2.fillna(99)

Unnamed: 0,condominio,quartos,suites,vagas,area,bairro,preco,pm2,count
0,350,1,0.0,1.0,21,Botafogo,340000,16190.48,1
1,800,1,0.0,1.0,64,Botafogo,770000,99.0,1
2,674,1,0.0,1.0,61,Botafogo,600000,9836.07,1
3,700,1,1.0,1.0,70,Botafogo,700000,10000.0,1
4,440,1,0.0,1.0,44,Botafogo,515000,11704.55,1


In [95]:
df2.isna()
#df2.isna().count()

Unnamed: 0,condominio,quartos,suites,vagas,area,bairro,preco,pm2,count
0,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,True,False
2,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False


In [96]:
df2.isnull().sum()

condominio    0
quartos       0
suites        0
vagas         0
area          0
bairro        0
preco         0
pm2           1
count         0
dtype: int64