# Introdução à Análise de Dados com Pandas

Material baseado no tutorial "Seus primeiros passos como Data Scientist: Introdução ao Pandas!", que pode ser encontrado [aqui](https://medium.com/data-hackers/uma-introdu%C3%A7%C3%A3o-simples-ao-pandas-1e15eea37fa1)

**Pandas** é uma biblioteca Python que fornece ferramentas de análise de dados e estruturas de dados de alta performance e *fáceis de usar*. Por ser a principal e mais completa biblioteca para estes objetivos, **pandas** é fundamental para análise de dados com Python.

Objetivo do minicurso é fornecer de forma enxuta e simplificada, uma apresentação básica às principais ferramentas fornecidas pelo **pandas**, cobrindo:

- Manipulação; 
- Leitura; e,
- Visualização de dados

### Importando as bibliotecas:

In [1]:
## Importando as bibliotecas
import pandas as pd
import numpy as np

Existem dois tipos principais de estruturas de dados no pandas:
 1. **Series** 
 1. **DataFrame**

## Series

Uma Series é como um array unidimensional, uma lista de valores. Toda Series possui um índice, o `index`, que dá rótulos a cada elemento da lista. Abaixo criamos uma Series `notas`, o `index` desta Series é a coluna à esquerda, que vai de 0 a 4 neste caso, que o pandas criou automaticamente, já que não especificamos uma lista de rótulos.

In [9]:
## Criando uma series
notas = pd.Series([2,8,9,7,6])

Já podemos aqui verificar os atributos da nossa Series, comecemos pelos valores e o índice, os dois atributos *fundamentais* nesta estrutura:

In [10]:
# values
notas

0    2
1    8
2    9
3    7
4    6
dtype: int64

In [11]:
# index
notas.index

RangeIndex(start=0, stop=5, step=1)

Como ao criar a Series não demos um índice específico o pandas usou os inteiros positivos crescentes como padrão. Pode ser conveniente atribuirmos um índice diferente do padrão, supondo que essas sejam notas de uma turma, poderíamos atribuir nomes ao index:

In [14]:
## Criando uma series com índices definidos

notas = pd.Series([2,8,9,7,6],index=['Mark', 'Richard', 'Julia', 'Robert', 'Gracie'])
notas

Mark       2
Richard    8
Julia      9
Robert     7
Gracie     6
dtype: int64

O index nos ajuda para referenciar um determinado valor, ele nos permite acessar os valores pelo seu rótulo:

In [15]:
## Acessando valores
notas['Mark']

2

Outra facilidade proporcionada pela estrutura são seus métodos que fornecem informações estatísticas sobre os valores, como **média** `.mean()` e **desvio padrão** `.std()`.

In [16]:
## Verificando média e desvio padrão
print(notas.mean())
print(notas.std())

6.4
2.701851217221259


Geralmente para resumir brevemente as estatísticas dos dados se usa o `.describe()`

In [17]:
## Utilizar a função describe()
notas.describe()

count    5.000000
mean     6.400000
std      2.701851
min      2.000000
25%      6.000000
50%      7.000000
75%      8.000000
max      9.000000
dtype: float64

A estrutura é flexível o suficiente pra aplicarmos algumas expressões matemáticas e funções matemáticas do numpy diretamente:

In [18]:
## Multiplicação e log (np.log())
print(np.log(notas))

Mark       0.693147
Richard    2.079442
Julia      2.197225
Robert     1.945910
Gracie     1.791759
dtype: float64


## DataFrame
Já um DataFrame é uma estrutura bidimensional de dados, como uma planilha. 

In [22]:
## Criando um DataFrame
df = pd.DataFrame({'Aluno': ['Mark', 'Richard', 'Julia', 'Robert', 'Gracie'],
                   'Nota Prova': [5,5,8,7,6.5],
                   'Nota Seminário': [10,8,9.25,8,9.9],
                   'Faltas': [0,0,2,8,1]
                  })
df

Unnamed: 0,Aluno,Nota Prova,Nota Seminário,Faltas
0,Mark,5.0,10.0,0
1,Richard,5.0,8.0,0
2,Julia,8.0,9.25,2
3,Robert,7.0,8.0,8
4,Gracie,6.5,9.9,1


Verificando os tipos de dados que compõe as colunas.

In [23]:
## Tipo dos dados
df.dtypes

Aluno              object
Nota Prova        float64
Nota Seminário    float64
Faltas              int64
dtype: object

É possível acessar a lista de colunas de forma bem intuitiva:

In [24]:
## Colunas do DataFrame
df.columns

Index(['Aluno', 'Nota Prova', 'Nota Seminário', 'Faltas'], dtype='object')

Os nomes das colunas podem ser usadas pra acessar seus valores:

In [27]:
## Acessando valores
df["Nota Seminário"]

0    10.00
1     8.00
2     9.25
3     8.00
4     9.90
Name: Nota Seminário, dtype: float64

Para DataFrames, `.describe()` também é uma boa forma de verificar resumidamente a disposição estatística dos dados numéricos:

In [28]:
## Utilizar a função describe()
df.describe()

Unnamed: 0,Nota Prova,Nota Seminário,Faltas
count,5.0,5.0,5.0
mean,6.3,9.03,2.2
std,1.30384,0.983362,3.34664
min,5.0,8.0,0.0
25%,5.0,8.0,0.0
50%,6.5,9.25,1.0
75%,7.0,9.9,2.0
max,8.0,10.0,8.0


Outra tarefa comum aplicada em DataFrames é ordená-los por determinada coluna:

In [30]:
## Ordenando pelas notas do seminário
df.sort_values(by="Nota Seminário")

Unnamed: 0,Aluno,Nota Prova,Nota Seminário,Faltas
1,Richard,5.0,8.0,0
3,Robert,7.0,8.0,8
2,Julia,8.0,9.25,2
4,Gracie,6.5,9.9,1
0,Mark,5.0,10.0,0


Note que simplesmente usar o método `sort_values` não modifica o nosso DataFrame original:

In [31]:
## Visualizando DataFrame
df

Unnamed: 0,Aluno,Nota Prova,Nota Seminário,Faltas
0,Mark,5.0,10.0,0
1,Richard,5.0,8.0,0
2,Julia,8.0,9.25,2
3,Robert,7.0,8.0,8
4,Gracie,6.5,9.9,1


Muitas vezes é necessário selecionarmos valores específicos de um DataFrame, seja uma linha ou uma célula específica, e isso pode ser feito de diversas formas. 

Para selecionar pelo index ou rótulo usamos o atributo `.loc`:

In [33]:
## Acessando index pelo .loc[]
df.loc[3]

Aluno             Robert
Nota Prova             7
Nota Seminário         8
Faltas                 8
Name: 3, dtype: object

Para selecionar de acordo com critérios condicionais, se usa o que se chama de **Boolean Indexing**.

Suponha que queiramos selecionar apenas as linhas em que o valor da coluna *Seminário* seja acima de 8.0:

In [34]:
## Boolean Indexing
df[df['Nota Seminário'] > 8]

Unnamed: 0,Aluno,Nota Prova,Nota Seminário,Faltas
0,Mark,5.0,10.0,0
2,Julia,8.0,9.25,2
4,Gracie,6.5,9.9,1


Este tipo de indexação também possibilita checar condições de múltiplas colunas. Diferentemente do que estamos habituados em Python, aqui se usam operadores bitwise, ou seja, `&`, `|`, `~` ao invés de `and`, `or`, `not`, respectivamente. Suponha que além de `df["Seminário"] > 8.0` queiramos que o valor da coluna `Prova` não seja menor que 3:

In [36]:
## Boolean Indexing e condições
df[(df['Nota Seminário'] > 8) & (df['Nota Prova'] >= 3)]

Unnamed: 0,Aluno,Nota Prova,Nota Seminário,Faltas
0,Mark,5.0,10.0,0
2,Julia,8.0,9.25,2
4,Gracie,6.5,9.9,1


## Leitura de *datasets*

O pandas nos fornece uma série de funcionalidades de leitura de dados, pros mais diversos formatos estruturais de dados, experimente a auto-completação de `pd.read_<TAB>`, entre eles estão:
 1. `pd.read_csv`, para ler arquivos .csv, formato comum de armazenar dados de tabelas
 1. `pd.read_xlsx`, para ler arquivos Excel .xlsx, é necessário instalar uma biblioteca adicional pra esta funcionalidade.
 
Usaremos para analisar dados externos nesta introdução o `.read_csv`, pois é neste formato que se encontram nossos dados. 

Estes dados que usaremos como exemplo são dados que contêm informações de 802 pokemons de todas as sete gerações. O arquivo pode ser encontrado [aqui](https://www.kaggle.com/rounakbanik/pokemon)

In [44]:
## Lendo um dataset
df1 = pd.read_csv('googleplaystore_user_reviews.csv')
df2 = pd.read_csv('googleplaystore.csv')
df = df2

Como esperado, o DataFrame tem muitas linhas de dados, pra visualizar sucintamente as primeiras linhas de um DataFrame existe o método `.head()`

In [19]:
## Shape
print(len(df1))
print(len(df2))

64295
10841


In [20]:
## Visualizando o dataset
df.head(10)

Unnamed: 0,App,Category,Rating,Reviews,Size,Installs,Type,Price,Content Rating,Genres,Last Updated,Current Ver,Android Ver
0,Photo Editor & Candy Camera & Grid & ScrapBook,ART_AND_DESIGN,4.1,159,19M,"10,000+",Free,0,Everyone,Art & Design,"January 7, 2018",1.0.0,4.0.3 and up
1,Coloring book moana,ART_AND_DESIGN,3.9,967,14M,"500,000+",Free,0,Everyone,Art & Design;Pretend Play,"January 15, 2018",2.0.0,4.0.3 and up
2,"U Launcher Lite – FREE Live Cool Themes, Hide ...",ART_AND_DESIGN,4.7,87510,8.7M,"5,000,000+",Free,0,Everyone,Art & Design,"August 1, 2018",1.2.4,4.0.3 and up
3,Sketch - Draw & Paint,ART_AND_DESIGN,4.5,215644,25M,"50,000,000+",Free,0,Teen,Art & Design,"June 8, 2018",Varies with device,4.2 and up
4,Pixel Draw - Number Art Coloring Book,ART_AND_DESIGN,4.3,967,2.8M,"100,000+",Free,0,Everyone,Art & Design;Creativity,"June 20, 2018",1.1,4.4 and up
5,Paper flowers instructions,ART_AND_DESIGN,4.4,167,5.6M,"50,000+",Free,0,Everyone,Art & Design,"March 26, 2017",1.0,2.3 and up
6,Smoke Effect Photo Maker - Smoke Editor,ART_AND_DESIGN,3.8,178,19M,"50,000+",Free,0,Everyone,Art & Design,"April 26, 2018",1.1,4.0.3 and up
7,Infinite Painter,ART_AND_DESIGN,4.1,36815,29M,"1,000,000+",Free,0,Everyone,Art & Design,"June 14, 2018",6.1.61.1,4.2 and up
8,Garden Coloring Book,ART_AND_DESIGN,4.4,13791,33M,"1,000,000+",Free,0,Everyone,Art & Design,"September 20, 2017",2.9.2,3.0 and up
9,Kids Paint Free - Drawing Fun,ART_AND_DESIGN,4.7,121,3.1M,"10,000+",Free,0,Everyone,Art & Design;Creativity,"July 3, 2018",2.8,4.0.3 and up


Por padrão `.head()` exibe as 5 primeiras linhas, mas isso pode ser alterado:

In [21]:
## Definir quantidade de linhas
df.tail()

Unnamed: 0,App,Category,Rating,Reviews,Size,Installs,Type,Price,Content Rating,Genres,Last Updated,Current Ver,Android Ver
10836,Sya9a Maroc - FR,FAMILY,4.5,38,53M,"5,000+",Free,0,Everyone,Education,"July 25, 2017",1.48,4.1 and up
10837,Fr. Mike Schmitz Audio Teachings,FAMILY,5.0,4,3.6M,100+,Free,0,Everyone,Education,"July 6, 2018",1.0,4.1 and up
10838,Parkinson Exercices FR,MEDICAL,,3,9.5M,"1,000+",Free,0,Everyone,Medical,"January 20, 2017",1.0,2.2 and up
10839,The SCP Foundation DB fr nn5n,BOOKS_AND_REFERENCE,4.5,114,Varies with device,"1,000+",Free,0,Mature 17+,Books & Reference,"January 19, 2015",Varies with device,Varies with device
10840,iHoroscope - 2018 Daily Horoscope & Astrology,LIFESTYLE,4.5,398307,19M,"10,000,000+",Free,0,Everyone,Lifestyle,"July 25, 2018",Varies with device,Varies with device


In [23]:
#DEBUG
df[(df['Category'] == 'TOOLS')]

Unnamed: 0,App,Category,Rating,Reviews,Size,Installs,Type,Price,Content Rating,Genres,Last Updated,Current Ver,Android Ver
3233,Moto File Manager,TOOLS,4.1,38655,5.9M,"10,000,000+",Free,0,Everyone,Tools,"February 1, 2018",v3.7.93,5.0 and up
3234,Google,TOOLS,4.4,8033493,Varies with device,"1,000,000,000+",Free,0,Everyone,Tools,"August 3, 2018",Varies with device,Varies with device
3235,Google Translate,TOOLS,4.4,5745093,Varies with device,"500,000,000+",Free,0,Everyone,Tools,"August 4, 2018",Varies with device,Varies with device
3236,Moto Display,TOOLS,4.2,18239,Varies with device,"10,000,000+",Free,0,Everyone,Tools,"August 6, 2018",Varies with device,Varies with device
3237,Motorola Alert,TOOLS,4.2,24199,3.9M,"50,000,000+",Free,0,Everyone,Tools,"November 21, 2014",1.02.53,4.4 and up
3238,Motorola Assist,TOOLS,4.1,37333,Varies with device,"50,000,000+",Free,0,Everyone,Tools,"January 17, 2016",Varies with device,Varies with device
3239,Cache Cleaner-DU Speed Booster (booster & clea...,TOOLS,4.5,12759663,15M,"100,000,000+",Free,0,Everyone,Tools,"July 25, 2018",3.1.2,4.0 and up
3240,Moto Suggestions ™,TOOLS,4.6,308,4.3M,"1,000,000+",Free,0,Everyone,Tools,"June 8, 2018",0.2.32,8.0 and up
3241,Moto Voice,TOOLS,4.1,33216,Varies with device,"10,000,000+",Free,0,Everyone,Tools,"June 5, 2018",Varies with device,Varies with device
3242,Calculator,TOOLS,4.3,40770,Varies with device,"100,000,000+",Free,0,Everyone,Tools,"November 21, 2017",Varies with device,Varies with device


Similarmente existe o `.tail()`, que exibe por padrão as últimas 5 linhas do DataFrame:

In [25]:
## Colunas
df.columns

Index(['App', 'Category', 'Rating', 'Reviews', 'Size', 'Installs', 'Type',
       'Price', 'Content Rating', 'Genres', 'Last Updated', 'Current Ver',
       'Android Ver'],
      dtype='object')

In [26]:
## Excluir colunas que não vão ser utilizadas
df.drop(['Content Rating', 'Current Ver', 'Android Ver', 'Type' ], axis=1, inplace=True)
df.head()

Unnamed: 0,App,Category,Rating,Reviews,Size,Installs,Price,Genres,Last Updated
0,Photo Editor & Candy Camera & Grid & ScrapBook,ART_AND_DESIGN,4.1,159,19M,"10,000+",0,Art & Design,"January 7, 2018"
1,Coloring book moana,ART_AND_DESIGN,3.9,967,14M,"500,000+",0,Art & Design;Pretend Play,"January 15, 2018"
2,"U Launcher Lite – FREE Live Cool Themes, Hide ...",ART_AND_DESIGN,4.7,87510,8.7M,"5,000,000+",0,Art & Design,"August 1, 2018"
3,Sketch - Draw & Paint,ART_AND_DESIGN,4.5,215644,25M,"50,000,000+",0,Art & Design,"June 8, 2018"
4,Pixel Draw - Number Art Coloring Book,ART_AND_DESIGN,4.3,967,2.8M,"100,000+",0,Art & Design;Creativity,"June 20, 2018"


In [14]:
## Ou deixar apenas aquelas que serão utilizadas
df = df[['name', 'attack', 'defense', 'speed', 'generation']]

In [24]:
## Visualizando os tipos do dataset
df.dtypes

App                object
Category           object
Rating            float64
Reviews             int64
Size               object
Installs           object
Type               object
Price              object
Content Rating     object
Genres             object
Last Updated       object
Current Ver        object
Android Ver        object
dtype: object

A função `apply()` serve para aplicar funções que só funcione para valores únicos. Pode ser aplicada em Series e em DataFrames.

In [38]:
df['Last Updated'] = df['Last Updated'].apply(datetime.strptime, args=('%B %d, %Y',))

Quantas gerações de pokemons existem em nosso dataset? Você pode verificar a informação usando um método que lista os valores únicos numa coluna:

In [16]:
## Listando os valores únicos
df['Category'].unique()

array(['ART_AND_DESIGN', 'AUTO_AND_VEHICLES', 'BEAUTY',
       'BOOKS_AND_REFERENCE', 'BUSINESS', 'COMICS', 'COMMUNICATION',
       'DATING', 'EDUCATION', 'ENTERTAINMENT', 'EVENTS', 'FINANCE',
       'FOOD_AND_DRINK', 'HEALTH_AND_FITNESS', 'HOUSE_AND_HOME',
       'LIBRARIES_AND_DEMO', 'LIFESTYLE', 'GAME', 'FAMILY', 'MEDICAL',
       'SOCIAL', 'SHOPPING', 'PHOTOGRAPHY', 'SPORTS', 'TRAVEL_AND_LOCAL',
       'TOOLS', 'PERSONALIZATION', 'PRODUCTIVITY', 'PARENTING', 'WEATHER',
       'VIDEO_PLAYERS', 'NEWS_AND_MAGAZINES', 'MAPS_AND_NAVIGATION',
       '1.9'], dtype=object)

Também parece interessante verificarmos a hegemoneidade da nossa amostra em relação as gerações. Pra tarefas de contar valores podemos sempre aproveitar de outro método disponível, o `.value_counts()`.

In [45]:
## Quantidade de valores para cada geração
df['Category'].value_counts()

FAMILY                 1972
GAME                   1144
TOOLS                   844
MEDICAL                 463
BUSINESS                460
PRODUCTIVITY            424
PERSONALIZATION         392
COMMUNICATION           387
SPORTS                  384
LIFESTYLE               382
FINANCE                 366
HEALTH_AND_FITNESS      341
PHOTOGRAPHY             335
SOCIAL                  295
NEWS_AND_MAGAZINES      283
SHOPPING                260
TRAVEL_AND_LOCAL        258
DATING                  234
BOOKS_AND_REFERENCE     231
VIDEO_PLAYERS           175
EDUCATION               156
ENTERTAINMENT           149
MAPS_AND_NAVIGATION     137
FOOD_AND_DRINK          127
HOUSE_AND_HOME           88
LIBRARIES_AND_DEMO       85
AUTO_AND_VEHICLES        85
WEATHER                  82
ART_AND_DESIGN           65
EVENTS                   64
PARENTING                60
COMICS                   60
BEAUTY                   53
Name: Category, dtype: int64

Os valores contados também podem ser normalizados para expressar porcentagens:

In [46]:
## Quantidade de valores para cada geração (normalizado)
df['Category'].value_counts(normalize=True)

FAMILY                 0.181902
GAME                   0.105525
TOOLS                  0.077853
MEDICAL                0.042708
BUSINESS               0.042432
PRODUCTIVITY           0.039111
PERSONALIZATION        0.036159
COMMUNICATION          0.035698
SPORTS                 0.035421
LIFESTYLE              0.035237
FINANCE                0.033761
HEALTH_AND_FITNESS     0.031455
PHOTOGRAPHY            0.030901
SOCIAL                 0.027212
NEWS_AND_MAGAZINES     0.026105
SHOPPING               0.023983
TRAVEL_AND_LOCAL       0.023799
DATING                 0.021585
BOOKS_AND_REFERENCE    0.021308
VIDEO_PLAYERS          0.016142
EDUCATION              0.014390
ENTERTAINMENT          0.013744
MAPS_AND_NAVIGATION    0.012637
FOOD_AND_DRINK         0.011715
HOUSE_AND_HOME         0.008117
LIBRARIES_AND_DEMO     0.007841
AUTO_AND_VEHICLES      0.007841
WEATHER                0.007564
ART_AND_DESIGN         0.005996
EVENTS                 0.005904
PARENTING              0.005535
COMICS  

Agrupar os dados se baseando em certos critérios é outro processo que o pandas facilita bastante com o `.groupby()`.

Abaixo agrupamos o nosso DataFrame pelos valores da coluna `"generation"`, e em seguida aplicamos o `.mean()` ou `.agg('mean')` para termos um objeto GroupBy com informação das médias agrupadas pelos valores da coluna geração. 

In [47]:
## Agrupando pelas gerações
df.groupby('Category').mean()

Unnamed: 0_level_0,Rating,Reviews
Category,Unnamed: 1_level_1,Unnamed: 2_level_1
ART_AND_DESIGN,4.358065,26376.0
AUTO_AND_VEHICLES,4.190411,13690.19
BEAUTY,4.278571,7476.226
BOOKS_AND_REFERENCE,4.346067,95060.9
BUSINESS,4.121452,30335.98
COMICS,4.155172,56387.93
COMMUNICATION,4.158537,2107138.0
DATING,3.970769,31159.31
EDUCATION,4.389032,253819.1
ENTERTAINMENT,4.126174,397168.8


É comum queremos aplicar uma função qualquer aos dados, ou à parte deles, neste caso o pandas fornece o método `.apply`. Por exemplo, para deixar os nomes dos pokemons como apenas as suas três primeiras letras:

In [None]:
## Aplicação do método apply 

Ou de um jeito mais prático, usando uma função lambda:

In [None]:
## Aplicação do método apply

Uma das tarefas na qual o pandas é reconhecidamente poderoso é a habilidade de tratar dados incompletos.
Por muitos motivos pode haver incompletude no dataset, o `np.nan` é um valor especial definido no Numpy, sigla para Not a Number, o pandas preenche células sem valores em um DataFrame lido com `np.nan`.

Vamos criar um novo dataframe usando as 5 primeiras linhas do nosso original, usando o já visto `.head()`. Abaixo é usado o `.replace` para substituir um valor específico por um `NaN`. 

In [None]:
## Utilizando o replace()

O pandas simplifica a remoção de quaiquer linhas ou colunas que possuem um `np.nan`, por padrão o `.dropna()` retorna as linhas que não contém um NaN:

In [None]:
## Excluindo linhas com nan

Preencher todos os valores NaN por um outro específico também é bastante simples:

In [None]:
## Subistindo valores nan

## Visualização de dados com Pandas

Partiremos agora para visualização de dados com o pandas. Os métodos de visualização do pandas são construídos com base no matplotlib para exploração rápida dos dados.

Comecemos verificando que tanto Series como DataFrame possuem um método `.plot()` que também é um atributo e pode ser encadeado para gerar visualização de diversos tipos, como histograma, área, pizza e dispersão, com respectivamente  `.hist()`, `.area()`, `.pie()` e  `.scatter()`, além de vários outros.

Vamos verificar a distribuição das velocidades usando o encadeamento `.plot.hist()`:

In [None]:
## Histograma

Por padrão esse método usa 10 bins, ou seja, divide os dados em 10 partes, mas é claro que podemos especificar um valor para a plotagem. Abaixo, além de especificar a quantidade de bins, também especifiquei a cor das bordas como preta, que por padrão é transparente.

In [None]:
## Histograma

Podemos usar os valores de contagem de cada geração como exemplo de dado para um plot tanto de barras verticais quando de barras horizontais, para verificar visualmente esses dados:

In [None]:
## Gráfico de barras verticais

In [None]:
## Gráfico de barras horizontais

Os métodos são flexíveis o suficiente para aceitarem argumentos como um título para a imagem:

In [None]:
## Adicionando título

Um gráfico de dispersão usando um DataFrame pode ser usado especificando-se quais colunas usar como dados no eixo x e y:

In [None]:
## Gráfico de dispersão

A coluna `is_legendary` diz se o pokémon é legendário ou não, também se pode ver a contagem e distribuição usando outros métodos de plotagem oferecidos pelo pandas:

In [None]:
## Gráfico de pizza

## Salvando DataFrame 

Finalmente, a tarefa de salvar seu DataFrame externamente para um formato específico é feita com a mesma simplicidade que a leitura de dados é feita no pandas, pode-se usar, por exemplo, o método `to_csv`, e o arquivo será criado com os dados do DataFrame:

In [None]:
## Salvando um novo DataFrame no computador