# Pandas
Pandas é uma biblioteca Python de código aberto para análise de dados, que oferece alto desempenho, estruturas de dados de fácil utilização e ferramentas de análise de dados. Para usar a biblioteca, basta utilizar o seguinte comando de importação abaixo:

```python
import numpy as np
import pandas as pd
```

## Obtendo os Dados

| Formato | Descrição                        |  Função de Leitura | Função de Escrita |
|:--------|:---------------------------------|:-------------------|:------------------|
| Texto   | CSV                              | read_csv( )        | to_csv( )         |
| Texto   | JSON                             | read_json( )       | to_json( )        |
| Texto   | HTML                             | read_html( )       | to_html( )        | 
| Texto   | Área de Transferência de Memória | read_clipboard( )  | to_clipboard( )   |
| Binário | MS Excel                         | read_excel( )      | to_excel( )       |
| Binário | HDF5 Format                      | read_hdf( )        | to_hdf( )         |
| Binário | Feather Format                   | read_feather( )    | to_feather( )     |
| Binário | Parquet Format                   | read_parquet( )    | to_parquet( )     |
| Binário | Msgpack                          | read_msgpack( )    | to_msgpack( )     |
| Binário | Stata                            | read_stata( )      | to_stata( )       |
| Binário | SAS                              | read_sas( )        | -                 | 
| Binário | Python Pickle Format             | read_pickle( )     | to_pickle( )      |
| SQL     | SQL                              | read_sql( )        | to_sql( )         |
| SQL     | Google Big Query                 | read_gbq( )        | to_gbq( )         |

### Exemplos

```python
# Exemplo 1: Leitura e Escrita para CSV

# Lê 5 linhas de um arquivo CSV sem cabeçalho.
pd.read_csv("arquivo.csv", header=None, nrows=5) 

# Exporta os dados de uma estrutura de dados 
# Data Frame do Pandas para um arquivo csv.
dados_data_frame.to_csv("dados_data_frame.csv")


# Exemplo 2: Leitura e Escrita para EXCEL
pd.read_excel("planilha.xlsx")

dados_data_frame.to_excel("dados_data_frame.xlsx", sheet_name="Planilha 1")

# Carrega múltiplas planilhas do mesmo arquivo
planilha = pd.ExcelFile("arquivo.xls")
dados_data_frame = pd.read_excel(xlsx, "Planilha 1")
```


## Estruturas de Dados

### Series
Vetor unidimensional rotulado capaz de armazenar qualquer tipo de dado

In [7]:
import numpy as np
import pandas as pd

s = pd.Series(np.random.randn(5), index=['a', 'b', 'c', 'd', 'e'])
s

a    0.461933
b    1.209675
c    0.521133
d   -0.229484
e   -0.784481
dtype: float64

### Data Frame
Matriz rotulada contendo colunas com diferentes tipos de dados

In [12]:
data = {
    'Country': ['Belgium',  'India',  'Brazil', 'China'],
    'Capital': ['Brussels',  'New Delhi',  'Brasilia', 'Chongqing'],
    'Population': ['11.190.846', '1.303.171.035', '207.847.528', '30.165.500']
}

df = pd.DataFrame(data, columns=['Country',  'Capital',  'Population'])

df

Unnamed: 0,Country,Capital,Population
0,Belgium,Brussels,11.190.846
1,India,New Delhi,1.303.171.035
2,Brazil,Brasilia,207.847.528
3,China,Chongqing,30.165.500


### Indexação / Seleção

| Operação                                    | Sintaxe            | Resultado |
|:--------------------------------------------|:-------------------|:----------|
| Seleciona Coluna                            | df[col]            | Series    |
| Seleciona Linha por nome do rótulo          | df.loc[rotulo]     | Series    |
| Seleciona linhas por posição (inteiro)      | df.iloc[posicao]   | Series    |
| Divide Linhas                               | df[5:10]           | DataFrame |
| Seleciona linhas por vetor booleano         | df[vetor_booleano] | DataFrame |


In [34]:
import numpy as np
import pandas as pd

data = {
    'Country': ['Belgium',  'India',  'Brazil'],
    'Capital': ['Brussels',  'New Delhi',  'Brasilia'],
    'Population': [11190846, 1303171035, 207847528]
}

df = pd.DataFrame(data, columns=['Country',  'Capital',  'Population'])

# Seleção por posição
print(df.iloc[[0],[0]])
print("\n")


   Country
0  Belgium




In [36]:
# Seleção por rótulo
print(df.loc[[0], ['Country']])
print("\n")

   Country
0  Belgium




In [38]:
# Rótulo/Posição
print(df.loc[2])
print("\n")

print(df.loc[:, 'Capital'])
print("\n")

print(df.loc[2, 'Capital'])
print("\n")

Country          Brazil
Capital        Brasilia
Population    207847528
Name: 2, dtype: object


0     Brussels
1    New Delhi
2     Brasilia
Name: Capital, dtype: object


Brasilia




### Missing Data (Dados Ausentes)

O pandas utiliza o valor np.nan para representar todos os dados auentes que possam aparecer no conjunto de dados. Para detectar dados ausentes facilmente, o Pandas fornece as funções: isna() e notna(), que são também métodos dos objetos do tipo Series e DataFrame.

In [43]:
import numpy as np
import pandas as pd

df = pd.DataFrame(np.random.randn(5, 3), index=['A', 'C', 'E', 'F', 'H'], 
                  columns=['one', 'two', 'three'])

print("\n")
print(df)
print("\n")



        one       two     three
A -0.723679 -0.564471  0.664825
C  0.554347 -1.192107  0.038739
E  0.282690  0.146103  1.378668
F  1.402670  0.485566  1.990728
H  0.562901 -1.070776  1.444420




In [44]:
df['four'] = 'bar' # Cria uma nova coluna (four) e adiciona valores constantes (bar)

print("\n")
print(df)
print("\n")




        one       two     three four
A -0.723679 -0.564471  0.664825  bar
C  0.554347 -1.192107  0.038739  bar
E  0.282690  0.146103  1.378668  bar
F  1.402670  0.485566  1.990728  bar
H  0.562901 -1.070776  1.444420  bar




In [45]:
df['five'] = df['one'] > 0 # Cria uma nova coluna (five) e adiciona true se a coluna 1 for maior que zero

print("\n")
print(df)
print("\n")




        one       two     three four   five
A -0.723679 -0.564471  0.664825  bar  False
C  0.554347 -1.192107  0.038739  bar   True
E  0.282690  0.146103  1.378668  bar   True
F  1.402670  0.485566  1.990728  bar   True
H  0.562901 -1.070776  1.444420  bar   True




In [46]:
# Reindexa o data frame para simularmos os missing datas
# Ele adicionou as linhas ausentes: B, D e G; e preencheu
# com dados auentes (NaN)
df2 = df.reindex(['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'])

print("\n")
print(df2)
print("\n")



        one       two     three four   five
A -0.723679 -0.564471  0.664825  bar  False
B       NaN       NaN       NaN  NaN    NaN
C  0.554347 -1.192107  0.038739  bar   True
D       NaN       NaN       NaN  NaN    NaN
E  0.282690  0.146103  1.378668  bar   True
F  1.402670  0.485566  1.990728  bar   True
G       NaN       NaN       NaN  NaN    NaN
H  0.562901 -1.070776  1.444420  bar   True




In [53]:
# Avalia o data frame e coloca True no local dos dados ausentes
print("\n")
print(pd.isna(df2))
df2.isna()
print("\n")
print(df2)
print("\n")



     one    two  three   four   five
A  False  False  False  False  False
B   True   True   True   True   True
C  False  False  False  False  False
D   True   True   True   True   True
E  False  False  False  False  False
F  False  False  False  False  False
G   True   True   True   True   True
H  False  False  False  False  False


        one       two     three four   five
A -0.723679 -0.564471  0.664825  bar  False
B       NaN       NaN       NaN  NaN    NaN
C  0.554347 -1.192107  0.038739  bar   True
D       NaN       NaN       NaN  NaN    NaN
E  0.282690  0.146103  1.378668  bar   True
F  1.402670  0.485566  1.990728  bar   True
G       NaN       NaN       NaN  NaN    NaN
H  0.562901 -1.070776  1.444420  bar   True




In [60]:
# É possível fazer o teste especificando colunas
print("\n")
print(df2['one'])
print("\n")

print(pd.isna(df2['one']) )
print("\n")

print(df2['four'].notna())
print("\n")



A   -0.723679
B         NaN
C    0.554347
D         NaN
E    0.282690
F    1.402670
G         NaN
H    0.562901
Name: one, dtype: float64


A    False
B     True
C    False
D     True
E    False
F    False
G     True
H    False
Name: one, dtype: bool


A     True
B    False
C     True
D    False
E     True
F     True
G    False
H     True
Name: four, dtype: bool




### Ordenação e Ranking

| Função                          | Descrição                        | 
|:--------------------------------|:---------------------------------|
| df.sort_index()                 | Ordena por índices               |
| df.sort_values(by='NomeColuna') | Ordena por valores               |
| df.rank()                       | Gera um ranking para as entradas |


### Informações Básicas

| Função         | Descrição                                | 
|:---------------|:-----------------------------------------|
| df.shape()     | Retorna (linhas, colunas)                |
| df.index()     | Descreve os índices                      |
| df.columns()   | Descreve as colunas do Data Frame        |
| df.info()      | Informações do Data Frame                |
| df.count()     | Retorna a contagem dos valores não nulos |


### Sumário Quantitativo

| Função         | Descrição                      | 
|:---------------|:-------------------------------|
| df.sum()       | Soma dos valores               |
| df.cumsum()    | Soma cumulativa dos valores    |
| df.min()       | Obtém o valor mínimo           |
| df.max()       | Obtém o valor máximo           |
| df.idxmin()    | Obtém o valor mínimo do índice |
| df.idxmax()    | Obtém o valor máximo do índice |
| df.describe()  | Gera estatísticas descritivas que resumem a tendência central, a dispersão e a forma da distribuição de um conjunto de dados, excluindo os valores NaN. |
| df.mean()      | Calcula a Média                |
| df.median()    | Calcula a Mediana              |



## Aprendendo Pandas na Prática

[Stack Overflow Annual Developer Survey](https://insights.stackoverflow.com/survey) é o maior e mais abrangente pesquisa sobre desevenvolvedores ao redor do mundo. Considerando o conjunto de dados da pesquisa referente ao ano de 2018, faremos algumas tarefas rotineiras de um cientista de dados utilizando a biblioteca Pandas. É importante lembrar que os resultados da pesqusia foram anonimizados e distribuídos para download publicamente sob a licença [Open Database Licence (ODbL)](https://opendatacommons.org/licenses/odbl/1.0/)

In [66]:
# Dataset: tack Overflow Annual Developer Survey - 2018
import numpy as np
import pandas as pd

# 1. Carregue o dataset para análise, disponível na pasta data, usando as funções de leitura do Pandas.


# 2. Obtenha informações do Data Frame carregado em memória


# 3. Selecione todas as linhas com país igual a Brasil



# 4. Os dados do brasil possui dados ausentes (missing data)? Se sim, selecione todas as linhas
# que contenham algum dado ausente



# 5. Qual o total de valores ausentes para cada coluna?



# 6. Remova linhas com pelo menos 1 elemento ausente das colunas: 'FormalEducation', 'UndergradMajor', 'Age'.



# 7. Crie um subconjunto de dados com as colunas: 
# Respondent, Country, Student, Employment, FormalEducation, UndergradMajor, Exercise, Age



# 8. Exiba as contagens de frequência dos valores únicos das colunas: Student, Exercise, Employment, FormalEducation, UndergradMajor, Exercise e Age



In [65]:
# Solução na pagina Pratica Aula_4_2019052019