# Pandas
Pandas é uma biblioteca Python de código aberto para análise de dados, que oferece alto desempenho, estruturas de dados de fácil utilização e ferramentas de análise de dados. Para usar a biblioteca, basta utilizar o seguinte comando de importação abaixo:

```python
import numpy as np
import pandas as pd
```

## Obtendo os Dados

| Formato | Descrição                        |  Função de Leitura | Função de Escrita |
|:--------|:---------------------------------|:-------------------|:------------------|
| Texto   | CSV                              | read_csv( )        | to_csv( )         |
| Texto   | JSON                             | read_json( )       | to_json( )        |
| Texto   | HTML                             | read_html( )       | to_html( )        | 
| Texto   | Área de Transferência de Memória | read_clipboard( )  | to_clipboard( )   |
| Binário | MS Excel                         | read_excel( )      | to_excel( )       |
| Binário | HDF5 Format                      | read_hdf( )        | to_hdf( )         |
| Binário | Feather Format                   | read_feather( )    | to_feather( )     |
| Binário | Parquet Format                   | read_parquet( )    | to_parquet( )     |
| Binário | Msgpack                          | read_msgpack( )    | to_msgpack( )     |
| Binário | Stata                            | read_stata( )      | to_stata( )       |
| Binário | SAS                              | read_sas( )        | -                 | 
| Binário | Python Pickle Format             | read_pickle( )     | to_pickle( )      |
| SQL     | SQL                              | read_sql( )        | to_sql( )         |
| SQL     | Google Big Query                 | read_gbq( )        | to_gbq( )         |

### Exemplos

```python
# Exemplo 1: Leitura e Escrita para CSV

# Lê 5 linhas de um arquivo CSV sem cabeçalho.
pd.read_csv("arquivo.csv", header=None, nrows=5) 

# Exporta os dados de uma estrutura de dados 
# Data Frame do Pandas para um arquivo csv.
dados_data_frame.to_csv("dados_data_frame.csv")


# Exemplo 2: Leitura e Escrita para EXCEL
pd.read_excel("planilha.xlsx")

dados_data_frame.to_excel("dados_data_frame.xlsx", sheet_name="Planilha 1")

# Carrega múltiplas planilhas do mesmo arquivo
planilha = pd.ExcelFile("arquivo.xls")
dados_data_frame = pd.read_excel(xlsx, "Planilha 1")
```


## Estruturas de Dados

### Series
Vetor unidimensional rotulado capaz de armazenar qualquer tipo de dado

In [1]:
import numpy as np
import pandas as pd

s = pd.Series(np.random.randn(5), index=['a', 'b', 'c', 'd', 'e'])
s

a   -0.778596
b   -0.901417
c    0.383788
d   -0.397850
e   -2.078254
dtype: float64

### Data Frame
Matriz rotulada contendo colunas com diferentes tipos de dados

In [5]:
data = {
    'Country': ['Belgium',  'India',  'Brazil'],
    'Capital': ['Brussels',  'New Delhi',  'Brasilia'],
    'Population': [11190846, 1303171035, 207847528]
}

df = pd.DataFrame(data, columns=['Country',  'Capital',  'Population'])

df

Unnamed: 0,Country,Capital,Population
0,Belgium,Brussels,11190846
1,India,New Delhi,1303171035
2,Brazil,Brasilia,207847528


### Indexação / Seleção

| Operação                                    | Sintaxe            | Resultado |
|:--------------------------------------------|:-------------------|:----------|
| Seleciona Coluna                            | df[col]            | Series    |
| Seleciona Linha por nome do rótulo          | df.loc[rotulo]     | Series    |
| Seleciona linhas por posição (inteiro)      | df.iloc[posicao]   | Series    |
| Divide Linhas                               | df[5:10]           | DataFrame |
| Seleciona linhas por vetor booleano         | df[vetor_booleano] | DataFrame |


In [3]:
import numpy as np
import pandas as pd

data = {
    'Country': ['Belgium',  'India',  'Brazil'],
    'Capital': ['Brussels',  'New Delhi',  'Brasilia'],
    'Population': [11190846, 1303171035, 207847528]
}

df = pd.DataFrame(data, columns=['Country',  'Capital',  'Population'])

# Seleção por posição
print(df.iloc[[0],[0]])
print('\n\n')

# Seleção por rótulo
print(df.loc[[0], ['Country']])
print('\n\n')

# Rótulo/Posição
print(df.loc[2])
print('\n\n')
print(df.loc[:, 'Capital'])
print('\n\n')
print(df.loc[2, 'Capital'])

   Country
0  Belgium



   Country
0  Belgium



Country          Brazil
Capital        Brasilia
Population    207847528
Name: 2, dtype: object



0     Brussels
1    New Delhi
2     Brasilia
Name: Capital, dtype: object



Brasilia


### Missing Data (Dados Ausentes)

O pandas utiliza o valor np.nan para representar todos os dados auentes que possam aparecer no conjunto de dados. Para detectar dados ausentes facilmente, o Pandas fornece as funções: isna() e notna(), que são também métodos dos objetos do tipo Series e DataFrame.

In [2]:
import numpy as np
import pandas as pd

df = pd.DataFrame(np.random.randn(5, 3), index=['A', 'C', 'E', 'F', 'H'], 
                  columns=['one', 'two', 'three'])

print(df)
print('\n\n')

df['four'] = 'bar' # Cria uma nova coluna (four) e adiciona valores constantes (bar)
df['five'] = df['one'] > 0 # Cria uma nova coluna (five) e adiciona true se a coluna 1 for maior que zero
df['six'] = df['one'].apply(lambda x: x if x > 0 else 0)

print(df)
print('\n\n')

# Reindexa o data frame para simularmos os missing datas
# Ele adicionou as linhas ausentes: B, D e G; e preencheu
# com dados auentes (NaN)
df2 = df.reindex(['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'])

# Avalia o data frame e coloca True no local dos dados ausentes
df2
pd.isna(df2)
df2.isna()

# É possível fazer o teste especificando colunas
df2['one']
pd.isna(df2['one']) 
df2['four'].notna()

        one       two     three
A -0.761577 -0.423336 -0.193769
C  0.559541  0.137756 -0.696617
E  0.463730  0.766453 -0.671533
F  1.418593  1.535003 -0.789125
H -0.446195 -1.461312 -0.276106



        one       two     three four   five       six
A -0.761577 -0.423336 -0.193769  bar  False  0.000000
C  0.559541  0.137756 -0.696617  bar   True  0.559541
E  0.463730  0.766453 -0.671533  bar   True  0.463730
F  1.418593  1.535003 -0.789125  bar   True  1.418593
H -0.446195 -1.461312 -0.276106  bar  False  0.000000





A     True
B    False
C     True
D    False
E     True
F     True
G    False
H     True
Name: four, dtype: bool

### Ordenação e Ranking

| Função                          | Descrição                        | 
|:--------------------------------|:---------------------------------|
| df.sort_index()                 | Ordena por índices               |
| df.sort_values(by='NomeColuna') | Ordena por valores               |
| df.rank()                       | Gera um ranking para as entradas |


### Informações Básicas

| Função         | Descrição                                | 
|:---------------|:-----------------------------------------|
| df.shape()     | Retorna (linhas, colunas)                |
| df.index()     | Descreve os índices                      |
| df.columns()   | Descreve as colunas do Data Frame        |
| df.info()      | Informações do Data Frame                |
| df.count()     | Retorna a contagem dos valores não nulos |


### Sumário Quantitativo

| Função         | Descrição                      | 
|:---------------|:-------------------------------|
| df.sum()       | Soma dos valores               |
| df.cumsum()    | Soma cumulativa dos valores    |
| df.min()       | Obtém o valor mínimo           |
| df.max()       | Obtém o valor máximo           |
| df.idxmin()    | Obtém o valor mínimo do índice |
| df.idxmax()    | Obtém o valor máximo do índice |
| df.describe()  | Gera estatísticas descritivas que resumem a tendência central, a dispersão e a forma da distribuição de um conjunto de dados, excluindo os valores NaN. |
| df.mean()      | Calcula a Média                |
| df.median()    | Calcula a Mediana              |



## Aprendendo Pandas na Prática

[Stack Overflow Annual Developer Survey](https://insights.stackoverflow.com/survey) é o maior e mais abrangente pesquisa sobre desevenvolvedores ao redor do mundo. Considerando o conjunto de dados da pesquisa referente ao ano de 2018, faremos algumas tarefas rotineiras de um cientista de dados utilizando a biblioteca Pandas. É importante lembrar que os resultados da pesqusia foram anonimizados e distribuídos para download publicamente sob a licença [Open Database Licence (ODbL)](https://opendatacommons.org/licenses/odbl/1.0/)

In [26]:
# Dataset: tack Overflow Annual Developer Survey - 2018
import numpy as np
import pandas as pd

# 1. Carregue o dataset para análise, disponível na pasta data, usando as funções de leitura do Pandas.
data = pd.read_csv("data\survey_results_public.csv", dtype=object)

# 2. Obtenha informações do Data Frame carregado em memória
#print(data.info())
#print('\n\n')

# 3. Selecione todas as linhas com país igual a Brasil
dados_brasil = data.loc[data['Country'] == 'Brazil']
#print(dados_brasil.info())
#print('\n\n')

# 4. Os dados do brasil possui dados ausentes (missing data)? Se sim, selecione todas as linhas
# que contenham algum dado ausente
dados_brasil_nulos = dados_brasil[dados_brasil.isnull().any(axis=1)]
#print(dados_brasil_nulos)
#print('\n\n')

# 5. Qual o total de valores ausentes para cada coluna?
#dados_brasil.isnull().sum()
#print('\n\n')

# 6. Remova linhas com pelo menos 1 elemento ausente das colunas: 'FormalEducation', 'UndergradMajor', 'Age'.
dados_brasil_limpos = dados_brasil.dropna(subset=['FormalEducation', 'UndergradMajor', 'Age'])
#print(dados_brasil_limpos)
#print('\n\n')

# 7. Crie um subconjunto de dados com as colunas: 
# 'Respondent', 'Country', 'Student', 'Employment', 'FormalEducation', 'UndergradMajor', 'Exercise', 'Age'
dados_analise = dados_brasil_limpos.filter(['Respondent', 'Country', 'Student', 'Employment', 'FormalEducation', 'UndergradMajor', 'Exercise', 'Age'])
#dados_analise

# 8. Exiba as contagens de frequência dos valores únicos das colunas: Student, Exercise, Employment, FormalEducation, UndergradMajor, Exercise e Age
students_frequencia = dados_analise['Student'].value_counts();
print(students_frequencia)
dados_analise['Respondent'].astype(float).describe()


No                915
Yes, part-time    257
Yes, full-time    124
Name: Student, dtype: int64


count      1312.000000
mean      50613.081555
std       29049.490218
min         142.000000
25%       25885.000000
50%       50259.000000
75%       76150.500000
max      101523.000000
Name: Respondent, dtype: float64