# Pandas
Pandas é uma biblioteca Python de código aberto para análise de dados, que oferece alto desempenho, estruturas de dados de fácil utilização e ferramentas de análise de dados. Para usar a biblioteca, basta utilizar o seguinte comando de importação abaixo:

```python
import numpy as np
import pandas as pd
```

## Obtendo os Dados

| Formato | Descrição                        |  Função de Leitura | Função de Escrita |
|:--------|:---------------------------------|:-------------------|:------------------|
| Texto   | CSV                              | read_csv( )        | to_csv( )         |
| Texto   | JSON                             | read_json( )       | to_json( )        |
| Texto   | HTML                             | read_html( )       | to_html( )        | 
| Texto   | Área de Transferência de Memória | read_clipboard( )  | to_clipboard( )   |
| Binário | MS Excel                         | read_excel( )      | to_excel( )       |
| Binário | HDF5 Format                      | read_hdf( )        | to_hdf( )         |
| Binário | Feather Format                   | read_feather( )    | to_feather( )     |
| Binário | Parquet Format                   | read_parquet( )    | to_parquet( )     |
| Binário | Msgpack                          | read_msgpack( )    | to_msgpack( )     |
| Binário | Stata                            | read_stata( )      | to_stata( )       |
| Binário | SAS                              | read_sas( )        | -                 | 
| Binário | Python Pickle Format             | read_pickle( )     | to_pickle( )      |
| SQL     | SQL                              | read_sql( )        | to_sql( )         |
| SQL     | Google Big Query                 | read_gbq( )        | to_gbq( )         |

### Exemplos

```python
# Exemplo 1: Leitura e Escrita para CSV

# Lê 5 linhas de um arquivo CSV sem cabeçalho.
pd.read_csv("arquivo.csv", header=None, nrows=5) 

# Exporta os dados de uma estrutura de dados 
# Data Frame do Pandas para um arquivo csv.
dados_data_frame.to_csv("dados_data_frame.csv")


# Exemplo 2: Leitura e Escrita para EXCEL
pd.read_excel("planilha.xlsx")

dados_data_frame.to_excel("dados_data_frame.xlsx", sheet_name="Planilha 1")

# Carrega múltiplas planilhas do mesmo arquivo
planilha = pd.ExcelFile("arquivo.xls")
dados_data_frame = pd.read_excel(xlsx, "Planilha 1")
```


## Estruturas de Dados

### Series
Vetor unidimensional rotulado capaz de armazenar qualquer tipo de dado

In [32]:
import numpy as np
import pandas as pd

s = pd.Series(np.random.randn(5), index=['a', 'b', 'c', 'd', 'e'])
s

a    0.439841
b    1.055982
c    0.851192
d   -1.096630
e   -0.538020
dtype: float64

### Data Frame
Matriz rotulada contendo colunas com diferentes tipos de dados

In [5]:
data = {
    'Country': ['Belgium',  'India',  'Brazil'],
    'Capital': ['Brussels',  'New Delhi',  'Brasilia'],
    'Population': [11190846, 1303171035, 207847528]
}

df = pd.DataFrame(data, columns=['Country',  'Capital',  'Population'])

df

Unnamed: 0,Country,Capital,Population
0,Belgium,Brussels,11190846
1,India,New Delhi,1303171035
2,Brazil,Brasilia,207847528


### Indexação / Seleção

| Operação                                    | Sintaxe            | Resultado |
|:--------------------------------------------|:-------------------|:----------|
| Seleciona Coluna                            | df[col]            | Series    |
| Seleciona Linha por nome do rótulo          | df.loc[rotulo]     | Series    |
| Seleciona linhas por posição (inteiro)      | df.iloc[posicao]   | Series    |
| Divide Linhas                               | df[5:10]           | DataFrame |
| Seleciona linhas por vetor booleano         | df[vetor_booleano] | DataFrame |


In [14]:
import numpy as np
import pandas as pd

data = {
    'Country': ['Belgium',  'India',  'Brazil'],
    'Capital': ['Brussels',  'New Delhi',  'Brasilia'],
    'Population': [11190846, 1303171035, 207847528]
}

df = pd.DataFrame(data, columns=['Country',  'Capital',  'Population'])

print('*Seleção por posição')
print(df.iloc[[0],[0]])

print('*Seleção por rótulo')
print(df.loc[[0], ['Country']])

print('*Rótulo/Posição')
print(df.loc[2])
print('\nd')
print(df.loc[:, 'Capital'])
print('\nd')
print(df.loc[2, 'Capital'])

*Seleção por posição
   Country
0  Belgium
*Seleção por rótulo
   Country
0  Belgium
*Rótulo/Posição
Country          Brazil
Capital        Brasilia
Population    207847528
Name: 2, dtype: object

d
0     Brussels
1    New Delhi
2     Brasilia
Name: Capital, dtype: object

d
Brasilia


### Missing Data (Dados Ausentes)

O pandas utiliza o valor np.nan para representar todos os dados ausentes que possam aparecer no conjunto de dados. Para detectar dados ausentes facilmente, o Pandas fornece as funções: isna() e notna(), que são também métodos dos objetos do tipo Series e DataFrame.

In [28]:
import numpy as np
import pandas as pd

df = pd.DataFrame(np.random.randn(5, 3), index=['A', 'C', 'E', 'F', 'H'], 
                  columns=['one', 'two', 'three'])

print(df)
print('\nd')

df['four'] = 'bar' # Cria uma nova coluna (four) e adiciona valores constantes (bar)
print(df)

df['five'] = df['one'] > 0 # Cria uma nova coluna (five) e adiciona true se a coluna 1 for maior que zero
print(df)
print('\nd')


# Reindexa o data frame para simularmos os missing datas
# Ele adicionou as linhas ausentes: B, D e G; e preencheu
# com dados auentes (NaN)
df2 = df.reindex(['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'])

print(df2)
print('\nd')

# Avalia o data frame e coloca True no local dos dados ausentes

print(pd.isna(df2))
print('\nd')
print(df2.isna())
print('\nd')

#É possível fazer o teste especificando colunas
print('É possível fazer o teste especificando colunas')
print('\nd')
print(df2['one'])
print('\nd')
print(pd.isna(df2['one']))
print('\nd')
print(df2['four'].notna())
print(df2)

        one       two     three
A -1.254107 -0.401185  0.548949
C  0.918822  0.752431  0.131871
E  0.066894  0.622751  0.275885
F  0.962273  0.583561 -0.776267
H  0.629092 -1.461172 -0.451204

d
        one       two     three four
A -1.254107 -0.401185  0.548949  bar
C  0.918822  0.752431  0.131871  bar
E  0.066894  0.622751  0.275885  bar
F  0.962273  0.583561 -0.776267  bar
H  0.629092 -1.461172 -0.451204  bar
        one       two     three four   five
A -1.254107 -0.401185  0.548949  bar  False
C  0.918822  0.752431  0.131871  bar   True
E  0.066894  0.622751  0.275885  bar   True
F  0.962273  0.583561 -0.776267  bar   True
H  0.629092 -1.461172 -0.451204  bar   True

d
        one       two     three four   five
A -1.254107 -0.401185  0.548949  bar  False
B       NaN       NaN       NaN  NaN    NaN
C  0.918822  0.752431  0.131871  bar   True
D       NaN       NaN       NaN  NaN    NaN
E  0.066894  0.622751  0.275885  bar   True
F  0.962273  0.583561 -0.776267  bar   True
G       


### Ordenação e Ranking

| Função                          | Descrição                        | 
|:--------------------------------|:---------------------------------|
| df.sort_index()                 | Ordena por índices               |
| df.sort_values(by='NomeColuna') | Ordena por valores               |
| df.rank()                       | Gera um ranking para as entradas |


### Informações Básicas

| Função         | Descrição                                | 
|:---------------|:-----------------------------------------|
| df.shape()     | Retorna (linhas, colunas)                |
| df.index()     | Descreve os índices                      |
| df.columns()   | Descreve as colunas do Data Frame        |
| df.info()      | Informações do Data Frame                |
| df.count()     | Retorna a contagem dos valores não nulos |


### Sumário Quantitativo

| Função         | Descrição                      | 
|:---------------|:-------------------------------|
| df.sum()       | Soma dos valores               |
| df.cumsum()    | Soma cumulativa dos valores    |
| df.min()       | Obtém o valor mínimo           |
| df.max()       | Obtém o valor máximo           |
| df.idxmin()    | Obtém o valor mínimo do índice |
| df.idxmax()    | Obtém o valor máximo do índice |
| df.describe()  | Gera estatísticas descritivas que resumem a tendência central, a dispersão e a forma da distribuição de um conjunto de dados, excluindo os valores NaN. |
| df.mean()      | Calcula a Média                |
| df.median()    | Calcula a Mediana              |



## Aprendendo Pandas na Prática

[Stack Overflow Annual Developer Survey](https://insights.stackoverflow.com/survey) é o maior e mais abrangente pesquisa sobre desevenvolvedores ao redor do mundo. Considerando o conjunto de dados da pesquisa referente ao ano de 2018, faremos algumas tarefas rotineiras de um cientista de dados utilizando a biblioteca Pandas. É importante lembrar que os resultados da pesqusia foram anonimizados e distribuídos para download publicamente sob a licença [Open Database Licence (ODbL)](https://opendatacommons.org/licenses/odbl/1.0/)

In [29]:
# Dataset: Stack Overflow Annual Developer Survey - 2018
import numpy as np
import pandas as pd

# 1. Carregue o dataset para análise, disponível na pasta data, usando as funções de leitura do Pandas.
data = pd.read_csv("developer_survey_2018\survey_results_public.csv", dtype=object)

# 2. Obtenha informações do Data Frame carregado em memória
print(data.info())
print('\n')

# 3. Selecione todas as linhas com país igual a Brasil
dados_brasil = data.loc[data['Country'] == 'Brazil']
print(dados_brasil.info())
print('\n')

# 4. Os dados do brasil possui dados ausentes (missing data)? Se sim, selecione todas as linhas
# que contenham algum dado ausente
dados_brasil_nulos = dados_brasil[dados_brasil.isnull().any(axis=1)]
dados_brasil_nulos

# 5. Qual o total de valores ausentes para cada coluna?
dados_brasil.isnull().sum()


# 6. Remova linhas com pelo menos 1 elemento ausente das colunas: 'FormalEducation', 'UndergradMajor', 'Age'.
dados_brasil_limpos = dados_brasil.dropna(subset=['FormalEducation', 'UndergradMajor', 'Age'])
print(dados_brasil_limpos.info())

# 7. Crie um subconjunto de dados com as colunas: 
# 'Respondent', 'Country', 'Student', 'Employment', 'FormalEducation', 'UndergradMajor', 'Exercise', 'Age'
print('exe 07')
dados_analise = dados_brasil_limpos.filter(['Respondent', 'Country', 'Student', 'Employment', 'FormalEducation', 'UndergradMajor', 'Exercise', 'Age'])
dados_analise.info()

# 8. Exiba as contagens de frequência dos valores únicos das colunas: 'Student', 'Exercise', 'Employment',
#'FormalEducation', 'UndergradMajor', 'Exercise', 'Age'
print('\n')

dados_analise.describe()
print('\n')

print('Student')
students_frequencia = dados_analise['Student'].value_counts()
print(students_frequencia)
print('\n')
print(dados_analise['Student'].describe())
print('\n')
print(students_frequencia.describe())

print('Exercise')
students_frequencia = dados_analise['Exercise'].value_counts()
print(students_frequencia)
print('\n')
print(dados_analise['Exercise'].describe())
print('\n')

print('Employment')
students_frequencia = dados_analise['Employment'].value_counts()
print(students_frequencia)
print('\n')
print(dados_analise['Employment'].describe())
print('\n')

print('FormalEducation')
students_frequencia = dados_analise['FormalEducation'].value_counts()
print(students_frequencia)
print('\n')
print(dados_analise['FormalEducation'].describe())
print('\n')

print('UndergradMajor')
students_frequencia = dados_analise['UndergradMajor'].value_counts()
print(students_frequencia)
print('\n')
print(dados_analise['UndergradMajor'].describe())
print('\n')

print('Age')
students_frequencia = dados_analise['Age'].value_counts()
print(students_frequencia)
print('\n')
dados_analise['Age'].describe()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 98855 entries, 0 to 98854
Columns: 129 entries, Respondent to SurveyEasy
dtypes: object(129)
memory usage: 97.3+ MB
None


<class 'pandas.core.frame.DataFrame'>
Int64Index: 2505 entries, 97 to 98823
Columns: 129 entries, Respondent to SurveyEasy
dtypes: object(129)
memory usage: 2.5+ MB
None


<class 'pandas.core.frame.DataFrame'>
Int64Index: 1312 entries, 97 to 90361
Columns: 129 entries, Respondent to SurveyEasy
dtypes: object(129)
memory usage: 1.3+ MB
None
exe 07
<class 'pandas.core.frame.DataFrame'>
Int64Index: 1312 entries, 97 to 90361
Data columns (total 8 columns):
Respondent         1312 non-null object
Country            1312 non-null object
Student            1296 non-null object
Employment         1307 non-null object
FormalEducation    1312 non-null object
UndergradMajor     1312 non-null object
Exercise           1307 non-null object
Age                1312 non-null object
dtypes: object(8)
memory usage: 92.2+ KB




Stude

count                  1312
unique                    6
top       25 - 34 years old
freq                    722
Name: Age, dtype: object