# Pandas
Pandas é uma biblioteca Python de código aberto para análise de dados, que oferece alto desempenho, estruturas de dados de fácil utilização e ferramentas de análise de dados. Para usar a biblioteca, basta utilizar o seguinte comando de importação abaixo:

```python
import numpy as np
import pandas as pd
```

## Obtendo os Dados

| Formato | Descrição                        |  Função de Leitura | Função de Escrita |
|:--------|:---------------------------------|:-------------------|:------------------|
| Texto   | CSV                              | read_csv( )        | to_csv( )         |
| Texto   | JSON                             | read_json( )       | to_json( )        |
| Texto   | HTML                             | read_html( )       | to_html( )        | 
| Texto   | Área de Transferência de Memória | read_clipboard( )  | to_clipboard( )   |
| Binário | MS Excel                         | read_excel( )      | to_excel( )       |
| Binário | HDF5 Format                      | read_hdf( )        | to_hdf( )         |
| Binário | Feather Format                   | read_feather( )    | to_feather( )     |
| Binário | Parquet Format                   | read_parquet( )    | to_parquet( )     |
| Binário | Msgpack                          | read_msgpack( )    | to_msgpack( )     |
| Binário | Stata                            | read_stata( )      | to_stata( )       |
| Binário | SAS                              | read_sas( )        | -                 | 
| Binário | Python Pickle Format             | read_pickle( )     | to_pickle( )      |
| SQL     | SQL                              | read_sql( )        | to_sql( )         |
| SQL     | Google Big Query                 | read_gbq( )        | to_gbq( )         |

### Exemplos

```python
# Exemplo 1: Leitura e Escrita para CSV

# Lê 5 linhas de um arquivo CSV sem cabeçalho.
pd.read_csv("arquivo.csv", header=None, nrows=5) 

# Exporta os dados de uma estrutura de dados 
# Data Frame do Pandas para um arquivo csv.
dados_data_frame.to_csv("dados_data_frame.csv")


# Exemplo 2: Leitura e Escrita para EXCEL
pd.read_excel("planilha.xlsx")

dados_data_frame.to_excel("dados_data_frame.xlsx", sheet_name="Planilha 1")

# Carrega múltiplas planilhas do mesmo arquivo
planilha = pd.ExcelFile("arquivo.xls")
dados_data_frame = pd.read_excel(xlsx, "Planilha 1")
```


## Estruturas de Dados

### Series
Vetor unidimensional rotulado capaz de armazenar qualquer tipo de dado

In [2]:
import numpy as np
import pandas as pd

s = pd.Series(np.random.randn(5), index=['1', '2', '3', '4', '5'])
s

1   -0.752016
2   -1.002963
3    0.613909
4   -1.026512
5   -0.271178
dtype: float64

### Data Frame
Matriz rotulada contendo colunas com diferentes tipos de dados

In [15]:
data = {
    'Country': ['Belgium',  'India',  'Brasil'],
    'Capital': ['Brussels',  'New Delhi',  'Brasilia'],
    'Population': [11190846, 1303171035, 207847528]
}

df = pd.DataFrame(data, columns=['Country',  'Capital',  'Population'])

df

Unnamed: 0,Country,Capital,Population
0,Belgium,Brussels,11190846
1,India,New Delhi,1303171035
2,Brasil,Brasilia,207847528


### Indexação / Seleção

| Operação                                    | Sintaxe            | Resultado |
|:--------------------------------------------|:-------------------|:----------|
| Seleciona Coluna                            | df[col]            | Series    |
| Seleciona Linha por nome do rótulo          | df.loc[rotulo]     | Series    |
| Seleciona linhas por posição (inteiro)      | df.iloc[posicao]   | Series    |
| Divide Linhas                               | df[5:10]           | DataFrame |
| Seleciona linhas por vetor booleano         | df[vetor_booleano] | DataFrame |


In [5]:
import numpy as np
import pandas as pd

data = {
    'Country': ['Belgium',  'India',  'Brazil'],
    'Capital': ['Brussels',  'New Delhi',  'Brasilia'],
    'Population': [11190846, 1303171035, 207847528]
}

df = pd.DataFrame(data, columns=['Country',  'Capital',  'Population'])

# Seleção por posição
print(df.iloc[[0],[0]])
print('\n\n')

# Seleção por rótulo
print(df.loc[[0], ['Country']])
print('\n\n')

# Rótulo/Posição
print(df.loc[2])
print('\n\n')

print(df.loc[:, 'Capital'])
print('\n\n')

print(df.loc[2, 'Capital'])

   Country
0  Belgium



   Country
0  Belgium



Country          Brazil
Capital        Brasilia
Population    207847528
Name: 2, dtype: object



0     Brussels
1    New Delhi
2     Brasilia
Name: Capital, dtype: object



Brasilia


### Missing Data (Dados Ausentes)

O pandas utiliza o valor np.nan para representar todos os dados auentes que possam aparecer no conjunto de dados. Para detectar dados ausentes facilmente, o Pandas fornece as funções: isna() e notna(), que são também métodos dos objetos do tipo Series e DataFrame.

In [3]:
import numpy as np
import pandas as pd

df = pd.DataFrame(np.random.randn(5, 3), index=['A', 'C', 'E', 'F', 'H'], 
                  columns=['one', 'two', 'three'])

print(df)
print('\n')

df['four'] = 'boteco' # Cria uma nova coluna (four) e adiciona valores constantes (bar)
print(df)
print('\n')

df['five'] = df['one'] > 0 # Cria uma nova coluna (five) e adiciona true se a coluna 1 for maior que zero
print(df)
print('\n')

# Reindexa o data frame para simularmos os missing datas
# Ele adicionou as linhas ausentes: B, D e G; e preencheu
# com dados auentes (NaN)
df2 = df.reindex(['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'])
print(df2)
print('\n')

# Avalia o data frame e coloca True no local dos dados ausentes
print(pd.isna(df2))
print('\n')

print(df2.isna())
print('\n')

# É possível fazer o teste especificando colunas
print(df2['one'])
print('\n')

print(pd.isna(df2['one']))
print('\n')

print(df2['four'].notna())

        one       two     three
A -0.677514 -0.160879 -0.962657
C -0.703039 -1.220335  1.230707
E -0.791850 -0.375682  0.867539
F  0.466961 -0.847370 -0.030839
H  0.837131  1.961010 -0.868234


        one       two     three    four
A -0.677514 -0.160879 -0.962657  boteco
C -0.703039 -1.220335  1.230707  boteco
E -0.791850 -0.375682  0.867539  boteco
F  0.466961 -0.847370 -0.030839  boteco
H  0.837131  1.961010 -0.868234  boteco


        one       two     three    four   five
A -0.677514 -0.160879 -0.962657  boteco  False
C -0.703039 -1.220335  1.230707  boteco  False
E -0.791850 -0.375682  0.867539  boteco  False
F  0.466961 -0.847370 -0.030839  boteco   True
H  0.837131  1.961010 -0.868234  boteco   True


        one       two     three    four   five
A -0.677514 -0.160879 -0.962657  boteco  False
B       NaN       NaN       NaN     NaN    NaN
C -0.703039 -1.220335  1.230707  boteco  False
D       NaN       NaN       NaN     NaN    NaN
E -0.791850 -0.375682  0.867539  boteco  Fals

### Ordenação e Ranking

| Função                          | Descrição                        | 
|:--------------------------------|:---------------------------------|
| df.sort_index()                 | Ordena por índices               |
| df.sort_values(by='NomeColuna') | Ordena por valores               |
| df.rank()                       | Gera um ranking para as entradas |


### Informações Básicas

| Função         | Descrição                                | 
|:---------------|:-----------------------------------------|
| df.shape()     | Retorna (linhas, colunas)                |
| df.index()     | Descreve os índices                      |
| df.columns()   | Descreve as colunas do Data Frame        |
| df.info()      | Informações do Data Frame                |
| df.count()     | Retorna a contagem dos valores não nulos |


### Sumário Quantitativo

| Função         | Descrição                      | 
|:---------------|:-------------------------------|
| df.sum()       | Soma dos valores               |
| df.cumsum()    | Soma cumulativa dos valores    |
| df.min()       | Obtém o valor mínimo           |
| df.max()       | Obtém o valor máximo           |
| df.idxmin()    | Obtém o valor mínimo do índice |
| df.idxmax()    | Obtém o valor máximo do índice |
| df.describe()  | Gera estatísticas descritivas que resumem a tendência central, a dispersão e a forma da distribuição de um conjunto de dados, excluindo os valores NaN. |
| df.mean()      | Calcula a Média                |
| df.median()    | Calcula a Mediana              |



## Aprendendo Pandas na Prática

[Stack Overflow Annual Developer Survey](https://insights.stackoverflow.com/survey) é o maior e mais abrangente pesquisa sobre desevenvolvedores ao redor do mundo. Considerando o conjunto de dados da pesquisa referente ao ano de 2018, faremos algumas tarefas rotineiras de um cientista de dados utilizando a biblioteca Pandas. É importante lembrar que os resultados da pesqusia foram anonimizados e distribuídos para download publicamente sob a licença [Open Database Licence (ODbL)](https://opendatacommons.org/licenses/odbl/1.0/)

In [1]:
# Dataset: tack Overflow Annual Developer Survey - 2018
import numpy as np
import pandas as pd

# 1. Carregue o dataset para análise, disponível na pasta data, usando as funções de leitura do Pandas.
data = pd.read_csv("Data\survey_results_public.csv", dtype=object)

# 2. Obtenha informações do Data Frame carregado em memória
print('Exercicio02')
data.info()
print('\n')

# 3. Selecione todas as linhas com país igual a Brasil
print('Exercicio03')
dados_brazil = data.loc[data['Country'] == 'Brazil']
dados_brazil.info()
print('\n')

# 4. Os dados do brasil possui dados ausentes (missing data)? Se sim, selecione todas as linhas
# que contenham algum dado ausente
print('Exercicio04')
dados_brazil_nulos = dados_brazil[dados_brazil.isnull().any(axis=1)]
dados_brazil_nulos.info()
print('\n')

# 5. Qual o total de valores ausentes para cada coluna?
print('Exercicio05')
print(dados_brazil.isnull().sum())
print('\n')

# 6. Remova linhas com pelo menos 1 elemento ausente das colunas: 'FormalEducation', 'UndergradMajor', 'Age'.
print('Exercicio06')
dados_brazil_limpos = dados_brazil.dropna(subset=['FormalEducation', 'UndergradMajor', 'Age'])
dados_brazil_limpos.info()
print('\n')

# 7. Crie um subconjunto de dados com as colunas: 
# Respondent, Country, Student, Employment, FormalEducation, UndergradMajor, Exercise, Age
print('Exercicio07')
dados_analise = dados_brazil_limpos.filter(['Respondent', 'Country', 'Student', 'Employment', 'FormalEducation', 'UndergradMajor', 'Exercise', 'Age'])
dados_analise.info()
print('\n')

# 8. Exiba as contagens de frequência dos valores únicos das colunas: Student, Exercise, Employment, FormalEducation, UndergradMajor, Exercise e Age
print('Exercicio08')
print('Student')
students_frequence = dados_analise['Student'].value_counts()
print(students_frequence)
print('\n')
print(dados_analise.describe())
print('\n')

print('Exercise')
Exercise_frequence = dados_analise['Exercise'].value_counts()
print(Exercise_frequence)
print('\n')
print(Exercise_frequence.describe())
print('\n')

print('Employment')
Employment_frequence = dados_analise['Employment'].value_counts()
print(Employment_frequence)
print('\n')
print(Employment_frequence.describe())
print('\n')

print('FormalEducation')
formal_education_frequence = dados_analise['FormalEducation'].value_counts()
print(formal_education_frequence)
print('\n')
print(formal_education_frequence.describe())
print('\n')

print('UndergradMajor')
UndergradMajor_frequence = dados_analise['UndergradMajor'].value_counts()
print(UndergradMajor_frequence)
print('\n')
print(UndergradMajor_frequence.describe())
print('\n')

print('Age')
Age_frequence = dados_analise['Age'].value_counts()
print(Age_frequence)
print('\n')
print(Age_frequence.describe())
print('\n')

Exercicio02
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 98855 entries, 0 to 98854
Columns: 129 entries, Respondent to SurveyEasy
dtypes: object(129)
memory usage: 48.6+ MB


Exercicio03
<class 'pandas.core.frame.DataFrame'>
Int64Index: 2505 entries, 97 to 98823
Columns: 129 entries, Respondent to SurveyEasy
dtypes: object(129)
memory usage: 1.3+ MB


Exercicio04
<class 'pandas.core.frame.DataFrame'>
Int64Index: 2505 entries, 97 to 98823
Columns: 129 entries, Respondent to SurveyEasy
dtypes: object(129)
memory usage: 1.3+ MB


Exercicio05
Respondent                        0
Hobby                             0
OpenSource                        0
Country                           0
Student                          82
Employment                       50
FormalEducation                  78
UndergradMajor                  583
CompanySize                     698
DevType                         171
YearsCoding                     144
YearsCodingProf                 546
JobSatisfaction   