# Pandas
Pandas é uma biblioteca Python de código aberto para análise de dados, que oferece alto desempenho, estruturas de dados de fácil utilização e ferramentas de análise de dados. Para usar a biblioteca, basta utilizar o seguinte comando de importação abaixo:

```python
import numpy as np
import pandas as pd
```

In [32]:
import numpy as np
import pandas as pd

s = pd.Series(np.random.randn(5), index=['a', 'b', 'c', 'd', 'e'])
s

a    0.439841
b    1.055982
c    0.851192
d   -1.096630
e   -0.538020
dtype: float64

### Data Frame
Matriz rotulada contendo colunas com diferentes tipos de dados

In [5]:
data = {
    'Country': ['Belgium',  'India',  'Brazil'],
    'Capital': ['Brussels',  'New Delhi',  'Brasilia'],
    'Population': [11190846, 1303171035, 207847528]
}

df = pd.DataFrame(data, columns=['Country',  'Capital',  'Population'])

df

Unnamed: 0,Country,Capital,Population
0,Belgium,Brussels,11190846
1,India,New Delhi,1303171035
2,Brazil,Brasilia,207847528


### Indexação / Seleção

| Operação                                    | Sintaxe            | Resultado |
|:--------------------------------------------|:-------------------|:----------|
| Seleciona Coluna                            | df[col]            | Series    |
| Seleciona Linha por nome do rótulo          | df.loc[rotulo]     | Series    |
| Seleciona linhas por posição (inteiro)      | df.iloc[posicao]   | Series    |
| Divide Linhas                               | df[5:10]           | DataFrame |
| Seleciona linhas por vetor booleano         | df[vetor_booleano] | DataFrame |


In [14]:
import numpy as np
import pandas as pd

data = {
    'Country': ['Belgium',  'India',  'Brazil'],
    'Capital': ['Brussels',  'New Delhi',  'Brasilia'],
    'Population': [11190846, 1303171035, 207847528]
}

df = pd.DataFrame(data, columns=['Country',  'Capital',  'Population'])

print('*Seleção por posição')
print(df.iloc[[0],[0]])

print('*Seleção por rótulo')
print(df.loc[[0], ['Country']])

print('*Rótulo/Posição')
print(df.loc[2])
print('\nd')
print(df.loc[:, 'Capital'])
print('\nd')
print(df.loc[2, 'Capital'])

*Seleção por posição
   Country
0  Belgium
*Seleção por rótulo
   Country
0  Belgium
*Rótulo/Posição
Country          Brazil
Capital        Brasilia
Population    207847528
Name: 2, dtype: object

d
0     Brussels
1    New Delhi
2     Brasilia
Name: Capital, dtype: object

d
Brasilia


# Exercícios aula 3 _ pandas - Alessandra

In [29]:
# Dataset: Stack Overflow Annual Developer Survey - 2018
import numpy as np
import pandas as pd

# 1. Carregue o dataset para análise, disponível na pasta data, usando as funções de leitura do Pandas.
data = pd.read_csv("developer_survey_2018\survey_results_public.csv", dtype=object)

# 2. Obtenha informações do Data Frame carregado em memória
print(data.info())
print('\n')

# 3. Selecione todas as linhas com país igual a Brasil
dados_brasil = data.loc[data['Country'] == 'Brazil']
print(dados_brasil.info())
print('\n')

# 4. Os dados do brasil possui dados ausentes (missing data)? Se sim, selecione todas as linhas
# que contenham algum dado ausente
dados_brasil_nulos = dados_brasil[dados_brasil.isnull().any(axis=1)]
dados_brasil_nulos

# 5. Qual o total de valores ausentes para cada coluna?
dados_brasil.isnull().sum()


# 6. Remova linhas com pelo menos 1 elemento ausente das colunas: 'FormalEducation', 'UndergradMajor', 'Age'.
dados_brasil_limpos = dados_brasil.dropna(subset=['FormalEducation', 'UndergradMajor', 'Age'])
print(dados_brasil_limpos.info())

# 7. Crie um subconjunto de dados com as colunas: 
# 'Respondent', 'Country', 'Student', 'Employment', 'FormalEducation', 'UndergradMajor', 'Exercise', 'Age'
print('exe 07')
dados_analise = dados_brasil_limpos.filter(['Respondent', 'Country', 'Student', 'Employment', 'FormalEducation', 'UndergradMajor', 'Exercise', 'Age'])
dados_analise.info()

# 8. Exiba as contagens de frequência dos valores únicos das colunas: 'Student', 'Exercise', 'Employment',
#'FormalEducation', 'UndergradMajor', 'Exercise', 'Age'
print('\n')

dados_analise.describe()
print('\n')

print('Student')
students_frequencia = dados_analise['Student'].value_counts()
print(students_frequencia)
print('\n')
print(dados_analise['Student'].describe())
print('\n')
print(students_frequencia.describe())

print('Exercise')
students_frequencia = dados_analise['Exercise'].value_counts()
print(students_frequencia)
print('\n')
print(dados_analise['Exercise'].describe())
print('\n')

print('Employment')
students_frequencia = dados_analise['Employment'].value_counts()
print(students_frequencia)
print('\n')
print(dados_analise['Employment'].describe())
print('\n')

print('FormalEducation')
students_frequencia = dados_analise['FormalEducation'].value_counts()
print(students_frequencia)
print('\n')
print(dados_analise['FormalEducation'].describe())
print('\n')

print('UndergradMajor')
students_frequencia = dados_analise['UndergradMajor'].value_counts()
print(students_frequencia)
print('\n')
print(dados_analise['UndergradMajor'].describe())
print('\n')

print('Age')
students_frequencia = dados_analise['Age'].value_counts()
print(students_frequencia)
print('\n')
dados_analise['Age'].describe()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 98855 entries, 0 to 98854
Columns: 129 entries, Respondent to SurveyEasy
dtypes: object(129)
memory usage: 97.3+ MB
None


<class 'pandas.core.frame.DataFrame'>
Int64Index: 2505 entries, 97 to 98823
Columns: 129 entries, Respondent to SurveyEasy
dtypes: object(129)
memory usage: 2.5+ MB
None


<class 'pandas.core.frame.DataFrame'>
Int64Index: 1312 entries, 97 to 90361
Columns: 129 entries, Respondent to SurveyEasy
dtypes: object(129)
memory usage: 1.3+ MB
None
exe 07
<class 'pandas.core.frame.DataFrame'>
Int64Index: 1312 entries, 97 to 90361
Data columns (total 8 columns):
Respondent         1312 non-null object
Country            1312 non-null object
Student            1296 non-null object
Employment         1307 non-null object
FormalEducation    1312 non-null object
UndergradMajor     1312 non-null object
Exercise           1307 non-null object
Age                1312 non-null object
dtypes: object(8)
memory usage: 92.2+ KB




Stude

count                  1312
unique                    6
top       25 - 34 years old
freq                    722
Name: Age, dtype: object