<img src='letscodebr_cover.jpeg' align='left' width=100%/>

# Ada Tech [DS-PY-004] Técnicas de Programação I (PY) Aulas 4 e 5 : Pandas - Resolução do Exercício 1.

## Documentção pandas

O [`Pandas`](https://pandas.pydata.org/pandas-docs/stable/index.html) é uma biblioteca de software escrita para a linguagem de programação Python para manipulação e análise de dados. Em particular, ele oferece estruturas de dados e operações para manipular tabelas numéricas e séries temporais.

### Conjunto de dados

O conjunto de dados que usaremos é uma versão muito condensada dos dados de uma Pesquisa de Domicílios Permanentes (pesquisa realizada por um instituto de pesuisas estatisticas e censos demográficos). É uma pesquisa contínua que tem como objetivo principal gerar informações sobre o funcionamento do mercado de trabalho.

Utilizaremos apenas algumas variáveis como idade, escolaridade, número de horas trabalhadas, qualificação da tarefa e renda do trabalho e alguns casos empregados, ou seja, aqueles que trabalharam pelo menos uma hora na semana anterior à pesquisa.

Este conjunto de dados é o mesmo que usaremos na aula presencial, e nesses exercícios procuramos nos familiarizar com ele e revisar alguns tópicos.

Importamos a biblioteca do `Pandas` e atribuímos pd como um apelido (alias):

In [1]:
import pandas as pd

## Exercicio 1

Vamos Aplicar o método [`read_csv()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html) e ler em um `DataFrame` chamado `data` os dados do arquivo '../Data/data_filt.csv'

Este arquivo contém alguns dados numéricos e alguns tipos de string de caracteres.

As colunas são:

- ch06: int, idade

- nivel_ed: string, nivel educacional

- htot: int, quantidade de horas totais trabalhadas no período

- qualif: string, qualificação da tarefa

- p47t: int, entrada

O método [`read_csv`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html) pode ser usado para a leitura do arquivo "**../Data/data_filt.csv**" e os parâmetros que passamos neste caso são:

- O caminho do arquivo a ser lido;
- O caractere separador de campo;
- A codificação do arquivo.

In [2]:
# local
data_location = "../Data/data_filt.csv"

data = pd.read_csv(data_location, 
                   sep = ",", 
                   encoding = "latin1"
                  )
data.head(3)

Unnamed: 0,ch06,nivel_ed,htot,calif,p47t
0,46,1_H/Sec inc,45,2_Op./No calif.,6000.0
1,26,2_Sec. comp y más,25,2_Op./No calif.,5000.0
2,47,2_Sec. comp y más,25,2_Op./No calif.,5000.0


Vamos ver o que acontece quando tentamos ler este arquivo sem especificar o valor de codificação.

In [3]:
data = pd.read_csv(data_location, 
                   sep = ",",
                   encoding = 'latin',
                  )
data.head(3)

Unnamed: 0,ch06,nivel_ed,htot,calif,p47t
0,46,1_H/Sec inc,45,2_Op./No calif.,6000.0
1,26,2_Sec. comp y más,25,2_Op./No calif.,5000.0
2,47,2_Sec. comp y más,25,2_Op./No calif.,5000.0


## Exercício 2

Obtenha uma descrição do intervalo dos índices do `DataFrame` `data`. Obtenha também uma descrição das colunas do `DataFrame` `data`.

In [4]:
data.index


RangeIndex(start=0, stop=23448, step=1)

In [5]:
data.columns

Index(['ch06', 'nivel_ed', 'htot', 'calif', 'p47t'], dtype='object')

Agora vamos modificar o índice de dados, para que o valor do índice não coincida com a posição e podemos notar diferenças nos exercícios que se seguem.

In [6]:
data.index = data.index + 7

print(data.index)

data.head(5)

RangeIndex(start=7, stop=23455, step=1)


Unnamed: 0,ch06,nivel_ed,htot,calif,p47t
7,46,1_H/Sec inc,45,2_Op./No calif.,6000.0
8,26,2_Sec. comp y más,25,2_Op./No calif.,5000.0
9,47,2_Sec. comp y más,25,2_Op./No calif.,5000.0
10,52,1_H/Sec inc,90,2_Op./No calif.,11000.0
11,45,1_H/Sec inc,44,2_Op./No calif.,9500.0


## Exercício 3

Vamos revisar o uso de `loc` e` iloc`

- `loc` nos permite acessar um elemento por seu índice

- `iloc` nos permite acessar um elemento por sua posição

Vamos ler com `loc` e com` iloc` a quarta linha de dados

Como acessamos o valor do índice na quarta linha?

In [7]:
data.iloc[3, :]

ch06                     52
nivel_ed        1_H/Sec inc
htot                     90
calif       2_Op./No calif.
p47t                11000.0
Name: 10, dtype: object

In [8]:
data.loc[10, : ]

ch06                     52
nivel_ed        1_H/Sec inc
htot                     90
calif       2_Op./No calif.
p47t                11000.0
Name: 10, dtype: object

In [9]:
valor_indice_cuarta_fila = data.index[3]
valor_indice_cuarta_fila

10

In [10]:
valor_indice_cuarta_fila = data.index[3]
data.loc[valor_indice_cuarta_fila, :]

ch06                     52
nivel_ed        1_H/Sec inc
htot                     90
calif       2_Op./No calif.
p47t                11000.0
Name: 10, dtype: object

## Exercício 4

Vamos revisar o uso de `loc` combinado com máscaras booleanas. Queremos construir um objeto `DataFrame` com os registros com idade inferior a $15$ ou superior a $70$.

In [11]:
mask_jr = data['ch06'] < 15
mask_sr = data['ch06'] >= 70
mask_jr_sr = mask_jr | mask_sr

data_resultado = data.loc[mask_jr_sr, : ]
data_resultado.head(3)


Unnamed: 0,ch06,nivel_ed,htot,calif,p47t
17,72,1_H/Sec inc,15,1_Prof./Tecn.,8300.0
251,71,2_Sec. comp y más,8,1_Prof./Tecn.,7102.0
416,71,1_H/Sec inc,63,2_Op./No calif.,11800.0


## Exercício 5

Vamos calcular algumas métricas em um objeto `DataFrame`

- Idade Média;

- Máximo de horas trabalhadas;

- Renda mediana.

Nesta primeira solução vamos acessar as colunas do `DataFrame` por nome:

In [12]:
serie_edad =  data['ch06']
promedio_edad = serie_edad.mean()
promedio_edad

40.455689184578645

In [13]:
max_horas = data['htot'].max()
max_horas

168

In [14]:
mediana_ingreso = data['p47t'].median()
mediana_ingreso

7000.0

Uma solução alternativa é acessar as colunas do DataFrame `.column_name`:

In [15]:
promedio_edad = data.ch06.mean()

print(promedio_edad)

max_horas = data.htot.max()

print(max_horas)

mediana_ingreso = data.p47t.median()

print(mediana_ingreso)

40.455689184578645
168
7000.0


Outra alternativa é acessar pela posição da coluna:

In [16]:
promedio_edad = data.iloc[ : , 0].mean()

print(promedio_edad)

max_horas = data.iloc[ : , 2].max()

print(max_horas)

mediana_ingreso = data.iloc[ : , 4].median()

print(mediana_ingreso)

40.455689184578645
168
7000.0
