# Análise Exploratória de Dados com Pandas

Vamos utilizar Oandas para responder algumas questões relacionadas ao dataset [Adult](https://archive.ics.uci.edu/ml/datasets/Adult). 

In [2]:
import pandas as pd

In [3]:
data = pd.read_csv('./adult.data.csv',
names = ["age", "workclass", "fnlwgt","education","education-num","marital-status","occupation","relationship", "race","sex","capital-gain","capital-loss","hours-per-week","native-country","salary"])

### 1. Quantos homens e mulheres (atributo *sex*) são representados nesse dataset?

In [4]:
data['sex'].

0           Male
1           Male
2           Male
3           Male
4         Female
5         Female
6         Female
7           Male
8         Female
9           Male
10          Male
11          Male
12        Female
13          Male
14          Male
15          Male
16          Male
17          Male
18          Male
19        Female
20          Male
21        Female
22          Male
23          Male
24        Female
25          Male
26          Male
27          Male
28          Male
29          Male
          ...   
32531     Female
32532       Male
32533       Male
32534     Female
32535       Male
32536     Female
32537       Male
32538     Female
32539       Male
32540     Female
32541     Female
32542       Male
32543     Female
32544     Female
32545     Female
32546     Female
32547       Male
32548       Male
32549     Female
32550       Male
32551       Male
32552       Male
32553       Male
32554       Male
32555       Male
32556     Female
32557       Male
32558     Fema

### 2. Qual a idade média (atributo *age*) das mulheres?

In [42]:
s = data['sex'].apply(lambda s : s.strip() == 'Female')
data.loc[s]['age'].mean()

36.85823043357163

### 3.  Qual é a porcentagem de cidadãos alemães (atributo *native-country*)?

In [43]:
s = data['native-country'].apply(lambda s : s.strip() == 'Germany')
total = data['native-country'].count()
germans = data.loc[s]['native-country'].count()

result = ( germans / total )*100
print(round(result,2),'%')

0.42 %


### 4. Qua é a média e o desvio padrão de idade daqueles que ganham mais que 50K por ano (atributo *salary*) e daqueles que ganham menos que 50K por ano?

In [51]:
s = data['salary'].apply(lambda s : s.strip() == '>50K')
mean_50k = data[s]['age'].mean()
std_50k = data[s]['age'].std()

print("Mean : {}".format(mean_50k), "| Std : {}".format(std_50k))

Mean : 44.24984058155847 | Std : 10.51902771985177


### 5. É verdade que pessoas que ganham mais que 50K possuem, pelo menos, educação superior (atributo *education*:  Bachelors, Prof-school, Assoc-acdm, Assoc-voc, Masters ou Doctorate)? 

In [72]:
s = data['salary'].apply(lambda s : s.strip() == '>50K')
filtr = data[s]['education'].apply(lambda e : e.strip() != 'Bachelors' and e.strip() and 'Prof-school' and e.strip() != 'Assoc-acdm' and e.strip() != 'Assoc-voc' and e.strip() != 'Masters' and e.strip() != 'Doctorate').count()
if(filtr != 0):
    print('Falso, existem {} pessoas sem educacao superior'.format(filtr))
else:
    print('Verdade')

Falso, existem 7841 pessoas sem educacao superior


### 6. Mostre estatísticas sobre a idade de cada raça (atributo *race*) e cada gênero (atributo *sex*). Use as funções *groupby()* e *describe()*. Encontre a idade máxima dos homens da raça *Amer-Indian-Eskimo*.  

In [127]:
rs = data.groupby(['race','sex']).describe()
a = rs['age']['max']
a[('race','sex')]

KeyError: ('race', 'sex')

### 7. Encontre a proporção, considerando casados e solteiros (atributo *marital-status*), daqueles que ganham muito (>50K).   

### 8. Qual é o número máximo de horas que uma pessoa trabalha por semana (atributo *hours-per-week*)? Quantas pessoas trabalham esse número de horas e qual a porcentagem daqueles que ganham muito (>50K) entre eles? 

### 9. Determine o tempo médio de trabalho (*hours-per-week*) daqueles que ganham pouco (<=50K) e muito (atributo *salary*) para cada país (atributo *native-country*). Quantos dos indivíduos são do Japão? 

### 10. Gere uma tabela que permita comparar (*pivot table*) o valor médio de horas trabalhadas por semana (atributo *hours-per-week*) considerando as variáveis tipo de trabalho (atributo *workclass*) e educação (atributo *education*).

### 11. Gere uma tabela que permita comparar (*pivot table*) o valor médio de horas trabalhadas por semana (atributo *hours-per-week*) considerando as variáveis ocupação (atributo *occupation*) e gênero (atributo *sex*).

### 12. Exiba o desvio padrão de horas trabalhadas por país (atributo *native-country*) e gênero (atributo *sex*). Faça o mesmo para (atributo *native-country*) e raça (atributo *race*).

### 13. Inclua a coluna *retired*, para indicar aposentadoria para quem tem mais de 60 anos e é mulher ou mais de 65 anos e é homem (atirbutos *age* e *sex*). 

### 14. Calcule o valor do *z-score* do tempo de trabalho por semana (atributo *hours-per-week*) de cada indivíduo, considerando como média (*mean*) e desvio padrão (*std*) os valores obtido por grupos dados pelo país de origem (atributo *native-country*) e o sexo (atributo *sex*). Dica: o *z-score* de um valor x é dado por:  *(x-mean)/std*.

### 15. Calcule a porporção de indivíduos que ganham bem por país (atributo *native-country*), sexo (atributo *sex*) e raça (atributo *race*).