# Análise Exploratória de Dados com Pandas

Vamos utilizar Oandas para responder algumas questões relacionadas ao dataset [Adult](https://archive.ics.uci.edu/ml/datasets/Adult). 

In [2]:
import pandas as pd

In [3]:
data = pd.read_csv('./adult.data.csv', index_col = False, names = ["age", "workclass", "fnlwgt", "education", 
                                                                   "education-num", "marital-status", "occupation", 
                                                                   "relationship", "race", "sex", "capital-gain", 
                                                                   "capital-loss", "hours-per-week", "native-country", 
                                                                   "salary"])
data.head()

Unnamed: 0,age,workclass,fnlwgt,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loss,hours-per-week,native-country,salary
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K


### 1. Quantos homens e mulheres (atributo *sex*) são representados nesse dataset?

In [48]:
d = data
len(d[['sex']][~(d.isnull())])

32561

### 2. Qual a idade média (atributo *age*) das mulheres?

In [58]:
d = data
d[d['sex'] == ' Female']['age'].mean()

36.85823043357163

### 3.  Qual é a porcentagem de cidadãos alemães (atributo *native-country*)?

In [169]:
d = data
a = len(d[d['native-country'] == ' Germany'])
t = len(d)
(100 * a)/t

0.42074874850281013

### 4. Qua é a média e o desvio padrão de idade daqueles que ganham mais que 50K por ano (atributo *salary*) e daqueles que ganham menos que 50K por ano?

In [106]:
d = data
d = d[d['salary'] == ' >50K']
a = d['age']
print("média:\t\t",a.mean(),"\ndesvio padrão:\t",a.std())

média:		 44.24984058155847 
desvio padrão:	 10.51902771985177


### 5. É verdade que pessoas que ganham mais que 50K possuem, pelo menos, educação superior (atributo *education*:  Bachelors, Prof-school, Assoc-acdm, Assoc-voc, Masters ou Doctorate)? 

In [409]:
d = data
d = d[d['salary'] == ' >50K']
not bool(len(d[~(d['education'].isin([' Bachelors', ' Prof-school', ' Assoc-acdm', 
                                      ' Assoc-voc', ' Masters', ' Doctorate']))]))

False

### 6. Mostre estatísticas sobre a idade de cada raça (atributo *race*) e cada gênero (atributo *sex*). Use as funções *groupby()* e *describe()*. Encontre a idade máxima dos homens da raça *Amer-Indian-Eskimo*.  

In [152]:
d = data
d = d.groupby('race').describe() 
d['age']['max'][' Amer-Indian-Eskimo']

82.0

### 7. Encontre a proporção, considerando casados e solteiros (atributo *marital-status*), daqueles que ganham muito (>50K).   

In [287]:
d = data
d = d.groupby('marital-status')['salary'].describe()['count']
d.apply(lambda x: 100 * x / float(d.sum()))

marital-status
 Divorced                 13.645158
 Married-AF-spouse         0.070637
 Married-civ-spouse       45.993673
 Married-spouse-absent     1.283744
 Never-married            32.809189
 Separated                 3.147938
 Widowed                   3.049661
Name: count, dtype: float64

### 8. Qual é o número máximo de horas que uma pessoa trabalha por semana (atributo *hours-per-week*)? Quantas pessoas trabalham esse número de horas e qual a porcentagem daqueles que ganham muito (>50K) entre eles? 

In [356]:
d = data
max_hours = d['hours-per-week'].max()
max_hours_pep = d[d['hours-per-week'] == max_hours]
c = len(max_hours_pep[max_hours_pep['salary'] == ' >50K'])
print("número máximo de horas por semana: %d" % max_hours)
print("total de pessoas que trabalham %d horas: %d" % (max_hours, len(max_hours_pep)))
print("porcentagem daqueles que ganham muito (>50K) entre eles: %f" % float(c * 100/len(max_hours_pep)))

número máximo de horas por semana: 99
total de pessoas que trabalham 99 horas: 85
porcentagem daqueles que ganham muito (>50K) entre eles: 29.411765


### 9. Determine o tempo médio de trabalho (*hours-per-week*) daqueles que ganham pouco (<=50K) e muito (atributo *salary*) para cada país (atributo *native-country*). Quantos dos indivíduos são do Japão? 

In [407]:
d = data
ls = d[d['salary'] == ' <=50K']
hs = d[d['salary'] == ' >50K']
jpc = d['native-country'] == ' Japan'
l = ls.groupby("native-country")
h = hs.groupby("native-country")
jl = ls[jpc]
jh = hs[jpc]
print("tempo médio de trabalho daqueles que ganham pouco:\n", l['hours-per-week'].mean())
print("\ntempo médio de trabalho daqueles que ganham muito:\n", h['hours-per-week'].mean())
print("\nquantos dos indivíduos são do Japão e ganham pouco: %d" % len(jl))
print("quantos dos indivíduos são do Japão e ganham muito: %d" % len(jh))

tempo médio de trabalho daqueles que ganham pouco:
 native-country
 ?                             40.164760
 Cambodia                      41.416667
 Canada                        37.914634
 China                         37.381818
 Columbia                      38.684211
 Cuba                          37.985714
 Dominican-Republic            42.338235
 Ecuador                       38.041667
 El-Salvador                   36.030928
 England                       40.483333
 France                        41.058824
 Germany                       39.139785
 Greece                        41.809524
 Guatemala                     39.360656
 Haiti                         36.325000
 Holand-Netherlands            40.000000
 Honduras                      34.333333
 Hong                          39.142857
 Hungary                       31.300000
 India                         38.233333
 Iran                          41.440000
 Ireland                       40.947368
 Italy                         

  import sys
  


### 10. Gere uma tabela que permita comparar (*pivot table*) o valor médio de horas trabalhadas por semana (atributo *hours-per-week*) considerando as variáveis tipo de trabalho (atributo *workclass*) e educação (atributo *education*).

In [7]:
d = data
pd.pivot_table(d, values='hours-per-week', index='workclass', columns='education', aggfunc='mean')

education,10th,11th,12th,1st-4th,5th-6th,7th-8th,9th,Assoc-acdm,Assoc-voc,Bachelors,Doctorate,HS-grad,Masters,Preschool,Prof-school,Some-college
workclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
?,33.15,31.711864,34.525,34.916667,37.233333,32.527778,32.392157,26.234043,33.885246,32.416185,29.533333,31.896617,31.541667,34.0,28.388889,31.363813
Federal-gov,42.166667,27.444444,35.0,,40.0,35.0,40.0,41.036364,41.315789,42.617925,50.1875,40.228137,42.656716,,49.896552,40.429134
Local-gov,38.225806,30.555556,36.631579,33.0,34.555556,36.535714,37.086957,40.409091,41.651163,42.140461,43.592593,39.894632,43.827485,32.5,45.37931,40.204134
Never-worked,35.0,10.0,,,,35.0,,,,,,40.0,,,,22.0
Private,36.827338,33.930661,35.141141,38.955882,39.488722,39.910377,38.258398,40.871056,41.225871,42.698676,48.668508,40.507198,44.458613,37.682927,48.101167,38.731645
Self-emp-inc,38.368421,39.285714,42.571429,40.0,42.5,45.714286,46.9,47.914286,49.947368,49.40293,54.685714,47.007168,52.911392,,50.839506,49.362832
Self-emp-not-inc,43.507463,40.483333,44.789474,36.769231,36.105263,42.882979,41.676471,44.211268,46.916667,44.177945,41.74,45.435335,43.16129,,45.870229,44.117284
State-gov,39.076923,33.357143,39.0,20.0,31.25,31.8,39.666667,36.853659,41.086957,39.692593,46.820225,39.425373,40.775148,24.0,50.129032,34.698462
Without-pay,,,,,,50.0,,50.0,,,,28.0,,,,35.333333


### 11. Gere uma tabela que permita comparar (*pivot table*) o valor médio de horas trabalhadas por semana (atributo *hours-per-week*) considerando as variáveis ocupação (atributo *occupation*) e gênero (atributo *sex*).

In [8]:
d = data
pd.pivot_table(d, values='hours-per-week', index='occupation', columns='sex', aggfunc='mean')

sex,Female,Male
occupation,Unnamed: 1_level_1,Unnamed: 2_level_1
?,29.976219,33.525948
Adm-clerical,36.741033,39.240065
Armed-Forces,,40.666667
Craft-repair,39.869369,42.443642
Exec-managerial,41.517688,46.371173
Farming-fishing,37.784615,47.634015
Handlers-cleaners,36.103659,38.198176
Machine-op-inspct,38.929091,41.447658
Other-service,33.437778,36.223411
Priv-house-serv,32.489362,39.875


### 12. Exiba o desvio padrão de horas trabalhadas por país (atributo *native-country*) e gênero (atributo *sex*). Faça o mesmo para (atributo *native-country*) e raça (atributo *race*).

In [9]:
d = data
print(pd.pivot_table(d, values='hours-per-week', index='native-country', columns='sex', aggfunc='std'))
print(pd.pivot_table(d, values='hours-per-week', index='native-country', columns='race', aggfunc='std'))

sex                             Female       Male
native-country                                   
 ?                           15.211396  10.782206
 Cambodia                     0.000000   2.719528
 Canada                      13.485235  13.067702
 China                       12.976903  10.267628
 Columbia                     7.489002   9.461821
 Cuba                        11.726340   8.956611
 Dominican-Republic           7.375636  13.521971
 Ecuador                      5.659309   9.112038
 El-Salvador                  8.451841   9.947265
 England                     15.903407  12.990480
 France                      10.561508  15.723250
 Germany                     13.713122   9.153454
 Greece                      14.703741  16.424399
 Guatemala                    7.493155   6.112883
 Haiti                       10.284761  12.674221
 Honduras                    14.387495   6.055301
 Hong                         4.082483   7.565102
 Hungary                     17.440375  18.644545


### 13. Inclua a coluna *retired*, para indicar aposentadoria para quem tem mais de 60 anos e é mulher ou mais de 65 anos e é homem (atirbutos *age* e *sex*). 

In [47]:
d = data
d['retired'] = ['yes' if 
                ((int(d.iloc[p,0]) >= 60 and d.iloc[p,9] == ' Female') or 
                (int(d.iloc[p,0]) >= 65 and d.iloc[p,9] == ' Male')) 
                else 'no' for p in range(0,len(d))]
d

Unnamed: 0,age,workclass,fnlwgt,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loss,hours-per-week,native-country,salary,retired
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K,no
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K,no
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K,no
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K,no
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K,no
5,37,Private,284582,Masters,14,Married-civ-spouse,Exec-managerial,Wife,White,Female,0,0,40,United-States,<=50K,no
6,49,Private,160187,9th,5,Married-spouse-absent,Other-service,Not-in-family,Black,Female,0,0,16,Jamaica,<=50K,no
7,52,Self-emp-not-inc,209642,HS-grad,9,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,45,United-States,>50K,no
8,31,Private,45781,Masters,14,Never-married,Prof-specialty,Not-in-family,White,Female,14084,0,50,United-States,>50K,no
9,42,Private,159449,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,5178,0,40,United-States,>50K,no


### 14. Calcule o valor do *z-score* do tempo de trabalho por semana (atributo *hours-per-week*) de cada indivíduo, considerando como média (*mean*) e desvio padrão (*std*) os valores obtido por grupos dados pelo país de origem (atributo *native-country*) e o sexo (atributo *sex*). Dica: o *z-score* de um valor x é dado por:  *(x-mean)/std*.

In [91]:
d = data
dmean = pd.pivot_table(d, values='hours-per-week', index='native-country', columns='sex', aggfunc='count')
dstd = pd.pivot_table(d, values='hours-per-week', index='native-country', columns='sex', aggfunc='count')
dmean = dmean.apply(lambda x: (x - dmean[' Female'].mean())/dstd[' Female'].std())
dstd = dstd.apply(lambda x: (x - dmean[' Male'].mean())/dstd[' Male'].std())
print("z-score da média do tempo de trabalho por semana para mulheres em cada país: \n", dmean[' Female'])
print("\nz-score da média do tempo de trabalho por semana para homens em cada país: \n", dmean[' Male'])
print("\nz-score do desvio padrão do tempo de trabalho por semana para mulheres em cada país: \n", dstd[' Female'])
print("\nz-score desvio padrão do tempo de trabalho por semana para homens em cada país: \n", dstd[' Male'])

z-score da média do tempo de trabalho por semana para mulheres em cada país: 
 native-country
 ?                            -0.062710
 Cambodia                     -0.170075
 Canada                       -0.145918
 China                        -0.157997
 Columbia                     -0.155984
 Cuba                         -0.145247
 Dominican-Republic           -0.148602
 Ecuador                      -0.166049
 El-Salvador                  -0.148602
 England                      -0.150615
 France                       -0.164036
 Germany                      -0.131826
 Greece                       -0.168733
 Guatemala                    -0.158668
 Haiti                        -0.158668
 Holand-Netherlands           -0.171417
 Honduras                     -0.167391
 Hong                         -0.168062
 Hungary                      -0.168062
 India                        -0.164707
 Iran                         -0.166720
 Ireland                      -0.167391
 Italy                    

### 15. Calcule a porporção de indivíduos que ganham bem por país (atributo *native-country*), sexo (atributo *sex*) e raça (atributo *race*).

In [167]:
d = data
d = d[d['salary'] == ' >50K']
dn = d.groupby('native-country').describe()
dn = dn.apply(lambda x: 100 * x / float(x.sum()))
ds = d.groupby('sex').describe()
ds = ds.apply(lambda x: 100 * x / float(x.sum()))
dr = d.groupby('race').describe()
dr = dr.apply(lambda x: 100 * x / float(x.sum()))

print("Proporção de indivíduos que ganham bem mais por país:\n",dn)
print("Proporção de indivíduos que ganham bem mais por sexo:\n",ds)
print("Proporção de indivíduos que ganham bem mais por raça:\n",dr)

Proporção de indivíduos que ganham bem mais por país:
                            age                                          \
                         count      mean       std       min       25%   
native-country                                                           
 ?                    1.862007  2.572726  2.427141  1.850294  2.496205   
 Cambodia             0.089274  2.404406  1.870387  2.270816  2.597403   
 Canada               0.497386  2.656327  2.636369  2.523129  2.496205   
 China                0.255070  2.585566  2.899831  2.439024  2.293810   
 Columbia             0.025507  3.105001  3.547776  3.616484  3.255186   
 Cuba                 0.318837  2.409713  2.354218  2.270816  2.361275   
 Dominican-Republic   0.025507  1.770141  2.872009  1.850294  1.770956   
 Ecuador              0.051014  2.756776  6.854122  2.270816  2.276944   
 El-Salvador          0.114781  2.908318  2.883030  3.111859  2.833530   
 England              0.382604  2.642636  3.241309  2.018