In [1]:
import pandas as pd
import numpy as np
import seaborn as sb
import scipy as scy

In [2]:
dados = pd.read_csv('dados.csv')
dados

Unnamed: 0,UF,Sexo,Idade,Cor,Anos de Estudo,Renda,Altura
0,11,0,23,8,12,800,1.603808
1,11,1,23,2,12,1150,1.739790
2,11,1,35,8,15,880,1.760444
3,11,0,46,2,6,3500,1.783158
4,11,1,47,8,9,150,1.690631
...,...,...,...,...,...,...,...
76835,53,1,46,2,11,812,1.687030
76836,53,0,30,4,7,1500,1.792934
76837,53,0,32,8,12,1300,1.830587
76838,53,0,57,8,4,1500,1.726344


In [3]:
dados.head()

Unnamed: 0,UF,Sexo,Idade,Cor,Anos de Estudo,Renda,Altura
0,11,0,23,8,12,800,1.603808
1,11,1,23,2,12,1150,1.73979
2,11,1,35,8,15,880,1.760444
3,11,0,46,2,6,3500,1.783158
4,11,1,47,8,9,150,1.690631


In [4]:
dados.shape

(76840, 7)

In [5]:
dados.describe

<bound method NDFrame.describe of        UF  Sexo  Idade  Cor  Anos de Estudo  Renda    Altura
0      11     0     23    8              12    800  1.603808
1      11     1     23    2              12   1150  1.739790
2      11     1     35    8              15    880  1.760444
3      11     0     46    2               6   3500  1.783158
4      11     1     47    8               9    150  1.690631
...    ..   ...    ...  ...             ...    ...       ...
76835  53     1     46    2              11    812  1.687030
76836  53     0     30    4               7   1500  1.792934
76837  53     0     32    8              12   1300  1.830587
76838  53     0     57    8               4   1500  1.726344
76839  53     0     38    8               4    900  1.658305

[76840 rows x 7 columns]>

In [6]:
dados['Idade'].mean()

np.float64(44.07142113482561)

In [7]:
dados['Idade'].value_counts()

Idade
40    2263
45    2250
37    2235
43    2213
35    2206
      ... 
13       1
97       1
94       1
14       1
99       1
Name: count, Length: 84, dtype: int64

###Tipos de dados

- Qualitativo -> expressa uma qualidade ou atributo (ex: UF, sexo e cor, pois não é uma contagem)
- Quantitativo -> faz contagem e mennsurações (ex: idade, renda e altura)

OBS -> 'Anos de estudo' é uma variável de dados qualitativos, pois cada código numérico representa uma classe. No caso de 16 ser relativo a 15 nos ou mais e 0 como sem instrução e menos de 1 ano

###Dados Qualitativos

- Ordinais -> podem ser ordenadas ou  (anos de estudo)
- Nominais -> não podem ser hierarquizadas

###Dados Quantitativos

- Discretos -> representam uma contagem onde os valores possíveis formam um conjunto finito (números inteiros - inter)
- Contínuos -> representam uma contagem que assumem valores em uma escala contínua (números reais - float)

In [8]:
dados['Anos de Estudo'].unique()

array([12, 15,  6,  9, 14, 16, 10,  1,  5,  7,  3,  2,  4,  8, 11, 17, 13])

In [9]:
sorted(dados['Anos de Estudo'].unique())

[np.int64(1),
 np.int64(2),
 np.int64(3),
 np.int64(4),
 np.int64(5),
 np.int64(6),
 np.int64(7),
 np.int64(8),
 np.int64(9),
 np.int64(10),
 np.int64(11),
 np.int64(12),
 np.int64(13),
 np.int64(14),
 np.int64(15),
 np.int64(16),
 np.int64(17)]

In [10]:
dados['UF'].unique()

array([11, 12, 13, 14, 15, 16, 17, 21, 22, 23, 24, 25, 26, 27, 28, 29, 31,
       32, 33, 35, 41, 42, 43, 50, 51, 52, 53])

In [11]:
dados['Sexo'].unique()

array([0, 1])

In [12]:
dados['Sexo'].unique()

array([0, 1])

A variável 'Idade', pode ser classificada de três formas distintas:
- quantitativa discreta -> quando representa anos completos (números inteiros)
- quantitativa contínua -> quando representa a idade exata, sendo representado por frações
- qualitativa ordinal -> quando representa faixas de idade

In [13]:
dados.Idade.max() # == dados['Idade'].max()

99

In [14]:
dados.Idade.min() # == dados['Idade'].min()

13

In [15]:
dados.Altura.max() # == dados['Altura'].max()

2.028496765

In [16]:
dados.Altura.min() # == dados['Altura'].min()

1.339244614

###Distribuição de frequências

O primeiro passo em um trabalho de análise é o conhecimento do comportamento das variáveis envolvidas no estudo. Utilizando técnicas estatísticas como as análises das distribuições de frequências e histogramas podemos avaliar melhor a forma como os fenômenos em estudo se distribuem.

In [18]:
#Distribuição de frequências para variáveis qualitativas
dados['Sexo'].value_counts()

Sexo
0    53250
1    23590
Name: count, dtype: int64

In [21]:
dados['Sexo'].value_counts(normalize=True) * 100

Sexo
0    69.299844
1    30.700156
Name: proportion, dtype: float64

In [23]:
frequencia = dados['Sexo'].value_counts()
percentual = dados['Sexo'].value_counts(normalize=True) * 100

In [24]:
dist_freq_qualit = pd.DataFrame({'Frequencia': frequencia, 'Porcentagem(%)': percentual})
dist_freq_qualit

Unnamed: 0_level_0,Frequencia,Porcentagem(%)
Sexo,Unnamed: 1_level_1,Unnamed: 2_level_1
0,53250,69.299844
1,23590,30.700156


In [26]:
dist_freq_qualit.rename(index={0: 'Masculino', 1: 'Feminino'}, inplace=True)
dist_freq_qualit.rename_axis('Sexo', axis='columns', inplace=True)
dist_freq_qualit

Sexo,Frequencia,Porcentagem(%)
Sexo,Unnamed: 1_level_1,Unnamed: 2_level_1
Masculino,53250,69.299844
Feminino,23590,30.700156


In [27]:
sexo = {0: 'Masculino',
        1: 'Feminino'}

cor = {0: 'Indígena',
        2: 'Branca',
        4: 'Preta',
        6: 'Amarela',
        8: 'Parda',
        9: 'Sem declaração'}

In [29]:
freq = pd.crosstab(dados.Sexo, dados.Cor)
freq

Cor,0,2,4,6,8
Sexo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
0,256,22194,5502,235,25063
1,101,9621,2889,117,10862


In [30]:
freq.rename(index= sexo, inplace=True)
freq

Cor,0,2,4,6,8
Sexo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Masculino,256,22194,5502,235,25063
Feminino,101,9621,2889,117,10862
