In [77]:
import pandas as pd

db_dados = pd.read_csv('dados.csv')

In [78]:
db_dados.head(n=20)

Unnamed: 0,UF,Sexo,Idade,Cor,Anos de Estudo,Renda,Altura
0,11,0,23,8,12,800,1.603808
1,11,1,23,2,12,1150,1.73979
2,11,1,35,8,15,880,1.760444
3,11,0,46,2,6,3500,1.783158
4,11,1,47,8,9,150,1.690631
5,11,1,34,8,12,790,1.637906
6,11,0,57,8,12,3150,1.570078
7,11,1,60,8,12,1700,1.608495
8,11,1,50,4,14,1800,1.780329
9,11,0,26,8,12,1150,1.793203


In [79]:
serie_anos_estudo = db_dados['Anos de Estudo']
sorted(serie_anos_estudo.unique())

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17]

In [80]:
serie_idade = db_dados['Idade']
sorted(serie_idade.unique())

print(f'Idade Máxima: {serie_idade.max()}')
print(f'Idade Mínima: {serie_idade.min()}')
print(f'Idade Média: {serie_idade.mean():.0f}')
print(f'Idade Soma: {serie_idade.sum():.2f}')

Idade Máxima: 99
Idade Mínima: 13
Idade Média: 44
Idade Soma: 3386448.00


***
### <font color=yellow>1 Distribuição de frequências para variáveis qualitativas</font>
***

### Método value_counts
https://pandas.pydata.org/pandas-docs/version/0.22/generated/pandas.Series.value_counts.html

In [81]:
serie_sexo = db_dados['Sexo']
# contagem de valores

frequencia_acumulada_sexo = serie_sexo.value_counts()

print(f'Contagem:\n0 - Masculino\n1 - Feminino\n{frequencia_acumulada_sexo}')

frequencia_relativa_sexo = (serie_sexo.value_counts(normalize=True))*100

print(f'Percentual: {frequencia_relativa_sexo}')

Contagem:
0 - Masculino
1 - Feminino
Sexo
0    53250
1    23590
Name: count, dtype: int64
Percentual: Sexo
0    69.299844
1    30.700156
Name: proportion, dtype: float64


In [82]:
# Criando um novo DataFrame para apresentação de frequencia - Sexo

distri_frequencia_qualitativa_sexo = pd.DataFrame(
    {'Frequência':frequencia_acumulada_sexo,
     'Percentual (%)': frequencia_relativa_sexo})

In [83]:
print(distri_frequencia_qualitativa_sexo)

      Frequência  Percentual (%)
Sexo                            
0          53250       69.299844
1          23590       30.700156


In [84]:
# Tratamendo de apresentação, definindo a nomenclatura dos índices
distri_frequencia_qualitativa_sexo.rename(index={0:'Masculino', 1:'Feminino'}, inplace=True)
#distri_frequencia_qualitativa_sexo.rename_axis('Sexo', axis='columns', inplace=True)
display(distri_frequencia_qualitativa_sexo)

Unnamed: 0_level_0,Frequência,Percentual (%)
Sexo,Unnamed: 1_level_1,Unnamed: 2_level_1
Masculino,53250,69.299844
Feminino,23590,30.700156


In [85]:
# Dicionário contendo as referências de código dos dados

sexo = {0:'Masculino',
        1:'Feminino'}

cor = {0:'Indigena',
       2: 'Branca',
       4:'Preta',
       6:'Amarela',
       8:'Parda',
       9:'Sem Declaração'}

In [88]:
frequencia_cor_sexo = pd.crosstab(db_dados.Sexo,
                                  db_dados.Cor)
display(frequecia_cor_sexo)

Cor,0,2,4,6,8
Sexo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
0,256,22194,5502,235,25063
1,101,9621,2889,117,10862


In [None]:
frequencia_cor_sexo.rename(index=sexo, inplace = True)
frequencia_cor_sexo.rename(columns=cor, inplace = True)

display(frequencia_cor_sexo)

### Método crosstab pandas
https://pandas.pydata.org/pandas-docs/version/0.22/generated/pandas.crosstab.html

In [97]:
frequencia_relativa_cor_sexo = pd.crosstab(db_dados.Cor,
                                           db_dados.Sexo,
                                           normalize=True)*100

frequencia_relativa_cor_sexo.rename(index=cor, inplace=True)
frequencia_relativa_cor_sexo.rename(columns=sexo, inplace=True)

display(frequencia_relativa_cor_sexo)

Sexo,Masculino,Feminino
Cor,Unnamed: 1_level_1,Unnamed: 2_level_1
Indigena,0.33316,0.131442
Branca,28.883394,12.520822
Preta,7.160333,3.759761
Amarela,0.30583,0.152264
Parda,32.617126,14.135867


In [None]:
# Analise envolvendo outra variável e com a função de agregação
frequencia_relativa_cor_sexo = pd.crosstab(db_dados.Cor,
                                           db_dados.Sexo,
                                           aggfunc='mean',
                                           values= db_dados['Renda'])

frequencia_relativa_cor_sexo.rename(index=cor, inplace=True)
frequencia_relativa_cor_sexo.rename(columns=sexo, inplace=True)

display(frequencia_relativa_cor_sexo)

***
### <font color=yellow>2 Distribuição de frequências para variáveis quantitativas (classes personalizadas)</font>
***

#### Passo 1 - Especificar os limites de cada classe

 classificação:

<b>A</b> ► Acima de 20 SM

<b>B</b> ► De 10 a 20 SM

<b>C</b> ► De 4 a 10 SM

<b>D</b> ► De 2 a 4 SM

<b>E</b> ► Até 2 SM

onde <b>SM</b> é o valor do salário mínimo na época. Em nosso caso <b>R$ 788,00</b> (2015):

<b>A</b> ► Acima de 15.760

<b>B</b> ► De 7.880 a 15.760

<b>C</b> ► De 3.152 a 7.880

<b>D</b> ► De 1.576 a 3.152

<b>E</b> ► Até 1.576


### <font color=yellow >Passo 1 - Definir valores mínimos e máximos dos dados </font>

In [106]:
print(f"Valor máximo da Renda: R${db_dados['Renda'].max()}") # verificar possibilidade de outline
print(f"Valor mínimo da Renda: R${db_dados['Renda'].min()}")

Valor máximo da Renda: R$200000
Valor mínimo da Renda: R$0


### <font color=yellow >Passo 2 - Definir valores dos intervalos de classes </font>

In [108]:
classes = [0, 1576, 3152,7880, 15760, 200000] # intervalo com valores da remuneração

labels =  ['E', 'D', 'C', 'B', 'A']

### <font color=yellow >Passo 3 - Utilizar a função cut para criar a Tabela de Frequencia </font>
https://pandas.pydata.org/pandas-docs/version/0.22/generated/pandas.cut.html

A função cut pode ser útil para ir de uma variável contínua para uma variável categórica. Por exemplo, cortar pode converter idades em grupos de faixas etárias.

```bash
pandas.cut( x , bins , right=True , labels=None , retbins=False , precision=3 , include_lowest=False )
```
Índices de retorno de compartimentos semi-abertos aos quais cada valor de x pertence.



In [116]:
db_dados.head(n=5)

Unnamed: 0,UF,Sexo,Idade,Cor,Anos de Estudo,Renda,Altura
0,11,0,23,8,12,800,1.603808
1,11,1,23,2,12,1150,1.73979
2,11,1,35,8,15,880,1.760444
3,11,0,46,2,6,3500,1.783158
4,11,1,47,8,9,150,1.690631


In [132]:
distribuicao_dados_renda = pd.cut(x=db_dados['Renda'],
       bins=classes,
       labels = labels,
       include_lowest=True)

pd.value_counts(distribuicao_dados_renda, ascending=True)

dist_freq_renda = pd.value_counts(
       distribuicao_dados_renda,
       ascending=True)


#### <font color=yellow> Distribuição de Frequencia Relativa </font>

In [128]:
distribuicao_dados_renda_freq_relativa = pd.cut(x=db_dados['Renda'],
       bins=classes,
       labels = labels,
       include_lowest=True)

pd.value_counts(distribuicao_dados_renda, ascending=True,normalize=True)*100

freq_relativa_renda = pd.value_counts(
       distribuicao_dados_renda,
       ascending=True, 
       normalize=True) * 100


In [134]:
distr_freq_quantitativas = pd.DataFrame(
    {'Frequência': dist_freq_renda,
     'Percentual (%)': freq_relativa_renda}
)
distr_freq_quantitativas

Unnamed: 0_level_0,Frequência,Percentual (%)
Renda,Unnamed: 1_level_1,Unnamed: 2_level_1
A,608,0.791255
B,2178,2.834461
C,7599,9.889381
D,16700,21.733472
E,49755,64.751432
