# Trabalhando com Arquivos de Dados (CSV)

- Baixe o arquivo no link: [Clique aqui para baixar o arquivo](https://drive.google.com/file/d/1STghp6kbArdvOeLUNa-exQRkfxJEYRqh/view?usp=drive_link)

## Conteúdo
O conjunto de dados contém:

| Campo                | Descrição                       |
|----------------------|---------------------------------|
| Região               | Estado onde reside              |
| Idade                | Idade em anos completos         |
| Renda                | Salários médios (k)             |
| Estado Civil         | Seu estado civil                |
| Educação             | Grau de escolaridade            |
| Tempo de Emprego     | Anos de emprego                 |
| Situação Aposentadoria | 0 - Não aposentado 1 - aposentado |
| Gênero               | 0 - Masculino 1 - Feminino      |
| Código Residencia    | Tipo de residência              |
| Altura               | Em metros                       |


In [1]:
# importando todas as bibliotecas que iremos utilizar nesse Lab
import pandas as pd
import numpy as np
import math

In [3]:
# Montando o Drive
from google.colab import drive
drive.mount('/content/drive')

# Caminho do diretório escolhido
path = "/content/drive/MyDrive/DataScience"

Mounted at /content/drive


In [7]:
# Leitura do arquivo
df = pd.read_csv(path + '/pessoas.csv', sep=',')

# Mostrando as 10 primeiras linhas
df.head(10)

Unnamed: 0,regiao,idade,renda,estado_civil,educacao,tempo_emprego,situacao_aposentadoria,genero,codigo_residencia,altura
0,Rio de Janeiro,44,64,1,Mestrado,5,0,0,Casa,1.69
1,Goiás,33,136,1,Doutorado,5,0,0,Chalé,1.98
2,Goiás,52,116,1,Fundamental,29,0,1,Casa,1.87
3,Rio de Janeiro,33,33,0,Medio,0,0,1,Apartamento,1.8
4,Rio de Janeiro,30,30,1,Fundamental,2,0,0,Sítio,1.58
5,Rio de Janeiro,39,78,0,Medio,16,0,1,Apartamento,1.58
6,Goiás,22,19,1,Medio,4,0,1,Fazenda,1.53
7,Rio de Janeiro,35,76,0,Medio,10,0,0,Condomínio,1.93
8,Goiás,59,166,1,Mestrado,31,0,0,Fazenda,1.8
9,São Paulo,41,72,1,Fundamental,22,0,0,Condomínio,1.85


Analisando a coluna região, é possível saber quais fazem parte dos dados, removendo a repetição.

In [9]:
df.regiao.unique()

array(['Rio de Janeiro', 'Goiás', 'São Paulo'], dtype=object)

A função sorted() coloca os valores em ordem crescente:

In [10]:
sorted(df['regiao'].unique())

['Goiás', 'Rio de Janeiro', 'São Paulo']

Quantitativas discretas: a variável é avaliada em números que são resultados de contagens, por isso só podem assumir valores inteiros, como as idades.

In [12]:
df.idade.min()

df.idade.max()

print( 'De %s até %s anos' % (df.idade.min(), df.idade.max()) )

De 18 até 77 anos


Quantitativas contínuas: a variável é avaliada em números que são resultados de medição, então podem assumir valores não inteiros.

In [13]:
df.altura.min()

df.altura.max()

print(f'De {df.altura.min()} até {df.altura.max()} metros')

De 1.5 até 2.0 metros


A distribuição de frequências é quando contabilizamos o número de ocorrências de cada valor. Faremos a distribuição de frequências para variáveis qualitativas, começando pela variável Sexo.

Primeiro, contamos o número de ocorrências para cada valor:

In [17]:
df['genero'].value_counts()

Unnamed: 0_level_0,count
genero,Unnamed: 1_level_1
1,517
0,483


Portanto, temos 483 homens e 517 mulheres.

Calculamos a porcentagem para cada valor:

In [21]:
df.genero.value_counts(normalize = True)*100

Unnamed: 0_level_0,proportion
genero,Unnamed: 1_level_1
1,51.7
0,48.3


Definimos a frequência e o percentual:

In [22]:
frequencia = df['genero'].value_counts() # Falar dos espaçamentos nos nomes das colunas

percentual = df.genero.value_counts(normalize = True)*100

Construímos o DataFrame com a frequência e o percentual:

In [24]:
dist_freq_qualitativas = pd.DataFrame({'Frequência': frequencia, 'Porcentagem(%)': percentual})

dist_freq_qualitativas

Unnamed: 0_level_0,Frequência,Porcentagem(%)
genero,Unnamed: 1_level_1,Unnamed: 2_level_1
1,517,51.7
0,483,48.3


Podemos substituir os valores 0 e 1 pelos seus significados:

In [25]:
dist_freq_qualitativas.rename(index = {0: 'Masculino', 1: 'Feminino'})

Unnamed: 0_level_0,Frequência,Porcentagem(%)
genero,Unnamed: 1_level_1,Unnamed: 2_level_1
Feminino,517,51.7
Masculino,483,48.3


Para salvar a alteração em dist_freq_qualitativas:

In [26]:
dist_freq_qualitativas.rename(index = {0: 'Masculino', 1: 'Feminino'}, inplace = True)

dist_freq_qualitativas

Unnamed: 0_level_0,Frequência,Porcentagem(%)
genero,Unnamed: 1_level_1,Unnamed: 2_level_1
Feminino,517,51.7
Masculino,483,48.3


Podemos fazer uma distribuição de frequência relacionando gênero e escolaridade, através de um dicionário:

In [27]:
sexo = {0: 'Masculino',
        1: 'Feminino'}

Construindo a tabela de frequência:



In [28]:
frequencia = pd.crosstab(df.genero, df.educacao)

frequencia

educacao,Doutorado,Fundamental,Medio,Mestrado,Superior
genero,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
0,33,107,134,119,90
1,33,97,153,115,119


Renomeamos a coluna do gênero

In [29]:
frequencia.rename(index = sexo, inplace = True)

frequencia

educacao,Doutorado,Fundamental,Medio,Mestrado,Superior
genero,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Masculino,33,107,134,119,90
Feminino,33,97,153,115,119


Podemos fazer a distribuição de frequências percentuais através de normalize:

In [30]:
percentual = pd.crosstab(df.genero, df.educacao, normalize = True)*100

percentual.rename(index = sexo, inplace = True)

percentual

educacao,Doutorado,Fundamental,Medio,Mestrado,Superior
genero,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Masculino,3.3,10.7,13.4,11.9,9.0
Feminino,3.3,9.7,15.3,11.5,11.9


Podemos calcular a renda média dentro do cruzamento Sexo x Escolaridade:

In [31]:
percentual = pd.crosstab(df.genero, df.educacao, aggfunc = 'mean', values = df.renda)

percentual.rename(index = sexo, inplace = True)

percentual

educacao,Doutorado,Fundamental,Medio,Mestrado,Superior
genero,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Masculino,88.515152,51.700935,70.328358,77.932773,91.433333
Feminino,105.515152,69.896907,67.300654,101.304348,83.579832


Na distribuição de frequências para variáveis quantitativas, como as variáveis são medidas ou contadas, precisamos criar classes para realizarmos a distribuição.

In [32]:
df.renda.min()
df.renda.max()

print(f'De {df.renda.min()} até {df.renda.max()}')

De 9 até 1668


# Cálculo da Frequência de Renda

## 1. Defina as Classes

Primeiro, defina a quantidade de classes. Um método comum é a regra de Sturges, dada por:


$$
k = 1 + 3.322 \cdot \log_{10}(n)
$$

onde \( n \) é o número total de observações. Caso não tenha o número de observações, escolha um número de classes que faça sentido para os dados (geralmente entre 5 a 20 classes).

## 2. Calcule a Amplitude Total

A amplitude total é a diferença entre o maior e o menor valor do conjunto de dados:

$$
\text{Amplitude total} = 1668 - 9 = 1659
$$

## 3. Calcule a Amplitude de Cada Classe

Divida a amplitude total pelo número de classes para determinar a amplitude de cada classe:

$$
\text{Amplitude de cada classe} = \frac{\text{Amplitude total}}{k}
$$

## 4. Crie as Classes

A partir do valor mínimo e da amplitude de cada classe, crie as classes. Por exemplo, se decidir usar 10 classes:

- **Classe a:** 9 a 177
- **Classe b:** 178 a 345
- **Classe c:** 346 a 513
- **Classe d:** 514 a 681
- **Classe e:** 682 a 849
- **Classe f:** 850 a 1017
- **Classe g:** 1018 a 1185
- **Classe h:** 1186 a 1353
- **Classe i:** 1354 a 1521
- **Classe j:** 1522 a 1668

## 5. Interprete os Resultados

Após calcular as frequências, analise como a renda se distribui entre as classes, o que pode ajudar a entender melhor a composição da sua amostra.



##Calculando as classes:




In [43]:
n = df.shape[0]
k = 1 + 3.322 * math.log10(n)

print(f"Número de classes (k): {k:.2f}")

Número de classes (k): 10.97


##Calculando a amplitude total:



In [41]:
min_val = df.renda.min()
max_val = df.renda.max()

k = round(k) #math.floor (piso) math.ceil(teto)


# Calculando a amplitude total
amplitude_total = max_val - min_val

# Calculando a amplitude de cada classe
amplitude_classe = math.ceil(amplitude_total / k)
print("Amplitude: ",amplitude_classe)

classes_inferiores = []
classes_superiores = []

for i in range(k):
    print('I =', i)
    limite_inferior = min_val + i * amplitude_classe
    print('Limite I', limite_inferior)

    print('Inferior',limite_inferior)
    limite_superior = min_val + (i + 1) * amplitude_classe
    print('Superior :',limite_superior)

    # Ajustando a última classe para garantir que inclua o valor máximo
    if i == k - 1:
        limite_superior = max_val

    classes_inferiores.append(limite_inferior)
    classes_superiores.append(limite_superior)

print("Limites Inferiores das Classes:", classes_inferiores)
print("Limites Superiores das Classes:", classes_superiores)

 # Adiciona max_val para incluir o último intervalo
bins = classes_inferiores + [max_val]

# Rótulos para as classes
labels = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i','j','l']

# Criando uma nova coluna com as classes
df['classe'] = pd.cut(df['renda'], bins=bins, labels=labels, include_lowest=True)

# Exibindo o DataFrame com as classes
print(df[['renda', 'classe']])


Amplitude:  151
I = 0
Limite I 9
Inferior 9
Superior : 160
I = 1
Limite I 160
Inferior 160
Superior : 311
I = 2
Limite I 311
Inferior 311
Superior : 462
I = 3
Limite I 462
Inferior 462
Superior : 613
I = 4
Limite I 613
Inferior 613
Superior : 764
I = 5
Limite I 764
Inferior 764
Superior : 915
I = 6
Limite I 915
Inferior 915
Superior : 1066
I = 7
Limite I 1066
Inferior 1066
Superior : 1217
I = 8
Limite I 1217
Inferior 1217
Superior : 1368
I = 9
Limite I 1368
Inferior 1368
Superior : 1519
I = 10
Limite I 1519
Inferior 1519
Superior : 1670
Limites Inferiores das Classes: [9, 160, 311, 462, 613, 764, 915, 1066, 1217, 1368, 1519]
Limites Superiores das Classes: [160, 311, 462, 613, 764, 915, 1066, 1217, 1368, 1519, 1668]
     renda classe
0       64      a
1      136      a
2      116      a
3       33      a
4       30      a
..     ...    ...
995     27      a
996     22      a
997    944      g
998     87      a
999     39      a

[1000 rows x 2 columns]


In [44]:
min_val = df.renda.min()
max_val = df.renda.max()

k = int(k)

# Calculando a amplitude total
amplitude_total = max_val - min_val

# Calculando a amplitude de cada classe
amplitude_classe = amplitude_total / k

# Criando os bins corretamente
bins = []
for i in range(k + 1):
    if i < k:
        limite = min_val + i * amplitude_classe
    else:
        limite = max_val  # Garante que o último bin inclui o valor máximo
    bins.append(limite)

# Arredondando os bins para números inteiros (opcional)
bins = [math.ceil(x) if i < len(bins)-1 else math.floor(x) for i, x in enumerate(bins)]

# Rótulos para as classes
labels = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i','j'][:k]  # Ajusta para o número de classes

# Criando uma nova coluna com as classes
df['classe'] = pd.cut(df['renda'], bins=bins, labels=labels, include_lowest=True)

# Exibindo o DataFrame com as classes
print(df[['renda', 'classe']])

     renda classe
0       64      a
1      136      a
2      116      a
3       33      a
4       30      a
..     ...    ...
995     27      a
996     22      a
997    944      f
998     87      a
999     39      a

[1000 rows x 2 columns]


In [45]:
classes_inferiores

[9, 160, 311, 462, 613, 764, 915, 1066, 1217, 1368, 1519]

##Contando quantos valores há em cada classe:

In [46]:
pd.value_counts(pd.cut(df['renda'], bins=bins, labels=labels, include_lowest=True)).sort_index()

  pd.value_counts(pd.cut(df['renda'], bins=bins, labels=labels, include_lowest=True)).sort_index()


Unnamed: 0_level_0,count
renda,Unnamed: 1_level_1
a,918
b,60
c,12
d,4
e,2
f,2
g,1
h,0
i,0
j,1


Definindo a frequência:

In [49]:
frequencia = pd.value_counts(
    pd.cut(df['renda'],
           bins=bins,
           labels=labels,
           include_lowest=True),
    normalize= True) * 100

  frequencia = pd.value_counts(


Calculando o percentual:

In [50]:

percentual = pd.value_counts(
    pd.cut(
        df['renda'],
        bins=bins,
        labels=labels,
        include_lowest=True
        ),
    normalize= True
    ) * 100

percentual

  percentual = pd.value_counts(


Unnamed: 0_level_0,proportion
renda,Unnamed: 1_level_1
a,91.8
b,6.0
c,1.2
d,0.4
e,0.2
f,0.2
g,0.1
j,0.1
h,0.0
i,0.0


Criando um DataFrame com a frequência e o percentual:

In [51]:
dist_freq_quantitativas_personalizadas = pd.DataFrame({'Frequência': frequencia, 'Porcentagem (%)': percentual})

dist_freq_quantitativas_personalizadas

Unnamed: 0_level_0,Frequência,Porcentagem (%)
renda,Unnamed: 1_level_1,Unnamed: 2_level_1
a,91.8,91.8
b,6.0,6.0
c,1.2,1.2
d,0.4,0.4
e,0.2,0.2
f,0.2,0.2
g,0.1,0.1
j,0.1,0.1
h,0.0,0.0
i,0.0,0.0


Organizando a ordem das classes no DataFrame:

In [52]:
dist_freq_quantitativas_personalizadas.sort_index(ascending = True)

Unnamed: 0_level_0,Frequência,Porcentagem (%)
renda,Unnamed: 1_level_1,Unnamed: 2_level_1
a,91.8,91.8
b,6.0,6.0
c,1.2,1.2
d,0.4,0.4
e,0.2,0.2
f,0.2,0.2
g,0.1,0.1
h,0.0,0.0
i,0.0,0.0
j,0.1,0.1
