# Trabalhando com Arquivos de Dados (CSV)

- Baixe o arquivo no link: [Clique aqui para baixar o arquivo](https://drive.google.com/file/d/1STghp6kbArdvOeLUNa-exQRkfxJEYRqh/view?usp=drive_link)

## Conteúdo
O conjunto de dados contém:

| Campo                | Descrição                       |
|----------------------|---------------------------------|
| Região               | Estado onde reside              |
| Idade                | Idade em anos completos         |
| Renda                | Salários médios (k)             |
| Estado Civil         | Seu estado civil                |
| Educação             | Grau de escolaridade            |
| Tempo de Emprego     | Anos de emprego                 |
| Situação Aposentadoria | 0 - Não aposentado 1 - aposentado |
| Gênero               | 0 - Masculino 1 - Feminino      |
| Código Residencia    | Tipo de residência              |
| Altura               | Em metros                       |


In [None]:
# importando todas as bibliotecas que iremos utilizar nesse Lab
import pandas as pd
import numpy as np
import math

In [None]:
# Montando o Drive
from google.colab import drive
drive.mount('/content/drive')

# Caminho do diretório escolhido
path = "/content/drive/MyDrive/DataScience"

In [None]:
# Leitura do arquivo
df = pd.read_csv(path + '/pessoas.csv', sep=',')

# Mostrando as 10 primeiras linhas
df.head(10)

Analisando a coluna região, é possível saber quais fazem parte dos dados, removendo a repetição.

In [None]:
df['regiao'].unique()

A função sorted() coloca os valores em ordem crescente:

In [None]:
sorted(df['regiao'].unique())

Quantitativas discretas: a variável é avaliada em números que são resultados de contagens, por isso só podem assumir valores inteiros, como as idades.

In [None]:
df.idade.min()

df.idade.max()

print( 'De %s até %s anos' % (df.idade.min(), df.idade.max()) )

Quantitativas contínuas: a variável é avaliada em números que são resultados de medição, então podem assumir valores não inteiros.

In [None]:
df.altura.min()

df.altura.max()

print(f'De {df.altura.min()} até {df.altura.max()} metros')

A distribuição de frequências é quando contabilizamos o número de ocorrências de cada valor. Faremos a distribuição de frequências para variáveis qualitativas, começando pela variável Sexo.

Primeiro, contamos o número de ocorrências para cada valor:

In [None]:
df['genero'].value_counts()

Portanto, temos 53250 homens e 23590 mulheres.

Calculamos a porcentagem para cada valor:

In [None]:
df.genero.value_counts(normalize = True)*100

Definimos a frequência e o percentual:

In [None]:
frequencia = df['genero'].value_counts()

percentual = df.genero.value_counts(normalize = True)*100

Construímos o DataFrame com a frequência e o percentual:

In [None]:
dist_freq_qualitativas = pd.DataFrame({'Frequência': frequencia, 'Porcentagem(%)': percentual})

dist_freq_qualitativas

Podemos substituir os valores 0 e 1 pelos seus significados:

In [None]:
dist_freq_qualitativas.rename(index = {0: 'Masculino', 1: 'Feminino'})

Para salvar a alteração em dist_freq_qualitativas:

In [None]:
dist_freq_qualitativas.rename(index = {0: 'Masculino', 1: 'Feminino'}, inplace = True)

dist_freq_qualitativas

Podemos fazer uma distribuição de frequência relacionando gênero e escolaridade, através de um dicionário:

In [None]:
sexo = {0: 'Masculino',
        1: 'Feminino'}

Construindo a tabela de frequência:



In [None]:
frequencia = pd.crosstab(df.genero, df.educacao)

frequencia

Renomeamos a coluna do gênero

In [None]:
frequencia.rename(index = sexo, inplace = True)

frequencia

Podemos fazer a distribuição de frequências percentuais através de normalize:

In [None]:
percentual = pd.crosstab(df.genero, df.educacao, normalize = True)*100

percentual.rename(index = sexo, inplace = True)

percentual

Podemos calcular a renda média dentro do cruzamento Sexo x Escolaridade:

In [None]:
percentual = pd.crosstab(df.genero, df.educacao, aggfunc = 'mean', values = df.renda)

percentual.rename(index = sexo, inplace = True)

percentual

Na distribuição de frequências para variáveis quantitativas, como as variáveis são medidas ou contadas, precisamos criar classes para realizarmos a distribuição.

In [None]:
df.renda.min()
df.renda.max()

print(f'De {df.renda.min()} até {df.renda.max()}')

# Cálculo da Frequência de Renda

## 1. Defina as Classes

Primeiro, defina a quantidade de classes. Um método comum é a regra de Sturges, dada por:


$$
k = 1 + 3.322 \cdot \log_{10}(n)
$$

onde \( n \) é o número total de observações. Caso não tenha o número de observações, escolha um número de classes que faça sentido para os dados (geralmente entre 5 a 20 classes).

## 2. Calcule a Amplitude Total

A amplitude total é a diferença entre o maior e o menor valor do conjunto de dados:

$$
\text{Amplitude total} = 1668 - 9 = 1659
$$

## 3. Calcule a Amplitude de Cada Classe

Divida a amplitude total pelo número de classes para determinar a amplitude de cada classe:

$$
\text{Amplitude de cada classe} = \frac{\text{Amplitude total}}{k}
$$

## 4. Crie as Classes

A partir do valor mínimo e da amplitude de cada classe, crie as classes. Por exemplo, se decidir usar 10 classes:

- **Classe 1:** 9 a 177
- **Classe 2:** 178 a 345
- **Classe 3:** 346 a 513
- **Classe 4:** 514 a 681
- **Classe 5:** 682 a 849
- **Classe 6:** 850 a 1017
- **Classe 7:** 1018 a 1185
- **Classe 8:** 1186 a 1353
- **Classe 9:** 1354 a 1521
- **Classe 10:** 1522 a 1668

## 5. Interprete os Resultados

Após calcular as frequências, analise como a renda se distribui entre as classes, o que pode ajudar a entender melhor a composição da sua amostra.



##Calculando as classes:




In [None]:
n = df.shape[0]
k = 1 + 3.322 * math.log10(n)

print(f"Número de classes (k): {k:.2f}")

##Calculando a amplitude total:



In [None]:
min_val = df.renda.min()
max_val = df.renda.max()

k = int(k)

# Calculando a amplitude total
amplitude_total = max_val - min_val

# Calculando a amplitude de cada classe
amplitude_classe = amplitude_total / k

classes_inferiores = []
classes_superiores = []

for i in range(k):
    limite_inferior = min_val + i * amplitude_classe
    limite_superior = min_val + (i + 1) * amplitude_classe

    # Ajustando a última classe para garantir que inclua o valor máximo
    if i == k - 1:
        limite_superior = max_val

    classes_inferiores.append(limite_inferior)
    classes_superiores.append(limite_superior)

print("Limites Inferiores das Classes:", classes_inferiores)
print("Limites Superiores das Classes:", classes_superiores)

 # Adiciona max_val para incluir o último intervalo
bins = classes_inferiores + [max_val]

# Rótulos para as classes
labels = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i','j']

# Criando uma nova coluna com as classes
df['classe'] = pd.cut(df['renda'], bins=bins, labels=labels, include_lowest=True)

# Exibindo o DataFrame com as classes
print(df[['renda', 'classe']])


##Contando quantos valores há em cada classe:

In [None]:
pd.value_counts(pd.cut(df['renda'], bins=bins, labels=labels, include_lowest=True))

Definindo a frequência:

In [None]:
frequencia = pd.value_counts(pd.cut(df['renda'], bins=bins, labels=labels, include_lowest=True))

Calculando o percentual:

In [None]:

percentual = pd.value_counts(
    pd.cut(
        df['renda'],
        bins=bins,
        labels=labels,
        include_lowest=True
        ),
    normalize= True
    ) * 100

percentual

Criando um DataFrame com a frequência e o percentual:

In [None]:
dist_freq_quantitativas_personalizadas = pd.DataFrame({'Frequência': frequencia, 'Porcentagem (%)': percentual})

dist_freq_quantitativas_personalizadas

Organizando a ordem das classes no DataFrame:

In [None]:
dist_freq_quantitativas_personalizadas.sort_index(ascending = False)