## 1. Análise Exploratória de Dados

### Bibliotecas

In [43]:
import requests
import json
import pandas as pd
%matplotlib inline
import seaborn as sns
import matplotlib.pyplot as plt

### 1.1. Extração dos dados via API

In [35]:
url = "https://servicodados.ibge.gov.br/api/v2/censos/nomes"

payload={}
headers = {}

response = requests.request("GET", url, headers=headers, data=payload)

#print(response.text)

### 1.2. Formalizar dataframe

In [57]:
data = json.loads(response.text)
df = pd.DataFrame(data)
df


Unnamed: 0,nome,regiao,freq,rank,sexo
0,MARIA,0,11734129,1,
1,JOSE,0,5754529,2,
2,ANA,0,3089858,3,
3,JOAO,0,2984119,4,
4,ANTONIO,0,2576348,5,
5,FRANCISCO,0,1772197,6,
6,CARLOS,0,1489191,7,
7,PAULO,0,1423262,8,
8,PEDRO,0,1219605,9,
9,LUCAS,0,1127310,10,


### 1.3. Amostra aleatória de dados

In [37]:
print('\033[1m' "\n TABELA 1: AMOSTRA DO BANCO DE DADOS  \n")
del df['sexo'] 
df.sample(10,random_state=42)

[1m
 TABELA 1: AMOSTRA DO BANCO DE DADOS  



Unnamed: 0,nome,regiao,freq,rank
0,MARIA,0,11734129,1
17,MARCELO,0,693215,18
15,FRANCISCA,0,725642,16
1,JOSE,0,5754529,2
8,PEDRO,0,1219605,9
5,FRANCISCO,0,1772197,6
11,MARCOS,0,1106165,12
3,JOAO,0,2984119,4
18,BRUNO,0,668217,19
16,DANIEL,0,711338,17


### 1.4. Verificação de tipagem das varáveis


A TABELA 2 visa identificar a tipagem das variáveis do banco de dados. Nota-se que, com exceção da variável "nome", todas as varáveis são numéricas.

In [38]:
tipos=[str(type(df[coluna][0])) for coluna in df.columns]
dic={'Variável':df.columns,'Tipo':tipos}
tab_2=pd.DataFrame(data=dic,index=None)
print('\033[1m' "\n TABELA 2: TIPO DAS VARIÁVEIS  \n")
tab_2

[1m
 TABELA 2: TIPO DAS VARIÁVEIS  



Unnamed: 0,Variável,Tipo
0,nome,<class 'str'>
1,regiao,<class 'numpy.int64'>
2,freq,<class 'numpy.int64'>
3,rank,<class 'numpy.int64'>


### 1.5. Informações faltantes

A TABELA 3 apresenta a contagem de informações não nulas, lembrando que nulo indica informação faltante e 0 que variável está preenchida com este valor. Observa-se que não há ocorrência de dados faltantes.

In [29]:
print('\033[1m' "\n TABELA 3: INFORMAÇÕES FALTANTES  \n")
df.info()

[1m
 TABELA 3: INFORMAÇÕES FALTANTES  

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   nome    20 non-null     object
 1   regiao  20 non-null     int64 
 2   freq    20 non-null     int64 
 3   rank    20 non-null     int64 
dtypes: int64(3), object(1)
memory usage: 768.0+ bytes


### 1.6. Estatística descritiva

A TABELA 4 apresenta as estatísticas descritivas das variáveis quantitativas do banco de dados. Observa-se que a variável "região" é qualitativa nominal, logo as métricas não são aplicadas (todos os valores são 0). 

In [30]:
print('\033[1m' "\n TABELA 4: ESTATÍSTICAS DESCRITIVAS  \n")
descritiva=df.describe()
descritiva

[1m
 TABELA 4: ESTATÍSTICAS DESCRITIVAS  



Unnamed: 0,regiao,freq,rank
count,20.0,20.0,20.0
mean,0.0,2075279.0,10.5
std,0.0,2586727.0,5.91608
min,0.0,632664.0,1.0
25%,0.0,797639.0,5.75
50%,0.0,1117551.0,10.5
75%,0.0,1973235.0,15.25
max,0.0,11734130.0,20.0


### 1.7. Distribuições

Através da análise das distribuições é possível identificar visualmente as relações entre as variáveis e identificar valores extremos.

In [67]:
normalized_df=(df['freq']-df['freq'].min())/(df['freq'].max()-df['freq'].min())
normalized_df


0     1.000000
1     0.461368
2     0.221340
3     0.211815
4     0.175084
5     0.102647
6     0.077154
7     0.071216
8     0.052871
9     0.044557
10    0.042799
11    0.042652
12    0.027315
13    0.027004
14    0.017022
15    0.008375
16    0.007087
17    0.005454
18    0.003203
19    0.000000
Name: freq, dtype: float64