# Análise Exploratória de Dados
## Hugo Tremonte de Carvalho
## `hugo@dme.ufrj.br`

# Comandos extremamente básicos

Para rodar os comandos abaixo no R (ou R Studio), digite-os na linha de comendo e dê `Enter`. Para rodá-los aqui, selecione uma célula, digite o comando desejado e aperte `Ctrl + Enter` ou clique no botão de `Play` ao lado da célula.

O R funciona como uma grande calculadora:

In [None]:
2 + 5

In [None]:
10 - 7

In [None]:
3 * 2.5 # O separador de decimal é . e não ,

In [None]:
10/6

In [None]:
2^3

In [None]:
2**3

Tipos de dados: `character`, `numeric`, `integer`, `complex`, e `logical`

Raras vezes iremos usar o tipo `integer`

1i denota a unidade complexa (tipo `complex`)




In [None]:
class(2)

In [None]:
class(2L)

In [None]:
class('a')

In [None]:
class(1i)

In [None]:
class(TRUE)

Verificar igualdades ou desigualdades retorna um `logical`

In [None]:
3==3

In [None]:
4==3

In [None]:
3!=2

In [None]:
4!=4

In [None]:
2<3

In [None]:
2>2

In [None]:
3<=4

In [None]:
9>=9

Notacao cientifica, ou o padrao IEEE 754 para números de ponto flutuante

`5000000` é representado por `5e+06` -- leia-se "mantissa 5 (parte decimal de um logaritmo) e expoente +06"

Para saber mais sobre o padrao IEEE 754, veja https://www.youtube.com/watch?v=p8u_k2LIZyo&t=258s

De quebra, aprenda como que o Quake III foi revolucionário por conta de um algoritmo para calcular (aproximar, na verdade) $1/\sqrt{x}$ de modo bem rápido



In [None]:
5000000

O R conhece constantes importantes

In [None]:
pi

In [None]:
e # Não funciona :-(

ERROR: ignored

In [None]:
exp(1) # funciona

Funções básicas já implementadas

In [None]:
cos(10)

In [None]:
log(1.5)

In [None]:
abs(5-12)

In [None]:
sqrt(25)

Porém, o `log` é em qual base? A função `cos` mede ângulos em graus ou radianos? Aparentemente `sqrt` calcula raiz quadrada, mas e para calcular outras raizes?

In [None]:
?log # Por padrão é o logaritmo natural (ln)

In [None]:
?sqrt

In [None]:
?cos

In [None]:
help(log) # Equivalente a ?log

Quer calcular uma exponencial mas não lembra qual é a função? Não tem problema!

In [None]:
??exponential

In [None]:
help.search("exponential")

Atribuir valores a variáveis. O nome da variável pode começar com letra, pode ter números, ponto e _underline_. Não pode ter vírgula, ponto-e-vírgula, traço e espaço. Operamos com variáveis da mesma forma que com números.

In [None]:
x = 10

In [None]:
x <- 10 # Equivalente a x = 10

In [None]:
x**2

# Trabalhando com uma base de dados

Para fazer _upload_ de um arquivo para o Colab, clique no ícone com uma pasta ao lado esquerdo da tela, depois no ícone de um papel com uma seta para cima. Escolha o arquivo desejado e clique em `Abrir`.

In [None]:
empresa <- read.table("empresa.csv", dec = ",", sep = ";", h = T)

In [None]:
empresa

EstadoCivil,GrauInstrucao,Filhos,Salario,IdadeAnos,IdadeMeses,Regiao
<chr>,<chr>,<int>,<dbl>,<int>,<int>,<chr>
solteiro,ensino fundamental,,4.0,26,3,interior
casado,ensino fundamental,1.0,4.56,32,10,capital
casado,ensino fundamental,2.0,5.25,36,5,capital
solteiro,ensino medio,,5.73,20,10,outra
solteiro,ensino fundamental,,6.26,40,7,outra
casado,ensino fundamental,0.0,6.66,28,0,interior
solteiro,ensino fundamental,,6.86,41,0,interior
solteiro,ensino fundamental,,7.39,43,4,capital
casado,ensino medio,1.0,7.59,34,10,capital
solteiro,ensino medio,,7.44,23,6,outra


In [None]:
head(empresa) # Mostra somente o comecinho da tabela

Unnamed: 0_level_0,EstadoCivil,GrauInstrucao,Filhos,Salario,IdadeAnos,IdadeMeses,Regiao
Unnamed: 0_level_1,<chr>,<chr>,<int>,<dbl>,<int>,<int>,<chr>
1,solteiro,ensino fundamental,,4.0,26,3,interior
2,casado,ensino fundamental,1.0,4.56,32,10,capital
3,casado,ensino fundamental,2.0,5.25,36,5,capital
4,solteiro,ensino medio,,5.73,20,10,outra
5,solteiro,ensino fundamental,,6.26,40,7,outra
6,casado,ensino fundamental,0.0,6.66,28,0,interior


In [None]:
names(empresa)

## Sumários em tabelas: distribuição de frequências

### Variáveis qualitativas

In [None]:
tabela_ensino <- table(empresa$GrauInstrucao)

In [None]:
tabela_ensino


ensino fundamental       ensino medio           superior 
                12                 18                  6 

In [None]:
prop.table(tabela_ensino)


ensino fundamental       ensino medio           superior 
         0.3333333          0.5000000          0.1666667 

In [None]:
100*prop.table(tabela_ensino)


ensino fundamental       ensino medio           superior 
          33.33333           50.00000           16.66667 

### Variáveis quantitativas

In [None]:
tabela_salarios <- table(empresa$Salario)

In [None]:
tabela_salarios # Só há uma observação com cada salário! Não faz sentido esse sumário...


    4  4.56  5.25  5.73  6.26  6.66  6.86  7.39  7.44  7.59  8.12  8.46  8.74 
    1     1     1     1     1     1     1     1     1     1     1     1     1 
 8.95  9.13  9.35  9.77   9.8 10.53 10.76 11.06 11.59    12 12.79 13.23  13.6 
    1     1     1     1     1     1     1     1     1     1     1     1     1 
13.85 14.69 14.71 15.99 16.22 16.61 17.26 18.75  19.4  23.3 
    1     1     1     1     1     1     1     1     1     1 

In [None]:
cut(empresa$Salario, breaks = seq(4, 24, by = 4), right = FALSE)

Vamos entender esse comando:

In [None]:
summary(empresa)

 EstadoCivil        GrauInstrucao          Filhos        Salario      
 Length:36          Length:36          Min.   :0.00   Min.   : 4.000  
 Class :character   Class :character   1st Qu.:1.00   1st Qu.: 7.553  
 Mode  :character   Mode  :character   Median :2.00   Median :10.165  
                                       Mean   :1.65   Mean   :11.122  
                                       3rd Qu.:2.00   3rd Qu.:14.060  
                                       Max.   :5.00   Max.   :23.300  
                                       NA's   :16                     
   IdadeAnos       IdadeMeses        Regiao         
 Min.   :20.00   Min.   : 0.000   Length:36         
 1st Qu.:30.00   1st Qu.: 3.750   Class :character  
 Median :34.50   Median : 6.000   Mode  :character  
 Mean   :34.58   Mean   : 5.611                     
 3rd Qu.:40.00   3rd Qu.: 8.000                     
 Max.   :48.00   Max.   :11.000                     
                                                    

In [None]:
summary(empresa$Salario)

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  4.000   7.553  10.165  11.122  14.060  23.300 

In [None]:
seq(4, 24, by = 4)

In [None]:
cut(empresa$Salario, breaks = seq(4, 24, by = 4), right = TRUE)

In [None]:
cut(empresa$Salario, breaks = seq(4, 24, by = 4), right = FALSE)

Voltando ao problema

In [None]:
tabela_salarios <- table(cut(empresa$Salario, breaks = seq(4, 24, by = 4), right = FALSE))

In [None]:
tabela_salarios


  [4,8)  [8,12) [12,16) [16,20) [20,24) 
     10      12       8       5       1 

In [None]:
prop.table(tabela_salarios)


     [4,8)     [8,12)    [12,16)    [16,20)    [20,24) 
0.27777778 0.33333333 0.22222222 0.13888889 0.02777778 

In [None]:
100*prop.table(tabela_salarios)


    [4,8)    [8,12)   [12,16)   [16,20)   [20,24) 
27.777778 33.333333 22.222222 13.888889  2.777778 