# Análise exploratória de dados com Python

**Primeiros passos**

### Habilidades em Python:
- Iteradores;
- Condicionais;
- Funções.
 
### Habilidades em Estatistica:
- As diferentes formas de centralidade

### Habilidade de Negócios:
- Pensando no problema a ser respondido
---> Homens ganham mais do que mulheres nesse dataset?


# O que é análise exploratória de dados

*fonte: Wikipedia*

Em estatística, a **análise exploratória de dados (AED)** é uma abordagem à análise de conjuntos de dados de modo a resumir suas características principais, frequentemente com métodos visuais. Um modelo estatístico pode ou não ser usado, mas primariamente a AED tem como objetivo observar o que os dados podem nos dizer além da modelagem formal ou do processo de teste de hipóteses. A análise exploratória de dados foi promovida pelo estatístico norte-americano John Tukey, que incentivava os estatísticos a explorar os dados e possivelmente formular hipóteses que poderiam levar a novas coletas de dados e experimentos. A **AED** é diferente da análise inicial de dados (AID), que se concentra mais estreitamente em verificar os pressupostos exigidos para ajuste de modelos e teste de hipóteses, além de manusear valores faltantes e fazer transformações de variáveis conforme necessário. A análise exploratória de dados abrange a AID.

A análise exploratória de dados emprega grande variedade de técnicas gráficas e quantitativas, visando maximizar a obtenção de informações ocultas na sua estrutura, descobrir variáveis importantes em suas tendências, detectar comportamentos anômalos do fenômeno, testar se são válidas as hipóteses assumidas, escolher modelos e determinar o número ótimo de variáveis.

Os softwares atualmente disponíveis possibilitam que esta técnica se constitua em uma ferramenta para descobrir quais tendências, relações e padrões podem estar ocultos em uma coleção de dados analisados. Seguindo as diretrizes propostas por Tukey, os investigadores deveriam iniciar sua análise pelo exame dos dados disponíveis e depois decidir qual técnica aplicar para resolver o problema. 

### Etapas

Para realizar uma AED recomenda-se seguir as seguintes etapas:

1. Encontrar, acessar e abrir os dados na interface de trabalho (Python);

2. Identificar as informações básicas dos dados com por exemplo conhecer as colunas, missing values, outliers, medidas de centralidade (média, mediana, moda) e dispersão (desvio padrão, variância;

3. Reconhecimento dos tipos de variáveis (figura 1) e como tratar cada uma delas;

4. Análise gráfica para veirficação do comportamento das variáveis (linearidade, normalidade);

5. Descrição da relação entre as variávies contidas nos dados (correlações).

#### Figura 1: tipos de variáveis em estatística descritiva

<img src="img/tipos_de_variaveis.png">


# Trabalhando os arquivos com Python

### Abrindo o arquivo e acessando os dados

In [37]:
import csv

with open(r'data/data.csv', 'r') as data_csv:
    data = csv.reader(data_csv)
     
    for i, line in enumerate(data):
        if i < 100:
            print(line)
            
    print(i)

['', 'id', 'idade', 'sexo', 'anos_estudo', 'cor/raca', 'salario', 'estado_civil', 'regiao']
['0', '11001901101.0', '53', 'homem', '5.0', 'Parda', '63600.0', '1.0', 'norte']
['1', '11001901102.0', '49', 'mulher', '8.0', 'Amarela', '', '1.0', 'norte']
['2', '11001901103.0', '22', 'mulher', '11.0', 'Indigena', '4352.400390625', '0.0', 'nordeste']
['3', '11001903101.0', '55', 'homem', '15.0', 'Amarela', '96600.0', '1.0', 'norte']
['4', '11001903102.0', '56', 'mulher', '15.0', 'Amarela', '157800.0', '1.0', 'norte']
['5', '11001903103.0', '30', 'mulher', '15.0', 'Amarela', '88550.0', '0.0', 'nordeste']
['6', '11001904101.0', '52', 'mulher', '5.0', 'Branca', '6734.400390625', '0.0', 'norte']
['7', '11001904104.0', '29', 'homem', '5.0', 'Parda', '14875.20068359375', '0.0', 'norte']
['8', '11001904105.0', '29', 'mulher', '11.0', 'Parda', '6734.400390625', '0.0', 'norte']
['9', '11001905101.0', '46', 'mulher', '15.0', 'Branca', '54300.0', '1.0', 'norte']
['10', '11001905102.0', '52', 'homem', '1

In [38]:
type(data)

_csv.reader

In [29]:
import pandas as pd

df = pd.read_csv("data/data.csv") 
df.head()

Unnamed: 0.1,Unnamed: 0,id,idade,sexo,anos_estudo,cor/raca,salario,estado_civil,regiao
0,0,11001900000.0,53,homem,5.0,Parda,63600.0,1.0,norte
1,1,11001900000.0,49,mulher,8.0,Amarela,,1.0,norte
2,2,11001900000.0,22,mulher,11.0,Indigena,4352.400391,0.0,nordeste
3,3,11001900000.0,55,homem,15.0,Amarela,96600.0,1.0,norte
4,4,11001900000.0,56,mulher,15.0,Amarela,157800.0,1.0,norte


In [31]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 66470 entries, 0 to 66469
Data columns (total 9 columns):
Unnamed: 0      66470 non-null int64
id              66470 non-null float64
idade           66470 non-null int64
sexo            66470 non-null object
anos_estudo     66036 non-null float64
cor/raca        66228 non-null object
salario         47878 non-null float64
estado_civil    66470 non-null float64
regiao          66470 non-null object
dtypes: float64(4), int64(2), object(3)
memory usage: 4.6+ MB


### Medidas de Centralidade

#### Média:

Em estatística, média é definida como o valor que mostra para onde se concentram os dados de uma distribuição como o ponto de equilíbrio das frequências em um histograma.[1] Média também é interpretada como um valor significativo de uma lista de números.[2] Os valores de uma lista de números podem ser representados por meio da escolha aleatória de um número. Se todos os números forem iguais, o número escolhido aleatoriamente será a média. Então, a média pode ser calculada por meio da combinação dos números de maneira específica e da geração de um valor significativo. Entretanto, a palavra média é usualmente usada em métodos mais sofisticados como média aritmética, mediana, moda, entre outros.

Seguindo uma definição mais informal de "média", pode-se assumir que no campo da estatística, dados possuem posições. Por exemplo, cada valor dos lançamentos de um dado possui sua posição em uma planilha eletrônica. Em estatística, média é uma medida de posição que indica um valor uniforme dos dados. Por exemplo, o conjunto x = { 2 , 1 , 6 , 5 , 10 } {\displaystyle x=\{2,1,6,5,10\}} {\displaystyle x=\{2,1,6,5,10\}} possui média aritmética x ¯ = 4 , 8 {\displaystyle {\bar {x}}=4,8} {\displaystyle {\bar {x}}=4,8}. Embora 4 , 8 {\displaystyle 4,8} {\displaystyle 4,8} seja o valor médio, ele não é o valor central definido pela mediana.[3] 
A **média** (ou primeiro momento) é definida da seguinte maneira:

$$ \overline x = \frac{1}{n} \sum_i x_i $$

Por exemplo, para a mostra 8, 5, 3, -1, e -5, a média é:

In [7]:
numbers = [8,5,3,-1,-5]

somatorio = 0
for number in numbers:
    somatorio += number
    print(f'Somando {number} + {somatorio-number} = {somatorio}')
    
media = somatorio/len(numbers)
print('\nmédia:',media)

Somando 8 + 0 = 8
Somando 5 + 8 = 13
Somando 3 + 13 = 16
Somando -1 + 16 = 15
Somando -5 + 15 = 10

média: 2.0


#### Calculando a média para a coluna de dados da idade

In [20]:
media_idade = df['idade'].sum() / df.shape[0]
media_idade

37.6348126974575

### Medidas de Centralidade

#### Mediana:

A **Mediana** é o termo "do meio" de uma amostra ordenada. E ela depende se a amostra tem uma quantidade pares ou impares de elementos:

- Ímpar:
		[1, 2, 3, 5, 7, 8, 9, 10, 15]
		#elementos: 9
		A mediana é o valor da posição 5 (a posição do “meio”)
		Mediana =  7
        
        
- Par: 
		[-5, -1, 0, 1, 2, 3, 8, 20]
		#elementos: 8
		A mediana é a média dos valores nas duas posições centrais
		Mediana =  (1+2)/2 = 1.5
        
        
  

#### Calculando a mediana para a coluna de dados de idade

In [24]:
mediana_idade = df['idade'][df.shape[0]/2]
mediana_idade

51

### Medidas de Centralidade

#### Moda:

A **moda** é o valor que aparece com maior frequência ou mais vezes na distribuição. 

Por exemplo, a moda de [0,1,1,2,2,2,2,3,3,4,4,4,5] é 2.

A moda não é necessariamente única. Pode ser que existam dois valores diferentes que sejam os mais frequentes. Por exemplo, no caso de [10, 13, 13, 20, 20], tanto 13 como 20 são a moda.

In [34]:
df['idade'].value_counts().idxmax()

20

In [9]:
### fazer uma contagem para cada categoria usando dicionario

#### Calcular a média para a variável anos_estudo: