<a href="https://colab.research.google.com/github/bmnds/uea-data-science-03-statistics/blob/main/%5BEstat%C3%ADstica04%5D_Trabalho_Final.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Trabalho Final da Disciplina de Estatística do Curso de Pós-Graduação em Ciência de Dados da UEA-AM
**Grupo:** Alberto, Bruno, Lelson e Levi

## O Trabalho
* Definir um tema e os objetivos a serem analisados 
* Escolheru m dataframe com no mínimo cinco campos e 25 linhas, dos quais pelo menos dois devem ser numéricos
* Realizar um levantamento amostral atendendo a todos os critérios de avaliação

## A Avaliação
1. [ ] Construir tabelas e gráficos apropriados para cada variável do data frame
2. [ ] Calcular a média, mediana, moda, desvio-padrão, coeficiente de variação
e simetria das variáveis quantitativas
3. [ ] Analisar a normalidade dos dados numéricos e se existe a presença de
outliers
4. [ ] Comparar as variáveis quantitativas e descrever qual é mais homogênea
5. [ ] Calcular os respectivos Intervalos de Confiança ao nível de 95% para cada
campo do data frame
6. [ ] Comparar a média de um campo numérico em relação a um campo
categórico e responder se existe diferença estatística ao nível de 5% de significância
7. [ ] Realizar um cruzamento de dois campos categóricos e responder se existe
diferença estatística ao nível de 5% de significância.


In [2]:
# Pacotes necessários
from six.moves import urllib
from scipy import stats
from scipy.stats import binom, nbinom, poisson, uniform, expon, norm 
import pandas as pd
import statsmodels.stats.proportion as smp
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sea
import statistics as st

In [6]:
# Mudança da semente aleatória randômica para manter os resultados em várias execuções
np.random.seed(20201109)

# Dataset de Ocorrências Aeronáuticas da Aviação Civil Brasileira
Dados fornecidos pelo [CENIPA](https://dados.gov.br/dataset/ocorrencias-aeronauticas-da-aviacao-civil-brasileira)

In [38]:
# Download do dataset
urllib.request.urlretrieve('https://drive.google.com/uc?export=download&id=1jHYzLvKBRcoBWMbDgKqsU969sep-N8sq','cenipa.tar.gz')
!tar -zxvf cenipa.tar.gz
!rm cenipa.tar.gz

cenipa/
cenipa/aeronave.csv
cenipa/fator_contribuinte.csv
cenipa/ocorrencia.csv
cenipa/recomendacao.csv


In [39]:
bd_aeronave = pd.read_csv('cenipa/aeronave.csv',sep=';',decimal='.',encoding='iso-8859-1')
bd_aeronave.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5307 entries, 0 to 5306
Data columns (total 23 columns):
 #   Column                       Non-Null Count  Dtype  
---  ------                       --------------  -----  
 0   codigo_ocorrencia2           5307 non-null   int64  
 1   aeronave_matricula           5307 non-null   object 
 2   aeronave_operador_categoria  5307 non-null   object 
 3   aeronave_tipo_veiculo        5307 non-null   object 
 4   aeronave_fabricante          5307 non-null   object 
 5   aeronave_modelo              5307 non-null   object 
 6   aeronave_tipo_icao           5307 non-null   object 
 7   aeronave_motor_tipo          5307 non-null   object 
 8   aeronave_motor_quantidade    5307 non-null   object 
 9   aeronave_pmd                 5307 non-null   int64  
 10  aeronave_pmd_categoria       5307 non-null   int64  
 11  aeronave_assentos            5182 non-null   float64
 12  aeronave_ano_fabricacao      5189 non-null   float64
 13  aeronave_pais_fabr

In [40]:
bd_fator_contribuinte = pd.read_csv('cenipa/fator_contribuinte.csv',sep=';',decimal='.',encoding='iso-8859-1')
bd_fator_contribuinte.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3717 entries, 0 to 3716
Data columns (total 5 columns):
 #   Column               Non-Null Count  Dtype 
---  ------               --------------  ----- 
 0   codigo_ocorrencia3   3717 non-null   int64 
 1   fator_nome           3717 non-null   object
 2   fator_aspecto        3717 non-null   object
 3   fator_condicionante  3717 non-null   object
 4   fator_area           3717 non-null   object
dtypes: int64(1), object(4)
memory usage: 145.3+ KB


In [41]:
bd_ocorrencia = pd.read_csv('cenipa/ocorrencia.csv',sep=';',decimal='.',encoding='iso-8859-1')
bd_ocorrencia.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5245 entries, 0 to 5244
Data columns (total 22 columns):
 #   Column                          Non-Null Count  Dtype 
---  ------                          --------------  ----- 
 0   codigo_ocorrencia               5245 non-null   int64 
 1   codigo_ocorrencia1              5245 non-null   int64 
 2   codigo_ocorrencia2              5245 non-null   int64 
 3   codigo_ocorrencia3              5245 non-null   int64 
 4   codigo_ocorrencia4              5245 non-null   int64 
 5   ocorrencia_classificacao        5245 non-null   object
 6   ocorrencia_latitude             3549 non-null   object
 7   ocorrencia_longitude            3548 non-null   object
 8   ocorrencia_cidade               5245 non-null   object
 9   ocorrencia_uf                   5245 non-null   object
 10  ocorrencia_pais                 5245 non-null   object
 11  ocorrencia_aerodromo            5245 non-null   object
 12  ocorrencia_dia                  5245 non-null   

In [42]:
bd_recomendacao = pd.read_csv('cenipa/recomendacao.csv',sep=';',decimal='.',encoding='iso-8859-1')
bd_recomendacao.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8241 entries, 0 to 8240
Data columns (total 9 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   codigo_ocorrencia       8226 non-null   float64
 1   rec_numero              8241 non-null   object 
 2   rec_dia_assinatura      8232 non-null   object 
 3   rec_dia_encaminhamento  2636 non-null   object 
 4   rec_dia_feedback        5499 non-null   object 
 5   rec_status              8241 non-null   object 
 6   rec_dest_sigla          8241 non-null   object 
 7   rec_dest_nome           8241 non-null   object 
 8   rec_conteudo            8240 non-null   object 
dtypes: float64(1), object(8)
memory usage: 579.6+ KB


# Dataset das Eleições Presidenciais dos Estados Unidos 2020
Fontes dos dados:
* https://www.kaggle.com/daithibhard/us-electoral-college-votes-per-state-17882020
* https://www.kaggle.com/unanimad/us-election-2020

Explicação sobre o funcionamento do processo eleitoral dos EUA:
* https://www.usa.gov/election

Sugestões de análises:
* https://www.nbcnews.com/politics/2020-elections/president-results
* https://www.kaggle.com/amitkumarmanjhi/us-election-2020-result-analysis

In [37]:
# Download do dataset
urllib.request.urlretrieve('https://drive.google.com/uc?export=download&id=1I4Hvc3wEsYuRNkinkAyY7LqcpVOLF9-O','us_elections.tar.gz')
!tar -zxvf us_elections.tar.gz
!rm us_elections.tar.gz

us_elections/
us_elections/Electoral_College.csv
us_elections/fontes.txt
us_elections/governors_county.csv
us_elections/governors_county_candidate.csv
us_elections/governors_state.csv
us_elections/house_county.csv
us_elections/house_county_candidate.csv
us_elections/house_state.csv
us_elections/president_county.csv
us_elections/president_county_candidate.csv
us_elections/president_state.csv
us_elections/senate_county.csv
us_elections/senate_county_candidate.csv
us_elections/senate_state.csv


In [70]:
# Nos EUA, cada Estado possui um 'Peso' na votação representado pela quantidade de 'Ellectors' do colégio eleitoral
db_electoral = pd.read_csv('us_elections/Electoral_College.csv')
# Define a representatividade de cada Estado em percentual
db_electoral['Pct'] = (100* db_electoral.Votes / db_electoral.groupby('Year').Votes.transform(sum))
# O nosso interesse é nos valores de 2020
db_electoral_2020 = db_electoral[db_electoral.Year.eq(2020)]
db_electoral_2020.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 51 entries, 58 to 3008
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Year    51 non-null     int64  
 1   State   51 non-null     object 
 2   Votes   51 non-null     float64
 3   Pct     51 non-null     float64
dtypes: float64(2), int64(1), object(1)
memory usage: 2.0+ KB


In [77]:
print('Estados com maior representatividade em 2020')
db_electoral_2020.sort_values('Votes', ascending=False).head(7)

Estados com maior representatividade em 2020


Unnamed: 0,Year,State,Votes,Pct
294,2020,California,55.0,10.223048
2595,2020,Texas,38.0,7.063197
589,2020,Florida,29.0,5.390335
1946,2020,New York,29.0,5.390335
825,2020,Illinois,20.0,3.717472
2300,2020,Pennsylvania,20.0,3.717472
2123,2020,Ohio,18.0,3.345725
