# Projeto #1 - Análise Exploratória de Dados

Antes de começar, leia as [Instruções](https://github.com/thvmm/pos-ds-ia/tree/master/projeto_1#instru%C3%A7%C3%B5es) e os [Critérios de Avaliação](https://github.com/thvmm/pos-ds-ia/tree/master/projeto_1#crit%C3%A9rios-de-avalia%C3%A7%C3%A3o)


### 1) **(5%)** Qual a base escolhida e qual seu interesse nela?

*Indique o link da base no Kaggle e explique em um parágrafo curto por que essa base é interessante para você.*

https://www.kaggle.com/jboysen/injured-workers

Escolhi esta base de dados porque contém dados de acidentes do trabalho, área em que tenho familiaridade pois poussuo uma empresa de presetação de serviços (www.erplan.com.br) que tem como principal produto um software de gestão de Saúde, Segurança do Trabalho, Meio Ambiente e Qualidade.

Apesar dos dados desta base refletirem uma realidade distante da brasileira, quero investigar justamente as características da base de dados, que conta com um volume razoável de informações brutas (26 colunas x 22.000 linhas), com acidentes graves de trabalho - amputação, fraturas, queimaduras etc.) entre 1/1/2015 e 28/2/2017 em 4.643 cidades dos Estados Unidos nos 54 estados dos Estados Unidos.

In [31]:
# Bibliotecas
import matplotlib.pyplot as plt # visualização de dados
import numpy as np # linear algebra
import pandas as pd # data processing



In [32]:
df = pd.read_csv("database/severeinjury.csv", 
     engine='python')


df.head(5)

Unnamed: 0,ID,UPA,EventDate,Employer,Address1,Address2,City,State,Zip,Latitude,...,Nature,NatureTitle,Part of Body,Part of Body Title,Event,EventTitle,Source,SourceTitle,Secondary Source,Secondary Source Title
0,2015010015,931176,1/1/2015,FCI Otisville Federal Correctional Institution,Two Mile Drive,,OTISVILLE,NEW YORK,10963.0,41.46,...,111,Fractures,513,Lower leg(s),1214,Injured by physical contact with person while ...,5721,Co-worker,5772.0,Inmate or detainee in custody
1,2015010016,930267,1/1/2015,Kalahari Manufacturing LLC,171 Progress Drive,,LAKE DELTON,WISCONSIN,53940.0,43.59,...,1522,Second degree heat (thermal) burns,519,"Leg(s), n.e.c.",317,"Ignition of vapors, gases, or liquids",7261,"Welding, cutting, and blow torches",,
2,2015010018,929823,1/1/2015,Schneider National Bulk Carrier,420 CORAOPOLIS ROAD,,CORAOPOLIS,PENNSYLVANIA,15108.0,40.49,...,10,"Traumatic injuries and disorders, unspecified",9999,Nonclassifiable,4331,Other fall to lower level less than 6 feet,8421,"Semi, tractor-trailer, tanker truck",741.0,Ladders-fixed
3,2015010019,929711,1/1/2015,PEPSI BOTTLING GROUP INC.,4541 HOUSTON AVE.,,MACON,GEORGIA,31206.0,32.77,...,1972,"Soreness, pain, hurt-nonspecified injury",510,"Leg(s), unspecified",640,Caught in or compressed by equipment or object...,8623,Pallet jack-powered,8420.0,"Truck-motorized freight hauling and utility, u..."
4,2015010020,929642,1/1/2015,North American Pipe Corporation,210 South Arch Street,,JANESVILLE,WISCONSIN,53545.0,42.67,...,111,Fractures,4429,"Finger(s), fingernail(s), n.e.c.",6411,Caught in running equipment or machinery durin...,350,"Metal, woodworking, and special material machi...",,


### 2) **(5%)** Descrição básica do conjunto de dados escolhido pelo aluno (1 parágrafo).
- Identificação da variável a serem trabalhadas
- Classificação das variáveis como: contínua ou discreta.


In [33]:
df.columns

Index(['ID', 'UPA', 'EventDate', 'Employer', 'Address1', 'Address2', 'City',
       'State', 'Zip', 'Latitude', 'Longitude', 'Primary NAICS',
       'Hospitalized', 'Amputation', 'Inspection', 'Final Narrative', 'Nature',
       'NatureTitle', 'Part of Body', 'Part of Body Title', 'Event',
       'EventTitle', 'Source', 'SourceTitle', 'Secondary Source',
       'Secondary Source Title'],
      dtype='object')

*Descrição da base e suas variáveis*

É um banco com dados de acidentes graves de trabalho, com detalhamento da gravidade do acidente, parte do corpo atingida, natureza da lesão e também informações demográficas, especialmente cidade e estado, permitindo comparações das features de gravidade dos acidentes em relação aos estados e cidades.



### 3) **(15%)** Faça uma avaliação descritiva da sua base. Quantas linhas ela possui? Quais os tipos de dados? Quantas e quais features possuem?

Cada variável escolhida pelo aluno precisa passar por ao menos 1 pré-processamento. O pré-processamento pode ser (mas não está limitado a):
- Checagem se os valores estão dentro de um limite permitido ou razoável.
- Tratamento de valores ausentes por eliminação ou substituição.
- Conversão do tipo de dados.




In [34]:
df.shape

(21578, 26)

A base contém 21.578 linhas e 26 colunas

Colunas: 
- (-) ID: Identificador chave PK da linha, irrelevante para estatística
- (-) UPA: Valor numérico não identificado
- (+) EventDate: Data do incidente/acidente
- (-) Employer: Nome do empregado
- (-) Address1: Endereço do empregado
- (-) Address2: Continuação do endereço
- (+) City: Cidade
- (+) State: Estado
- (-) Zip: CEP
- (+) Latitude
- (+) Longitude
- (-)Primay NAICS (Numérico não identificado)
- (+) Hospitalized (Binário)
- (+) Amputation (Binário)
- (-) Inspection (Numérico) - Código
- (-) Final Narrative (Descrição)
- (+) Nature (Código da Natureza)
- (+) Nature Title
- (+) Part of Body (Código da parte do corpo)
- (+) Part of Body Title
- (+) Event (Código do evento)
- (+) Event Title
- (+) Source (Código da Fonte)
- (+) Source title
- (+) Secondary Source (Código da fonte secundária)
- (+) Secondary Source Title

Das 26 colunas, 17 serão utilizadas (+), sendo as últimas 10 são informações repetidas (código/descrição).
As colunas marcadas com (-) não serão utilizadas na análise.
Há necessidades de colunas adicionais auxiliares como quebrar EventDate em Dia, mês e ano e dia da semana.

In [35]:
# Dropando as colunas desnecessárias
df=df.drop(['ID', 'UPA', 'Employer', 'Address1', 'Address2', 'Zip','Primary NAICS','Inspection', 'Final Narrative'],axis = 1)

In [42]:
# Mostrando as colunas resultantes
df.columns

Index(['EventDate', 'City', 'State', 'Latitude', 'Longitude', 'Hospitalized',
       'Amputation', 'Nature', 'NatureTitle', 'Part of Body',
       'Part of Body Title', 'Event', 'EventTitle', 'Source', 'SourceTitle',
       'Secondary Source', 'Secondary Source Title'],
      dtype='object')

In [43]:
# Mostrando os tipos existentes
df.dtypes

EventDate                  object
City                       object
State                      object
Latitude                  float64
Longitude                 float64
Hospitalized              float64
Amputation                float64
Nature                      int64
NatureTitle                object
Part of Body                int64
Part of Body Title         object
Event                       int64
EventTitle                 object
Source                      int64
SourceTitle                object
Secondary Source          float64
Secondary Source Title     object
dtype: object

In [44]:
# Informações importantes sobre o dataframe para Insights
df.describe()



Unnamed: 0,Latitude,Longitude,Hospitalized,Amputation,Nature,Part of Body,Event,Source,Secondary Source
count,21487.0,21487.0,21578.0,21576.0,21578.0,21578.0,21578.0,21578.0,5812.0
mean,36.722735,-87.6912,0.807999,0.269837,886.975206,2282.536055,3905.397071,4811.297618,5210.936855
std,5.500293,11.132113,0.412055,0.451033,779.275403,2796.269288,2523.757451,2882.715191,3227.633387
min,-15.78,-170.71,0.0,0.0,7.0,6.0,20.0,10.0,10.0
25%,32.2,-95.4,1.0,0.0,111.0,320.0,642.0,3230.0,2214.0
50%,38.77,-87.66,1.0,0.0,1311.0,513.0,4331.0,4153.5,4418.0
75%,41.09,-80.625,1.0,1.0,1312.0,4422.0,6252.0,7124.0,8621.0
max,61.29,145.75,3.0,9.0,9999.0,9999.0,9999.0,9999.0,9999.0


### 4) **(60%)** Nos blocos seguintes construa análises que vão justificar suas conclusões.

#### 4.1) **(20%)** Análise 1 -  Distribuição dos valores para cada uma das variáveis
- Exemplo para variável contínua: se o conjunto de dados possui a variável "idade". Quantos % possui a idade entre 0 e 30 anos? 31 a 59? 60+?

- Exemplo para variável discreta: se o conjunto de dados possui a variável "gênero", quantos % do conjunto de dados é do sexo feminino, quantos % é masculino? Inclua outros gêneros se houver.


In [37]:
# Implemente sua análise aqui. Use mais blocos se achar que ficará mais organizado.

#### 4.2) **(20%)** Análise 2 - Dependência entre variáveis
O aluno deve apresentar as mesmas distribuições para cada valor da variável dependente. Exemplo: Em um conjunto de dados em que as variáveis independentes são idade e sexo, e a variável dependente é renda. O aluno pode dividir a renda em 3 "grupos", <1000 reais, entre 1000 e 10000 reais e >1000 reais. Para cada um desses grupos, é necessário apresentar a distribuição das variáveis "idade" e "sexo".


In [38]:
# Implemente sua análise aqui. Use mais blocos se achar que ficará mais organizado.

#### 4.3) **(20%)** Análise 3 - Correlação entre variáveis

O aluno deve apresentar 3 análises de correlação entre variáveis do conjunto de dados trabalhado. Exemplo: Em um conjunto de dados com as informações de temperatura e ocorrência de incêndios, eu gostaria de saber a incidência de correlação entre as duas variáveis.



In [39]:
# Primeiro par de variáveis: Implemente sua análise aqui. Use mais blocos se achar que ficará mais organizado.

In [40]:
# Segundo par de variáveis: Implemente sua análise aqui. Use mais blocos se achar que ficará mais organizado.

In [41]:
# Terceiro par de variáveis: Implemente sua análise aqui. Use mais blocos se achar que ficará mais organizado.

### 5) Conclusões **15%**

*O que é possível concluir com os dados que você analisou? Se fosse fazer uma apresentação, o que levaria como os maiores destaques e por que?*