### Contextualizando algumas técnicas, melhores práticas e etapas de uma análise de dados

### Entendimento do Negócio e/ou Problema a ser resolvido

Análises no ambiente corporativo tem uma forte influência por demandas e necessidades de negócio, no qual os profissionais de dados precisam explorar e navegar sobre os dados para traduzir conhecimentos, insights e dimensões que ajudem na tomada de decisão, maturidade organizacional e direcionamento das priorizações.

### Dados Estruturados

Os dados estruturados são aqueles que possuem estruturas bem definidas, não flexiveis, no qual os dados devem ser armazenados ou detalhados. Essa estrutura é pré definida com o foco em descrever e definir um assunto de negócio, entidade ou objeto que formem a base informacional de uma área, projeto ou mesmo á nivel organizacional

In [1]:
#IMPORTAÇÕES DE BIBLIOTECAS

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from datetime import datetime
from datetime import timedelta 

pd.options.display.max_columns = None
pd.set_option('display.min_rows',100)

In [2]:
diretorio = "C:\\Users\\Admin\\OneDrive\\DATASETS\\"

## Carregando arquivo CSV para um Dataframe Pandas

In [3]:
#Cargas de databases 
df_nba = pd.read_csv(diretorio + '\\nba.csv', delimiter=",", encoding="utf-8")

### Explorando as propriedades do Dataframe

In [4]:
df_nba.columns

Index(['Name', 'Team', 'Number', 'Position', 'Age', 'Height', 'Weight',
       'College', 'Salary'],
      dtype='object')

In [5]:
df_nba.shape

(458, 9)

In [6]:
df_nba.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 458 entries, 0 to 457
Data columns (total 9 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Name      457 non-null    object 
 1   Team      457 non-null    object 
 2   Number    457 non-null    float64
 3   Position  457 non-null    object 
 4   Age       457 non-null    float64
 5   Height    457 non-null    object 
 6   Weight    457 non-null    float64
 7   College   373 non-null    object 
 8   Salary    446 non-null    float64
dtypes: float64(4), object(5)
memory usage: 32.3+ KB


In [7]:
df_nba.corr()

Unnamed: 0,Number,Age,Weight,Salary
Number,1.0,0.028724,0.206921,-0.112386
Age,0.028724,1.0,0.087183,0.213459
Weight,0.206921,0.087183,1.0,0.138321
Salary,-0.112386,0.213459,0.138321,1.0


### Qualidade e Sanitização de Dados

In [12]:
#Limpando coluna de Nomes
df_nba.Name.values

array(['Avery Bradley', 'Jae Crowder', 'John Holland', 'R.J. Hunter',
       'Jonas Jerebko', 'Amir Johnson', 'Jordan Mickey', 'Kelly Olynyk',
       'Terry Rozier', 'Marcus Smart', 'Jared Sullinger', 'Isaiah Thomas',
       'Evan Turner', 'James Young', 'Tyler Zeller', 'Bojan Bogdanovic',
       'Markel Brown', 'Wayne Ellington', 'Rondae Hollis-Jefferson',
       'Jarrett Jack', 'Sergey Karasev    ', 'Sean Kilpatrick',
       'Shane Larkin', 'Brook Lopez', 'Chris McCullough', 'Willie Reed',
       'Thomas Robinson', 'Henry Sims', 'Donald Sloan', 'Thaddeus Young',
       'Arron Afflalo', 'Lou Amundson', 'Thanasis Antetokounmpo',
       'Carmelo Anthony', 'Jose Calderon', 'Cleanthony Early',
       'Langston Galloway', 'Jerian Grant', 'Robin Lopez', "Kyle O'Quinn",
       'Kristaps Porzingis', 'Kevin Seraphin', 'Lance Thomas',
       'Sasha Vujacic', 'Derrick Williams', 'Tony Wroten', 'Elton Brand',
       'Isaiah Canaan', 'Robert Covington', 'Joel Embiid', 'Jerami Grant',
       'Richa

In [9]:
#Removendo espaços em branco da coluna
df_nba["Name"] = df_nba["Name"].str.strip()

In [11]:
#Removendo os caracteres incomuns da coluna
df_nba["Name"] = df_nba["Name"].str.replace('###','')

In [None]:
#Padronizando a coluna Height

In [15]:
df_nba["Height"].unique()

array(['6-2', '6-6', '6-5', '6-10', '6-9', '6-8', '7-0', '6-4', '5-9',
       '6-7', '6-3', '5-11', '6-11', '7-3', '6-0', '7-2', '6-1', '7-1',
       nan], dtype=object)

In [14]:
df_nba["Height"] = df_nba["Height"].str.replace('|','-')

In [None]:
#Aplicando uma Taxonomia mais amigavel e no padrão definido com o Cliente

In [None]:
df_nba.columns

In [16]:
df_nba.rename({
    'Name': 'NOME', 
    'Team': 'TIME',
    'Number': 'NUMERO',
    'Position': 'POSICAO',
    'Age': 'IDADE',
    'Height': 'ALTURA',
    'Weight': 'PESO',
    'College': 'COLEGIO',
    'Salary': 'SALARIO'
}, axis=1, inplace=True)

In [17]:
df_nba.columns

Index(['NOME', 'TIME', 'NUMERO', 'POSICAO', 'IDADE', 'ALTURA', 'PESO',
       'COLEGIO', 'SALARIO'],
      dtype='object')

In [18]:
#Ajustando Nulos nas colunas COLEGIO e SALARIO 
df_nba["COLEGIO"] = df_nba["COLEGIO"].fillna("N/A")
df_nba["SALARIO"] = df_nba["SALARIO"].fillna(0)

### Validando os valores carregados e granularidade dos dados

In [19]:
df_nba.head(20)

Unnamed: 0,NOME,TIME,NUMERO,POSICAO,IDADE,ALTURA,PESO,COLEGIO,SALARIO
0,Avery Bradley,Boston Celtics,0.0,PG,25.0,6-2,180.0,Texas,7730337.0
1,Jae Crowder,Boston Celtics,99.0,SF,25.0,6-6,235.0,Marquette,6796117.0
2,John Holland,Boston Celtics,30.0,SG,27.0,6-5,205.0,Boston University,0.0
3,R.J. Hunter,Boston Celtics,28.0,SG,22.0,6-5,185.0,Georgia State,1148640.0
4,Jonas Jerebko,Boston Celtics,8.0,PF,29.0,6-10,231.0,,5000000.0
5,Amir Johnson,Boston Celtics,90.0,PF,29.0,6-9,240.0,,12000000.0
6,Jordan Mickey,Boston Celtics,55.0,PF,21.0,6-8,235.0,LSU,1170960.0
7,Kelly Olynyk,Boston Celtics,41.0,C,25.0,7-0,238.0,Gonzaga,2165160.0
8,Terry Rozier,Boston Celtics,12.0,PG,22.0,6-2,190.0,Louisville,1824360.0
9,Marcus Smart,Boston Celtics,36.0,PG,22.0,6-4,220.0,Oklahoma State,3431040.0


### Agregações de Dados

In [20]:
df_nba.groupby(["TIME"]).TIME.agg('count').to_frame('QTD_JOGADORES_TIME').reset_index()

Unnamed: 0,TIME,QTD_JOGADORES_TIME
0,Atlanta Hawks,15
1,Boston Celtics,15
2,Brooklyn Nets,15
3,Charlotte Hornets,15
4,Chicago Bulls,15
5,Cleveland Cavaliers,15
6,Dallas Mavericks,15
7,Denver Nuggets,15
8,Detroit Pistons,15
9,Golden State Warriors,15


In [21]:
df_nba.groupby(["COLEGIO"]).TIME.agg(lambda x: list(set(x))).reset_index()

Unnamed: 0,COLEGIO,TIME
0,Alabama,"[Cleveland Cavaliers, New Orleans Pelicans, Me..."
1,Arizona,"[Philadelphia 76ers, Golden State Warriors, Ph..."
2,Arizona State,"[Los Angeles Clippers, Houston Rockets]"
3,Arkansas,"[Miami Heat, Chicago Bulls, Houston Rockets]"
4,Baylor,[Sacramento Kings]
5,Belmont,[Golden State Warriors]
6,Blinn College,[Memphis Grizzlies]
7,Boston College,"[Washington Wizards, Detroit Pistons]"
8,Boston University,[Boston Celtics]
9,Bowling Green,[Philadelphia 76ers]


In [22]:
df_nba.head()

Unnamed: 0,NOME,TIME,NUMERO,POSICAO,IDADE,ALTURA,PESO,COLEGIO,SALARIO
0,Avery Bradley,Boston Celtics,0.0,PG,25.0,6-2,180.0,Texas,7730337.0
1,Jae Crowder,Boston Celtics,99.0,SF,25.0,6-6,235.0,Marquette,6796117.0
2,John Holland,Boston Celtics,30.0,SG,27.0,6-5,205.0,Boston University,0.0
3,R.J. Hunter,Boston Celtics,28.0,SG,22.0,6-5,185.0,Georgia State,1148640.0
4,Jonas Jerebko,Boston Celtics,8.0,PF,29.0,6-10,231.0,,5000000.0


### Sumarizações de Dados

In [23]:
#Validando o valor total dos salários dos jogadores por colégio
total_salarios = df_nba.groupby(["COLEGIO"]).SALARIO.agg('sum').to_frame('TOTAL_SALARIO_COLEGIO')

In [24]:
total_salarios["TOTAL_SALARIO_COLEGIO"] = total_salarios["TOTAL_SALARIO_COLEGIO"].apply(lambda x: "${:.1f}k".format((x/1000)))

In [25]:
total_salarios.head(30)

Unnamed: 0_level_0,TOTAL_SALARIO_COLEGIO
COLEGIO,Unnamed: 1_level_1
Alabama,$4265.1k
Arizona,$43237.3k
Arizona State,$15867.9k
Arkansas,$8139.5k
Baylor,$981.3k
Belmont,$947.3k
Blinn College,$5000.0k
Boston College,$18288.0k
Boston University,$0.0k
Bowling Green,$1074.2k


In [26]:
#Validando a Média de Idade dos times
df_nba.groupby(["TIME"]).IDADE.agg('mean').to_frame('MEDIA_IDADE').astype(int)

Unnamed: 0_level_0,MEDIA_IDADE
TIME,Unnamed: 1_level_1
Atlanta Hawks,28
Boston Celtics,24
Brooklyn Nets,25
Charlotte Hornets,26
Chicago Bulls,27
Cleveland Cavaliers,29
Dallas Mavericks,29
Denver Nuggets,25
Detroit Pistons,26
Golden State Warriors,27


### Dimensionamento e Disponibilização de Dados

In [27]:
df_nba.head(10)

Unnamed: 0,NOME,TIME,NUMERO,POSICAO,IDADE,ALTURA,PESO,COLEGIO,SALARIO
0,Avery Bradley,Boston Celtics,0.0,PG,25.0,6-2,180.0,Texas,7730337.0
1,Jae Crowder,Boston Celtics,99.0,SF,25.0,6-6,235.0,Marquette,6796117.0
2,John Holland,Boston Celtics,30.0,SG,27.0,6-5,205.0,Boston University,0.0
3,R.J. Hunter,Boston Celtics,28.0,SG,22.0,6-5,185.0,Georgia State,1148640.0
4,Jonas Jerebko,Boston Celtics,8.0,PF,29.0,6-10,231.0,,5000000.0
5,Amir Johnson,Boston Celtics,90.0,PF,29.0,6-9,240.0,,12000000.0
6,Jordan Mickey,Boston Celtics,55.0,PF,21.0,6-8,235.0,LSU,1170960.0
7,Kelly Olynyk,Boston Celtics,41.0,C,25.0,7-0,238.0,Gonzaga,2165160.0
8,Terry Rozier,Boston Celtics,12.0,PG,22.0,6-2,190.0,Louisville,1824360.0
9,Marcus Smart,Boston Celtics,36.0,PG,22.0,6-4,220.0,Oklahoma State,3431040.0


In [28]:
def my_agg(x):
    columns = {
        'TIME': x['TIME'].values,
        'IDADE_MEDIA': x['IDADE'].mean(),
        'ALTURA_MAXIMA': x['ALTURA'].max(),
        'PESO_MINIMO': x['PESO'].min(),
        'SOMA_FOLHA': x['SALARIO'].sum()
        }

    return pd.Series(columns, index=[
           'TIME',
           'IDADE_MEDIA',
           'ALTURA_MAXIMA',
           'PESO_MINIMO',
           'SOMA_FOLHA'
    ])


In [29]:
df_nba.groupby(['COLEGIO','TIME'], as_index = False).apply(my_agg)

Unnamed: 0_level_0,Unnamed: 1_level_0,TIME,IDADE_MEDIA,ALTURA_MAXIMA,PESO_MINIMO,SOMA_FOLHA
COLEGIO,TIME,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Alabama,Cleveland Cavaliers,[Cleveland Cavaliers],33.0,6-1,198.0,2100000.0
Alabama,Memphis Grizzlies,[Memphis Grizzlies],25.0,6-9,227.0,845059.0
Alabama,New Orleans Pelicans,[New Orleans Pelicans],29.0,6-6,225.0,1320000.0
Arizona,Brooklyn Nets,[Brooklyn Nets],21.0,6-7,220.0,1335480.0
Arizona,Cleveland Cavaliers,"[Cleveland Cavaliers, Cleveland Cavaliers]",34.0,6-7,233.0,9140305.0
Arizona,Detroit Pistons,[Detroit Pistons],20.0,6-7,245.0,2841960.0
Arizona,Golden State Warriors,[Golden State Warriors],32.0,6-6,215.0,11710456.0
Arizona,Houston Rockets,[Houston Rockets],38.0,6-2,185.0,947276.0
Arizona,Indiana Pacers,"[Indiana Pacers, Indiana Pacers]",26.5,6-7,225.0,5358880.0
Arizona,Milwaukee Bucks,[Milwaukee Bucks],27.0,6-3,200.0,3000000.0


In [30]:
dimensao_jogadores_colegio = df_nba.groupby(['COLEGIO','TIME']).apply(my_agg)

### Consumo e Visualização de Dados

In [31]:
import pandas as pd
import plotly.offline as py
import plotly.graph_objs as go
py.init_notebook_mode(connected=True)

In [32]:
trace = go.Scatter(x = df_nba['TIME'],
                   y = df_nba['SALARIO'],
                   mode = 'markers')
data = [trace]
py.iplot(data)

In [33]:
# Criando gráfico
trace = go.Scatter(x = df_nba['NOME'],
                   y = df_nba['SALARIO'],
                   mode = 'markers')
# Armazenando gráfico em uma lista
data = [trace]
# Criando Layout
layout = go.Layout(title='Salários dos Jogadores',
                   yaxis={'title':'Salário do Jogador'},
                   xaxis={'title': 'Nome do Jogador'})
# Criando figura que será exibida
fig = go.Figure(data=data, layout=layout)
# Exibindo figura/gráfico
py.iplot(fig)

In [34]:
trace1 = go.Bar(x = dimensao_jogadores_colegio['IDADE_MEDIA'],
                y = dimensao_jogadores_colegio['SOMA_FOLHA'])

data = [trace1]
py.iplot(data)