# Aceleradev Ciencia de Dados
**Autor: Erick Amorim**

# *Manipulação de Dados*

## Importando pacotes

In [1]:
import pandas as pd
import numpy as np

***Acesando o help (descrição do pacote)***

In [2]:
help(pd)

## Listas

***Criando uma Lista***

In [3]:
lista = [200, 200, 300, 800, 200]

***Verificando o tipo de dado***

In [4]:
type( [1,2,3] )

list

***Imprimindo a Lista***

In [5]:
print(lista)

[200, 200, 300, 800, 200]


***Acessando um valor específico da Lista***

In [6]:
lista[2]

300

***Acessando varios valores da Lista***

In [7]:
lista[:3]

[200, 200, 300]

## Dicionários

***Criando um dicionário com os dados***

In [8]:
dados = {"canal_vendas":["facebook", "twitter", "instagram", "linkedin", "facebook"],
        "acessos":[100, 200, 300, 400, 500],
        "site":["site1", "site1", "site2", "site2", "site3"],
        "vendas":[1000.52, 1052.34, 2002, 5000, 300] }

***Verificando o tipo de dado***  

In [9]:
type(dados)

dict

***Imprimindo o dicionário***

In [10]:
print(dados)

{'canal_vendas': ['facebook', 'twitter', 'instagram', 'linkedin', 'facebook'], 'acessos': [100, 200, 300, 400, 500], 'site': ['site1', 'site1', 'site2', 'site2', 'site3'], 'vendas': [1000.52, 1052.34, 2002, 5000, 300]}


***Acessando as chaves do dicionário***

In [11]:
dados.keys()

dict_keys(['canal_vendas', 'acessos', 'site', 'vendas'])

***Acessando uma chave especifica do dicionário***

In [12]:
dados["site"]

['site1', 'site1', 'site2', 'site2', 'site3']

In [13]:
dados["canal_vendas"]

['facebook', 'twitter', 'instagram', 'linkedin', 'facebook']

***Acessando uma posição específica do dicionário***

In [14]:
dados["canal_vendas"][2]

'instagram'

***Acessando mais posições do dicionário***

In [15]:
dados["canal_vendas"][:2]

['facebook', 'twitter']

***Adicionando a Lista ao dicionário***

In [16]:
dados["lista"] = lista

In [17]:
dados

{'canal_vendas': ['facebook', 'twitter', 'instagram', 'linkedin', 'facebook'],
 'acessos': [100, 200, 300, 400, 500],
 'site': ['site1', 'site1', 'site2', 'site2', 'site3'],
 'vendas': [1000.52, 1052.34, 2002, 5000, 300],
 'lista': [200, 200, 300, 800, 200]}

## Data Frame

***Criando um data frame a partir de um dicionário***

In [18]:
dataframe = pd.DataFrame(dados)

In [19]:
dataframe

Unnamed: 0,canal_vendas,acessos,site,vendas,lista
0,facebook,100,site1,1000.52,200
1,twitter,200,site1,1052.34,200
2,instagram,300,site2,2002.0,300
3,linkedin,400,site2,5000.0,800
4,facebook,500,site3,300.0,200


***Verificando o Tipo de dado***

In [20]:
type(dataframe)

pandas.core.frame.DataFrame

***Imprimindo os primeiros registros***

In [21]:
dataframe.head()

Unnamed: 0,canal_vendas,acessos,site,vendas,lista
0,facebook,100,site1,1000.52,200
1,twitter,200,site1,1052.34,200
2,instagram,300,site2,2002.0,300
3,linkedin,400,site2,5000.0,800
4,facebook,500,site3,300.0,200


***Verificando a dimensão do dataframe***

In [22]:
dataframe.shape

(5, 5)

***Verificando o índice do dataframe***

In [23]:
dataframe.index

RangeIndex(start=0, stop=5, step=1)

***Verificando os tipos de dados do dataframe***

In [24]:
dataframe.dtypes

canal_vendas     object
acessos           int64
site             object
vendas          float64
lista             int64
dtype: object

***Verificando se existem valores faltantes ou ausentes no dataframe***

In [25]:
dataframe.isna()

Unnamed: 0,canal_vendas,acessos,site,vendas,lista
0,False,False,False,False,False
1,False,False,False,False,False
2,False,False,False,False,False
3,False,False,False,False,False
4,False,False,False,False,False


In [26]:
dataframe.isna().sum()

canal_vendas    0
acessos         0
site            0
vendas          0
lista           0
dtype: int64

***Mostrando os nomes das colunas***

In [27]:
dataframe.columns

Index(['canal_vendas', 'acessos', 'site', 'vendas', 'lista'], dtype='object')

***Acessando uma coluna no dataframe***

In [28]:
dataframe["canal_vendas"]

0     facebook
1      twitter
2    instagram
3     linkedin
4     facebook
Name: canal_vendas, dtype: object

***Criando ou Adicionando mais uma coluna***

In [29]:
dataframe["nova_coluna"] = [1, 2, 3, 4, 5]

In [30]:
dataframe.columns

Index(['canal_vendas', 'acessos', 'site', 'vendas', 'lista', 'nova_coluna'], dtype='object')

In [31]:
dataframe

Unnamed: 0,canal_vendas,acessos,site,vendas,lista,nova_coluna
0,facebook,100,site1,1000.52,200,1
1,twitter,200,site1,1052.34,200,2
2,instagram,300,site2,2002.0,300,3
3,linkedin,400,site2,5000.0,800,4
4,facebook,500,site3,300.0,200,5


***Removendo uma Coluna***

In [32]:
dataframe.drop(columns="nova_coluna")

Unnamed: 0,canal_vendas,acessos,site,vendas,lista
0,facebook,100,site1,1000.52,200
1,twitter,200,site1,1052.34,200
2,instagram,300,site2,2002.0,300
3,linkedin,400,site2,5000.0,800
4,facebook,500,site3,300.0,200


In [33]:
dataframe.columns

Index(['canal_vendas', 'acessos', 'site', 'vendas', 'lista', 'nova_coluna'], dtype='object')

***Removendo mais de uma coluna***

In [34]:
dataframe.drop(columns=["acessos","site","canal_vendas"])

Unnamed: 0,vendas,lista,nova_coluna
0,1000.52,200,1
1,1052.34,200,2
2,2002.0,300,3
3,5000.0,800,4
4,300.0,200,5


***Removendo uma Coluna Permanentemente***

In [35]:
dataframe.drop(columns="nova_coluna", inplace = True)

In [36]:
dataframe.columns

Index(['canal_vendas', 'acessos', 'site', 'vendas', 'lista'], dtype='object')

***Acessando valores específicos***

In [37]:
dataframe["canal_vendas"][2]

'instagram'

In [38]:
dataframe["canal_vendas"][1]

'twitter'

***Acessando dados específicos de colunas ou fatias de colunas***

In [39]:
dataframe["canal_vendas"][:2]

0    facebook
1     twitter
Name: canal_vendas, dtype: object

***Fatiando os dados usando iloc (linhas e colunas)***

In [40]:
dataframe

Unnamed: 0,canal_vendas,acessos,site,vendas,lista
0,facebook,100,site1,1000.52,200
1,twitter,200,site1,1052.34,200
2,instagram,300,site2,2002.0,300
3,linkedin,400,site2,5000.0,800
4,facebook,500,site3,300.0,200


In [41]:
dataframe.iloc[:2,1:]

Unnamed: 0,acessos,site,vendas,lista
0,100,site1,1000.52,200
1,200,site1,1052.34,200


In [42]:
dataframe.iloc[:2,2:]

Unnamed: 0,site,vendas,lista
0,site1,1000.52,200
1,site1,1052.34,200


In [43]:
dataframe.iloc[:2,:]

Unnamed: 0,canal_vendas,acessos,site,vendas,lista
0,facebook,100,site1,1000.52,200
1,twitter,200,site1,1052.34,200


In [44]:
dataframe.iloc[:2,4:]

Unnamed: 0,lista
0,200
1,200


In [45]:
dataframe.iloc[3:,4:]

Unnamed: 0,lista
3,800
4,200


***Fatiando os dados usando loc (índices)***

In [46]:
dataframe

Unnamed: 0,canal_vendas,acessos,site,vendas,lista
0,facebook,100,site1,1000.52,200
1,twitter,200,site1,1052.34,200
2,instagram,300,site2,2002.0,300
3,linkedin,400,site2,5000.0,800
4,facebook,500,site3,300.0,200


In [47]:
dataframe.loc[:3]

Unnamed: 0,canal_vendas,acessos,site,vendas,lista
0,facebook,100,site1,1000.52,200
1,twitter,200,site1,1052.34,200
2,instagram,300,site2,2002.0,300
3,linkedin,400,site2,5000.0,800


In [48]:
dataframe.loc[:2]

Unnamed: 0,canal_vendas,acessos,site,vendas,lista
0,facebook,100,site1,1000.52,200
1,twitter,200,site1,1052.34,200
2,instagram,300,site2,2002.0,300


***Selecionando colunas específicas***

In [49]:
dataframe[["canal_vendas","vendas"]]

Unnamed: 0,canal_vendas,vendas
0,facebook,1000.52
1,twitter,1052.34
2,instagram,2002.0
3,linkedin,5000.0
4,facebook,300.0


***Passando as colunas a partir de lista***

In [50]:
filtro = ["canal_vendas","vendas","acessos"]

In [51]:
dataframe[filtro]

Unnamed: 0,canal_vendas,vendas,acessos
0,facebook,1000.52,100
1,twitter,1052.34,200
2,instagram,2002.0,300
3,linkedin,5000.0,400
4,facebook,300.0,500


***Usando o método info()***

In [52]:
dataframe.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   canal_vendas  5 non-null      object 
 1   acessos       5 non-null      int64  
 2   site          5 non-null      object 
 3   vendas        5 non-null      float64
 4   lista         5 non-null      int64  
dtypes: float64(1), int64(2), object(2)
memory usage: 328.0+ bytes


***Pivotando os dados (converte colunas para as linhas )***

In [53]:
dataframe

Unnamed: 0,canal_vendas,acessos,site,vendas,lista
0,facebook,100,site1,1000.52,200
1,twitter,200,site1,1052.34,200
2,instagram,300,site2,2002.0,300
3,linkedin,400,site2,5000.0,800
4,facebook,500,site3,300.0,200


In [54]:
dataframe.pivot(index="canal_vendas", columns="site", values="acessos")

site,site1,site2,site3
canal_vendas,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
facebook,100.0,,500.0
instagram,,300.0,
linkedin,,400.0,
twitter,200.0,,


***Completando os valores faltantes usando o 'fillna'***

In [55]:
aux=dataframe.pivot(index="canal_vendas", columns="site", values="acessos")

In [56]:
aux

site,site1,site2,site3
canal_vendas,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
facebook,100.0,,500.0
instagram,,300.0,
linkedin,,400.0,
twitter,200.0,,


In [57]:
aux.fillna(0)

site,site1,site2,site3
canal_vendas,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
facebook,100.0,0.0,500.0
instagram,0.0,300.0,0.0
linkedin,0.0,400.0,0.0
twitter,200.0,0.0,0.0


In [58]:
aux.fillna(2)

site,site1,site2,site3
canal_vendas,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
facebook,100.0,2.0,500.0
instagram,2.0,300.0,2.0
linkedin,2.0,400.0,2.0
twitter,200.0,2.0,2.0


***Mudando as colunas usando o comando 'melt'***

In [59]:
dataframe

Unnamed: 0,canal_vendas,acessos,site,vendas,lista
0,facebook,100,site1,1000.52,200
1,twitter,200,site1,1052.34,200
2,instagram,300,site2,2002.0,300
3,linkedin,400,site2,5000.0,800
4,facebook,500,site3,300.0,200


In [60]:
dataframe.melt(id_vars="site", value_vars=["canal_vendas"])

Unnamed: 0,site,variable,value
0,site1,canal_vendas,facebook
1,site1,canal_vendas,twitter
2,site2,canal_vendas,instagram
3,site2,canal_vendas,linkedin
4,site3,canal_vendas,facebook


***Resetando o índice do dataframe***

In [61]:
aux

site,site1,site2,site3
canal_vendas,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
facebook,100.0,,500.0
instagram,,300.0,
linkedin,,400.0,
twitter,200.0,,


In [62]:
print(aux.columns)
aux = dataframe.reset_index()
print(aux.columns)

Index(['site1', 'site2', 'site3'], dtype='object', name='site')
Index(['index', 'canal_vendas', 'acessos', 'site', 'vendas', 'lista'], dtype='object')


***Somando as colunas do dataframe***

In [63]:
dataframe

Unnamed: 0,canal_vendas,acessos,site,vendas,lista
0,facebook,100,site1,1000.52,200
1,twitter,200,site1,1052.34,200
2,instagram,300,site2,2002.0,300
3,linkedin,400,site2,5000.0,800
4,facebook,500,site3,300.0,200


In [64]:
dataframe.sum()

canal_vendas    facebooktwitterinstagramlinkedinfacebook
acessos                                             1500
site                           site1site1site2site2site3
vendas                                           9354.86
lista                                               1700
dtype: object

***Somando as linhas do dataframe***

In [65]:
dataframe.sum(axis=1)

0    1300.52
1    1452.34
2    2602.00
3    6200.00
4    1000.00
dtype: float64

***Calculando a mediana das linhas e das colunas numericas***

In [66]:
print("Por linha", dataframe.median(axis=1))

Por linha 0    200.0
1    200.0
2    300.0
3    800.0
4    300.0
dtype: float64


In [67]:
print("Por coluna", dataframe.median())

Por coluna acessos     300.00
vendas     1052.34
lista       200.00
dtype: float64


***Calculando a media das linhas e das colunas numericas***

In [68]:
print("Por linha", dataframe.mean(axis=1))

Por linha 0     433.506667
1     484.113333
2     867.333333
3    2066.666667
4     333.333333
dtype: float64


In [69]:
print("Por coluna", dataframe.mean())

Por coluna acessos     300.000
vendas     1870.972
lista       340.000
dtype: float64


***Calculando o desvio padrão das colunas numericas***

In [70]:
dataframe.std()

acessos     158.113883
vendas     1850.931024
lista       260.768096
dtype: float64

***Comando 'describe' para calcular algumas estatísticas descritivas***

In [71]:
dataframe.describe()

Unnamed: 0,acessos,vendas,lista
count,5.0,5.0,5.0
mean,300.0,1870.972,340.0
std,158.113883,1850.931024,260.768096
min,100.0,300.0,200.0
25%,200.0,1000.52,200.0
50%,300.0,1052.34,200.0
75%,400.0,2002.0,300.0
max,500.0,5000.0,800.0


***Calculando a Moda***

In [72]:
dataframe.mode()

Unnamed: 0,canal_vendas,acessos,site,vendas,lista
0,facebook,100,site1,300.0,200.0
1,,200,site2,1000.52,
2,,300,,1052.34,
3,,400,,2002.0,
4,,500,,5000.0,


***Valor Máximo e Mínimo***

In [73]:
dataframe.max()

canal_vendas    twitter
acessos             500
site              site3
vendas             5000
lista               800
dtype: object

In [74]:
dataframe.min()

canal_vendas    facebook
acessos              100
site               site1
vendas               300
lista                200
dtype: object

***Número de observações ou valores únicos***

In [75]:
dataframe

Unnamed: 0,canal_vendas,acessos,site,vendas,lista
0,facebook,100,site1,1000.52,200
1,twitter,200,site1,1052.34,200
2,instagram,300,site2,2002.0,300
3,linkedin,400,site2,5000.0,800
4,facebook,500,site3,300.0,200


In [76]:
dataframe.nunique()

canal_vendas    4
acessos         5
site            3
vendas          5
lista           3
dtype: int64

***Contangem de valores únicos de uma coluna***

In [77]:
dataframe

Unnamed: 0,canal_vendas,acessos,site,vendas,lista
0,facebook,100,site1,1000.52,200
1,twitter,200,site1,1052.34,200
2,instagram,300,site2,2002.0,300
3,linkedin,400,site2,5000.0,800
4,facebook,500,site3,300.0,200


In [78]:
dataframe["canal_vendas"].value_counts()

facebook     2
instagram    1
linkedin     1
twitter      1
Name: canal_vendas, dtype: int64

***Observações únicas de uma coluna***

In [79]:
dataframe

Unnamed: 0,canal_vendas,acessos,site,vendas,lista
0,facebook,100,site1,1000.52,200
1,twitter,200,site1,1052.34,200
2,instagram,300,site2,2002.0,300
3,linkedin,400,site2,5000.0,800
4,facebook,500,site3,300.0,200


In [80]:
dataframe["canal_vendas"].unique()

array(['facebook', 'twitter', 'instagram', 'linkedin'], dtype=object)

***Usando o 'groupby' com valores numéricos***

In [81]:
dataframe

Unnamed: 0,canal_vendas,acessos,site,vendas,lista
0,facebook,100,site1,1000.52,200
1,twitter,200,site1,1052.34,200
2,instagram,300,site2,2002.0,300
3,linkedin,400,site2,5000.0,800
4,facebook,500,site3,300.0,200


In [82]:
dataframe.groupby("site")["acessos"].sum()

site
site1    300
site2    700
site3    500
Name: acessos, dtype: int64

In [83]:
dataframe.groupby("canal_vendas")["acessos"].first()

canal_vendas
facebook     100
instagram    300
linkedin     400
twitter      200
Name: acessos, dtype: int64

In [84]:
dataframe.groupby("canal_vendas")["acessos"].unique()

canal_vendas
facebook     [100, 500]
instagram         [300]
linkedin          [400]
twitter           [200]
Name: acessos, dtype: object

In [85]:
dataframe.groupby("canal_vendas")["acessos"].mean()

canal_vendas
facebook     300
instagram    300
linkedin     400
twitter      200
Name: acessos, dtype: int64

In [86]:
dataframe.groupby("canal_vendas")["acessos"].median()

canal_vendas
facebook     300
instagram    300
linkedin     400
twitter      200
Name: acessos, dtype: int64

***Usando o 'groupby' com valores categóricos***

In [87]:
dataframe

Unnamed: 0,canal_vendas,acessos,site,vendas,lista
0,facebook,100,site1,1000.52,200
1,twitter,200,site1,1052.34,200
2,instagram,300,site2,2002.0,300
3,linkedin,400,site2,5000.0,800
4,facebook,500,site3,300.0,200


In [88]:
dataframe.groupby("site")["canal_vendas"].unique()

site
site1      [facebook, twitter]
site2    [instagram, linkedin]
site3               [facebook]
Name: canal_vendas, dtype: object

In [89]:
dataframe.groupby("site")["canal_vendas"].first()

site
site1     facebook
site2    instagram
site3     facebook
Name: canal_vendas, dtype: object

***Usando a função 'groupby' com a função 'agg'***

In [90]:
dataframe.groupby("canal_vendas").agg({ "site":"unique", "acessos": "sum" })

Unnamed: 0_level_0,site,acessos
canal_vendas,Unnamed: 1_level_1,Unnamed: 2_level_1
facebook,"[site1, site3]",600
instagram,[site2],300
linkedin,[site2],400
twitter,[site1],200


***Calculando a correlação entre variaveis***

In [91]:
dataframe.corr()

Unnamed: 0,acessos,vendas,lista
acessos,1.0,0.217542,0.363803
vendas,0.217542,1.0,0.979211
lista,0.363803,0.979211,1.0


In [92]:
dataframe.corr(method = "spearman")

Unnamed: 0,acessos,vendas,lista
acessos,1.0,0.0,0.33541
vendas,0.0,1.0,0.894427
lista,0.33541,0.894427,1.0


***Criando variaveis categóricas por fatia de variável numérica, ou seja, cria intervalos de classes***

In [93]:
dataframe

Unnamed: 0,canal_vendas,acessos,site,vendas,lista
0,facebook,100,site1,1000.52,200
1,twitter,200,site1,1052.34,200
2,instagram,300,site2,2002.0,300
3,linkedin,400,site2,5000.0,800
4,facebook,500,site3,300.0,200


In [94]:
dataframe["categoria_vendas"] = pd.cut(dataframe["vendas"], bins = (0, 1500, 2000, 8000), 
                                      labels = ("0 a 1500", "1500 a 2000", "2000 a 8000") )

In [95]:
dataframe

Unnamed: 0,canal_vendas,acessos,site,vendas,lista,categoria_vendas
0,facebook,100,site1,1000.52,200,0 a 1500
1,twitter,200,site1,1052.34,200,0 a 1500
2,instagram,300,site2,2002.0,300,2000 a 8000
3,linkedin,400,site2,5000.0,800,2000 a 8000
4,facebook,500,site3,300.0,200,0 a 1500


***Criando variável categórica usando compressão de lista***

In [96]:
dataframe["categoria_acessos"]= ["maior_que_300" if x > 300 else "menor_que_300" for x in dataframe["acessos"]]

In [97]:
dataframe

Unnamed: 0,canal_vendas,acessos,site,vendas,lista,categoria_vendas,categoria_acessos
0,facebook,100,site1,1000.52,200,0 a 1500,menor_que_300
1,twitter,200,site1,1052.34,200,0 a 1500,menor_que_300
2,instagram,300,site2,2002.0,300,2000 a 8000,menor_que_300
3,linkedin,400,site2,5000.0,800,2000 a 8000,maior_que_300
4,facebook,500,site3,300.0,200,0 a 1500,maior_que_300


***Juntando dois data frames (criando o data frame_2)***

In [98]:
dataframe_2 = pd.DataFrame({"site":["site1","site1","site2","site2","site3"],
                           "suporte":["Carlos","Carlos", "Maria", "Maria", "Ezequiel"]})

In [99]:
dataframe_2

Unnamed: 0,site,suporte
0,site1,Carlos
1,site1,Carlos
2,site2,Maria
3,site2,Maria
4,site3,Ezequiel


In [100]:
dataframe.merge(dataframe_2, on= "site", how = "left")

Unnamed: 0,canal_vendas,acessos,site,vendas,lista,categoria_vendas,categoria_acessos,suporte
0,facebook,100,site1,1000.52,200,0 a 1500,menor_que_300,Carlos
1,facebook,100,site1,1000.52,200,0 a 1500,menor_que_300,Carlos
2,twitter,200,site1,1052.34,200,0 a 1500,menor_que_300,Carlos
3,twitter,200,site1,1052.34,200,0 a 1500,menor_que_300,Carlos
4,instagram,300,site2,2002.0,300,2000 a 8000,menor_que_300,Maria
5,instagram,300,site2,2002.0,300,2000 a 8000,menor_que_300,Maria
6,linkedin,400,site2,5000.0,800,2000 a 8000,maior_que_300,Maria
7,linkedin,400,site2,5000.0,800,2000 a 8000,maior_que_300,Maria
8,facebook,500,site3,300.0,200,0 a 1500,maior_que_300,Ezequiel


## Salvando um arquivo em formato CSV

***Salvando o dataframe como arquivo csv***

In [101]:
dataframe.to_csv("dataframe.csv", sep = ";", decimal = "," , index = False)

***Leitura dos dados no formato CSV***

In [103]:
df_carregado = pd.read_csv("dataframe.csv", sep = ";", decimal = ",")

In [104]:
df_carregado

Unnamed: 0,canal_vendas,acessos,site,vendas,lista,categoria_vendas,categoria_acessos
0,facebook,100,site1,1000.52,200,0 a 1500,menor_que_300
1,twitter,200,site1,1052.34,200,0 a 1500,menor_que_300
2,instagram,300,site2,2002.0,300,2000 a 8000,menor_que_300
3,linkedin,400,site2,5000.0,800,2000 a 8000,maior_que_300
4,facebook,500,site3,300.0,200,0 a 1500,maior_que_300
