# Gerando dados aleatórios de maneira simples com numpy

In [0]:
import numpy as np
import pandas as pd

np.random.seed(423)

In [0]:
a_buscar = ['classica', 'rock', 'jazz', 'funk', 'pop', 'kpop', 'techno', 'drumnbass']
acessos = np.random.choice(a_buscar, 30000)
todos_acessos = pd.DataFrame(acessos, columns=["URI"])
todos_acessos.URI = '/playlist/' + todos_acessos.URI

In [0]:
paginas = ['/promocao_primeiro_de_abril/compra/plano_basico', '/compra/plano_basico', '/compra/plano_avancado', '/', '/musicas', '/contato']
prob = np.array([1,1,1,10,4,2])
acessos = np.random.choice(paginas, 150000, p = prob/sum(prob))
acessos = pd.DataFrame(acessos, columns=["URI"])
todos_acessos = pd.concat([acessos, todos_acessos])

In [0]:
def zera_ninguem(id):
  if id<=100:
    return None
  return id-100

todos_acessos['Usuario logado'] = (np.random.rand(len(todos_acessos)) * (len(todos_acessos) / 10)).round().astype(int)
todos_acessos['Usuario logado'] = todos_acessos['Usuario logado'].apply(zera_ninguem)

In [0]:
status = [200, 500]
todos_acessos['Status de resposta'] = np.random.choice(status, p = [0.97, 0.03])

In [0]:
todos_acessos = todos_acessos.sample(frac=1)

In [7]:
todos_acessos.head()

Unnamed: 0,URI,Usuario logado,Status de resposta
28969,/,16629.0,200
147751,/musicas,614.0,200
50132,/contato,9420.0,200
3328,/playlist/drumnbass,7566.0,200
130243,/,6070.0,200


In [8]:
todos_acessos['URI'].value_counts()

/                                                  78920
/musicas                                           31881
/contato                                           15545
/compra/plano_avancado                              7957
/promocao_primeiro_de_abril/compra/plano_basico     7949
/compra/plano_basico                                7748
/playlist/rock                                      3896
/playlist/jazz                                      3793
/playlist/classica                                  3788
/playlist/funk                                      3777
/playlist/drumnbass                                 3751
/playlist/pop                                       3722
/playlist/techno                                    3669
/playlist/kpop                                      3604
Name: URI, dtype: int64

In [0]:
todos_acessos.to_csv("todos_acessos.csv", index=False)

# Lendo os dados e trabalhando exemplos com strings

In [10]:
import pandas as pd

dados = pd.read_csv("todos_acessos.csv")
dados.head()

Unnamed: 0,URI,Usuario logado,Status de resposta
0,/,16629.0,200
1,/musicas,614.0,200
2,/contato,9420.0,200
3,/playlist/drumnbass,7566.0,200
4,/,6070.0,200


In [11]:
dados.columns

Index(['URI', 'Usuario logado', 'Status de resposta'], dtype='object')

In [12]:
dados.columns.str.lower()

Index(['uri', 'usuario logado', 'status de resposta'], dtype='object')

In [13]:
dados.columns.str.lower().str.replace(' ', '_')

Index(['uri', 'usuario_logado', 'status_de_resposta'], dtype='object')

In [14]:
dados.columns = dados.columns.str.lower().str.replace(' ', '_')
dados.head()

Unnamed: 0,uri,usuario_logado,status_de_resposta
0,/,16629.0,200
1,/musicas,614.0,200
2,/contato,9420.0,200
3,/playlist/drumnbass,7566.0,200
4,/,6070.0,200


In [15]:
dados.uri.unique()

array(['/', '/musicas', '/contato', '/playlist/drumnbass',
       '/playlist/funk', '/compra/plano_basico', '/playlist/techno',
       '/promocao_primeiro_de_abril/compra/plano_basico',
       '/compra/plano_avancado', '/playlist/pop', '/playlist/rock',
       '/playlist/jazz', '/playlist/classica', '/playlist/kpop'],
      dtype=object)

In [16]:
dados['comprando'] = dados.uri.str.startswith("/compra")
dados.query("comprando==True").head()

Unnamed: 0,uri,usuario_logado,status_de_resposta,comprando
13,/compra/plano_basico,7031.0,200,True
31,/compra/plano_avancado,2147.0,200,True
37,/compra/plano_avancado,7948.0,200,True
86,/compra/plano_avancado,11177.0,200,True
104,/compra/plano_avancado,8775.0,200,True


In [17]:
dados.comprando.value_counts()

False    164295
True      15705
Name: comprando, dtype: int64

In [18]:
dados['comprando'] = dados.uri.str.contains("/compra/")
dados.query("comprando==True").head()

Unnamed: 0,uri,usuario_logado,status_de_resposta,comprando
13,/compra/plano_basico,7031.0,200,True
24,/promocao_primeiro_de_abril/compra/plano_basico,14887.0,200,True
31,/compra/plano_avancado,2147.0,200,True
33,/promocao_primeiro_de_abril/compra/plano_basico,4871.0,200,True
37,/compra/plano_avancado,7948.0,200,True


In [19]:
dados.comprando.value_counts()

False    156346
True      23654
Name: comprando, dtype: int64