## 2 - Manipulação de dados em Python

In [2]:
import sqlalchemy as sa

usuario_bd = '' #  ocultado por questoes de segurança
senha_bd = '' #  ocultado por questoes de segurança
host_bd = '' #  ocultado por questoes de segurança
database_bd = '' # ocultado por questoes de segurança

conn = sa.create_engine(f"mysql+mysqldb://{usuario_bd}:{senha_bd}@{host_bd}/{database_bd}")


In [3]:
import pandas as pd

query = "select * from raw_data"

df = pd.read_sql(query, conn)
df.head()

Unnamed: 0,datahora_acesso,clientes_id,modalidade,rake
0,2021-03-15T17:00:00,9467,Torneio,1.0
1,2023-04-11T07:57:51,4683,Cash Game,74.05
2,2022-01-19T11:00:00,2651,Torneio,6.0
3,2023-03-12T13:54:40,5300,Cash Game,10.1
4,2022-06-07T15:52:24,3711,Cash Game,7.65


In [4]:
df["datahora_acesso"].agg(['min','max'])

min    2020-06-04T15:01:00
max    2023-05-10T23:44:11
Name: datahora_acesso, dtype: object

## DataFrame OK - Inicio da atividade

- mes: o mês em que os jogadores realizaram a ação
- rake: a soma total do rake no mês
- jogadores: a quantidade distinta de jogadores que jogaram cash game ou torneio
- rake_cash_game: a soma do rake da modalidade cash game gerado no mês
- rake_torneio: a soma do rake da modalidade torneio gerado no mês
- jogadores_cash_game: a quantidade distinta de jogadores que jogaram cash game no mês
- jogadores_torneio: a quantidade distinta de jogadores que jogaram torneio no mês

In [5]:
# pandas nao estava entendo a data, converti para datetime
df['datahora_acesso'] = df['datahora_acesso'].astype('datetime64')

In [6]:
# MES
por_mes = pd.DataFrame(df.groupby(df['datahora_acesso'].dt.month)["clientes_id"].count())
por_mes

Unnamed: 0_level_0,clientes_id
datahora_acesso,Unnamed: 1_level_1
1,9817
2,9106
3,11411
4,11341
5,7308
6,6261
7,6745
8,6787
9,6976
10,7566


In [7]:
# rake: a soma total do rake no mês
rake_por_mes = df.groupby(df['datahora_acesso'].dt.month)["rake"].sum()
rake_por_mes

datahora_acesso
1      80206.99
2      80250.82
3     105857.89
4      79234.07
5      51099.76
6      62403.07
7      51951.53
8      57795.53
9      51495.95
10     50468.67
11     57172.11
12    101031.63
Name: rake, dtype: float64

In [8]:
jogadores = df.groupby('modalidade')["clientes_id"].count()
jogadores

modalidade
Cash Game    49455
Torneio      50545
Name: clientes_id, dtype: int64

In [9]:
# rake_cash_game: a soma do rake da modalidade cash game gerado no mês
rake_cash_game = df.query("modalidade == 'Cash Game'").groupby(df['datahora_acesso'].dt.month)["rake"].sum()
rake_cash_game

datahora_acesso
1     58799.98
2     61098.01
3     83902.45
4     56133.85
5     38415.07
6     47005.45
7     36311.26
8     43970.05
9     38037.68
10    35691.52
11    41457.10
12    85693.75
Name: rake, dtype: float64

In [10]:
# rake_torneio: a soma do rake da modalidade torneio gerado no mês
rake_torneio = df.query("modalidade == 'Torneio'").groupby(df['datahora_acesso'].dt.month)["rake"].sum()
rake_torneio

datahora_acesso
1     21407.01
2     19152.81
3     21955.44
4     23100.22
5     12684.69
6     15397.62
7     15640.27
8     13825.48
9     13458.27
10    14777.15
11    15715.01
12    15337.88
Name: rake, dtype: float64

In [11]:
# jogadores_cash_game: a quantidade distinta de jogadores que jogaram cash game no mês
jogadores_cash_game = df.query("modalidade == 'Cash Game'").groupby(df['datahora_acesso'].dt.month)["clientes_id"].count()
jogadores_cash_game

datahora_acesso
1     4833
2     4493
3     5472
4     5277
5     3704
6     3221
7     3482
8     3577
9     3353
10    3622
11    3843
12    4578
Name: clientes_id, dtype: int64

In [12]:
# jogadores_torneio: a quantidade distinta de jogadores que jogaram torneio no mês
jogadores_torneio = df.query("modalidade == 'Torneio'").groupby(df['datahora_acesso'].dt.month)["clientes_id"].count()
jogadores_torneio

datahora_acesso
1     4984
2     4613
3     5939
4     6064
5     3604
6     3040
7     3263
8     3210
9     3623
10    3944
11    4068
12    4193
Name: clientes_id, dtype: int64

In [13]:
# jogadores: a quantidade distinta de jogadores que jogaram cash game ou torneio
jogadores = df.groupby(
    ['modalidade']) \
.aggregate({"clientes_id":'count'})

jogadores

Unnamed: 0_level_0,clientes_id
modalidade,Unnamed: 1_level_1
Cash Game,49455
Torneio,50545


In [14]:
# Jogadores / rake_cash_game / rake_torneio
consolidado = df.groupby(
    [df['datahora_acesso'].dt.month, 
     'modalidade']) \
.aggregate({
         "rake":"sum", 
         "clientes_id":'count'}).reset_index()

consolidado


Unnamed: 0,datahora_acesso,modalidade,rake,clientes_id
0,1,Cash Game,58799.98,4833
1,1,Torneio,21407.01,4984
2,2,Cash Game,61098.01,4493
3,2,Torneio,19152.81,4613
4,3,Cash Game,83902.45,5472
5,3,Torneio,21955.44,5939
6,4,Cash Game,56133.85,5277
7,4,Torneio,23100.22,6064
8,5,Cash Game,38415.07,3704
9,5,Torneio,12684.69,3604


In [15]:
def df_to_mysql(dataframe, tabela, usuario_bd, senha_bd, database_bd):
    '''
    Grava as informacoes do DataFrame em uma tabela do MySQL
    
    Args:
    database: Dataframe do Pandas para gravar na tabela
    tabela: Nome da tabela a ser criada para gravar os dados do dataframe
    usuario_bd: usuario do MySQL
    senha_bd: Senha do MySQL
    database_bd: Database no formato "servidor/schema" Exempo: localhost/teste
    ''' 
    from sqlalchemy import create_engine
    # my_conn = create_engine("mysql+mysqldb://root:NN8eD2Ae@localhost/teste")
    my_conn = create_engine(f"mysql+mysqldb://{usuario_bd}:{senha_bd}@{database_bd}")

    dataframe.to_sql(con=my_conn, name=tabela, if_exists='append', index=False)

In [16]:
# Fazendo o join de todos os dataframes 
df_join = pd.merge(por_mes, rake_por_mes, on='datahora_acesso') \
            .merge(rake_cash_game, on='datahora_acesso') \
            .merge(rake_torneio, on='datahora_acesso') \
            .merge(jogadores_cash_game, on='datahora_acesso') \
            .merge(jogadores_torneio, on='datahora_acesso').reset_index()
df_join

Unnamed: 0,datahora_acesso,clientes_id_x,rake_x,rake_y,rake,clientes_id_y,clientes_id
0,1,9817,80206.99,58799.98,21407.01,4833,4984
1,2,9106,80250.82,61098.01,19152.81,4493,4613
2,3,11411,105857.89,83902.45,21955.44,5472,5939
3,4,11341,79234.07,56133.85,23100.22,5277,6064
4,5,7308,51099.76,38415.07,12684.69,3704,3604
5,6,6261,62403.07,47005.45,15397.62,3221,3040
6,7,6745,51951.53,36311.26,15640.27,3482,3263
7,8,6787,57795.53,43970.05,13825.48,3577,3210
8,9,6976,51495.95,38037.68,13458.27,3353,3623
9,10,7566,50468.67,35691.52,14777.15,3622,3944


In [17]:
# Renomeando as colunas 
df_join.rename(columns={
    'datahora_acesso': 'mes',
    'clientes_id_x':'cliente_mes',
    'rake_x':'rake_por_mes',
    'rake_y':'rake_cash_game',	
    'rake':'rake_torneio',
    'clientes_id_y':'jogadores_cash_game',
    'clientes_id':'jogadores_torneio' 
}, inplace=True)

print(df_join.columns) 

Index(['mes', 'cliente_mes', 'rake_por_mes', 'rake_cash_game', 'rake_torneio',
       'jogadores_cash_game', 'jogadores_torneio'],
      dtype='object')


In [18]:
# gravando DataFrame para o MYSQL 
df_to_mysql(df_join, 'manipulacao', 'USUARIO_MYSQL', 'SENHA_MYSQL','localhost/h2') #  ocultado por questoes de segurança