<a href="https://colab.research.google.com/github/gumendes/atividades-extensionistas-gumendes/blob/main/exploracao_dados.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# ========================================
# AN√ÅLISE DE DADOS - PRA√áA ZUMBI DOS PALMARES
# Jupyter Notebook Version
# ========================================

# %% [markdown]
# # üèÉ‚Äç‚ôÄÔ∏è An√°lise de Atividades F√≠sicas - Pra√ßa Zumbi dos Palmares
#
# **Objetivo:** Analisar dados de presen√ßa de idosos nas atividades f√≠sicas
#
# **Per√≠odo:** Agosto e Setembro 2025
#
# **Setor:** Parque Am√©rica, S√£o Paulo

# %% [markdown]
# ## üì¶ 1. Importar Bibliotecas

# %%
import pandas as pd
import numpy as np
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import warnings
warnings.filterwarnings('ignore')

# Configura√ß√µes de visualiza√ß√£o
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)
pd.set_option('display.float_format', lambda x: '%.2f' % x)


# %% [markdown]
# ## üìä 2. Carregar e Preparar os Dados

# %%
# Carregar dados
df = pd.read_csv('../content/dados_pra√ßa_set-out.csv', sep=';', encoding='ISO-8859-1')

# Normalizar nomes das colunas
df.columns = df.columns.str.strip()
df = df.rename(columns={'Hor rio': 'horario', 'Nome': 'nome'})

# Corrigir nomes com caracteres especiais
df['nome'] = df['nome'].replace({
    'L¬£cia': 'L√∫cia',
    'J¬£lia': 'J√∫lia',
    'F tima': 'F√°tima'
})

# Converter tipos de dados
df['data'] = pd.to_datetime(df['data'])
df['presente'] = df['presente'].astype(bool)
df['idade'] = df['idade'].astype(int)
df['duracao_min'] = df['duracao_min'].astype(int)
df['avaliacao_aula'] = df['avaliacao_aula'].astype(int)

print(f"üìä Total de registros: {len(df)}")
print(f"üìÖ Per√≠odo: {df['data'].min().strftime('%d/%m/%Y')} a {df['data'].max().strftime('%d/%m/%Y')}")

# Visualizar primeiras linhas
df.head()

# %% [markdown]
# ## üë• 3. Informa√ß√µes Sobre as Alunas

# %%
# Criar dataframe de alunas √∫nicas
df_alunas = df[['id_aluna', 'nome', 'idade', 'sexo']].drop_duplicates().sort_values('id_aluna').reset_index(drop=True)

print(f"üë• Total de alunas cadastradas: {len(df_alunas)}")
print(f"üìä Idade m√©dia: {df_alunas['idade'].mean():.1f} anos")
print(f"üìä Idade m√≠nima: {df_alunas['idade'].min()} anos")
print(f"üìä Idade m√°xima: {df_alunas['idade'].max()} anos")

# Exibir tabela de alunas
df_alunas

# %%
# Distribui√ß√£o de idades
fig = px.histogram(df_alunas, x='idade', nbins=10,
                   title='Distribui√ß√£o de Idades das Alunas',
                   labels={'idade': 'Idade (anos)', 'count': 'Quantidade'},
                   color_discrete_sequence=['#1f77b4'])
fig.update_layout(showlegend=False, height=400)
fig.show()

# %% [markdown]
# ## üìà 4. An√°lise de Presen√ßa Geral

# %%
# Estat√≠sticas gerais
total_registros = len(df)
total_presencas = df['presente'].sum()
total_faltas = (~df['presente']).sum()
taxa_presenca_geral = (total_presencas / total_registros) * 100

print("="*60)
print("üìä ESTAT√çSTICAS GERAIS DE PRESEN√áA")
print("="*60)
print(f"Total de registros: {total_registros}")
print(f"Total de presen√ßas: {total_presencas}")
print(f"Total de faltas: {total_faltas}")
print(f"Taxa de presen√ßa: {taxa_presenca_geral:.2f}%")
print("="*60)

# %%
# Evolu√ß√£o da presen√ßa ao longo do tempo
presenca_diaria = df.groupby('data')['presente'].agg(['sum', 'count', 'mean']).reset_index()
presenca_diaria['taxa'] = presenca_diaria['mean'] * 100

fig = go.Figure()
fig.add_trace(go.Scatter(
    x=presenca_diaria['data'],
    y=presenca_diaria['taxa'],
    mode='lines+markers',
    name='Taxa de Presen√ßa',
    line=dict(color='#1f77b4', width=3),
    marker=dict(size=8)
))

fig.update_layout(
    title='Evolu√ß√£o da Taxa de Presen√ßa Di√°ria',
    xaxis_title='Data',
    yaxis_title='Taxa de Presen√ßa (%)',
    height=500,
    hovermode='x unified'
)
fig.show()

# %% [markdown]
# ## üèÉ 5. An√°lise por Tipo de Exerc√≠cio

# %%
# An√°lise por tipo de exerc√≠cio
exercicio_stats = df.groupby('tipo_exercicio').agg({
    'presente': ['sum', 'count', 'mean'],
    'duracao_min': 'mean',
    'avaliacao_aula': 'mean'
}).round(2)

exercicio_stats.columns = ['Presen√ßas', 'Total Aulas', 'Taxa Presen√ßa', 'Dura√ß√£o M√©dia (min)', 'Avalia√ß√£o M√©dia']
exercicio_stats['Taxa Presen√ßa'] = (exercicio_stats['Taxa Presen√ßa'] * 100).round(1)
exercicio_stats = exercicio_stats.sort_values('Taxa Presen√ßa', ascending=False)

print("="*60)
print("üèÉ AN√ÅLISE POR TIPO DE EXERC√çCIO")
print("="*60)
print(exercicio_stats)
print("="*60)

# %%
# Gr√°fico: Taxa de presen√ßa por tipo de exerc√≠cio
fig = px.bar(
    exercicio_stats.reset_index(),
    x='tipo_exercicio',
    y='Taxa Presen√ßa',
    title='Taxa de Presen√ßa por Tipo de Exerc√≠cio',
    labels={'tipo_exercicio': 'Tipo de Exerc√≠cio', 'Taxa Presen√ßa': 'Taxa de Presen√ßa (%)'},
    color='Taxa Presen√ßa',
    color_continuous_scale='Blues',
    text='Taxa Presen√ßa'
)
fig.update_traces(texttemplate='%{text:.1f}%', textposition='outside')
fig.update_layout(showlegend=False, height=500)
fig.show()

# %% [markdown]
# ## üå§Ô∏è 6. An√°lise por Condi√ß√£o Clim√°tica

# %%
# An√°lise por clima
clima_stats = df.groupby('clima').agg({
    'presente': ['sum', 'count', 'mean']
}).round(2)

clima_stats.columns = ['Presen√ßas', 'Total Registros', 'Taxa Presen√ßa']
clima_stats['Taxa Presen√ßa'] = (clima_stats['Taxa Presen√ßa'] * 100).round(1)
clima_stats = clima_stats.sort_values('Taxa Presen√ßa', ascending=False)

print("="*60)
print("üå§Ô∏è AN√ÅLISE POR CONDI√á√ÉO CLIM√ÅTICA")
print("="*60)
print(clima_stats)
print("="*60)

# %%
# Gr√°fico: Impacto do clima na presen√ßa
fig = px.bar(
    clima_stats.reset_index(),
    x='clima',
    y='Taxa Presen√ßa',
    title='Impacto do Clima na Taxa de Presen√ßa',
    labels={'clima': 'Condi√ß√£o Clim√°tica', 'Taxa Presen√ßa': 'Taxa de Presen√ßa (%)'},
    color='Taxa Presen√ßa',
    color_continuous_scale='RdYlBu',
    text='Taxa Presen√ßa'
)
fig.update_traces(texttemplate='%{text:.1f}%', textposition='outside')
fig.update_layout(showlegend=False, height=500)
fig.show()

# %% [markdown]
# ## üìÖ 7. An√°lise por Dia da Semana

# %%
# An√°lise por dia da semana
ordem_dias = ['Segunda-feira', 'Ter√ßa-feira', 'Quarta-feira', 'Quinta-feira', 'Sexta-feira', 'S√°bado', 'Domingo']

dia_stats = df.groupby('dia_semana').agg({
    'presente': ['sum', 'count', 'mean']
}).round(2)

dia_stats.columns = ['Presen√ßas', 'Total Registros', 'Taxa Presen√ßa']
dia_stats['Taxa Presen√ßa'] = (dia_stats['Taxa Presen√ßa'] * 100).round(1)

# Ordenar pelos dias da semana
dia_stats = dia_stats.reindex([d for d in ordem_dias if d in dia_stats.index])

print("="*60)
print("üìÖ AN√ÅLISE POR DIA DA SEMANA")
print("="*60)
print(dia_stats)
print("="*60)

# %%
# Gr√°fico: Taxa de presen√ßa por dia da semana
fig = px.line(
    dia_stats.reset_index(),
    x='dia_semana',
    y='Taxa Presen√ßa',
    title='Taxa de Presen√ßa por Dia da Semana',
    labels={'dia_semana': 'Dia da Semana', 'Taxa Presen√ßa': 'Taxa de Presen√ßa (%)'},
    markers=True
)
fig.update_traces(line_color='#1f77b4', line_width=3, marker=dict(size=12))
fig.update_layout(height=500)
fig.show()

# %% [markdown]
# ## üëë 8. Ranking das Alunas

# %%
# Calcular m√©tricas por aluna
metricas_alunas = []

for id_aluna in df['id_aluna'].unique():
    dados_aluna = df[df['id_aluna'] == id_aluna].sort_values('data')

    nome = dados_aluna['nome'].iloc[0]
    idade = dados_aluna['idade'].iloc[0]

    # M√©tricas gerais
    total_registros = len(dados_aluna)
    total_presencas = dados_aluna['presente'].sum()
    taxa_presenca = (total_presencas / total_registros) * 100

    # √öltimos 7 e 30 dias
    ultimos_7 = dados_aluna.tail(7)
    ultimos_30 = dados_aluna.tail(30)

    presenca_7d = ultimos_7['presente'].sum()
    presenca_30d = ultimos_30['presente'].sum()
    taxa_7d = (ultimos_7['presente'].mean() * 100) if len(ultimos_7) > 0 else 0
    taxa_30d = (ultimos_30['presente'].mean() * 100) if len(ultimos_30) > 0 else 0

    # Calcular sequ√™ncia atual
    sequencia = 0
    for _, row in dados_aluna.iloc[::-1].iterrows():
        if row['presente']:
            sequencia += 1
        else:
            break

    # Risco de falta
    risco = (1 - (taxa_7d/100 * 0.7 + taxa_30d/100 * 0.3)) * 100
    risco = max(0, min(100, risco))

    # Pontos (gamifica√ß√£o)
    pontos = total_presencas * 10 + sequencia * 5

    metricas_alunas.append({
        'ID': id_aluna,
        'Nome': nome,
        'Idade': idade,
        'Total Presen√ßas': int(total_presencas),
        'Total Faltas': int(total_registros - total_presencas),
        'Taxa Presen√ßa (%)': round(taxa_presenca, 1),
        'Presen√ßa 7d': int(presenca_7d),
        'Taxa 7d (%)': round(taxa_7d, 1),
        'Presen√ßa 30d': int(presenca_30d),
        'Taxa 30d (%)': round(taxa_30d, 1),
        'Sequ√™ncia Atual': sequencia,
        'Risco Falta (%)': round(risco, 1),
        'Pontos': int(pontos)
    })

df_metricas = pd.DataFrame(metricas_alunas)

# Ranking por pontos
df_ranking = df_metricas.sort_values('Pontos', ascending=False).reset_index(drop=True)
df_ranking.index = df_ranking.index + 1  # Come√ßar em 1

print("="*60)
print("üëë RANKING DAS ALUNAS (TOP 10)")
print("="*60)
print(df_ranking[['Nome', 'Pontos', 'Total Presen√ßas', 'Sequ√™ncia Atual', 'Taxa Presen√ßa (%)']].head(10))
print("="*60)

# %%
# Gr√°fico: Top 10 alunas
top10 = df_ranking.head(10)

fig = px.bar(
    top10,
    x='Pontos',
    y='Nome',
    orientation='h',
    title='Top 10 Alunas - Ranking de Pontos',
    labels={'Pontos': 'Pontos Totais', 'Nome': 'Aluna'},
    color='Pontos',
    color_continuous_scale='Viridis',
    text='Pontos'
)
fig.update_traces(textposition='outside')
fig.update_layout(height=500, yaxis={'categoryorder':'total ascending'})
fig.show()

# %% [markdown]
# ## ‚ö†Ô∏è 9. Alunas em Risco (Necessitam Aten√ß√£o)

# %%
# Alunas com risco alto (>60%) ou baixa frequ√™ncia (<50%)
df_risco = df_metricas[
    (df_metricas['Risco Falta (%)'] > 60) |
    (df_metricas['Taxa 7d (%)'] < 50)
].sort_values('Risco Falta (%)', ascending=False)

print("="*60)
print("‚ö†Ô∏è ALUNAS QUE NECESSITAM ATEN√á√ÉO")
print("="*60)
if len(df_risco) > 0:
    print(df_risco[['Nome', 'Risco Falta (%)', 'Taxa 7d (%)', 'Presen√ßa 7d', 'Sequ√™ncia Atual']])
    print(f"\nüí° Total de alunas em risco: {len(df_risco)}")
else:
    print("üéâ Nenhuma aluna em situa√ß√£o de risco!")
print("="*60)

# %%
# Gr√°fico: Distribui√ß√£o de risco
fig = px.histogram(
    df_metricas,
    x='Risco Falta (%)',
    nbins=20,
    title='Distribui√ß√£o do Risco de Falta das Alunas',
    labels={'Risco Falta (%)': 'Risco de Falta (%)', 'count': 'Quantidade de Alunas'},
    color_discrete_sequence=['#ff6b6b']
)
fig.add_vline(x=60, line_dash="dash", line_color="red", annotation_text="Risco Alto")
fig.add_vline(x=30, line_dash="dash", line_color="orange", annotation_text="Risco M√©dio")
fig.update_layout(showlegend=False, height=500)
fig.show()

# %% [markdown]
# ## üìä 10. An√°lise de Correla√ß√µes

# %%
# Preparar dados para correla√ß√£o
df_corr = df[df['presente'] == True].copy()
df_corr['presente_num'] = df['presente'].astype(int)

# Calcular m√©dias por aluna
corr_data = df.groupby('id_aluna').agg({
    'presente': 'mean',
    'idade': 'first',
    'duracao_min': 'mean',
    'avaliacao_aula': 'mean'
}).reset_index()

corr_data.columns = ['id_aluna', 'Taxa Presen√ßa', 'Idade', 'Dura√ß√£o M√©dia', 'Avalia√ß√£o M√©dia']

# Matriz de correla√ß√£o
corr_matrix = corr_data[['Taxa Presen√ßa', 'Idade', 'Dura√ß√£o M√©dia', 'Avalia√ß√£o M√©dia']].corr()

print("="*60)
print("üìä MATRIZ DE CORRELA√á√ÉO")
print("="*60)
print(corr_matrix)
print("="*60)

# %%
# Gr√°fico: Heatmap de correla√ß√£o
fig = px.imshow(
    corr_matrix,
    title='Matriz de Correla√ß√£o entre Vari√°veis',
    labels=dict(color="Correla√ß√£o"),
    x=corr_matrix.columns,
    y=corr_matrix.columns,
    color_continuous_scale='RdBu',
    aspect="auto",
    text_auto='.2f'
)
fig.update_layout(height=500)
fig.show()

# %% [markdown]
# ## üìà 11. Evolu√ß√£o Individual (Exemplo)

# %%
# Selecionar uma aluna para an√°lise detalhada (TOP 1 do ranking)
aluna_exemplo = df_ranking.iloc[0]['Nome']
id_exemplo = df_ranking.iloc[0]['ID']

dados_exemplo = df[df['id_aluna'] == id_exemplo].sort_values('data').copy()
dados_exemplo['presenca_acumulada'] = dados_exemplo['presente'].cumsum()

print(f"üìä Evolu√ß√£o de: {aluna_exemplo} ({id_exemplo})")
print(f"Total de presen√ßas: {dados_exemplo['presente'].sum()}")
print(f"Taxa de presen√ßa: {dados_exemplo['presente'].mean()*100:.1f}%")

# %%
# Gr√°fico: Evolu√ß√£o da aluna
fig = go.Figure()

fig.add_trace(go.Scatter(
    x=dados_exemplo['data'],
    y=dados_exemplo['presenca_acumulada'],
    mode='lines+markers',
    name='Presen√ßas Acumuladas',
    line=dict(color='#2ecc71', width=3),
    marker=dict(size=8)
))

fig.update_layout(
    title=f'Evolu√ß√£o de {aluna_exemplo} - Presen√ßas Acumuladas',
    xaxis_title='Data',
    yaxis_title='Presen√ßas Acumuladas',
    height=500,
    hovermode='x unified'
)
fig.show()

# %% [markdown]
# ## üíæ 12. Exportar Resultados

# %%
# Exportar m√©tricas das alunas para CSV
df_metricas.to_csv('metricas_alunas.csv', index=False, encoding='utf-8-sig')
print("‚úÖ Arquivo 'metricas_alunas.csv' exportado com sucesso!")

# Exportar ranking
df_ranking.to_csv('ranking_alunas.csv', index=False, encoding='utf-8-sig')
print("‚úÖ Arquivo 'ranking_alunas.csv' exportado com sucesso!")

# Exportar alunas em risco
if len(df_risco) > 0:
    df_risco.to_csv('alunas_em_risco.csv', index=False, encoding='utf-8-sig')
    print("‚úÖ Arquivo 'alunas_em_risco.csv' exportado com sucesso!")

# %% [markdown]
# ## üìù 13. Resumo Executivo

# %%
print("="*70)
print("üìä RESUMO EXECUTIVO - PRA√áA ZUMBI DOS PALMARES")
print("="*70)
print(f"\nüìÖ PER√çODO: {df['data'].min().strftime('%d/%m/%Y')} a {df['data'].max().strftime('%d/%m/%Y')}")
print(f"üë• ALUNAS CADASTRADAS: {len(df_alunas)}")
print(f"üìä REGISTROS TOTAIS: {len(df)}")
print(f"\n‚úÖ PRESEN√áAS: {total_presencas} ({taxa_presenca_geral:.1f}%)")
print(f"‚ùå FALTAS: {total_faltas} ({100-taxa_presenca_geral:.1f}%)")
print(f"\nüèÜ ALUNA DESTAQUE: {df_ranking.iloc[0]['Nome']} ({df_ranking.iloc[0]['Pontos']} pontos)")
print(f"‚ö†Ô∏è ALUNAS EM RISCO: {len(df_risco)}")
print(f"\nüèÉ EXERC√çCIO MAIS POPULAR: {exercicio_stats.index[0]}")
print(f"üå§Ô∏è MELHOR CLIMA: {clima_stats.index[0]}")
print(f"\nüìà IDADE M√âDIA: {df_alunas['idade'].mean():.1f} anos")
print(f"üìä DURA√á√ÉO M√âDIA DAS AULAS: {df[df['duracao_min']>0]['duracao_min'].mean():.1f} minutos")
print(f"‚≠ê AVALIA√á√ÉO M√âDIA: {df[df['avaliacao_aula']>0]['avaliacao_aula'].mean():.1f}/5")
print("="*70)



üìä Total de registros: 520
üìÖ Per√≠odo: 01/08/2025 a 29/09/2025
üë• Total de alunas cadastradas: 20
üìä Idade m√©dia: 63.0 anos
üìä Idade m√≠nima: 50 anos
üìä Idade m√°xima: 75 anos


üìä ESTAT√çSTICAS GERAIS DE PRESEN√áA
Total de registros: 520
Total de presen√ßas: 329
Total de faltas: 191
Taxa de presen√ßa: 63.27%


üèÉ AN√ÅLISE POR TIPO DE EXERC√çCIO
                Presen√ßas  Total Aulas  Taxa Presen√ßa  Dura√ß√£o M√©dia (min)  \
tipo_exercicio                                                               
Caminhada              69          100          69.00                28.20   
Gin¬†stica             105          160          66.00                23.97   
Jogo com bola          79          120          66.00                24.78   
Alongamento            76          140          54.00                20.79   

                Avalia√ß√£o M√©dia  
tipo_exercicio                   
Caminhada                  2.78  
Gin¬†stica                  2.39  
Jogo com bola              2.45  
Alongamento                2.16  


üå§Ô∏è AN√ÅLISE POR CONDI√á√ÉO CLIM√ÅTICA
            Presen√ßas  Total Registros  Taxa Presen√ßa
clima                                                
Ensolarado         29               40          72.00
Nublado           103              160          64.00
Frio              197              320          62.00


üìÖ AN√ÅLISE POR DIA DA SEMANA
               Presen√ßas  Total Registros  Taxa Presen√ßa
dia_semana                                              
Segunda-feira        119              180          66.00
Quarta-feira          92              160          57.00
Sexta-feira          118              180          66.00


üëë RANKING DAS ALUNAS (TOP 10)
           Nome  Pontos  Total Presen√ßas  Sequ√™ncia Atual  Taxa Presen√ßa (%)
1         L√∫cia     205               20                1              76.90
2        Teresa     200               17                6              65.40
3   Maria Lucia     200               18                4              69.20
4        Elaine     195               19                1              73.10
5        Sandra     190               19                0              73.10
6           Ana     180               18                0              69.20
7         Maria     175               17                1              65.40
8         Marta     175               17                1              65.40
9        Silvia     170               17                0              65.40
10        Neusa     170               17                0              65.40


‚ö†Ô∏è ALUNAS QUE NECESSITAM ATEN√á√ÉO
        Nome  Risco Falta (%)  Taxa 7d (%)  Presen√ßa 7d  Sequ√™ncia Atual
9      Ivone            63.80        28.60            2                1
13      Vera            61.50        28.60            2                1
8     F¬†tima            55.00        42.90            3                2
12      Rosa            52.70        42.90            3                1
15  Adelaide            51.50        42.90            3                0
1        Ana            49.20        42.90            3                0

üí° Total de alunas em risco: 6


üìä MATRIZ DE CORRELA√á√ÉO
                 Taxa Presen√ßa  Idade  Dura√ß√£o M√©dia  Avalia√ß√£o M√©dia
Taxa Presen√ßa             1.00  -0.11           0.80             0.91
Idade                    -0.11   1.00          -0.02            -0.02
Dura√ß√£o M√©dia             0.80  -0.02           1.00             0.72
Avalia√ß√£o M√©dia           0.91  -0.02           0.72             1.00


üìä Evolu√ß√£o de: L√∫cia (A007)
Total de presen√ßas: 20
Taxa de presen√ßa: 76.9%


‚úÖ Arquivo 'metricas_alunas.csv' exportado com sucesso!
‚úÖ Arquivo 'ranking_alunas.csv' exportado com sucesso!
‚úÖ Arquivo 'alunas_em_risco.csv' exportado com sucesso!
üìä RESUMO EXECUTIVO - PRA√áA ZUMBI DOS PALMARES

üìÖ PER√çODO: 01/08/2025 a 29/09/2025
üë• ALUNAS CADASTRADAS: 20
üìä REGISTROS TOTAIS: 520

‚úÖ PRESEN√áAS: 17 (63.3%)
‚ùå FALTAS: 191 (36.7%)

üèÜ ALUNA DESTAQUE: L√∫cia (205 pontos)
‚ö†Ô∏è ALUNAS EM RISCO: 6

üèÉ EXERC√çCIO MAIS POPULAR: Caminhada
üå§Ô∏è MELHOR CLIMA: Ensolarado

üìà IDADE M√âDIA: 63.0 anos
üìä DURA√á√ÉO M√âDIA DAS AULAS: 40.1 minutos
‚≠ê AVALIA√á√ÉO M√âDIA: 4.0/5

‚úÖ AN√ÅLISE COMPLETA! Todos os resultados foram gerados.
üíæ Arquivos CSV exportados para an√°lises posteriores.
üìä Gr√°ficos interativos gerados com Plotly.

üöÄ Pr√≥ximo passo: Desenvolver modelo preditivo de Machine Learning!
