### Importando pandas

In [74]:
import pandas as pd


### Importando Database

In [75]:
from sqlalchemy import create_engine

### Criando a conexão

In [76]:
import pymysql
import urllib.parse

# Definir as credenciais
user = 'root'
password = urllib.parse.quote_plus('senai@123')
host = 'localhost'
database = 'schooltracker'

# Criar URL de conexão

connection_string = f'mysql+pymysql://{user}:{password}@{host}/{database}'

# Criar conexão com o create_engine()
engine = create_engine(connection_string)

# Escrever consulta SQL

query_alunos = "SELECT * FROM aluno"

# Criar DataFrame

df_alunos = pd.read_sql(query_alunos, engine)

# Mostrar 5 primeiros
df_alunos.head()

Unnamed: 0,id,ra,nome,tempo_de_estudo,renda_media_familia
0,114,34548,,,
1,115,34549,,,
2,116,34547,,,
3,117,34546,,,
4,118,34550,,,


#### Quais a bibliotecas um cientista de dados utiliza?
- Pandas;
- NumPy;
- Fundamentos de IA (Scikit-learn)

#### Material didático
- Pandas e NumPy (Notebook)
- Scikit-Learn (Apostila do SENAI)

##### Pandas: ciência de dados
##### Scikit-Learn: elaboração de modelos de IA
##### NumPy: Matemática


05/08/2024

- Carregar dados (ok)

- Salvar um dataframe

In [77]:
csv_file = 'alunos.csv'
df_alunos.to_csv(csv_file, index=False) # Precisa desses dois paramêtros

# Exercício - Salve o DataFrame no formato JSON

In [78]:
json_file = 'alunos.json'
df_alunos.to_json(json_file, index=False)

In [79]:
excel_file = 'planilha_alunos.xlsx'
df_alunos.to_excel(excel_file, index=False)

In [80]:
df_alunos.columns

Index(['id', 'ra', 'nome', 'tempo_de_estudo', 'renda_media_familia'], dtype='object')

In [81]:
df_tempo_renda = df_alunos[['tempo_de_estudo', 'renda_media_familia']]
df_tempo_renda

Unnamed: 0,tempo_de_estudo,renda_media_familia
0,,
1,,
2,,
3,,
4,,
...,...,...
101,495.0,1300000.0
102,505.0,1320000.0
103,515.0,1340000.0
104,525.0,1360000.0


# Revisando funções básicas

## 06/08/2024
- Exercício 01 - Retorne o dataframe da última aula com as duas primeiras linhas como amostras.

In [82]:
df_tempo_renda.head(2)
# df_tempo_renda[:2]

Unnamed: 0,tempo_de_estudo,renda_media_familia
0,,
1,,


- Exercício 02 - Retorne o dataframe da última aula com as duas últimas linhas como amostras.

In [83]:
df_tempo_renda.tail(2)


Unnamed: 0,tempo_de_estudo,renda_media_familia
104,525.0,1360000.0
105,535.0,1380000.0


- Exercício 03 - Retorne uma tupla com o número de linhas e colunas.

In [84]:
df_tempo_renda.shape # Retorna a tupla

(106, 2)

- Exercício 04 - Retorne as informações gerais do dataframe.

In [85]:
df_tempo_renda.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 106 entries, 0 to 105
Data columns (total 2 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   tempo_de_estudo      52 non-null     float64
 1   renda_media_familia  52 non-null     float64
dtypes: float64(2)
memory usage: 1.8 KB


In [86]:
qtd = len(df_tempo_renda)
if qtd <= 106:
    print(f'Quantidade: {qtd} dentro do ideal')

Quantidade: 106 dentro do ideal


- Exercício 05 - Retorne as colunas.

In [87]:
df_tempo_renda.columns

Index(['tempo_de_estudo', 'renda_media_familia'], dtype='object')

- Exercício 06 - Retorne as informações apenas da coluna renda familiar.

In [88]:
df_tempo_renda['renda_media_familia'].info()

<class 'pandas.core.series.Series'>
RangeIndex: 106 entries, 0 to 105
Series name: renda_media_familia
Non-Null Count  Dtype  
--------------  -----  
52 non-null     float64
dtypes: float64(1)
memory usage: 980.0 bytes


- Exercício 07 - Mostre os tipos com dtypes

In [89]:
df_alunos.dtypes

id                       int64
ra                      object
nome                    object
tempo_de_estudo        float64
renda_media_familia    float64
dtype: object

- Estatística

In [90]:
df_alunos.describe() # Faz um resumo, contagem, média, minimo, etc.

Unnamed: 0,id,tempo_de_estudo,renda_media_familia
count,106.0,52.0,52.0
mean,166.5,285.596154,862153.8
std,30.743563,144.807683,326268.9
min,114.0,10.0,2000.0
25%,140.25,153.75,615000.0
50%,166.5,280.0,870000.0
75%,192.75,407.5,1125000.0
max,219.0,535.0,1380000.0


- Exercício 08 - Crie u dataframe da tabela diário de bordo e mostre os valores.

In [100]:
query_diario = "SELECT * FROM diariobordo"
query_avaliacao = "SELECT * FROM avaliacao"

df_diario = pd.read_sql(query_diario, engine)
df_avaliacao = pd.read_sql(query_avaliacao, engine)

In [101]:
df_diario.head() # Lê os 5 primeiros campos da tabela

Unnamed: 0,id,texto,datahora,fk_aluno_id
0,120,"Hoje estamos aprendendo MySql, comandos como U...",2024-07-31 15:47:50,150
1,121,Hoje tivemos uma segunda aula sobre banco de d...,2024-07-31 17:45:00,167
2,122,Aula sobre dataframe É importante!,2024-08-06 15:47:50,151
3,123,Aula de revisao do pandas É importante!,2024-08-06 15:43:00,152
4,124,Aula de revisao do SQL!,2024-08-06 16:00:00,153


In [102]:
df_avaliacao.shape # Retorna uma tupla com a qtd de linhas e colunas

(5, 6)

In [103]:
df_avaliacao.columns

Index(['id', 'nota2', 'nota1', 'nota3', 'nota4', 'fk_aluno_id'], dtype='object')

In [104]:
df_avaliacao.describe()

Unnamed: 0,id,nota2,nota1,nota3,nota4,fk_aluno_id
count,5.0,5.0,5.0,5.0,5.0,5.0
mean,8.0,22.2,21.4,23.0,24.0,122.0
std,1.581139,1.788854,2.19089,2.12132,1.732051,1.581139
min,6.0,20.0,20.0,20.0,21.0,120.0
25%,7.0,22.0,20.0,22.0,24.0,121.0
50%,8.0,22.0,20.0,23.0,25.0,122.0
75%,9.0,22.0,22.0,25.0,25.0,123.0
max,10.0,25.0,25.0,25.0,25.0,124.0


In [105]:
df_avaliacao.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 6 columns):
 #   Column       Non-Null Count  Dtype
---  ------       --------------  -----
 0   id           5 non-null      int64
 1   nota2        5 non-null      int64
 2   nota1        5 non-null      int64
 3   nota3        5 non-null      int64
 4   nota4        5 non-null      int64
 5   fk_aluno_id  5 non-null      int64
dtypes: int64(6)
memory usage: 372.0 bytes


### Gerando um arquivo EXCEL

In [98]:
alunos_excel = 'planilha_avaliacao.xlsx' # cria a variavel e de um nome pra sua planilha com a extensão
df_avaliacao.to_excel(alunos_excel, index=False) # Passe 2 parametros