### Importando pandas

In [1]:
import pandas as pd


### Importando Database

In [2]:
from sqlalchemy import create_engine

### Criando a conexão

In [3]:
import pymysql
import urllib.parse

# Definir as credenciais
user = 'root'
password = urllib.parse.quote_plus('senai@123')
host = 'localhost'
database = 'schooltracker'

# Criar URL de conexão

connection_string = f'mysql+pymysql://{user}:{password}@{host}/{database}'

# Criar conexão com o create_engine()
engine = create_engine(connection_string)

# Escrever consulta SQL

query_alunos = "SELECT * FROM aluno"

# Criar DataFrame

df_alunos = pd.read_sql(query_alunos, engine)

# Mostrar 5 primeiros
df_alunos.head()

Unnamed: 0,id,ra,nome,tempo_de_estudo,renda_media_familia
0,114,34548,,,
1,115,34549,,,
2,116,34547,,,
3,117,34546,,,
4,118,34550,,,


#### Quais a bibliotecas um cientista de dados utiliza?
- Pandas;
- NumPy;
- Fundamentos de IA (Scikit-learn)

#### Material didático
- Pandas e NumPy (Notebook)
- Scikit-Learn (Apostila do SENAI)

##### Pandas: ciência de dados
##### Scikit-Learn: elaboração de modelos de IA
##### NumPy: Matemática


05/08/2024

- Carregar dados (ok)

- Salvar um dataframe

In [4]:
csv_file = 'alunos.csv'
df_alunos.to_csv(csv_file, index=False) # Precisa desses dois paramêtros

# Exercício - Salve o DataFrame no formato JSON

In [5]:
json_file = 'alunos.json'
df_alunos.to_json(json_file, index=False)

In [6]:
excel_file = 'planilha_alunos.xlsx'
df_alunos.to_excel(excel_file, index=False)

In [7]:
df_alunos.columns

Index(['id', 'ra', 'nome', 'tempo_de_estudo', 'renda_media_familia'], dtype='object')

In [8]:
df_tempo_renda = df_alunos[['tempo_de_estudo', 'renda_media_familia']]
df_tempo_renda

Unnamed: 0,tempo_de_estudo,renda_media_familia
0,,
1,,
2,,
3,,
4,,
...,...,...
101,495.0,1300000.0
102,505.0,1320000.0
103,515.0,1340000.0
104,525.0,1360000.0


# Revisando funções básicas

## 06/08/2024
- Exercício 01 - Retorne o dataframe da última aula com as duas primeiras linhas como amostras.

In [9]:
df_tempo_renda.head(2)
# df_tempo_renda[:2]

Unnamed: 0,tempo_de_estudo,renda_media_familia
0,,
1,,


- Exercício 02 - Retorne o dataframe da última aula com as duas últimas linhas como amostras.

In [10]:
df_tempo_renda.tail(2)


Unnamed: 0,tempo_de_estudo,renda_media_familia
104,525.0,1360000.0
105,535.0,1380000.0


- Exercício 03 - Retorne uma tupla com o número de linhas e colunas.

In [11]:
df_tempo_renda.shape # Retorna a tupla

(106, 2)

- Exercício 04 - Retorne as informações gerais do dataframe.

In [12]:
df_tempo_renda.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 106 entries, 0 to 105
Data columns (total 2 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   tempo_de_estudo      52 non-null     float64
 1   renda_media_familia  52 non-null     float64
dtypes: float64(2)
memory usage: 1.8 KB


In [13]:
qtd = len(df_tempo_renda)
if qtd <= 106:
    print(f'Quantidade: {qtd} dentro do ideal')

Quantidade: 106 dentro do ideal


- Exercício 05 - Retorne as colunas.

In [14]:
df_tempo_renda.columns

Index(['tempo_de_estudo', 'renda_media_familia'], dtype='object')

- Exercício 06 - Retorne as informações apenas da coluna renda familiar.

In [15]:
df_tempo_renda['renda_media_familia'].info()

<class 'pandas.core.series.Series'>
RangeIndex: 106 entries, 0 to 105
Series name: renda_media_familia
Non-Null Count  Dtype  
--------------  -----  
52 non-null     float64
dtypes: float64(1)
memory usage: 980.0 bytes


- Exercício 07 - Mostre os tipos com dtypes

In [16]:
df_alunos.dtypes

id                       int64
ra                      object
nome                    object
tempo_de_estudo        float64
renda_media_familia    float64
dtype: object

- Estatística

In [17]:
df_alunos.describe() # Faz um resumo, contagem, média, minimo, etc.

Unnamed: 0,id,tempo_de_estudo,renda_media_familia
count,106.0,52.0,52.0
mean,166.5,285.596154,862153.8
std,30.743563,144.807683,326268.9
min,114.0,10.0,2000.0
25%,140.25,153.75,615000.0
50%,166.5,280.0,870000.0
75%,192.75,407.5,1125000.0
max,219.0,535.0,1380000.0


- Exercício 08 - Crie u dataframe da tabela diário de bordo e mostre os valores.

In [18]:
query_diario = "SELECT * FROM diariobordo"
query_avaliacao = "SELECT * FROM avaliacao"

df_diario = pd.read_sql(query_diario, engine)
df_avaliacao = pd.read_sql(query_avaliacao, engine)

In [19]:
df_diario.head() # Lê os 5 primeiros campos da tabela

Unnamed: 0,id,texto,datahora,fk_aluno_id
0,120,"Hoje estamos aprendendo MySql, comandos como U...",2024-07-31 15:47:50,150
1,121,Hoje tivemos uma segunda aula sobre banco de d...,2024-07-31 17:45:00,167
2,122,Aula sobre dataframe É importante!,2024-08-06 15:47:50,151
3,123,Aula de revisao do pandas É importante!,2024-08-06 15:43:00,152
4,124,Aula de revisao do SQL!,2024-08-06 16:00:00,153


In [20]:
df_avaliacao.shape # Retorna uma tupla com a qtd de linhas e colunas

(47, 6)

In [21]:
df_avaliacao.columns

Index(['id', 'nota2', 'nota1', 'nota3', 'nota4', 'fk_aluno_id'], dtype='object')

In [22]:
df_avaliacao.describe()

Unnamed: 0,id,nota2,nota1,nota3,nota4,fk_aluno_id
count,47.0,47.0,47.0,47.0,47.0,47.0
mean,29.0,21.297872,18.680851,22.042553,24.234043,165.659574
std,13.711309,1.196279,1.77061,1.062349,0.839585,15.956839
min,6.0,20.0,16.0,20.0,21.0,120.0
25%,17.5,20.0,17.0,22.0,24.0,166.0
50%,29.0,21.0,19.0,22.0,24.0,169.0
75%,40.5,22.0,20.0,23.0,25.0,174.0
max,52.0,25.0,25.0,25.0,25.0,179.0


In [23]:
df_avaliacao.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 47 entries, 0 to 46
Data columns (total 6 columns):
 #   Column       Non-Null Count  Dtype
---  ------       --------------  -----
 0   id           47 non-null     int64
 1   nota2        47 non-null     int64
 2   nota1        47 non-null     int64
 3   nota3        47 non-null     int64
 4   nota4        47 non-null     int64
 5   fk_aluno_id  47 non-null     int64
dtypes: int64(6)
memory usage: 2.3 KB


### Gerando um arquivo EXCEL

In [24]:
alunos_excel = 'planilha_avaliacao.xlsx' # cria a variavel e de um nome pra sua planilha com a extensão
df_avaliacao.to_excel(alunos_excel, index=False) # Passe 2 parametros

- Exercício 09 - Faça um join no pandas similar ao do SQL.

# Fazendo um join 

In [25]:
len(df_diario)

25

In [26]:
len(df_alunos)

106

In [28]:
df_diario[0:26]

Unnamed: 0,id,texto,datahora,fk_aluno_id
0,120,"Hoje estamos aprendendo MySql, comandos como U...",2024-07-31 15:47:50,150
1,121,Hoje tivemos uma segunda aula sobre banco de d...,2024-07-31 17:45:00,167
2,122,Aula sobre dataframe É importante!,2024-08-06 15:47:50,151
3,123,Aula de revisao do pandas É importante!,2024-08-06 15:43:00,152
4,124,Aula de revisao do SQL!,2024-08-06 16:00:00,153
5,125,Hoje praticamos SQL com ênfase em funções de a...,2024-08-01 09:30:00,172
6,126,Fizemos exercícios sobre normalização de banco...,2024-08-02 14:00:00,165
7,127,Aprendemos sobre índices e como eles afetam a ...,2024-08-03 16:15:00,178
8,128,Estudamos as diferenças entre tipos de joins e...,2024-08-04 11:00:00,170
9,129,Realizamos um projeto de grupo para criar um b...,2024-08-05 13:45:00,169


### Passos para o merge
- Use o comando merge;
- Criar uma variável - resultado;
- pd.merge(dataframe1, datafreme2) - queremos juntar, (tipo_uniao, chave da esquerda, chave da direita); 
- Qual o tipo de união: how='inner';
- O parâmetro how define o tipo de join que estamos realizando;
- inner significa que queremos um join interno, o que resulta em apenas as linhas que têm correspondência em ambos os DataFrames.

In [30]:
resultado = pd.merge(df_diario, df_alunos, how='left', left_on='fk_aluno_id', right_on='id')
resultado

Unnamed: 0,id_x,texto,datahora,fk_aluno_id,id_y,ra,nome,tempo_de_estudo,renda_media_familia
0,120,"Hoje estamos aprendendo MySql, comandos como U...",2024-07-31 15:47:50,150,150,34582,,,
1,121,Hoje tivemos uma segunda aula sobre banco de d...,2024-07-31 17:45:00,167,167,118544,,,
2,122,Aula sobre dataframe É importante!,2024-08-06 15:47:50,151,151,34583,,,
3,123,Aula de revisao do pandas É importante!,2024-08-06 15:43:00,152,152,34584,,,
4,124,Aula de revisao do SQL!,2024-08-06 16:00:00,153,153,34585,,,
5,125,Hoje praticamos SQL com ênfase em funções de a...,2024-08-01 09:30:00,172,172,34603,Carla Oliveira Lima,100.0,450000.0
6,126,Fizemos exercícios sobre normalização de banco...,2024-08-02 14:00:00,165,165,34597,,,
7,127,Aprendemos sobre índices e como eles afetam a ...,2024-08-03 16:15:00,178,178,34609,Isabela Fernandes Lima,125.0,540000.0
8,128,Estudamos as diferenças entre tipos de joins e...,2024-08-04 11:00:00,170,170,34601,Ana Caroline Rodrigues,120.0,500000.0
9,129,Realizamos um projeto de grupo para criar um b...,2024-08-05 13:45:00,169,169,34600,Andre Rodrigues,11.0,10000.0


### Pesquiso quais colunas eu quero mostrar

In [31]:
resultado_selecionado = resultado[['nome','ra', 'texto']]
resultado_selecionado

Unnamed: 0,nome,ra,texto
0,,34582,"Hoje estamos aprendendo MySql, comandos como U..."
1,,118544,Hoje tivemos uma segunda aula sobre banco de d...
2,,34583,Aula sobre dataframe É importante!
3,,34584,Aula de revisao do pandas É importante!
4,,34585,Aula de revisao do SQL!
5,Carla Oliveira Lima,34603,Hoje praticamos SQL com ênfase em funções de a...
6,,34597,Fizemos exercícios sobre normalização de banco...
7,Isabela Fernandes Lima,34609,Aprendemos sobre índices e como eles afetam a ...
8,Ana Caroline Rodrigues,34601,Estudamos as diferenças entre tipos de joins e...
9,Andre Rodrigues,34600,Realizamos um projeto de grupo para criar um b...


- Exercício 10 - Crie uma junção do dataframe aluno com avaliação. Mostre as notas e o RA do aluno.

In [34]:
resultado2 = pd.merge(df_avaliacao, df_alunos, how='left', left_on='fk_aluno_id', right_on='id')
resultado2.head(5)

Unnamed: 0,id_x,nota2,nota1,nota3,nota4,fk_aluno_id,id_y,ra,nome,tempo_de_estudo,renda_media_familia
0,6,22,20,25,25,120,120,34552,,,
1,7,20,22,23,24,121,121,34553,,,
2,8,22,20,22,21,122,122,34554,,,
3,9,25,25,25,25,123,123,34555,,,
4,10,22,20,20,25,124,124,34556,,,


In [36]:
resultado_selecionado2 = resultado2[['ra', 'nota1', 'nota2', 'nota3', 'nota4']]
resultado_selecionado2.head(10)

Unnamed: 0,ra,nota1,nota2,nota3,nota4
0,34552,20,22,25,25
1,34553,22,20,23,24
2,34554,20,22,22,21
3,34555,25,25,25,25
4,34556,20,22,20,25
5,34603,18,20,22,25
6,34597,16,20,21,23
7,34609,19,21,23,24
8,34601,20,22,20,25
9,34600,17,23,22,24
