In [1]:
! pip install SQLAlchemy



In [2]:
! pip install pandas



In [3]:
import pandas as pd

In [4]:
# Módulo
from sqlalchemy import create_engine

In [5]:
! pip install pymysql



In [6]:
import urllib.parse

# Definir as credenciais
user = 'root'
password = urllib.parse.quote_plus('senai@123')
host = 'localhost'
database = 'schooltracker'

# Criar URL de conexão
connection_string = f'mysql+pymysql://{user}:{password}@{host}/{database}'

# Criar conexão com o create_engine()
engine = create_engine(connection_string)

# Escrever uma consulta SQL
query_alunos = "SELECT * FROM aluno"

# Criar o DataFrame
df_alunos = pd.read_sql(query_alunos, engine)

# Mostrar os cinco primeiros
df_alunos.head()

Unnamed: 0,id,ra,nome,tempoestudo,rendafamiliar
0,1,12345701,Felipe Souza,2,21000.0
1,2,12345702,Ana Clara,3,18000.0
2,3,12345703,Bruno Santos,1,15000.0
3,4,12345704,Camila Silva,4,22000.0
4,5,12345705,Daniel Oliveira,2,20000.0


In [7]:
df_alunos[['nome','rendafamiliar']][df_alunos.rendafamiliar==df_alunos['rendafamiliar'].max()]

Unnamed: 0,nome,rendafamiliar
6,Fernando Costa,25000.0
46,Xuxa Silva,25000.0
72,Xavier Martins,25000.0


# Quais bibliotecas um cientista de dados utiliza?

- Pandas
- NumPy
- Fundamentos de IA (Scikit-Learn)

- Material Didático
- Pandas e NumPy (Notebook)
- Scikit-Learn (Apostila do SENAI)

## Pandas: Ciência de Dados
## Scikit-Learn: Elaboração de modelos de IA
## NumPy: Matemática
### 05/08/2024

- Carregar dados (OK)

- Salvar um DataFrame

In [8]:
csv_filename = 'alunos.csv'
df_alunos.to_csv(csv_filename, index=False)

## Eu salvei o DataFrame!

# Exercicio - Salve o DataFrame no formato JSON 

In [9]:
json_filename = 'alunos.json'
df_alunos.to_json(json_filename, index=False)

In [10]:
! pip install openpyxl



In [11]:
xlsx_filename = 'planilha_alunos.xlsx'
df_alunos.to_excel(xlsx_filename, index=False)

# Um novo DataFrame

In [12]:
df_alunos.columns

Index(['id', 'ra', 'nome', 'tempoestudo', 'rendafamiliar'], dtype='object')

In [13]:
df_tempo_renda = df_alunos[['tempoestudo','rendafamiliar']]
df_tempo_renda[0:30]

Unnamed: 0,tempoestudo,rendafamiliar
0,2,21000.0
1,3,18000.0
2,1,15000.0
3,4,22000.0
4,2,20000.0
5,3,19000.0
6,1,25000.0
7,4,16000.0
8,2,17000.0
9,3,14000.0


In [14]:
serie_tempo_renda = df_tempo_renda['rendafamiliar']

In [15]:
type(serie_tempo_renda)

pandas.core.series.Series

# Revisando funções básicas

## 06/08/2024

### - Exercício 1: Retorne  o DataFrame da última aula com as duas primeiras linha como amostras.
- DataFrame: df_tempo_renda

In [16]:
df_tempo_renda.head(2)

Unnamed: 0,tempoestudo,rendafamiliar
0,2,21000.0
1,3,18000.0


### - Exercício 2: Agora retorne as duas últimas linha da amostra
- DataFrame: df_tempo_renda

In [17]:
df_tempo_renda.tail(2)

Unnamed: 0,tempoestudo,rendafamiliar
73,3,24000.0
74,1,23000.0


### - Exercício 3: Retorne uma tupla com número de linhas e colunas
- DataFrame: df_tempo_renda

In [24]:
df_tempo_renda.shape

(75, 2)

### - Exercício 4: Retorne as informações gerais do DataFrame
- DataFrame: df_tempo_renda

In [28]:
df_tempo_renda.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 75 entries, 0 to 74
Data columns (total 2 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   tempoestudo    75 non-null     int64  
 1   rendafamiliar  75 non-null     float64
dtypes: float64(1), int64(1)
memory usage: 1.3 KB


### - Exercício 5: Retorne as colunas do DataFrame
- DataFrame: df_tempo_renda.columns()

In [29]:
df_tempo_renda.columns

Index(['tempoestudo', 'rendafamiliar'], dtype='object')

### - Exercício 6: Retorne as informações apenas da coluna rendafamiliar
- DataFrame: df_tempo_renda

In [30]:
df_tempo_renda['rendafamiliar']

0     21000.0
1     18000.0
2     15000.0
3     22000.0
4     20000.0
       ...   
70     2000.0
71     1000.0
72    25000.0
73    24000.0
74    23000.0
Name: rendafamiliar, Length: 75, dtype: float64

### - Exercício 7: Mostre os tipos com dtypes
- DataFrame: df_alunos

In [38]:
df_alunos.dtypes

id                 int64
ra                object
nome              object
tempoestudo        int64
rendafamiliar    float64
dtype: object

## - Exercício 8: Crie um DataFrame da tabela diário de bordo e mostre os valores

In [44]:
query_diario_bordo = 'SELECT * FROM diariobordo'

df_diario_bordo = pd.read_sql(query_diario_bordo, engine)
df_diario_bordo

Unnamed: 0,id,texto,datahora,fk_aluno_id
0,1,"A aula hoje foi sobre SQL, aprendemos a inseri...",2024-08-06 15:53:33,1
1,2,Hoje aprendemos sobre funções agregadas em SQL...,2024-08-06 15:53:33,2
2,3,"A aula foi sobre índices em SQL, vimos como el...",2024-08-06 15:53:33,3
3,4,Aprendemos sobre normalização e como estrutura...,2024-08-06 15:53:33,4
4,5,A aula de hoje focou em subconsultas e como us...,2024-08-06 15:53:33,5
...,...,...,...,...
70,71,Aprendemos sobre pipelines de dados e como aut...,2024-08-06 15:53:33,71
71,72,Hoje vimos como usar Jupyter Notebooks para an...,2024-08-06 15:53:33,72
72,73,A aula foi sobre integração de SQL com Python ...,2024-08-06 15:53:33,73
73,74,Hoje focamos em visualização de dados avançada...,2024-08-06 15:53:33,74


- Mostrando número de linhas e colunas

In [50]:
df_diario_bordo.shape

(75, 4)

- Mostrando as informações gerais do DataFrame

In [52]:
df_diario_bordo.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 75 entries, 0 to 74
Data columns (total 4 columns):
 #   Column       Non-Null Count  Dtype         
---  ------       --------------  -----         
 0   id           75 non-null     int64         
 1   texto        75 non-null     object        
 2   datahora     75 non-null     datetime64[ns]
 3   fk_aluno_id  75 non-null     int64         
dtypes: datetime64[ns](1), int64(2), object(1)
memory usage: 2.5+ KB


### - Exercício 9: Crie um DataFrame da tabela avaliação e mostre os valores

In [45]:
query_avaliacao = 'SELECT * FROM avaliacao'

df_avaliacao = pd.read_sql(query_avaliacao, engine)
df_avaliacao

Unnamed: 0,id,nota1,nota2,nota3,nota4,fk_aluno_id
0,1,22,20,19,25,1
1,2,18,15,17,20,2
2,3,25,23,22,24,3
3,4,20,19,18,21,4
4,5,21,24,20,22,5
...,...,...,...,...,...,...
70,71,20,19,21,22,71
71,72,22,23,19,25,72
72,73,18,24,21,20,73
73,74,21,22,25,23,74


- Menores notas na coluna 'nota4'

In [54]:
df_avaliacao[['id','nota4']][df_avaliacao.nota4 == df_avaliacao['nota4'].min()]

Unnamed: 0,id,nota4
10,11,18
32,33,18
47,48,18
59,60,18
63,64,18


- Maiores notas na coluna 'nota4'

In [49]:
df_avaliacao[['id','nota4']][df_avaliacao.nota4 == df_avaliacao['nota4'].max()]

Unnamed: 0,id,nota4
0,1,25
6,7,25
24,25,25
28,29,25
41,42,25
46,47,25
57,58,25
62,63,25
71,72,25


## - Exercício 10: Faça um join no pandas como fez no SQL

In [58]:
# Realizar o join

resultado = pd.merge(df_diario_bordo, df_alunos, how='left', left_on='fk_aluno_id', right_on='id')

resultado_selecionado = resultado[['texto','datahora','ra']]
resultado_selecionado

Unnamed: 0,texto,datahora,ra
0,"A aula hoje foi sobre SQL, aprendemos a inseri...",2024-08-06 15:53:33,12345701
1,Hoje aprendemos sobre funções agregadas em SQL...,2024-08-06 15:53:33,12345702
2,"A aula foi sobre índices em SQL, vimos como el...",2024-08-06 15:53:33,12345703
3,Aprendemos sobre normalização e como estrutura...,2024-08-06 15:53:33,12345704
4,A aula de hoje focou em subconsultas e como us...,2024-08-06 15:53:33,12345705
...,...,...,...
70,Aprendemos sobre pipelines de dados e como aut...,2024-08-06 15:53:33,12345771
71,Hoje vimos como usar Jupyter Notebooks para an...,2024-08-06 15:53:33,12345772
72,A aula foi sobre integração de SQL com Python ...,2024-08-06 15:53:33,12345773
73,Hoje focamos em visualização de dados avançada...,2024-08-06 15:53:33,12345774


In [59]:
resultado_selecionado.head()

Unnamed: 0,texto,datahora,ra
0,"A aula hoje foi sobre SQL, aprendemos a inseri...",2024-08-06 15:53:33,12345701
1,Hoje aprendemos sobre funções agregadas em SQL...,2024-08-06 15:53:33,12345702
2,"A aula foi sobre índices em SQL, vimos como el...",2024-08-06 15:53:33,12345703
3,Aprendemos sobre normalização e como estrutura...,2024-08-06 15:53:33,12345704
4,A aula de hoje focou em subconsultas e como us...,2024-08-06 15:53:33,12345705


# Crie uma junção do dataframe aluno com avaliacao. Mostre as notas e o RA do aluno

In [63]:
resultado2 = pd.merge(df_avaliacao, df_alunos, how='left', left_on='fk_aluno_id', right_on='id')
resultado_selecionado2 = resultado2[['nota1','nota2','nota3','nota4','ra']]

resultado_selecionado2

Unnamed: 0,nota1,nota2,nota3,nota4,ra
0,22,20,19,25,12345701
1,18,15,17,20,12345702
2,25,23,22,24,12345703
3,20,19,18,21,12345704
4,21,24,20,22,12345705
...,...,...,...,...,...
70,20,19,21,22,12345771
71,22,23,19,25,12345772
72,18,24,21,20,12345773
73,21,22,25,23,12345774
