# Conectando o python ao banco de dados
### Instalando a biblioteca de conexão
#### junção do mysql com o pandas
* pip install sqlalchemy -> instala a biblioteca para fazer a conexão com o BD


### Competencias fundamentais
* Funções básicas
* Tipos de dados
* Renomeae colunas
* Selecionar colunas e linhas
* Adicionar e remover colunas
* Realizar consultas
* Ordenar itens
* Combinar e concatenar DataFrames
* Salvar DataFrame

# Instalando as bibliotecas

In [116]:
! pip install sqlalchemy



In [117]:
! pip install pandas



# Verificar as bibliotecas instaladas

In [118]:
! pip freeze

asttokens==2.4.1
colorama==0.4.6
comm==0.2.2
debugpy==1.8.2
decorator==5.1.1
et-xmlfile==1.1.0
executing==2.0.1
greenlet==3.0.3
ipykernel==6.29.5
ipython==8.26.0
jedi==0.19.1
jupyter_client==8.6.2
jupyter_core==5.7.2
matplotlib-inline==0.1.7
nest-asyncio==1.6.0
numpy==2.0.1
openpyxl==3.1.5
packaging==24.1
pandas==2.2.2
parso==0.8.4
platformdirs==4.2.2
prompt_toolkit==3.0.47
psutil==6.0.0
pure_eval==0.2.3
Pygments==2.18.0
PyMySQL==1.1.1
python-dateutil==2.9.0.post0
pytz==2024.1
pywin32==306
pyzmq==26.0.3
six==1.16.0
SQLAlchemy==2.0.31
stack-data==0.6.3
tornado==6.4.1
traitlets==5.14.3
typing_extensions==4.12.2
tzdata==2024.1
wcwidth==0.2.13


### Cria um arquivo txt com as bibliotecas instaladas

In [119]:
! pip freeze > requirements.txt

# Importando as bibliotecas

In [120]:
import pandas as pd
import urllib.parse

# Importando os modulos
### Em algumas situações é necessário importar modulos das bibliotecas para não precisar instalar tudo

In [121]:
from sqlalchemy import create_engine


# Instalar o driver do MYSQL
* pip install pymysql

In [122]:
! pip install pymysql



# Configurações para acessar o BD
### Definir as credenciais

In [123]:

user ='root'
password= urllib.parse.quote_plus('senai@123')
host='localhost'
database='schooltracker'


### O comando urllib.parse.quote_plus transforma caracteres especiais para o formato texto.

# Criar uma url de conexão

In [124]:
connection_string = f'mysql+pymysql://{user}:{password}@{host}/{database}'

# Criar a conexao com o create_engine()

In [125]:
engine= create_engine(connection_string)

# Escrever uma consulta SQL

In [126]:
query_alunos= "select * from aluno"

# Criar o dataFrame

In [127]:

df_alunos= pd.read_sql(query_alunos,engine)

# Mostar os cinco primeiros

In [128]:
df_alunos.head()

Unnamed: 0,id,ra,nome,tempoestudo,rendafamilia
0,1,34548,aluno:1,1,1400.0
1,2,34549,aluno:2,2,2800.0
2,3,34550,aluno:3,3,4200.0
3,4,34551,aluno:4,4,5600.0
4,5,34552,aluno:5,5,7000.0


In [129]:
df_alunos.info

<bound method DataFrame.info of       id        ra     nome  tempoestudo  rendafamilia
0      1  00034548  aluno:1            1        1400.0
1      2  00034549  aluno:2            2        2800.0
2      3  00034550  aluno:3            3        4200.0
3      4  00034551  aluno:4            4        5600.0
4      5  00034552  aluno:5            5        7000.0
..   ...       ...      ...          ...           ...
264  270  00040562     None            6           NaN
265  271  00040563     None            7           NaN
266  272  00040564     None            2           NaN
267  273  00040565     None            1           NaN
268  274  00040566     None            2           NaN

[269 rows x 5 columns]>

In [130]:
df_alunos.columns

Index(['id', 'ra', 'nome', 'tempoestudo', 'rendafamilia'], dtype='object')

# Quais bibliotecas um cientista de dados utiliza?

* Pandas
* Numpy
* Fundamentos de IA (Scikit-Learn)
 

# Material didático
- Pandas e Numpy (Notebooks do professor)
- Scikit-Learn (Apostila de SENAI)


### Pandas: Ciencia de dados
### Scikit-Learn : Elaboração de modelos de IA
### Numpy: Matematica


# 05/08/2024

- Carregar dados (ok)


- Salvar um dataFrame

In [131]:
csv_filename= 'alunos.csv'
df_alunos.to_csv(csv_filename,index=False) # cria um arquivo csv na pasta principal

# Criar um arquivo formata JSON

In [132]:
json_file='alunos.json'
df_alunos.to_json(json_file,index=False)

# Criar um arquivo xlsx

### Necessário instalar a biblioteca openpyxl

In [133]:
! pip install openpyxl



In [134]:
excel_file='alunos.xlsx'
df_alunos.to_excel(excel_file,index=False)

# Um novo DataFrame

In [135]:
df_alunos.columns

Index(['id', 'ra', 'nome', 'tempoestudo', 'rendafamilia'], dtype='object')

In [136]:
df_tempo_renda=df_alunos[['rendafamilia','tempoestudo']]
df_tempo_renda

Unnamed: 0,rendafamilia,tempoestudo
0,1400.0,1
1,2800.0,2
2,4200.0,3
3,5600.0,4
4,7000.0,5
...,...,...
264,,6
265,,7
266,,2
267,,1


#### Utilizando os [] é possivel selecionar quais colunas do dataFrame queremos selecionar , por exemplo: [['rendafamilia','tempoestudo']] estamos selecionando a coluna 'rendafamilia' e 'tempoestudo' do dataFrame'

In [137]:
type(df_tempo_renda)

pandas.core.frame.DataFrame

# Exercicio crie um recurso para mostrar apenas uma coluna, mostre o tipo desse recurso

In [138]:
temp=df_tempo_renda['rendafamilia']

type(temp)

pandas.core.series.Series

In [139]:
temp.head()

0    1400.0
1    2800.0
2    4200.0
3    5600.0
4    7000.0
Name: rendafamilia, dtype: float64

# Revisando Funções básicas


# 06/08/2024

## - EXERCICIO 01- Retorne o dataFrame da ultima aula com as duas primeiras linhas como amostras:

In [140]:
df_tempo_renda.head(2)

Unnamed: 0,rendafamilia,tempoestudo
0,1400.0,1
1,2800.0,2


## - Agora retorne as 2 ultimas linhas 

In [141]:
df_tempo_renda.tail(2)

Unnamed: 0,rendafamilia,tempoestudo
267,,1
268,,2


## - Exercicio 03- Retorne uma tupla com o numero de linhas e colunas da tabela

In [142]:
df_tempo_renda.shape

(269, 2)

## Exercicio 04- Buscar todas informações gerais do dataFrame

In [143]:
df_tempo_renda.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 269 entries, 0 to 268
Data columns (total 2 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   rendafamilia  203 non-null    float64
 1   tempoestudo   269 non-null    int64  
dtypes: float64(1), int64(1)
memory usage: 4.3 KB


In [144]:
print(f' Quantidade de entradas: {len(df_tempo_renda)}')
print(f' Quantidade de colunas: {len(df_tempo_renda.columns)}')

 Quantidade de entradas: 269
 Quantidade de colunas: 2


## Exercicio 05 - Retorne as colunas

In [145]:
df_tempo_renda.columns

Index(['rendafamilia', 'tempoestudo'], dtype='object')

## - Exercicio 06: retorne informações apenas da coluna renfaFamilia

In [146]:
df_tempo_renda['rendafamilia'].info()

<class 'pandas.core.series.Series'>
RangeIndex: 269 entries, 0 to 268
Series name: rendafamilia
Non-Null Count  Dtype  
--------------  -----  
203 non-null    float64
dtypes: float64(1)
memory usage: 2.2 KB


## - Exercicio 07: Mostrar o tipo de dados com dtypes

In [147]:
df_alunos.dtypes

id                int64
ra               object
nome             object
tempoestudo       int64
rendafamilia    float64
dtype: object

## - Estatistica

In [148]:
df_alunos.describe()

Unnamed: 0,id,tempoestudo,rendafamilia
count,269.0,269.0,203.0
mean,136.226766,3.594796,5943.349754
std,79.417308,2.134326,3435.990729
min,1.0,0.0,1400.0
25%,68.0,2.0,3600.0
50%,135.0,3.0,5000.0
75%,202.0,5.0,8400.0
max,274.0,7.0,12600.0


## - Exercicio 08: Aplicar as funções nas tabelas diario de bordo e avaliação
* Criar dataFrames separados

### Criando a query da tabela diario bordo

In [149]:
# engine= create_engine(connection_string)
query_diariobordo="select * from diariobordo"

In [150]:
df_diario_bordo= pd.read_sql(query_diariobordo,engine)

In [151]:
df_diario_bordo.head()

Unnamed: 0,texto,id,dataHora,fk_Aluno_id
0,Hoje aprendemos a inserir dados no mysql,4,2024-07-31 08:00:00,1
1,Hoje aprendemos a inserir dados na tabela no b...,5,2024-07-31 08:00:00,156
2,Início de um novo projeto com entusiasmo.,6,2024-08-06 08:30:00,167
3,Reunião produtiva com a equipe sobre o andamen...,7,2024-08-06 09:15:00,178
4,Conclusão da análise dos dados e preparação do...,8,2024-08-06 10:00:00,189


### Mostrando as colunas da tabela diarioBordo

In [152]:
df_diario_bordo.columns

Index(['texto', 'id', 'dataHora', 'fk_Aluno_id'], dtype='object')

### Mostrando informações do dataFrame da tabela diarioBordo

In [153]:
df_diario_bordo.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 83 entries, 0 to 82
Data columns (total 4 columns):
 #   Column       Non-Null Count  Dtype         
---  ------       --------------  -----         
 0   texto        83 non-null     object        
 1   id           83 non-null     int64         
 2   dataHora     83 non-null     datetime64[ns]
 3   fk_Aluno_id  83 non-null     int64         
dtypes: datetime64[ns](1), int64(2), object(1)
memory usage: 2.7+ KB


### Criando os arquivos : json, excel e csv com os dados da tabela diarioBordo

In [154]:
df_diario_bordo.to_csv('diario_bordo.csv',index=False)
df_diario_bordo.to_json('diario_bordo.json',index=False)
df_diario_bordo.to_excel('diario_bordo.xlsx',index=False)

### Criando query da tabela avaliacao

In [155]:
query_avaliacao= "select * from avaliacao"
df_avaliacao= pd.read_sql(query_avaliacao,engine)

### Dados da tabela avaliação

In [156]:
df_avaliacao.head()

Unnamed: 0,id,nota1,nota2,nota3,nota4,fk_Aluno_id
0,1,10,9,8,7,156
1,2,8,5,6,7,155
2,3,4,7,8,10,154
3,4,3,5,9,6,153
4,5,2,10,10,6,152


### Avaliação estatifica da tabela avaliação

In [157]:
df_avaliacao.describe()

Unnamed: 0,id,nota1,nota2,nota3,nota4,fk_Aluno_id
count,45.0,45.0,45.0,45.0,45.0,45.0
mean,23.0,7.044444,7.2,7.377778,7.644444,194.533333
std,13.133926,2.265909,1.890166,1.541677,1.479489,29.620785
min,1.0,2.0,3.0,4.0,5.0,152.0
25%,12.0,5.0,6.0,6.0,7.0,167.0
50%,23.0,8.0,7.0,8.0,7.0,195.0
75%,34.0,9.0,9.0,8.0,9.0,220.0
max,45.0,10.0,10.0,10.0,10.0,245.0


### Ultimos dados da tabela avaliação

In [158]:
df_avaliacao.tail()

Unnamed: 0,id,nota1,nota2,nota3,nota4,fk_Aluno_id
40,41,7,8,6,9,202
41,42,10,9,8,6,210
42,43,5,7,8,9,220
43,44,8,6,7,10,234
44,45,9,8,10,7,245


#### Criando os arquivos : json, excel e csv com os dados da tabela avaliação

In [159]:
df_avaliacao.to_csv('avaliacao.csv',index=False)
df_avaliacao.to_json('avaliacao.json',index=False)
df_avaliacao.to_excel('avaliacao.xlsx',index=False)

# Usando o join no PANDAS

In [161]:
print (f'Diarios: {len(df_diario_bordo)} alunos: {len(df_alunos)}')

Diarios: 83 alunos: 269


In [162]:
df_diario_bordo[5:10] # Fatiamento

Unnamed: 0,texto,id,dataHora,fk_Aluno_id
5,Discussão sobre novas estratégias de marketing.,9,2024-08-06 11:20:00,195
6,Revisão do material didático para a próxima aula.,10,2024-08-06 13:05:00,202
7,Preparação para a apresentação do projeto final.,11,2024-08-06 14:45:00,210
8,Análise dos feedbacks recebidos na última reun...,12,2024-08-06 16:00:00,220
9,Estudo aprofundado sobre novas tecnologias.,13,2024-08-06 17:30:00,234


# Fazendo o join
* Usa a função merge do pandas para a união das tabelas
    * pd.merge(dataFrame1,dataFrame2,tipo_uniao(inner, left ou right), qual chave da direita, qual chave da esquerda)

In [165]:
merge_aluno_diario= pd.merge(df_alunos,df_diario_bordo,how='inner',left_on='id', right_on='fk_Aluno_id')
merge_aluno_diario

Unnamed: 0,id_x,ra,nome,tempoestudo,rendafamilia,texto,id_y,dataHora,fk_Aluno_id
0,1,00034548,aluno:1,1,1400.0,Hoje aprendemos a inserir dados no mysql,4,2024-07-31 08:00:00,1
1,156,00176120,thiago,4,8400.0,Hoje aprendemos a inserir dados na tabela no b...,5,2024-07-31 08:00:00,156
2,156,00176120,thiago,4,8400.0,Sessão de brainstorming para o novo projeto.,15,2024-08-07 08:45:00,156
3,156,00176120,thiago,4,8400.0,Reunião para definir as metas do próximo trime...,25,2024-08-08 09:00:00,156
4,156,00176120,thiago,4,8400.0,Reunião com parceiros para revisão de contrato.,35,2024-08-09 10:00:00,156
...,...,...,...,...,...,...,...,...,...
78,245,00040537,,5,,Análise dos indicadores de desempenho.,44,2024-08-10 10:15:00,245
79,245,00040537,,5,,Os exemplos usados na aula não são claros.,54,2024-08-11 11:15:00,245
80,245,00040537,,5,,O tempo dedicado à revisão dos tópicos foi ins...,64,2024-08-12 12:30:00,245
81,245,00040537,,5,,Os conceitos abordados foram muito avançados s...,74,2024-08-13 14:45:00,245


# Filtrando as colunas

In [169]:
df_aluno_bordo=merge_aluno_diario[['ra','texto','dataHora']]
df_aluno_bordo

Unnamed: 0,ra,texto,dataHora
0,00034548,Hoje aprendemos a inserir dados no mysql,2024-07-31 08:00:00
1,00176120,Hoje aprendemos a inserir dados na tabela no b...,2024-07-31 08:00:00
2,00176120,Sessão de brainstorming para o novo projeto.,2024-08-07 08:45:00
3,00176120,Reunião para definir as metas do próximo trime...,2024-08-08 09:00:00
4,00176120,Reunião com parceiros para revisão de contrato.,2024-08-09 10:00:00
...,...,...,...
78,00040537,Análise dos indicadores de desempenho.,2024-08-10 10:15:00
79,00040537,Os exemplos usados na aula não são claros.,2024-08-11 11:15:00
80,00040537,O tempo dedicado à revisão dos tópicos foi ins...,2024-08-12 12:30:00
81,00040537,Os conceitos abordados foram muito avançados s...,2024-08-13 14:45:00


# Exercicio 09: Crie uma junção do dataFrame aluno com avaliacao. Mostre as notas e o RA do aluno

In [170]:
merge_aluno_avaliacao=pd.merge(df_alunos,df_avaliacao,how='inner',left_on='id',right_on='fk_Aluno_id')
merge_aluno_avaliacao

Unnamed: 0,id_x,ra,nome,tempoestudo,rendafamilia,id_y,nota1,nota2,nota3,nota4,fk_Aluno_id
0,152,34699,aluno:152,2,2800.0,5,2,10,10,6,152
1,153,34700,aluno:153,1,4200.0,4,3,5,9,6,153
2,154,34701,aluno:154,2,5600.0,3,4,7,8,10,154
3,155,2489999,aluno:155,3,7000.0,2,8,5,6,7,155
4,156,176120,thiago,4,8400.0,1,10,9,8,7,156
5,156,176120,thiago,4,8400.0,6,7,8,6,9,156
6,156,176120,thiago,4,8400.0,16,10,7,8,9,156
7,156,176120,thiago,4,8400.0,26,8,9,6,7,156
8,156,176120,thiago,4,8400.0,36,8,6,9,10,156
9,167,34511,Fernanda Rocha,7,4900.0,7,5,7,8,6,167


# Filtrando os dados

In [171]:
df_aluno_avaliacao=merge_aluno_avaliacao[['ra','nota1','nota2','nota3','nota4']]
df_aluno_avaliacao

Unnamed: 0,ra,nota1,nota2,nota3,nota4
0,34699,2,10,10,6
1,34700,3,5,9,6
2,34701,4,7,8,10
3,2489999,8,5,6,7
4,176120,10,9,8,7
5,176120,7,8,6,9
6,176120,10,7,8,9
7,176120,8,9,6,7
8,176120,8,6,9,10
9,34511,5,7,8,6


# Apostilas do mundo SENAI
* ANÁLISE EXPLORATÓRIA DE DADOS E INTELIGÊNCIA ARTIFICIAL APLICADA
![image.png](attachment:image.png)
* Introdução Â inteligencia artificial com SCIKIT-LEARN
