# Analisando dados de produção hospitalar - MODÚLO 1

# Nova secção

### 1.1.2

In [1]:
import pandas as pd # usado para trabalhar com tabelas DataFrames , para ler planilhar, organizar, filrar e agrupar dados

In [None]:
from google.colab import drive
drive.mount('/content/drive') #usado para acessar a conta no google drive

In [None]:
import chardet as cdt # usado para detectar automaticamente a codificação

with open('/content/drive/MyDrive/FIAP/analise_exploratoria_de_dados/vlr_tt_unid_federação_ano_mes_atend_apos_2008.csv', 'rb') as f: #Aqui você abre o arquivo em modo binário ('rb' = read binary), porque o chardet precisa ler os bytes crus, não texto já convertido.
    result = cdt.detect(f.read()) #tenta adivinhar qual é a codificação do texto. Use cdt (the alias) to refer to chardet
    print(result['encoding'])  # Mostra a codificação do arquivo

In [None]:
# dados é um DataFrame
dados = pd.read_csv("/content/drive/MyDrive/FIAP/analise_exploratoria_de_dados/vlr_tt_unid_federação_ano_mes_atend_apos_2008.csv", encoding="ISO-8859-1",
            skiprows=3, sep=";", skipfooter=12, thousands=".", decimal=",")

#Dados = DataFrame
#Skiprows = pular as primeiras linhas
#skipfooter = pular ultimas linhas
#Thousands= para formatar milhares
#Engine = tipo de linguagem usada

In [None]:
dados.head()#Traz 5 primeiras linha, mas se você colocar um numero dentro do parenteses ele traz quantas solicitar

In [None]:
dados.tail()#Traz 5 últimas linha, mas se você colocar um numero dentro do parenteses ele traz quantas solicitar

In [None]:
dados.info()
#RangeIndex	Quantas linhas tem (ex: 1200 entradas de 0 a 1199)
#Data columns	Quantas colunas tem e quais são
#Non-Null Count	Quantos valores não são nulos em cada coluna
#Dtype	O tipo de dado (número, texto, etc.) de cada coluna
#memory usage	Quanto de memória esse DataFrame está ocupando

In [None]:
pd.options.display.float_format = "{:.2f}".format #serve pra deixar os números com casas decimais (float) mais bonitos e fáceis de ler no Jupyter ou no terminal.

In [None]:
media = dados.select_dtypes(include='number').mean() # Calcula a média de todas as colunas numéricas da tabela
print(media) # Exibe as médias calculadas

Desafio 1: Trazer uma coluna especifica / serie

In [None]:
dados["2008/Ago"] #Colchetes serve para buscar uma serie de valores em uma coluna especifica, valor a esquerda é um indice.

Desafio 2 - Trazer os dados mais rescentes ordenado do maior para o menor

In [None]:
import numpy as np

# Primeiro, separamos a coluna de Unidade da Federação para possível uso posterior
uf_column = dados['Unidade da Federação']

# Removemos as colunas 'Total' e 'Unidade da Federação', deixando apenas os dados mensais
meses = dados.drop(columns=['Total', 'Unidade da Federação'])

# Ordenamos as colunas de meses convertendo os nomes (formato 'ano/mês') para datas com datetime
colunas_ordenadas = sorted(
    meses.columns,
    key=lambda x: pd.to_datetime(x, format='%Y/%b', errors='coerce')  # Converte strings para datetime; ignora erros de conversão
)

# O mês mais recente será o último da lista ordenada
mes_recente = colunas_ordenadas[-1]

# Criamos novo DataFrame com apenas os dados do mês mais recente
resultado = pd.DataFrame({
    mes_recente: dados[mes_recente]
})

# Filtramos os dados:
# - Remove valores ausentes (NaN)
# - Remove valores igual a 0
# - Remove valores com '-' (dado ausente representado como string)
resultado = resultado[
    resultado[mes_recente].notna() &
    (resultado[mes_recente] != 0) &
    (resultado[mes_recente] != '-')
]

# Substituímos '-' por NaN e convertimos os dados restantes para tipo numérico
resultado[mes_recente] = pd.to_numeric(resultado[mes_recente].replace('-', np.nan), errors='coerce')

# Ordenamos os dados do maior para o menor valor do mês mais recente
resultado = resultado.sort_values(by=mes_recente, ascending=False)

# Exibimos o mês analisado e o DataFrame resultante
print(f"Dados do mês mais recente: {mes_recente}")
print(resultado)


### 1.2.1



In [None]:
from google.colab import drive
drive.mount('caminho', force_remount=True)
#Esse comando serve para conectar o Google Colab ao seu Google Drive, permitindo que você acesse seus arquivos diretamente de lá. Se você quiser alterar o diretório onde o Google Drive será montado, basta modificar o 'caminho'.

In [None]:
from google.colab import drive
drive.mount('/content/drive/') # O comando monta o Google Drive no diretório /content/drive/, permitindo que você acesse todos os arquivos armazenados lá.

In [None]:
dados.plot(x="Unidade da Federação", y="2008/Ago") #.plot serve para plotar um grafico na tela

In [None]:
dados.plot(x="Unidade da Federação", y="2008/Ago", kind="bar", figsize=(9,6)) #.plot serve para plotar um grafico na tela

In [None]:
import matplotlib.pyplot as plt  # Biblioteca para criar gráficos
import matplotlib.ticker as ticker  # Usado para formatar os números dos eixos do gráfico

axis = dados.plot(x="Unidade da Federação", y="2008/Ago", kind="bar", figsize=(12,8),color='blue',grid=True, rot=45)
# Cria um gráfico de barras usando os dados da coluna "2008/Ago" por "Unidade da Federação"

#color='blue': define a cor das barras ou linhas.
#colormap='viridis': usa uma paleta de cores (ótimo pra gráficos com muitas categorias).
#grid=True: mostra a grade no fundo do gráfico.
#figsize=(10, 6): define o tamanho do gráfico.
#rot=45: gira os rótulos do eixo X (útil se eles estiverem sobrepostos).

#kind='bar': gráfico de barras (vertical).
#kind='barh': gráfico de barras horizontal.
#kind='line': gráfico de linha.
#kind='pie': gráfico de pizza (precisa de uma única coluna).
#plt.savefig("grafico.png"): salva o gráfico como imagem.

#for p in axis.patches:axis.annotate(f'{p.get_height():,.2f}', (p.get_x() + p.get_width() / 2, p.get_height()),ha='center', va='bottom', fontsize=8)
#Mostra os valores acima de cada barra (ótimo para apresentações).

#plt.ylim(0, 10000)  # Define o limite do eixo Y de 0 até 10.000 - Definir os limites dos eixos
#dados = dados.sort_values(by='2008/Ago', ascending=False) - Isso organiza as barras do maior para o menor.

#plt.legend(["Valor em Ago/2008"], loc='upper right')  # Personaliza a legenda
#plt.savefig("grafico.png", dpi=300, bbox_inches='tight')  # Salva o gráfico com boa resolução

#plt.style.use('ggplot')  # Outros estilos: 'seaborn', 'fivethirtyeight', 'classic', etc.

# Rotaciona e alinha os rótulos do eixo X
plt.xticks(rotation = 45, ha='right', fontsize=10)

axis.yaxis.set_major_formatter(ticker.StrMethodFormatter("{x:,.2f}"))
# Formata os números do eixo Y com vírgula e 2 casas decimais
#axis.yaxis: acessa o eixo Y do gráfico.
#set_major_formatter: define como os valores do eixo Y serão exibidos.
#ticker.StrMethodFormatter("{x:,.2f}"): formata os valores do eixo Y para:
#x: valor numérico.
#, .2f: separador de milhar e 2 casas decimais (ex: 1,234.56).

plt.title("Valor por unidade da federação")  # Adiciona um título ao gráfico

axis.set_xlabel("Unidade da Federação")
axis.set_ylabel("Valor (R$)")
plt.tight_layout()  # Ajusta o layout pra não cortar textos

plt.show()  # Exibe o gráfico

Desafio 1: executar o gráfico anterior com o mês mais recente

Desafio 2: deixar as legendas ânguladas (0, 45 etc) para facilitar a leitura

Desafio 3: Ordenar do maior para o menor estado

In [None]:
print("Última coluna:", mes_recente)

In [None]:
print(dados[mes_recente].head())

In [None]:
print(dados[mes_recente].dtype)

In [None]:
import matplotlib.pyplot as plt
import matplotlib.ticker as ticker

# Garante que os valores da coluna mais recente sejam numéricos
dados[mes_recente] = pd.to_numeric(dados[mes_recente], errors='coerce')

# Remove linhas com valores ausentes ou nulos
dados_filtrados = dados.dropna(subset=[mes_recente])

# Ordena os dados para facilitar a leitura no gráfico
dados_ordenados = dados_filtrados.sort_values(by=mes_recente, ascending=False)

# Cria o gráfico de barras
axis = dados_ordenados.plot(
    x="Unidade da Federação",
    y=mes_recente,
    kind="bar",
    figsize=(12, 8),
    color='skyblue',
    grid=True,
)

# Rotaciona e alinha os rótulos do eixo X
plt.xticks(rotation = 45, ha='right', fontsize=10)

# Formata os números do eixo Y com separador de milhar e duas casas decimais
axis.yaxis.set_major_formatter(ticker.StrMethodFormatter("{x:,.2f}"))

# Título e rótulos
plt.title(f"Valor por Unidade da Federação - {mes_recente}")
axis.set_xlabel("Unidade da Federação")
axis.set_ylabel("Valor (R$)")

# Ajusta o layout para evitar corte nos textos
plt.tight_layout()

# Exibe o gráfico
plt.show()


Desafio 4: Rotacionar o eixo do grafico de mês recente

In [None]:
import matplotlib.pyplot as plt
import matplotlib.ticker as ticker
import numpy as np  # necessário para verificar se valor é NaN


# Ordena os dados para o gráfico ficar mais organizado
dados_ordenados = dados_filtrados.sort_values(by=mes_recente, ascending=True)


# Criação do gráfico
Grafico_mes_recente = dados_ordenados.plot(
    x="Unidade da Federação",
    y=mes_recente,
    kind="barh",
    figsize=(10, 10),
    legend=False,
    color="skyblue"
)

# Formatação dos valores do eixo X como milhões de R$
Grafico_mes_recente.xaxis.set_major_formatter(
    ticker.FuncFormatter(lambda x, _: f'R${x/1_000_000:.0f}M')
)

# Rótulos nas barras
for p in Grafico_mes_recente.patches:
    valor = p.get_width()  # em gráfico horizontal, usamos width (não height)
    if not np.isnan(valor):
        Grafico_mes_recente.annotate(
            f"R${valor / 1_000_000:,.0f}M",  # Formatação em milhões,
            (valor + 1_000_000, p.get_y() + p.get_height() / 2),
            va='center',
            fontsize=8,
            color='black'
        )

# Título e rótulos
plt.title(f"Valores por UF - {mes_recente}")
plt.xlabel("Valor")
plt.ylabel("Unidade da Federação")
plt.tight_layout()
plt.show()

Bônus 1 Desafio - formatação do valor

In [None]:
from matplotlib.ticker import FuncFormatter
import matplotlib.pyplot as plt
import matplotlib.ticker as ticker

# Garante que os valores da coluna mais recente sejam numéricos
dados[mes_recente] = pd.to_numeric(dados[mes_recente], errors='coerce')

# Remove linhas com valores ausentes ou nulos
dados_filtrados = dados.dropna(subset=[mes_recente])

# Ordena os dados para facilitar a leitura no gráfico
dados_ordenados = dados_filtrados.sort_values(by=mes_recente, ascending=False)

# Cria o gráfico de barras
axis = dados_ordenados.plot(
    x="Unidade da Federação",
    y=mes_recente,
    kind="bar",
    figsize=(12, 8),
    color='skyblue',
    grid=True,
)

# Rotaciona e alinha os rótulos do eixo X
plt.xticks(rotation = 45, ha='right', fontsize=10)

# Formata os números do eixo Y com separador de milhar e duas casas decimais
def abreviado(x, pos):
    if x >= 1e6:
        return f'{x/1e6:.1f}M'  # Milhões
    elif x >= 1e3:
        return f'{x/1e3:.1f}K'  # Mil
    else:
        return str(int(x))  # Para valores menores que 1000, exibe normalmente

axis.yaxis.set_major_formatter(FuncFormatter(abreviado))

# Título e rótulos
plt.title(f"Valor por Unidade da Federação - {mes_recente}")
plt.tight_layout()  # Ajusta o layout pra não cortar textos
plt.xticks(rotation=45)
axis.set_xlabel("Unidade da Federação")# Rótulo do eixo X
axis.set_ylabel("Valor (R$)") # Rótulo do eixo y

# Ajusta o layout para evitar corte nos textos
plt.tight_layout()

# Exibe o gráfico
plt.show()

### 1.3.1

In [None]:
dados[["2008/Ago", "2008/Set"]].head() # Seleciona as colunas "2008/Ago" e "2008/Set" do DataFrame

In [None]:
dados.head() # Exibe as 5 primeiras linhas dessas colunas para uma visualização rápida

In [None]:
dados.columns
# Exibe todos os nomes das colunas do DataFrame 'dados'
# Isso é útil para ver rapidamente quais colunas estão disponíveis para análise

In [None]:
# Seleciona as colunas numéricas do DataFrame 'dados' e calcula a média de cada uma
# 'select_dtypes(include="number")' seleciona apenas as colunas numéricas
# 'mean()' calcula a média dos valores dessas colunas

media = dados.select_dtypes(include='number').mean()
print(media)

In [None]:
media.index.tolist()[:5] #É uma lista de python

In [None]:
# Seleciona as colunas numéricas e obtém os nomes delas com a média calculada
colunas_usaveis = dados.select_dtypes(include='number').mean().index.tolist()

# Insere a coluna "Unidade da Federação" na primeira posição da lista
colunas_usaveis.insert(0, "Unidade da Federação")

# Exibe os primeiros 5 nomes de colunas úteis
colunas_usaveis[:5]

In [None]:
# Cria um novo DataFrame 'dados_usaveis' com apenas as colunas da lista 'colunas_usaveis'
# Isso filtra as colunas numéricas e adiciona "Unidade da Federação"
dados_usaveis = dados[colunas_usaveis]

# Exibe as 5 primeiras linhas do DataFrame 'dados_usaveis'
dados_usaveis.head()

In [None]:
# Define a coluna "Unidade da Federação" como o índice do DataFrame 'dados_usaveis'
# Isso torna "Unidade da Federação" o identificador principal das linhas
dados_usaveis = dados_usaveis.set_index("Unidade da Federação")

# Exibe as 5 primeiras linhas do DataFrame 'dados_usaveis' com o novo índice
dados_usaveis.head()

In [None]:
# Exibe as 5 primeiras linhas da coluna "2019/Ago" do DataFrame 'dados_usaveis'
dados_usaveis["2019/Ago"].head()

In [None]:
# Acessa todas as colunas para a linha com o índice "12 Acre" no DataFrame 'dados_usaveis'
dados_usaveis.loc["12 Acre"]

In [None]:
dados_usaveis.iloc[1]#iloc localiza pela posição da coluna

In [None]:
dados_usaveis.plot(figsize=(12,6)) # Plotar um grafico nas medidas sinalizadas

In [None]:
dados_usaveis.T.head() # .T para transpor a tabela

In [None]:
dados_usaveis.T.plot(figsize=(12,6)) #.T para transpor o gráfico

In [None]:
dados_usaveis.T.tail() # 5 Ultimos mêses no gráfico tramposto

In [None]:
# Remove a coluna chamada "Total" do DataFrame 'dados_usaveis'
# 'axis=1' indica que a remoção é de uma coluna (não de uma linha)
dados_usaveis = dados_usaveis.drop("Total", axis=1)

# Exibe as 5 primeiras linhas do DataFrame 'dados_usaveis' após a remoção da coluna
dados_usaveis.head()

In [None]:
# Transposta o DataFrame 'dados_usaveis' (invertendo linhas e colunas)
# e plota o gráfico das colunas transpostas
dados_usaveis.T.plot(figsize=(12,6))

In [None]:
# Transpõe o DataFrame 'dados_usaveis', trocando as linhas pelas colunas
dados_usaveis.T

In [None]:
dados_usaveis.T.max() # Exibe o valor máximo de cada coluna transposta

Desafio 1: reposicionar a legenda. Dentro? Fora? Onde?

In [None]:
from matplotlib.ticker import FuncFormatter
import matplotlib.pyplot as plt
import matplotlib.ticker as ticker

# Cria o gráfico de barras
Grafico_mes_recente = dados.plot(
    x="Unidade da Federação",
    y=mes_recente,
    kind="bar",
    figsize=(12,6),
    legend=True,  # Coloca a legenda
    color="orange"
)

# Rotaciona e alinha os rótulos do eixo X
plt.xticks(rotation = 45, ha='right', fontsize=10)

Grafico_mes_recente.yaxis.set_major_formatter(ticker.FuncFormatter(lambda x, _: f'R${x/1_000:,.0f}K'))
#FuncFormatter(lambda x, _: f'R${x/1_000_000:.0f}M'): Formata os valores do eixo Y para que apareçam como milhões (M) e com símbolo de "R$". A função:
#x/1_000_000: Divide o valor por 1 milhão para convertê-lo para milhões.
#:.0f: Exibe o número como inteiro (sem casas decimais).
#'R${}M': Adiciona "R$" e "M" para representar o valor em milhões de reais.

# Título e rótulos
plt.title(f"Valores por UF - {mes_recente}")  # Título do gráfico
plt.ylabel("Valor R$")  # Rótulo do eixo Y
plt.xlabel("Unidade da Federação")  # Rótulo do eixo X
plt.xticks(rotation=45)  # Rotaciona os rótulos do eixo X em 45 graus para melhor visualização
plt.tight_layout()  # Ajusta o layout para não cortar nada

# Colocando a legenda dentro
plt.legend(loc='upper right')  # Coloca dentro no canto superior direito

"""Posições comuns
plt.legend(loc='upper right')  # Canto superior direito
plt.legend(loc='upper left')   # Canto superior esquerdo
plt.legend(loc='lower left')   # Canto inferior esquerdo
plt.legend(loc='lower right')  # Canto inferior direito

# Posições mais detalhadas com bbox_to_anchor
plt.legend(loc='upper left', bbox_to_anchor=(1, 1))  # Fora à direita, no topo
plt.legend(loc='lower left', bbox_to_anchor=(1, 0))  # Fora à direita, na parte inferior
plt.legend(loc='center left', bbox_to_anchor=(1, 0.5))  # Fora à esquerda, centralizado verticalmente
plt.legend(loc='center', bbox_to_anchor=(0.5, 0.5))  # Centro do gráfico"""

# Ajusta o layout para evitar corte nos textos
plt.tight_layout()

# Exibe o gráfico
plt.show()

Desafio 2: Ordenar o grafico acima e colocar titulo nos eixos

In [None]:
from matplotlib.ticker import FuncFormatter
import matplotlib.pyplot as plt
import matplotlib.ticker as ticker

# Garante que os valores da coluna mais recente sejam numéricos
dados[mes_recente] = pd.to_numeric(dados[mes_recente], errors='coerce')

# Remove linhas com valores ausentes ou nulos
dados_filtrados = dados.dropna(subset=[mes_recente])

# Ordena os dados do maior para o menor valor de mes_recente
dados_ordenados = dados_filtrados.sort_values(by=mes_recente, ascending=False)

# Cria o gráfico de barras com os dados ordenados
Grafico_mes_recente = dados_ordenados.plot(
    x="Unidade da Federação",
    y=mes_recente,
    kind="bar",
    figsize=(12,6),
    legend=True,  # Coloca a legenda
    color="orange"
)

# Rotaciona e alinha os rótulos do eixo X
plt.xticks(rotation=45, ha='right', fontsize=10)

# Formatação dos valores do eixo X para que apareçam como milhares (K) e com símbolo de "R$"
Grafico_mes_recente.yaxis.set_major_formatter(ticker.FuncFormatter(lambda x, _: f'R${x/1_000:,.0f}K'))

# Título e rótulos
plt.title(f"Valores por UF - {mes_recente}")  # Título do gráfico
plt.ylabel("Valor R$")  # Rótulo do eixo Y
plt.xlabel("Unidade da Federação")  # Rótulo do eixo X

# Colocando a legenda dentro
plt.legend(loc='upper right')  # Col


Desafio: colocar títulos nos dois eixos, adicionar grade e alterar cor

In [None]:
# Garante que os valores da coluna mais recente sejam numéricos
dados[mes_recente] = pd.to_numeric(dados[mes_recente], errors='coerce')

# Remove linhas com valores ausentes ou nulos
dados_filtrados = dados.dropna(subset=[mes_recente])

# Ordena os dados do maior para o menor valor de mes_recente
dados_ordenados = dados_filtrados.sort_values(by=mes_recente, ascending=False)

# Cria o gráfico de barras com os dados ordenados
Grafico_mes_recente = dados_ordenados.plot(
    x="Unidade da Federação",
    y=mes_recente,
    kind="bar",
    figsize=(12,6),
    legend=False,
    color="purple"
)

Grafico_mes_recente.yaxis.set_major_formatter(ticker.FuncFormatter(lambda x, _: f'{x/1_000_000:,.0f}K'))
#FuncFormatter(lambda x, _: f'R${x/1_000_000:.0f}M'): Formata os valores do eixo Y para que apareçam como milhões (M) e com símbolo de "R$". A função:
#x/1_000_000: Divide o valor por 1 milhão para convertê-lo para milhões.
#:.0f: Exibe o número como inteiro (sem casas decimais).
#'R${}M': Adiciona "R$" e "M" para representar o valor em milhões de reais.

# Rotaciona e alinha os rótulos do eixo X
plt.xticks(rotation = 45, ha='right', fontsize=10)

# Adicionando título, eixos e ajustando o layout
plt.title(f"Valores por UF - {mes_recente}", fontsize=16)
plt.xlabel("Unidade da Federação", fontsize=12)
plt.ylabel("Valor em milhões", fontsize=12)
plt.tight_layout()  # Ajusta o layout para não cortar nada

# Melhorando a visualização com a grade
plt.grid(True, linestyle='--', alpha=0.7)

# Ajuste da visualização para evitar sobreposição
plt.xticks(rotation=45)  # Rotaciona os rótulos do eixo X para melhorar a legibilidade
plt.tight_layout()  # Ajusta o layout

plt.show()

Desafio extra 1: Visualizar 10 linhas

In [None]:
dados_usaveis.head(10) # mostra 10 linhas

###1.3.2

In [None]:
dados_usaveis.head()

In [None]:
dados_usaveis.T.columns[:7]# Exibe os 7 primeiros nomes das colunas do DataFrame transposto (ou seja, as 5 primeiras UFs)

In [None]:
dados_usaveis.index[:6] # Exibe os 6 primeiros rótulos (índices) das linhas do DataFrame, que representam as UFs

In [None]:
dados_usaveis[:7]# Exibe as 7 primeiras linhas do DataFrame completo, incluindo todos os anos para as UFs

In [None]:
# Plota um gráfico com os dados transpostos das 7 primeiras UFs
# .T → transpõe o DataFrame (linhas viram colunas e vice-versa)
# .plot(figsize=(10,6)) → plota o gráfico com tamanho definido (largura=10, altura=6)
dados_usaveis[:7].T.select_dtypes(include='number').plot(figsize=(10,6))

# Formatação do eixo y (R$)
Grafico_mes_recente.yaxis.set_major_formatter(ticker.FuncFormatter(lambda x, _: f'R${x/1_000:,.0f}K'))

In [None]:
# Seleciona 7 linhas aleatórias do DataFrame (ou seja, 7 UFs aleatórias)
dados_usaveis.sample(n=7)

In [None]:
dados_usaveis.sample(7)
# Amostra 7 linhas aleatórias do DataFrame 'dados_usaveis'

In [None]:
# Amostra 7 linhas aleatórias do DataFrame 'dados_usaveis'
# E em seguida, transpõe o resultado para exibir as colunas como linhas
dados_usaveis.sample(7).T.plot(figsize=(10,6))  # Gera um gráfico com 7 amostras transpostas

# Explicação:
# - .sample(7): seleciona 7 linhas aleatórias do DataFrame 'dados_usaveis'.
# - .T: transpõe (inverte) o DataFrame, transformando as linhas selecionadas em colunas.
# - .plot(figsize=(10, 6)): gera um gráfico com tamanho de 10 por 6 polegadas.

In [None]:
import numpy as np

# Define a semente para gerar números aleatórios de forma reproduzível
np.random.seed(524387)  # A semente 524387 garante que a amostragem será sempre a mesma

# Amostra 7 linhas aleatórias do DataFrame 'dados_usaveis' de forma controlada
dados_usaveis.sample(n=7)  # Gera uma amostra de 7 elementos de 'dados_usaveis'

# Pseudo aleatório... pseudo randomness
# O termo "pseudo aleatório" se refere a um processo que gera números aleatórios com base em uma fórmula determinística.
# Ou seja, mesmo sendo "aleatório", o número gerado é previsível quando a semente é conhecida.

# 53874 = seed (semente)
# Aqui, você definiu a semente como 524387, mas talvez tenha feito uma referência de exemplo ao número 53874.

# Regra para semente / 10, semente * 3 / 2:
# 80811: Este é um exemplo de manipulação da semente, onde talvez você esteja tentando calcular valores derivados
# baseados na semente original, para testar algum tipo de transformação ou regra matemática.
# Por exemplo:
# - semente / 10 = 524387 / 10 = 52438.7
# - semente * 3 / 2 = 524387 * 3 / 2 = 786580.5

# Regra 8081, 121216: Isso pode ser uma referência a um outro cálculo ou transformação envolvendo os números derivados da semente.


In [None]:
# Amostra 7 linhas aleatórias do DataFrame 'dados_usaveis' e armazena em 'dados_dos_7_estados'
dados_dos_7_estados = dados_usaveis.sample(n=7)  # Seleciona 7 amostras aleatórias

# Transpõe (T) os dados para que as colunas se tornem linhas e cria o gráfico
dados_dos_7_estados.T.plot(figsize=(10,6))  # Gera um gráfico das amostras transpostas, com tamanho 10x6

In [None]:
# Cria uma nova coluna 'Total' no DataFrame 'dados_usaveis'
# A função sum() calcula a soma dos valores ao longo das linhas (axis=1)
# Ou seja, soma os valores de cada linha para todas as colunas
dados_usaveis["Total"] = dados_usaveis.sum(axis=1)

# Exibe as primeiras 5 linhas do DataFrame 'dados_usaveis' para ver a coluna 'Total'
dados_usaveis.head()  # Mostra as primeiras 5 linhas do DataFrame, incluindo a coluna 'Total'

Desafio: ordenar nosso DataFrame para que na primeira linha tenha a linha com maior gasto, e na última com menor gasto (ordenação) - no caso eu fiz o ultimo mês do maior para o menor, por isso tive que dropar o total

In [None]:
# Ordena o DataFrame 'dados_usaveis' pela coluna 'Total' em ordem decrescente
ordenados_por_total = dados_usaveis.sort_values(by="Total", ascending=False)

# Remove a coluna 'Total' do DataFrame após a ordenação
ordenados_por_total = ordenados_por_total.drop("Total", axis=1)

# Alternativa com inplace para remover a coluna 'Total' diretamente no DataFrame original
# ordenados_por_total.drop("Total", axis=1, inplace=True)

# Exibe as primeiras 5 linhas do DataFrame ordenado e sem a coluna 'Total'
ordenados_por_total.head(5)

Desafio: adicionar uma coluna com a região de cada estado.

In [None]:
# Dicionário de estados e suas regiões
regioes = {
    '11 Rondônia': 'Norte', '12 Acre': 'Norte', '13 Amazonas': 'Norte', '14 Roraima': 'Norte', '15 Pará': 'Norte',
    '16 Amapá': 'Norte', '17 Tocantins': 'Norte', '21 Maranhão': 'Nordeste', '22 Piauí': 'Nordeste', '23 Ceará': 'Nordeste',
    '24 Rio Grande do Norte': 'Nordeste', '25 Paraíba': 'Nordeste', '26 Pernambuco': 'Nordeste', '27 Alagoas': 'Nordeste',
    '28 Sergipe': 'Nordeste', '29 Bahia': 'Nordeste', '31 Minas Gerais': 'Sudeste', '32 Espírito Santo': 'Sudeste',
    '33 Rio de Janeiro': 'Sudeste', '35 São Paulo': 'Sudeste', '41 Paraná': 'Sul', '42 Santa Catarina': 'Sul',
    '43 Rio Grande do Sul': 'Sul', '50 Mato Grosso do Sul': 'Centro-Oeste', '51 Mato Grosso': 'Centro-Oeste',
    '52 Goiás': 'Centro-Oeste', '53 Distrito Federal': 'Centro-Oeste'
}

# Criar coluna 'UF' a partir do índice
dados_usaveis['UF'] = dados_usaveis.index

# Criar a coluna 'Região' usando o dicionário
dados_usaveis['Região'] = dados_usaveis['UF'].map(regioes)

# Reordenar as colunas para colocar 'Região' no início
colunas = ['Região'] + [col for col in dados_usaveis.columns if col != 'Região']
dados_usaveis = dados_usaveis[colunas]

# Remover a coluna 'UF' (opcional)
dados_usaveis = dados_usaveis.drop(columns=['UF'])

# Ordenar pelo Total do maior para o menor
dados_usaveis = dados_usaveis.sort_values(by='Total', ascending=False)

# Visualizar
dados_usaveis.head()


Adicionar seu estado nos 7 estados

In [None]:
# Copia os 7 primeiros estados
dados_dos_7_estados = dados_usaveis.iloc[:7].copy()

# Adiciona a coluna 'Região'
dados_dos_7_estados['Região'] = regioes

# Verifica as linhas do DataFrame 'dados_usaveis' onde o índice é igual a '35 São Paulo'
unidade_sao_paulo = dados_usaveis[dados_usaveis.index == '35 São Paulo']

# Combina as 7 primeiras linhas e a unidade de São Paulo em um único DataFrame
relacao_final = pd.concat([dados_dos_7_estados, unidade_sao_paulo])

# Ordena o DataFrame resultante pela coluna 'Total' em ordem decrescente
relacao_final = relacao_final.sort_values(by='Total', ascending=False)
# Exibe o DataFrame resultante
relacao_final

##1.3.3

In [None]:
# Exibe as primeiras 6 linhas do DataFrame 'dados_usaveis'
dados_usaveis.head(6)  # Mostra uma visão geral rápida dos dados

In [None]:
# Ordena o DataFrame 'dados_usaveis' pela coluna 'Total' em ordem decrescente
ordenados_por_total = dados_usaveis.sort_values(by="Total", ascending=False) # para ordenar usar sorte_values

# Remove a coluna 'Total' após a ordenação
ordenados_por_total = ordenados_por_total.drop("Total", axis=1)

# Alternativa: remove a coluna 'Total' diretamente no DataFrame original
# ordenados_por_total.drop("Total", axis=1, inplace=True)

# Exibe as 5 primeiras linhas do DataFrame ordenado e sem a coluna 'Total'
ordenados_por_total.head(5)

In [None]:
# Converte todas as colunas do DataFrame 'ordenados_por_total' para valores numéricos
# Caso algum valor não seja numérico, será convertido para NaN (erro coercivo)
for col in ordenados_por_total.columns:
    ordenados_por_total[col] = pd.to_numeric(ordenados_por_total[col], errors='coerce')

# Exibe as primeiras 5 linhas, transpostas, em um gráfico de linha com tamanho 10x6
ordenados_por_total.head(5).T.plot(figsize=(10,6))


In [None]:
import matplotlib.pyplot as plt

# Converte todas as colunas para valores numéricos (você já fez isso corretamente)
for col in ordenados_por_total.columns:
    ordenados_por_total[col] = pd.to_numeric(ordenados_por_total[col], errors='coerce')

# Transpõe os dados para que o tempo fique no eixo x
df_transposto = ordenados_por_total.head(5).T

# Plota o gráfico
plt.figure(figsize=(18, 6))
plt.plot(df_transposto)

# Adiciona título e rótulos dos eixos
plt.title('Evolução dos Valores Totais por Unidade da Federação ao Longo do Tempo', fontsize=16)
plt.xlabel('Período (Ano/Mês)', fontsize=12)
plt.ylabel('Valor Total (Milhares de Reais)', fontsize=12)

# Define os ticks do eixo X a cada 12 meses
ticks_pos = list(range(0, len(df_transposto.index), 12))
ticks_labels = df_transposto.index[ticks_pos]
plt.xticks(ticks_pos, ticks_labels, rotation=45)

# Adiciona legenda
plt.legend(df_transposto.columns, title='Unidade da Federação', bbox_to_anchor=(1.05, 1), loc='upper left')

# Rotaciona e alinha os rótulos do eixo X
plt.xticks(rotation = 45, ha='right', fontsize=10)

# Melhora layout
plt.xticks(rotation=45)
plt.tight_layout()

plt.show()


Desafio: adicionar seu estado aos 5 estados existentes, e plotar.

In [None]:
import matplotlib.pyplot as plt

# Filtra apenas as colunas numéricas de interesse para plotagem
colunas_numericas = relacao_final.select_dtypes(include='number').columns.tolist()
dados_para_plot = relacao_final[colunas_numericas].drop("Total", axis=1).head(6)

# Transpõe o DataFrame para que o tempo fique no eixo X
df_transposto = dados_para_plot.T

# Plota o gráfico
df_transposto.plot(figsize=(10,6))

# Adiciona legenda usando o índice como rótulos
plt.legend(relacao_final.head(6).index, title='Unidade da Federação', bbox_to_anchor=(1.05, 1), loc='upper left')

# Ajustes no gráfico
plt.title('Evolução dos Valores Totais por Unidade da Federação ao Longo do Tempo', fontsize=16)
plt.xlabel('Período (Ano/Mês)', fontsize=12)
plt.ylabel('Valor Total (Milhares de Reais)', fontsize=12)
plt.xticks(rotation=45, ha='right', fontsize=10)
plt.tight_layout()
plt.show()

Desafio: adicionar seu estado.

In [None]:
# Verifica as linhas do DataFrame 'dados_usaveis' onde o índice é igual a '35 São Paulo'
unidade_acre = dados_usaveis[dados_usaveis.index == '12 Acre']

# Combina as 7 primeiras linhas e a unidade de São Paulo em um único DataFrame
# drop_duplicates to remove duplicate row for '12 Acre'
relacao_final_ajustada = pd.concat([dados_dos_7_estados, unidade_acre]).drop_duplicates()

# Ordena o DataFrame resultante pela coluna 'Total' em ordem decrescente
relacao_final_ajustada  = relacao_final_ajustada .sort_values(by='Total', ascending=False)

relacao_final_ajustada  = relacao_final_ajustada .drop("Total", axis=1)

# Exibe o DataFrame resultante
# Select only numerical features to plot
relacao_final_ajustada.drop(columns=['Região']).T.plot(figsize=(10,6))

# Adiciona legenda usando o índice como rótulos
plt.legend(relacao_final.head(6).index, title='Unidade da Federação', bbox_to_anchor=(1.05, 0), loc='upper left')

# Ajustes no gráfico
plt.title('Evolução dos Valores Totais por Unidade da Federação ao Longo do Tempo', fontsize=16)
plt.xlabel('Período (Ano/Mês)', fontsize=12)
plt.ylabel('Valor Total (Milhares de Reais)', fontsize=12)
plt.xticks(rotation=45, ha='right', fontsize=10)
plt.tight_layout()
plt.show()

Desafio: deixar o gráfico mais refinado.

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
import matplotlib.ticker as mtick

# Estilo mais moderno e limpo
sns.set_style("whitegrid")
plt.figure(figsize=(12, 7))

# Filtering out the 'Região' column before plotting
numeric_data = relacao_final_ajustada.head(6).select_dtypes(include='number').T

# Plotando
ax = numeric_data.plot(
    figsize=(12, 7),
    linewidth=2.5,
    marker='o',
    markersize=6,
    linestyle='-',
    cmap='tab10'  # Paleta de cores suave
)

# Título e rótulos com fontes mais legíveis
ax.set_title('Comparação de Estados', fontsize=18, weight='bold')
ax.set_xlabel('Periodo', fontsize=14)
ax.set_ylabel('Valores em Milhares', fontsize=14)

# Personalizando o eixo x para girar os rótulos (se forem datas, por ex)
plt.xticks(rotation=45, fontsize=12)
plt.yticks(fontsize=12)

# Formatando o eixo Y como valores monetários

# Função para formatar em milhões
formatter_milhoes = mtick.FuncFormatter(lambda x, _: f'{x/1_000_000:.0f} mi')

# Aplicando ao eixo Y
ax.yaxis.set_major_formatter(formatter_milhoes)

# Melhor posicionamento da legenda
# ax.legend(title='Estados', title_fontsize=12, fontsize=10, bbox_to_anchor=(1.02, 1), loc='upper left', borderaxespad=0.)
ax.legend(title='Estados', title_fontsize=12, fontsize=10, bbox_to_anchor=(1.02, 1), loc='best')

# Adicionando grade sutil
ax.grid(True, which='both', linestyle='--', linewidth=0.5, alpha=0.7)

# Bordas removidas para estética mais clean
sns.despine()

# Ajuste de layout
plt.tight_layout()
plt.show()

Desafio: pesquisar o `sort_index`.

O sort_index é um método utilizado em bibliotecas de análise de dados, como o Pandas em Python, para ordenar ou reorganizar os dados de acordo com o índice (linha) de um DataFrame ou série.

De maneira simples, quando você tem uma tabela com linhas e colunas (como uma planilha), o sort_index permite que você reordene as linhas dessa tabela com base no índice (que pode ser números ou rótulos), em ordem crescente ou decrescente.

Por exemplo, se você tiver uma tabela com dados organizados de maneira desordenada, pode usar o sort_index para organizá-los pela ordem dos índices, facilitando a análise ou visualização dos dados.

É como reorganizar as linhas de uma planilha de acordo com os números ou nomes na coluna de índices.

Função	Descrição	Exemplo

Ordenar por índice (crescente):	Ordena as linhas pela ordem crescente dos índices.	df.sort_index()

Ordenar por índice (decrescente)	Ordena as linhas pela ordem decrescente dos índices.	df.sort_index(ascending=False)

Ordenar por um nível específico	Ordena os dados com base em um nível específico de índice (útil para multiíndices).	df.sort_index(level=0)

Ordenar no próprio DataFrame	Ordena os dados e aplica a alteração diretamente no DataFrame original.

In [None]:
# Ordenando pelo índice
dados_usaveis_sorted = dados_usaveis.sort_index(ascending=True)
dados_usaveis_sorted[:5]

Desafio: googlar os casos de dengue do Brasil e verificar se existe algum padrão com os gastos encontrados aqui.

In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [None]:
import chardet as cdt # usado para detectar automaticamente a codificação

with open('/content/drive/MyDrive/FIAP/analise_exploratoria_de_dados/dengue_br_2024.csv', 'rb') as f: #Aqui você abre o arquivo em modo binário ('rb' = read binary), porque o chardet precisa ler os bytes crus, não texto já convertido.
    result = cdt.detect(f.read()) #tenta adivinhar qual é a codificação do texto. Use cdt (the alias) to refer to chardet
    print(result['encoding'])  # Mostra a codificação do arquivo

In [None]:
# dados é um DataFrame
dados_dengue_2024 = pd.read_csv("/content/drive/MyDrive/FIAP/analise_exploratoria_de_dados/dengue_br_2024.csv", encoding="ISO-8859-1",
            skiprows=3, sep=";", skipfooter=12, thousands=".", decimal=",")

#Dados = DataFrame
#Skiprows = pular as primeiras linhas
#skipfooter = pular ultimas linhas
#Thousands= para formatar milhares
#Engine = tipo de linguagem usada

In [None]:
dados_dengue_2024.head()

In [None]:
# Verifique se 'dados_dengue_2024' é um DataFrame
print(type(dados_dengue_2024))

In [None]:
# Caso o DataFrame já esteja carregado corretamente, apenas defina o índice
dados_dengue_2024 = dados_dengue_2024.set_index("UF de notificação")

# Exibe as 5 primeiras linhas do DataFrame com o novo índice
dados_dengue_2024.head()

In [None]:
# --- 1. Carrega os dados
df_gastos = dados_usaveis.reset_index()
df_dengue = dados_dengue_2024

# --- 2. Prepara os dados de gastos públicos ---
# Filtra apenas colunas de 2024
colunas_2024 = [col for col in df_gastos.columns if col.startswith("2024")]
df_gastos_2024 = df_gastos[["Unidade da Federação"] + colunas_2024].copy()
df_gastos_2024["Total_Gastos_2024"] = df_gastos_2024[colunas_2024].sum(axis=1)

# --- 3. Prepara os dados de dengue ---
df_dengue["Total_Casos_2024"] = df_dengue.iloc[:, 0:12].sum(axis=1)  # soma dos meses
df_dengue.reset_index(inplace=True)  # UF de notificação como coluna
df_dengue.rename(columns={"UF de notificação": "Unidade da Federação"}, inplace=True)

# --- 4. Junta os dados por "Unidade da Federação" ---
df_comparado = pd.merge(df_gastos_2024[["Unidade da Federação", "Total_Gastos_2024"]],
                        df_dengue[["Unidade da Federação", "Total_Casos_2024"]],
                        on="Unidade da Federação")

# --- 5. Visualização com gráfico de dispersão ---
plt.figure(figsize=(12,6))
sns.scatterplot(data=df_comparado, x="Total_Gastos_2024", y="Total_Casos_2024")

for i in range(df_comparado.shape[0]):
    plt.text(df_comparado["Total_Gastos_2024"][i],
             df_comparado["Total_Casos_2024"][i],
             df_comparado["Unidade da Federação"][i].split(" ")[-1], fontsize=8)

plt.title("Correlação entre Gastos Públicos e Casos de Dengue (2024)")
plt.xlabel("Total de Gastos Públicos em 2024")
plt.ylabel("Total de Casos de Dengue em 2024")
plt.grid(True)
plt.tight_layout()
plt.show()

Desafio: plotar somente os estados de uma região do Brasil.

In [None]:
# Filtra apenas as linhas onde a Região é 'Sul'
dados_sul = dados_usaveis[dados_usaveis["Região"] == "Sul"]

# Seleciona apenas colunas numéricas para plotagem
dados_sul_numericos = dados_sul.select_dtypes(include='number')

# Exibe as primeiras linhas do novo DataFrame filtrado
dados_sul_numericos.T.head(6).plot(figsize=(10,6))

##1.4.1

In [None]:
ordenados_por_total =ordenados_por_total / 1000000

In [None]:
# Transpõe os 5 primeiros registros do DataFrame 'ordenados_por_total' e plota o gráfico
# O método .T inverte linhas por colunas (útil para visualizar categorias ao longo do tempo)
axis = ordenados_por_total.head(5).T.plot(figsize=(10,6))
axis.set_ylabel("gasto aprovado em milhões de reais")

# Melhor posicionamento da legenda
# ax.legend(title='Estados', title_fontsize=12, fontsize=10, bbox_to_anchor=(1.02, 1), loc='upper left', borderaxespad=0.)
axis.legend(title='Unidade da Federação', title_fontsize=12, fontsize=10, bbox_to_anchor=(1.05, 0.7), loc='upper left')

# Define o rótulo do eixo X
axis.set_xlabel("mês")

plt.title("Gastos publicos em 5 estados")
plt.ylabel("Total de Gastos Públicos")
plt.xlabel("Período")
plt.grid(True)
plt.tight_layout()
plt.show()

In [None]:
meses_filtrados = ordenados_por_total.columns[47:]
axis = ordenados_por_total[meses_filtrados].head(3).T.plot(figsize=(10,6))
axis.set_ylabel("gasto aprovado em milhões de reais")
axis.set_xlabel("mês")
#Titulo
plt.title("Analise de gastos públicos")
# Melhor posicionamento da legenda
axis.legend(title='Unidade da Federação', title_fontsize=12, fontsize=10, bbox_to_anchor=(1.05, 0.7), loc='upper left')

In [None]:
def plota_gastos_por_mes(dados, figsize=(10,6)):
  axis = dados.T.plot(figsize=figsize)
  axis.set_ylabel("gasto aprovado em milhões de reais")
  axis.set_xlabel("mês")

In [None]:
plota_gastos_por_mes(ordenados_por_total[meses_filtrados].head(3))
#Titulo
plt.title("Analise de gastos públicos")

In [None]:
plota_gastos_por_mes(ordenados_por_total[meses_filtrados].head(3))
#Titulo
plt.title("Analise de gastos públicos")

In [None]:
plota_gastos_por_mes(ordenados_por_total[meses_filtrados].head(3))
plt.ylim(0,300)
#Titulo
plt.title("Analise de gastos públicos")

In [None]:
plota_gastos_por_mes(ordenados_por_total[ordenados_por_total.columns[45:70]].head(3))
plt.ylim(0, 300)
plt.title("Analise de gastos públicos")

In [None]:
plota_gastos_por_mes(ordenados_por_total[ordenados_por_total.columns[-12:]].head(3))#Grafico ultimos 12 meses
plt.ylim(0, 640)
plt.title("Analise de gastos públicos - últimos 12 meses")

In [None]:
plota_gastos_por_mes(ordenados_por_total[ordenados_por_total.columns[-12:]].head(3))#Grafico ultimos 12 meses
plt.ylim(110, 640)
plt.title("Analise de gastos públicos - últimos 12 meses")

In [None]:
plota_gastos_por_mes(ordenados_por_total[ordenados_por_total.columns[-60:]].head(3)) #Grafico ultimos 60 meses
plt.ylim(0, 640)
plt.title("Analise de gastos públicos - últimos 60 meses")

In [None]:
plota_gastos_por_mes(ordenados_por_total.head(3))
plt.ylim(0, 640)
plt.title("Analise de gastos públicos - últimos 60 meses")
# Adiciona grid pontilhado
ax.grid(True, linestyle=':', linewidth=0.8, color='gray')

In [None]:
plota_gastos_por_mes(ordenados_por_total[ordenados_por_total.columns[1:]].head(3)) #tirei a primeira coluna por conta que é região
plt.ylim(0, 640)

In [None]:
plota_gastos_por_mes((ordenados_por_total[ordenados_por_total.columns[1:]].head(3)), figsize=(6,8))
plt.ylim(0, 550)

In [None]:
plota_gastos_por_mes(ordenados_por_total[ordenados_por_total.columns[1:]].head(5), figsize=(20,6))
plt.ylim(0, 550)

Desafio: padronizar os ticks verticais para espaçamento de 12 em 12 unidades (uma vez ao ano).

In [None]:
import matplotlib.pyplot as plt
import matplotlib.ticker as ticker

plt.figure(figsize=(12, 6))  # Define o tamanho do gráfico

# Converte o índice 'meses_filtrados' (que vem do DataFrame) em lista
meses_filtrados_list = meses_filtrados.tolist()

# Cria o eixo X como uma sequência de números (0, 1, 2, ..., N), representando os meses
x = list(range(len(meses_filtrados_list)))

# Soma os valores de todos os estados para cada mês selecionado
valores = ordenados_por_total[meses_filtrados_list].sum().values

# Plota a linha com os valores, marcando cada ponto
plt.plot(x, valores, color='teal')

# Define os ticks (marcações) do eixo X de 12 em 12 posições (1 por ano)
plt.gca().xaxis.set_major_locator(ticker.MultipleLocator(12))

# Define os rótulos dos ticks a cada 12 meses, usando os valores reais dos meses (formato 'YYYY/MM')
# Exemplo: mostra 2008/01, 2009/01, ..., a cada 12 meses
plt.xticks(
    ticks=x[::12],  # seleciona os índices múltiplos de 12 (0, 12, 24, ...)
    labels=[meses_filtrados_list[i] for i in range(0, len(x), 12)],  # pega os meses correspondentes
    rotation=45  # gira os rótulos para não ficarem sobrepostos
)

# Títulos e rótulos dos eixos
plt.xlabel('Por Ano')
plt.ylabel('Gasto aprovado em milhões')
plt.title('Produção Hospitalar ao Longo dos Anos')

# Adiciona a grade, com linhas suaves e discretas
plt.grid(True, linestyle='--', alpha=0.5)

# Ajusta layout para os rótulos não cortarem
plt.tight_layout()

# Mostra o gráfico
plt.show()


Desafio: escolher e utilizar outras cores para saltar mais aos olhos.

In [None]:
import matplotlib.pyplot as plt
import matplotlib.ticker as ticker

plt.figure(figsize=(12, 6))  # Define o tamanho do gráfico

# Converte o índice 'meses_filtrados' (que vem do DataFrame) em lista
meses_filtrados_list = meses_filtrados.tolist()

# Cria o eixo X como uma sequência de números (0, 1, 2, ..., N), representando os meses
x = list(range(len(meses_filtrados_list)))

# Soma os valores de todos os estados para cada mês selecionado
valores = ordenados_por_total[meses_filtrados_list].sum().values

# Plota a linha com os valores, marcando cada ponto
plt.plot(x, valores, color='red')

# Define os ticks (marcações) do eixo X de 12 em 12 posições (1 por ano)
plt.gca().xaxis.set_major_locator(ticker.MultipleLocator(12))

# Define os rótulos dos ticks a cada 12 meses, usando os valores reais dos meses (formato 'YYYY/MM')
# Exemplo: mostra 2008/01, 2009/01, ..., a cada 12 meses
plt.xticks(
    ticks=x[::12],  # seleciona os índices múltiplos de 12 (0, 12, 24, ...)
    labels=[meses_filtrados_list[i] for i in range(0, len(x), 12)],  # pega os meses correspondentes
    rotation=45  # gira os rótulos para não ficarem sobrepostos
)

# Títulos e rótulos dos eixos
plt.xlabel('Por Ano')
plt.ylabel('Gasto aprovado em milhões')
plt.title('Produção Hospitalar ao Longo dos Anos')

# Ajusta layout para os rótulos não cortarem
plt.tight_layout()

# Mostra o gráfico
plt.show()

Desafio: colocar uma grade (grid) horizontal e vertical que não seja intrusivo.

In [None]:
import matplotlib.pyplot as plt
import matplotlib.ticker as ticker

plt.figure(figsize=(12, 6))  # Define o tamanho do gráfico

# Converte o índice 'meses_filtrados' (que vem do DataFrame) em lista
meses_filtrados_list = meses_filtrados.tolist()

# Cria o eixo X como uma sequência de números (0, 1, 2, ..., N), representando os meses
x = list(range(len(meses_filtrados_list)))

# Soma os valores de todos os estados para cada mês selecionado
valores = ordenados_por_total[meses_filtrados_list].sum().values

# Plota a linha com os valores, marcando cada ponto
plt.plot(x, valores, color='red')

# Define os ticks (marcações) do eixo X de 12 em 12 posições (1 por ano)
plt.gca().xaxis.set_major_locator(ticker.MultipleLocator(12))

# Define os rótulos dos ticks a cada 12 meses, usando os valores reais dos meses (formato 'YYYY/MM')
# Exemplo: mostra 2008/01, 2009/01, ..., a cada 12 meses
plt.xticks(
    ticks=x[::12],  # seleciona os índices múltiplos de 12 (0, 12, 24, ...)
    labels=[meses_filtrados_list[i] for i in range(0, len(x), 12)],  # pega os meses correspondentes
    rotation=45  # gira os rótulos para não ficarem sobrepostos
)

# Títulos e rótulos dos eixos
plt.xlabel('Por Ano')
plt.ylabel('Gasto aprovado em milhões')
plt.title('Produção Hospitalar ao Longo dos Anos')

# Adiciona a grade, com linhas suaves e discretas
plt.grid(
    which='both',               # aplica a grade tanto em major quanto minor ticks
    axis='both',                # ativa para X e Y
    linestyle='--',             # linha pontilhada
    linewidth=1.0,              # linha mais fina
    color='purple',               # cor neutra
    alpha=0.3                   # transparência suave
)

# Ajusta layout para os rótulos não cortarem
plt.tight_layout()

# Mostra o gráfico
plt.show()

##1.5.1

In [None]:
mes_mais_recente = ordenados_por_total.columns[-1]
mes_mais_recente

In [None]:
gastos_do_mais_recente = ordenados_por_total[mes_mais_recente]
gastos_do_mais_recente.head()

In [None]:
gastos_do_mais_recente.plot()

In [None]:
gastos_do_mais_recente.plot(kind='pie')

- Difícil de identificar os elementos.
- Número de elementos é enorme.
- Qual o maior e menor? Qual é maior que qual?
- Qual a diferença de proporcionalidade?

Desafio: está ordenado ou não? Qual o motivo disso ter acontecido?

In [None]:
gastos_do_mais_recente.sample(frac=1).plot(kind="pie")

- Não dá para saber a ordem de jeito nenhum.
- Estamos sendo iludidos e iludidas em relação as proporções.
- Cores repetindo pois são muitos elementos.
- Tonalidades estão passando mensagens diferentes.

In [None]:
gastos_do_mais_recente

In [None]:
gastos_do_mais_recente / gastos_do_mais_recente.loc["41 Paraná"]

In [None]:
tabela_de_comparacao = gastos_do_mais_recente / gastos_do_mais_recente.loc["41 Paraná"]
tabela_de_comparacao.head(5)

In [None]:
tabela_de_comparacao.plot(kind="barh")

In [None]:
tabela_de_comparacao.plot(kind="bar")

In [None]:
tabela_de_comparacao = tabela_de_comparacao.sort_values(ascending=False)
tabela_de_comparacao.plot(kind="bar")

Desafio: passar uma linha horizontal no seu estado. Anotando o gráfico com uma linha.

In [None]:
import matplotlib.pyplot as plt

# Nome do seu estado
meu_estado = '31 Minas Gerais'  # troque pelo código + nome correto, se necessário

# Gasto do seu estado
gasto_estado = tabela_de_comparacao.loc[meu_estado]

# Plot do gráfico de barras
plt.figure(figsize=(14, 6))
tabela_de_comparacao.plot(kind="bar", color="skyblue")

# Adiciona linha horizontal no valor do estado
plt.axhline(y=gasto_estado, color='crimson', linestyle='--', linewidth=2)

# Anota a linha no gráfico
plt.text(
    x=len(tabela_de_comparacao) - 1,  # posição mais à direita
    y=gasto_estado + 0.05,            # um pouco acima da linha
    s=f"Gasto de {meu_estado}: R${gasto_estado:.2f} mi",
    color='crimson',
    fontsize=10,
    ha='right',
    va='bottom',
    fontweight='bold'
)

# Ajustes do gráfico
plt.title("Gastos Hospitalares por Estado")
plt.xlabel("Unidade da Federação")
plt.ylabel("Gasto (milhões)")
plt.xticks(rotation=90)
plt.grid(axis='y', linestyle='--', alpha=0.3)
plt.tight_layout()
plt.show()


Desafio: Atualizar o último gráfico para refletir seu estado, incluindo grid, eixos etc.

In [None]:
import matplotlib.pyplot as plt

# Nome do seu estado
meu_estado = '31 Minas Gerais'  # troque pelo código + nome correto, se necessário

# Gasto do seu estado
gasto_estado = tabela_de_comparacao.loc[meu_estado]

# Plot do gráfico de barras
plt.figure(figsize=(14, 6))
tabela_de_comparacao.plot(kind="bar", color="skyblue")

# Adiciona linha horizontal no valor do estado
plt.axhline(y=gasto_estado, color='crimson', linestyle='--', linewidth=2)

# Anota a linha no gráfico
plt.text(
    x=len(tabela_de_comparacao) - 1,  # posição mais à direita
    y=gasto_estado + 0.05,            # um pouco acima da linha
    s=f"Gasto de {meu_estado}: R${gasto_estado:.2f} mi",
    color='crimson',
    fontsize=10,
    ha='right',
    va='bottom',
    fontweight='bold'
)

# Ajustes do gráfico
plt.title("Gastos Hospitalares por Estado")
plt.xlabel("Unidade da Federação")
plt.ylabel("Gasto (milhões)")
plt.xticks(rotation=90)
plt.grid(axis='y', linestyle='--', alpha=1, color = 'Yellow')
plt.grid(axis='x', linestyle='--', alpha=1, color = 'Yellow')

plt.tight_layout()
plt.show()

Desafio: Colorir o seu estado com um tom diferente. Colorir os outros estados de acordo com gasto maior ou menor.

In [None]:
import matplotlib.pyplot as plt

# Nome exato do seu estado (exatamente como aparece na index da tabela)
meu_estado = '35 São Paulo'  # você pode trocar para seu estado

# Gasto do seu estado
gasto_estado = tabela_de_comparacao.loc[meu_estado]

# Cores condicionais
cores = []
for estado, gasto in tabela_de_comparacao.items():
    if estado == meu_estado:
        cores.append('crimson')  # destaque para o seu estado
    elif gasto > gasto_estado:
        cores.append('mediumseagreen')  # estados com mais gasto
    else:
        cores.append('lightgray')  # estados com menos gasto

# Plotando
plt.figure(figsize=(14, 6))
tabela_de_comparacao.plot(kind="bar", color=cores)

plt.text(
    tabela_de_comparacao.index.get_loc(meu_estado),  # posição no eixo x
    gasto_estado + 0.1,  # um pouco acima da barra
    f"R${gasto_estado:.2f} mi",
    ha='center', color='crimson', fontsize=10, fontweight='bold'
)

# Títulos e layout
plt.title("Gastos Hospitalares por Estado", fontsize=14)
plt.ylabel("Gastos (em milhões)", fontsize=12)
plt.xlabel("Unidade da Federação", fontsize=12)
plt.xticks(rotation=90)
plt.grid(axis='y', linestyle='--', alpha=0.3)
plt.tight_layout()
plt.show()


In [None]:
tabela_de_comparacao

Desafio: gasto por população de dois estados. Escolher dois estados, plotar a comparação desses gastos de acordo com a população deles. (base IBGE por exemplo)

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

# Dados fornecidos (com gasto em milhões)
dados = {
    'Estado': ['35 São Paulo', '31 Minas Gerais', '41 Paraná', '33 Rio de Janeiro', '43 Rio Grande do Sul',
               '42 Santa Catarina', '29 Bahia', '26 Pernambuco', '23 Ceará', '52 Goiás', '15 Pará',
               '32 Espírito Santo', '21 Maranhão', '25 Paraíba', '53 Distrito Federal', '24 Rio Grande do Norte',
               '50 Mato Grosso do Sul', '51 Mato Grosso', '13 Amazonas', '22 Piauí', '28 Sergipe', '27 Alagoas',
               '11 Rondônia', '17 Tocantins', '16 Amapá', '12 Acre', '14 Roraima'],
    'Gasto (milhões)': [2.54, 1.36, 1.00, 0.72, 0.68, 0.64, 0.58, 0.53, 0.40, 0.32, 0.29, 0.26, 0.24, 0.23,
                        0.20, 0.17, 0.17, 0.15, 0.14, 0.13, 0.09, 0.08, 0.07, 0.06, 0.02, None, None]
}

# Criando o dataframe
df = pd.DataFrame(dados)

# Remover linhas com valores NaN (Acre e Roraima)
df = df.dropna()

# População (milhões) dos estados (substitua pelos dados reais)
populacao = {
    '35 São Paulo': 45.9, '31 Minas Gerais': 21.0, '41 Paraná': 11.5, '33 Rio de Janeiro': 17.4,
    '43 Rio Grande do Sul': 11.3, '42 Santa Catarina': 7.3, '29 Bahia': 15.1, '26 Pernambuco': 9.6,
    '23 Ceará': 9.1, '52 Goiás': 7.1, '15 Pará': 8.6, '32 Espírito Santo': 4.1, '21 Maranhão': 7.1,
    '25 Paraíba': 4.0, '53 Distrito Federal': 3.1, '24 Rio Grande do Norte': 3.2, '50 Mato Grosso do Sul': 2.8,
    '51 Mato Grosso': 3.5, '13 Amazonas': 4.1, '22 Piauí': 3.2, '28 Sergipe': 2.3, '27 Alagoas': 3.3,
    '11 Rondônia': 1.8, '17 Tocantins': 1.5, '16 Amapá': 0.8
}

# Adicionando a população ao dataframe
df['População (milhões)'] = df['Estado'].map(populacao)

# Calculando o gasto per capita
df['Gasto per Capita (milhões)'] = df['Gasto (milhões)'] / df['População (milhões)']

# Selecionando apenas os dois estados para comparação
estados_comparacao = ['35 São Paulo', '31 Minas Gerais']
df_comparacao = df[df['Estado'].isin(estados_comparacao)]

# Plotando a comparação
plt.figure(figsize=(8, 6))
plt.bar(df_comparacao['Estado'], df_comparacao['Gasto per Capita (milhões)'], color=['crimson', 'mediumseagreen'])

# Adicionando os valores do gasto per capita
for i, row in df_comparacao.iterrows():
    plt.text(i, row['Gasto per Capita (milhões)'] + 0.05, f"{row['Gasto per Capita (milhões)']:.2f}", ha='center', fontsize=10)

# Títulos e ajustes no gráfico
plt.title('Comparação de Gasto per Capita: São Paulo vs Minas Gerais', fontsize=14)
plt.xlabel('Estado', fontsize=12)
plt.ylabel('Gasto per Capita (milhões)', fontsize=12)
plt.xticks(rotation=0)
plt.tight_layout()
plt.show()


Desafio: Explore gráficos e as tabelas, encontre o que você acha de interessante, levante perguntas e hipóteses.

Desafio: Escolha outro valor além de "Valor Aprovado" no tabnet.

#Visualização de dados - MODULO 2

##2.1.1

In [None]:
ibge_estimativa = pd.read_excel("/content/drive/MyDrive/FIAP/visualizacao_de_dados/estimativa_população_2024.xls")
ibge_estimativa.head()

In [None]:
dados_da_populacao = """Posição	Unidade federativa	População	% da pop. total	País comparável
(habitantes)

1	 São Paulo	46 649 132	21,9%	Flag of Spain.svg Espanha (46 439 864)
2	 Minas Gerais	21 411 923	10,1%	 Sri Lanka (20 675 000)
3	 Rio de Janeiro	17 463 349	8,2%	 Países Baixos (16 922 900)
4	Bahia Bahia	14 985 284	7,1%	 Chade (14 037 000)
5	 Paraná	11 597 484	5,4%	 Bolívia (11 410 651)
6	 Rio Grande do Sul	11 466 630	5,4%	 Bélgica (11 250 659)
7	 Pernambuco	9 674 793	4,5%	 Bielorrússia (9 485 300)
8	 Ceará	9 240 580	4,3%	 Emirados Árabes Unidos (9 157 000)
9	Pará Pará	8 777 124	4,1%	 Áustria (8 602 112)
10	 Santa Catarina	7 338 473	3,4%	 Sérvia (7 114 393)
11	 Goiás	7 206 589	3,4%	 Paraguai (7 003 406)
12	 Maranhão	7 153 262	3,4%	 Paraguai (7 003 406)
13	 Amazonas	4 269 995	2,0%	 Líbano (4 168 000)
14	 Espírito Santo	4 108 508	1,9%	 Líbano (4 168 000)
15	 Paraíba	4 059 905	1,9%	 Líbano (4 168 000)
16	 Mato Grosso	3 567 234	1,7%	 Uruguai (3 415 866)
17	 Rio Grande do Norte	3 560 903	1,7%	 Uruguai (3 415 866)
18	 Alagoas	3 365 351	1,6%	 Uruguai (3 415 866)
19	 Piauí	3 289 290	1,6%	 Kuwait (3 268 431)
20	 Distrito Federal	3 094 325	1,4%	 Lituânia (2 900 787)
21	 Mato Grosso do Sul	2 839 188	1,3%	 Jamaica (2 717 991)
22	 Sergipe	2 338 474	1,1%	 Namíbia (2 280 700)
23	 Rondônia	1 815 278	0,8%	 Gabão (1 725 000)
24	 Tocantins	1 607 363	0,7%	 Bahrein (1 359 800)
25	 Acre	906 876	0,4%	 Fiji (859 178)
26	 Amapá	877 613	0,4%	 Fiji (859 178)
27	 Roraima	652 713	0,3%	 Luxemburgo (562 958)"""

#String com varias linhas deve ser escrita começando e terminando com 3 aspas
# fonte https://pt.wikipedia.org/wiki/Lista_de_unidades_federativas_do_Brasil_por_popula%C3%A7%C3%A3o#cite_note-IBGE_POP-1
# fonte indireta IBGE

In [None]:
from io import StringIO #importar leitor de String I= imput O=output = entrada e saída

dados_da_populacao_io = StringIO(dados_da_populacao)

populacao = pd.read_csv(dados_da_populacao_io, sep="\t") #"\t" que é o tab de espaço
populacao = populacao.dropna() #Excluir vazios #Changed line to call dropna on the dataframe
populacao.head()

Desafio: pesquisar a documentação da StringIO (e IO)

In [None]:
"""O que é?
StringIO é um objeto que se comporta como um arquivo, mas na verdade lê e escreve strings na memória, não no disco.

Pra que serve?
Você usa StringIO quando quer simular um arquivo (sem criar um de verdade), tipo para testes ou para manipular dados que vêm em texto.

Exemplo"""

from io import StringIO

# Criando um "arquivo" de texto em memória
texto = "Nome,Idade\nAna,22\nJoão,30"
arquivo = StringIO(texto)

# Agora podemos usar o pandas para ler como se fosse um arquivo CSV
import pandas as pd
df = pd.read_csv(arquivo)

print(df)

Desafio: limpar o excel do IBGE com nomes de colunas apropriados e linhas somente representando as unidades federativas.

In [None]:
import pandas as pd

# Abrir o arquivo
estimativa_população_1995 = pd.read_excel("/content/drive/MyDrive/FIAP/visualizacao_de_dados/estimativa_populacao_1995.xls", skiprows=2)  # se precisar pular 2 primeiras linhas

# 2. Excluir as linhas que têm qualquer NaN
estimativa_população_1995 = estimativa_população_1995.dropna()
estimativa_população_1995

Desafio: ler diretamente da wikipedia a versão html.


In [None]:
import pandas as pd

# Link da página (atenção para colocar o URL correto)
url = "https://pt.wikipedia.org/wiki/Lista_de_unidades_federativas_do_Brasil_por_popula%C3%A7%C3%A3o"

# Ler todas as tabelas da página
tabelas = pd.read_html(url)

# Ver quantas tabelas foram carregadas
print(f"Quantidade de tabelas encontradas: {len(tabelas)}")

# Mostrar as primeiras linhas da primeira tabela (índice 0)
df_estados = tabelas[0]
print(df_estados.head())


##2.1.2


In [None]:
populacao.columns = ["posicao", "uf", "populacao", "porcentagem", "pais_comparavel"] #renomeando as colunas
populacao["populacao"] = populacao["populacao"].str.replace(" ","").astype(int) #substituir espaços da coluna população da planilha população com replace, replace de series é
populacao = populacao[["uf", "populacao"]]#para trazer somente as colunas sinalizadas
populacao.head()

In [None]:
populacao.info()

In [None]:
populacao.describe()

Desafio: quais são os dtypes que o pandas possui.

"""Principais dtypes que o Pandas trabalha:

int64 -	Número inteiro grande	- 1, 2, 1000

float64 -	Número decimal (ponto flutuante) -	3.14, 2.0

bool- Valor booleano (True/False) -	True, False

object - Texto (strings ou dados mistos) -	"São Paulo", "FIAP"

datetime64 - Datas e horários -	2025-04-26 12:00

timedelta64	- Diferença entre datas/tempos -	5 days, 2 hours

category -	Valores categóricos otimizados -	["SP", "RJ", "MG"]

string -	Nova forma de string (mais segura) -	"Texto", "Cidade"

Desafio: explorar str do pandas.


.str.lower()	Deixa tudo minúsculo	"SÃO PAULO" → "são paulo"

.str.upper()	Deixa tudo MAIÚSCULO	"minas gerais" → "MINAS GERAIS"

.str.title()	Deixa Estilo Título	"rio de janeiro" → "Rio De Janeiro"

.str.strip()	Remove espaços dos lados	" São Paulo " → "São Paulo"

.str.replace("A", "B")	Substitui texto	"Para" → "Pr"

.str.contains("SP")	Verifica se contém texto	True/False

.str.len()	Conta número de caracteres	"São Paulo" → 9

Desafio: estudar o read_table.

O pd.read_table() é usado para ler arquivos tipo texto onde o separador é diferente do padrão (ex: tabulação \t, espaço, etc).

Basicamente, ele é como read_csv(), mas padrão com sep="\t".

sep →	Define o separador entre colunas

header →	Se tem cabeçalho (linha de nomes)

names →	Se quiser passar o nome das colunas

index_col →	Qual coluna vira o índice

In [None]:
display(gastos_do_mais_recente.head())
display(populacao.head())

In [None]:
populacao = populacao.set_index("uf")
populacao.head()

In [None]:
populacao.index = populacao.index.str.strip()
populacao.head()

In [None]:
gastos_do_mais_recente.index = gastos_do_mais_recente.index.str[3:]
gastos_do_mais_recente.head()

In [None]:
for estado in gastos_do_mais_recente.index:
  populacao.index = populacao.index.str.replace(f"{estado} {estado}", estado)
populacao.index

In [None]:
gastos_e_populacao = populacao.join(gastos_do_mais_recente)
gastos_e_populacao

Desafio: é possível fazer o processo de outra forma sem utilizar a palavra for?

In [None]:
# Remove palavras repetidas consecutivas (ex: "Rondônia Rondônia" -> "Rondônia")
populacao.index = populacao.index.str.replace(r"\b(\w+)\s+\1\b", r"\1", regex=True)

Como funciona:

\b → define uma “fronteira de palavra”

(\w+) → captura uma palavra (letras/números)

\s+ → captura um ou mais espaços

\1 → refere-se à palavra capturada anteriormente (ou seja, a repetição)

regex=True → necessário para ativar substituição por padrão regex

##2.2.1

In [None]:
ultima_coluna = gastos_e_populacao.columns[-1]
gastos_e_populacao["gastos"] = gastos_e_populacao[ultima_coluna]*1_000_000

# que horror

In [None]:
gastos_e_populacao.loc[["Ceará", "Pará"]]#loc localiza no indice

In [None]:
35650007.47 / 9240580

In [None]:
20837865.89 / 8777124

In [None]:
gastos_e_populacao["gasto_por_habitante"] = gastos_e_populacao["gastos"] / gastos_e_populacao["populacao"]
gastos_e_populacao.head()

In [None]:
gastos_e_populacao["gasto_por_habitante"].plot(kind="bar")#somente a coluna gasto por habitante

Desafio: deixar o gráfico de gastos_e_população mais arrumadinho com legenda adequada, títulos, eixos e ordenar do maior gasto por habitante para menor.


In [None]:
import matplotlib.pyplot as plt

ax = gastos_e_populacao["gasto_por_habitante"].sort_values(ascending=False).plot(
    kind="bar",
    figsize=(12, 6),
    color="#1f77b4",
    edgecolor='black'
)

# Títulos e rótulos
ax.set_title("Gasto por habitante em janeiro de 2025", fontsize=16, fontweight='bold')
ax.set_xlabel("Unidade da Federação", fontsize=12)
ax.set_ylabel("Gasto médio por habitante (R$)", fontsize=12)

# Adiciona grid horizontal pontilhado
ax.grid(axis='y', linestyle=':', linewidth=0.8)

# Remove a borda do gráfico
ax.spines['top'].set_visible(False)
ax.spines['right'].set_visible(False)

# Rotaciona os rótulos do eixo x, se necessário
plt.xticks(rotation=45, ha='right')

# Ajusta o layout para não cortar texto
plt.tight_layout()

# Exibe o gráfico
plt.show()

Desafio: colocar a média dos gastos como uma linha horizontal e ordenado por gastos por habitante

In [None]:
import matplotlib.pyplot as plt

# Ordenar do maior para o menor gasto por habitante
gastos_ordenado = gastos_e_populacao.sort_values("gasto_por_habitante", ascending=False)

# Calcular a média dos gastos por habitante
media_gasto = gastos_ordenado["gasto_por_habitante"].mean()

# Criar o gráfico de barras
fig, ax = plt.subplots(figsize=(14, 7))
gastos_ordenado["gasto_por_habitante"].plot(
    kind="bar",
    color="skyblue",
    edgecolor="black",
    ax=ax
)

# Título e eixos
ax.set_title("Gasto Público por Habitante por UF - 2025/Jan", fontsize=16)
ax.set_xlabel("Unidade Federativa (UF)", fontsize=12)
ax.set_ylabel("Gasto por Habitante (R$)", fontsize=12)

# Adicionar linha da média
ax.axhline(y=media_gasto, color="red", linestyle="--", linewidth=1.5, label=f"Média: R$ {media_gasto:.2f}")

# Adicionar valores nas barras
for bar in ax.patches:
    height = bar.get_height()
    ax.annotate(f"{height:.1f}",
                xy=(bar.get_x() + bar.get_width() / 2, height),
                xytext=(0, 3),  # deslocamento vertical
                textcoords="offset points",
                ha="center", va="bottom", fontsize=9)

# Melhorar visual dos rótulos
plt.xticks(rotation=45, ha="right")

# Ajustar o eixo Y
ax.set_ylim(0, gastos_ordenado["gasto_por_habitante"].max() * 1.15)

# Legenda e layout
ax.legend()
plt.tight_layout()
plt.show()


In [None]:
import seaborn as sns #grad=fico de pontos para relacionamento de variáveis
sns.scatterplot(data = gastos_e_populacao / 1_000_000, x="populacao", y="gastos")

In [None]:
plt.figure(figsize=(7,7))
sns.scatterplot(data = gastos_e_populacao / 1_000_000, x="populacao", y="gastos")

In [None]:
plt.figure(figsize=(7,7))
sns.scatterplot(data = gastos_e_populacao, x="populacao", y="gasto_por_habitante")

Desafio: melhorar todos os gráficos. Já tem nomes nos eixo x e y mas tem muito o que melhorar.

In [None]:
# Importar bibliotecas
import matplotlib.pyplot as plt
import seaborn as sns
from matplotlib.ticker import FuncFormatter

# Configurar o tamanho da figura
plt.figure(figsize=(10, 8))  # largura x altura em polegadas

# Criar o gráfico de dispersão (scatterplot)
ax = sns.scatterplot(
    data=gastos_e_populacao,  # tabela que contém os dados
    x="populacao",            # eixo X: população
    y="gasto_por_habitante",  # eixo Y: gasto por habitante
    color="dodgerblue",       # cor dos pontos
    s=100,                    # tamanho dos pontos (marker size)
    edgecolor="black"         # borda dos pontos
)

# Adicionar título ao gráfico
ax.set_title("Relação entre População e Gasto por Habitante", fontsize=18)

# Nomear os eixos
ax.set_xlabel("População", fontsize=14)
ax.set_ylabel("Gasto por Habitante (R$)", fontsize=14)

# Ativar grid (grades) para facilitar a visualização
ax.grid(True, linestyle="--", alpha=0.7)  # estilo tracejado e transparência da linha

# Formatar o eixo X para aparecer em milhões (ex: 10M)
ax.xaxis.set_major_formatter(FuncFormatter(lambda x, _: f'{int(x/1_000_000)}M'))

# Melhorar a leitura dos números nos eixos
ax.tick_params(axis='both', labelsize=12)

# Ajustar o layout para não cortar nada
plt.tight_layout()

# Mostrar o gráfico
plt.show()

In [None]:
gastos_e_populacao

Desafio: executar o mesmo gráfico para o penúltimo mês.

In [None]:
penultimo_mes = ordenados_por_total.columns[-2]
penultimo_mes

In [None]:
gastos_do_penultimo = ordenados_por_total[penultimo_mes]
gastos_do_penultimo.head()

In [None]:
gastos_do_penultimo.index = gastos_do_penultimo.index.str[3:]
gastos_do_penultimo.head()

In [None]:
#Padrinizar titulos de colunas

for estado in gastos_do_penultimo.index:
  populacao.index = populacao.index.str.replace(f"{estado} {estado}", estado)
populacao.index

In [None]:
gastos_e_populacao = populacao.join(gastos_do_penultimo)
gastos_e_populacao.head()

In [None]:
gastos_e_populacao["gastos"] = gastos_e_populacao["2024/Dez"] * 1_000_000

In [None]:
gastos_e_populacao["gasto_por_habitante"] = gastos_e_populacao["gastos"] / gastos_e_populacao["populacao"]
gastos_e_populacao.head()

In [None]:
import matplotlib.pyplot as plt

# Ordenar do maior para o menor gasto por habitante
gastos_ordenado = gastos_e_populacao.sort_values("gasto_por_habitante", ascending=False)

# Calcular a média dos gastos por habitante
media_gasto = gastos_ordenado["gasto_por_habitante"].mean()

# Criar o gráfico de barras
fig, ax = plt.subplots(figsize=(14, 7))
gastos_ordenado["gasto_por_habitante"].plot(
    kind="bar",
    color="skyblue",
    edgecolor="black",
    ax=ax
)

# Título e eixos
ax.set_title("Gasto Público por Habitante por UF - Dez/2024", fontsize=16)
ax.set_xlabel("Unidade Federativa (UF)", fontsize=12)
ax.set_ylabel("Gasto por Habitante (R$)", fontsize=12)

# Adicionar linha da média
ax.axhline(y=media_gasto, color="red", linestyle="--", linewidth=1.5, label=f"Média: R$ {media_gasto:.2f}")

# Adicionar valores nas barras
for bar in ax.patches:
    height = bar.get_height()
    ax.annotate(f"{height:.1f}",
                xy=(bar.get_x() + bar.get_width() / 2, height),
                xytext=(0, 3),  # deslocamento vertical
                textcoords="offset points",
                ha="center", va="bottom", fontsize=9)

# Melhorar visual dos rótulos
plt.xticks(rotation=45, ha="right")

# Ajustar o eixo Y
ax.set_ylim(0, gastos_ordenado["gasto_por_habitante"].max() * 1.15)

# Legenda e layout
ax.legend()
plt.tight_layout()
plt.show()

Desafio: plote o gráfico de gasto por população para os dois meses simultâneamente. Diferenciando os pontos com uma tonalidade de cor diferente para cada mês.

In [None]:
ultimos_meses = ordenados_por_total.columns[-2:]  # retorna uma lista com os dois últimos
ultimos_meses

In [None]:
gastos_do_dois_ultimos = ordenados_por_total[ultimos_meses]
gastos_do_dois_ultimos.head()

In [None]:
gastos_do_dois_ultimos.index = gastos_do_dois_ultimos.index.str.replace(r"^\d+\s*", "", regex=True).str.strip()
gastos_do_dois_ultimos.head()

In [None]:
# Padronizar os índices
populacao.index = populacao.index.str.strip()

# Remove números e espaços do início dos nomes no índice de gastos
gastos_do_dois_ultimos.index = gastos_do_dois_ultimos.index.str.replace(r"^\d+\s*", "", regex=True).str.strip()

# Juntar os dados
gastos_com_pop = populacao.join(gastos_do_dois_ultimos)

# Calcular o gasto por habitante
for mes in gastos_do_dois_ultimos.columns:
    gastos_com_pop[f'gastos_por_hab_{mes}'] = (gastos_com_pop[mes] * 1_000_000) / gastos_com_pop['populacao']
    gastos_com_pop.drop(columns=[mes], inplace=True)

# Visualizar resultado
gastos_com_pop.head()


In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# Resetar o índice para trazer 'uf' como coluna
df_plot = gastos_com_pop.reset_index().rename(columns={'index': 'uf'})

# Selecionar colunas de gasto por habitante
colunas_gasto = [col for col in df_plot.columns if 'gastos_por_hab_' in col]

# Transformar de wide para long
df_long = df_plot.melt(
    id_vars='uf',
    value_vars=colunas_gasto,
    var_name='mes',
    value_name='gasto_per_capita'
)

# Limpar o nome do mês, ex: "gastos_por_hab_2025/Jan" → "2025/Jan"
df_long['mes'] = df_long['mes'].str.replace('gastos_por_hab_', '', regex=False)

# Plotar com seaborn
plt.figure(figsize=(12, 6))
ax = sns.scatterplot(
    data=df_long,
    x='uf',
    y='gasto_per_capita',
    hue='mes',
    palette='Set2',
    s=120,
    edgecolor='black'
)

# Ajustes do gráfico
ax.set_title('Gasto per Capita por Estado — Comparação entre Meses', fontsize=16)
ax.set_xlabel('Estado', fontsize=12)
ax.set_ylabel('Gasto per Capita (R$)', fontsize=12)
ax.set_xticklabels(ax.get_xticklabels(), rotation=45, ha='right')
ax.grid(True, linestyle='--', alpha=0.7)
ax.legend(title='Mês', title_fontsize=11, fontsize=10)
plt.tight_layout()
plt.show()


In [None]:
print(populacao.index)
print(gastos_do_dois_ultimos.index)

##2.2.2

In [None]:
ordenados_por_total.index = ordenados_por_total.index.str[3:].str.strip()
ordenados_por_total.head()

In [None]:
def insere_gastos_e_gasto_por_habitante(ordenados_por_total, gastos_e_populacao, mes):
  gastos = ordenados_por_total[mes]
  gastos_e_populacao =  gastos_e_populacao.join(gastos, rsuffix="_gastos")
  gastos_e_populacao[f"gasto_por_habitante_{mes}"] = gastos_e_populacao[f"gastos_{mes}"] / gastos_e_populacao["populacao"]
  return gastos_e_populacao

In [None]:
print(ordenados_por_total.index)
print(gastos_e_populacao.index)

In [None]:
def insere_gastos_e_gasto_por_habitante(ordenados_por_total, gastos_e_populacao, mes):
  gastos = ordenados_por_total[mes]
  gastos_e_populacao[f"gastos_{mes}"] = gastos * 1_000_000
  gastos_e_populacao[f"gasto_por_habitante_{mes}"] = gastos_e_populacao[f"gastos_{mes}"] / gastos_e_populacao["populacao"]
  return gastos_e_populacao

In [None]:
gastos_e_populacao = insere_gastos_e_gasto_por_habitante(ordenados_por_total, gastos_e_populacao, ordenados_por_total.columns[-1])
gastos_e_populacao.head()

In [None]:
gastos_e_populacao = insere_gastos_e_gasto_por_habitante(ordenados_por_total, gastos_e_populacao, ordenados_por_total.columns[-2])
gastos_e_populacao = insere_gastos_e_gasto_por_habitante(ordenados_por_total, gastos_e_populacao, ordenados_por_total.columns[-3])
gastos_e_populacao.head()

In [None]:
plt.figure(figsize=(7,7))
sns.scatterplot(data = gastos_e_populacao, x = "populacao", y ="gastos_2025/Jan", color = "blue")
sns.scatterplot(data = gastos_e_populacao, x = "populacao", y ="gastos_2024/Dez", color = "red")
sns.scatterplot(data = gastos_e_populacao, x = "populacao", y ="gastos_2024/Nov", color = "orange")

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Renomear as colunas
gastos_e_populacao = gastos_e_populacao.rename(
    columns={
        gastos_e_populacao.columns[-1]: "gastos_2021/Ago",
        gastos_e_populacao.columns[-2]: "gastos_2021/Jul",
        gastos_e_populacao.columns[-3]: "gastos_2021/Jun",
    }
)

# Criar o gráfico
plt.figure(figsize=(7, 7))

# Plotar os pontos para cada mês com cores e rótulos
sns.scatterplot(
    data=gastos_e_populacao,
    x="populacao", y="gastos_2021/Ago",
    label="Ago/2021", color="blue", s=100, edgecolor="black"
)
sns.scatterplot(
    data=gastos_e_populacao,
    x="populacao", y="gastos_2021/Jul",
    label="Jul/2021", color="green", s=100, edgecolor="black"
)
sns.scatterplot(
    data=gastos_e_populacao,
    x="populacao", y="gastos_2021/Jun",
    label="Jun/2021", color="orange", s=100, edgecolor="black"
)

# Ajustes
plt.title("Gasto por População — Meses de 2021", fontsize=14)
plt.xlabel("População")
plt.ylabel("Gasto por Habitante (R$)")
plt.legend(title="Mês")
plt.grid(True, linestyle='--', alpha=0.7)
plt.tight_layout()
plt.show()


In [None]:
print (gastos_e_populacao)

In [None]:
print(gastos_e_populacao["gastos_2021/Jun"])
print(gastos_e_populacao["gastos_2021/Jul"])
print(gastos_e_populacao["gastos_2021/Ago"])

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Transformar para formato long (de colunas em linhas)
df_long = gastos_e_populacao.reset_index().melt(
    id_vars=["uf", "populacao"],
    value_vars=["gastos_2021/Jun", "gastos_2021/Jul", "gastos_2021/Ago"],
    var_name="mes",
    value_name="gasto_per_capita"
)

# Plotar com hue para diferenciar os meses
plt.figure(figsize=(10, 6))
sns.scatterplot(
    data=df_long,
    x="populacao",
    y="gasto_per_capita",
    hue="mes",
    palette="Set2",
    s=100,
    edgecolor="black"
)

# Ajustes visuais
plt.title("Gasto por Habitante vs População (Jun, Jul, Ago de 2021)", fontsize=14)
plt.xlabel("População")
plt.ylabel("Gasto por Habitante (R$)")
plt.grid(True, linestyle="--", alpha=0.7)
plt.legend(title="Mês")
plt.tight_layout()
plt.show()


Desafio: legenda, diminuir marcações e arrumar o gráfico.

Desafio: explorem esse gráfico e levantem alguma hipótese ou questão.

Desafio: comparar os últimos 12 meses com os 12 meses anteriores. Somar os 12 últimos meses em uma única coluna.

##2.3.1

In [None]:
ordenados_por_total.head()

In [None]:
sns.scatterplot(x=ordenados_por_total.columns, y=ordenados_por_total.loc["São Paulo"])

In [None]:
mensal = ordenados_por_total.T
mensal.head()

In [None]:
sns.scatterplot(data=mensal, x=mensal.index, y="São Paulo")

Desafio: fazer o gráfico com dois estados, uma cor diferente para cada estado.

In [None]:
plt.figure(figsize=(10,6))
axis = sns.lineplot(data=mensal, x=mensal.index, y="São Paulo")
plt.xticks(rotation=30)
plt.ylim(50, 600)
axis.xaxis.set_major_locator(ticker.IndexLocator(base=12, offset=11))
plt.grid(linestyle="--")
plt.show()

Desafio: no gráfico acima utilizar um valor máximo do eixo y que caiba todos os valores da nossa série. Além disso precisa de um "respiro" (white space).

Desafio: parece que fevereiro o valor sempre cai, é isso mesmo? Qual seria um possível motivo?

Desafio: colocar um minor locator no mês de julho.

In [None]:
plt.grid()

In [None]:
import matplotlib.pyplot as plt

x = [1, 2, 3, 4, 5]
y = [2, 4, 6, 8, 10]

plt.plot(x, y)
plt.grid(True)
plt.show()

In [None]:
import matplotlib.pyplot as plt
import matplotlib.dates as mdates
import numpy as np
import datetime

dates = [datetime.datetime(2021, 1, 1),
         datetime.datetime(2021, 2, 1),
         datetime.datetime(2021, 3, 1),
         datetime.datetime(2021, 4, 1),
         datetime.datetime(2021, 5, 1),
         datetime.datetime(2021, 6, 1),
         datetime.datetime(2021, 7, 1)]
y = np.array([1, 4, 9, 16, 25, 36, 49])

plt.plot(dates, y)

# Define a localização dos marcadores principais como intervalos de 1 mês
ax = plt.gca()
ax.xaxis.set_major_locator(mdates.MonthLocator())

# Formata os marcadores principais como meses e anos
ax.xaxis.set_major_formatter(mdates.DateFormatter('%b %Y'))

plt.show()

In [None]:
import matplotlib.pyplot as plt
import numpy as np
import matplotlib.ticker as ticker

x = np.arange(0, 10, 0.1)
y = x ** 2

plt.plot(x, y)

# Define a localização dos marcadores principais como intervalos de 2
ax = plt.gca()
ax.xaxis.set_major_locator(ticker.MultipleLocator(2))

plt.show()

##2.4.1

In [None]:
mensal.info()

In [None]:
mensal.index

In [None]:
def f(x):
  print(f"valor: {x}")

# mensal.index.map(f)

In [None]:
from datetime import date

meses = {
    "Jan" : 1,
    "Fev" : 2,
    "Mar" : 3,
    "Abr" : 4,
    "Mai" : 5,
    "Jun" : 6,
    "Jul" : 7,
    "Ago" : 8,
    "Set" : 9,
    "Out" : 10,
    "Nov" : 11,
    "Dez" : 12
}

def para_dia(ano_mes: str):
  ano: int = int(ano_mes[:4])
  mes_como_string: str = ano_mes[5:]
  mes: int = meses[mes_como_string]
  return date(ano, mes, 1)

  # Remove problematic rows before converting index:
mensal = mensal[mensal.index != 'Região']

# Convert index only if not already datetime.date:
if not all(isinstance(x, date) for x in mensal.index):
    mensal.index = mensal.index.map(para_dia)

mensal.head()  # Display the DataFrame

In [None]:
plt.figure(figsize=(10,6))
axis = sns.lineplot(data=mensal, x=mensal.index, y="São Paulo")
plt.ylim(0, 600)
plt.grid(linestyle="--")
plt.show()

In [None]:
mensal.index[0]

##2.4.2

In [None]:
plt.figure(figsize=(10,6))
axis = sns.lineplot(data=mensal, x=mensal.index, y="São Paulo")
axis = sns.lineplot(data=mensal, x=mensal.index, y="Minas Gerais")
plt.ylim(0, 600)
plt.grid(linestyle="--")
plt.show()

In [None]:
mensal.head()

In [None]:
mensal_aberto = mensal.reset_index().melt(id_vars=["index"], value_vars=mensal.columns)
mensal_aberto.columns = ["dia_mes_ano", "uf", "gasto"]
mensal_aberto.head()

Desafio opcional: como criar uma tabela equivalente ao `mensal` baseada no `mensal_aberto`

In [None]:
plt.figure(figsize=(10,6))
axis = sns.lineplot(data=mensal_aberto, x="dia_mes_ano", y="gasto", hue="uf")
plt.ylim(0, 600)
plt.grid(linestyle="--")
plt.show()

Desafio: plotar o mesmo gráfico, porém com somente 2 estados que você escolherá.

Desafio: escolher uma paleta de cores adequada, de tamanho adequado (pelo menos 27 cores).

Desafio: formatar legenda e eixos.

Desafio: como configurar o grid com o seaborn?

##2.5.1

In [None]:
mensal_aberto.head()

In [None]:
mensal_aberto["dia_mes_ano"][0]

In [None]:
mensal_aberto["dia_mes_ano"][0].year

In [None]:
mensal_aberto.shape

In [None]:
mensal_aberto["dia_mes_ano"].astype("datetime64[ns]")

In [None]:
mensal_aberto["dia_mes_ano"] = pd.to_datetime(mensal_aberto["dia_mes_ano"])
mensal_aberto["dia_mes_ano"]

In [None]:
mensal_aberto.info()

In [None]:
mensal_aberto["dia_mes_ano"].dt.year

In [None]:
mensal_aberto["ano"] = mensal_aberto["dia_mes_ano"].dt.year
mensal_aberto["mes"] = mensal_aberto["dia_mes_ano"].dt.month
mensal_aberto.head()

In [None]:
mensal_aberto.query("uf=='São Paulo'")

In [None]:
plt.figure(figsize=(10,6))
axis = sns.lineplot(data=mensal_aberto.query("uf=='São Paulo'"), x="mes", y="gasto", hue="ano")
plt.ylim(0, 600)
plt.grid(linestyle="--")
plt.show()

Desafio: cores (paleta de cores), labels, espaçamento dos ticks.

Desafio: escolher um ano e plotar o mesmo ano para dois estados diferentes no mesmo gráfico. Usar estados de regiões diferentes do país. Comparar e tentar concluir algo.

Desafio: nomes dos meses no eixo X.

In [None]:
dias_por_mes = {
    1 : 31,
    2 : 28,
    3 : 31,
    4 : 30,
    5 : 31,
    6 : 30,
    7 : 31,
    8 : 31,
    9 : 30,
    10 : 31,
    11 : 30,
    12 : 31
}

In [None]:
mensal_aberto["gasto_diario"] = mensal_aberto["gasto"] / mensal_aberto["mes"].map(dias_por_mes)
mensal_aberto.head()

Lembrar de anos bissextos, feriados etc.

In [None]:
plt.figure(figsize=(10,6))
axis = sns.lineplot(data=mensal_aberto.query("uf=='São Paulo'"), x="mes", y="gasto_diario", hue="ano")
plt.ylim(0, 20)
plt.grid(linestyle="--")
plt.show()

In [None]:
plt.figure(figsize=(10,6))
axis = sns.lineplot(data=mensal_aberto.query("uf=='Pará'"), x="mes", y="gasto_diario", hue="ano")
plt.ylim(0, 20)
plt.grid(linestyle="--")
plt.show()

In [None]:
plt.figure(figsize=(10,6))
axis = sns.lineplot(data=mensal_aberto.query("uf=='Pará'"), x="mes", y="gasto_diario", hue="ano")
plt.ylim(0, 3)
plt.grid(linestyle="--")
plt.show()

Desafio: um único gráfico com um único ano do Pará e São Paulo. Cuidado com cores.

Desafio: escolha dois estados. Pegue a população desses dois estados nos últimos 12 meses e calcule o gasto por pessoa nesses estados. Faça o gráfico de linhas com uma linha para cada 12 meses desses estados com o seu gasto por pessoa.

##2.6.1

In [None]:
mensal_do_meu_estado = mensal_aberto.query("uf =='São Paulo'")
mensal_do_meu_estado

In [None]:
gastos_por_ano = mensal_do_meu_estado.select_dtypes(include='number').groupby("ano").sum()
gastos_por_ano

In [None]:
gastos_por_ano.plot(kind="pie", y="gasto")

In [None]:
sns.scatterplot(data=gastos_por_ano, x=gastos_por_ano.index, y="gasto")

In [None]:
sns.lineplot(data=gastos_por_ano, x=gastos_por_ano.index, y="gasto")
#Lineplato é pior pois gera a sensação de existência de valores intermediários

In [None]:
paleta = sns.color_palette("flare",19)
sns.barplot(data=gastos_por_ano, x=gastos_por_ano.index, y="gasto", palette = paleta)
#Lineplato é pior pois gera a sensação de existência de valores intermediários

Colocar a cor de acordo com um valor mais baixo para um mais alto

##2.6.2

In [None]:
mensal_aberto

In [None]:
# Assuming 'dia_mes_ano' is the datetime column
por_ano_de_todos = mensal_aberto.groupby(["ano", "uf"])[['gasto']].sum().reset_index()
# Selects only the 'gasto' column for summation

sns.barplot(data=por_ano_de_todos, x="ano", y="gasto")
#não serve para nada porque pega todos os estados e soma

In [None]:
estados = ["São Paulo", "Minas Gerais", "Rio de Janeiro"]
# Filtro primeiro, depois agrupo, depois seleciono os tipos numéricos
por_ano_dos_estados = (
    mensal_aberto.query("uf in @estados")
    .groupby(["uf", "ano"])
    .sum(numeric_only=True)  # ou .sum().select_dtypes(include="number") se quiser depois
    .reset_index()
)
por_ano_dos_estados

In [None]:
paleta = sns.color_palette("rocket",19)
sns.barplot(data=por_ano_dos_estados, x="ano",  y="gasto", hue="uf")
#as linhas significaintervalo de confiança

In [None]:
paleta = sns.color_palette("rocket",19)
sns.lineplot(data=por_ano_dos_estados, x="ano",  y="gasto", hue="uf")
#as linhas significaintervalo de confiança

In [None]:
paleta = sns.color_palette("rocket",19)
sns.catplot(data=por_ano_dos_estados, x="ano",  y="gasto", col="uf")
#as linhas significaintervalo de confian

In [None]:
paleta = sns.color_palette("rocket",19)
sns.catplot(data=por_ano_dos_estados, x="ano",  y="gasto", col="uf",kind = "bar")

In [None]:
paleta = sns.color_palette("rocket",19)
sns.catplot(data=por_ano_dos_estados, x="ano",  y="gasto", row="uf",kind = "bar")

#Métodos matemáticos para Data Analytics


In [None]:
#algebra linear -> X+2 = 5 -> x =3 (Resolver sistemas de equações lineares)

#x + y = 10 -> 0 + y = 10 ----(0,10), (2,8), (-3,13)
#números com infinitos para x e y, isso é uma equação (diofantina) - sistema possivel indeterminado
#2x -y = 11 -> consigo fazer um sistema de equações lineares

#tabela = matriz
#Pandas series = vertor

$$ \alpha + \beta = 10$$

In [None]:
#Bibliotecas matemáticas:

import numpy as np
import scipy as sc
import sympy as sy #ultiliza caracteres matemáticos gregos

In [None]:
# escalar -> número(tensor de ordem 0)
# vetor  -> plano carteziano (eixos x e y)
# matriz -> tabela


X = 2 # escalar

x2 = np.array([1,2,3]) #vetorial linha horizontal, de elementos escalares
print(x2)
print()

x3 = np.array([[1],[2],[3]]) #vetorial coluna vertical, modelo é uma matriz de 3 elementos escalares
print(x3)
print()

x4 = np.array([[1,2,3], [1,2,3], [1,2,3]]) #vetorial matriz _ tradicional

In [None]:
lista = np.array([1,2,3,4,5])
df = pd.DataFrame({'coluna 1':lista})
df

In [None]:
lista = np.array([1,2,3,4,5])
df = pd.DataFrame({'coluna 1':lista, 'coluna 2':lista})
df

In [None]:
lista[1]

In [None]:
lista[-1]

In [None]:
x2 + x3

In [None]:
x3 + x4

In [None]:
# Multiplicação
#array1 (x,y) | array2(z,w) -> y = z  | array3 (x,w) ###(3,3) (3,1)
#A.B != B.A

In [None]:
x4 @ x3 # arroba é igual ao sinal na multiplicação no python

In [None]:
nb.dot(x4,x3)

In [None]:
#Divisão
x3/x4

In [None]:
#A.X = Y -> equação fundamental de álgebra linear

""" Para os escalares, o zero na soma e na subtração é um elemento neutro. Porém na multiplcação e divisão o um é um elemento neutro."""


In [None]:
# a + b = a  B deve ser um elemento neutro

In [None]:
zeros = np.zeros((3,3))
zeros

In [None]:
zeros = np.zeros((1,3))
zeros

In [None]:
zeros = np.zeros((3,1))
zeros

In [None]:
zeros = np.zeros((3,3))
zeros

In [None]:
ones = np.ones((3,3))
ones

$$ A = \pmatrix{ a_{00} & a_{01} & a_{02} \\ a_{10} &  a_{11} &  a_{12}\\  a_{20} &  a_{21}&  a_{22} }$$

In [None]:
id = np.eye(3)
id

In [None]:
x4 * id

In [None]:
3 *1/3 # o numero que multipla seu inverso tem que dar 1

$$x . x^{1} = 1$$

___
matriz inversa
$$A . A^{-1} = I $$

----

Equação. Fundamental da álgebra
 $$ A . X = Y $$
 $$A . A^{-1} . X = A^{-1} . Y $$
 $$X = A^{-1} . Y$$

____________________

$$X = (A^{T}A)^{-1}A^{T}Y$$  
T = matriz transpostainverte os eixos

Exercícios

In [None]:
import matplotlib.pyplot as plt

In [None]:
x1, y1 = -1,0
x2, y2 = 0,1
x3, y3 = 1,2
x4, y4 = 2,1

x = [x1, x2, x3, x4]
y = [y1, y2, y3, y4]

plt.figure (figsize=(10,6))
plt.scatter(x1, y1, color = 'green', label = 'Pares ordenados (x,y)')
plt.scatter(x2, y2, color = 'green')
plt.scatter(x3, y3, color = 'green')
plt.scatter(x4, y4, color = 'green')

plt.plot (x, y, label = 'Grafico que liga os pontos')
plt.grid(True)
plt.box(False)
plt.legend()
plt.title("Interplotação da reta sobre todos os pontos")

In [None]:
# y = mx +n
# 1 = o*m + 1*n

A = np.array([[-1,1],[0,1],[1,1],[2,1]])
y = np.array([[y1],[y2],[y3],[y4]])

In [None]:
A

In [None]:
y

In [None]:
(m,n) = np.dot(np.dot(np.linalg.pinv(np.dot(A.T,A)),A.T),y)
print(m,n)

In [None]:
x1, y1 = -1,0
x2, y2 = 0,1
x3, y3 = 1,2
x4, y4 = 2,1

x = [x1, x2, x3, x4]
y = [y1, y2, y3, y4]

plt.figure (figsize=(10,6))
plt.scatter(x1, y1, color = 'green', label = 'Pares ordenados (x,y)')
plt.scatter(x2, y2, color = 'green')
plt.scatter(x3, y3, color = 'green')
plt.scatter(x4, y4, color = 'green')

v_x = np.linspace(-1,2)
plt.plot (x, y, label = 'Grafico que liga os pontos')
plt.plot (v_x, m*v_x + n, label = "Reta otimizadada pelo MMQ") #Metodo medios quadrados
plt.grid(True)
plt.box(False)
plt.legend()
plt.title("Interplotação da reta sobre todos os pontos")

Modelar Marchine Learning - é uma chance de algo acontecer com base a probabilidade prevista.
Modelo é um cenário aonde ue posso testar uma hipostese, dada uma entrada ou evento.
Variavel discreta - usa números inteiros
Variavel quebrada com flot number

problemas de marchine learning nasce de metricas estatisticas.
o modelo de veriação linear é baseado em uma equação.

será que eu preencho o nulo com uma média?
Será que eu desconsidero o zero?
Quais meus pontos fora dacurva? Ele muda minha média?

Você não tem uma certeza, você tem uma probabilidade.
Toda medida tem erro, o erro é um alerta.

modelo é uma possibilidade que tenta explicar uma situação.

//

VARIAVEL > FITCH

VARIAVEL  - É AQUILO QUE MUDA CONFORME O TEMPO PASSA

VARIAVEL CATEGORICA - PELA CATEGORIA, CLASSIFICANDO ALGUM DADO (ROTULANDO)

VARIAVEL DISCRETA - NÚMERO INTEIRO E FINITO, POSSIVEL CONTAR

VARIAVEL CONTINUA - É INFINITA E PODE SER DE NUMEROS QUEBRADOS

//


se você aproxima o valor, você assume erro e desvios padrões em uma medida.
toda medida existe erro!


MEDIDA DE TENDENCIA CENTRAL

1 = 2
2 = 3
3 = 4

MÉDIA ARITIMÉTICA = SOMA/ QUANTIDADE DE DADOS = 9/3 = 3

MEDIANA  = ORDENA OS VALORES EM ORDEM CRESCENTE E SE A QUANTIDADE FOR IMPAR O ELEMENTO CENTRAL É MINHA MEDIANA, SE PAR ENTRA NA REGRA DE ARREDONDAMENTO

MODA = É O NUMERO QUE MAIS SE REPETE EM UMA SEQUÊNCIA, SE A FREQUENCIA É IGUAL PARA TODOS VOCÊ NÃO TEM UMA MODA, É UMA SEQUENCIA AMODAL.

SIGMA = DESVIO PADRÃO / VARIANCIA


CURVA SIMÉTRICA DE SINO, A MODA, A MÉDIA E A MEDIANA É A MESMA, NO PICO DA MONTANHA

CURVA ASSIMÉTRICA A MODA É O PICO, A MEDIANA É O PONTO DO MEIO DA CURVA, MÉDIA DEPENDE DE AONDE ESTA SE MANTENDO MINHA CURVA