### <font color='#005b96'>Data Science Aplicada à Área de Saúde</font><br>
><font color='#438496'>***DS *** **| Introdução a Programação em python</font>
<br>
><font color='#438496'>professor *Mateus Carbone Ananias*</font>

---

### <font color='#005b96'>Table of Contents</font>

- [Numpy](#np)
- [Exercício 1](#e1)
- [Pandas](#pd)
- [Matplotlib](#plt)
- [Seaborn](#sns)
- [Exercício 2](#e2)

---
## <font color='#005b96'>**Introdução** </font></a>

Um cientista de dados é responsável por uma variedade de tarefas relacionadas à análise de dados para extrair insights úteis e construir modelos preditivos. Aqui estão algumas das principais atividades que um cientista de dados geralmente realiza:

1. **Coleta de dados**: Isso envolve identificar e obter conjuntos de dados relevantes para a análise. Os dados podem vir de várias fontes, como bancos de dados, arquivos CSV.

2. **Limpeza de dados**: Muitas vezes, os dados brutos contêm erros, valores ausentes ou inconsistências que precisam ser tratadas antes da análise. A limpeza de dados envolve remover ou corrigir esses problemas para garantir que os dados estejam prontos para análise.

3. **Exploração de dados**: Antes de construir modelos ou extrair insights, é importante entender os dados. Isso envolve explorar os dados usando estatísticas descritivas, visualizações e outras técnicas para identificar padrões, tendências e anomalias.

4. **Preparação de dados**: Preparar os dados para análise muitas vezes envolve transformá-los em um formato adequado para modelagem. Isso pode incluir a seleção de características relevantes, a normalização ou padronização de dados numéricos e a codificação de variáveis categóricas.

5. **Modelagem de dados**: Aqui é onde os cientistas de dados aplicam técnicas estatísticas e algoritmos de aprendizado de máquina para construir modelos preditivos ou descritivos. Isso pode incluir regressão, classificação, agrupamento, árvores de decisão, redes neurais e muito mais, dependendo dos requisitos do projeto.

6. **Avaliação de modelos**: Uma vez que os modelos são construídos, é crucial avaliá-los para garantir que estejam produzindo resultados precisos e úteis. 

7. **Interpretação e comunicação de resultados**: Além de construir modelos, os cientistas de dados também precisam interpretar os resultados e comunicá-los de forma clara e eficaz para as partes interessadas. Isso pode envolver a criação de visualizações, relatórios ou apresentações que destaquem os insights obtidos a partir dos dados.

8. **Iteração e refinamento**: A ciência de dados é um processo iterativo, e os modelos geralmente precisam ser refinados com base no feedback e nos novos dados disponíveis. Isso pode envolver ajustes nos modelos existentes, a incorporação de novos dados ou a experimentação com diferentes técnicas de modelagem.

---
# <a id = "np"><font color='#005b96'>**Numpy**</font></a>

O NumPy é uma biblioteca em Python usada principalmente para realizar operações numéricas em arrays multidimensionais ou matrizes. Ele fornece uma série de funções e métodos poderosos para trabalhar com esses arrays, tornando-o uma ferramenta fundamental para computação científica e análise de dados em Python. Abaixo estão algumas das principais características, funções e aplicações do NumPy:

### Principais Características:

1. **Arrays Multidimensionais Eficientes**: O NumPy oferece uma estrutura de dados eficiente e otimizada chamada `ndarray`, que pode representar arrays multidimensionais de elementos do mesmo tipo.

2. **Operações Matemáticas Avançadas**: Ele fornece uma ampla gama de funções matemáticas e operações vetorizadas para manipulação de arrays, incluindo soma, média, desvio padrão, multiplicação de matrizes, operações trigonométricas, entre outras.

3. **Indexação e Fatiamento Avançados**: O NumPy oferece poderosas técnicas de indexação e fatiamento para acessar e manipular elementos em arrays multidimensionais de forma eficiente.

4. **Broadcasting**: O broadcasting é uma técnica do NumPy que permite realizar operações entre arrays de diferentes formas e tamanhos de forma eficiente, sem a necessidade de criar cópias dos dados.

5. **Integração com C/C++ e Fortran**: O NumPy é construído sobre bibliotecas escritas em linguagens de baixo nível como C/C++ e Fortran, o que o torna altamente otimizado e eficiente para computação numérica.

### Funções e Aplicações:

1. **Computação Científica**: O NumPy é amplamente utilizado em áreas como física, matemática, engenharia, bioinformática e muitas outras disciplinas científicas para realizar cálculos numéricos, simulações, modelagem de dados, entre outros.

2. **Análise de Dados**: Ele é frequentemente usado em conjunto com outras bibliotecas em Python, como Pandas e Matplotlib, para análise de dados, visualização e manipulação de conjuntos de dados complexos.

3. **Processamento de Imagens e Sinais**: O NumPy oferece uma variedade de funções para processamento de imagens e sinais, como filtragem, transformações de Fourier, processamento de áudio, entre outros.

4. **Aprendizado de Máquina e Inteligência Artificial**: O NumPy é uma parte essencial do ecossistema de aprendizado de máquina em Python, sendo usado para manipulação e processamento de dados em algoritmos de aprendizado de máquina e inteligência artificial.


In [None]:
import numpy as np

# Criar um array de uma dimensão
arr1d = np.array([1, 2, 3, 4, 5])

# Criar um array de duas dimensões
arr2d = np.array([[1, 2, 3], [4, 5, 6]])


In [None]:
import numpy as np

arr = np.array([1, 2, 3, 4, 5])

# Calcular a média dos elementos
media = np.mean(arr)

# Multiplicar todos os elementos por 2
dobro = arr * 2

# Calcular a raiz quadrada de todos os elementos
raiz_quadrada = np.sqrt(arr)

# Calcular o logaritmo natural de todos os elementos
logaritmo = np.log(arr)

# Calcular o desvio padrão dos elementos
desvio_padrao = np.std(arr)


In [None]:
# Acessar o elemento na segunda linha e terceira coluna
elemento = arr[:2]
print(elemento)

In [None]:
# Fatiar o array para obter a primeira linha
primeira_linha = arr2d[0,:]
primeira_linha 

# <a id = "e1"><font color='#005b96'>**Exercício 1**</font></a>

Faça uma função que recebe um numpy array, recorta os dois primeiros valores e retorna uma lista com a soma e a média em uma lista

In [None]:
meu_arr = [1,2,3,4,5,6]

# escreva seu código aqui

# <a id = "pd"><font color='#005b96'>**Pandas**</font></a>

O Pandas é uma biblioteca em Python amplamente utilizada para manipulação e análise de dados. Ele oferece estruturas de dados poderosas e flexíveis, especialmente as séries (`Series`) e os dataframes (`DataFrame`), que permitem realizar uma variedade de operações complexas de maneira eficiente. Abaixo estão algumas das principais características, funções e aplicações do Pandas:

### Principais Características:

1. **Dataframes e Séries**: O Pandas oferece duas estruturas de dados principais: as séries (`Series`) e os dataframes (`DataFrame`). As séries são estruturas unidimensionais que representam uma sequência de dados, enquanto os dataframes são estruturas bidimensionais semelhantes a uma tabela, que consistem em linhas e colunas.

2. **Manipulação de Dados Tabulares**: O Pandas oferece uma ampla gama de funções e métodos para carregar, limpar, transformar, analisar e visualizar dados tabulares de diferentes formatos, incluindo CSV, Excel, SQL, JSON e HTML.

3. **Indexação e Seleção de Dados**: O Pandas oferece poderosas técnicas de indexação e seleção de dados, permitindo acessar, filtrar, fatiar e manipular dados de forma flexível e eficiente.

4. **Agrupamento e Agregação**: O Pandas facilita a realização de operações de agrupamento e agregação de dados, permitindo calcular estatísticas resumidas, como médias, somas, contagens, entre outras, para grupos específicos de dados.

5. **Manipulação de Datas e Séries Temporais**: O Pandas oferece suporte robusto para manipulação de datas e séries temporais, permitindo analisar e visualizar dados que variam ao longo do tempo.

6. **Integração com outras bibliotecas**: O Pandas é frequentemente usado em conjunto com outras bibliotecas em Python, como NumPy, Matplotlib, Seaborn e scikit-learn, para análise de dados, visualização e modelagem estatística.

### Funções e Aplicações:

1. **Análise Exploratória de Dados (EDA)**: O Pandas é amplamente utilizado para análise exploratória de dados, ajudando os cientistas de dados a entender a estrutura, distribuição e relações nos dados, identificar padrões e tendências, e detectar valores ausentes ou outliers.

2. **Pré-processamento de Dados**: O Pandas é usado para limpar e pré-processar dados antes de realizar análises mais avançadas. Isso inclui remover valores ausentes, lidar com dados duplicados, normalizar dados, entre outras tarefas de limpeza e transformação.

3. **Visualização de Dados**: Embora o Pandas não seja uma biblioteca de visualização, ele é frequentemente usado em conjunto com bibliotecas de visualização, como Matplotlib e Seaborn, para criar gráficos e visualizações informativas a partir de dados tabulares.

4. **Análise de Séries Temporais**: O Pandas oferece funcionalidades poderosas para trabalhar com dados de séries temporais, permitindo realizar análises estatísticas, modelagem e previsão de séries temporais

In [None]:
import pandas as pd

# Criar um DataFrame a partir de um dicionário
dados = {'Nome': ['Alice', 'Bob', 'Charlie', 'David','Jon'],
         'Idade': [25, 30, 35, 40,42],
         'teste': [5000,6000,7000,8000,7000],
         'Cidade': ['São Paulo', None, 'Brasília', 'Brasília','Rio de Janeiro']}

df = pd.DataFrame(dados)
print(df)


In [None]:
df.shape

In [None]:
df.columns

In [None]:
df.dtypes

In [None]:
# 1. Descrever a tabela
df.describe(include='all')

In [None]:
# Selecionar uma coluna específica
coluna = dados['Nome']
coluna

In [None]:
# Filtrar linhas com base em uma condição
filtrado = df[df['Idade'] > 30]
filtrado

### iloc e loc

No Pandas, `iloc` e `loc` são atributos que permitem acessar e selecionar dados em um DataFrame de maneiras diferentes. Em resumo, `iloc` é usado para acessar dados por posição numérica, enquanto `loc` é usado para acessar dados por rótulos de índice e de coluna. A escolha entre `iloc` e `loc` depende do contexto e dos requisitos específicos de indexação e seleção de dados em um DataFrame do Pandas. Aqui está uma explicação sobre cada um deles:


### `loc`:

- **Índice Baseado em Rótulos**: O atributo `loc` é usado para acessar dados com base nos rótulos de índice e de coluna.
- **Sintaxe**: `loc[linhas, colunas]`, onde `linhas` e `colunas` são rótulos de índice ou fatias que representam os rótulos das linhas e colunas que você deseja selecionar.


In [None]:
# Selecionar uma linha específica
linha = df.loc[0]
linha

### `iloc`:

- **Índice Baseado na Posição**: O atributo `iloc` é usado para acessar dados com base em sua posição numérica no DataFrame.
- **Sintaxe**: `iloc[linhas, colunas]`, onde `linhas` e `colunas` são índices inteiros ou fatias que representam as posições das linhas e colunas que você deseja selecionar.


In [None]:
# Selecionar o valor na primeira linha e segunda coluna
valor = df.iloc[0, 1]
valor


In [None]:
# Selecionar as duas primeiras linhas e a primeira e segunda coluna
subset = df.iloc[:2, :2]
subset

In [None]:
# 4. Renomear uma coluna
df = df.rename(columns={'teste': 'Renda'})
df

In [None]:
cep_pessoa = {'Nome': ['Alice', 'Bob', 'Charlie', 'David','Jon'],
         'Cep': ['0000001', '0000002', '0000003', '0000004','0000005']}

cep_pessoa = pd.DataFrame(cep_pessoa)

In [None]:
# 2. Merge entre os DataFrames de vendas e clientes
df = pd.merge(df, cep_pessoa, on='Nome')
df

In [None]:
# Agrupar dados por uma coluna e calcular a média de outra coluna
agrupado = df.groupby('Cidade')['Renda'].mean()
agrupado

In [None]:
df.isnull().sum()

In [None]:
# Remover linhas com valores ausentes
df_sem_ausentes = df.dropna()
df_sem_ausentes

In [None]:
# 3. Resetar o índice
df = df.reset_index(drop=True)


A função `copy()` no Pandas é utilizada para criar uma cópia profunda de um objeto DataFrame ou Series. Aqui estão alguns cenários em que você pode querer utilizar `copy()`:

1. **Evitar Alterações Indesejadas no DataFrame Original**: Quando você precisa realizar operações em um DataFrame sem alterar o DataFrame original, é recomendado fazer uma cópia usando `copy()`. Isso evita que as alterações feitas no novo DataFrame afetem o DataFrame original.


In [None]:
# Fazer uma cópia do DataFrame original
df_copia = df.copy()
df_copia



In [None]:
# grava uma tabela em csv
df.to_csv("tabela_1.csv")


In [None]:
# lê uma tabela em csv
df2 = pd.read_csv('tabela_1.csv')
df2

In [None]:
# grava uma tabela em xlsx
df.to_excel("tabela_1.xlsx")

# <a id = "plt"><font color='#005b96'>**Matplotlib**</font></a>

A biblioteca Matplotlib é uma das mais populares e poderosas bibliotecas de visualização de dados em Python. Ela oferece uma variedade de funções e classes para criar uma ampla gama de gráficos e visualizações de alta qualidade. Aqui está uma explicação detalhada sobre a biblioteca Matplotlib, juntamente com exemplos de diferentes tipos de gráficos

In [None]:
import matplotlib.pyplot as plt

# Dados
x = [1, 2, 3, 4, 5]
y = [2, 3, 5, 7, 11]

# Criar gráfico de linhas
plt.plot(x, y)

# Adicionar rótulos e título
plt.xlabel('Eixo X')
plt.ylabel('Eixo Y')
plt.title('Gráfico de Linhas')

# Exibir gráfico
plt.show()

In [None]:
import matplotlib.pyplot as plt

# Dados
categorias = ['A', 'B', 'C', 'D']
valores = [10, 20, 15, 25]

# Criar gráfico de barras
plt.bar(categorias, valores)

# Adicionar rótulos e título
plt.xlabel('Categorias')
plt.ylabel('Valores')
plt.title('Gráfico de Barras')

# Exibir gráfico
plt.show()

In [None]:
import matplotlib.pyplot as plt

# Dados
categorias = ['A', 'B', 'C', 'D']
valores = [10, 20, 15, 25]

# Criar gráfico de pizza
plt.pie(valores,labels = categorias)

# Adicionar rótulos e título
plt.xlabel('Categorias')
plt.ylabel('Valores')
plt.title('Gráfico de Barras')

# Exibir gráfico
plt.show()

In [None]:
import matplotlib.pyplot as plt

# Dados
x = [1, 2, 3, 4, 5]
y = [2, 3, 5, 7, 11]

# Criar gráfico de dispersão
plt.scatter(x, y)

# Adicionar rótulos e título
plt.xlabel('Eixo X')
plt.ylabel('Eixo Y')
plt.title('Gráfico de Dispersão')

# Exibir gráfico
plt.show()

# <a id = "sns"><font color='#005b96'>**Seaborn**</font></a>

Seaborn é uma biblioteca Python baseada no Matplotlib que oferece uma interface de alto nível para criação de visualizações estatísticas atraentes e informativas. Ela simplifica a criação de gráficos complexos, fornecendo funções especializadas para visualização de dados estatísticos. Aqui está uma explicação detalhada sobre a biblioteca Seaborn, juntamente com exemplos de diferentes tipos de gráficos

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# Criar gráfico de boxplot
sns.boxplot(data=iris, x='species', y='petal_length')

# Adicionar rótulos e título
plt.xlabel('Espécies')
plt.ylabel('Comprimento da Pétala')
plt.title('Boxplot do Comprimento da Pétala por Espécie')

# Exibir gráfico
plt.show()


In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# Carregar conjunto de dados de exemplo
iris = sns.load_dataset('iris')

# Criar gráfico de distribuição de pétala
sns.histplot(data=iris, x='petal_length')

# Adicionar rótulos e título
plt.xlabel('Comprimento da Pétala')
plt.ylabel('Contagem')
plt.title('Distribuição do Comprimento da Pétala')

# Exibir gráfico
plt.show()


# <a id = "e2"><font color='#005b96'>**Exercício 2**</font></a>

1. faça um describe dos dados case_gastos.csv ("tabela contida na raiz da pasta")
2. identifique a quantidade linhas e colunas da tabela
3. printe as 5 primeiras linha da tabela
4. verifique se existem valores nulos nas colunas
5. renomeie a coluna VALOR_PAGO por VALOR
6. identifique se existe valores repetidos na ciluna ID_SEGURADO
7. calcule a soma do VALOR agrupado por ID_SEGURADO, SEXO, UF_ATENDIMENTO e grave o resultado em uma nova tabela
8. A partir da nova tabela faça um novo describe dos dados
9. Faça um histograma do VALOR
10. Faça um boxplot do VALOR separado por SEXO
11. faça um grafico de pizza pela contagem por SEXO

In [None]:
#escreva seu código aqui