# Introdução a Ciência de Dados

## Oque É Ciência de Dados

Ciência de dados é o campo que usa técnicas de estatística, matemática e programação para extrair informações úteis de dados. Pense nela como uma mistura de investigação e resolução de problemas, onde o objetivo é entender o que os dados estão nos dizendo e usar essas informações para tomar decisões melhores.

Imagine que você tem uma grande pilha de números, textos ou imagens. Um cientista de dados pega essa pilha, limpa os dados (remove erros ou coisas desnecessárias), analisa-os usando ferramentas e modelos, e depois apresenta os resultados de uma forma que outras pessoas possam entender e usar. Por exemplo, em uma loja online, a ciência de dados pode ajudar a prever quais produtos os clientes provavelmente comprarão, para que a loja possa estocar esses itens.

Em resumo, ciência de dados é sobre transformar dados em insights valiosos que podem ser usados para resolver problemas ou melhorar processos.

## Profissoes

### Cientista de Dados

**O que faz**: Um cientista de dados é como o “detetive” dos dados. Ele coleta, processa e analisa grandes volumes de dados para encontrar padrões, tendências e insights. Usa ferramentas estatísticas, programação (como Python ou R), e machine learning (aprendizado de máquina) para construir modelos preditivos e resolver problemas complexos. Além disso, precisa comunicar os resultados de forma clara para que sejam úteis na tomada de decisões.

**Papel**: Criar modelos, interpretar dados e transformar informações brutas em insights acionáveis para o negócio.

### Analista de Dados

**O que faz**: O analista de dados trabalha com dados para responder a perguntas específicas, como: “Qual foi o desempenho das vendas no último trimestre?”. Ele coleta dados, organiza e analisa usando ferramentas como Excel, SQL ou ferramentas de visualização (como Tableau ou Power BI).

**Papel**: Analisar dados históricos, criar relatórios e fornecer insights para melhorar operações e estratégias.

### Engenheiro de Dados

**O que faz**: Um engenheiro de dados constrói e mantém a infraestrutura que permite o armazenamento, a coleta e a análise de dados. Ele lida com grandes volumes de dados (big data), desenvolve pipelines de dados (processos automatizados para mover e transformar dados), e garante que os dados estejam disponíveis para os cientistas e analistas de dados.

**Papel**: Criar e gerenciar sistemas robustos de armazenamento e processamento de dados, garantindo que os dados estejam acessíveis e em bom estado para análise.

## Ferrramentas

### Linguagens de Programação

**Python**: Uma das linguagens mais populares em ciência de dados devido à sua simplicidade e vasta quantidade de bibliotecas especializadas, como NumPy, Pandas, Matplotlib, Scikit-learn, entre outras. É usada para manipulação de dados, modelagem estatística, aprendizado de máquina e visualização.

**R**: Muito usada em estatística e análises avançadas. Oferece uma grande variedade de pacotes para análise de dados, como ggplot2 para visualização e dplyr para manipulação de dados

### Ferramentas de Manipulação e Análise de Dados

**Pandas (Python)**: Utilizado para manipulação de dados em tabelas (DataFrames). Permite leitura, limpeza, transformação e análise de grandes conjuntos de dados de forma eficiente.

**NumPy (Python)**: Usado para cálculos numéricos e manipulação de arrays. É a base para muitas outras bibliotecas em Python.

### Ferramentas de Visualização

**Matplotlib (Python)**: Ferramenta básica para criar gráficos em Python, como gráficos de linha, barras, dispersão, histogramas, entre outros.

**Seaborn (Python)**: Construído sobre o Matplotlib, oferece uma interface mais fácil para criar visualizações estatísticas.

**power BI**: Ferramenta poderosa de visualização de dados que permite criar dashboards interativos e gráficos sofisticados sem necessidade de codificação.

### Ferramentas de Banco de Dados

**SQL**: Linguagem padrão para gerenciar e consultar bancos de dados relacionais. Essencial para extrair dados armazenados em bancos de dados como MySQL, PostgreSQL, e SQL Server.

**NoSQL (MongoDB, Cassandra)**: Bancos de dados NoSQL são usados para trabalhar com grandes volumes de dados não estruturados, como JSON ou XML.

### Ferramentas de Aprendizado de Máquina

**Scikit-learn (Python)**: Biblioteca para machine learning que inclui uma ampla gama de algoritmos para classificação, regressão, clustering, e mais. É ideal para criar e treinar modelos de aprendizado de máquina.

**TensorFlow e Keras (Python)**: Usados para construir e treinar redes neurais e modelos complexos de deep learning.

**PyTorch (Python)**: Similar ao TensorFlow, muito utilizado em pesquisas acadêmicas e para construir redes neurais.

## Kaggle

 Kaggle é uma plataforma essencial para qualquer pessoa interessada em ciência de dados. Ela oferece um ambiente para praticar, aprender, competir e colaborar em projetos de ciência de dados. Seja você um iniciante querendo aprender ou um profissional experiente procurando desafios, Kaggle tem algo para todos.

[Kaggle](https://www.kaggle.com/)

## Series

 Uma Series é uma estrutura de dados unidimensional em Pandas, semelhante a uma lista ou coluna em uma tabela. Cada elemento em uma Series tem um índice, que por padrão é um número inteiro começando de 0, mas pode ser definido pelo usuário.

 Imagine que você tem apenas uma coluna dessa planilha, com uma lista de números, nomes, ou qualquer outra informação. Essa única coluna é uma Série. É como uma lista organizada, onde cada elemento tem uma posição (um índice) e um valor associado. Por exemplo, se você tem uma lista de notas de alunos, cada nota seria um valor na série, e a posição de cada nota seria o índice.

### DataFrame

Um DataFrame é uma estrutura de dados bidimensional em Pandas, que pode ser vista como uma tabela em Excel ou um banco de dados, onde cada coluna é uma Series. Um DataFrame é composto por linhas e colunas, cada uma com um nome (ou índice).

Agora, imagine que essa planilha tem várias colunas, não apenas uma. Cada coluna pode ter um tipo diferente de dado (por exemplo, uma coluna com os nomes dos alunos e outra com as notas deles). Esse conjunto completo, com várias colunas e várias linhas, é um DataFrame. É como uma tabela, onde você pode armazenar e organizar muitos tipos de dados.



## Pandas

Pandas é uma biblioteca de Python amplamente usada para manipulação e análise de dados. Ela oferece estruturas de dados eficientes e ferramentas para trabalhar com dados de forma fácil e poderosa.

### Principais Funcionalidades

Carregar dados de diferentes formatos (CSV, Excel, SQL, etc.).

Limpar e preparar dados para análise.

Agregar e sumarizar dados.

Realizar operações complexas em grandes conjuntos de dados.


In [1]:
import pandas as pd

# Criando uma Series
series = pd.Series([10, 20, 30, 40])

series

0    10
1    20
2    30
3    40
dtype: int64

In [2]:
import pandas as pd

# Criando um DataFrame
data = {
    'Nome': ['Alice', 'Bob', 'Charlie'],
    'Idade': [25, 30, 35],
    'Cidade': ['São Paulo', 'Rio de Janeiro', 'Belo Horizonte']
}
df = pd.DataFrame(data)

df

Unnamed: 0,Nome,Idade,Cidade
0,Alice,25,São Paulo
1,Bob,30,Rio de Janeiro
2,Charlie,35,Belo Horizonte


### Metodos Do Pandas

In [3]:
# df = pd.read_csv('nomeDoArquivo.csv')  # Carregar dados de um arquivo CSV

FileNotFoundError: [Errno 2] No such file or directory: 'dados.csv'

In [None]:
print(df.head())  # Exibe as primeiras 5 linhas do DataFrame