### Pandas

O Pandas é uma biblioteca de código aberto para a linguagem de programação Python, amplamente utilizada
para análise e manipulação de dados. Foi criada para tornar o trabalho com dados mais eficiente e intuitivo.

#### O que é?

Pandas oferece estruturas de dados e funções para trabalhar com dados tabulares e séries temporais. 

As principais estruturas fornecidas são:

DataFrame: Uma estrutura de dados bidimensional, semelhante a uma tabela SQL ou uma planilha do Excel, 
onde você pode armazenar dados em linhas e colunas.
Series: Uma estrutura de dados unidimensional, semelhante a um vetor ou uma coluna em uma tabela.

#### Para que serve?

Pandas é usado para diversas tarefas no processamento de dados, incluindo:

Leitura e Escrita de Dados: Pode ler e escrever dados em vários formatos, como CSV, Excel, SQL, 
JSON, entre outros.

Manipulação de Dados: Permite filtrar, classificar, agregar, e transformar dados facilmente.

Limpeza de Dados: Facilita o tratamento de dados ausentes e duplicados, além de permitir a 
conversão e normalização de dados.

Análise de Dados: Oferece ferramentas para realizar análises estatísticas e operações matemáticas 
sobre conjuntos de dados.

Visualização: Embora não seja uma biblioteca de visualização, Pandas integra-se bem com bibliotecas 
como Matplotlib e Seaborn para criar gráficos e visualizar dados.

Se você estiver lidando com dados em Python, o Pandas é uma ferramenta essencial para facilitar 
o processo e tornar as tarefas mais eficientes.

### NumPy

NumPy é uma biblioteca fundamental para computação científica em Python. Ela fornece suporte para arrays 
e matrizes multidimensionais, além de uma coleção de funções matemáticas para operar nesses arrays de 
forma eficiente.

Características do NumPy

Arrays Multidimensionais: O objeto principal do NumPy é o ndarray, uma estrutura de dados eficiente 
para armazenar grandes matrizes e arrays multidimensionais.

Operações Matemáticas e Lógicas: Permite realizar operações matemáticas e lógicas em arrays sem a 
necessidade de escrever loops.

Funções Estatísticas: Inclui muitas funções para cálculos estatísticos, como média, desvio padrão, e variância.

Álgebra Linear: Oferece suporte para operações de álgebra linear, incluindo decomposições de matriz 
e soluções de sistemas de equações lineares.

Integração com outras Bibliotecas: NumPy é compatível com outras bibliotecas populares de Python, como SciPy, 
Pandas, Matplotlib, entre outras.

Performance: As operações do NumPy são executadas de forma eficiente, muitas vezes aproveitando bibliotecas
de baixo nível, como BLAS e LAPACK, otimizando o desempenho.

Usos Principais do NumPy

Análise de Dados: NumPy é amplamente usado para análise e manipulação de dados. Ele é a base
para outras bibliotecas de análise de dados, como Pandas.

Computação Científica e Engenharia: Usado em áreas como física, química, biologia, e engenharia para
realizar cálculos complexos.

Machine Learning: Muitas bibliotecas de aprendizado de máquina, como TensorFlow e scikit-learn, usam
NumPy para manipulação de dados e cálculos numéricos.

Desenvolvimento de Jogos: Utilizado em gráficos computacionais e simulações físicas.

Visualização de Dados: Trabalha em conjunto com bibliotecas de visualização como Matplotlib para criar
gráficos e visualizações de dados.

### Como carregar dados no pandas?

Carregar dados no Pandas é uma tarefa bastante comum e pode ser feita a partir de várias fontes,
como arquivos CSV, Excel, SQL, JSON, entre outros. O Pandas fornece funções específicas para lidar 
com cada um desses tipos de dados.

#### Carregar Dados de um Arquivo CSV

Para carregar dados de um arquivo CSV, você pode usar a função read_csv:

In [None]:
import pandas as pd

# Carregar dados de um arquivo CSV
df = pd.read_csv('caminho/para/arquivo.csv')
print(df.head())  # Mostrar as primeiras linhas do DataFrame

#### Carregar Dados de um Arquivo Excel

Para carregar dados de um arquivo Excel, você pode usar a função read_excel:

In [None]:
import pandas as pd

# Carregar dados de um arquivo Excel
df = pd.read_excel('caminho/para/arquivo.xlsx', sheet_name='Nome_da_Planilha')
print(df.head())  # Mostrar as primeiras linhas do DataFrame

#### Carregar Dados de um Banco de Dados SQL

Para carregar dados de um banco de dados SQL, você pode usar a função read_sql_query ou read_sql_table junto com uma conexão SQLAlchemy:

In [None]:
import pandas as pd
from sqlalchemy import create_engine

# Criar uma conexão ao banco de dados
engine = create_engine('sqlite:///caminho/para/arquivo.db')

# Carregar dados de uma consulta SQL
query = "SELECT * FROM tabela"
df = pd.read_sql_query(query, engine)
print(df.head())  # Mostrar as primeiras linhas do DataFrame

#### Carregar Dados de um Arquivo JSON

Para carregar dados de um arquivo JSON, você pode usar a função read_json:

In [None]:
import pandas as pd

# Carregar dados de um arquivo JSON
df = pd.read_json('caminho/para/arquivo.json')
print(df.head())  # Mostrar as primeiras linhas do DataFrame

#### Carregar Dados de um Arquivo HTML

Para carregar dados de uma tabela em um arquivo HTML, você pode usar a função read_html:

In [None]:
import pandas as pd

# Carregar dados de uma tabela em um arquivo HTML
url = 'http://exemplo.com/tabela.html'
df_list = pd.read_html(url)
df = df_list[0]  # Assumindo que a tabela desejada é a primeira na lista
print(df.head())  # Mostrar as primeiras linhas do DataFrame

#### Carregar Dados de um Arquivo Parquet

Para carregar dados de um arquivo Parquet, você pode usar a função read_parquet:

In [None]:
import pandas as pd

# Carregar dados de um arquivo Parquet
df = pd.read_parquet('caminho/para/arquivo.parquet')
print(df.head())  # Mostrar as primeiras linhas do DataFrame

Esses são alguns dos métodos mais comuns para carregar dados no Pandas. Dependendo da sua fonte de dados, você pode escolher o método apropriado para carregar e manipular os dados de forma eficiente.

## Como criar um DataFrame?

Criar um DataFrame no Pandas pode ser feito de várias maneiras, dependendo dos dados de origem. Aqui estão alguns métodos comuns para criar um DataFrame:

### Criar um DataFrame a partir de um Dicionário

Cada chave do dicionário será uma coluna no DataFrame e os valores serão os dados dessas colunas.

In [None]:
import pandas as pd

# Criar um DataFrame a partir de um dicionário
data = {
    'Nome': ['Alice', 'Bob', 'Charlie'],
    'Idade': [25, 30, 35],
    'Cidade': ['São Paulo', 'Rio de Janeiro', 'Belo Horizonte']
}
df = pd.DataFrame(data)
print(df)

### Criar um DataFrame a partir de uma Lista de Listas

Cada lista interna será uma linha no DataFrame. Você também pode especificar os nomes das colunas.

In [None]:
import pandas as pd

# Criar um DataFrame a partir de uma lista de listas
data = [
    ['Alice', 25, 'São Paulo'],
    ['Bob', 30, 'Rio de Janeiro'],
    ['Charlie', 35, 'Belo Horizonte']
]
colunas = ['Nome', 'Idade', 'Cidade']
df = pd.DataFrame(data, columns=colunas)
print(df)

### Criar um DataFrame a partir de uma Lista de Dicionários

Cada dicionário na lista será uma linha no DataFrame.

In [None]:
import pandas as pd

# Criar um DataFrame a partir de uma lista de dicionários
data = [
    {'Nome': 'Alice', 'Idade': 25, 'Cidade': 'São Paulo'},
    {'Nome': 'Bob', 'Idade': 30, 'Cidade': 'Rio de Janeiro'},
    {'Nome': 'Charlie', 'Idade': 35, 'Cidade': 'Belo Horizonte'}
]
df = pd.DataFrame(data)
print(df)

### Criar um DataFrame a partir de um Array NumPy

Você pode usar um array NumPy para criar um DataFrame. Também pode especificar os nomes das colunas.

In [None]:
import pandas as pd
import numpy as np

# Criar um DataFrame a partir de um array NumPy
data = np.array([
    ['Alice', 25, 'São Paulo'],
    ['Bob', 30, 'Rio de Janeiro'],
    ['Charlie', 35, 'Belo Horizonte']
])
colunas = ['Nome', 'Idade', 'Cidade']
df = pd.DataFrame(data, columns=colunas)
print(df)

### Criar um DataFrame Vazio e Adicionar Dados Posteriormente

Você pode criar um DataFrame vazio e adicionar dados linha por linha.

In [None]:
import pandas as pd

# Criar um DataFrame vazio
df = pd.DataFrame(columns=['Nome', 'Idade', 'Cidade'])

# Adicionar dados ao DataFrame
df = df.append({'Nome': 'Alice', 'Idade': 25, 'Cidade': 'São Paulo'}, ignore_index=True)
df = df.append({'Nome': 'Bob', 'Idade': 30, 'Cidade': 'Rio de Janeiro'}, ignore_index=True)
df = df.append({'Nome': 'Charlie', 'Idade': 35, 'Cidade': 'Belo Horizonte'}, ignore_index=True)

print(df)

### Criar um DataFrame a partir de uma Série

Você pode criar um DataFrame a partir de uma ou mais Séries.

In [None]:
import pandas as pd

# Criar Séries
nomes = pd.Series(['Alice', 'Bob', 'Charlie'])
idades = pd.Series([25, 30, 35])
cidades = pd.Series(['São Paulo', 'Rio de Janeiro', 'Belo Horizonte'])

# Criar um DataFrame a partir das Séries
df = pd.DataFrame({'Nome': nomes, 'Idade': idades, 'Cidade': cidades})
print(df)


Esses métodos cobrem as maneiras mais comuns de criar DataFrames no Pandas, permitindo a criação de estruturas de dados a partir de diferentes tipos de fontes.

## O que são series?

Em Pandas, uma Series é uma estrutura de dados unidimensional, semelhante a um array unidimensional ou a uma coluna de uma tabela. 
Uma Series pode armazenar qualquer tipo de dado, incluindo inteiros, floats, 
strings e objetos Python, e possui um índice associado que rotula cada elemento na Series.

#### Características de uma Series

Unidimensional: Uma Series é essencialmente uma lista de valores com um índice associado.

Indexada: Cada valor na Series tem um rótulo ou índice, que pode ser usado para acessar os dados.

Tipo de Dado Flexível: Uma Series pode conter qualquer tipo de dado, incluindo números, strings, datas, etc.

Métodos e Operações: Series vêm com muitos métodos e operações úteis, como operações aritméticas, agregações e filtragens.


### A Partir de uma Lista

In [None]:
import pandas as pd

# Criar uma Series a partir de uma lista
s = pd.Series([1, 2, 3, 4, 5])
print(s)

### A Partir de um Dicionário

Quando criada a partir de um dicionário, as chaves do dicionário se tornam os índices da Series.

In [None]:
import pandas as pd

# Criar uma Series a partir de um dicionário
data = {'a': 1, 'b': 2, 'c': 3}
s = pd.Series(data)
print(s)

### A Partir de um Scalar

Criar uma Series com um valor constante e um índice personalizado.

In [None]:
import pandas as pd

# Criar uma Series a partir de um valor escalar
s = pd.Series(5, index=['a', 'b', 'c'])
print(s)

### Especificando um Índice

Ao criar uma Series, você pode especificar um índice personalizado.

In [None]:
import pandas as pd

# Criar uma Series com um índice personalizado
s = pd.Series([1, 2, 3], index=['a', 'b', 'c'])
print(s)


## Acessando Dados em uma Series

Você pode acessar dados em uma Series de várias maneiras, usando rótulos ou posições.

### Acessar Por Índice

In [None]:
import pandas as pd

s = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e'])

# Acessar um elemento por rótulo
print(s['b'])

# Acessar um elemento por posição
print(s[1])


### Slicing (Fatiamento)

In [None]:
import pandas as pd

s = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e'])

# Acessar um intervalo de elementos
print(s['b':'d'])

# Acessar um intervalo de elementos por posição
print(s[1:4])


### Operações com Series

Series suportam operações aritméticas e métodos agregados.

In [None]:
import pandas as pd

s1 = pd.Series([1, 2, 3], index=['a', 'b', 'c'])
s2 = pd.Series([4, 5, 6], index=['a', 'b', 'c'])

# Operações aritméticas
s3 = s1 + s2
print(s3)

# Métodos agregados
print(s1.sum())
print(s1.mean())
print(s1.max())
print(s1.min())


As Series são a estrutura básica para manipulação de dados no Pandas e são usadas extensivamente como blocos de
construção para DataFrames, que são essencialmente coleções de Series alinhadas por um índice comum.

### Como mostrar um Cabeçalho e rodapé?

No Pandas, você pode visualizar partes específicas de um DataFrame, como o cabeçalho (primeiras linhas) e o rodapé (últimas linhas), usando os métodos head() e tail(). 
Esses métodos são úteis para obter uma visão rápida dos dados no DataFrame.

#### Exemplo de Cabeçalho

O método head() exibe as primeiras linhas do DataFrame. Por padrão, ele exibe as primeiras 5 linhas, mas você pode especificar o número de linhas a serem exibidas passando um argumento.

In [None]:
import pandas as pd

# Criar um DataFrame de exemplo
data = {
    'Nome': ['Alice', 'Bob', 'Charlie', 'David', 'Eve', 'Frank'],
    'Idade': [25, 30, 35, 40, 45, 50],
    'Cidade': ['São Paulo', 'Rio de Janeiro', 'Belo Horizonte', 'Curitiba', 'Porto Alegre', 'Salvador']
}
df = pd.DataFrame(data)

# Mostrar as primeiras 5 linhas do DataFrame
print(df.head())

# Mostrar as primeiras 3 linhas do DataFrame
print(df.head(3))


#### Exemplo de Rodapé

O método tail() exibe as últimas linhas do DataFrame. Por padrão, ele exibe as últimas 5 linhas, mas você pode especificar o número de linhas a serem exibidas passando um argumento.

In [None]:
import pandas as pd

# Criar um DataFrame de exemplo
data = {
    'Nome': ['Alice', 'Bob', 'Charlie', 'David', 'Eve', 'Frank'],
    'Idade': [25, 30, 35, 40, 45, 50],
    'Cidade': ['São Paulo', 'Rio de Janeiro', 'Belo Horizonte', 'Curitiba', 'Porto Alegre', 'Salvador']
}
df = pd.DataFrame(data)

# Mostrar as últimas 5 linhas do DataFrame
print(df.tail())

# Mostrar as últimas 3 linhas do DataFrame
print(df.tail(3))


#### Mostrar Cabeçalho e Rodapé Simultaneamente

Você pode mostrar o cabeçalho e o rodapé simultaneamente, combinando o uso de 'head()' e 'tail()':

In [None]:
import pandas as pd

# Criar um DataFrame de exemplo
data = {
    'Nome': ['Alice', 'Bob', 'Charlie', 'David', 'Eve', 'Frank'],
    'Idade': [25, 30, 35, 40, 45, 50],
    'Cidade': ['São Paulo', 'Rio de Janeiro', 'Belo Horizonte', 'Curitiba', 'Porto Alegre', 'Salvador']
}
df = pd.DataFrame(data)

# Mostrar as primeiras 2 linhas do DataFrame
print("Cabeçalho:")
print(df.head(2))

# Mostrar as últimas 2 linhas do DataFrame
print("\nRodapé:")
print(df.tail(2))


Esses métodos são muito úteis para inspecionar rapidamente os dados no DataFrame e verificar se eles foram carregados corretamente.

## Como ver a quantidade de entrada do DataFrame?

Para visualizar a quantidade de entradas (linhas) em um DataFrame no Pandas, você pode usar o método 'shape', a função 'len()', ou o método 'info()'. Cada um desses métodos oferece uma forma ligeiramente diferente de obter informações sobre o DataFrame.

### Usando 'shape'

O atributo 'shape' retorna uma tupla que representa as dimensões do DataFrame: '(número_de_linhas, número_de_colunas)'.

In [None]:
import pandas as pd

# Criar um DataFrame de exemplo
data = {
    'Nome': ['Alice', 'Bob', 'Charlie', 'David', 'Eve', 'Frank'],
    'Idade': [25, 30, 35, 40, 45, 50],
    'Cidade': ['São Paulo', 'Rio de Janeiro', 'Belo Horizonte', 'Curitiba', 'Porto Alegre', 'Salvador']
}
df = pd.DataFrame(data)

# Ver a quantidade de entradas (linhas) no DataFrame
num_linhas = df.shape[0]
print(f"Quantidade de entradas: {num_linhas}")


### Usando 'len()'

A função 'len()' pode ser usada diretamente no DataFrame para obter o número de linhas.

In [None]:
import pandas as pd

# Criar um DataFrame de exemplo
data = {
    'Nome': ['Alice', 'Bob', 'Charlie', 'David', 'Eve', 'Frank'],
    'Idade': [25, 30, 35, 40, 45, 50],
    'Cidade': ['São Paulo', 'Rio de Janeiro', 'Belo Horizonte', 'Curitiba', 'Porto Alegre', 'Salvador']
}
df = pd.DataFrame(data)

# Ver a quantidade de entradas (linhas) no DataFrame
num_linhas = len(df)
print(f"Quantidade de entradas: {num_linhas}")

### Usando 'info()'

O método 'info()' exibe um resumo informativo sobre o DataFrame, incluindo o número de entradas (linhas), o número de colunas, os nomes das colunas, o tipo de dados de cada coluna e a quantidade de valores não nulos.

In [None]:
import pandas as pd

# Criar um DataFrame de exemplo
data = {
    'Nome': ['Alice', 'Bob', 'Charlie', 'David', 'Eve', 'Frank'],
    'Idade': [25, 30, 35, 40, 45, 50],
    'Cidade': ['São Paulo', 'Rio de Janeiro', 'Belo Horizonte', 'Curitiba', 'Porto Alegre', 'Salvador']
}
df = pd.DataFrame(data)

# Exibir um resumo informativo sobre o DataFrame
df.info()


Esses métodos fornecem uma maneira rápida e eficiente de obter informações sobre o tamanho e a estrutura do seu DataFrame no Pandas.

## Como retornar o número de linhas e colunas de um DataFrame?

Para retornar o número de linhas e colunas de um DataFrame no Pandas, você pode usar o atributo 'shape', que retorna uma tupla com o número de linhas e colunas. Aqui está um exemplo de como fazer isso:

Usando 'shape'

O atributo 'shape' retorna uma tupla com o formato (número_de_linhas, número_de_colunas).

In [None]:
import pandas as pd

# Criar um DataFrame de exemplo
data = {
    'Nome': ['Alice', 'Bob', 'Charlie', 'David', 'Eve', 'Frank'],
    'Idade': [25, 30, 35, 40, 45, 50],
    'Cidade': ['São Paulo', 'Rio de Janeiro', 'Belo Horizonte', 'Curitiba', 'Porto Alegre', 'Salvador']
}
df = pd.DataFrame(data)

# Obter o número de linhas e colunas
num_linhas, num_colunas = df.shape
print(f"Número de linhas: {num_linhas}")
print(f"Número de colunas: {num_colunas}")


### Usando Métodos Específicos

Se preferir, você pode usar os métodos específicos para obter o número de linhas '(len(df)') e colunas '(len(df.columns)'):

In [None]:
import pandas as pd

# Criar um DataFrame de exemplo
data = {
    'Nome': ['Alice', 'Bob', 'Charlie', 'David', 'Eve', 'Frank'],
    'Idade': [25, 30, 35, 40, 45, 50],
    'Cidade': ['São Paulo', 'Rio de Janeiro', 'Belo Horizonte', 'Curitiba', 'Porto Alegre', 'Salvador']
}
df = pd.DataFrame(data)

# Obter o número de linhas
num_linhas = len(df)
print(f"Número de linhas: {num_linhas}")

# Obter o número de colunas
num_colunas = len(df.columns)
print(f"Número de colunas: {num_colunas}")


Ambas as abordagens são eficientes e fornecem informações sobre a estrutura do DataFrame. O método shape é mais direto, enquanto os métodos específicos podem ser úteis em situações onde você precisa apenas do número de linhas ou colunas individualmente.

## Informações do DataFrame

Para visualizar as informações de um DataFrame no Pandas, você pode usar o método 'info()'. Esse método fornece um resumo conciso do DataFrame, incluindo o número de entradas (linhas), o número de colunas, os nomes das colunas, o tipo de dados de cada coluna e a quantidade de valores não nulos.

### Exemplo de Uso do 'info()'

In [None]:
import pandas as pd

# Criar um DataFrame de exemplo
data = {
    'Nome': ['Alice', 'Bob', 'Charlie', 'David', 'Eve', 'Frank'],
    'Idade': [25, 30, 35, 40, 45, 50],
    'Cidade': ['São Paulo', 'Rio de Janeiro', 'Belo Horizonte', 'Curitiba', 'Porto Alegre', 'Salvador']
}
df = pd.DataFrame(data)

# Exibir informações sobre o DataFrame
df.info()


#### Saída Esperada

O método 'info()' gera uma saída como esta:

In [None]:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Nome    6 non-null      object
 1   Idade   6 non-null      int64 
 2   Cidade  6 non-null      object
dtypes: int64(1), object(2)
memory usage: 272.0+ bytes


### Outros Métodos Úteis para Visualizar Informações

Além de 'info()', existem outros métodos que podem ser úteis para obter informações 
sobre um DataFrame:

#### 'describe()':
Fornece estatísticas descritivas resumidas para colunas numéricas (ou todas as colunas, se especificado).

In [None]:
# Exibir estatísticas descritivas resumidas
print(df.describe())


#### 'head(n)':
Mostra as primeiras n linhas do DataFrame (por padrão, as primeiras 5 linhas).

In [None]:
# Mostrar as primeiras 5 linhas do DataFrame
print(df.head())


#### 'tail(n)':
Mostra as últimas n linhas do DataFrame (por padrão, as últimas 5 linhas).

In [None]:
# Mostrar as últimas 5 linhas do DataFrame
print(df.tail())

#### 'dtypes':
Mostra os tipos de dados de cada coluna.

In [None]:
# Mostrar os tipos de dados de cada coluna
print(df.dtypes)


#### 'columns':
Retorna o índice dos nomes das colunas.

In [None]:
# Mostrar os nomes das colunas
print(df.columns)


#### 'shape':
Retorna uma tupla com o número de linhas e colunas do DataFrame.

In [None]:
# Mostrar o número de linhas e colunas
print(df.shape)


Esses métodos fornecem uma maneira abrangente de inspecionar e entender a estrutura e o conteúdo de um DataFrame no Pandas.

## Tabela (tipos de informações)

![Capturar.JPG](attachment:Capturar.JPG)

## Como examinar tipos no Pandas?

Para examinar os tipos de dados em um DataFrame do Pandas, você pode usar uma variedade de métodos e atributos que fornecem informações sobre os tipos de dados de cada coluna. Aqui estão alguns dos métodos e atributos mais úteis:

### dtypes
O atributo 'dtypes' retorna uma Série que mostra o tipo de dados de cada coluna no DataFrame.

In [None]:
import pandas as pd

# Criar um DataFrame de exemplo
data = {
    'Nome': ['Alice', 'Bob', 'Charlie'],
    'Idade': [25, 30, 35],
    'Data de Nascimento': pd.to_datetime(['1999-05-14', '1994-07-22', '1988-09-10']),
    'Salário': [50000.0, 60000.0, 70000.0],
    'Ativo': [True, False, True]
}
df = pd.DataFrame(data)

# Exibir os tipos de dados de cada coluna
print(df.dtypes)


### info()

O método info() fornece um resumo geral do DataFrame, incluindo o número de entradas não nulas e o tipo de dados de cada coluna.

In [None]:
import pandas as pd

# Criar um DataFrame de exemplo
data = {
    'Nome': ['Alice', 'Bob', 'Charlie'],
    'Idade': [25, 30, 35],
    'Data de Nascimento': pd.to_datetime(['1999-05-14', '1994-07-22', '1988-09-10']),
    'Salário': [50000.0, 60000.0, 70000.0],
    'Ativo': [True, False, True]
}
df = pd.DataFrame(data)

# Exibir informações gerais do DataFrame
df.info()


### astype()
O método astype() é usado para converter o tipo de dados de uma coluna para outro tipo. Isso pode ser útil se você quiser garantir que uma coluna tenha um tipo específico.

In [None]:
import pandas as pd

# Criar um DataFrame de exemplo
data = {
    'Idade': ['25', '30', '35']
}
df = pd.DataFrame(data)

# Converter a coluna 'Idade' para tipo inteiro
df['Idade'] = df['Idade'].astype(int)
print(df.dtypes)


### select_dtypes()
O método select_dtypes() permite selecionar colunas com tipos de dados específicos. Isso é útil para filtrar colunas por tipo.

In [None]:
import pandas as pd

# Criar um DataFrame de exemplo
data = {
    'Nome': ['Alice', 'Bob', 'Charlie'],
    'Idade': [25, 30, 35],
    'Data de Nascimento': pd.to_datetime(['1999-05-14', '1994-07-22', '1988-09-10']),
    'Salário': [50000.0, 60000.0, 70000.0],
    'Ativo': [True, False, True]
}
df = pd.DataFrame(data)

# Selecionar apenas colunas com tipo de dados float
float_columns = df.select_dtypes(include='float64')
print(float_columns)


### applymap()
O método applymap() pode ser usado para aplicar uma função a cada elemento do DataFrame. Embora não seja diretamente usado para examinar tipos de dados, pode ser útil para verificar ou converter tipos em todas as células.

In [None]:
import pandas as pd

# Criar um DataFrame de exemplo
data = {
    'Idade': [25, 30, 35],
    'Salário': [50000.0, 60000.0, 70000.0]
}
df = pd.DataFrame(data)

# Aplicar uma função para verificar o tipo de dado de cada elemento
type_check = df.applymap(type)
print(type_check)


Esses métodos e atributos fornecem diferentes formas de explorar e manipular tipos de dados em um DataFrame do Pandas.

## Explique sobre o Describe

O método describe() no Pandas é usado para gerar estatísticas descritivas resumidas sobre os dados em um DataFrame. Ele é útil para obter uma visão geral rápida das características principais das colunas numéricas ou categóricas em seu conjunto de dados.

Funcionalidade do describe()
Para Colunas Numéricas: O describe() fornece informações estatísticas como contagem, média, desvio padrão, valores mínimos e máximos, e percentis (25%, 50% e 75%).
Para Colunas Categóricas: O describe() fornece informações como a contagem de entradas, número de categorias únicas, valor mais frequente (moda) e frequência do valor mais frequente.
Exemplo de Uso
Aqui está um exemplo de como usar o describe() em um DataFrame com diferentes tipos de dados:

In [None]:
import pandas as pd

# Criar um DataFrame de exemplo
data = {
    'Nome': ['Alice', 'Bob', 'Charlie', 'David', 'Eve'],
    'Idade': [25, 30, 35, 40, 45],
    'Salário': [50000.0, 60000.0, 70000.0, 80000.0, 90000.0],
    'Data de Nascimento': pd.to_datetime(['1999-05-14', '1994-07-22', '1988-09-10', '1980-12-01', '1995-03-15']),
    'Ativo': [True, False, True, True, False]
}
df = pd.DataFrame(data)

# Obter estatísticas descritivas para colunas numéricas
print(df.describe())


### Saída Esperada
Para as colunas numéricas (Idade e Salário), a saída será algo assim:

In [None]:
             Idade       Salário
count    5.000000      5.000000
mean    35.000000  70000.000000
std      7.905694  15811.388301
min     25.000000  50000.000000
25%     30.000000  60000.000000
50%     35.000000  70000.000000
75%     40.000000  80000.000000
max     45.000000  90000.000000


### Personalização
Você pode personalizar o método describe() para incluir informações sobre colunas específicas ou tipos de dados diferentes:

- Para Colunas Categóricas: Adicione o parâmetro include com object ou category para descrever colunas não numéricas.

In [None]:
# Obter estatísticas descritivas para colunas categóricas
print(df.describe(include=['object']))


- Para Todos os Tipos de Dados: Use include='all' para incluir estatísticas descritivas para todos os tipos de dados.

In [None]:
# Obter estatísticas descritivas para todos os tipos de dados
print(df.describe(include='all'))


Resumo
O 'describe()' é uma ferramenta poderosa para obter uma visão geral rápida e resumida dos dados em um DataFrame, facilitando a análise exploratória e a compreensão das características dos dados.

## Como acessar apenas uma coluna?

Para acessar uma única coluna de um DataFrame no Pandas, você pode usar a notação de colchetes '[]' ou o atributo de acesso com ponto '.'. Aqui estão as maneiras mais comuns de fazer isso:

1. Usando Colchetes '[]'
Você pode acessar uma coluna usando o nome da coluna dentro de colchetes. Isso retorna uma 'Series' correspondente à coluna selecionada.

In [None]:
import pandas as pd

# Criar um DataFrame de exemplo
data = {
    'Nome': ['Alice', 'Bob', 'Charlie'],
    'Idade': [25, 30, 35],
    'Salário': [50000.0, 60000.0, 70000.0]
}
df = pd.DataFrame(data)

# Acessar a coluna 'Idade'
idade_coluna = df['Idade']
print(idade_coluna)

2. Usando o Atributo de Acesso com Ponto .
Se o nome da coluna é um identificador válido (não contém espaços, não é um nome reservado, etc.), você pode acessá-la como um atributo do DataFrame. Isso também retorna uma 'Series'.

In [None]:
import pandas as pd

# Criar um DataFrame de exemplo
data = {
    'Nome': ['Alice', 'Bob', 'Charlie'],
    'Idade': [25, 30, 35],
    'Salário': [50000.0, 60000.0, 70000.0]
}
df = pd.DataFrame(data)

# Acessar a coluna 'Idade'
idade_coluna = df.Idade
print(idade_coluna)


### Observações
- Nomes de Coluna com Espaços ou Caracteres Especiais: Se o nome da coluna contiver espaços ou caracteres especiais, você deve usar a notação de colchetes '[]'. A notação de ponto não funciona para esses casos.

In [None]:
import pandas as pd

# Criar um DataFrame com nomes de coluna com espaços
data = {
    'Nome Completo': ['Alice Smith', 'Bob Johnson', 'Charlie Brown'],
    'Idade': [25, 30, 35]
}
df = pd.DataFrame(data)

# Acessar a coluna 'Nome Completo'
nome_completo_coluna = df['Nome Completo']
print(nome_completo_coluna)


- Colunas Múltiplas: Para acessar várias colunas, você pode passar uma lista de nomes de colunas para a notação de colchetes.

In [None]:
import pandas as pd

# Criar um DataFrame de exemplo
data = {
    'Nome': ['Alice', 'Bob', 'Charlie'],
    'Idade': [25, 30, 35],
    'Salário': [50000.0, 60000.0, 70000.0]
}
df = pd.DataFrame(data)

# Acessar as colunas 'Nome' e 'Idade'
colunas_selecionadas = df[['Nome', 'Idade']]
print(colunas_selecionadas)


## Fatiar um DataFrame

Fatiar um DataFrame no Pandas permite selecionar subconjuntos de dados com base em condições específicas. Aqui estão algumas maneiras de fatiar um DataFrame:

1. Selecionar Linhas por Índice
Você pode usar a notação de colchetes ou o método iloc para selecionar linhas com base em seus índices.

- Selecionar um intervalo de linhas com iloc:

In [None]:
import pandas as pd

# Criar um DataFrame de exemplo
data = {
    'Nome': ['Alice', 'Bob', 'Charlie', 'David', 'Eve'],
    'Idade': [25, 30, 35, 40, 45],
    'Salário': [50000.0, 60000.0, 70000.0, 80000.0, 90000.0]
}
df = pd.DataFrame(data)

# Selecionar as linhas de 1 a 3 (exclusivo do índice 4)
sub_df = df.iloc[1:4]
print(sub_df)


- Selecionar linhas específicas com iloc:

In [None]:
# Selecionar linhas com índices 1 e 3
sub_df = df.iloc[[1, 3]]
print(sub_df)


2. Selecionar Linhas por Condição
Você pode usar condições para filtrar linhas que atendem a certos critérios.

In [None]:
# Selecionar linhas onde a idade é maior que 30
sub_df = df[df['Idade'] > 30]
print(sub_df)


3. Selecionar Colunas por Nome
Para selecionar colunas específicas, você pode usar a notação de colchetes com o nome das colunas.

In [None]:
# Selecionar as colunas 'Nome' e 'Salário'
sub_df = df[['Nome', 'Salário']]
print(sub_df)


4. Selecionar Subconjunto com loc
O método loc permite selecionar linhas e colunas por rótulos.

- Selecionar um intervalo de linhas e colunas com 'loc':

In [None]:
# Selecionar linhas com rótulos de 1 a 3 e colunas 'Nome' e 'Idade'
sub_df = df.loc[1:3, ['Nome', 'Idade']]
print(sub_df)


5. Combinar Condições para Filtragem
Você pode combinar várias condições para um filtro mais complexo.

In [None]:
# Selecionar linhas onde a idade é maior que 30 e o salário é menor que 80000
sub_df = df[(df['Idade'] > 30) & (df['Salário'] < 80000)]
print(sub_df)


6. Usar Métodos de Fatiamento Avançados
Além de 'iloc' e 'loc', você pode usar métodos avançados como query() para filtragem baseada em expressões.

In [None]:
# Usar query para selecionar linhas onde a idade é menor que 40
sub_df = df.query('Idade < 40')
print(sub_df)


## O que é IA?

Inteligência Artificial (IA) é um campo da ciência da computação que desenvolve sistemas capazes de realizar tarefas que normalmente requerem inteligência humana, como aprendizado, percepção e tomada de decisões.

Tipos de IA
1 IA Fraca (Estreita): Sistemas que realizam tarefas específicas (e.g., assistentes virtuais, chatbots).
2 IA Forte (Geral): Sistemas com habilidades cognitivas semelhantes às humanas (ainda em pesquisa).
3 IA Superinteligente: Inteligência que supera a humana (hipotética e especulativa).

#### Subcampos da IA
- Aprendizado de Máquina: Sistemas que aprendem com dados.
- Processamento de Linguagem Natural (NLP): Interação com linguagem humana.
- Visão Computacional: Interpretação de imagens e vídeos.
- Robótica: Robôs com IA para tarefas físicas.
- Raciocínio e Sistemas Especialistas: Simulação de decisões de especialistas.

#### Aplicações
- Saúde: Diagnóstico e tratamento.
- Finanças: Análise e detecção de fraudes.
- Transporte: Veículos autônomos e otimização de rotas.
- Educação: Tutores virtuais e personalização do aprendizado.

#### Desafios
- Privacidade: Uso de dados pessoais.
- Bias: Viés nos algoritmos.
- Segurança: Riscos e segurança dos sistemas.
- Impacto no Trabalho: Efeitos da automação no emprego.

A IA está transformando diversas áreas e apresenta grandes oportunidades e desafios.

## O que é Machine Learnig?

Machine Learning (Aprendizado de Máquina) é um subcampo da Inteligência Artificial que desenvolve sistemas capazes de aprender e melhorar a partir de dados sem programação explícita para cada tarefa.

#### Tipos Principais
1 Aprendizado Supervisionado: Treina o modelo com dados rotulados para fazer previsões ou classificações.
2 Aprendizado Não Supervisionado: Descobre padrões em dados não rotulados (e.g., agrupamento).
3 Aprendizado Semi-Supervisionado: Usa uma combinação de dados rotulados e não rotulados.
4 Aprendizado por Reforço: Aprende a tomar decisões baseadas em recompensas e penalidades.

#### Processos
1 Coleta e Preparação de Dados: Reunir e limpar dados.
2 Escolha e Treinamento do Modelo: Selecionar e ajustar o algoritmo.
3 Avaliação: Medir o desempenho do modelo.
4 Implantação: Aplicar o modelo em dados novos.
5 Manutenção: Atualizar o modelo com novos dados.

Algoritmos Comuns
- Regressão Linear
- Árvores de Decisão
- Máquinas de Vetores de Suporte (SVM)
- Redes Neurais
- K-Means

#### Aplicações
- Saúde: Diagnóstico e análise médica.
- Finanças: Previsão de mercado e detecção de fraudes.
- Marketing: Segmentação e recomendação de produtos.
- Transporte: Veículos autônomos e otimização de rotas.

Machine Learning é usado para criar sistemas que aprendem e se adaptam com base em novos dados e experiências.








## O que é Deeplearnig?

Deep Learning (Aprendizado Profundo) é uma subárea do Machine Learning que utiliza redes neurais artificiais com múltiplas camadas para aprender representações complexas e abstrações dos dados.

#### Conceitos Principais
- Redes Neurais Profundas: Modelos com muitas camadas ocultas que processam dados em níveis de abstração.
- Treinamento: Ajusta os pesos da rede para minimizar o erro, usando algoritmos como o Backpropagation e otimização por Gradiente Descendente.

#### Arquiteturas Comuns
- Redes Neurais Convolucionais (CNNs): Para visão computacional e reconhecimento de imagem.
- Redes Neurais Recorrentes (RNNs): Para dados sequenciais e temporais.
- Transformers: Para processamento de linguagem natural.

#### Aplicações
- Visão Computacional: Reconhecimento de imagem, detecção de objetos.
- Processamento de Linguagem Natural: Tradução automática, chatbots.
- Reconhecimento de Voz: Transcrição de fala.

#### Características
- Necessidade de Dados: Funciona melhor com grandes volumes de dados.
- Requisitos Computacionais: Requer hardware potente como GPUs.
- Desempenho: Frequentemente supera métodos tradicionais em tarefas complexas.

## A Inteligência Artificial (IA) pode resolver diversos problemas, como:

- Saúde: Diagnóstico médico, tratamentos personalizados e descoberta de medicamentos.
- Finanças: Detecção de fraudes, previsão de mercado e gerenciamento de risco.
- Marketing: Segmentação de clientes, recomendação de produtos e análise de sentimentos.
- Transporte: Veículos autônomos, otimização de rotas e gerenciamento de tráfego.
- Educação: Tutoria virtual, avaliação automática e análise de desempenho.
- Indústria: Manutenção preditiva, controle de qualidade e otimização de processos.
Serviços ao Cliente: Chatbots e análise de feedback.
- Segurança: Reconhecimento facial e monitoramento de vídeo.
- Agricultura: Monitoramento de culturas e previsão de colheitas.

A IA melhora a eficiência e a tomada de decisões em diversas áreas, lidando com problemas complexos e desafiadores.

## Como limpar dados NAN-NA (ausente)

Para limpar dados ausentes (NaN/NA) em um DataFrame do Pandas, você pode:

- Remover Dados Ausentes: Use df.dropna() para remover linhas ou colunas com NaNs.
- Preencher Dados Ausentes: Use df.fillna(valor) para substituir NaNs por um valor fixo, média, mediana, ou moda.
- Interpolação: Use df.interpolate() para preencher NaNs com valores interpolados.
- Preenchimento com Valores Anteriores ou Posteriores: Use df.ffill() para preencher com o valor anterior ou df.bfill() para preencher com o valor seguinte.

Escolha o método com base na quantidade de dados ausentes e na natureza do seu conjunto de dados.