# Pandas

importe a biblioteca pandas para trabalharmos com IA

In [1]:
import pandas as pd #pip install pandas caso não tenha instalado na maquina

# Series e DataFrames

- Series são matrizes unidimensionais rotulada, semelhantes a uma coluna em uma tabela
- DataFrames são uma estrutura de dados bidimensionais rotuladas como uma tabela

Series:

In [2]:
# Criando uma Série a partir de uma lista
data = [10, 20, 30, 40]
series = pd.Series(data)
print(series)

# Criando uma Série com índices personalizados
index = ['a', 'b', 'c', 'd'] 
series = pd.Series(data, index=index)
print(series)

0    10
1    20
2    30
3    40
dtype: int64
a    10
b    20
c    30
d    40
dtype: int64


DataFrame:

In [3]:
# Criando um DataFrame a partir de um dicionário
data = {'Coluna1': [1, 2, 3], 'Coluna2': ['A', 'B', 'C']}
df = pd.DataFrame(data)
print(df)

   Coluna1 Coluna2
0        1       A
1        2       B
2        3       C


# Leitura de Arquivo

In [4]:
df = pd.read_csv('../database/meu_arquivo.csv')
print(df)

   id   nome  idade          cidade
0   1   João     30       São Paulo
1   2  Maria     25  Rio de Janeiro
2   3  Pedro     35  Belo Horizonte
3   4    Ana     28        Salvador


In [5]:
df = pd.read_json('../database/meu_arquivo.json')
print(df)

   id   nome  idade          cidade
0   1   João     30       São Paulo
1   2  Maria     25  Rio de Janeiro
2   3  Pedro     35  Belo Horizonte
3   4    Ana     28        Salvador


# Limpeza de dados

Existem algumas formas de realizar a limpeza de dados sujos dentro do processo de IA

- **Células vazias:**
    - `df.isnull()` para identificar células vazias.
    - `df.dropna()` para remover linhas com valores ausentes.
    - `df.fillna()` para preencher valores ausentes com um valor específico.
- **Dados em formato incorreto:**
    - `pd.to_numeric()` para converter colunas para formato numérico.
    - `pd.to_datetime()` para converter colunas para formato de data.
- **Dados incorretos:**
    - Utilizar filtros e máscaras para identificar e corrigir dados inconsistentes.
- **Duplicados:**
    - `df.duplicated()` para identificar linhas duplicadas.
    - `df.drop_duplicates()` para remover linhas duplicadas.

Limpeza da Dados

In [6]:
# Lendo um arquivo CSV com dados possivelmente sujos
df = pd.read_csv('../database/dados_sujos.csv')

# Verificando os tipos de dados
print(df.dtypes)

# Convertendo a coluna 'Idade' para tipo numérico
df['idade'] = pd.to_numeric(df['idade'], errors='coerce')

# Removendo linhas com valores ausentes na coluna 'Idade'
df.dropna(subset=['idade'], inplace=True)

# Removendo duplicados
df.drop_duplicates(inplace=True)

# Salvando o DataFrame limpo
df.to_csv('../database/dados_limpos.csv', index=False)

id         int64
nome      object
idade     object
cidade    object
dtype: object


Remoção de Valores Nulos dropna()

In [7]:
import pandas as pd

# Exemplo de DataFrame com valores nulos
dados = {
    'Nome': ['João', 'Maria', 'Pedro', None],
    'Idade': [28, 35, None, 40],
    'Cidade': ['São Paulo', 'Rio de Janeiro', 'Curitiba', None]
}

df = pd.DataFrame(dados)

# Remover linhas que contenham valores nulos
df_limpo = df.dropna()

print(df_limpo)

    Nome  Idade          Cidade
0   João   28.0       São Paulo
1  Maria   35.0  Rio de Janeiro


Preencher valores nulos fillna()

In [8]:
# Preencher valores nulos na coluna 'Idade' com a média da idade
df['Idade'].fillna(df['Idade'].mean(), inplace=True)

print(df)

    Nome      Idade          Cidade
0   João  28.000000       São Paulo
1  Maria  35.000000  Rio de Janeiro
2  Pedro  34.333333        Curitiba
3   None  40.000000            None


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Idade'].fillna(df['Idade'].mean(), inplace=True)


Converter os tipos de dados

In [9]:
# Converter a coluna 'Idade' para o tipo inteiro
df['Idade'] = df['Idade'].astype(int)

print(df.dtypes)  # Verificar os tipos de dados

Nome      object
Idade      int64
Cidade    object
dtype: object


Remover duplicatas drop_duplicates()

In [None]:
# Exemplo de DataFrame com dados duplicados
dados = {
    'Nome': ['João', 'Maria', 'Pedro', 'João'],
    'Idade': [28, 35, 22, 28],
    'Cidade': ['Sao Paulo', 'Rio de Janeiro', 'Curitiba', 'Sao Paulo']
}

df = pd.DataFrame(dados)

# Remover duplicatas
df_sem_duplicatas = df.drop_duplicates()

print(df_sem_duplicatas)

    Nome  Idade          Cidade
0   João     28       São Paulo
1  Maria     35  Rio de Janeiro
2  Pedro     22        Curitiba


# Análise de Dados

- **head():** Mostra as primeiras linhas do DataFrame.
- **tail():** Mostra as últimas linhas do DataFrame.
- **info():** Mostra um resumo das informações do DataFrame, incluindo tipos de dados, quantidade de dados não nulos, etc.

In [33]:
print(df.head())
print(df.tail(3))
print(df.info())

    Nome  Idade          Cidade
0   João     28       Sao Paulo
1  Maria     35  Rio de Janeiro
2  Pedro     22        Curitiba
3   João     28       Sao Paulo
    Nome  Idade          Cidade
1  Maria     35  Rio de Janeiro
2  Pedro     22        Curitiba
3   João     28       Sao Paulo
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Nome    4 non-null      object
 1   Idade   4 non-null      int64 
 2   Cidade  4 non-null      object
dtypes: int64(1), object(2)
memory usage: 228.0+ bytes
None


Resumo estatístico com describe()

In [41]:
# DataFrame
dados = {
    'Nome': ['João', 'Maria', 'Pedro'],
    'Idade': [28, 35, 22],
    'Salario': [3000, 4000, 3500],
    'Cidade': ['Sao Paulo', 'Rio de Janeiro', 'Curitiba']
}

df = pd.DataFrame(dados)

#Obter um resumo estatístico das colunas numéricas
print(df.describe())

           Idade  Salario
count   3.000000      3.0
mean   28.333333   3500.0
std     6.506407    500.0
min    22.000000   3000.0
25%    25.000000   3250.0
50%    28.000000   3500.0
75%    31.500000   3750.0
max    35.000000   4000.0


Agrupamento de dados com groupby()

In [51]:
# Agrupar por cidade e calcular a média de idade e salário
agrupado = df.groupby('Cidade')[['Idade']].mean() #para usar o groupby, precisa de 2 valores integros dentro do dataframe

print(agrupado)

                Idade
Cidade               
Curitiba         22.0
Rio de Janeiro   35.0
Sao Paulo        28.0


Correlação entre colunas com corr()

In [52]:
#Calcular a correlação entre as colunas numéricas
correlacao = df[['Idade', 'Salario']].corr()

print(correlacao)

            Idade   Salario
Idade    1.000000  0.537931
Salario  0.537931  1.000000


# Manipulação de Dados

Acessando linhas e colunas com loc (rótulo)

In [53]:
#Selecionar a linha onde o nome é "Maria"

linha_maria = df.loc[df['Nome'] == 'Maria']

print(linha_maria)

    Nome  Idade  Salario          Cidade
1  Maria     35     4000  Rio de Janeiro


Acessando linhas e colunas com iloc (índice)

In [54]:
#Selecionar a primeira linha (índice 0)
primeira_linha = df.iloc[0]

print(primeira_linha)

Nome            João
Idade             28
Salario         3000
Cidade     Sao Paulo
Name: 0, dtype: object


Filtrando colunas específicas com filter()

In [55]:
#Selecionar apenas as colunas 'Nome' e 'Salario'
colunas_selecionadas = df.filter(items=['Nome', 'Salario'])

print(colunas_selecionadas)

    Nome  Salario
0   João     3000
1  Maria     4000
2  Pedro     3500
