# Python para Data Science - Pandas

## Carregar e examinar dados

### Importando biblioteca

In [1]:
import pandas as pd

### Carrega arquivos CSV em um DataFrame

In [2]:
df = pd.read_csv('data/db.csv', sep = ';')
df

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64
1,Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16
3,DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07
4,Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Rodas de liga', '4 X 4', 'Central multimídia...",92612.10
...,...,...,...,...,...,...,...
253,Phantom 2013,Motor V8,2014,27505.0,False,"['Controle de estabilidade', 'Piloto automátic...",51759.58
254,Cadillac Ciel concept,Motor V8,1991,29981.0,False,"['Bancos de couro', 'Painel digital', 'Sensor ...",51667.06
255,Classe GLK,Motor 5.0 V8 Bi-Turbo,2002,52637.0,False,"['Rodas de liga', 'Controle de tração', 'Câmbi...",68934.03
256,Aston Martin DB5,Motor Diesel,1996,7685.0,False,"['Ar condicionado', '4 X 4', 'Câmbio automátic...",122110.90


### Exibe as primeiras 5 linhas do DataFrame

In [6]:
df.head()

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64
1,Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16
3,DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07
4,Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Rodas de liga', '4 X 4', 'Central multimídia...",92612.1


###  Exibe um resumo do DataFrame, incluindo tipos de dados e contagem de valores não nulos.

In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 258 entries, 0 to 257
Data columns (total 7 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Nome           258 non-null    object 
 1   Motor          258 non-null    object 
 2   Ano            258 non-null    int64  
 3   Quilometragem  197 non-null    float64
 4   Zero_km        258 non-null    bool   
 5   Acessórios     258 non-null    object 
 6   Valor          258 non-null    float64
dtypes: bool(1), float64(2), int64(1), object(3)
memory usage: 12.5+ KB


## Seleção de Dados

### Acessa uma coluna específica

In [8]:
df['Motor']

0            Motor 4.0 Turbo
1               Motor Diesel
2            Motor Diesel V8
3            Motor 2.4 Turbo
4            Motor 2.4 Turbo
               ...          
253                 Motor V8
254                 Motor V8
255    Motor 5.0 V8 Bi-Turbo
256             Motor Diesel
257          Motor Diesel V6
Name: Motor, Length: 258, dtype: object

### Seleciona dados por índice (posição)

In [9]:
df.iloc[0]  # Primeira linha
df.iloc[:, 1]  # Segunda coluna

0            Motor 4.0 Turbo
1               Motor Diesel
2            Motor Diesel V8
3            Motor 2.4 Turbo
4            Motor 2.4 Turbo
               ...          
253                 Motor V8
254                 Motor V8
255    Motor 5.0 V8 Bi-Turbo
256             Motor Diesel
257          Motor Diesel V6
Name: Motor, Length: 258, dtype: object

### Seleciona dados por rótulos (nomes das linhas e colunas)

In [10]:
df.loc[0, 'Motor']  # Primeira linha e coluna 'coluna'


'Motor 4.0 Turbo'

## Manipulação de Dados

### Remove uma ou mais colunas ou linhas

In [None]:
df.drop('coluna', axis=1, inplace=True)  # Remove coluna


### Renomeia colunas ou índices

In [None]:
df.rename(columns={'old_name': 'new_name'}, inplace=True)


### Preenche valores ausentes

In [None]:
df.fillna(0)  # Substitui NaN por 0


## Filtragem de Dados

### Filtra os dados com base em uma condição

In [None]:
df[df['coluna'] > 50]

### Filtra usando uma expressão de string

In [None]:
df.query('coluna > 50')

## Agregação e Estatísticas

### Agrupa dados para agregações

In [None]:
df.groupby('coluna').mean()  # Média por grupo

### Exibe estatísticas descritivas de todas as colunas numéricas

In [14]:
df.describe()


Unnamed: 0,Ano,Quilometragem,Valor
count,258.0,197.0,258.0
mean,2007.511628,58278.42132,98960.513101
std,9.725906,35836.733259,29811.932305
min,1990.0,107.0,50742.1
25%,1999.0,27505.0,70743.5125
50%,2008.0,55083.0,97724.38
75%,2018.0,90495.0,124633.3025
max,2019.0,119945.0,149489.92


## Ordenação e Classificação

### Ordena os dados por valores de uma coluna

In [None]:
df.sort_values('coluna', ascending=False)

## Manipulação de Índices

### Define uma coluna como índice do DataFrame

In [None]:
df.set_index('coluna', inplace=True)

### Reseta o índice para o padrão numérico

In [None]:
df.reset_index(inplace=True)