In [1]:
import pandas as pd
import numpy as np

## Introdução ao pandas

### Séries

In [8]:
# uma série é um vetor unidimensional contendo uma sequência de valores
# e um vetor de rótulos associados - chamado de índice!
x = pd.Series([12,13,1])

In [9]:
x

0    12
1    13
2     1
dtype: int64

In [10]:
print(type(x.values))
x.values

<class 'numpy.ndarray'>


array([12, 13,  1])

In [11]:
x.index

RangeIndex(start=0, stop=3, step=1)

In [13]:
x = pd.Series([1,2,3], index = ["a", "b", "c"])
x

a    1
b    2
c    3
dtype: int64

In [14]:
x[x>1]

b    2
c    3
dtype: int64

### DataFrame

In [16]:
# DataFrame's representam tabelas retangulares.
# São conjuntos de séries que compartilham o **mesmo** índice
df = pd.DataFrame({
    "hello": [1,2,3],
    "bye": [4,5,6]
})


In [17]:
df

Unnamed: 0,hello,bye
0,1,4
1,2,5
2,3,6


In [18]:
x = pd.Series([1,2,3], index = ["a", "b", "c"])
y = pd.Series([1,2,3], index = ["x", "y", "z"])
df = pd.DataFrame({"col1": x, "col2": y})

In [19]:
# isso é meio inesperado vindo do Rm - em geral as funções do tidyverse 
# descartam os 'índices' ou nomes dos vetores.
df 

Unnamed: 0,col1,col2
a,1.0,
b,2.0,
c,3.0,
x,,1.0
y,,2.0
z,,3.0


### Importação dos dados

#### Lendo arquivos

In [20]:
df = pd.read_csv("../dados/imdb.csv")

In [23]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 28490 entries, 0 to 28489
Data columns (total 20 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   id_filme              28490 non-null  object 
 1   titulo                28490 non-null  object 
 2   ano                   28489 non-null  float64
 3   data_lancamento       28490 non-null  object 
 4   generos               28490 non-null  object 
 5   duracao               28490 non-null  int64  
 6   pais                  28490 non-null  object 
 7   idioma                28146 non-null  object 
 8   orcamento             10470 non-null  float64
 9   receita               7698 non-null   float64
 10  receita_eua           7556 non-null   float64
 11  nota_imdb             28490 non-null  float64
 12  num_avaliacoes        28490 non-null  int64  
 13  direcao               28457 non-null  object 
 14  roteiro               28289 non-null  object 
 15  producao           

In [25]:
!pip install openpyxl

Collecting openpyxl
  Downloading openpyxl-3.0.10-py2.py3-none-any.whl (242 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m242.1/242.1 kB[0m [31m8.7 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting et-xmlfile
  Downloading et_xmlfile-1.1.0-py3-none-any.whl (4.7 kB)
Installing collected packages: et-xmlfile, openpyxl
Successfully installed et-xmlfile-1.1.0 openpyxl-3.0.10


In [26]:
df = pd.read_excel("../dados/imdb.xlsx")

In [27]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 28490 entries, 0 to 28489
Data columns (total 20 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   id_filme              28490 non-null  object 
 1   titulo                28490 non-null  object 
 2   ano                   28489 non-null  float64
 3   data_lancamento       28490 non-null  object 
 4   generos               28490 non-null  object 
 5   duracao               28490 non-null  int64  
 6   pais                  28490 non-null  object 
 7   idioma                28146 non-null  object 
 8   orcamento             10470 non-null  float64
 9   receita               7698 non-null   float64
 10  receita_eua           7556 non-null   float64
 11  nota_imdb             28490 non-null  float64
 12  num_avaliacoes        28490 non-null  int64  
 13  direcao               28457 non-null  object 
 14  roteiro               28289 non-null  object 
 15  producao           

In [None]:
# é possível ler de muitos outros formatos. veja por exemplo a tabela aqui:
# https://wesmckinney.com/book/accessing-data.html#io_flat_files

In [28]:
# Exercício:
# Carregue os dados provenientes do arquivo dados/imdb.sas7bdat


#### Escrevendo

In [31]:
df.to_csv("../dados/x.csv", index=False)

In [33]:
df.to_pickle("../dados/x.pickle")