# Pandas Parte 2: Séries, DataFrames e Entrada e Saída de Dados

_____

# Índice:
    
## 1 - Series - as colunas dentro de um dataframe
### 1.1 Criando uma Serie
### 1.1.1 - Usando as listas
### 1.1.2 - Usando o NumPy Arrays
### 1.1.3- Usando os Dicionários
### 1.2 Dados nas Series
### 1.3 Usando um Índice
### 1.3.1 As operações também são feitas com base no índice 
.

## 2 DataFrames
### 2.1 Seleção e indexação de DataFrame
### 2.2 As colunas dos DataFrames são Series
### 2.3 Removendo colunas
### 2.3.1 Também podemos deletar colunas desta forma
### 2.4 Selecionando linhas
### 2.4.1 Ou selecione com base na posição em vez do rótulo
### 2.4.2 Selecionando o subconjunto de linhas e colunas
### 2.5 Seleção condicional
### 2.5.1 Para duas condições, você pode usar | e & com parênteses
### 2.6 Mais Detalhes do Índice
### 2.6.1 Hierarquia de índices e índices múltiplos
.
## 3 Tratando Dados ausentes
.
## 4. Operações com DataFrames
### 4.1  Informação sobre valores exclusivos
### 4.2 Selecionando dados
### 4.3 Aplicando funções
### 4.4 Removendo colunas permanentemente
### 4.5 Encontre Valores Nulos ou Verifique Valores Nulos
### 4.6 Preenchendo os valores de NaN com outra coisa
.
## 5. Entrada e saída de dados
### 5.1 CSV
### 5.2 Excel
### 5.3 HTML

_____

# 1 - Series - as colunas dentro de um dataframe

O primeiro tipo de dado que aprenderemos é a Serie. Vamos importar Pandas e explorar tal objeto.

A Serie é muito semelhante a uma matriz NumPy (na verdade, ela é construída em cima do objeto de matriz NumPy). O que diferencia a matriz NumPy de uma Série, é que uma Serie pode ter rótulos de eixos, o que significa que pode ser indexado por um rótulo, em vez de apenas uma localização numérica. Também não precisa manter dados numéricos, ele pode conter qualquer objeto Python arbitrário.

Vamos explorar este conceito através de alguns exemplos:

_____

In [1]:
import numpy as np
import pandas as pd

### 1.1 Criando uma Serie

Você pode converter uma lista, numpy array ou dicionário para uma série:

In [2]:
#uma lista
labels = ['a','b','c']

#uma lista
minha_lista = [10,20,30]

#uma array numpy
arr = np.array([10,20,30])

#um dicionario
d = {'a':10,'b':20,'c':30}

### 1.1.1 - Usando as listas

In [3]:
#uma pegando os dados da lista com o indice
pd.Series(data=minha_lista)

0    10
1    20
2    30
dtype: int64

In [4]:
#uma pegando os dados de uma lista e atribuindo o indice da outra lista
pd.Series(data=minha_lista,index=labels)

a    10
b    20
c    30
dtype: int64

In [5]:
pd.Series(minha_lista,labels)

a    10
b    20
c    30
dtype: int64

### 1.1.2 Usando o NumPy Arrays

In [6]:
pd.Series(arr)

0    10
1    20
2    30
dtype: int32

In [7]:
pd.Series(arr,labels)

a    10
b    20
c    30
dtype: int32

### 1.1.3 Usando os Dicionários

In [8]:
pd.Series(d)

a    10
b    20
c    30
dtype: int64

### 1.2 Dados nas Series

Uma série de pandas pode conter uma variedade de tipos de objeto:

In [9]:
pd.Series(data=labels)

0    a
1    b
2    c
dtype: object

In [10]:
# Mesmo funções (embora seja improvável que você use isso)
pd.Series([sum,print,len])

0      <built-in function sum>
1    <built-in function print>
2      <built-in function len>
dtype: object

## 1.3 Usando um Índice

A chave para usar uma Serie é entender seu índice. O Pandas faz uso desses nomes ou números de índice, permitindo pesquisas rápidas de informações (funciona como uma tabela de hash ou dicionário).

Vamos ver alguns exemplos de como pegar informações de uma Serie. Vamos criar duas Series, ser1 e ser2:

In [11]:
ser1 = pd.Series([1,2,3,4],index = ['EUA', 'Alemanha','USSR', 'Japão'])                                   

In [12]:
ser1

EUA         1
Alemanha    2
USSR        3
Japão       4
dtype: int64

In [13]:
ser2 = pd.Series([1,2,5,4],index = ['EUA', 'Alemanha','Italia', 'Japão'])                                   

In [14]:
ser2

EUA         1
Alemanha    2
Italia      5
Japão       4
dtype: int64

In [15]:
# usando o indice como base
print(ser1['EUA'])
print(ser1['USSR'])

1
3


### 1.3.1 As operações também são feitas com base no índice:

In [16]:
ser1 + ser2

Alemanha    4.0
EUA         2.0
Italia      NaN
Japão       8.0
USSR        NaN
dtype: float64

# 2 DataFrames

DataFrame é o elemeto mais importante dos Pandas e são diretamente inspirados pela linguagem de programação R. Podemos pensar em um DataFrame como um monte de objetos da série juntos para compartilhar o mesmo índice. Vamos usar Pandas para explorar esse tópico!

_____

In [17]:
from numpy.random import randn
np.random.seed(101)

In [18]:
df = pd.DataFrame(randn(5,4),index='A B C D E'.split(),columns='W X Y Z'.split())
df

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
C,-2.018168,0.740122,0.528813,-0.589001
D,0.188695,-0.758872,-0.933237,0.955057
E,0.190794,1.978757,2.605967,0.683509


### 2.1 Seleção e indexação de DataFrame

Vamos aprender os vários métodos para pegar dados de um DataFrame

In [19]:
df['W']

A    2.706850
B    0.651118
C   -2.018168
D    0.188695
E    0.190794
Name: W, dtype: float64

In [20]:
# Passando uma lista com nomes das colunas
df[['W','Z']]

Unnamed: 0,W,Z
A,2.70685,0.503826
B,0.651118,0.605965
C,-2.018168,-0.589001
D,0.188695,0.955057
E,0.190794,0.683509


In [21]:
# Sintaxe SQL (Não recomendado!)
df.W

A    2.706850
B    0.651118
C   -2.018168
D    0.188695
E    0.190794
Name: W, dtype: float64

### 2.2 As colunas dos DataFrames são Series

In [22]:
type(df['W'])

pandas.core.series.Series

In [23]:
df['new'] = df['W'] + df['Y']
df

Unnamed: 0,W,X,Y,Z,new
A,2.70685,0.628133,0.907969,0.503826,3.614819
B,0.651118,-0.319318,-0.848077,0.605965,-0.196959
C,-2.018168,0.740122,0.528813,-0.589001,-1.489355
D,0.188695,-0.758872,-0.933237,0.955057,-0.744542
E,0.190794,1.978757,2.605967,0.683509,2.796762


### 2.3 Removendo colunas

In [24]:
# axis=1 é para colunas e axis=0 é para linhas 
df.drop('new',axis=1)

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
C,-2.018168,0.740122,0.528813,-0.589001
D,0.188695,-0.758872,-0.933237,0.955057
E,0.190794,1.978757,2.605967,0.683509


In [25]:
#Porém, tal exclusão só ocorrerá se especificada no parâmetro inplace
df

Unnamed: 0,W,X,Y,Z,new
A,2.70685,0.628133,0.907969,0.503826,3.614819
B,0.651118,-0.319318,-0.848077,0.605965,-0.196959
C,-2.018168,0.740122,0.528813,-0.589001,-1.489355
D,0.188695,-0.758872,-0.933237,0.955057,-0.744542
E,0.190794,1.978757,2.605967,0.683509,2.796762


In [26]:
#inplace serve para alterar o df original
df.drop('new',axis=1,inplace=True)

In [27]:
df

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
C,-2.018168,0.740122,0.528813,-0.589001
D,0.188695,-0.758872,-0.933237,0.955057
E,0.190794,1.978757,2.605967,0.683509


### 2.3.1 Também podemos deletar colunas desta forma:

In [28]:
df.drop('E',axis=0)

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
C,-2.018168,0.740122,0.528813,-0.589001
D,0.188695,-0.758872,-0.933237,0.955057


### 2.4 Selecionando linhas

In [29]:
# o loc é feito para acessar as linhas do df com base no indice
df.loc[['A']]

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826


### 2.4.1 Ou selecione com base na posição em vez do rótulo

In [30]:
# o loc é feito para acessar as linhas do df com base no indice, mas agr de forma numérica
df.iloc[[2]]

Unnamed: 0,W,X,Y,Z
C,-2.018168,0.740122,0.528813,-0.589001


In [31]:
df.iloc[:-1,2:]

Unnamed: 0,Y,Z
A,0.907969,0.503826
B,-0.848077,0.605965
C,0.528813,-0.589001
D,-0.933237,0.955057


### 2.4.2 Selecionando o subconjunto de linhas e colunas

In [32]:
df.loc['B','Y']

-0.8480769834036315

In [33]:
df.loc[['A','B'],['W','Y']]

Unnamed: 0,W,Y
A,2.70685,0.907969
B,0.651118,-0.848077


### 2.5 Seleção condicional

Uma característica importante dos pandas é a seleção condicional usando notação de colchetes, muito semelhante ao numpy:

In [34]:
df

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
C,-2.018168,0.740122,0.528813,-0.589001
D,0.188695,-0.758872,-0.933237,0.955057
E,0.190794,1.978757,2.605967,0.683509


In [35]:
df>0

Unnamed: 0,W,X,Y,Z
A,True,True,True,True
B,True,False,False,True
C,False,True,True,False
D,True,False,False,True
E,True,True,True,True


In [36]:
df[df>0]

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,,,0.605965
C,,0.740122,0.528813,
D,0.188695,,,0.955057
E,0.190794,1.978757,2.605967,0.683509


In [37]:
df[df['W']>0]

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
D,0.188695,-0.758872,-0.933237,0.955057
E,0.190794,1.978757,2.605967,0.683509


In [38]:
df[df['W']>0]['Y']

A    0.907969
B   -0.848077
D   -0.933237
E    2.605967
Name: Y, dtype: float64

In [39]:
df[df['W']>0][['Y','X']]

Unnamed: 0,Y,X
A,0.907969,0.628133
B,-0.848077,-0.319318
D,-0.933237,-0.758872
E,2.605967,1.978757


### 2.5.1 Para duas condições, você pode usar | e & com parênteses:

In [40]:
df[(df['W']>0) & (df['Y'] > 1)]

Unnamed: 0,W,X,Y,Z
E,0.190794,1.978757,2.605967,0.683509


In [41]:
condicao_1 = df['W'] > 0
condicao_2 = df['Y'] > 1

df[(condicao_1) & (condicao_2)]

Unnamed: 0,W,X,Y,Z
E,0.190794,1.978757,2.605967,0.683509


In [42]:
df[(condicao_1) | (condicao_2)]

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
D,0.188695,-0.758872,-0.933237,0.955057
E,0.190794,1.978757,2.605967,0.683509


### 2.6 Mais Detalhes do Índice

Vamos discutir mais alguns recursos de indexação, incluindo resetar o índice ou configurá-lo de outra forma. Também falaremos sobre hierarquia de índice!

In [43]:
df

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
C,-2.018168,0.740122,0.528813,-0.589001
D,0.188695,-0.758872,-0.933237,0.955057
E,0.190794,1.978757,2.605967,0.683509


In [44]:
# Redefinir para o padrão 0,1 ... n índice
df.reset_index()

Unnamed: 0,index,W,X,Y,Z
0,A,2.70685,0.628133,0.907969,0.503826
1,B,0.651118,-0.319318,-0.848077,0.605965
2,C,-2.018168,0.740122,0.528813,-0.589001
3,D,0.188695,-0.758872,-0.933237,0.955057
4,E,0.190794,1.978757,2.605967,0.683509


In [45]:
novoind = 'CA NY WY OR CO'.split()

In [46]:
df['Estados'] = novoind

In [47]:
df

Unnamed: 0,W,X,Y,Z,Estados
A,2.70685,0.628133,0.907969,0.503826,CA
B,0.651118,-0.319318,-0.848077,0.605965,NY
C,-2.018168,0.740122,0.528813,-0.589001,WY
D,0.188695,-0.758872,-0.933237,0.955057,OR
E,0.190794,1.978757,2.605967,0.683509,CO


In [48]:
df.set_index('Estados')

Unnamed: 0_level_0,W,X,Y,Z
Estados,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
CA,2.70685,0.628133,0.907969,0.503826
NY,0.651118,-0.319318,-0.848077,0.605965
WY,-2.018168,0.740122,0.528813,-0.589001
OR,0.188695,-0.758872,-0.933237,0.955057
CO,0.190794,1.978757,2.605967,0.683509


In [49]:
df

Unnamed: 0,W,X,Y,Z,Estados
A,2.70685,0.628133,0.907969,0.503826,CA
B,0.651118,-0.319318,-0.848077,0.605965,NY
C,-2.018168,0.740122,0.528813,-0.589001,WY
D,0.188695,-0.758872,-0.933237,0.955057,OR
E,0.190794,1.978757,2.605967,0.683509,CO


In [50]:
df.set_index('Estados',inplace=True)

In [51]:
df

Unnamed: 0_level_0,W,X,Y,Z
Estados,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
CA,2.70685,0.628133,0.907969,0.503826
NY,0.651118,-0.319318,-0.848077,0.605965
WY,-2.018168,0.740122,0.528813,-0.589001
OR,0.188695,-0.758872,-0.933237,0.955057
CO,0.190794,1.978757,2.605967,0.683509


### 2.6.1 Hierarquia de índices e índices múltiplos

Vamos examinar como trabalhar com o Multi-Index, primeiro criaremos um exemplo rápido de como seria um DataFrame Multi-Indexado:

In [52]:
# Níveis de Índice
outside = ['G1','G1','G1','G2','G2','G2']
inside = [1,2,3,1,2,3]
hier_index = list(zip(outside,inside))
hier_index = pd.MultiIndex.from_tuples(hier_index)

In [53]:
hier_index

MultiIndex([('G1', 1),
            ('G1', 2),
            ('G1', 3),
            ('G2', 1),
            ('G2', 2),
            ('G2', 3)],
           )

In [54]:
df = pd.DataFrame(np.random.randn(6,2),index=hier_index,columns=['A','B'])
df

Unnamed: 0,Unnamed: 1,A,B
G1,1,0.302665,1.693723
G1,2,-1.706086,-1.159119
G1,3,-0.134841,0.390528
G2,1,0.166905,0.184502
G2,2,0.807706,0.07296
G2,3,0.638787,0.329646


#### Agora vamos mostrar como indexar isso! Para a hierarquia de índice, usamos df.loc []. Se este fosse no eixo das colunas, você usaria a notação de suporte normal df []. Chamar um nível do índice retorna um sub-dataframe:

In [55]:
df.loc['G1']

Unnamed: 0,A,B
1,0.302665,1.693723
2,-1.706086,-1.159119
3,-0.134841,0.390528


In [56]:
df.loc['G1'].loc[1]

A    0.302665
B    1.693723
Name: 1, dtype: float64

In [57]:
df.index.names

FrozenList([None, None])

In [58]:
df.index.names = ['Grupo','Número']

In [59]:
df

Unnamed: 0_level_0,Unnamed: 1_level_0,A,B
Grupo,Número,Unnamed: 2_level_1,Unnamed: 3_level_1
G1,1,0.302665,1.693723
G1,2,-1.706086,-1.159119
G1,3,-0.134841,0.390528
G2,1,0.166905,0.184502
G2,2,0.807706,0.07296
G2,3,0.638787,0.329646


### Agora vamos mostrar como indexar isso! Para a hierarquia de índice, usamos df.loc []. Se este fosse no eixo das colunas, você usaria a notação de suporte normal df []. Chamar um nível do índice retorna um sub-dataframe:

In [60]:
df.xs('G1')

Unnamed: 0_level_0,A,B
Número,Unnamed: 1_level_1,Unnamed: 2_level_1
1,0.302665,1.693723
2,-1.706086,-1.159119
3,-0.134841,0.390528


In [61]:
df.xs(1,level='Número')

Unnamed: 0_level_0,A,B
Grupo,Unnamed: 1_level_1,Unnamed: 2_level_1
G1,0.302665,1.693723
G2,0.166905,0.184502


# 3. Tratando Dados ausentes

Vamos mostrar alguns métodos convenientes para lidar com Missing Data em pandas

____

In [62]:
import numpy as np
import pandas as pd

In [63]:
df = pd.DataFrame({'A': [1,2,np.nan],
                  'B': [5,np.nan,np.nan],
                  'C': [1,2,3]})

In [64]:
df

Unnamed: 0,A,B,C
0,1.0,5.0,1
1,2.0,,2
2,,,3


In [65]:
df.dropna()

Unnamed: 0,A,B,C
0,1.0,5.0,1


In [66]:
df.dropna(axis=1)

Unnamed: 0,C
0,1
1,2
2,3


In [67]:
# thresh em dropna() especifica o número mínimo de valores não-NA que uma linha ou coluna deve ter para ser mantida, descartando as que não atendem a esse critério.
df.dropna(thresh=2)

Unnamed: 0,A,B,C
0,1.0,5.0,1
1,2.0,,2


In [68]:
df.fillna(value='Conteúdo')

Unnamed: 0,A,B,C
0,1.0,5.0,1
1,2.0,Conteúdo,2
2,Conteúdo,Conteúdo,3


# 4. Operações com DataFrames

Há muitas operações com pandas que serão realmente úteis para você, mas não se enquadram em nenhuma categoria distinta. Vamos mostrar aqui nesta aula:

____

In [69]:
import pandas as pd
df = pd.DataFrame({'col1':[1,2,3,4],'col2':[444,555,666,444],'col3':['abc','def','ghi','xyz']})
df.head()

Unnamed: 0,col1,col2,col3
0,1,444,abc
1,2,555,def
2,3,666,ghi
3,4,444,xyz


### 4.1  Informação sobre valores exclusivos

In [70]:
df['col2'].unique()

array([444, 555, 666], dtype=int64)

In [71]:
df['col2'].nunique()

3

In [72]:
df['col2'].value_counts()

col2
444    2
555    1
666    1
Name: count, dtype: int64

### 4.2 Selecionando dados

In [73]:
# Selecione do DataFrame usando critérios de várias colunas
newdf = df[(df['col1']>2) & (df['col2']==444)]

In [74]:
newdf

Unnamed: 0,col1,col2,col3
3,4,444,xyz


### 4.3 Aplicando funções

In [75]:
def times2(x):
    return x*2

In [76]:
df['col1'].apply(times2)

0    2
1    4
2    6
3    8
Name: col1, dtype: int64

In [77]:
df['col3'].apply(len)

0    3
1    3
2    3
3    3
Name: col3, dtype: int64

In [78]:
df['col1']

0    1
1    2
2    3
3    4
Name: col1, dtype: int64

In [79]:
df['col1'].sum()

10

In [80]:
df['col1'].count()

4

In [81]:
df['col1'].product()

24

In [82]:
df['col1'].mean()

2.5

In [83]:
df['col1'].max()

4

In [84]:
df['col1'].min()

1

In [85]:
df['col1'].idxmax()

3

In [86]:
df['col1'].idxmin()

0

In [87]:
df['col1'].add(1)

0    2
1    3
2    4
3    5
Name: col1, dtype: int64

In [88]:
df['col1'].sub(1)

0    0
1    1
2    2
3    3
Name: col1, dtype: int64

In [89]:
df['col1'].mul(2)

0    2
1    4
2    6
3    8
Name: col1, dtype: int64

In [90]:
df['col1'].div(2)

0    0.5
1    1.0
2    1.5
3    2.0
Name: col1, dtype: float64

### 4.4 Removendo colunas permanentemente

In [91]:
del df['col1']

In [92]:
df

Unnamed: 0,col2,col3
0,444,abc
1,555,def
2,666,ghi
3,444,xyz


** Obter nomes de coluna e índice: **

In [93]:
df.columns

Index(['col2', 'col3'], dtype='object')

In [94]:
df.index

RangeIndex(start=0, stop=4, step=1)

** Ordenando um DataFrame **

In [95]:
df

Unnamed: 0,col2,col3
0,444,abc
1,555,def
2,666,ghi
3,444,xyz


In [96]:
df.sort_values(by='col2') #inplace=False por padrão

Unnamed: 0,col2,col3
0,444,abc
3,444,xyz
1,555,def
2,666,ghi


### 4.5 Encontre Valores Nulos ou Verifique Valores Nulos

In [97]:
df.isnull()

Unnamed: 0,col2,col3
0,False,False
1,False,False
2,False,False
3,False,False


In [98]:
# Deleta linhas com valores NaN
df.dropna()

Unnamed: 0,col2,col3
0,444,abc
1,555,def
2,666,ghi
3,444,xyz


### 4.6 Preenchendo os valores de NaN com outra coisa

In [99]:
import numpy as np

In [100]:
df = pd.DataFrame({'col1':[1,2,3,np.nan],
                   'col2':[np.nan,555,666,444],
                   'col3':['abc','def','ghi','xyz']})
df.head()

Unnamed: 0,col1,col2,col3
0,1.0,,abc
1,2.0,555.0,def
2,3.0,666.0,ghi
3,,444.0,xyz


In [101]:
df.fillna('Preencher')

Unnamed: 0,col1,col2,col3
0,1.0,Preencher,abc
1,2.0,555.0,def
2,3.0,666.0,ghi
3,Preencher,444.0,xyz


In [102]:
data = {'A':['foo','foo','foo','bar','bar','bar'],
     'B':['one','one','two','two','one','one'],
       'C':['x','y','x','y','x','y'],
       'D':[1,3,2,5,4,1]}

df = pd.DataFrame(data)

In [103]:
df

Unnamed: 0,A,B,C,D
0,foo,one,x,1
1,foo,one,y,3
2,foo,two,x,2
3,bar,two,y,5
4,bar,one,x,4
5,bar,one,y,1


In [104]:
dicionario_map = {
    'foo': 'fu',
    'bar': 'bah',
}

In [105]:
df['A'].map(dicionario_map)

0     fu
1     fu
2     fu
3    bah
4    bah
5    bah
Name: A, dtype: object

In [106]:
condicao = df == 'one'

In [107]:
df.where(condicao, 0)

Unnamed: 0,A,B,C,D
0,0,one,0,0
1,0,one,0,0
2,0,0,0,0
3,0,0,0,0
4,0,one,0,0
5,0,one,0,0


In [108]:
df.pivot_table(values='D',index=['A', 'B'],columns=['C'])

Unnamed: 0_level_0,C,x,y
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,4.0,1.0
bar,two,,5.0
foo,one,1.0,3.0
foo,two,2.0,


In [109]:
df.copy()

Unnamed: 0,A,B,C,D
0,foo,one,x,1
1,foo,one,y,3
2,foo,two,x,2
3,bar,two,y,5
4,bar,one,x,4
5,bar,one,y,1


In [None]:
df['A'].fillna(value=df['A'].mean())

# 5. Entrada e saída de dados

Este notebook conterá nossas referências sobre entrada e saída de dados. O pandas pode ler uma variedade de tipos de arquivos usando seus métodos pd.read_. Vejamos os tipos de dados mais comuns

_____

In [None]:
import pandas as pd
import numpy as np

## 5.1 CSV

### CSV Input

In [None]:
df = pd.read_csv('exemplo')
df

### Saída de dados tipo CSV 

In [None]:
df.to_csv('exemplo.csv',index=False)

## 5.2 Excel

Pandas podem ler e escrever arquivos do Excel, tenha em mente, isso só importa dados. Não fórmulas nem imagens, lembrando que imagens ou macros podem bugar o método.

In [None]:
#Bibliotecas necessárias para trabalhar com excel
!pip install xlrd
!pip install openpyxl

### Entrada via Excel

In [None]:
pd.read_excel('Exemplo_Excel.xlsx',sheet_name='Sheet1')

### Saída via Excel

In [None]:
df.to_excel('Exemplo_Excel.xlsx',sheet_name='Sheet1')

## 5.3 HTML


### Entrada HTML

A função Pandas read_html irá ler tabelas fora de uma página da Web e retornar uma lista de objetos DataFrame:

In [110]:
df = pd.read_html('http://www.fdic.gov/bank/individual/failed/banklist.html')

In [111]:
df[0]

Unnamed: 0,Bank Name,City,State,Cert,Aquiring Institution,Closing Date,Fund Sort ascending
0,The First National Bank of Lindsay,Lindsay,Oklahoma,4134,"First Bank & Trust Co., Duncan, OK","October 18, 2024",10547
1,Republic First Bank dba Republic Bank,Philadelphia,Pennsylvania,27332,"Fulton Bank, National Association","April 26, 2024",10546
2,Citizens Bank,Sac City,Iowa,8758,Iowa Trust & Savings Bank,"November 3, 2023",10545
3,Heartland Tri-State Bank,Elkhart,Kansas,25851,"Dream First Bank, N.A.","July 28, 2023",10544
4,First Republic Bank,San Francisco,California,59017,"JPMorgan Chase Bank, N.A.","May 1, 2023",10543
5,Signature Bank,New York,New York,57053,"Flagstar Bank, N.A.","March 12, 2023",10540
6,Silicon Valley Bank,Santa Clara,California,24735,First Citizens Bank & Trust Company,"March 10, 2023",10539
7,Almena State Bank,Almena,Kansas,15426,Equity Bank,"October 23, 2020",10538
8,First City Bank of Florida,Fort Walton Beach,Florida,16748,"United Fidelity Bank, fsb","October 16, 2020",10537
9,The First State Bank,Barboursville,West Virginia,14361,"MVB Bank, Inc.","April 3, 2020",10536
