# Ler e escrever ficheiros CSV e Excel <br>

In [None]:
import pandas as pd
print( pd.__version__)

In [None]:
#Reading CSV file
d=pd.read_csv('datasets/weather.csv')
d.head(3)

In [None]:
#Reading excel file # eventualmente faltara instalar o pacote xlrd
df=pd.read_excel('datasets/titanic.xls')
df.head(3)

### Se quiser ler apenas algumas linhas em vez de todas

In [None]:
df=pd.read_csv('datasets/weather.csv',nrows=7)
df

### Alterar valores específicos com NaN durante a leitura
 * Ao ler o conjunto de dados, pode alterar o valor específico com NaN
   > df = pd.read_excel( "titanic.xls", na_values ​​= [ lista do elemento que deseja alterar para NaN ] )

In [None]:
df = pd.read_excel("datasets/titanic.xls",na_values=['None']) 
df.head()

### Alterar valores específicos com colunas NaN durante a leitura

In [None]:
df=pd.read_excel('datasets/titanic.xls')
df.head()

In [None]:
df=pd.read_excel('datasets/titanic.xls',na_values={'body':['None'],'boat':['None'],'parch':[2,0]})
df.head()

 * O argumento <b>na_values ​​</b> é usado para substituir todos os valores passados ​​na lista por NaN. Também pode substituir alguns valores inválidos na coluna, como no código acima. Se executar o código acima, terá um dataframe em que 'Nenhum' na coluna do corpo é substituído por NaN, novamente Nenhum na coluna do barco é substituído por NaN e 2 e 0 na coluna parch são substituídos por NaN.

### Escrever em CSV ou Excel
 * Pode converter qualquer dataframe em um novo ficheiro CSV ou Excel

In [None]:
#Creatiing my own dictionary
mydict={
         'dates':['02-01-12','03-01-12','04-01-12','05-01-12','06-01-12'],
         'day':['sunny','rainy','hot','sunny','hot'],
         'wind-speed':[12,34,45,56,67],
         'temp':[45,46,47,48,49]
       }
#Converting disction to dataframe object
df=pd.DataFrame(mydict)

#Printing the dataframe
df

### Criar um novo ficheiro

#### Criar um novo ficheiro csv mycsv.csv

Suponha que leu um ficheiro csv ou excel como objeto de dataframe e que fez alguma modificação. Agora quer escrever um novo ficheiro csv ou excel que contenha o dataframe modificado. Nesse caso, precisará da função to_csv() ou to_excel() para criar um novo ficheiro. Veja o exemplo abaixo -

In [None]:
df.to_csv('datasets/mycsv.csv',index=False)


#### Criar um novo ficheiro excel myexcel.xls

In [None]:
df.to_excel('datasets/myexcel.xlsx',index=False) # eventualmente precisa instalar o modulo xlwt
# caso necessário com um python mais recente, crie antes um xlsx e se necessário instale o módulo openpyxl

### Escrever em csv ou excel apenas linhas selecionadas
<br>
Suponha que modificou o dataframe e deseja escrevê-lo em outro ficheiro csv com apenas colunas selecionadas. temp, velocidade do vento (day, temp, wind-speed) e eu ignorei a coluna de data.

#### quantas colunas no dataframe df ?

In [None]:
df.columns

In [None]:
#Writing only three columns day,temp,wind-speed
df.to_csv('datasets/mycsv_few_columns.csv',columns=['day','temp','wind-speed'],index=False)

#Again reading to see the result
d=pd.read_csv('datasets/mycsv_few_columns.csv')
d

### Conversores :

Em muitos casos não tem um conjunto de dados limpo. Valores inválidos no conjunto de dados levam a muitos problemas ao prever ou extrair as informações significativas. Para evitar esse problema, usamos conversores.
* Os conversores são basicamente funções que convertem o valor específico de uma coluna em seu valor desejado
* Função de conversão passada para o dicionário como no na_values.

Este é nosso conjunto de dados no qual pode ver que há muitos valores inválidos presentes. Esses valores são ruídos em nosso conjunto de dados.

In [None]:
df=pd.read_csv('datasets/season.csv')
df

#### A função a seguir irá converter qualquer célula da coluna com 'NaN' em 40, então aqui vamos aplicar esta função na coluna 'temp' e assim para as colunas 'day' e 'wind-speed'.

In [None]:
def converter_for_temp(col):
    if col=='NaN':
        return 40
    else:
        return col
def converter_for_day(col):
    if col=='NaN':
        return 'sunny'
    else:
        return col
def converter_for_wind_speed(col):
    if col=='Not available':
        return 30
    elif col=="NaN":
        return 48
    else:
        return col

In [None]:
df=pd.read_csv('datasets/season.csv',converters={
    'day':converter_for_day,
    'temp':converter_for_temp,
    'wind-speed':converter_for_wind_speed
   })
df

Pode observar que anteriormente as colunas 'day', 'temp' e 'wind-speed' tinham alguns dados inválidos como 'NaN','NAN','Não disponível' mas após aplicar as funções do conversor obtivemos um conjunto de dados limpo. Agora podemos aplicar algumas técnicas de análise de dados para prever algo em nosso conjunto de dados.

### Escrever dataframes diferentes num ficheiro, mas com nomes diferentes de folhas de cálculo

Vamos supor que tem dois dataframes diferentes e quer escrevê-los no mesmo ficheiro Excel, mas com nomes de folhas de cálculo diferentes.
<br>

Vamos usar dois dicionários um é "weather1" e outro é "house1" e fazer dois dataframe "weather" e "house"

In [None]:
#Creating weather dictionary
weather1={
         'dates':['02-01-12','03-01-12','04-01-12','05-01-12','06-01-12'],
         'day':['sunny','rainy','hot','sunny','hot'],
         'wind-speed':[12,34,45,56,67],
         'temp':[45,46,47,48,49]
       }
#Converting disction to dataframe object
weather=pd.DataFrame(weather1)

#Creating house dictionary
house1={
         'dates':['02-01-12','03-01-12','04-01-12','05-01-12','06-01-12'],
         'price':[20000,30000,40000,50000,60000],
         'bhk':[1,3,2,1,2],
         'how-old':[2,5,2,7,4]
       }

#converting house dictionary to dataframe object
house=pd.DataFrame(house1)


Chame o "ExcelWriter" e crie o objeto "writer". Agora chame a função to_excel() e passe três argumentos -
  * <b>1. objeto "writer":</b>
  * <b>2. nome_da_folha "sheet_name": </b>
  * <b>3. Índice :</b> Opcional

In [None]:
with pd.ExcelWriter('datasets/weather_and_house.xlsx') as writer:
   weather.to_excel(writer,sheet_name='Weather',index=False)
   house.to_excel(writer,sheet_name='House',index=False)

In [None]:
# instalar openpyxl para criar ficheiros xlsx
with pd.ExcelWriter('datasets/weather_and_house.xlsx') as writer:
   weather.to_excel(writer,sheet_name='Weather',index=False)
   house.to_excel(writer,sheet_name='House',index=False)


#### Agora aceda as folhas de cálculo separadamente passando o seu nome durante a leitura
Veja o exemplo

In [None]:
d1=pd.read_excel('datasets/weather_and_house.xlsx','Weather')
d1

In [None]:
d2=pd.read_excel('datasets/weather_and_house.xlsx','House')
d2