# Estruturas de dados do Pandas

Este capítulo tem por objetivo abordar:
- Carga de dados manual
- O objeto **Séries**
- Operações básicas em objetos **Séries**
- Subconjunto condicionais e fatiamento e indexação sofisticados
- Como salvar dados

### Criando seus próprios dados

Criando uma Series<br>
Uma Series representa um conteiner unidimensional em pandas semelhante uma lista em Python. As Series representam os registros dos valores de uma coluna, as quais possuem um tipo único. O jeito mais fácil de criar uma Series em pandas é passar uma lista para ele, o seu tipo será o tipo mais comum da lista.

In [3]:
import pandas as pd

s = pd.Series(['banana', 42])
print(s)

0    banana
1        42
dtype: object


In [4]:
# Atribui valores de índice manualmente em uma série
# passando uma lista Python
s = pd.Series(["Wes McKinny", "Creator of Pandas"], index=["Person", "Who"])
print(s)

Person          Wes McKinny
Who       Creator of Pandas
dtype: object


In [5]:
s = pd.Series({"nome": "Alice", "idade": 30, "cidade": "São Paulo"}, index=["Person", "Who", "na"])
print(s)
# nesta caso com a series sendo um dicionário, não ocorreru nenhum problema, mas retornou Nan

Person    NaN
Who       NaN
na        NaN
dtype: object


In [6]:
s = pd.Series(("nome", "Alice", "idade"), index=["Person", "Who", "na"])
print(s)
# Neste caso, a tupla e o index precisa ser de mesma quantidade de tamanho

Person     nome
Who       Alice
na        idade
dtype: object


***Criando um dataframe**: Podemos criar um dataframe de forma semelhante que a criação de dicionário em Python

In [7]:
scientists = pd.DataFrame({
    "Name":["Rosaline Franklin", "William Gosset"],
    "Occupation":["Chemist", "Statistician"],
    "Born":["1920-07-25", "1876-06-13"],
    "Died":["1958-04-16", "1937-10-16"],
    "Age":[37, 61]
})

print(scientists)

                Name    Occupation        Born        Died  Age
0  Rosaline Franklin       Chemist  1920-07-25  1958-04-16   37
1     William Gosset  Statistician  1876-06-13  1937-10-16   61


Podemos especificar a ordem das colunas e o índice da linha, como se quisessemos que os nomes tornassem a ser os índices. Posteriormente em columns também podemos alterar a ordem das colunas.

In [8]:
scientists = pd.DataFrame(
    data = {"Occupation":["Chemist", "Statistician"],
            "Born":["1920-07-25", "1876-06-13"],
            "Died":["1958-04-16", "1937-10-16"],
            "Age":[37, 61]},
    index = ["Rosaline Franklin", "William Gosset"],
    columns = ["Occupation", "Born", "Died", "Age"]
)

print(scientists)

                     Occupation        Born        Died  Age
Rosaline Franklin       Chemist  1920-07-25  1958-04-16   37
William Gosset     Statistician  1876-06-13  1937-10-16   61


Porém como em Python os dicionários não são objetos ordenados, para garantir as ordem do dataframe precisamos utilizar o método `OrderedDict()` presente na biblioteca **collections**

In [9]:
from collections import OrderedDict


scientists = pd.DataFrame(OrderedDict([
    ("Name", ["Rosaline Franklin", "William Gosset"]),
    ("Occupation", ["Chemist", "Statistician"]),
    ("Born", ["1920-07-25", "1876-06-13"]),
    ("Died", ["1958-04-16", "1937-10-16"]),
    ("Age", [37, 61])
    ])
)

print(scientists)

                Name    Occupation        Born        Died  Age
0  Rosaline Franklin       Chemist  1920-07-25  1958-04-16   37
1     William Gosset  Statistician  1876-06-13  1937-10-16   61


### Series

O fatiamento dos dataframe afeta o type para uma series

In [10]:
scientists = pd.DataFrame(
    data = {"Occupation":["Chemist", "Statistician"],
            "Born":["1920-07-25", "1876-06-13"],
            "Died":["1958-04-16", "1937-10-16"],
            "Age":[37, 61]},
    index = ["Rosaline Franklin", "William Gosset"],
    columns = ["Occupation", "Born", "Died", "Age"]
)

print(f"Tipo de scientists: {type(scientists)}")

Tipo de scientists: <class 'pandas.core.frame.DataFrame'>


In [11]:
# Agora selecionamos um cientista pelo rótulo do índice
first_row = scientists.loc["William Gosset"]
print(type(first_row))

<class 'pandas.core.series.Series'>


Perceba que após fatiarmos o dataframe com a função `loc()`, o do objeto mudou para um series. 

In [12]:
# Apresentar a linha que representa o cientista Willian Gosset
print(first_row)

Occupation    Statistician
Born            1876-06-13
Died            1937-10-16
Age                     61
Name: William Gosset, dtype: object


É comum termos muitos índices e colunas em um dataframe. Para isso podemos usar os atributos `index` e `values`

In [13]:
print(f"Índices: {first_row.index}\n")
print(f"Valores: {first_row.values}")

Índices: Index(['Occupation', 'Born', 'Died', 'Age'], dtype='object')

Valores: ['Statistician' '1876-06-13' '1937-10-16' np.int64(61)]


In [14]:
# Um método que funciona semelhante ao atributo index é keys()
print(first_row.keys())

Index(['Occupation', 'Born', 'Died', 'Age'], dtype='object')


In [15]:
# Obtem o primeor índice usando um atributo
print(first_row.index[0])
print(10 * "-")

# Obtem o primeor índice usando um método
print(first_row.keys()[0])

Occupation
----------
Occupation


Uma series pode ser referenciado como um vetor e se parece com o ndarray em numpy. Logo vários dos mesmos métodos também funcionam em series

In [16]:
# Obter a coluna "Age"
ages = scientists["Age"]
print(ages)

Rosaline Franklin    37
William Gosset       61
Name: Age, dtype: int64


Quando temos vetores de números a operações matemáticas que podemos executar, como média (mean), mínimo (min), máximo (max), entre outras.

In [17]:
# Médias das idades
print(f"Médias das idades: {ages.mean()}\n")

# Idade mínima encontrada
print(f"Idade mínima encontrada: {ages.min()}\n")

# Idade máxima encontrada
print(f"Idade máxima encontrada: {ages.max()}\n")

# Desvio padrão das idades
print(f"Desvio padrão das idades: {ages.std()}\n")

Médias das idades: 49.0

Idade mínima encontrada: 37

Idade máxima encontrada: 61

Desvio padrão das idades: 16.97056274847714



Raramento conseguimos ver todos os índice ou registros com exatidão, logo usa-se operações para se trabalhar com eles. Para isso vamos utilizar um conjunto maior de dados para explorar esse processo.

In [18]:
# Carregando dados do dataframe scientists 
path = "C:\\Users\\Mateus\\Documents\\MateusYamaguti\\TUTORIAL-Analise-de-dados-com-python-e-pandas\\data\\scientists.csv"
scientists = pd.read_csv(path)

In [19]:
scientists.head()

Unnamed: 0,Name,Born,Died,Age,Occupation
0,Rosaline Franklin,1920-07-25,1958-04-16,37,Chemist
1,William Gosset,1876-06-13,1937-10-16,61,Statistician
2,Florence Nightingale,1820-05-12,1910-08-13,90,Nurse
3,Marie Curie,1867-11-07,1934-07-04,66,Chemist
4,Rachel Carson,1907-05-27,1964-04-14,56,Biologist


Podemos utilizar o método describe para realizar diversas estatistica sobre a coluna Age

In [20]:
# Criar variável para receber serie Age
ages = scientists["Age"]
# print(ages)

# Obter estatísticas básicas sobre Age
print(ages.describe())

count     8.000000
mean     59.125000
std      18.325918
min      37.000000
25%      44.000000
50%      58.500000
75%      68.750000
max      90.000000
Name: Age, dtype: float64


In [21]:
# Médias de todas as idades
print(ages.mean())

59.125


Podemos obter subconjuntos das series a partir de operacações relacionais, como por exemplo buscar as idades que estão acima da média

In [22]:
print(ages[ages > ages.mean()])

1    61
2    90
3    66
7    77
Name: Age, dtype: int64


### Broadcasting

Capacidade de operações matemáticas serem realizadas entre arrays de diferentes formas (tamanhos) de maneira eficiente, sem a necessidade de criar cópias dos dados. Isso significa que quano temos um array com vários elementos e iremos operacionalizar com outro array, ele irão interagir de forma que os elementos operem entre si

In [23]:
# Vetor com mesmo tamanho
print(ages * ages)

0    1369
1    3721
2    8100
3    4356
4    3136
5    2025
6    1681
7    5929
Name: Age, dtype: int64


In [24]:
# Vetores com inteiro (escalares)
print(ages + 10)

0     47
1     71
2    100
3     76
4     66
5     55
6     51
7     87
Name: Age, dtype: int64


In [25]:
# Vetores com tamanhos diferente
print(ages + pd.Series([1, 100]))

0     38.0
1    161.0
2      NaN
3      NaN
4      NaN
5      NaN
6      NaN
7      NaN
dtype: float64


Veja que como só temos dois valores de idade, os demais valores a serem somados a serie não existem, por conta disso aparece o NaN

Outro ponto interessante que ocorre no pandas é o alinhamento dos dados, que sempre se alinhão de acordo com os rótulos dos índices

In [26]:
# ages conforme aparecem no dados
print(ages)

0    37
1    61
2    90
3    66
4    56
5    45
6    41
7    77
Name: Age, dtype: int64


In [27]:
# Ordem contrária das idades
rev_ages = ages.sort_index(ascending=False)
print(rev_ages)

7    77
6    41
5    45
4    56
3    66
2    90
1    61
0    37
Name: Age, dtype: int64


Ponto que importante é que se realizarmos operações com ages e rev_ages, os vetores serão realinhados antes de somar.

In [28]:
print("ages * rev_ages")
print(ages * rev_ages)

print(30 * "-")

print(ages * ages)
print("ages * ages")

ages * rev_ages
0    1369
1    3721
2    8100
3    4356
4    3136
5    2025
6    1681
7    5929
Name: Age, dtype: int64
------------------------------
0    1369
1    3721
2    8100
3    4356
4    3136
5    2025
6    1681
7    5929
Name: Age, dtype: int64
ages * ages


### DataFrame

DataFrame é o objeto mais comum no pandas, podemos pensar nele como planilha. Além disso, muitos dos recursos das Series também funcionam no DataFrame.<br>
Também podemos utilizar um subconjunto dos booleano no DataFrame

In [29]:
print(scientists[scientists["Age"] > scientists["Age"].mean()])

                   Name        Born        Died  Age     Occupation
1        William Gosset  1876-06-13  1937-10-16   61   Statistician
2  Florence Nightingale  1820-05-12  1910-08-13   90          Nurse
3           Marie Curie  1867-11-07  1934-07-04   66        Chemist
7          Johann Gauss  1777-04-30  1855-02-23   77  Mathematician


Ou seja, buscarmos dentro DataFrame scientists completo, pelo atributo Age quais tinham idade maior que a média, e assim, retornamos todo DataFrame.<br>

Além disso, podemo passar um vetor de bools para o DataFrame e ele retornará apenas as linhas encontradas com o máximo do tamanho do vetor de booleanos

In [30]:
# Vetor com 4 boleanos
# Retorna 3 linha (True ou False que distingue a quantidade de linhas)
print(scientists.loc[[True, True, False, True, False, True, True, True]])

                Name        Born        Died  Age          Occupation
0  Rosaline Franklin  1920-07-25  1958-04-16   37             Chemist
1     William Gosset  1876-06-13  1937-10-16   61        Statistician
3        Marie Curie  1867-11-07  1934-07-04   66             Chemist
5          John Snow  1813-03-15  1858-06-16   45           Physician
6        Alan Turing  1912-06-23  1954-06-07   41  Computer Scientist
7       Johann Gauss  1777-04-30  1855-02-23   77       Mathematician


### Operações são alinhadas e vetorizadas automaticamente (BROADCASTING)

Broadcasting é um recurso muito utilizado em numpy para tratar array, como series e dataframes são tipos de array, podemos utiliza-lo

In [31]:
first_half = scientists[:4]
second_half= scientists[4:]
print(first_half, "\n")
print(second_half)

                   Name        Born        Died  Age    Occupation
0     Rosaline Franklin  1920-07-25  1958-04-16   37       Chemist
1        William Gosset  1876-06-13  1937-10-16   61  Statistician
2  Florence Nightingale  1820-05-12  1910-08-13   90         Nurse
3           Marie Curie  1867-11-07  1934-07-04   66       Chemist 

            Name        Born        Died  Age          Occupation
4  Rachel Carson  1907-05-27  1964-04-14   56           Biologist
5      John Snow  1813-03-15  1858-06-16   45           Physician
6    Alan Turing  1912-06-23  1954-06-07   41  Computer Scientist
7   Johann Gauss  1777-04-30  1855-02-23   77       Mathematician


In [32]:
# Multiplica dataframe por um escalar
print(scientists * 2)

                                       Name                  Born  \
0        Rosaline FranklinRosaline Franklin  1920-07-251920-07-25   
1              William GossetWilliam Gosset  1876-06-131876-06-13   
2  Florence NightingaleFlorence Nightingale  1820-05-121820-05-12   
3                    Marie CurieMarie Curie  1867-11-071867-11-07   
4                Rachel CarsonRachel Carson  1907-05-271907-05-27   
5                        John SnowJohn Snow  1813-03-151813-03-15   
6                    Alan TuringAlan Turing  1912-06-231912-06-23   
7                  Johann GaussJohann Gauss  1777-04-301777-04-30   

                   Died  Age                            Occupation  
0  1958-04-161958-04-16   74                        ChemistChemist  
1  1937-10-161937-10-16  122              StatisticianStatistician  
2  1910-08-131910-08-13  180                            NurseNurse  
3  1934-07-041934-07-04  132                        ChemistChemist  
4  1964-04-141964-04-14  112     

### Fazendo alterações em Series e em Dataframes

In [33]:
# Tipo de coluna
print(scientists["Born"].dtype)
print(scientists["Died"].dtype)

object
object


Podemos alterar alguns formato de tipo nas colunas (series) do dataframe, por exemplo, como **Born** segue o padrão de data AAAA-MM-DD, podemos utiliza-lo para alterar o seu tipo para datetime

In [34]:
# Formata a coluna Born para datetime
born_datetime = pd.to_datetime(scientists["Born"], format = "%Y-%m-%d")

print(born_datetime)
print(30*"-")

# Formata a coluna Died como datetime
died_datetime = pd.to_datetime(scientists["Died"], format = "%Y-%m-%d")
print(died_datetime)

0   1920-07-25
1   1876-06-13
2   1820-05-12
3   1867-11-07
4   1907-05-27
5   1813-03-15
6   1912-06-23
7   1777-04-30
Name: Born, dtype: datetime64[ns]
------------------------------
0   1958-04-16
1   1937-10-16
2   1910-08-13
3   1934-07-04
4   1964-04-14
5   1858-06-16
6   1954-06-07
7   1855-02-23
Name: Died, dtype: datetime64[ns]


In [35]:
# Exemplo de atribuição múltipla em python
scientists["born_dt"], scientists["died_dt"] = (born_datetime, died_datetime)
print(scientists.head())
print(30 * "-")
print(scientists.shape)

                   Name        Born        Died  Age    Occupation    born_dt  \
0     Rosaline Franklin  1920-07-25  1958-04-16   37       Chemist 1920-07-25   
1        William Gosset  1876-06-13  1937-10-16   61  Statistician 1876-06-13   
2  Florence Nightingale  1820-05-12  1910-08-13   90         Nurse 1820-05-12   
3           Marie Curie  1867-11-07  1934-07-04   66       Chemist 1867-11-07   
4         Rachel Carson  1907-05-27  1964-04-14   56     Biologist 1907-05-27   

     died_dt  
0 1958-04-16  
1 1937-10-16  
2 1910-08-13  
3 1934-07-04  
4 1964-04-14  
------------------------------
(8, 7)


Podemos alterar o valor de uma coluna

In [36]:
# Valor original da coluna Age
print(scientists["Age"])

0    37
1    61
2    90
3    66
4    56
5    45
6    41
7    77
Name: Age, dtype: int64


In [37]:
import random

# Definir semente para manter o valor da aleatoriedade
random.seed(42)
random.shuffle(scientists["Age"])

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  x[i], x[j] = x[j], x[i]
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  x[i], x[j] = x[j], x[i]
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  x[i], x[j] = x[j], x[i]
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  x[i], x[j] = x[j], x[i]
A value is trying to be set on a copy of a slice from a DataFrame

See t

In [38]:
print(scientists["Age"])

0    66
1    56
2    41
3    77
4    90
5    45
6    37
7    61
Name: Age, dtype: int64


o aviso ocorre pois a forma apropriada de usar essa instrução é com loc. Podemos também utilizar o processo abaixo.

In [39]:
# random_state = Deixar a aleatoriedade menos aleatória
scientists["Age"] = scientists["Age"].\
    sample(len(scientists["Age"]), random_state = 24).\
    reset_index(drop = True) # Valore permanecem aleatórios

print(scientists["Age"])

0    61
1    45
2    37
3    90
4    56
5    66
6    77
7    41
Name: Age, dtype: int64


Subtrair datas no das números de dias, os quais podemos trabalhar de alguma forma. Então podemos subtrair died de born e obter a quantidade de dias vivido pelo cientista

In [40]:
scientists["age_days_dt"] = scientists["died_dt"] - scientists["born_dt"]
print(scientists)

                   Name        Born        Died  Age          Occupation  \
0     Rosaline Franklin  1920-07-25  1958-04-16   61             Chemist   
1        William Gosset  1876-06-13  1937-10-16   45        Statistician   
2  Florence Nightingale  1820-05-12  1910-08-13   37               Nurse   
3           Marie Curie  1867-11-07  1934-07-04   90             Chemist   
4         Rachel Carson  1907-05-27  1964-04-14   56           Biologist   
5             John Snow  1813-03-15  1858-06-16   66           Physician   
6           Alan Turing  1912-06-23  1954-06-07   77  Computer Scientist   
7          Johann Gauss  1777-04-30  1855-02-23   41       Mathematician   

     born_dt    died_dt age_days_dt  
0 1920-07-25 1958-04-16  13779 days  
1 1876-06-13 1937-10-16  22404 days  
2 1820-05-12 1910-08-13  32964 days  
3 1867-11-07 1934-07-04  24345 days  
4 1907-05-27 1964-04-14  20777 days  
5 1813-03-15 1858-06-16  16529 days  
6 1912-06-23 1954-06-07  15324 days  
7 1777-04-3

Podemos converter também os valores para ano usando o método `astype()`

In [41]:
# scientists["age_days_dt"] = scientists["age_days_dt"].astype("timedelta64[Y]")
# print(scientists)

# Aproximando um ano como 365 dias
# scientists["age_years"] = scientists["age_days_dt"] / np.timedelta64(365, "D")
# print(scientists)

Podemos descartar valores ou colunas com o método drop de nosso dataframe

In [42]:
# analisar quais são as colunas do nosso dataframe
print(scientists.columns)

Index(['Name', 'Born', 'Died', 'Age', 'Occupation', 'born_dt', 'died_dt',
       'age_days_dt'],
      dtype='object')


In [43]:
# Descartar a coluna de idade (Age), especificar o algumento axis = 1 (axis = 1, pega todas as linhas de uma coluna)
scientists_dropped = scientists.drop(["Age"], axis=1)

# Conferir se a coluna foi descartada
print(scientists_dropped.columns)

Index(['Name', 'Born', 'Died', 'Occupation', 'born_dt', 'died_dt',
       'age_days_dt'],
      dtype='object')


### Exportando e importanto dados
Dados podem ser exportados em versões finais ou intermediarias, principalmente após passa por algum tratamento ou  limpeza.<br>
Em Python, o **pickle** é o modo de serializar em formato binários os dados<br>
No exemplo abaixo é criada a variável **path**, para armazenar o local que o diretorio do arquivo atual está sendo executado e portanto poder trabalhar com seu **parent** para armazenar os dados que estão sendo exportados. O nome "2_capitulo" poderia ser substituido por `__file__`<br>
Como opção para encontrar o local do arquivo notebook, podemos utilizar:
```python
import os
notebook_path = os.getcwd()
print(notebook_path)
```

In [44]:
import os

# Buscar caminho da pasta
print(os.path.dirname(os.path.abspath("2_capitulo")))
path = os.path.dirname(os.path.abspath("2_capitulo"))

# Criar variavel para armazenar series do dataframe que será salvo
names = scientists["Name"]
print(names)

# Salvar em um determinado path
nome_do_arquivo = "scientists_names_series.pickle"
names.to_pickle(f"{path}\\data_cap2\\{nome_do_arquivo}")

C:\Users\Mateus\Documents\MateusYamaguti\TUTORIAL-Analise-de-dados-com-python-e-pandas\notebooks\2_capitulo
0       Rosaline Franklin
1          William Gosset
2    Florence Nightingale
3             Marie Curie
4           Rachel Carson
5               John Snow
6             Alan Turing
7            Johann Gauss
Name: Name, dtype: object


In [51]:
# Para ler os ados pickle podemos utilizar a função pd.read_pickle
scientists_name_from_pickle = pd.read_pickle(
    f"{path}\\data_cap2\\{nome_do_arquivo}")

print(scientists_name_from_pickle)

0       Rosaline Franklin
1          William Gosset
2    Florence Nightingale
3             Marie Curie
4           Rachel Carson
5               John Snow
6             Alan Turing
7            Johann Gauss
Name: Name, dtype: object


In [53]:
# Salvar o dataframe completo

scientists.to_pickle(f"{path}\\data_cap2\\scientists_df.pickle")

C:\Users\Mateus\Documents\MateusYamaguti\TUTORIAL-Analise-de-dados-com-python-e-pandas\notebooks\2_capitulo\data_cap2\scientists_df.pickle


In [55]:
# Imprimir o dataframe scientists no formato pickle
scientistis_from_pickle = pd.read_pickle(f"{path}\\data_cap2\\scientists_df.pickle")
print(scientistis_from_pickle)

                   Name        Born        Died  Age          Occupation  \
0     Rosaline Franklin  1920-07-25  1958-04-16   61             Chemist   
1        William Gosset  1876-06-13  1937-10-16   45        Statistician   
2  Florence Nightingale  1820-05-12  1910-08-13   37               Nurse   
3           Marie Curie  1867-11-07  1934-07-04   90             Chemist   
4         Rachel Carson  1907-05-27  1964-04-14   56           Biologist   
5             John Snow  1813-03-15  1858-06-16   66           Physician   
6           Alan Turing  1912-06-23  1954-06-07   77  Computer Scientist   
7          Johann Gauss  1777-04-30  1855-02-23   41       Mathematician   

     born_dt    died_dt age_days_dt  
0 1920-07-25 1958-04-16  13779 days  
1 1876-06-13 1937-10-16  22404 days  
2 1820-05-12 1910-08-13  32964 days  
3 1867-11-07 1934-07-04  24345 days  
4 1907-05-27 1964-04-14  20777 days  
5 1813-03-15 1858-06-16  16529 days  
6 1912-06-23 1954-06-07  15324 days  
7 1777-04-3

As mesmas operações feitas de importação, salvamento e importação podem ser feita com os arquivos CSV, os quais são mais populares

In [63]:
# Salva um série em CSV
names.to_csv(f"{path}\\data_cap2\\scientists_names_series.csv")

# Salva um dataframe em um TSV, ou seja, salva um arquivo texto com separação por tabulação
scientists.to_csv(f"{path}\\data_cap2\\scientists_df.tsv", sep="\t")

print(pd.read_csv(f"{path}\\data_cap2\\scientists_df.tsv"), sep="\t")


  \tName\tBorn\tDied\tAge\tOccupation\tborn_dt\tdied_dt\tage_days_dt
0  0\tRosaline Franklin\t1920-07-25\t1958-04-16\t...                
1  1\tWilliam Gosset\t1876-06-13\t1937-10-16\t45\...                
2  2\tFlorence Nightingale\t1820-05-12\t1910-08-1...                
3  3\tMarie Curie\t1867-11-07\t1934-07-04\t90\tCh...                
4  4\tRachel Carson\t1907-05-27\t1964-04-14\t56\t...                
5  5\tJohn Snow\t1813-03-15\t1858-06-16\t66\tPhys...                
6  6\tAlan Turing\t1912-06-23\t1954-06-07\t77\tCo...                
7  7\tJohann Gauss\t1777-04-30\t1855-02-23\t41\tM...                


A primeira coluna geralmente é o index dos registro no banco de dados, porém, pode ser que por algum motivo você não deseje salva-lo, logo, podemos retira-lo no momento do salvamento com o parâmetro `index=False`.

In [62]:
scientists.to_csv(f"{path}\\data_cap2\\scientists_df_no_index.csv", index=False)
print(pd.read_csv(f"{path}\\data_cap2\\scientists_df_no_index.csv"))

                   Name        Born        Died  Age          Occupation  \
0     Rosaline Franklin  1920-07-25  1958-04-16   61             Chemist   
1        William Gosset  1876-06-13  1937-10-16   45        Statistician   
2  Florence Nightingale  1820-05-12  1910-08-13   37               Nurse   
3           Marie Curie  1867-11-07  1934-07-04   90             Chemist   
4         Rachel Carson  1907-05-27  1964-04-14   56           Biologist   
5             John Snow  1813-03-15  1858-06-16   66           Physician   
6           Alan Turing  1912-06-23  1954-06-07   77  Computer Scientist   
7          Johann Gauss  1777-04-30  1855-02-23   41       Mathematician   

      born_dt     died_dt age_days_dt  
0  1920-07-25  1958-04-16  13779 days  
1  1876-06-13  1937-10-16  22404 days  
2  1820-05-12  1910-08-13  32964 days  
3  1867-11-07  1934-07-04  24345 days  
4  1907-05-27  1964-04-14  20777 days  
5  1813-03-15  1858-06-16  16529 days  
6  1912-06-23  1954-06-07  15324 da

Essa operações também poder ser feita em arquivos Excel, para isso, podemos pegar um series e converter para um dataframe no caso da series **names_df**. <br>
Posteriormente podemos salva-la em aquivo xls. Para tal precisamos instalar algumas biblioteca de auxilio: **xlwt** e **openpyxl**.

In [None]:
# # Converter a series em um dataframe
# # Antes de salvá-la  em um arquivo Excel
# names_df = names.to_frame()

# import xlwt # isso precisa ser instalado
# names_df.to_excel(f"{path}\\data_cap2\\scientists_names_series_df.xls")

# import openpyxl
# # novo arquivo xlsx
# names_df.to_excel(f"{path}\\data_cap2\\scientists_names_series_df.xlsx")