<a href="https://colab.research.google.com/github/marciogsantana/Ciencia-de-dados/blob/main/nomes_bebes.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### **Este notebook foi utilizado como apoio para os textos publicos em: **
https://www.linkedin.com/pulse/utilizando-python-para-tratar-base-de-dados-com-muitos-mauro-ferreira/

e

https://www.linkedin.com/pulse/utilizando-python-para-tratar-base-de-dados-com-muitos-mauro-ferreira-1e/

### **Urls relevantes**
**Página do governo americano onde são publicados os dados de nomes de crianças nascidas desde 1880**
https://www.ssa.gov/oact/babynames/limits.html


## **Documentação da biblioteca ZipFile**
https://docs.python.org/pt-br/3/library/zipfile.html

## **Documentação de manipulação do Sistema de Arquivos do Colab**
https://colab.research.google.com/notebooks/io.ipynb

In [None]:
#Importações das bibliotecas utilizadas durante a análise. Pandas para a criação e manipulação de Dataframes e zipfile para processar arquivos compactados
import pandas as pd
import zipfile

#Solução para criar um google drive local e armazenar os arquivos
from google.colab import drive
drive.mount('/content/drive')


In [None]:
# Extraindo oo arquivo dentro da minha pasta do Google Drive. 
# No meu caso o caminho está dentro do drive criado no processamento anterior
# No artigo optei por não usar esta solução extraindo no próprio ambiente do Colab, por questões didáticas
zipfile.ZipFile('/content/drive/MyDrive/colab_arquivos/names.zip').extractall('/content/drive/MyDrive/colab_arquivos/.')

In [None]:
#Lendo o conteúdo da pasta "colab_arquivos" depois do processamento anterior. O arquivo .zip foi descompactado lá
ls drive/MyDrive/colab_arquivos/

names.zip           yob1907.txt  yob1936.txt  yob1965.txt  yob1994.txt
NationalReadMe.pdf  yob1908.txt  yob1937.txt  yob1966.txt  yob1995.txt
yob1880.txt         yob1909.txt  yob1938.txt  yob1967.txt  yob1996.txt
yob1881.txt         yob1910.txt  yob1939.txt  yob1968.txt  yob1997.txt
yob1882.txt         yob1911.txt  yob1940.txt  yob1969.txt  yob1998.txt
yob1883.txt         yob1912.txt  yob1941.txt  yob1970.txt  yob1999.txt
yob1884.txt         yob1913.txt  yob1942.txt  yob1971.txt  yob2000.txt
yob1885.txt         yob1914.txt  yob1943.txt  yob1972.txt  yob2001.txt
yob1886.txt         yob1915.txt  yob1944.txt  yob1973.txt  yob2002.txt
yob1887.txt         yob1916.txt  yob1945.txt  yob1974.txt  yob2003.txt
yob1888.txt         yob1917.txt  yob1946.txt  yob1975.txt  yob2004.txt
yob1889.txt         yob1918.txt  yob1947.txt  yob1976.txt  yob2005.txt
yob1890.txt         yob1919.txt  yob1948.txt  yob1977.txt  yob2006.txt
yob1891.txt         yob1920.txt  yob1949.txt  yob1978.txt  yob2007.txt
yob189

In [None]:
# Um teste abrindo somente a lista de crianças nascidas em 2011 e exibindo as primeiras 10 linhas
bebes_2011 = open('/content/drive/MyDrive/colab_arquivos/yob2011.txt','r').readlines()[:10]
bebes_2011

['Sophia,F,21848\n',
 'Isabella,F,19918\n',
 'Emma,F,18807\n',
 'Olivia,F,17327\n',
 'Ava,F,15506\n',
 'Emily,F,14264\n',
 'Abigail,F,13252\n',
 'Madison,F,12394\n',
 'Mia,F,11532\n',
 'Chloe,F,10995\n']

In [None]:
# A variável bebes_2011 é tipo Lista do Python
type(bebes_2011)

list

In [None]:
# Criando uma nova variável "dados" que será do tipo dataframe porque o método read_csv() retorna objetos dataframe
dados = pd.read_csv('/content/drive/MyDrive/colab_arquivos/yob2011.txt')

A base de dados contida nos arquivos yobANO.txt é composto por 3 colunas.
 - Nome contendo os nomes registros no ano
 - Gênero contendo as flags "f" para feminino e "M" para masculino
 - Qtde contendo a quantidade de crianças registradas com aquele nome no ano.

 O ano é representado no nome do arquivo que variam de 1880 a 2019.

 Importante: Não á uma linha de cabeçalho nos arquivos.

 * Dados retirados do arquivo "NationalReadMe.pdf" que vem dentro do "names.zip"

In [None]:
# Agora os 10 primeiros registros, porém em formato dataframe
dados.head(10)

Unnamed: 0,Sophia,F,21848
0,Isabella,F,19918
1,Emma,F,18807
2,Olivia,F,17327
3,Ava,F,15506
4,Emily,F,14264
5,Abigail,F,13252
6,Madison,F,12394
7,Mia,F,11532
8,Chloe,F,10995
9,Elizabeth,F,10095


In [None]:
# Um estudo sobre como abrir o arquivo de dados já acrescentando cabeçalho nas colunas
dados = pd.read_csv('yob2011.txt', names=['nome','genero','qtde'])

In [None]:
# Por ser um dataframe, agora tempos uma linha nova para representar o título e uma coluna mais a esquerda que pode ser usada como índice do dataframe. 
# Como foi criada pelo pandas automaticamente, não possui um identificador.
dados.head()

Unnamed: 0,nome,genero,qtde
0,Sophia,F,21848
1,Isabella,F,19918
2,Emma,F,18807
3,Olivia,F,17327
4,Ava,F,15506


In [None]:
# Apenas observando toda a extensão do dataframe que tem "Sophia" como sendo o nome mais usado em 2011
dados

Unnamed: 0,nome,genero,qtde
0,Sophia,F,21848
1,Isabella,F,19918
2,Emma,F,18807
3,Olivia,F,17327
4,Ava,F,15506
...,...,...,...
33910,Zylar,M,5
33911,Zylas,M,5
33912,Zyran,M,5
33913,Zyshawn,M,5


In [None]:
# Definindo como índice o campo nome
dados.set_index("nome")

Unnamed: 0_level_0,genero,qtde
nome,Unnamed: 1_level_1,Unnamed: 2_level_1
Sophia,F,21848
Isabella,F,19918
Emma,F,18807
Olivia,F,17327
Ava,F,15506
...,...,...
Zylar,M,5
Zylas,M,5
Zyran,M,5
Zyshawn,M,5


In [None]:
# Um teste removendo o registro onde o índice é "Sophia"
dados.drop('Sophia')

Unnamed: 0_level_0,genero,qtde
nome,Unnamed: 1_level_1,Unnamed: 2_level_1
Isabella,F,19910
Emma,F,18803
Olivia,F,17322
Ava,F,15503
Emily,F,14258
...,...,...
Zylar,M,5
Zylas,M,5
Zyran,M,5
Zyshawn,M,5


In [None]:
# Um experimento adicionando o número do ano como sendo uma coluna adicional ao dataframe. Usando o método assign()
pd.read_csv('/content/drive/MyDrive/colab_arquivos/yob2011.txt', names=['nome','genero','qtde']).assign(anos=2011)

Unnamed: 0,nome,genero,qtde,anos
0,Sophia,F,21848,2011
1,Isabella,F,19918,2011
2,Emma,F,18807,2011
3,Olivia,F,17327,2011
4,Ava,F,15506,2011
...,...,...,...,...
33910,Zylar,M,5,2011
33911,Zylas,M,5,2011
33912,Zyran,M,5,2011
33913,Zyshawn,M,5,2011


In [None]:
# Agora juntando os estudos anteriores mas atribuindo para o dataframe "todos_dados" o conteúdo de todos os arquivos daquele diretório
# com esta solução todos os arquivos serão processados em um único objeto do tipo dataframe.
todos_dados = pd.concat(pd.read_csv(f'/content/drive/MyDrive/colab_arquivos/yob{anos}.txt',names=['nome','genero','qtde']).assign(anos=anos) for anos in range(1880, 2020))
todos_dados

Unnamed: 0,nome,genero,qtde,anos
0,Mary,F,7065,1880
1,Anna,F,2604,1880
2,Emma,F,2003,1880
3,Elizabeth,F,1939,1880
4,Minnie,F,1746,1880
...,...,...,...,...
31949,Zyheem,M,5,2019
31950,Zykel,M,5,2019
31951,Zyking,M,5,2019
31952,Zyn,M,5,2019


In [None]:
# Validando o primeiro registro de ano e o último. Para estar correto o primeiro deve ser 1880 e o último 2019
todos_dados.anos.min(), todos_dados.anos.max()

(1880, 2019)

In [None]:
# Utilizando o método loc() para retornar todos os registros onde o índice for igual a 0. 
# Como importamos registro a registro então cada ano o registro de valor maior em quantidades de nomes será o de índice 0.
# Observamos que pelo menos nos 5 primeiros anos, "Mary" é o nome mais usado e nos últimos, o nome mais utilizado seria "Emma" a não ser no último ano que
# passa a ser "Olivia".
todos_dados.loc[[0]]

Unnamed: 0,nome,genero,qtde,anos
0,Mary,F,7065,1880
0,Mary,F,6919,1881
0,Mary,F,8148,1882
0,Mary,F,8012,1883
0,Mary,F,9217,1884
...,...,...,...,...
0,Emma,F,20463,2015
0,Emma,F,19517,2016
0,Emma,F,19830,2017
0,Emma,F,18757,2018


In [None]:
todos_dados.loc[[0,6],'nome']

0         Mary
0         Mary
0         Mary
0         Mary
0         Mary
       ...    
6      Abigail
6    Charlotte
6    Charlotte
6          Mia
6       Amelia
Name: nome, Length: 280, dtype: object

In [None]:
todos_dados.loc[0]

Unnamed: 0,nome,genero,qtde,anos
0,Mary,F,7065,1880
0,Mary,F,6919,1881
0,Mary,F,8148,1882
0,Mary,F,8012,1883
0,Mary,F,9217,1884
...,...,...,...,...
0,Emma,F,20463,2015
0,Emma,F,19517,2016
0,Emma,F,19830,2017
0,Emma,F,18757,2018


In [None]:
# A mesma situação, todos com índice 0 mas recuperando somente a coluna do nome
todos_dados.loc[0,'nome']

0      Mary
0      Mary
0      Mary
0      Mary
0      Mary
      ...  
0      Emma
0      Emma
0      Emma
0      Emma
0    Olivia
Name: nome, Length: 140, dtype: object

In [None]:
# Experimentando a remoção do índice. 
# O que acontece agora é que a coluna original que seria índice e que estava sendo reiniciada a cada ano, passa a ser uma coluna do dataframe
# e um novo índice é criado, porém este novo índice é sequencial, começando em "0" para o primeiro registro de 1880 e "1989400" para o último
# registro de 2019
todos_dados_indice = todos_dados.reset_index()
todos_dados_indice

Unnamed: 0,index,nome,genero,qtde,anos
0,0,Mary,F,7065,1880
1,1,Anna,F,2604,1880
2,2,Emma,F,2003,1880
3,3,Elizabeth,F,1939,1880
4,4,Minnie,F,1746,1880
...,...,...,...,...,...
1989396,31949,Zyheem,M,5,2019
1989397,31950,Zykel,M,5,2019
1989398,31951,Zyking,M,5,2019
1989399,31952,Zyn,M,5,2019


In [None]:
todos_dados_indice.loc[0:5]

Unnamed: 0,index,nome,genero,qtde,anos
0,0,Mary,F,7065,1880
1,1,Anna,F,2604,1880
2,2,Emma,F,2003,1880
3,3,Elizabeth,F,1939,1880
4,4,Minnie,F,1746,1880
5,5,Margaret,F,1578,1880


In [None]:
type(todos_dados_indice)

pandas.core.frame.DataFrame

In [None]:
# Um novo dataframe sendo criado mas com o a coluna "nome" passa a ser o índice
todos_dados_indice2 = todos_dados.set_index('nome')

In [None]:
todos_dados_indice2.head()

Unnamed: 0_level_0,genero,qtde,anos
nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Mary,F,7065,1880
Anna,F,2604,1880
Emma,F,2003,1880
Elizabeth,F,1939,1880
Minnie,F,1746,1880


In [None]:
# Recuperando apenas as crianças registradas como Emma.
# Observando que é um nome unisex.
todos_dados_indice2.loc['Emma']

Unnamed: 0_level_0,genero,qtde,anos
nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Emma,F,2003,1880
Emma,M,10,1880
Emma,F,2034,1881
Emma,M,9,1881
Emma,F,2303,1882
...,...,...,...
Emma,M,18,2016
Emma,F,19800,2017
Emma,M,14,2017
Emma,F,18688,2018


In [None]:
todos_dados_indice2.info()

<class 'pandas.core.frame.DataFrame'>
Index: 1989401 entries, Mary to Zyran
Data columns (total 3 columns):
 #   Column  Dtype 
---  ------  ----- 
 0   genero  object
 1   qtde    int64 
 2   anos    int64 
dtypes: int64(2), object(1)
memory usage: 60.7+ MB


In [None]:
todos_dados_indice2.loc['Emma',]

Unnamed: 0_level_0,genero,qtde,anos
nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Emma,F,2003,1880
Emma,M,10,1880
Emma,F,2034,1881
Emma,M,9,1881
Emma,F,2303,1882
...,...,...,...
Emma,M,14,2017
Emma,F,18757,2018
Emma,M,9,2018
Emma,F,17102,2019


In [None]:
# Este novo dataframe será criado com 2 índices
todos_dados_indice3 = todos_dados.set_index(['nome','qtde'])

In [None]:
todos_dados_indice3.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,genero,anos
nome,qtde,Unnamed: 2_level_1,Unnamed: 3_level_1
Mary,7065,F,1880
Anna,2604,F,1880
Emma,2003,F,1880
Elizabeth,1939,F,1880
Minnie,1746,F,1880


In [None]:
todos_dados_indice3.info()

<class 'pandas.core.frame.DataFrame'>
MultiIndex: 1989401 entries, ('Mary', 7065) to ('Zyran', 5)
Data columns (total 2 columns):
 #   Column  Dtype 
---  ------  ----- 
 0   genero  object
 1   anos    int64 
dtypes: int64(1), object(1)
memory usage: 45.7+ MB


In [None]:
# Realizando a pesquisa utilizando como base uma coluna que não faz parte do índice
todos_dados_indice3.loc[(todos_dados_indice3['anos']==2019)]


Unnamed: 0_level_0,Unnamed: 1_level_0,genero,anos
nome,qtde,Unnamed: 2_level_1,Unnamed: 3_level_1
Olivia,18451,F,2019
Emma,17102,F,2019
Ava,14440,F,2019
Sophia,13714,F,2019
Isabella,13306,F,2019
...,...,...,...
Zyheem,5,M,2019
Zykel,5,M,2019
Zyking,5,M,2019
Zyn,5,M,2019


In [None]:
# O mesmo conceito para obter apenas crianças do gênero feminino em todos os anos
todos_dados_indice2.loc[(todos_dados_indice2['genero']=='F')]

Unnamed: 0_level_0,genero,qtde,anos
nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Mary,F,7065,1880
Anna,F,2604,1880
Emma,F,2003,1880
Elizabeth,F,1939,1880
Minnie,F,1746,1880
...,...,...,...
Zymia,F,5,2019
Zymirah,F,5,2019
Zyna,F,5,2019
Zynlee,F,5,2019


In [None]:
# Quantos nomes, dentro de um ano, possuem mais de 50.000 registros?
todos_dados_indice2.loc[(todos_dados_indice2['qtde'] >= 50000)]

Unnamed: 0_level_0,genero,qtde,anos
nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Mary,F,58187,1915
Mary,F,61438,1916
John,M,50043,1916
Mary,F,64280,1917
John,M,51852,1917
...,...,...,...
Christopher,M,53179,1989
Michael,M,65296,1990
Christopher,M,52343,1990
Michael,M,60788,1991


In [None]:
# Quantas crianças, do gênero masculino foram registradas em 1973?
todos_dados_indice2.loc[(todos_dados_indice2['anos'] == 1973) & (todos_dados_indice2['genero'] == 'M')]

Unnamed: 0_level_0,genero,qtde,anos
nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Michael,M,67841,1973
Christopher,M,48322,1973
Jason,M,46685,1973
James,M,42881,1973
David,M,41102,1973
...,...,...,...
Zan,M,5,1973
Zerrick,M,5,1973
Zeus,M,5,1973
Zion,M,5,1973


In [None]:
# Um novo dataframe utilizando como índice o campo "anos"
todos_dados_indice4 = todos_dados.set_index('anos')
todos_dados_indice4.head()

Unnamed: 0_level_0,nome,genero,qtde
anos,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1880,Mary,F,7065
1880,Anna,F,2604
1880,Emma,F,2003
1880,Elizabeth,F,1939
1880,Minnie,F,1746


In [None]:
# Uma alteração neste mesmo Dataframe, anos e gênero agora serão índice
todos_dados_indice4 = todos_dados.set_index(['anos','genero'])
todos_dados_indice4.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,nome,qtde
anos,genero,Unnamed: 2_level_1,Unnamed: 3_level_1
1880,F,Mary,7065
1880,F,Anna,2604
1880,F,Emma,2003
1880,F,Elizabeth,1939
1880,F,Minnie,1746


In [None]:
#Utilizando os índices, todos nascidos em 2018 e do gênero feminino
todos_dados_indice4.loc[2018,'F']

Unnamed: 0_level_0,Unnamed: 1_level_0,nome,qtde
anos,genero,Unnamed: 2_level_1,Unnamed: 3_level_1
2018,F,Emma,18757
2018,F,Olivia,17993
2018,F,Ava,14975
2018,F,Isabella,14517
2018,F,Sophia,13972
2018,...,...,...
2018,F,Zymirah,5
2018,F,Zynah,5
2018,F,Zyniyah,5
2018,F,Zynlee,5


In [None]:
# Recuperando todos do gênero femino de 2015 ordenada pela quantidade em ordem descrescente
todos_dados_indice4.loc[2015,'F'].sort_values('qtde', ascending=False)

Unnamed: 0_level_0,Unnamed: 1_level_0,nome,qtde
anos,genero,Unnamed: 2_level_1,Unnamed: 3_level_1
2015,F,Emma,20463
2015,F,Olivia,19705
2015,F,Sophia,17430
2015,F,Ava,16383
2015,F,Isabella,15633
2015,...,...,...
2015,F,Fadima,5
2015,F,Faelan,5
2015,F,Faeryn,5
2015,F,Fairy,5


In [None]:
# Agora todos do gênero feminino, de 2010 e em ordem descrescente de quantidades mas somente os 10 maiores
todos_dados_indice4.loc[2010,'F'].sort_values('qtde', ascending=False).head(10)

Unnamed: 0_level_0,Unnamed: 1_level_0,nome,qtde
anos,genero,Unnamed: 2_level_1,Unnamed: 3_level_1
2010,F,Isabella,22913
2010,F,Sophia,20643
2010,F,Emma,17345
2010,F,Olivia,17028
2010,F,Ava,15433
2010,F,Emily,14274
2010,F,Abigail,14247
2010,F,Madison,13183
2010,F,Chloe,11754
2010,F,Mia,10639


In [None]:
# Forma mais simples de usar o método iloc()
todos_dados.iloc[1000]

nome      Charley
genero          M
qtde          305
anos         1880
Name: 1000, dtype: object

In [None]:
todos_dados.iloc[5000:5600]

Unnamed: 0,nome,genero,qtde,anos
1065,Elmer,M,441,1882
1066,Lewis,M,441,1882
1067,Herbert,M,431,1882
1068,Lee,M,427,1882
1069,Howard,M,422,1882
...,...,...,...,...
1660,Mitchel,M,10,1882
1661,Noel,M,10,1882
1662,Norris,M,10,1882
1663,Otha,M,10,1882


In [None]:
todos_dados.iloc[5000:5600,1:3]

Unnamed: 0,genero,qtde
1065,M,441
1066,M,441
1067,M,431
1068,M,427
1069,M,422
...,...,...
1660,M,10
1661,M,10
1662,M,10
1663,M,10
