In [144]:
import pandas as pd
import requests
import json
import csv
import re
import warnings
warnings.filterwarnings('ignore')

### Etapa 1: Entendendo os dados üé≤
Objetivo: nessa etapa, voc√™ deve somente ingerir dados da API do randomuser.me e observar o formato dos dados, tentando imaginar como eles poderiam ser usados para construir uma tabela.

Descri√ß√£o da solu√ß√£o: a solu√ß√£o dessa etapa consiste em uma fun√ß√£o para consumir a API na URL https://randomuser.me/api/ e retornar um dicion√°rio com os dados.

Links √∫teis:

Documenta√ß√£o da API: https://randomuser.me/documentation

Introdu√ß√£o a ingest√£o de dados via API: https://www.dataquest.io/blog/python-api-tutorial/

In [None]:
# funcao para ingerir dados via api
def get_data(url):
    response = requests.get(url)
    return response.json()

url = 'https://randomuser.me/api/'

get_data(url)

### Etapa 2: Coletando dados üíæ

- **Objetivo:** nessa etapa, voc√™ deve coletar dados da API e armazen√°-los em um arquivo CSV.
- **Descri√ß√£o da solu√ß√£o:** a solu√ß√£o dessa etapa consiste em uma fun√ß√£o para coletar uma quantidade `n` de dados da API (sendo `n` um valor fornecido via par√¢metro da fun√ß√£o), manipul√°-los para montar um `pandas.DataFrame` e salvar o resultado em um arquivo CSV.
- **Links √∫teis:**
  - Documenta√ß√£o da API: https://randomuser.me/documentation
  - Documenta√ß√£o do Pandas: https://pandas.pydata.org/docs/
- **Dicas:**
  - Para tornar os dados mais f√°ceis de manipular no futuro, fa√ßa com que o `DataFrame` seja "plano", ou seja, cada coluna seja um √∫nico atributo do objeto.
  - Para ter dados suficientes para uma an√°lise razo√°vel nas pr√≥ximas etapas, recomendamos `n>=500`.

In [136]:
# funcao para ingerir dados via api e gerar csv
url = 'https://randomuser.me/api/?results=500'

def request(url):
    response = requests.get(url)
    value = json.loads(response.text) # carrega o json
    # normaliza os dados
    df = pd.json_normalize(value['results'], sep=';')
    df.to_csv('dados/dados_api.csv', index=False, sep=';', encoding='utf-8')

request(url)

### Etapa 3: Manipulando dados üìù

- **Objetivo**: agora, voc√™ pode observar que, na base de dados obtida, devido √†s diferentes nacionalidades dos usu√°rios, os n√∫meros de telefone e celular t√™m formatos diferentes. Voc√™ deve transform√°-los para um formato √∫nico, escolhido arbitrariamente.
- **Descri√ß√£o da solu√ß√£o**: uma fun√ß√£o que recebe, como par√¢metro, um `pandas.DataFrame` e retorna um `pandas.DataFrame` com as mesmas colunas, mas com os n√∫meros de telefone e celular formatados de forma √∫nica.
- **Links √∫teis:**
- Documenta√ß√£o do Pandas: https://pandas.pydata.org/docs/

In [137]:
df = pd.read_csv('dados/dados_api.csv', sep=';')
df.head()

Unnamed: 0,gender,email,phone,cell,nat,name;title,name;first,name;last,location;street;number,location;street;name,...,login;sha256,dob;date,dob;age,registered;date,registered;age,id;name,id;value,picture;large,picture;medium,picture;thumbnail
0,male,gustav.nielsen@example.com,92196750,11599051,DK,Mr,Gustav,Nielsen,1420,Bl√•mejsevej,...,7b46f52172028b69b9a4d945d9d248c897617562eb9611...,1999-01-28T23:37:07.095Z,23,2014-11-22T19:06:19.323Z,7,CPR,280199-0206,https://randomuser.me/api/portraits/men/33.jpg,https://randomuser.me/api/portraits/med/men/33...,https://randomuser.me/api/portraits/thumb/men/...
1,female,osipa.viter@example.com,(098) Z01-6136,(066) C14-8240,UA,Ms,Osipa,Viter,30,Provulok Levitana,...,67d7497fc3408b9ac54f9c0c4915612c5c62704be724b6...,1994-01-10T05:30:09.150Z,28,2006-03-02T04:35:56.885Z,16,,,https://randomuser.me/api/portraits/women/12.jpg,https://randomuser.me/api/portraits/med/women/...,https://randomuser.me/api/portraits/thumb/wome...
2,male,balthasar.steinmetz@example.com,0529-4292407,0178-8739010,DE,Mr,Balthasar,Steinmetz,2323,Brunnenstra√üe,...,728e5d5547c7260644ae264c73af40133e1f6a46eb78eb...,1951-09-20T13:09:21.909Z,70,2009-03-18T08:12:37.840Z,13,SVNR,79 200951 S 132,https://randomuser.me/api/portraits/men/14.jpg,https://randomuser.me/api/portraits/med/men/14...,https://randomuser.me/api/portraits/thumb/men/...
3,female,ftmhzhr.ysmy@example.com,089-41907347,0992-819-7421,IR,Mrs,ŸÅÿßÿ∑ŸÖŸá ÿ≤Ÿáÿ±ÿß,€åÿßÿ≥ŸÖ€å,2637,Ÿàÿßÿπÿ∏€å,...,fed172ff87b1fe46bd45a6734198272487401fe5015038...,1973-04-09T15:39:13.722Z,49,2015-11-03T22:59:57.571Z,6,,,https://randomuser.me/api/portraits/women/8.jpg,https://randomuser.me/api/portraits/med/women/...,https://randomuser.me/api/portraits/thumb/wome...
4,male,rdyn.zraay@example.com,030-96235282,0975-364-9838,IR,Mr,ÿ±ÿßÿØ€åŸÜ,ÿ≤ÿßÿ±ÿπ€å,6888,ÿß€åÿ±ÿßŸÜ,...,cbe15be67a2d2ac7c6eb16b66e15395060f0de9befe31e...,1970-07-27T16:51:41.927Z,52,2018-06-26T04:03:41.877Z,4,,,https://randomuser.me/api/portraits/men/34.jpg,https://randomuser.me/api/portraits/med/men/34...,https://randomuser.me/api/portraits/thumb/men/...


In [138]:
df.shape

(500, 34)

In [139]:
def format_phone_number(df, column_name):
    if column_name in df.columns:
        def get_number(number):
            """ remover caracteres n√£o numericos"""
            return re.sub(r'[^0-9]', '', number)
        df[column_name] = df[column_name].apply(get_number)

        def format_number(number):
            """ formata o numero de telefone"""
            return f'{number[:2]} {number[2:]}'
        df[column_name] = df[column_name].apply(format_number)
        return df.head()
    else:
        print(f"Coluna {column_name} n√£o encontrada em {df}.")
        return df.head()

        # df[column_name] = df[column_name].apply(lambda x: re.sub(r"[^0-9]", "", x))
        # df[column_name] = df[column_name].str.replace('-', '')
        # """ formatar coluna como xx xxxxxxxxx"""
        

In [140]:
format_phone_number(df, 'phone')
format_phone_number(df, 'cell')

Unnamed: 0,gender,email,phone,cell,nat,name;title,name;first,name;last,location;street;number,location;street;name,...,login;sha256,dob;date,dob;age,registered;date,registered;age,id;name,id;value,picture;large,picture;medium,picture;thumbnail
0,male,gustav.nielsen@example.com,92 196750,11 599051,DK,Mr,Gustav,Nielsen,1420,Bl√•mejsevej,...,7b46f52172028b69b9a4d945d9d248c897617562eb9611...,1999-01-28T23:37:07.095Z,23,2014-11-22T19:06:19.323Z,7,CPR,280199-0206,https://randomuser.me/api/portraits/men/33.jpg,https://randomuser.me/api/portraits/med/men/33...,https://randomuser.me/api/portraits/thumb/men/...
1,female,osipa.viter@example.com,09 8016136,06 6148240,UA,Ms,Osipa,Viter,30,Provulok Levitana,...,67d7497fc3408b9ac54f9c0c4915612c5c62704be724b6...,1994-01-10T05:30:09.150Z,28,2006-03-02T04:35:56.885Z,16,,,https://randomuser.me/api/portraits/women/12.jpg,https://randomuser.me/api/portraits/med/women/...,https://randomuser.me/api/portraits/thumb/wome...
2,male,balthasar.steinmetz@example.com,05 294292407,01 788739010,DE,Mr,Balthasar,Steinmetz,2323,Brunnenstra√üe,...,728e5d5547c7260644ae264c73af40133e1f6a46eb78eb...,1951-09-20T13:09:21.909Z,70,2009-03-18T08:12:37.840Z,13,SVNR,79 200951 S 132,https://randomuser.me/api/portraits/men/14.jpg,https://randomuser.me/api/portraits/med/men/14...,https://randomuser.me/api/portraits/thumb/men/...
3,female,ftmhzhr.ysmy@example.com,08 941907347,09 928197421,IR,Mrs,ŸÅÿßÿ∑ŸÖŸá ÿ≤Ÿáÿ±ÿß,€åÿßÿ≥ŸÖ€å,2637,Ÿàÿßÿπÿ∏€å,...,fed172ff87b1fe46bd45a6734198272487401fe5015038...,1973-04-09T15:39:13.722Z,49,2015-11-03T22:59:57.571Z,6,,,https://randomuser.me/api/portraits/women/8.jpg,https://randomuser.me/api/portraits/med/women/...,https://randomuser.me/api/portraits/thumb/wome...
4,male,rdyn.zraay@example.com,03 096235282,09 753649838,IR,Mr,ÿ±ÿßÿØ€åŸÜ,ÿ≤ÿßÿ±ÿπ€å,6888,ÿß€åÿ±ÿßŸÜ,...,cbe15be67a2d2ac7c6eb16b66e15395060f0de9befe31e...,1970-07-27T16:51:41.927Z,52,2018-06-26T04:03:41.877Z,4,,,https://randomuser.me/api/portraits/men/34.jpg,https://randomuser.me/api/portraits/med/men/34...,https://randomuser.me/api/portraits/thumb/men/...


### Etapa 4: Analisando dados sem agrupamento üìä

- **Objetivo**: com seus dados devidamente tratados, voc√™ deve gerar os seguintes itens:
  - Um relat√≥rio em texto (n√£o precisa de formata√ß√£o) contendo:
    - A porcentagem dos usu√°rios por g√™nero
    - A porcentagem dos usu√°rios por pa√≠s
  - Uma imagem contendo um gr√°fico de distribui√ß√£o da idade dos usu√°rios (a biblioteca utilizada para o `plot` pode ser qualquer uma).
- **Descri√ß√£o da solu√ß√£o**: uma fun√ß√£o que recebe, como par√¢metro, um `pandas.DataFrame` e gera dois arquivos: um relat√≥rio em texto e outro contendo um gr√°fico de distribui√ß√£o da idade dos usu√°rios.
- **Links √∫teis:**
  - Documenta√ß√£o do Pandas: https://pandas.pydata.org/docs/
  - Documenta√ß√£o do Matplotlib: https://matplotlib.org/
  - Documenta√ß√£o do Seaborn: https://seaborn.pydata.org/

In [141]:
df.columns

Index(['gender', 'email', 'phone', 'cell', 'nat', 'name;title', 'name;first',
       'name;last', 'location;street;number', 'location;street;name',
       'location;city', 'location;state', 'location;country',
       'location;postcode', 'location;coordinates;latitude',
       'location;coordinates;longitude', 'location;timezone;offset',
       'location;timezone;description', 'login;uuid', 'login;username',
       'login;password', 'login;salt', 'login;md5', 'login;sha1',
       'login;sha256', 'dob;date', 'dob;age', 'registered;date',
       'registered;age', 'id;name', 'id;value', 'picture;large',
       'picture;medium', 'picture;thumbnail'],
      dtype='object')

In [142]:
# total de usuarios por genero
df_gender = df.gender.value_counts().rename_axis('G√™nero').to_frame('Quantidade').reset_index()

# porcentagem de generos
df_gender["%"] = round(df_gender.Quantidade / df_gender.Quantidade.sum() * 100, 0 ) 

df_gender

Unnamed: 0,G√™nero,Quantidade,%
0,male,258,52.0
1,female,242,48.0


In [145]:
# Porcentagem de usu√°rios por pa√≠s
df_country = df.nat.value_counts().rename_axis('Pa√≠s').to_frame('Quantidade').reset_index()
df_country["%"] = round( df_country.Quantidade / df_country.Quantidade.sum() * 100, 0 )
# add row com total de usuarios
df_country = df_country.append({'Pa√≠s': 'Total', 'Quantidade': df_country.Quantidade.sum(), '%': df_country['%'].sum()}, ignore_index=True)

df_country

Unnamed: 0,Pa√≠s,Quantidade,%
0,US,36,7.0
1,FI,32,6.0
2,DK,30,6.0
3,TR,28,6.0
4,FR,27,5.0
5,IE,25,5.0
6,IR,25,5.0
7,RS,25,5.0
8,ES,24,5.0
9,AU,24,5.0


### Etapa 5: Analisando dados com agrupamento üìä

- **Objetivo**: utilizar t√©cnicas de agrupamento para descobrir usu√°rios que moram no mesmo pa√≠s e estado.
- **Descri√ß√£o da solu√ß√£o**: uma fun√ß√£o que recebe, como par√¢metro, um `pandas.DataFrame` e retorna um `pandas.DataFrame` com as mesmas colunas, mas com os dados agrupados por pa√≠s e estado.
- **Links √∫teis:**
  - Documenta√ß√£o do Pandas: https://pandas.pydata.org/docs/

In [148]:
# descobrir quais usuarios moram no mesmo pa√≠s e estado


### Etapa 6 (opcional): Particionando dados üéº
Objetivo: realizar o particionamento dos dados em formato Hive utilizando as informa√ß√µes de pa√≠s e estado de cada usu√°rio.

Descri√ß√£o da solu√ß√£o: uma fun√ß√£o que recebe, como par√¢metro, um pandas.DataFrame e salva todos os dados em arquivos CSV particionados por pa√≠s e estado.

Links √∫teis:

Documenta√ß√£o do Pandas: https://pandas.pydata.org/docs/

Documenta√ß√£o do Hive: https://hive.apache.org/

Documenta√ß√£o do BigQuery para dados particionados em Hive: https://cloud.google.com/bigquery/docs/hive-partitioned-queries-gcs

### Etapa 7: Parametrizando seu c√≥digo ‚öôÔ∏è
Objetivo: nessa etapa, voc√™ deve parametrizar seu c√≥digo para que ele seja executado com valores diversos fornecidos pelo usu√°rio.

Descri√ß√£o da solu√ß√£o: a solu√ß√£o dessa etapa consiste em uma fun√ß√£o principal que recebe diversos par√¢metros e executa as diversas etapas descritas anteriormente em fun√ß√£o dos par√¢metros fornecidos. Note que essa etapa √© crucial para que seu c√≥digo se torne reutiliz√°vel.

Dicas:

Tente pensar no maior n√∫mero de par√¢metros que sejam relevantes para sua pipeline de dados, sem afetar sua funcionalidade.

Colocar valores padr√£o para alguns desses par√¢metros reduz o √¥nus do usu√°rio de preench√™-los por conta pr√≥pria.