In [1]:
import pandas as pd

In [2]:
df = pd.read_csv('../dados/github_repos_completos.csv')
df.head()

Unnamed: 0,name,owner,stars,forks,language,created_at,updated_at,size_kb,watchers_count,open_issues,owner_type,owner_public_repos,owner_location,subscribers_count,last_year_commits,contributors,closed_issues,pull_requests
0,public-apis,public-apis,337982,35685,Python,2016-03-20T23:49:42Z,2025-04-28T01:10:29Z,5030,337982,452,Organization,1,,30,5,1,30,30
1,system-design-primer,donnemartin,297377,49424,Python,2017-02-26T16:15:28Z,2025-04-28T01:01:03Z,11220,297377,489,User,27,"Washington, D.C.",30,3,1,14,30
2,awesome-python,vinta,241676,25593,Python,2014-06-27T21:00:06Z,2025-04-28T01:08:03Z,6769,241676,473,User,20,Taiwan,30,3,1,23,30
3,Python,TheAlgorithms,199952,46665,Python,2016-07-16T09:44:01Z,2025-04-28T01:08:49Z,15239,199952,371,Organization,44,India,30,178,1,30,30
4,AutoGPT,Significant-Gravitas,174836,45629,Python,2023-03-16T09:21:07Z,2025-04-28T00:50:10Z,241531,174836,207,Organization,21,,30,1392,1,30,30


In [4]:
df.isnull().sum()

Unnamed: 0,0
name,0
owner,0
stars,0
forks,0
language,0
created_at,0
updated_at,0
size_kb,0
watchers_count,0
open_issues,0


In [6]:
df['owner_location'].fillna('Não Informado', inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['owner_location'].fillna('Não Informado', inplace=True)


In [7]:
df.isnull().sum()

Unnamed: 0,0
name,0
owner,0
stars,0
forks,0
language,0
created_at,0
updated_at,0
size_kb,0
watchers_count,0
open_issues,0


In [8]:
df_duplicated = df[df.duplicated()]
print(f"Quantidade de duplicatas completas: {df_duplicated.shape[0]}")

Quantidade de duplicatas completas: 142


In [9]:
df_parcial_duplicated = df[df.duplicated(subset=['name', 'owner', 'created_at'])]
print(f"Quantidade de duplicatas parciais: {df_parcial_duplicated.shape[0]}")

Quantidade de duplicatas parciais: 150


In [16]:
df_without_duplicates = df.drop_duplicates()

In [17]:
len(df_without_duplicates)

4508

In [19]:
numeric_columns = [
    'stars', 'forks', 'size_kb', 'watchers_count', 'open_issues',
    'owner_public_repos', 'subscribers_count', 'last_year_commits',
    'contributors', 'closed_issues', 'pull_requests'
]

In [20]:
for coluna in numeric_columns:
    negativos = df[df[coluna] < 0]
    qtd = negativos.shape[0]
    if qtd > 0:
        print(f"\nColuna '{coluna}' tem {qtd} valores negativos:")
        print(negativos[[coluna]].head(10))  # mostra até 10 exemplos
    else:
        print(f"Coluna '{coluna}' não possui valores negativos.")

Coluna 'stars' não possui valores negativos.
Coluna 'forks' não possui valores negativos.
Coluna 'size_kb' não possui valores negativos.
Coluna 'watchers_count' não possui valores negativos.
Coluna 'open_issues' não possui valores negativos.
Coluna 'owner_public_repos' não possui valores negativos.
Coluna 'subscribers_count' não possui valores negativos.
Coluna 'last_year_commits' não possui valores negativos.
Coluna 'contributors' não possui valores negativos.
Coluna 'closed_issues' não possui valores negativos.
Coluna 'pull_requests' não possui valores negativos.


In [21]:
print("Tipos das colunas no DataFrame:")
print(df.dtypes)

Tipos das colunas no DataFrame:
name                  object
owner                 object
stars                  int64
forks                  int64
language              object
created_at            object
updated_at            object
size_kb                int64
watchers_count         int64
open_issues            int64
owner_type            object
owner_public_repos     int64
owner_location        object
subscribers_count      int64
last_year_commits      int64
contributors           int64
closed_issues          int64
pull_requests          int64
dtype: object


In [22]:
# Tentar converter as colunas datetime para datetime, mostrando erros
for col in ['created_at', 'updated_at']:
    df[col] = pd.to_datetime(df[col], errors='coerce')

    n_nulos = df[col].isna().sum()
    print(f"Coluna '{col}' após conversão para datetime tem {n_nulos} valores que não foram convertidos (NaT)")

Coluna 'created_at' após conversão para datetime tem 0 valores que não foram convertidos (NaT)
Coluna 'updated_at' após conversão para datetime tem 0 valores que não foram convertidos (NaT)


In [23]:
for col in numeric_columns:
    # Checar se tem valores que não são números convertendo para numérico com coerção
    coerced = pd.to_numeric(df[col], errors='coerce')
    n_invalidos = coerced.isna().sum()
    print(f"Coluna '{col}' tem {n_invalidos} valores não numéricos (NaN após conversão)")

Coluna 'stars' tem 0 valores não numéricos (NaN após conversão)
Coluna 'forks' tem 0 valores não numéricos (NaN após conversão)
Coluna 'size_kb' tem 0 valores não numéricos (NaN após conversão)
Coluna 'watchers_count' tem 0 valores não numéricos (NaN após conversão)
Coluna 'open_issues' tem 0 valores não numéricos (NaN após conversão)
Coluna 'owner_public_repos' tem 0 valores não numéricos (NaN após conversão)
Coluna 'subscribers_count' tem 0 valores não numéricos (NaN após conversão)
Coluna 'last_year_commits' tem 0 valores não numéricos (NaN após conversão)
Coluna 'contributors' tem 0 valores não numéricos (NaN após conversão)
Coluna 'closed_issues' tem 0 valores não numéricos (NaN após conversão)
Coluna 'pull_requests' tem 0 valores não numéricos (NaN após conversão)


In [24]:
colunas_categoricas = ['name', 'owner', 'language', 'owner_type', 'owner_location']

for col in colunas_categoricas:
    print(f"\nValores únicos e suas contagens na coluna '{col}':")
    valores_unicos = df[col].dropna().unique()

    # Normalizando para caixa baixa e tirando espaços para identificar variações
    valores_normalizados = [str(v).strip().lower() for v in valores_unicos]
    contagem = pd.Series(valores_normalizados).value_counts()

    print(contagem.head(20))  # mostra as 20 categorias mais comuns


Valores únicos e suas contagens na coluna 'name':
charts                  2
leetcode                2
wanandroid              2
riot                    2
neko                    2
delta                   2
swifter                 2
timber                  2
atlas                   2
mock                    2
eureka                  2
gifski                  2
go                      2
rxjs                    2
javascript              2
rayon                   2
async                   2
springcloud-learning    2
ink                     2
algorithms              2
Name: count, dtype: int64

Valores únicos e suas contagens na coluna 'owner':
bendingspoons     1
public-apis       1
donnemartin       1
vinta             1
thealgorithms     1
jpsim             1
rankki            1
nvzqz             1
mattdonnelly      1
stencilproject    1
sdwebimage        1
stripe            1
layoutbox         1
jasonjmcghee      1
ltebean           1
urinx             1
jordansinger      1
ebay       

In [28]:
def limpar_localizacao(loc):
    if pd.isna(loc):
        return loc
    loc = loc.lower().strip()                # minúsculas e tirar espaços
    loc = loc.replace(',', '')                # tirar vírgulas
    termos_genericos = ['earth', 'internet', 'the internet', 'world', 'worldwide', 'interwebs']
    if loc in termos_genericos:
        return 'não informado'
    return loc

In [31]:
# Aplicar a função na coluna owner_location
df['owner_location'] = df['owner_location'].apply(limpar_localizacao)

# Conferir resultado
print(df['owner_location'].value_counts().head(30))

owner_location
não informado               2043
united states of america     207
china                         98
desconhecido                  69
san francisco ca              61
hangzhou china                57
san francisco                 54
shanghai china                43
beijing china                 41
redmond wa                    32
singapore                     29
shenzhen china                28
germany                       28
london uk                     26
berlin                        25
tokyo japan                   25
united kingdom                24
menlo park california         24
london                        23
shanghai                      22
paris france                  22
france                        21
netherlands                   20
new york                      18
india                         18
beijing                       17
new york ny                   17
seattle wa                    17
berlin germany                16
stockholm sweden            

In [None]:
# def mapear_localizacao(loc):
#     if pd.isna(loc):
#         return 'desconhecido'

#     loc = loc.lower().strip()
#     loc = loc.replace(',', '')

#     # Normalizar genéricos
#     termos_desconhecidos = ['earth', 'internet', 'the internet', 'world', 'unknown']
#     if loc in termos_desconhecidos:
#         return 'desconhecido'

#     # Agrupar por país/região
#     if any(cidade in loc for cidade in ['beijing', 'hangzhou', 'shenzhen', 'shanghai', 'guangdong', 'china']):
#         return 'china'
#     elif any(cidade in loc for cidade in ['new york', 'sunnyvale', 'santa monica', 'mountain view', 'seattle', 'usa', 'united states', 'ca']):
#         return 'usa'
#     elif 'munich' in loc or 'germany' in loc:
#         return 'germany'
#     elif 'singapore' in loc:
#         return 'singapore'

#     # Se não cair em nenhuma regra, retorna a string limpa
#     return loc

# # Aplicar a função
# df['owner_location'] = df['owner_location'].apply(mapear_localizacao)

# # Conferir as novas categorias agrupadas
# print(df['owner_location'].value_counts().head(20))