<a href="https://colab.research.google.com/github/soadD/netflix_data/blob/main/ETL_paises.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## **Extração**

In [None]:
#Abertura das bibliotecas
import pandas as pd

In [None]:
# Importar a biblioteca para conectar o Google Drive ao ambiente Colab
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [None]:
# Passo 4: Extração da informação via pandas
df = pd.read_csv('/content/drive/MyDrive/Soul Code/netflix/netflix_paisestop10.csv')

## **Pré-Análise**

In [None]:
#Verificar tamanho do dataset
df.shape

(283420, 8)

In [None]:
display(df)

Unnamed: 0,country_name,country_iso2,week,category,weekly_rank,show_title,season_title,cumulative_weeks_in_top_10
0,Argentina,AR,2024-05-26,Films,1,Sing 2,,1
1,Argentina,AR,2024-05-26,Films,2,Atlas,,1
2,Argentina,AR,2024-05-26,Films,3,Ice Age: Dawn of the Dinosaurs,,1
3,Argentina,AR,2024-05-26,Films,4,In Good Hands 2,,1
4,Argentina,AR,2024-05-26,Films,5,Daddy Daughter Trip,,2
...,...,...,...,...,...,...,...,...
283415,Vietnam,VN,2021-07-04,TV,6,Reply 1988,Reply 1988: Season 1,1
283416,Vietnam,VN,2021-07-04,TV,7,"Nevertheless,","Nevertheless,: Limited Series",1
283417,Vietnam,VN,2021-07-04,TV,8,Too Hot to Handle,Too Hot to Handle: Season 2,1
283418,Vietnam,VN,2021-07-04,TV,9,Record of Ragnarok,Record of Ragnarok: Season 1,1


In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 283420 entries, 0 to 283419
Data columns (total 8 columns):
 #   Column                      Non-Null Count   Dtype 
---  ------                      --------------   ----- 
 0   country_name                283420 non-null  object
 1   country_iso2                283420 non-null  object
 2   week                        283420 non-null  object
 3   category                    283420 non-null  object
 4   weekly_rank                 283420 non-null  int64 
 5   show_title                  283420 non-null  object
 6   season_title                138659 non-null  object
 7   cumulative_weeks_in_top_10  283420 non-null  int64 
dtypes: int64(2), object(6)
memory usage: 17.3+ MB


**Todas as colunas estão sem valores nulos com excessão de título da temporada, que apenas tem valores para séries de TV**

**Semana está como String porém é um objeto Date Time**

## **Transformação**

### **Renomeação de Colunas**

In [None]:
# Renomeando colunas para tradução
df.rename(columns={'country_name': 'nome_pais',
                   'country_iso2': 'codigo-pais',
                   'week': 'semana',
                   'category': 'categoria',
                   'weekly_rank': 'classificacao_semanal',
                   'show_title': 'titulo_do_programa/show',
                   'season_title': 'titulo_da_temporada',
                   'cumulative_weeks_in_top_10': 'semanas_acumuladas_top10'}, inplace=True)

In [None]:
# Trocar valores especificos em colunas
df.loc[df.categoria == 'Films', ['categoria']] = 'Filmes'
df.loc[df.categoria == 'TV', ['categoria']] = 'Séries de TV'

### **Verificação de valores nulos**

In [None]:
# Verificando valores null
df.isnull().sum()

nome_pais                        0
codigo-pais                      0
semana                           0
categoria                        0
classificacao_semanal            0
titulo_do_programa/show          0
titulo_da_temporada         144761
semanas_acumuladas_top10         0
dtype: int64

In [None]:
# Verificando valores nan
df.isna().sum()

nome_pais                        0
codigo-pais                      0
semana                           0
categoria                        0
classificacao_semanal            0
titulo_do_programa/show          0
titulo_da_temporada         144761
semanas_acumuladas_top10         0
dtype: int64

### **Tipos de Dados**

In [None]:
#Verificando dataset
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 283420 entries, 0 to 283419
Data columns (total 8 columns):
 #   Column                    Non-Null Count   Dtype 
---  ------                    --------------   ----- 
 0   nome_pais                 283420 non-null  object
 1   codigo-pais               283420 non-null  object
 2   semana                    283420 non-null  object
 3   categoria                 283420 non-null  object
 4   classificacao_semanal     283420 non-null  int64 
 5   titulo_do_programa/show   283420 non-null  object
 6   titulo_da_temporada       138659 non-null  object
 7   semanas_acumuladas_top10  283420 non-null  int64 
dtypes: int64(2), object(6)
memory usage: 17.3+ MB


In [None]:
# Convertendo semanas acumuladas de integer para string
df['semanas_acumuladas_top10'] = df['semanas_acumuladas_top10'].astype(str)

In [None]:
# Convertendo as colunas para datetime
df['semana'] = pd.to_datetime(df['semana'])

### **Conversão de String para Date Time**

In [None]:
# Separando dia, mes e ano em colunas diferentes

df['dia'] = df.semana.dt.day
df['mes'] = df.semana.dt.month
df['ano'] = df.semana.dt.year

In [None]:
# Trocar valores especificos em colunas
df.loc[df.mes == '1', ['mes']] = 'JAN'
df.loc[df.mes == '2', ['mes']] = 'FEV'
df.loc[df.mes == '3', ['mes']] = 'MAR'
df.loc[df.mes == '4', ['mes']] = 'ABR'
df.loc[df.mes == '5', ['mes']] = 'MAI'
df.loc[df.mes == '6', ['mes']] = 'JUN'
df.loc[df.mes == '7', ['mes']] = 'JUL'
df.loc[df.mes == '8', ['mes']] = 'AGO'
df.loc[df.mes == '9', ['mes']] = 'SET'
df.loc[df.mes == '10', ['mes']] = 'OUT'
df.loc[df.mes == '11', ['mes']] = 'NOV'
df.loc[df.mes == '12', ['mes']] = 'DEZ'

### **Verificação de Inconsistências**

Coluna Título da Temporada apresentou inconsistência, com valores float e str:

TypeError: '<' not supported between instances of 'str' and 'float'


In [None]:
# Convertendo o tipo de dados de int para str
df['titulo_da_temporada'] = df['titulo_da_temporada'].astype(str)

In [None]:
# Iterando sobre as colunas do DataFrame
for column in df.columns:

    # Verificando se a coluna contém valores inteiros
    if df[column].dtype == 'int':
        print(f"Valores inteiros únicos na coluna '{column}':")
        print(sorted(df[column].unique()))
        print("-" * 50)  # Linha de separação

    # Verificando se a coluna contém valores de ponto flutuante
    elif df[column].dtype == 'float':
        print(f"Valores decimais únicos na coluna '{column}':")
        print(sorted(df[column].unique()))
        print("-" * 50)  # Linha de separação

    # Verificando se a coluna contém valores de texto (string)
    elif df[column].dtype == 'object':
        print(f"Valores de texto únicos na coluna '{column}':")
        print(sorted(df[column].unique()))
        print("-" * 50)  # Linha de separação

Valores de texto únicos na coluna 'nome_pais':
['Argentina', 'Australia', 'Austria', 'Bahamas', 'Bahrain', 'Bangladesh', 'Belgium', 'Bolivia', 'Brazil', 'Bulgaria', 'Canada', 'Chile', 'Colombia', 'Costa Rica', 'Croatia', 'Cyprus', 'Czech Republic', 'Denmark', 'Dominican Republic', 'Ecuador', 'Egypt', 'El Salvador', 'Estonia', 'Finland', 'France', 'Germany', 'Greece', 'Guadeloupe', 'Guatemala', 'Honduras', 'Hong Kong', 'Hungary', 'Iceland', 'India', 'Indonesia', 'Ireland', 'Israel', 'Italy', 'Jamaica', 'Japan', 'Jordan', 'Kenya', 'Kuwait', 'Latvia', 'Lebanon', 'Lithuania', 'Luxembourg', 'Malaysia', 'Maldives', 'Malta', 'Martinique', 'Mauritius', 'Mexico', 'Morocco', 'Netherlands', 'New Caledonia', 'New Zealand', 'Nicaragua', 'Nigeria', 'Norway', 'Oman', 'Pakistan', 'Panama', 'Paraguay', 'Peru', 'Philippines', 'Poland', 'Portugal', 'Qatar', 'Romania', 'Russia', 'Réunion', 'Saudi Arabia', 'Serbia', 'Singapore', 'Slovakia', 'Slovenia', 'South Africa', 'South Korea', 'Spain', 'Sri Lanka', '

### **Integridade dos Dados**

In [None]:
# Instalação do pacote pandera
!pip install pandera



In [None]:
# importando o pacote pandera
import pandera as pa

In [None]:
# Verificar tipos e colunas de dados
df.dtypes

nome_pais                           object
codigo-pais                         object
semana                      datetime64[ns]
categoria                           object
classificacao_semanal                int64
titulo_do_programa/show             object
titulo_da_temporada                 object
semanas_acumuladas_top10            object
dia                                  int32
mes                                 object
ano                                  int32
dtype: object

In [None]:
df['dia'] = df['dia'].astype(str)
df['mes'] = df['mes'].astype(str)
df['ano'] = df['ano'].astype(str)

In [None]:
# Definição do esquema de validação
schema = pa.DataFrameSchema({'nome_pais': pa.Column(pa.String),
                             'semana': pa.Column(pa.DateTime),
                             'codigo-pais': pa.Column(pa.String),
                             'categoria': pa.Column(pa.String),
                             'classificacao_semanal': pa.Column(pa.Int),
                             'titulo_do_programa/show': pa.Column(pa.String),
                             'titulo_da_temporada': pa.Column(pa.String),
                             'semanas_acumuladas_top10': pa.Column(pa.String),
                             'ano': pa.Column(pa.String),
                             'mes': pa.Column(pa.String),
                             'dia': pa.Column(pa.String)
                            })

In [None]:
# Validar o DataFrame
schema.validate(df)

Unnamed: 0,nome_pais,codigo-pais,semana,categoria,classificacao_semanal,titulo_do_programa/show,titulo_da_temporada,semanas_acumuladas_top10,dia,mes,ano
0,Argentina,AR,2024-05-26,Filmes,1,Sing 2,,1,26,5,2024
1,Argentina,AR,2024-05-26,Filmes,2,Atlas,,1,26,5,2024
2,Argentina,AR,2024-05-26,Filmes,3,Ice Age: Dawn of the Dinosaurs,,1,26,5,2024
3,Argentina,AR,2024-05-26,Filmes,4,In Good Hands 2,,1,26,5,2024
4,Argentina,AR,2024-05-26,Filmes,5,Daddy Daughter Trip,,2,26,5,2024
...,...,...,...,...,...,...,...,...,...,...,...
283415,Vietnam,VN,2021-07-04,Séries de TV,6,Reply 1988,Reply 1988: Season 1,1,4,7,2021
283416,Vietnam,VN,2021-07-04,Séries de TV,7,"Nevertheless,","Nevertheless,: Limited Series",1,4,7,2021
283417,Vietnam,VN,2021-07-04,Séries de TV,8,Too Hot to Handle,Too Hot to Handle: Season 2,1,4,7,2021
283418,Vietnam,VN,2021-07-04,Séries de TV,9,Record of Ragnarok,Record of Ragnarok: Season 1,1,4,7,2021


## **Carrregamento**

In [None]:
df.to_csv('/content/drive/MyDrive/Soul Code/netflix/netflix_paisestop10_tratado.csv')