In [3]:
# Importando a lib do pandas para a analise
import pandas as pd

In [6]:
# Carregaremos o csv pra um DF (DataFrame)
df = pd.read_csv('desafio_indicium_imdb.csv')

In [7]:
# Vamos analisar as primeiras linhas para ter uma ideia inicial dos dados por aqui:
print(df.head())

   Unnamed: 0                                   Series_Title Released_Year  \
0           1                                  The Godfather          1972   
1           2                                The Dark Knight          2008   
2           3                         The Godfather: Part II          1974   
3           4                                   12 Angry Men          1957   
4           5  The Lord of the Rings: The Return of the King          2003   

  Certificate  Runtime                     Genre  IMDB_Rating  \
0           A  175 min              Crime, Drama          9.2   
1          UA  152 min      Action, Crime, Drama          9.0   
2           A  202 min              Crime, Drama          9.0   
3           U   96 min              Crime, Drama          9.0   
4           U  201 min  Action, Adventure, Drama          8.9   

                                            Overview  Meta_score  \
0  An organized crime dynasty's aging patriarch t...       100.0   
1  W

In [8]:
# vamos ver as informações das colunas agora:
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 999 entries, 0 to 998
Data columns (total 16 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Unnamed: 0     999 non-null    int64  
 1   Series_Title   999 non-null    object 
 2   Released_Year  999 non-null    object 
 3   Certificate    898 non-null    object 
 4   Runtime        999 non-null    object 
 5   Genre          999 non-null    object 
 6   IMDB_Rating    999 non-null    float64
 7   Overview       999 non-null    object 
 8   Meta_score     842 non-null    float64
 9   Director       999 non-null    object 
 10  Star1          999 non-null    object 
 11  Star2          999 non-null    object 
 12  Star3          999 non-null    object 
 13  Star4          999 non-null    object 
 14  No_of_Votes    999 non-null    int64  
 15  Gross          830 non-null    object 
dtypes: float64(2), int64(2), object(12)
memory usage: 125.0+ KB
None


In [15]:
# com a análise anterior podemos ver algumas coisas a se alterar, como por exemplo 'Runtime','Gross'
# que estão como object ao invés de int64, que seria melhor. E também 'Certificate' e 'Meta_score' tem valores nulos que
# precisam de tratamento.

In [11]:
# LIMPEZA DOS DADOS
# vamos criar um cópia do df, uma boa prática
df_limpo = df.copy()

In [None]:
# LIMPANDO A COLUNA 'Runtime'
df_limpo['Runtime'] = df_limpo['Runtime'].str.replace(' min', '').astype(int)
#Aqui tiramos o ' min' do objeto e trocamos o tipo dele pra um inteiro ao invés de "texto"

In [14]:
# LIMPANDO A COLUNA 'Gross'
df_limpo['Gross'] = df_limpo['Gross'].str.replace(',', '', regex=False)
# limpamos as virgulas e convertemos pra numero de novo
df_limpo['Gross'] = pd.to_numeric(df_limpo['Gross'], errors='coerce')
#o errors='coerce' serve para transformar valos não numéricos (NaN)

In [16]:
# LIDANDO COM OS VALORES NULOS
# para o 'meta_score', vamos com uma estratégia de preencher com a média
media_meta_score = df_limpo['Meta_score'].mean()
df_limpo['Meta_score'].fillna(media_meta_score, inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_limpo['Meta_score'].fillna(media_meta_score, inplace=True)
