<a href="https://colab.research.google.com/github/Faabry/Data_Analysis/blob/main/Animes_An%C3%A1lise_de_Dados.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<h1><b>Análise de Dados</b></h1>

In [None]:
# Versão Python
from platform import python_version
print("Versão Python Para Este Projeto:", python_version())

In [None]:
# Imports
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
%reload_ext watermark
%watermark -a "Airton Fabre" --iversions

<h3><b>Carregando o Conjunto de Dados</b><h3>

In [None]:
df = pd.read_csv("animesv2.csv")

In [None]:
df.head()

In [None]:
df.info()

In [None]:
df.shape

<h3><b>Verificando Valores Ausentes</b></h3>

In [None]:
missing_values = df.isna().sum() / len(df) * 100

In [None]:
# Valores ausentes por percentual
missing_values

In [None]:
# Lista de colunas a serem exibidas no gráfico
columns = ["genre", "theme"]

In [None]:
# Função que retorna valores ausentes passando o dataframe e o nome da coluna como parâmetros
def nan_values(df, column):
    return df[column].isna().sum()

In [None]:
# Valores ausentes por quantidade
for col in df:
    print(f"{col}: {nan_values(df, col)} valores ausentes")

In [None]:
# Figura
plt.figure(figsize=(30, 40))

# Contador
A = 0
for col in columns:
    A += 1
    plt.subplot(2, 1, A)
    # Título
    plt.title(f"Valores Ausentes Em {col}", fontdict={"size": 50})

    # Gráfico
    ax = sns.countplot(data=df.fillna("NaN"), x=col, alpha=0.7, edgecolor="black")
    plt.xticks(rotation=45, size=22, labels=None)
    plt.yticks(labels=None)
    ax.set_xlabel("")
    ax.set_ylabel("")
    # Rótulo de dados
    for p in ax.patches:
        ax.annotate(f"{p.get_height()}", (p.get_x()+0.4, p.get_height()),
                   color="black", ha="center", size=20)

# Show
plt.show()

<p>A variável <b>theme</b> é que mais possui valores ausentes, seguida da variável <b>end_date</b> que por sinal faz sentido ter valores ausentes para animes que <b>ainda estão em exibição</b>, logo não existe uma data de encerramento, não analisamos graficamente as variáveis <b>episodes</b> e <b>end_date</b> pois elas contém muita informação e o grafico ficaria poluído demais.</p>

<h1><b>Qual foi o anime mais favoritado?</b></h1>

In [None]:
df.loc[df["favorites"].argmax()]

<p>O anime mais favoritado foi Initial D Second Stage classificado no Rank 396 com nada menos que 978.00 favoritações.</p>

<h1><b>Quais os Gêneros de Animes?</b></h1>

In [None]:
df["genre"].value_counts()

<p>Nosso Top 3 de gêneros são:</p>
<ul>
    <li> Action: 182</li>
    <li> Drama: 70</li>
    <li> Comedy: 52</li>
</ul>
<p> Temos muito mais animes do tipo Action, oque significa que tendem a ser mais populares dentre os demais generos? </p>

In [None]:
# Verificando os animes do tipo Action que já foram encerrados
df.loc[(df["genre"] == "Action") & (df["status"] == "Finished")]

In [None]:
# Localizando a variável "genre" que seja "Action" e tenha sido encerrado
df.loc[(df["genre"] == "Action") & (df["status"] == "Finished")].groupby(by="status").count()

In [None]:
# Verificando os gêneros com agregação da variável "status"
df.groupby(["genre"])["status"].count()

<h1><b>Conclusão:</b></h1>
<p>Mesmo após o seu encerramento, os animes do gênero Action continuam sendo os animes mais populares dentre os gêneros.</p>

<h1><b>Quantos animes ja foram encerrados e quantos ainda estão em exibição?</b></h1>

In [None]:
df["status"].value_counts()

In [None]:
# Figura
plt.figure(figsize=(10, 6))

# Gráfico
ax = sns.countplot(data=df, x="status", alpha=0.7, edgecolor="black")

# Título
plt.title("Finalizados x Em Exibição", fontdict={"size": 30})

# Removendo os títulos dos eixos X Y
ax.set_ylabel("")
ax.set_xlabel("")

# Rótulo de dados
for p in ax.patches:
    ax.annotate(f"{p.get_height()}", (p.get_x()+0.4, p.get_height()),
               color="black", size=15, ha="center")
    
# Show
plt.show()

<p>Apesar de termos 500 registros de animes, existem milhares por ai, é muito interessante descobrir que do top 500 quase 100% dos animes ja foram encerrados e continuam no ranking, vamos verificar quais desses animes foram encerrados recentemente.</p>

In [None]:
# Localizando as linhas onde "status" seja igual à "Finished" e agrupando pela variável "end_date"
finished = df.loc[df["status"] == "Finished"].groupby("end_date").apply(lambda x: x[["end_date"]]).reset_index(drop=True)

In [None]:
# Agora vamos filtrar somente o ano de cada anime
total = []
for col in finished["end_date"]:
        total.append(col[-4::])

In [None]:
# Transformando a lista em uma Series 
year = pd.Series(total)

In [None]:
# Contando os valores
year.value_counts()

<p>Oque podemos verificar é que a maioria dos registros está incompleta, vamos verificar mais afundo.</p>

In [None]:
# Verificando o tamanho da linha da variável "end_date"
size = finished["end_date"].apply(lambda x: len(x))

In [None]:
# Size
size.value_counts()

<h1><b>Conclusão</b></h1>
<p> Dos 489 registros 158 estão com ausência de informação, portanto não podemos levar em consideração todos os registros, no entanto, podemos observar que todos os animes foram encerrados à pelo menos 1 ano atrás, oque significa que mesmo após o seu termino ainda continuam populares.</p>

<h1><b>Qual a média de duração dos episódios?</b></h1>

In [None]:
df.head(3)

In [None]:
# Localizando as linhas do dataframe onde o nome seja diferente de "Unknown"
not_unknown = df.loc[df["duration"] != "Unknown"]

In [None]:
not_unknown

In [None]:
# Convertendo as categorias da variável "duration" para o tipo int64
not_unknown["duration"] = pd.to_numeric(not_unknown["duration"])

In [63]:
# Calculando a média
not_unknown["duration"].mean()

18.917670682730925

<h1><b>Qual o maior e menor tempo de duração de um episódio</b></h1>

In [69]:
not_unknown.loc[not_unknown["duration"].argmax()]

name           Gankutsuou
ranked                422
genre               Award
theme                 NaN
status           Finished
episodes             24.0
duration               24
start_date    Apr;12;2023
end_date      Mar;30;2005
favorites           3.779
Name: 420, dtype: object