# Laboratorio 1: Exploración y Visualización de Datos
Fecha: Marzo 2024

Integrantes: **Nicolás Rodrigo Arancibia Aguirre, Daye Kang Kim**


## Declaración de compromiso ético

Nosotros/as **Nicolás Rodrigo Arancibia Aguirre, Daye Kang Kim**, declaramos que realizamos de manera grupal los pasos de la presente actividad. También declaramos no incurrir en copia, ni compartir nuestras respuestas con otras personas ni con otros grupos. Por lo que, ratificamos que las respuestas son de nuestra propia confección y reflejan nuestro propio conocimiento.

## Instrucciones

1.  Trabajen en equipos de dos personas. Salvo excepciones, no se corregirá entregas con menos de dos integrantes.

2.  Modifique este archivo `.ipynb` agregando sus respuestas donde corresponda. Puede ocupar Jupyter notebook en su computador o usar Google Colab como alternativa online.

3.  Para cada pregunta **incluya el código fuente que utilizó para llegar a su respuesta. Respuestas sin código no recibirán puntaje.**.

4.  El formato de entrega para esta actividad es un archivo **html**. **Genere un archivo HTML usando Jupyter** y súbalo a U-Cursos. Basta con que un/a integrante haga la entrega. Si ambos/as hacen una entrega en U-Cursos, se revisará cualquiera de éstas.

## Laboratorio

Ahora vamos a jugar con los datos!

En este laboratorio trabajaremos con un dataset del tema favorito de todxs... el anime. El dataset fue obtenido de "https://www.kaggle.com/datasets/azathoth42/myanimelist" y consta de informacion sobre animes de la pagina MyAnimeList (MAL)

Este set de datos consiste de dos archivos. "anime.csv" contiene 6 atributos: "title", "type", "source", "episodes", "airing" y "studio", que corresponden a informacion sobre el anime, y "anime-stats.csv" contiene 4 atributos: "title", "score", "members" (numero de usuarios que tienen el anime en su lista) y "favorites", que corresponden a estadisticas en MyAnimeList sobre la popularidad de animes.

Para cargar los datos desde tu computador, usa:

In [3]:
import pandas as pd
import matplotlib.pyplot as plt

In [2]:
#los archivos deben estar en la carpeta del notebook
df_anime = pd.read_csv('anime.csv', encoding="UTF-8")
df_stats = pd.read_csv('anime-stats.csv', encoding="UTF-8")

También puedes cargarlos remotamente de un repositorio usando el link a los archivos:


In [4]:
df_anime = pd.read_csv('https://raw.githubusercontent.com/bacchus00/cositas/main/anime.csv', encoding="UTF-8")
df_stats = pd.read_csv('https://raw.githubusercontent.com/bacchus00/cositas/main/anime-stats.csv', encoding="UTF-8")

### Exploración básica


1.  ¿Cuáles son las dimensiones de ambos dataframes (filas, columnas)?


In [9]:
df_anime.shape #dataset anime.csv

(14478, 6)

In [8]:
df_stats.shape #dataset anime-stats.csv


(14478, 4)

Las dimensiones de anime.csv y de anime-stats.csv son (14478,6) y (14478,4)

2.  ¿Existen filas duplicadas en alguno de los dataframes?


In [24]:
df_anime.drop_duplicates()

Unnamed: 0,title,type,source,episodes,airing,studio
0,Inu x Boku SS,TV,Manga,12,False,David Production
1,Seto no Hanayome,TV,Manga,26,False,Gonzo
2,Shugo Chara!! Doki,TV,Manga,51,False,Satelight
3,Princess Tutu,TV,Original,38,False,Hal Film Maker
4,Bakuman. 3rd Season,TV,Manga,25,False,J.C.Staff
...,...,...,...,...,...,...
14473,Gutchonpa Omoshiro Hanashi,TV,Unknown,5,False,
14474,Geba Geba Shou Time!,OVA,Unknown,1,False,
14475,Godzilla: Hoshi wo Kuu Mono,Movie,Other,1,False,
14476,Nippon Mukashibanashi: Sannen Netarou,OVA,Other,1,False,


In [25]:
df_stats.drop_duplicates()

Unnamed: 0,title,score,members,favorites
0,Inu x Boku SS,7.63,283882,2809
1,Seto no Hanayome,7.89,204003,2579
2,Shugo Chara!! Doki,7.55,70127,802
3,Princess Tutu,8.21,93312,3344
4,Bakuman. 3rd Season,8.67,182765,2082
...,...,...,...,...
14473,Gutchonpa Omoshiro Hanashi,5.50,76,0
14474,Geba Geba Shou Time!,4.60,90,0
14475,Godzilla: Hoshi wo Kuu Mono,0.00,1741,0
14476,Nippon Mukashibanashi: Sannen Netarou,6.00,32,0


No hay filas duplicadas en ninguno de los dos dataframes

3.  ¿Hay filas con valores nulos en alguno de los dataframes?

In [16]:
df_anime.isna().sum()

title          0
type           0
source         0
episodes       0
airing         0
studio      5934
dtype: int64

In [17]:
df_stats.isna().sum()

title        0
score        0
members      0
favorites    0
dtype: int64

Hay valores nulos en el dataframe anime.csv, corresponden al atributo "studio".

### Análisis

Ahora para hacer el análisis más sencillo juntaremos ambas tablas  usando como llave el nombre del anime (title).

In [21]:
df = df_anime.merge(df_stats, on='title')
df.sample(5)

Unnamed: 0,title,type,source,episodes,airing,studio,score,members,favorites
13168,Ryuusei no Rockman,TV,Game,55,False,Xebec,7.23,8303,73
11737,Cyborg 009: Kaijuu Sensou,Movie,Unknown,1,False,,6.12,1085,1
2559,Coffee Tadaiku,Movie,Unknown,1,False,,4.87,551,2
10798,Kindaichi Shounen no Jikenbo,TV,Manga,148,False,Toei Animation,8.11,12619,126
6854,A-jang.com,TV,Unknown,13,False,,5.81,342,2


1. Lista los animes que tienen una cantidad de episodios mayor o igual a 1000.

In [23]:
df[df["episodes"] >= 1000]

Unnamed: 0,title,type,source,episodes,airing,studio,score,members,favorites
3568,Sekai Monoshiri Ryoko,TV,Unknown,1006,False,,6.09,244,0
3817,Kirin Monoshiri Yakata,TV,Unknown,1565,False,,5.98,198,1
3818,Manga Nippon Mukashibanashi (1976),TV,Unknown,1471,False,Group TAC,6.37,619,2
6233,Monoshiri Daigaku: Ashita no Calendar,TV,Original,1274,False,,6.42,211,0
7767,Hoka Hoka Kazoku,TV,Unknown,1428,False,Eiken,5.93,295,0
11219,Doraemon (1979),TV,Manga,1787,False,Shin-Ei Animation,7.73,20129,219
11629,Oyako Club,TV,Original,1818,False,Eiken,5.96,324,0
13573,Kirin Ashita no Calendar,TV,Unknown,1306,False,,6.05,146,0


2. Encuentra los 5 animes con mas favoritos según el dataset ¿Te hace sentido que estos sean los animes con mas favoritos?


In [26]:
df.sort_values(by='favorites', ascending=False).head()

Unnamed: 0,title,type,source,episodes,airing,studio,score,members,favorites
2555,Fullmetal Alchemist: Brotherhood,TV,Manga,64,False,Bones,9.25,1199091,106895
3002,Steins;Gate,TV,Visual novel,24,False,White Fox,9.14,1010330,92423
7916,Death Note,TV,Manga,37,False,Madhouse,8.67,1456378,88696
34,One Piece,TV,Manga,0,True,Toei Animation,8.54,720133,69760
418,Hunter x Hunter (2011),TV,Manga,148,False,Madhouse,9.11,720920,64375


In [None]:
Nos hacen sentido estos resultados, excluyendo opiniones personales, por el score de cada anime.

3.  Lista todos los studios (sin repetirse y sin incluir valores nulos) que tienen animes en entre los 20 con mejor score.

In [42]:
animes1 = df.sort_values(by='score', ascending=False).head(20)
animes1['studio'].drop_duplicates().dropna()

14405      Collaboration Works
2555                     Bones
1028          CoMix Wave Films
1252     Bandai Namco Pictures
6180                 White Fox
418                   Madhouse
12726                  Artland
8995                   Sunrise
1307                     Shaft
6575           Kyoto Animation
Name: studio, dtype: object

4. ¿Hay algún studio que tenga más de un anime entre los 20 con mejor score? (sin repeticiones y si incluir nulos)


In [47]:
animes1 = df.sort_values(by='score', ascending=False).head(20)
animes2 = animes1.groupby('studio').count()
animes2['title'] > 1

studio
Artland                  False
Bandai Namco Pictures    False
Bones                    False
CoMix Wave Films         False
Collaboration Works      False
Kyoto Animation          False
Madhouse                 False
Shaft                    False
Sunrise                   True
White Fox                 True
Name: title, dtype: bool

Hay dos estudios que tienen mas de dos animes en el top 20 de animes según score.

Y eso es todo por hoy :)


![](https://i.imgur.com/ghKLs78.jpeg)