# EDA : ANÁLISIS DE ÁNIME

![man_1](./man_1.jpg)

### 1. Introducción

- Este análisis se centra en el estudio de registros de ánimes, segun su genero y su rating.
- Exploraremos qué géneros y tipos destacan más según los usuarios y analizaremos las fechas de lanzamiento para identificar si los animes más destacados tienden a estrenarse en verano, otoño o invierno.


### 2. Librerías

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import scipy.stats as stats
import unicodedata
import re
pd.set_option('display.max.column',None)

### 3. Carga de datos

In [2]:
df_1 = pd.read_csv(r'C:\Users\denis\Desktop\Curso\EDA\EDA_Anime\anime.csv', encoding='latin1', sep=",", quotechar='"', engine='python')

In [3]:
df_2=pd.read_csv(r'C:\Users\denis\Desktop\Curso\EDA\EDA_Anime\MAL-anime.csv ', encoding='latin1', index_col=0)

### 4. Análisis exploratorio de datos (EDA)

**4.1.Primera visualización del DataFrame (EDA)**

In [4]:
df_1


Unnamed: 0,anime_id,name,genre,type,episodes,rating,members
0,32281,Kimi no Na wa.,"Drama, Romance, School, Supernatural",Movie,1,9.37,200630
1,5114,Fullmetal Alchemist: Brotherhood,"Action, Adventure, Drama, Fantasy, Magic, Mili...",TV,64,9.26,793665
2,28977,GintamaÂ°,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51,9.25,114262
3,9253,Steins;Gate,"Sci-Fi, Thriller",TV,24,9.17,673572
4,9969,Gintama&#039;,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51,9.16,151266
...,...,...,...,...,...,...,...
12289,9316,Toushindai My Lover: Minami tai Mecha-Minami,Hentai,OVA,1,4.15,211
12290,5543,Under World,Hentai,OVA,1,4.28,183
12291,5621,Violence Gekiga David no Hoshi,Hentai,OVA,4,4.88,219
12292,6133,Violence Gekiga Shin David no Hoshi: Inma Dens...,Hentai,OVA,1,4.98,175


In [5]:
df_1.isnull().sum()

anime_id      0
name          0
genre        62
type         25
episodes      0
rating      230
members       0
dtype: int64

In [6]:
df_2

Unnamed: 0,Title,Rank,Type,Episodes,Aired,Members,page_url,image_url,Score
0,Net-juu no Susume,1568,TV,10,Oct 2017 - Dec 2017,450968,https://myanimelist.net/anime/36038/Net-juu_no...,https://cdn.myanimelist.net/r/100x140/images/a...,7.55
1,Neon Genesis Evangelion: The End of Evangelion,99,Movie,1,Jul 1997 - Jul 1997,883576,https://myanimelist.net/anime/32/Neon_Genesis_...,https://cdn.myanimelist.net/r/100x140/images/a...,8.55
2,Templex,11445,Movie,1,2015 - 2015,538,https://myanimelist.net/anime/40721/Templex,https://cdn.myanimelist.net/r/100x140/images/a...,5.29
3,s.CRY.ed,2248,TV,26,Jul 2001 - Dec 2001,81283,https://myanimelist.net/anime/168/sCRYed,https://cdn.myanimelist.net/r/100x140/images/a...,7.36
4,Toaru Majutsu no Index-tan III,6679,Special,2,Dec 2018 - Apr 2019,11370,https://myanimelist.net/anime/39094/Toaru_Maju...,https://cdn.myanimelist.net/r/100x140/images/a...,6.44
...,...,...,...,...,...,...,...,...,...
12769,Neko no Ongaeshi,1090,Movie,1,Jul 2002 - Jul 2002,259386,https://myanimelist.net/anime/597/Neko_no_Onga...,https://cdn.myanimelist.net/r/100x140/images/a...,7.72
12770,Kowasugimasu.,12283,ONA,1,Mar 2018 - Mar 2018,352,https://myanimelist.net/anime/42014/Kowasugimasu,https://cdn.myanimelist.net/r/100x140/images/a...,4.80
12771,Bloody Date,12661,ONA,1,Nov 2006 - Nov 2006,4112,https://myanimelist.net/anime/11691/Bloody_Date,https://cdn.myanimelist.net/r/100x140/images/a...,4.21
12772,Deliver Police: Nishitokyo-shi Deliver Keisats...,11318,ONA,1,Mar 2021 - Mar 2021,485,https://myanimelist.net/anime/48575/Deliver_Po...,https://cdn.myanimelist.net/r/100x140/images/a...,5.34


In [7]:
df_2.isnull().sum()

Title        0
Rank         0
Type         0
Episodes     0
Aired        0
Members      0
page_url     0
image_url    0
Score        0
dtype: int64

In [8]:
tiene_simbolo = df_2.map(lambda x: '?' in str(x))
# Ver las celdas que contienen '?'
tiene_simbolo.sum()

Title          104
Rank             0
Type             0
Episodes        55
Aired            0
Members          0
page_url         0
image_url    12774
Score            0
dtype: int64

- Uniremos el df_1 con el df_2 utilizando el nombre como clave para obtener las fechas de estreno.
- Somos conscientes de que esto puede resultar en pérdida de datos; por ello, conservaremos las versiones originales de df_1 y df_2.

In [9]:
# Función para normalizar las cadenas: convertir a minúsculas, eliminar tildes y caracteres especiales
def normalizar_texto(texto):
    
    # Convertir a minúsculas
    texto = texto.lower()

    # Eliminar tildes(acentos)
    texto = ''.join((c for c in unicodedata.normalize('NFD', texto) if unicodedata.category(c) != 'Mn'))

        # Eliminar caracteres especiales como '/', '-', ';', ':', '#', '°', paréntesis y corchetes
    texto = re.sub(r'[-/;:#°(){}\[\]]', '', texto)
    
    # Eliminar múltiples espacios en blanco
    texto = re.sub(r'\s+', ' ', texto).strip()
    return texto

In [10]:
# Normalizar las columnas 'nombre' de ambos DataFrames
df_1['nombre_normalizado'] = df_1['name'].apply(normalizar_texto)
df_2['nombre_normalizado'] = df_2['Title'].apply(normalizar_texto)


In [11]:
df_1.head(2)

Unnamed: 0,anime_id,name,genre,type,episodes,rating,members,nombre_normalizado
0,32281,Kimi no Na wa.,"Drama, Romance, School, Supernatural",Movie,1,9.37,200630,kimi no na wa.
1,5114,Fullmetal Alchemist: Brotherhood,"Action, Adventure, Drama, Fantasy, Magic, Mili...",TV,64,9.26,793665,fullmetal alchemist brotherhood


In [12]:
df_2.head(2)

Unnamed: 0,Title,Rank,Type,Episodes,Aired,Members,page_url,image_url,Score,nombre_normalizado
0,Net-juu no Susume,1568,TV,10,Oct 2017 - Dec 2017,450968,https://myanimelist.net/anime/36038/Net-juu_no...,https://cdn.myanimelist.net/r/100x140/images/a...,7.55,netjuu no susume
1,Neon Genesis Evangelion: The End of Evangelion,99,Movie,1,Jul 1997 - Jul 1997,883576,https://myanimelist.net/anime/32/Neon_Genesis_...,https://cdn.myanimelist.net/r/100x140/images/a...,8.55,neon genesis evangelion the end of evangelion


In [13]:
df_unido = pd.merge(df_1, df_2, left_on='nombre_normalizado', right_on='nombre_normalizado', how='inner')

In [14]:
df_unido

Unnamed: 0,anime_id,name,genre,type,episodes,rating,members,nombre_normalizado,Title,Rank,Type,Episodes,Aired,Members,page_url,image_url,Score
0,32281,Kimi no Na wa.,"Drama, Romance, School, Supernatural",Movie,1,9.37,200630,kimi no na wa.,Kimi no Na wa.,27,Movie,1,Aug 2016 - Aug 2016,2608836,https://myanimelist.net/anime/32281/Kimi_no_Na_wa,https://cdn.myanimelist.net/r/100x140/images/a...,8.85
1,5114,Fullmetal Alchemist: Brotherhood,"Action, Adventure, Drama, Fantasy, Magic, Mili...",TV,64,9.26,793665,fullmetal alchemist brotherhood,Fullmetal Alchemist: Brotherhood,1,TV,64,Apr 2009 - Jul 2010,3188280,https://myanimelist.net/anime/5114/Fullmetal_A...,https://cdn.myanimelist.net/r/100x140/images/a...,9.10
2,28977,GintamaÂ°,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51,9.25,114262,gintamaa,GintamaÂ°,4,TV,51,Apr 2015 - Mar 2016,598624,https://myanimelist.net/anime/28977/GintamaÂ°,https://cdn.myanimelist.net/r/100x140/images/a...,9.06
3,9253,Steins;Gate,"Sci-Fi, Thriller",TV,24,9.17,673572,steinsgate,Steins;Gate,2,TV,24,Apr 2011 - Sep 2011,2449954,https://myanimelist.net/anime/9253/Steins_Gate,https://cdn.myanimelist.net/r/100x140/images/a...,9.07
4,11061,Hunter x Hunter (2011),"Action, Adventure, Shounen, Super Power",TV,148,9.13,425855,hunter x hunter 2011,Hunter x Hunter (2011),10,TV,148,Oct 2011 - Sep 2014,2669186,https://myanimelist.net/anime/11061/Hunter_x_H...,https://cdn.myanimelist.net/r/100x140/images/a...,9.04
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7876,2592,Kimera,"Action, Horror, Sci-Fi, Supernatural, Vampire,...",OVA,1,5.29,3374,kimera,Kimera,11880,OVA,1,Jul 1996 - Jul 1996,7769,https://myanimelist.net/anime/2592/Kimera,https://cdn.myanimelist.net/r/100x140/images/a...,5.09
7877,730,Houkago no Shokuinshitsu,"Drama, Romance, Yaoi",OVA,2,5.23,4550,houkago no shokuinshitsu,Houkago no Shokuinshitsu,11962,OVA,2,Apr 1994 - Jan 1995,7604,https://myanimelist.net/anime/730/Houkago_no_S...,https://cdn.myanimelist.net/r/100x140/images/a...,5.04
7878,30663,Docchi mo Maid,"Action, Comedy, Ecchi, Yuri",ONA,1,5.15,223,docchi mo maid,Docchi mo Maid,12700,ONA,1,2004 - 2004,2386,https://myanimelist.net/anime/30663/Docchi_mo_...,https://cdn.myanimelist.net/r/100x140/images/a...,4.00
7879,34382,Citrus,"Drama, Romance, School, Yuri",,Unknown,,2459,citrus,Citrus,6632,TV,12,Jan 2018 - Mar 2018,497244,https://myanimelist.net/anime/34382/Citrus,https://cdn.myanimelist.net/r/100x140/images/a...,6.45


**4.2.Estructura del DataFrame**

- A partir de este momento, trabajaremos exclusivamente con el DataFrame df_union.

In [15]:
df_unido.shape

(7881, 17)

**4.3.Espacio en memoria utilizado.**

In [16]:
df_unido.memory_usage(deep=True).sum()

np.int64(7610361)

- np.int64 es un tipo de datos de 64 bits, lo que significa que ocupa 8 bytes por valor.

**4.4.Verificar si hay jerarquías o estructuras anidadas**

- Se sospecha que las columnas 'genre' y 'Aired' podrían ser algunas de las que contienen estructuras anidadas.

In [17]:
# Verificar si alguna celda en la columna 'genre' tiene una lista
df_unido['genre'].apply(lambda x: isinstance(x, list)).sum()

np.int64(0)

In [18]:
# Verificar si alguna celda en la columna 'genre' tiene una lista
df_unido['Aired'].apply(lambda x: isinstance(x, list)).sum()

np.int64(0)

In [19]:
# Verificar si alguna celda de 'genre' tiene géneros separados por comas
df_unido['genre'].apply(lambda x: isinstance(x, str) and ',' in x).sum()

np.int64(6713)

In [20]:
# Verificar si alguna celda de 'genre' tiene géneros separados por comas
df_unido['Aired'].apply(lambda x: isinstance(x, str) and '-' in x).sum()

np.int64(7881)

- Efectivamente, las columnas 'genre' y 'Aired' presentan jerarquías o estructuras anidadas. Será necesario realizar un análisis más detallado de estas dos columnas para determinar si es conveniente separarlas o mantener los valores tal como están.

**4.5.Clasificación de variables y revisión de valores faltantes**

In [21]:
df_unido.info

<bound method DataFrame.info of       anime_id                              name  \
0        32281                    Kimi no Na wa.   
1         5114  Fullmetal Alchemist: Brotherhood   
2        28977                         GintamaÂ°   
3         9253                       Steins;Gate   
4        11061            Hunter x Hunter (2011)   
...        ...                               ...   
7876      2592                            Kimera   
7877       730          Houkago no Shokuinshitsu   
7878     30663                    Docchi mo Maid   
7879     34382                            Citrus   
7880     33654                Hitorijime My Hero   

                                                  genre   type episodes  \
0                  Drama, Romance, School, Supernatural  Movie        1   
1     Action, Adventure, Drama, Fantasy, Magic, Mili...     TV       64   
2     Action, Comedy, Historical, Parody, Samurai, S...     TV       51   
3                                      Sci-

In [22]:
df_unido.isnull().sum()

anime_id                0
name                    0
genre                  41
type                   12
episodes                0
rating                131
members                 0
nombre_normalizado      0
Title                   0
Rank                    0
Type                    0
Episodes                0
Aired                   0
Members                 0
page_url                0
image_url               0
Score                   0
dtype: int64

In [23]:
df_unido.columns

Index(['anime_id', 'name', 'genre', 'type', 'episodes', 'rating', 'members',
       'nombre_normalizado', 'Title', 'Rank', 'Type', 'Episodes', 'Aired',
       'Members', 'page_url', 'image_url', 'Score'],
      dtype='object')

### Conclusiones : 

  - Popularidad según calificaciones y miembros:

Las calificaciones más altas (por ejemplo, 9.37, 9.26) corresponden a títulos populares con grandes cantidades de miembros (más de 2 millones). Esto indica una correlación entre la popularidad y la calificación.

  - Relación con fechas de emisión:

Las fechas de emisión (Aired) están disponibles en un rango que abarca décadas. Esto permite explorar cómo la época de estreno puede influir en el éxito de un anime.

  - Información duplicada o redundante:

Columnas como Title/name, episodes/Episodes y Type/type parecen contener datos similares, lo que podría revisarse para evitar redundancia.

  - Datos faltantes:

Algunas entradas tienen valores NaN en columnas como rating y episodes. Esto sugiere la necesidad de manejar valores faltantes para evitar problemas en el análisis.

  - Posibles áreas de análisis:

1. Identificar tendencias en géneros más calificados o con mayor cantidad de miembros.
2. Examinar la distribución de animes destacados por temporada o año de estreno.
3. Evaluar cómo diferentes tipos de animes (TV, Movie, OVA, ONA) se distribuyen en cuanto a calificaciones y popularidad.

**4.4.Revisión de duplicados**

In [24]:
df_unido.duplicated().sum()

np.int64(0)

In [25]:
(df_unido['type'] == df_unido['Type']).sum()

np.int64(7756)

In [26]:
(df_unido['episodes'] == df_unido['Episodes']).sum()

np.int64(7605)

In [27]:
df_unido['episodes'].value_counts().get('Unknown', 0)

np.int64(164)

In [28]:
(df_unido == 'Unknown').sum()

anime_id                0
name                    0
genre                   0
type                    0
episodes              164
rating                  0
members                 0
nombre_normalizado      0
Title                   0
Rank                    0
Type                    1
Episodes                0
Aired                   0
Members                 0
page_url                0
image_url               0
Score                   0
dtype: int64

In [29]:
df_unido['type'].unique()

array(['Movie', 'TV', 'OVA', 'Special', 'Music', 'ONA', nan], dtype=object)

In [30]:
df_unido['Type'].unique()

array(['Movie', 'TV', 'OVA', 'Special', 'ONA', 'Unknown'], dtype=object)

In [31]:
df_unido[df_unido['type']=='Music']

Unnamed: 0,anime_id,name,genre,type,episodes,rating,members,nombre_normalizado,Title,Rank,Type,Episodes,Aired,Members,page_url,image_url,Score
149,34240,Shelter,"Music, Sci-Fi",Music,1,8.38,71136,shelter,Shelter,6105,Movie,1,1980 - 1980,775,https://myanimelist.net/anime/49197/Shelter,https://cdn.myanimelist.net/r/100x140/images/a...,6.55
4738,21861,Airy Me,"Dementia, Drama, Horror, Music",Music,1,6.4,1561,airy me,Airy Me,7473,Movie,1,Jul 2013 - Jul 2013,4964,https://myanimelist.net/anime/21861/Airy_Me,https://cdn.myanimelist.net/r/100x140/images/a...,6.29
6294,12521,Tentoumushi no Otomurai,Music,Music,1,5.34,309,tentoumushi no otomurai,Tentoumushi no Otomurai,11837,Movie,1,2006 - 2006,668,https://myanimelist.net/anime/12521/Tentoumush...,https://cdn.myanimelist.net/r/100x140/images/a...,5.11
6635,33220,Natsu no Gero wa Fuyu no Sakana,"Dementia, Music",Music,1,4.45,147,natsu no gero wa fuyu no sakana,Natsu no Gero wa Fuyu no Sakana,12714,Movie,1,Apr 2016 - Apr 2016,961,https://myanimelist.net/anime/33220/Natsu_no_G...,https://cdn.myanimelist.net/r/100x140/images/a...,3.83
6696,30860,Koumon-teki Juuku Ketsujiru Juke,"Comedy, Dementia, Music",Music,1,3.78,310,koumonteki juuku ketsujiru juke,Koumon-teki Juuku Ketsujiru Juke,12761,Movie,1,Apr 2013 - Apr 2013,1432,https://myanimelist.net/anime/30860/Koumon-tek...,https://cdn.myanimelist.net/r/100x140/images/a...,3.27
7211,34286,KiyaKiya,Psychological,Music,1,5.67,26,kiyakiya,KiyaKiya,10048,Movie,1,Jan 2011 - Jan 2011,320,https://myanimelist.net/anime/34286/KiyaKiya,https://cdn.myanimelist.net/r/100x140/images/a...,5.72


In [32]:
df_unido['episodes'].dtype

dtype('O')

In [33]:
# comprobamos si nuestra columna tiene algun otro valor distinto de int:

df_unido[~df_unido['episodes'].apply(lambda x: isinstance(x, int))]['episodes'].unique()


array(['1', '64', '51', '24', '148', '110', '201', '25', '22', '10', '75',
       '4', '26', '12', '27', '43', '13', '74', '37', '2', '11', '99',
       'Unknown', '39', '101', '47', '50', '62', '33', '112', '23', '3',
       '94', '14', '15', '203', '77', '8', '291', '6', '102', '96', '38',
       '79', '175', '103', '70', '153', '45', '21', '63', '52', '5',
       '145', '36', '69', '60', '114', '35', '61', '7', '34', '109', '20',
       '9', '49', '366', '97', '48', '78', '358', '155', '113', '54',
       '167', '161', '40', '142', '31', '220', '46', '195', '17', '1787',
       '73', '147', '127', '16', '19', '178', '150', '76', '53', '124',
       '29', '115', '224', '44', '58', '93', '92', '67', '172', '86',
       '42', '30', '276', '59', '72', '41', '105', '128', '137', '56',
       '104', '55', '65', '243', '193', '180', '91', '192', '66', '18',
       '182', '32', '164', '100', '296', '694', '95', '68', '117', '151',
       '130', '87', '170', '119', '84', '108', '28', '156', 

In [34]:
df_unido[~df_unido['Episodes'].apply(lambda x: isinstance(x, int))]['Episodes'].unique()

array(['1', '64', '51', '24', '148', '110', '201', '25', '22', '10', '75',
       '4', '26', '12', '27', '43', '11', '13', '74', '37', '2', '99',
       '?', '39', '101', '47', '50', '62', '33', '112', '23', '3', '94',
       '14', '15', '203', '77', '8', '291', '6', '102', '96', '38', '79',
       '175', '103', '70', '153', '45', '21', '63', '52', '5', '145',
       '36', '69', '60', '114', '35', '61', '7', '34', '109', '20', '9',
       '49', '366', '97', '48', '78', '500', '358', '155', '113', '67',
       '54', '167', '161', '40', '142', '31', '220', '195', '17', '1787',
       '73', '147', '127', '46', '16', '19', '178', '150', '76', '53',
       '124', '29', '115', '224', '44', '58', '93', '92', '172', '86',
       '42', '30', '276', '59', '131', '72', '41', '100', '105', '128',
       '137', '56', '104', '55', '65', '243', '193', '32', '180', '91',
       '192', '66', '18', '140', '182', '164', '296', '214', '694', '95',
       '68', '117', '151', '130', '87', '170', '119', '84'

In [35]:
(df_unido == '?').sum()

anime_id               0
name                   0
genre                  0
type                   0
episodes               0
rating                 0
members                0
nombre_normalizado     0
Title                  0
Rank                   0
Type                   0
Episodes              16
Aired                  0
Members                0
page_url               0
image_url              0
Score                  0
dtype: int64

In [36]:
df_unido[df_unido['Type']=='Unknown']

Unnamed: 0,anime_id,name,genre,type,episodes,rating,members,nombre_normalizado,Title,Rank,Type,Episodes,Aired,Members,page_url,image_url,Score
7501,7398,Sekai Meisaku Douwa,Fantasy,OVA,20,6.49,207,sekai meisaku douwa,Sekai Meisaku Douwa,8611,Unknown,20,Oct 1975 - Feb 1983,735,https://myanimelist.net/anime/7398/Sekai_Meisa...,https://cdn.myanimelist.net/r/100x140/images/a...,6.06


In [37]:
df_unido[(df_unido['Episodes']=='?') & (df_unido['episodes']!='Unknown')]

Unnamed: 0,anime_id,name,genre,type,episodes,rating,members,nombre_normalizado,Title,Rank,Type,Episodes,Aired,Members,page_url,image_url,Score
2680,9874,Touhou Niji Sousaku Doujin Anime: Musou Kakyou,"Fantasy, Magic",OVA,2,7.07,18305,touhou niji sousaku doujin anime musou kakyou,Touhou Niji Sousaku Doujin Anime: Musou Kakyou,2621,OVA,?,Dec 2008 -,38585,https://myanimelist.net/anime/9874/Touhou_Niji...,https://cdn.myanimelist.net/r/100x140/images/a...,7.28
4069,30088,Ryoutei no Aji,Slice of Life,Special,4,6.63,538,ryoutei no aji,Ryoutei no Aji,5419,Special,?,Mar 2014 -,2219,https://myanimelist.net/anime/30088/Ryoutei_no...,https://cdn.myanimelist.net/r/100x140/images/a...,6.69


- La columna type/Type contiene una lista de elementos en cada fila. Aunque no todas las filas son idénticas, esto se debe a que un anime puede ser categorizado de múltiples formas. En consecuencia, consideramos que estas dos columnas son equivalentes, por lo que eliminaremos una de ellas.

- Según el análisis previo, hemos identificado que la columna type presenta 12 valores NaN, mientras que la columna Type contiene un valor Unknown (anume_id :7398 y type: OVA) se rrellenara con la categorización que se le dio en la columna type.

- En cuanto a las columnas Episodes/episodes, aunque no todas las filas son idénticas, observamos que una de las columnas tiene más registros que la otra.

- El análisis realizado hasta el momento indica que la columna episodes tiene 164 valores Unknown, mientras que la columna Episodes tiene 16 valores ?.En estemomento podemos rellenar 2 de esos 16 valores con valor ? segun la columna episode. anime_id: 9874 episodes: 2 ; anime_id: 30088 episodes: 4.

- Con base en este análisis, concluimos que es más eficiente conservar las columnas Type y Episodes, y eliminar las otras dos (type y episodes), debido a la mayor consistencia y relevancia de los datos en las primeras.

- También es importante recordar que las columnas name y Title son equivalentes, al igual que la columna nombre_normalizado. Por el momento, eliminaremos la columna name y conservaremos Title y nombre_normalizado, ya que esta última puede resultar más útil en el análisis.

**Eliminamos las columnas `type`, `episodes` y `name`.**

In [38]:
df_unido.drop(['type', 'episodes','name'], axis=1, inplace=True)

* Ya vimos que las columnas 'genre' y 'Aired' presentan jerarquías o estructuras anidadas.

    - De `Aired` nos interesaria el mes y año de inicio. Por tanto se creara una nueva columna `fecha_ini`.
    
    - De `gener` nos interesa ver el top y la frecuencia de cada categoria, por tanto se dividira cada categoria por su anime_id.  

**Creación de nueva columna `fecha_ini`**

**Separación de la da columna `gener`**

**4.5.Resumen estadístico general del DataFrame**

In [39]:
df_unido.describe(exclude='object').round(2)

Unnamed: 0,anime_id,rating,members,Rank,Members,Score
count,7881.0,7750.0,7881.0,7881.0,7881.0,7881.0
mean,12261.84,6.64,25308.21,6467.24,73544.52,6.45
std,11067.8,0.98,65990.46,3695.67,232754.91,0.96
min,1.0,2.0,22.0,1.0,247.0,1.85
25%,2649.0,6.12,486.0,3286.0,1510.0,5.83
50%,8302.0,6.73,2740.0,6420.0,6488.0,6.5
75%,21431.0,7.32,17378.0,9626.0,38274.0,7.16
max,34525.0,9.5,1013917.0,12788.0,3759013.0,9.1


In [40]:
df_unido.describe(include='object')

Unnamed: 0,genre,nombre_normalizado,Title,Type,Episodes,Aired,page_url,image_url
count,7840,7881,7881,7881,7881,7881,7881,7881
unique,2728,7866,7871,6,174,2791,7871,7868
top,Comedy,nisekoi ova,Nisekoi OVA,TV,1,Oct 2016 - Dec 2016,https://myanimelist.net/anime/24227/Nisekoi_OVA,https://cdn.myanimelist.net/r/100x140/images/q...
freq,311,4,2,3082,3309,47,2,4


**Titul**

En esta primera exploración observamos lo siguiente:



* members/Members: Alta dispersión (std = 65,990.46/73,544.52), indicando gran variación entre animes populares y menos conocidos.
* Score: La mayoría de los animes tienen puntuaciones entre 5.83 y 7.16 (rango intercuartil).
* El ranking y las puntuaciones parecen estár correlacionados (los animes mejor calificados tienden a tener mejor ranking).

- Dado que la columna `genre` es una lista de los generos, habra que volver ha hacer el resumen estadistico y volver a comprobar tales resultados.

* El género más común es "Comedy".
* El tipo más común de anime es "TV", y muchos tienen un solo episodio, lo que probablemente sean OVAs, películas o especiales.
* La base de datos está bien completada, con solo pequeños datos faltantes en genre.


### **5.Estudio de las variables**

**5.1.Explicación de las variables**

In [41]:
df_unido.columns

Index(['anime_id', 'genre', 'rating', 'members', 'nombre_normalizado', 'Title',
       'Rank', 'Type', 'Episodes', 'Aired', 'Members', 'page_url', 'image_url',
       'Score'],
      dtype='object')

**4.6.Descripción general de los datos**

anime_id : ID único de myanimelist.net que identifica a un anime.

Género : Lista de géneros separados por comas para este anime.

Calificación : Calificación promedio de 10 para este anime.

Miembros : Número de miembros de la comunidad que están en el "Grupo" de este anime.

Título: Nombre del anime/manga

Rango: Clasificación del anime/manga

Tipo: Categoría de anime/manga, por ejemplo, One-shot, Novela ligera, etc

Episodios (anime): Número de episodios del anime

Volúmenes(manga): Número de volúmenes del manga

Emisión(anime): Fecha de emisión de un anime

Publicado (manga): Fecha de publicación de un manga

Miembros: Número de miembros que han visto/leído el anime/manga

page_url: El enlace URL a la página del anime/manga en particular

image_url: El enlace URL a la imagen de portada del anime/manga en particular

Puntuación: Puntuación/puntuación media de los usuarios del anime/manga

In [52]:
df_unido['rating'].max()

np.float64(9.5)

In [54]:
df_unido[df_unido['rating']==9.5]

Unnamed: 0,anime_id,genre,rating,members,nombre_normalizado,Title,Rank,Type,Episodes,Aired,Members,page_url,image_url,Score
7326,23005,Slice of Life,9.5,62,mogura no motoro,Mogura no Motoro,10618,Movie,1,Jul 1962 - Jul 1962,466,https://myanimelist.net/anime/23005/Mogura_no_...,https://cdn.myanimelist.net/r/100x140/images/a...,5.56


In [42]:
df_unido['Score'].max()

np.float64(9.1)

In [43]:
df_unido[df_unido['Score']==9.1]

Unnamed: 0,anime_id,genre,rating,members,nombre_normalizado,Title,Rank,Type,Episodes,Aired,Members,page_url,image_url,Score
1,5114,"Action, Adventure, Drama, Fantasy, Magic, Mili...",9.26,793665,fullmetal alchemist brotherhood,Fullmetal Alchemist: Brotherhood,1,TV,64,Apr 2009 - Jul 2010,3188280,https://myanimelist.net/anime/5114/Fullmetal_A...,https://cdn.myanimelist.net/r/100x140/images/a...,9.1


In [44]:
df_unido['members'].max()

np.int64(1013917)

In [45]:
df_unido[df_unido['members']==1013917]

Unnamed: 0,anime_id,genre,rating,members,nombre_normalizado,Title,Rank,Type,Episodes,Aired,Members,page_url,image_url,Score
36,1535,"Mystery, Police, Psychological, Supernatural, ...",8.71,1013917,death note,Death Note,79,TV,37,Oct 2006 - Jun 2007,3727021,https://myanimelist.net/anime/1535/Death_Note,https://cdn.myanimelist.net/r/100x140/images/a...,8.62


In [49]:
df_unido['Members'].max()

np.int64(3759013)

In [47]:
df_unido[df_unido['Members']==3759013]

Unnamed: 0,anime_id,genre,rating,members,nombre_normalizado,Title,Rank,Type,Episodes,Aired,Members,page_url,image_url,Score
72,16498,"Action, Drama, Fantasy, Shounen, Super Power",8.54,896229,shingeki no kyojin,Shingeki no Kyojin,107,TV,25,Apr 2013 - Sep 2013,3759013,https://myanimelist.net/anime/16498/Shingeki_n...,https://cdn.myanimelist.net/r/100x140/images/a...,8.54
