# Atributos y métodos básicos de una Serie

Como hemos visto hasta el momento, existe un altísimo grado de similitud entre los *DataFrames* y las Series en Pandas, y por tanto muchos de los métodos y atributos están disponibles en ambos tipos de dato.

En esta lección hablaremos de los principales atributos y métodos básicos de una Serie, que son prácticamente los mismos que vimos en su momento cuando hablamos de los *DataFrames*.

En particular veremos atributos y métodos que nos permiten:

- Extraer información general de la Serie
- Realizar operaciones de síntesis
- Aplicar funciones personalizadas a la Serie

Al final de todo esto veremos además un ejemplo práctico de aplicación de algunos de estos conceptos.

## 1. Métodos para extraer información general de una Serie

Comencemos importando la librería y leyendo el set de datos:

In [1]:
# Importar librería
import pandas as pd

# Leer dataset
df = pd.read_csv('peliculas.csv')
df

Unnamed: 0,color,director_name,num_critic_for_reviews,duration,director_facebook_likes,actor_3_facebook_likes,actor_2_name,actor_1_facebook_likes,gross,genres,...,num_user_for_reviews,language,country,content_rating,budget,title_year,actor_2_facebook_likes,imdb_score,aspect_ratio,movie_facebook_likes
0,Color,James Cameron,723.0,178.0,0.0,855.0,Joel David Moore,1000.0,760505847.0,Action|Adventure|Fantasy|Sci-Fi,...,3054.0,English,USA,PG-13,237000000.0,2009.0,936.0,7.9,1.78,33000
1,Color,Gore Verbinski,302.0,169.0,563.0,1000.0,Orlando Bloom,40000.0,309404152.0,Action|Adventure|Fantasy,...,1238.0,English,USA,PG-13,300000000.0,2007.0,5000.0,7.1,2.35,0
2,Color,Sam Mendes,602.0,148.0,0.0,161.0,Rory Kinnear,11000.0,200074175.0,Action|Adventure|Thriller,...,994.0,English,UK,PG-13,245000000.0,2015.0,393.0,6.8,2.35,85000
3,Color,Christopher Nolan,813.0,164.0,22000.0,23000.0,Christian Bale,27000.0,448130642.0,Action|Thriller,...,2701.0,English,USA,PG-13,250000000.0,2012.0,23000.0,8.5,2.35,164000
4,,Doug Walker,,,131.0,,Rob Walker,131.0,,Documentary,...,,,,,,,12.0,7.1,,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4911,Color,Scott Smith,1.0,87.0,2.0,318.0,Daphne Zuniga,637.0,,Comedy|Drama,...,6.0,English,Canada,,,2013.0,470.0,7.7,,84
4912,Color,,43.0,43.0,,319.0,Valorie Curry,841.0,,Crime|Drama|Mystery|Thriller,...,359.0,English,USA,TV-14,,,593.0,7.5,16.00,32000
4913,Color,Benjamin Roberds,13.0,76.0,0.0,0.0,Maxwell Moody,0.0,,Drama|Horror|Thriller,...,3.0,English,USA,,1400.0,2013.0,0.0,6.3,,16
4914,Color,Daniel Hsia,14.0,100.0,0.0,489.0,Daniel Henney,946.0,10443.0,Comedy|Drama|Romance,...,9.0,English,USA,PG-13,,2012.0,719.0,6.3,2.35,660


Y a partir de este *DataFrame* vamos a extraer dos Series (es decir dos columnas): *color* y *budget*:

In [2]:
serie_color = df['color']
serie_budget = df['budget']

El atributo `dtype` nos permite ver el tipo de dato usado para almacenar la Serie:

In [4]:
# Info general: dtype
#serie_color.dtype
serie_budget.dtype


dtype('float64')

Y podemos usar el método `count()` para realizar un conteo simple de datos en la Serie, **sin incluir NaNs**:

In [5]:
# Contar cantidad de datos
print(serie_color.count())
print(serie_budget.count())

4897
4432


Al igual que en el caso de los *DataFrames*, podemos usar el método `value_counts()` para realizar un conteo de los diferentes valores presentes en la Serie. Esto resulta muy útil especialmente en el caso de variables categóricas, pues nos permite ver los niveles presentes en la Serie:

In [6]:
# Conteo de niveles en variable categórica
serie_color.value_counts()

Color              4693
Black and White     204
Name: color, dtype: int64

Y podemos combinar el método `isna()` (para determinar cuáles elementos de la Serie son NaN, marcados como `True`) junto con `value_counts()` para determinar la cantidad exacta de datos faltantes:

In [7]:
# Conteo de NaN (etiquetados como "True")
serie_budget.isna().value_counts()

False    4432
True      484
Name: budget, dtype: int64

También está disponible el método `describe()` que en principio resulta útil para variables numéricas pero que para el caso de Series tipo *Object* (o *string*) también arroja información útil:

In [8]:
# Describir variable numérica
serie_budget.describe()

count    4.432000e+03
mean     3.654749e+07
std      1.002427e+08
min      2.180000e+02
25%      6.000000e+06
50%      1.985000e+07
75%      4.300000e+07
max      4.200000e+09
Name: budget, dtype: float64

In [9]:
# Y si lo aplico a variable tipo "string" obtengo una descripción interesante!!!
serie_color.describe()

count      4897
unique        2
top       Color
freq       4693
Name: color, dtype: object

## 2. Métodos para síntesis de Series

Al igual que con los *DataFrames* tenemos a disposición métodos como `sum()`, `min()`, `max()`, `mean()`, `std()` y `median()`, entre otros, que resultan útiles para sintetizar una variable numérica:

In [12]:
# Operaciones de síntesis
serie_budget.max()  # Probar con min, max, mean, std y median

4200000000.0

## 3. Método `apply()`

Y también tenemos disponible el método `apply` que nos permite aplicar una función específica a cada elemento de la Serie y que funciona de forma idéntica a la que vimos en el caso de los *DataFrames*:

- Podemos aplicar una función proveniente de la librería estándar de Python o de NumPy
- Podemos aplicar una función creada con `def` o una función *lambda*

Veamos a través de un ejemplo dos maneras diferentes de lograr un mismo resultado: tomemos la columna `language` del *DataFrame* y convirtamos cada *string* a su representación en minúsculas:

In [13]:
# Extraigamos primero la serie
serie_lang = df['language']
serie_lang

0       English
1       English
2       English
3       English
4           NaN
         ...   
4911    English
4912    English
4913    English
4914    English
4915    English
Name: language, Length: 4916, dtype: object

In [14]:
# Método 1: convertir a minúsculas usando el atributo *str* y el método "lower()"
serie_lang.str.lower()

0       english
1       english
2       english
3       english
4           NaN
         ...   
4911    english
4912    english
4913    english
4914    english
4915    english
Name: language, Length: 4916, dtype: object

In [15]:
# Método 2: usando "apply"
serie_lang.apply(str.lower)

TypeError: descriptor 'lower' for 'str' objects doesn't apply to a 'float' object

En el caso anterior el error nos indica que la Serie contiene valores *NaN* que son interpretados como punto flotante y que no pueden ser convertidos a formato *string*.

Para corregir este error debemos eliminar estos datos faltantes (usando el método `dropna()` visto anteriormente):

In [16]:
# Versión corregida: remover NaNs -> apply str + lower
serie_lang.dropna().apply(str.lower)

0       english
1       english
2       english
3       english
5       english
         ...   
4911    english
4912    english
4913    english
4914    english
4915    english
Name: language, Length: 4904, dtype: object

## 4. Ejercicio práctico

Usemos algunas de las ideas aprendidas hasta el momento, así como otros métodos adicionales, para resolver este pequeño reto: determinar los 10 actores con más papeles protagónicos.

In [17]:
# Los papeles protagónicos están en la columna "actor_1_name".
# Extraigamos esta columna y almacenémosla en una serie
serie_actors = df['actor_1_name']
serie_actors

0           CCH Pounder
1           Johnny Depp
2       Christoph Waltz
3             Tom Hardy
4           Doug Walker
             ...       
4911        Eric Mabius
4912        Natalie Zea
4913        Eva Boehnke
4914          Alan Ruck
4915        John August
Name: actor_1_name, Length: 4916, dtype: object

Ahora podemos tomar la Serie anterior y usar el método `value_counts()` para crear una nueva Serie que contenga el conteo de veces que aparece cada actor en la Serie original.

Este conteo es precisamente el número de películas en las cuales ha sido protagonista cada actor:

In [18]:
serie_conteo = serie_actors.value_counts()
serie_conteo

Robert De Niro             48
Johnny Depp                36
Nicolas Cage               32
J.K. Simmons               29
Matt Damon                 29
                           ..
Sharon Leal                 1
Maximilian Dirr             1
Bruce Payne                 1
Birgitte Hjort Sørensen     1
John August                 1
Name: actor_1_name, Length: 2095, dtype: int64

Por defecto `value_counts()` genera una Serie en orden descendente, así que en las primeras posiciones tendremos precisamente los actores que han protagonizado más películas.

A partir de esta Serie (`serie_conteo`) podemos extraer los actores en el top-10. Hay varias formas de hacerlo y en este caso veremos dos.

La primera es usando indexación:

In [19]:
# Top-10, método 1: indexar serie_conteo
serie_conteo[0:10]

Robert De Niro       48
Johnny Depp          36
Nicolas Cage         32
J.K. Simmons         29
Matt Damon           29
Denzel Washington    29
Bruce Willis         28
Harrison Ford        27
Steve Buscemi        27
Robin Williams       27
Name: actor_1_name, dtype: int64

Y la segunda forma es usando el método `nlargest()` que nos permite obtener los "n" valores más grandes dentro de la Serie, donde "n" es precisamente el argumento de este método.

Este método también está disponible en el caso de los *DataFrames*:

In [20]:
# Top-10, método 2: nlargest
serie_conteo.nlargest(10)

Robert De Niro       48
Johnny Depp          36
Nicolas Cage         32
J.K. Simmons         29
Matt Damon           29
Denzel Washington    29
Bruce Willis         28
Harrison Ford        27
Steve Buscemi        27
Robin Williams       27
Name: actor_1_name, dtype: int64

Y al igual que con los *DataFrames*, en el caso de las Series también podemos encadenar todas las operaciones realizadas hasta el momento en una sola línea de código:

In [21]:
# Encadenar operaciones método 1: extraer columna -> value_counts -> Indexación
df['actor_1_name'].value_counts()[0:10]

Robert De Niro       48
Johnny Depp          36
Nicolas Cage         32
J.K. Simmons         29
Matt Damon           29
Denzel Washington    29
Bruce Willis         28
Harrison Ford        27
Steve Buscemi        27
Robin Williams       27
Name: actor_1_name, dtype: int64

In [22]:
# O encadenar operaciones método 2: extraer columna -> value_counts -> nlargest
df['actor_1_name'].value_counts().nlargest(10)

Robert De Niro       48
Johnny Depp          36
Nicolas Cage         32
J.K. Simmons         29
Matt Damon           29
Denzel Washington    29
Bruce Willis         28
Harrison Ford        27
Steve Buscemi        27
Robin Williams       27
Name: actor_1_name, dtype: int64