# Operaciones esenciales de un DataFrame

In [7]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

movies = pd.read_csv('data/movie.csv')
movies.head()

Unnamed: 0,color,director_name,num_critic_for_reviews,duration,director_facebook_likes,actor_3_facebook_likes,actor_2_name,actor_1_facebook_likes,gross,genres,...,num_user_for_reviews,language,country,content_rating,budget,title_year,actor_2_facebook_likes,imdb_score,aspect_ratio,movie_facebook_likes
0,Color,James Cameron,723.0,178.0,0.0,855.0,Joel David Moore,1000.0,760505847.0,Action|Adventure|Fantasy|Sci-Fi,...,3054.0,English,USA,PG-13,237000000.0,2009.0,936.0,7.9,1.78,33000
1,Color,Gore Verbinski,302.0,169.0,563.0,1000.0,Orlando Bloom,40000.0,309404152.0,Action|Adventure|Fantasy,...,1238.0,English,USA,PG-13,300000000.0,2007.0,5000.0,7.1,2.35,0
2,Color,Sam Mendes,602.0,148.0,0.0,161.0,Rory Kinnear,11000.0,200074175.0,Action|Adventure|Thriller,...,994.0,English,UK,PG-13,245000000.0,2015.0,393.0,6.8,2.35,85000
3,Color,Christopher Nolan,813.0,164.0,22000.0,23000.0,Christian Bale,27000.0,448130642.0,Action|Thriller,...,2701.0,English,USA,PG-13,250000000.0,2012.0,23000.0,8.5,2.35,164000
4,,Doug Walker,,,131.0,,Rob Walker,131.0,,Documentary,...,,,,,,,12.0,7.1,,0


## Selección de varias columnas
Para seleccinar un número variable de columnas por nombre no hay más que almacenar los nombres de estas en una lista
y pasársela al dataset en formato corchetes

In [8]:
columnas=['director_name', 'imdb_score', 'genres']
movies[columnas].head()


Unnamed: 0,director_name,imdb_score,genres
0,James Cameron,7.9,Action|Adventure|Fantasy|Sci-Fi
1,Gore Verbinski,7.1,Action|Adventure|Fantasy
2,Sam Mendes,6.8,Action|Adventure|Thriller
3,Christopher Nolan,8.5,Action|Thriller
4,Doug Walker,7.1,Documentary


## Selección de columnas con métodos
La selección de columnas también se puede hacer mediante métodos específicos: **select_dtypes** y **filter**. La
primera función selecciona todas las columnas del tipo que se le indiquen, y la segunda permite realizar filtros
avanzados sobre las columnas a partir de expresiones regulares.

La función **filter** tiene tres parámetros mútuamente excluyentes: regex, like e items. El parámetro regex recoge
una expresión regular, like busca columnas que contengan el valor pasado, e items recoge una lista con los nombres
de las columnas.

In [9]:
movies.select_dtypes(include=[float]).head()

Unnamed: 0,num_critic_for_reviews,duration,director_facebook_likes,actor_3_facebook_likes,actor_1_facebook_likes,gross,facenumber_in_poster,num_user_for_reviews,budget,title_year,actor_2_facebook_likes,imdb_score,aspect_ratio
0,723.0,178.0,0.0,855.0,1000.0,760505847.0,0.0,3054.0,237000000.0,2009.0,936.0,7.9,1.78
1,302.0,169.0,563.0,1000.0,40000.0,309404152.0,0.0,1238.0,300000000.0,2007.0,5000.0,7.1,2.35
2,602.0,148.0,0.0,161.0,11000.0,200074175.0,1.0,994.0,245000000.0,2015.0,393.0,6.8,2.35
3,813.0,164.0,22000.0,23000.0,27000.0,448130642.0,0.0,2701.0,250000000.0,2012.0,23000.0,8.5,2.35
4,,,131.0,,131.0,,0.0,,,,12.0,7.1,


In [10]:
movies.filter(regex='\d').head()  # todas las columnas con un número en el nombre


Unnamed: 0,actor_3_facebook_likes,actor_2_name,actor_1_facebook_likes,actor_1_name,actor_3_name,actor_2_facebook_likes
0,855.0,Joel David Moore,1000.0,CCH Pounder,Wes Studi,936.0
1,1000.0,Orlando Bloom,40000.0,Johnny Depp,Jack Davenport,5000.0
2,161.0,Rory Kinnear,11000.0,Christoph Waltz,Stephanie Sigman,393.0
3,23000.0,Christian Bale,27000.0,Tom Hardy,Joseph Gordon-Levitt,23000.0
4,,Rob Walker,131.0,Doug Walker,,12.0


## Ordenar los nombres de las columnas
Para reordenar las columnas de un dataset no hay más que seleccionarlas por nombres en una lista según el orden deseado.

In [11]:
disc_core = ['movie_title','title_year', 'content_rating','genres']
disc_people = ['director_name','actor_1_name', 'actor_2_name','actor_3_name']
disc_other = ['color','country','language','plot_keywords','movie_imdb_link']
cont_fb = ['director_facebook_likes','actor_1_facebook_likes','actor_2_facebook_likes',
           'actor_3_facebook_likes', 'cast_total_facebook_likes', 'movie_facebook_likes']
cont_finance = ['budget','gross']
cont_num_reviews = ['num_voted_users','num_user_for_reviews', 'num_critic_for_reviews']
cont_other = ['imdb_score','duration', 'aspect_ratio', 'facenumber_in_poster']
new_col_order = disc_core + disc_people + disc_other + \
                    cont_fb + cont_finance + cont_num_reviews + cont_other
movies2 = movies[new_col_order]
movies2.head()


Unnamed: 0,movie_title,title_year,content_rating,genres,director_name,actor_1_name,actor_2_name,actor_3_name,color,country,...,movie_facebook_likes,budget,gross,num_voted_users,num_user_for_reviews,num_critic_for_reviews,imdb_score,duration,aspect_ratio,facenumber_in_poster
0,Avatar,2009.0,PG-13,Action|Adventure|Fantasy|Sci-Fi,James Cameron,CCH Pounder,Joel David Moore,Wes Studi,Color,USA,...,33000,237000000.0,760505847.0,886204,3054.0,723.0,7.9,178.0,1.78,0.0
1,Pirates of the Caribbean: At World's End,2007.0,PG-13,Action|Adventure|Fantasy,Gore Verbinski,Johnny Depp,Orlando Bloom,Jack Davenport,Color,USA,...,0,300000000.0,309404152.0,471220,1238.0,302.0,7.1,169.0,2.35,0.0
2,Spectre,2015.0,PG-13,Action|Adventure|Thriller,Sam Mendes,Christoph Waltz,Rory Kinnear,Stephanie Sigman,Color,UK,...,85000,245000000.0,200074175.0,275868,994.0,602.0,6.8,148.0,2.35,1.0
3,The Dark Knight Rises,2012.0,PG-13,Action|Thriller,Christopher Nolan,Tom Hardy,Christian Bale,Joseph Gordon-Levitt,Color,USA,...,164000,250000000.0,448130642.0,1144337,2701.0,813.0,8.5,164.0,2.35,0.0
4,Star Wars: Episode VII - The Force Awakens,,,Documentary,Doug Walker,Doug Walker,Rob Walker,,,,...,0,,,8,,,7.1,,,0.0


## Encadenamiento de métodos

In [13]:
movies.isnull().sum().head()


color                       19
director_name              102
num_critic_for_reviews      49
duration                    15
director_facebook_likes    102
dtype: int64

In [17]:
movies.isnull().any().sum()

21

## Trabajando con operadores sobre el DataFrame

Para realizar operaciones sobre todo el dataset hay que seleccionar primero las columnas numéricas sobre las que
queramos operar y realizar las operaciones

In [21]:
movies_likes_ = movies.filter(regex='likes')
movies_likes_.head() + .00501

Unnamed: 0,director_facebook_likes,actor_3_facebook_likes,actor_1_facebook_likes,cast_total_facebook_likes,actor_2_facebook_likes,movie_facebook_likes
0,0.00501,855.00501,1000.00501,4834.00501,936.00501,33000.00501
1,563.00501,1000.00501,40000.00501,48350.00501,5000.00501,0.00501
2,0.00501,161.00501,11000.00501,11700.00501,393.00501,85000.00501
3,22000.00501,23000.00501,27000.00501,106759.00501,23000.00501,164000.00501
4,131.00501,,131.00501,143.00501,12.00501,0.00501


## Cambiando la dirección de las operaciones de un DataFrame
Los DataFrames tienen dos dimensiones, columnas y filas. Esto se especifica en los métodos mediante el parámetro **axis**
pudiendo ser los valores 0 ('index') para las filas y 1 ('columns') para las columnas.
Por defecto, los métodos usan el valor 0 (filas) para las operaciones de sus métodos.

In [26]:
# cuenta según el eje de las filas, contarán cuantas filas hay en cada columna
movies_likes_.count(axis='index') # valor por defecto, axis=0

director_facebook_likes      4814
actor_3_facebook_likes       4893
actor_1_facebook_likes       4909
cast_total_facebook_likes    4916
actor_2_facebook_likes       4903
movie_facebook_likes         4916
dtype: int64

In [27]:
# cuenta según el eje de las columnas, contará cuantas columnas hay en cada fila, axis=1
movies_likes_.count(axis='columns')


0       6
1       6
2       6
3       6
4       5
       ..
4911    6
4912    5
4913    6
4914    6
4915    6
Length: 4916, dtype: int64