# Lectura de un DataFrame y atributos básicos

En la lección anterior hablamos de las Series y los DataFrames, las dos estructuras de datos usadas en Pandas.

En este segundo módulo del curso nos enfocaremos en los DataFrames, que son simplemente tablas o arreglos bidimensionales de datos.

Y un DataFrame es un tipo de dato (u objeto) en Python, así que asociado a este objeto tendremos unos atributos y unos métodos.

En esta lección veremos entonces cómo leer un DataFrame así como sus principales atributos.

## 1. Lectura de un DataFrame

Por ahora nos enfocaremos en uno de los tipos de dato que encontraremos más comúnmente en nuestros proyectos: los archivos CSV (*comma separated values*).

En estos archivos los datos estructurados se encuentran organizados por filas y por columnas. Y en cada fila los datos se encuentran, generalmente, separados por comas (de allí el nombre de este tipo de archivo).

En una lección anterior ya vimos como leer este tipo de archivo, usando la función **read_csv**:

In [None]:
# Comencemos importando la librería
import pandas as pd

In [None]:
# Y usemos "read_csv" para leer el set de datos "peliculas.csv"
df = pd.read_csv('/peliculas.csv')

In [None]:
# E imprimamos en pantalla el resultado obtenido
df

Unnamed: 0,color,director_name,num_critic_for_reviews,duration,director_facebook_likes,actor_3_facebook_likes,actor_2_name,actor_1_facebook_likes,gross,genres,...,num_user_for_reviews,language,country,content_rating,budget,title_year,actor_2_facebook_likes,imdb_score,aspect_ratio,movie_facebook_likes
0,Color,James Cameron,723.0,178.0,0.0,855.0,Joel David Moore,1000.0,760505847.0,Action|Adventure|Fantasy|Sci-Fi,...,3054.0,English,USA,PG-13,237000000.0,2009.0,936.0,7.9,1.78,33000
1,Color,Gore Verbinski,302.0,169.0,563.0,1000.0,Orlando Bloom,40000.0,309404152.0,Action|Adventure|Fantasy,...,1238.0,English,USA,PG-13,300000000.0,2007.0,5000.0,7.1,2.35,0
2,Color,Sam Mendes,602.0,148.0,0.0,161.0,Rory Kinnear,11000.0,200074175.0,Action|Adventure|Thriller,...,994.0,English,UK,PG-13,245000000.0,2015.0,393.0,6.8,2.35,85000
3,Color,Christopher Nolan,813.0,164.0,22000.0,23000.0,Christian Bale,27000.0,448130642.0,Action|Thriller,...,2701.0,English,USA,PG-13,250000000.0,2012.0,23000.0,8.5,2.35,164000
4,,Doug Walker,,,131.0,,Rob Walker,131.0,,Documentary,...,,,,,,,12.0,7.1,,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4911,Color,Scott Smith,1.0,87.0,2.0,318.0,Daphne Zuniga,637.0,,Comedy|Drama,...,6.0,English,Canada,,,2013.0,470.0,7.7,,84
4912,Color,,43.0,43.0,,319.0,Valorie Curry,841.0,,Crime|Drama|Mystery|Thriller,...,359.0,English,USA,TV-14,,,593.0,7.5,16.00,32000
4913,Color,Benjamin Roberds,13.0,76.0,0.0,0.0,Maxwell Moody,0.0,,Drama|Horror|Thriller,...,3.0,English,USA,,1400.0,2013.0,0.0,6.3,,16
4914,Color,Daniel Hsia,14.0,100.0,0.0,489.0,Daniel Henney,946.0,10443.0,Comedy|Drama|Romance,...,9.0,English,USA,PG-13,,2012.0,719.0,6.3,2.35,660


En la [documentación de *read_csv*](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html) se especifican los múltiples parámetros que podemos usar para leer un archivo CSV y a continuación veremos los más usados.

Con el parámetro *usecols* es posible especificar las columnas que queremos leer.

Por ejemplo, leamos sólo las columnas *color*, *director_name* y *num_critic_for_reviews*:

In [None]:
df = pd.read_csv('/content/drive/MyDrive/pandas/archivoscsv/peliculas.csv', usecols = ['color', 'director_name', 'num_critic_for_reviews'])
df

Unnamed: 0,color,director_name,num_critic_for_reviews
0,Color,James Cameron,723.0
1,Color,Gore Verbinski,302.0
2,Color,Sam Mendes,602.0
3,Color,Christopher Nolan,813.0
4,,Doug Walker,
...,...,...,...
4911,Color,Scott Smith,1.0
4912,Color,,43.0
4913,Color,Benjamin Roberds,13.0
4914,Color,Daniel Hsia,14.0


Y de forma similar, con *nrows* podemos especificar el número de filas a leer.

Por ejemplo, en lugar de las 4916 filas leamos sólamente las primeras 100:

In [None]:
df = pd.read_csv('/content/drive/MyDrive/pandas/archivoscsv/peliculas.csv', usecols = ['color', 'director_name', 'num_critic_for_reviews'],
                nrows = 100)
df

Unnamed: 0,color,director_name,num_critic_for_reviews
0,Color,James Cameron,723.0
1,Color,Gore Verbinski,302.0
2,Color,Sam Mendes,602.0
3,Color,Christopher Nolan,813.0
4,,Doug Walker,
...,...,...,...
95,Color,James Gunn,653.0
96,Color,Christopher Nolan,712.0
97,Color,Christopher Nolan,642.0
98,Color,Hideaki Anno,1.0


## 2. Principales atributos de un *DataFrame*

Veamos ahora los atributos que más comúnmente usaremos en un proyecto de Ciencia de Datos y Machine Learning.

El primero de ellos es *shape*, que nos permite determinar el tamaño del *DataFrame*:

In [None]:
# Número de filas y de columnas del DataFrame
df.shape

(100, 3)

In [None]:
# Y si queremos extraer sólo el número de columnas o de filas
# accedemos a los elementos 0 o 1 del atributo "shape"

print(f'Número de filas: {df.shape[0]}')
print(f'Número de columnas: {df.shape[1]}')

Número de filas: 100
Número de columnas: 3


Y recordemos que un *DataFrame* contiene 3 elementos básicos:

![](anatomia_dataframe.png)

- El índice: ***index***
- Las columnas: ***columns***
- Y los datos: ***values***

Para acceder a estos tres elementos podemos usar los atributos *index*, *columns* y *values*:

In [None]:
# Acceder al índice del DataFrame leído anteriormente:
indice = df.index
print(indice)
print(type(indice))

RangeIndex(start=0, stop=100, step=1)
<class 'pandas.core.indexes.range.RangeIndex'>


In [None]:
# Acceder a las columnas
columnas = df.columns
print(columnas)
print(type(columnas))

Index(['color', 'director_name', 'num_critic_for_reviews'], dtype='object')
<class 'pandas.core.indexes.base.Index'>


In [None]:
# Acceder a los datos

# En las versiones de Pandas anteriores a la 2.0 se usa el atributo "values"
datos = df.values
print(datos)
print(type(datos))

[['Color' 'James Cameron' 723.0]
 ['Color' 'Gore Verbinski' 302.0]
 ['Color' 'Sam Mendes' 602.0]
 ['Color' 'Christopher Nolan' 813.0]
 [nan 'Doug Walker' nan]
 ['Color' 'Andrew Stanton' 462.0]
 ['Color' 'Sam Raimi' 392.0]
 ['Color' 'Nathan Greno' 324.0]
 ['Color' 'Joss Whedon' 635.0]
 ['Color' 'David Yates' 375.0]
 ['Color' 'Zack Snyder' 673.0]
 ['Color' 'Bryan Singer' 434.0]
 ['Color' 'Marc Forster' 403.0]
 ['Color' 'Gore Verbinski' 313.0]
 ['Color' 'Gore Verbinski' 450.0]
 ['Color' 'Zack Snyder' 733.0]
 ['Color' 'Andrew Adamson' 258.0]
 ['Color' 'Joss Whedon' 703.0]
 ['Color' 'Rob Marshall' 448.0]
 ['Color' 'Barry Sonnenfeld' 451.0]
 ['Color' 'Peter Jackson' 422.0]
 ['Color' 'Marc Webb' 599.0]
 ['Color' 'Ridley Scott' 343.0]
 ['Color' 'Peter Jackson' 509.0]
 ['Color' 'Chris Weitz' 251.0]
 ['Color' 'Peter Jackson' 446.0]
 ['Color' 'James Cameron' 315.0]
 ['Color' 'Anthony Russo' 516.0]
 ['Color' 'Peter Berg' 377.0]
 ['Color' 'Colin Trevorrow' 644.0]
 ['Color' 'Sam Mendes' 750.0]
 ['Co

In [None]:
# Pero después de la versión 2.0 la documentación sugiere usar el método
# to_numpy()
datos = df.to_numpy()
print(datos)
print(type(datos))

[['Color' 'James Cameron' 723.0]
 ['Color' 'Gore Verbinski' 302.0]
 ['Color' 'Sam Mendes' 602.0]
 ['Color' 'Christopher Nolan' 813.0]
 [nan 'Doug Walker' nan]
 ['Color' 'Andrew Stanton' 462.0]
 ['Color' 'Sam Raimi' 392.0]
 ['Color' 'Nathan Greno' 324.0]
 ['Color' 'Joss Whedon' 635.0]
 ['Color' 'David Yates' 375.0]
 ['Color' 'Zack Snyder' 673.0]
 ['Color' 'Bryan Singer' 434.0]
 ['Color' 'Marc Forster' 403.0]
 ['Color' 'Gore Verbinski' 313.0]
 ['Color' 'Gore Verbinski' 450.0]
 ['Color' 'Zack Snyder' 733.0]
 ['Color' 'Andrew Adamson' 258.0]
 ['Color' 'Joss Whedon' 703.0]
 ['Color' 'Rob Marshall' 448.0]
 ['Color' 'Barry Sonnenfeld' 451.0]
 ['Color' 'Peter Jackson' 422.0]
 ['Color' 'Marc Webb' 599.0]
 ['Color' 'Ridley Scott' 343.0]
 ['Color' 'Peter Jackson' 509.0]
 ['Color' 'Chris Weitz' 251.0]
 ['Color' 'Peter Jackson' 446.0]
 ['Color' 'James Cameron' 315.0]
 ['Color' 'Anthony Russo' 516.0]
 ['Color' 'Peter Berg' 377.0]
 ['Color' 'Colin Trevorrow' 644.0]
 ['Color' 'Sam Mendes' 750.0]
 ['Co

Y vemos que por defecto los datos (independientemente del tipo de dato que esté almacenado en cada celda) son almacenados como un arreglo de NumPy.

Y este arreglo de NumPy tiene precisamente el mismo tamaño del DataFrame:

In [None]:
print(df.shape)
print(datos.shape)

(100, 3)
(100, 3)
