# 4 - Pandas Dataframe, Atributos y Métodos útiles


* En este notebook vamos a ver algunos de los ***métodos y atributos más importantes de los DataFrames*** para poder:

    - ***Obtener Información del DataFrame***
    - ***Restructurar los datos del DataFrame***
    - ***Limpiar los datos de DataFrame***
    

* Estos métodos y atributos los podemos clasificar en los siguientes grupos:


* ***Nota: Para ver un ejemplo de cada método o función, pulsar en la celda del nombre de las tablas***


<hr>


## 1. Atributos y métodos importantes en DataFrames


* A continuación se muestran algunos atributos y métodos útiles para obtener información del DataFrame:


|Nombre Función/Atributo|Funcionalidad|
|---|---|
|[df.index](#M1_1)|Devuelve el rango de valores de los índices del DataFrame|
|[df.columns](#M1_2)|Devuelve el nombre de las columnas del DataFrame|
|[df.values](#M1_3)|Devuelve un numpy array con los valores del DataFrame|
|[df.shape](#M1_4)|Devuelve una tupla con las dimensiones del DataFrame (Nº Filas, Nº Columnas)|
|[len(df)](#M1_5)|Devuelve el número de filas que tiene el DataFrame|
|[df.types](#M1_6)|Devuelve el tipo de dato de cada una de las columnas|
|[df.head(n)](#M1_7)|Devuelve un DataFrame con los 'n' primeros elementos|
|[df.tail(n)](#M1_8)|Devuelve un DataFrame con los 'n' últimos elementos|
|[df.sample(n)](#M1_9)|Devuelve un DataFrame con 'n' filas seleccionadas al azar|
|[df['nombre_columna'].unique()](#M1_10)|Devuelve los valores únicos de la columna del DataFrame|



## 2. Manipulación de columnas en DataFrames


* Para borrar y cambiar el nombre a las columnas tenemos las dos siguientes funciones:


|Nombre Función|Funcionalidad|
|---|---|
|[df.rename(columns={old_name: new_name})](#M2_1)|Cambia el nombre de las columnas, indicando en un diccionario el nombre antiguo como clave y el nombre nuevo de la columna como valor|
|[df.drop(columns=['col_1', ..., 'col_n'])](#M2_2)|Elimina las columnas que se pasan como parámetro en una lista|




## 3. Manipulación de índices en DataFrames


* Para manipular los índices de los DataFrames tenemos los siguientes métodos:


|Nombre Función|Funcionalidad|
|---|---|
|[df.reindex(new_index)](#M3_1)|Reasigna los indices que se pasan en una lista como parámetro|
|[df.drop(index)](#M3_2)|Elimina las filas con los indices que se pasan en una lista como parámetro|
|[df.rename(index={old_index: new_index})](#M3_3)|Reasigna los índices del DataFrame indicando en un diccionario que se le pasa como parámetros el indice a sustituir y el valor del nuevo indice|
|[df.sort_index(ascending=True/False)](#M3_4)|Ordena los índices del DataFrame de manera ascendente o descendente|
|[df.reset_index()](#M3_5)|Reasigna de nuevo los índices al DataFrame|


## 4. Manipulación de Datos en DataFrames


* Para ordenar los DataFrames tenemos el siguiente método:

|Nombre Función|Funcionalidad|
|---|---|
|[df.sort_values(col_name, ascending=True/False)](#M4_1)|Ordena de manera ascendente o descendente los valores de la columna indicada|


## 5. Tratamiento de datos duplicados y nulos


* Para tratar datos duplicados y nulos en los DataFrames tenemos los siguientes métodos:


|Nombre Función|Funcionalidad|
|---|---|
|[df.duplicated()](#M5_1)|Devuelve un valor Booleano indicando aquellas columnas cuyo contenido esta o no repetido|
|[df.index.duplicated()](#M5_2)|Devuelve un valor Booleano indicando aquellas columnas con índices repetidos|
|[df.drop_duplicates(keep='first'/'last')](#M5_3)|Elimina las columnas del DataFrame que estén duplicadas excepto la primera o la última, indicando esto con el parámetro 'keep'|
|[df.dropna()](#M5_4)|Elimina del DataFrame todas aquellas columnas que tengan valores nulos|
|[df.fillna(df.xxx())](#M5_5)|Sustituye para las columnas de tipo numérico todos aquellos valores nulos por otro valor relativo a la columnas como puede ser su media, mediana, moda, etc, indicando esa función como parámetro|
|[df.replace('a', 'b')](#M5_6)|Sustituye en el DataFrame todas aquellas ocurrencias 'a' por otro valor 'b'|




## 6. Obtención de información numérica


* Para obtener información numérica de las columnas con valores numéricos, tenemos los siguientes métodos:

|Nombre Función|Funcionalidad|
|---|---|
|[df.sum()](#M6_1)|Devuelve la suma de cada una de las columnas de tipo numérico|
|[df.cumsum()](#M6_2)|Devuelve la suma acumulada|
|[df.min()](#M6_3)|Devuelve el valor mínimo de cada una de las columnas de tipo numérico|
|[df.max()](#M6_4)|Devuelve el valor máximo de cada una de las columnas de tipo numérico|
|[df.mean()](#M6_5)|Devuelve la media de cada una de las columnas de tipo numérico|
|[df.median()](#M6_6)|Devuelve la mediana de cada una de las columnas de tipo numérico|



<hr>


* Para ver ejemplos de cada uno de estos métodos y atributos, vamos a utilizar el siguiente DataFrame que entre otras cosas contiene filas repetidas, valores nulos y todo lo necesario para ver ejemplos de los atributos y métodos mencionados:


In [1]:
import pandas as pd
df = pd.read_csv('./data/ejemplo_EDA/ejemplo_limpieza_estructuracion.txt', header=0)
df

Unnamed: 0,user_id,brand,model,kilometers
0,1,Renault,Clio,10.0
1,1,Renault,Clio,10.0
2,1,Renault,Clio,10.0
3,2,Renault,Megane,23000.0
4,3,Seat,Ibiza,9000.0
5,2,Seat,Leon,20.0
6,5,Opel,Corsa,999.0
7,5,,,
8,4,Renault,Clio,34000.0
9,6,Renault,Megane,


<hr>


## 1. Atributos y métodos importantes en DataFrames


### <a name="M1_1">df.index</a>


* Devuelve el rango de valores de los índices del DataFrame

In [2]:
df.index

RangeIndex(start=0, stop=11, step=1)

* Podemos pasarlo a una lista con los valores de los índices del DataFrame

In [3]:
list(df.index)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

<hr>


### <a name="M1_2">df.columns</a>


* Devuelve el nombre de las columnas del DataFrame

In [4]:
df.columns

Index(['user_id', 'brand', 'model', 'kilometers'], dtype='object')

* Para un mejor tratamiento, podemos pasar los nombres de las columnas a una lista

In [5]:
list(df.columns)

['user_id', 'brand', 'model', 'kilometers']

<hr>


### <a name="M1_3">df.values</a>


* Devuelve un numpy array con los valores del DataFrame

In [6]:
df.values

array([[1, 'Renault', 'Clio', 10.0],
       [1, 'Renault', 'Clio', 10.0],
       [1, 'Renault', 'Clio', 10.0],
       [2, 'Renault', 'Megane', 23000.0],
       [3, 'Seat', 'Ibiza', 9000.0],
       [2, 'Seat', 'Leon', 20.0],
       [5, 'Opel', 'Corsa', 999.0],
       [5, nan, nan, nan],
       [4, 'Renault', 'Clio', 34000.0],
       [6, 'Renault', 'Megane', nan],
       [2, 'Seat', nan, 99999.0]], dtype=object)

<hr>


### <a name="M1_4">df.shape</a>


* Devuelve una tupla con las dimensiones del DataFrame (Nº Filas, Nº Columnas)

In [7]:
df.shape

(11, 4)

<hr>


### <a name="M1_5">len(df)</a>


* Devuelve el número de filas que tiene el DataFrame

In [8]:
len(df)

11

<hr>


### <a name="M1_6">df.types</a>


* Devuelve el tipo de dato de cada una de las columnas

In [9]:
df.dtypes

user_id         int64
brand          object
model          object
kilometers    float64
dtype: object

<hr>


### <a name="M1_7">df.head(n)</a>


* Devuelve un DataFrame con los 'n' primeros elementos


* Si no indicamos el númbero de filas a mostrar, mostrará 5 por defecto.

In [10]:
df.head(3)

Unnamed: 0,user_id,brand,model,kilometers
0,1,Renault,Clio,10.0
1,1,Renault,Clio,10.0
2,1,Renault,Clio,10.0


<hr>


### <a name="M1_8">df.tail(n)</a>


* Devuelve un DataFrame con los 'n' últimos elementos


* Si no indicamos el númbero de filas a mostrar, mostrará 5 por defecto.

In [11]:
df.tail(3)

Unnamed: 0,user_id,brand,model,kilometers
8,4,Renault,Clio,34000.0
9,6,Renault,Megane,
10,2,Seat,,99999.0


<hr>


### <a name="M1_9">df.sample(n)</a>


* Devuelve un DataFrame con 'n' filas seleccionadas al azar


* Si no indicamos el númbero de filas a mostrar, mostrará 5 por defecto.

In [12]:
df.sample(3)

Unnamed: 0,user_id,brand,model,kilometers
1,1,Renault,Clio,10.0
0,1,Renault,Clio,10.0
10,2,Seat,,99999.0


<hr>


### <a name="M1_10">df['nombre_columna'].unique()</a>

* Devuelve los valores únicos en un numpy array de la columna del DataFrame que le indicamos

In [13]:
df['brand'].unique()

array(['Renault', 'Seat', 'Opel', nan], dtype=object)

<hr>


## 2. Manipulación de columnas en DataFrames


### <a name="M2_1">df.rename(columns={old_name: new_name})</a>


* Cambia el nombre de las columnas, indicando en un diccionario el nombre antiguo como clave y el nombre nuevo de la columna como valor

In [14]:
df.rename(columns={'brand': 'marca', 'model': 'modelo'})

Unnamed: 0,user_id,marca,modelo,kilometers
0,1,Renault,Clio,10.0
1,1,Renault,Clio,10.0
2,1,Renault,Clio,10.0
3,2,Renault,Megane,23000.0
4,3,Seat,Ibiza,9000.0
5,2,Seat,Leon,20.0
6,5,Opel,Corsa,999.0
7,5,,,
8,4,Renault,Clio,34000.0
9,6,Renault,Megane,


<hr>


### <a name="M2_2"> df.drop(columns=['col_1', ..., 'col_n'])</a>


* Elimina las columnas que se pasan como parámetro en una lista|

In [15]:
df.drop(columns=['user_id', 'kilometers'])

Unnamed: 0,brand,model
0,Renault,Clio
1,Renault,Clio
2,Renault,Clio
3,Renault,Megane
4,Seat,Ibiza
5,Seat,Leon
6,Opel,Corsa
7,,
8,Renault,Clio
9,Renault,Megane


<hr>


## 3. Manipulación de índices en DataFrames


### <a name="M3_1">df.reindex(new_index)</a>


* Reasigna los indices que se pasan en una lista como parámetro.

In [16]:
df.reindex([0, 2, 4, 6, 8, 10, 1, 3, 5, 7, 9])

Unnamed: 0,user_id,brand,model,kilometers
0,1,Renault,Clio,10.0
2,1,Renault,Clio,10.0
4,3,Seat,Ibiza,9000.0
6,5,Opel,Corsa,999.0
8,4,Renault,Clio,34000.0
10,2,Seat,,99999.0
1,1,Renault,Clio,10.0
3,2,Renault,Megane,23000.0
5,2,Seat,Leon,20.0
7,5,,,


<hr>


### <a name="M3_2">df.drop(index)</a>


* Elimina las filas con los indices que se pasan en una lista como parámetro.

In [17]:
df.drop([0, 2, 4, 6, 8, 10])

Unnamed: 0,user_id,brand,model,kilometers
1,1,Renault,Clio,10.0
3,2,Renault,Megane,23000.0
5,2,Seat,Leon,20.0
7,5,,,
9,6,Renault,Megane,


<hr>


### <a name="M3_3">df.rename(df.rename(index={old_index: new_index})</a>


* Reasigna los índices del DataFrame indicando en un diccionario que se le pasa como parámetros el indice a sustituir y el valor del nuevo indice.

In [18]:
df.rename(index={0: 100, 1: 101, 2: 102, 3: 103, 4: 104})

Unnamed: 0,user_id,brand,model,kilometers
100,1,Renault,Clio,10.0
101,1,Renault,Clio,10.0
102,1,Renault,Clio,10.0
103,2,Renault,Megane,23000.0
104,3,Seat,Ibiza,9000.0
5,2,Seat,Leon,20.0
6,5,Opel,Corsa,999.0
7,5,,,
8,4,Renault,Clio,34000.0
9,6,Renault,Megane,


<hr>


### <a name="M3_4">df.sort_index()</a>


* Ordena los índices del DataFrame de manera ascendente o descendente.

In [19]:
df.sort_index(ascending=False)

Unnamed: 0,user_id,brand,model,kilometers
10,2,Seat,,99999.0
9,6,Renault,Megane,
8,4,Renault,Clio,34000.0
7,5,,,
6,5,Opel,Corsa,999.0
5,2,Seat,Leon,20.0
4,3,Seat,Ibiza,9000.0
3,2,Renault,Megane,23000.0
2,1,Renault,Clio,10.0
1,1,Renault,Clio,10.0


<hr>


### <a name="M3_5">df.reset_index()</a>


* Reasigna de nuevo los índices al DataFrame.

In [20]:
df.reset_index()

Unnamed: 0,index,user_id,brand,model,kilometers
0,0,1,Renault,Clio,10.0
1,1,1,Renault,Clio,10.0
2,2,1,Renault,Clio,10.0
3,3,2,Renault,Megane,23000.0
4,4,3,Seat,Ibiza,9000.0
5,5,2,Seat,Leon,20.0
6,6,5,Opel,Corsa,999.0
7,7,5,,,
8,8,4,Renault,Clio,34000.0
9,9,6,Renault,Megane,


<hr>


## 4. Manipulación de Datos en DataFrames



### <a name="M4_1">df.sort_values(col_name, ascending=True/False)</a>


* Ordena de manera ascendente o descendente los valores de la columna indicada.

In [21]:
df.sort_values(['brand'], ascending=True)

Unnamed: 0,user_id,brand,model,kilometers
6,5,Opel,Corsa,999.0
0,1,Renault,Clio,10.0
1,1,Renault,Clio,10.0
2,1,Renault,Clio,10.0
3,2,Renault,Megane,23000.0
8,4,Renault,Clio,34000.0
9,6,Renault,Megane,
4,3,Seat,Ibiza,9000.0
5,2,Seat,Leon,20.0
10,2,Seat,,99999.0


* También podemos ordenar los DataFrames por 2 o más columnas, indicando en una lista las columnas a ordenar por precedencia y luego indicando por cada una de las columnas si lo queremos en orden ascendente o descendente.

In [22]:
df.sort_values(['brand', 'kilometers'], ascending=[False, True])

Unnamed: 0,user_id,brand,model,kilometers
5,2,Seat,Leon,20.0
4,3,Seat,Ibiza,9000.0
10,2,Seat,,99999.0
0,1,Renault,Clio,10.0
1,1,Renault,Clio,10.0
2,1,Renault,Clio,10.0
3,2,Renault,Megane,23000.0
8,4,Renault,Clio,34000.0
9,6,Renault,Megane,
6,5,Opel,Corsa,999.0


<hr>


## 5. Tratamiento de datos duplicados y nulos


### <a name="M5_1">df.duplicated()</a>


* Devuelve un valor Booleano indicando aquellas columnas cuyo contenido esta o no repetido.

In [23]:
df.duplicated()

0     False
1      True
2      True
3     False
4     False
5     False
6     False
7     False
8     False
9     False
10    False
dtype: bool

<hr>


### <a name="M5_2">df.index.duplicated()</a>


* Devuelve un valor Booleano indicando aquellas columnas con índices repetidos.

In [24]:
df.index.duplicated()

array([False, False, False, False, False, False, False, False, False,
       False, False])

<hr>


### <a name="M5_3">df.drop_duplicates(keep='first'/'last')</a>


* Elimina las columnas del DataFrame que estén duplicadas excepto la primera o la última, indicando esto con el parámetro 'keep'.

In [25]:
df.drop_duplicates(keep='first')

Unnamed: 0,user_id,brand,model,kilometers
0,1,Renault,Clio,10.0
3,2,Renault,Megane,23000.0
4,3,Seat,Ibiza,9000.0
5,2,Seat,Leon,20.0
6,5,Opel,Corsa,999.0
7,5,,,
8,4,Renault,Clio,34000.0
9,6,Renault,Megane,
10,2,Seat,,99999.0


<hr>


### <a name="M5_4">df.dropna()</a>


* Elimina del DataFrame todas aquellas columnas que tengan valores nulos.

In [26]:
df.dropna()

Unnamed: 0,user_id,brand,model,kilometers
0,1,Renault,Clio,10.0
1,1,Renault,Clio,10.0
2,1,Renault,Clio,10.0
3,2,Renault,Megane,23000.0
4,3,Seat,Ibiza,9000.0
5,2,Seat,Leon,20.0
6,5,Opel,Corsa,999.0
8,4,Renault,Clio,34000.0


<hr>


### <a name="M5_5">df.fillna(df.xxx())</a>


* Sustituye para las columnas de tipo numérico todos aquellos valores nulos por otro valor relativo a la columnas ### como puede ser su media, mediana, moda, etc, indicando esa función como parámetro.

In [27]:
df.fillna(df.mean())

Unnamed: 0,user_id,brand,model,kilometers
0,1,Renault,Clio,10.0
1,1,Renault,Clio,10.0
2,1,Renault,Clio,10.0
3,2,Renault,Megane,23000.0
4,3,Seat,Ibiza,9000.0
5,2,Seat,Leon,20.0
6,5,Opel,Corsa,999.0
7,5,,,18560.888889
8,4,Renault,Clio,34000.0
9,6,Renault,Megane,18560.888889


<hr>


### <a name="M5_6">df.replace('a', 'b')</a>


* Sustituye en el DataFrame todas aquellas ocurrencias 'a' por otro valor 'b'.

In [28]:
df.replace('Renault', 'Apple')

Unnamed: 0,user_id,brand,model,kilometers
0,1,Apple,Clio,10.0
1,1,Apple,Clio,10.0
2,1,Apple,Clio,10.0
3,2,Apple,Megane,23000.0
4,3,Seat,Ibiza,9000.0
5,2,Seat,Leon,20.0
6,5,Opel,Corsa,999.0
7,5,,,
8,4,Apple,Clio,34000.0
9,6,Apple,Megane,


<hr>


## 6. Obtención de información numérica


### <a name="M6_1">df.sum()</a>


* Devuelve la suma de cada una de las columnas de tipo numérico.

In [29]:
df.sum()

user_id           32.0
kilometers    167048.0
dtype: float64

<hr>


### <a name="M6_2">df.cumsum()</a>


* Devuelve la suma acumulada.

In [30]:
df['kilometers'].cumsum()

0         10.0
1         20.0
2         30.0
3      23030.0
4      32030.0
5      32050.0
6      33049.0
7          NaN
8      67049.0
9          NaN
10    167048.0
Name: kilometers, dtype: float64

<hr>


### <a name="M6_3">df.min()</a>


* Devuelve el valor mínimo de cada una de las columnas de tipo numérico.

In [31]:
df.min()

user_id        1.0
kilometers    10.0
dtype: float64

<hr>


### <a name="M6_4">df.max()</a>


* Devuelve el valor máximo de cada una de las columnas de tipo numérico.

In [32]:
df.max()

user_id           6.0
kilometers    99999.0
dtype: float64

<hr>


### <a name="M6_5">df.mean()</a>


* Devuelve la media de cada una de las columnas de tipo numérico.

In [33]:
df.mean()

user_id           2.909091
kilometers    18560.888889
dtype: float64

<hr>


### <a name="M6_6">df.median()</a>


* Devuelve la mediana de cada una de las columnas de tipo numérico.

In [34]:
df.median()

user_id         2.0
kilometers    999.0
dtype: float64

<hr>

*Este Notebook ha sido desarrollado por **Ricardo Moya García** y registrado en Safe Creative como ***Atribución-NoComercial-CompartirIgual***.*

<img src="./imgs/CC_BY-NC-SA.png" alt="CC BY-NC">