# 5 - Pandas Dataframe - Info, Description, Filtros y Nuevas Columnas


* Los siguientes Notebooks (XX_Pandas_DataFrames_...) tienen como objetivo mostrar las ***operaciones básicas*** (a nivel conceptual) que se hace en lo que se denomina "***Análisis Exploratorio de Datos***" con la libreria Pandas de Python.


* ***Pandas*** nos permite realizar una serie de ***funciones sobre los DataFrames*** para manipular los datos y poder ***obtener información de los datos***. Las operaciones o funciones más importantes serían:

    1. Información de los datos del DataFrame
    2. Descripción de los datos del DataFrame
    3. Filtros
    4. Nuevas Columnas
    5. Agregaciones
    6. Ordenaciones
    7. Joins
    8. Uniones
    9. Pivot Table


* Para más información ver el enlace de la documentación oficial: http://pandas.pydata.org/pandas-docs/stable/


* En este Notebook vamos a ver las 4 primeras funciones y operaciones:

    1. Información de los datos del DataFrame
    2. Descripción de los datos del DataFrame
    3. Filtros
    4. Nuevas Columnas

<hr>


## Funciones para el Análisis Exploratorio de Datos - Parte I


* Veamos a continuación una serie de ejemplos de cada una de estas operaciones y/o funciones, usando los datos del sigueinte fichero:

    - *vehicles.txt*
    
### Importamos la librería de Pandas:


In [1]:
import pandas as pd

### Pasamos los datos de los Ficheros a un DataFrame:


* Fichero ***vehicles.txt***: Es un fichero de texto plano con las siguientes características:
    - Tiene como separador el carácter coma
    - En la primera línea del fichero se encuentra el nombre de las columnas
    - En el resto de columnas se encuentras los datos
    
    
* Este fichero tiene una estructura de CSV.


* En este caso vamos a leerlo con la función '*read_table()*', aunque también se podría hacer con la función '*read_csv()*'

In [2]:
df_vehicles = pd.read_table('./data/ejemplo_EDA/vehicles.txt', 
                            sep=',', 
                            header=0)
df_vehicles

Unnamed: 0,user_id,brand,model,kilometers
0,1,Renault,Clio,10
1,2,Renault,Megane,23000
2,3,Seat,Ibiza,9000
3,2,Seat,Leon,20
4,5,Opel,Corsa,999
5,4,Renault,Clio,34000
6,1,Seat,Ibiza,2000
7,2,Seat,Cordoba,99999
8,3,Renault,Clio,88888


<hr>


## 1. Información de los datos del DataFrame


* Pandas dispone de la función '***info()***' que muestra ***información relativa al DataFrame*** como:
    - Número de filas
    - Número de columnas
    - Tipo de datos de cada una de las columnas
    - Memoria que ocupa
    - etc.
  
  
* A continuación mostramos un ejemplo de la información que muestra sobre el DataFrame de vehiculos:


In [3]:
df_vehicles.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9 entries, 0 to 8
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   user_id     9 non-null      int64 
 1   brand       9 non-null      object
 2   model       9 non-null      object
 3   kilometers  9 non-null      int64 
dtypes: int64(2), object(2)
memory usage: 416.0+ bytes


<hr>


## 2. Descripción de los datos del DataFrame


* Pandas dispone de la función '***describe()***' que muestra una serie de estadísticos (descriptivos) sobre las columnas con valores numéricos:


In [4]:
df_vehicles.describe()

Unnamed: 0,user_id,kilometers
count,9.0,9.0
mean,2.555556,28657.333333
std,1.333333,39180.177166
min,1.0,10.0
25%,2.0,999.0
50%,2.0,9000.0
75%,3.0,34000.0
max,5.0,99999.0


<hr>


## 3. Filtros


* Los filtros nos permiten filtrar o ***mostrar determinadas filas que cumplen una determinada condición***.


### 3.1. Ejemplo de Filtro con una condición


* Por ejemplo podemos seleccionar aquellos coches que son de la Marca (columna brand) Renault de la siguiente manera:


In [5]:
df_vehicles[df_vehicles.brand == "Renault"]

Unnamed: 0,user_id,brand,model,kilometers
0,1,Renault,Clio,10
1,2,Renault,Megane,23000
5,4,Renault,Clio,34000
8,3,Renault,Clio,88888



### 3.2. Ejemplo de Filtro con multiples condiciones


* Podemos poner ***todas las condiciones que queramos*** a la hora de realizar filtros. 


* Ejemplo: filtremos todos los Renault Clio que han realizado mas de 1000 Kms:

In [6]:
df_vehicles[(df_vehicles.brand == "Renault") &
            (df_vehicles.model == "Clio") &
            (df_vehicles.kilometers > 1000)]

Unnamed: 0,user_id,brand,model,kilometers
5,4,Renault,Clio,34000
8,3,Renault,Clio,88888


<hr>


## 4. Nuevas Columnas


* Crear ***nuevas columnas*** (con nuevos datos derivados o inferidos) ***a partir de los datos que hay en otras columnas*** como por ejemplo:

    - ***Operaciones Aritméticas*** sobre una o varias columnas: Suma, Resta, Multiplicación, etc. 
    - Nuevas columnas derivadas a partir de ***sentencias condicionales***


* Para crear nuevas columnas utilizamos la función '***apply()***', pasándole como parámetros una ***función lambda*** (función anónima) donde implementaremos la función a aplicar en cada una de las columnas (o columna) para obtener la nueva columna derivada.


### 4.1. Nueva columna aplicando operaciones aritméticas


* Aunque se puede hacer de varias maneras, la ***estructura para crear una nueva columna*** sería la siguiente.


```python
data_frame['nombre_nueva_columna'] = data_frame.apply(lambda row: row.nombre_columna_origen, axis=1)
# Siendo "nombre_columna_origen" la columna del DataFrame original a la que se le aplica la operación
```


* De esta manera obtenemos una nueva columna llamada '*nombre_nueva_columna*' con un nuevo valor derivado de la columna 'nombre_columna_origen' tras aplicarle la operación aritmética que queramos.


* Veamos un ejemplo en el que vamos a crear una nueva columna llamada '*miles*' en la que a partir de la columna Kilometros vamos a calcular las millas:

In [7]:
df_vehicles['miles'] = df_vehicles.apply(lambda row: row.kilometers * 0.62, axis=1)
df_vehicles

Unnamed: 0,user_id,brand,model,kilometers,miles
0,1,Renault,Clio,10,6.2
1,2,Renault,Megane,23000,14260.0
2,3,Seat,Ibiza,9000,5580.0
3,2,Seat,Leon,20,12.4
4,5,Opel,Corsa,999,619.38
5,4,Renault,Clio,34000,21080.0
6,1,Seat,Ibiza,2000,1240.0
7,2,Seat,Cordoba,99999,61999.38
8,3,Renault,Clio,88888,55110.56


### 4.2. Nueva columna aplicando operaciones condicionales


* Aunque se puede hacer de varias maneras, la ***estructura para crear una nueva columna aplicando operaciones condicionales*** sería la siguiente.


```python
data_frame['nombre_nueva_columna'] = data_frame['nombre_columna_origen'].apply(lambda x: 'a' if x==1 else 'b')
# Siendo "nombre_columna_origen" la columna del DataFrame original a la que se le aplica la operación
```


* Otra manera de hacerlo podría ser:


```python
data_frame['nombre_nueva_columna'] = data_frame.apply(lambda row: 'a' if row.nombre_columna_origen==1 else 'b', axis=1)
```


* De esta manera obtenemos una nueva columna llamada '*nombre_nueva_columna*' con un nuevo valor derivado de la columna '*nombre_columna_origen*' que tendrá valor *'a'* si la columna '*nombre_columna_origen*' tiene valor igual a *'1'*, o valor *'b'* en otro caso.


* Veamos un ejemplo en el que vamos a crear una nueva columna llamada '*country*' en la que a partir de la columna '*brand*' vamos a poner el nombre del pais al que pertenece la marca del coche:
    - Renault: Francia
    - Seat: España
    - Opel: Alemania

In [8]:
df_vehicles['country'] = df_vehicles['brand'].apply(lambda x: 'Francia' if x == 'Renault' 
                                                    else ('España' if x == 'Seat' else 'Alemania'))
df_vehicles

Unnamed: 0,user_id,brand,model,kilometers,miles,country
0,1,Renault,Clio,10,6.2,Francia
1,2,Renault,Megane,23000,14260.0,Francia
2,3,Seat,Ibiza,9000,5580.0,España
3,2,Seat,Leon,20,12.4,España
4,5,Opel,Corsa,999,619.38,Alemania
5,4,Renault,Clio,34000,21080.0,Francia
6,1,Seat,Ibiza,2000,1240.0,España
7,2,Seat,Cordoba,99999,61999.38,España
8,3,Renault,Clio,88888,55110.56,Francia


* Veamos a continuación otro ejemplo en el que creamos una nueva columna viendo el contenido de más de una columna.


* Para ello vamos a crearnos una nueva columna llamada *'gama'* que tendrá los valores de:
    - ***mid***: Si la marca en Renault y el modelo Megane 
    - ***low***: Si la marca en Renault y el modelo Clio
    - ***Unknown***: En caso contrario

In [9]:
df_vehicles['gama'] = df_vehicles.apply(lambda row: 'mid' if row.brand == 'Renault' and row.model == 'Megane' 
                                        else ('low' if row.brand == 'Renault' and row.model == 'Clio' 
                                              else 'Unknown') 
                                        , axis=1)
df_vehicles

Unnamed: 0,user_id,brand,model,kilometers,miles,country,gama
0,1,Renault,Clio,10,6.2,Francia,low
1,2,Renault,Megane,23000,14260.0,Francia,mid
2,3,Seat,Ibiza,9000,5580.0,España,Unknown
3,2,Seat,Leon,20,12.4,España,Unknown
4,5,Opel,Corsa,999,619.38,Alemania,Unknown
5,4,Renault,Clio,34000,21080.0,Francia,low
6,1,Seat,Ibiza,2000,1240.0,España,Unknown
7,2,Seat,Cordoba,99999,61999.38,España,Unknown
8,3,Renault,Clio,88888,55110.56,Francia,low


<hr>

*Este Notebook ha sido desarrollado por **Ricardo Moya García** y registrado en Safe Creative como ***Atribución-NoComercial-CompartirIgual***.*

<img src="./imgs/CC_BY-NC-SA.png" alt="CC BY-NC">