# **INTRO PANDAS**

Pandas es una librería de Python muy útil para el análisis de datos.

Sus principales estructuras son las series y los dataframes.

Las series son estructuras de datos similares a un array y permiten cualquier tipo de dato como elemento de la serie.

Los dataframes son estructuras de datos similares a una tabla, están organizadas en filas y columnas.


# **Importar librerías**

El primer paso será importar la librería de Pandas y crear una variable de la misma. Lo mas habitual es importar también  la librería de Numpy

In [0]:
import numpy as np
import pandas as pd

# **Series de Pandas**

Para crear una serie de utiliza el método *Series()* de Pandas y se pasa como parámetro la lista de los elementos de la serie.
Posteriormente escribimos la variable para visualizar su contenido.

In [76]:
serie = pd.Series([1, 6, 7, 9, 10, np.nan])
serie

0     1.0
1     6.0
2     7.0
3     9.0
4    10.0
5     NaN
dtype: float64

Para acceder a un elemento de la serie utilizamos su índice. Por ejemplo para modificar el valor de un elemento.

In [77]:
serie[0] = 11
serie[5] = 5
serie

0    11.0
1     6.0
2     7.0
3     9.0
4    10.0
5     5.0
dtype: float64

# **Dataframes de Pandas**

Para crear un dataframe se utiliza el método DataFrame() y se pueden definir los nombres de las columnas y los valores como parámetro del método. Posteriormente escribimos la variable para visualizar su contenido.

In [78]:
dataframe1 = pd.DataFrame({'Id': [ 1, 2, 3, 4],
   ...:                    'Nombre': [ 'Antonio', 'José', 'Manuel', 'Ana'],
   ...:                    'Fecha': pd.Timestamp('20130102'),
   ...:                    'Calificacion': pd.Categorical(["Apto", "No Apto", "Apto", "No Apto"])})
dataframe1

Unnamed: 0,Id,Nombre,Fecha,Calificacion
0,1,Antonio,2013-01-02,Apto
1,2,José,2013-01-02,No Apto
2,3,Manuel,2013-01-02,Apto
3,4,Ana,2013-01-02,No Apto


Otra forma habitual de crear un dataframe es leyendo un fichero csv y almacenar la información en una variable de Pandas. Posteriormente escribimos la variable para visualizar su contenido.

In [106]:
dataframe = pd.read_csv("dataset.csv")
dataframe

Unnamed: 0,Id,Nombre,Apellido,FechaN,Ciudad,Pais,Puntos
0,1,Juan,Lopez,1985-02-02,Madrid,España,10
1,2,Luis,Garcia,1987-07-08,Barcelona,España,9
2,3,Javier,Fernamdez,1992-02-22,Paris,Francia,7
3,4,Francisco,Hernandez,1998-12-19,Paris,Francia,7
4,5,Carlos,Sanchez,1991-09-08,Londres,Inglaterra,6
5,6,Miguel,Lopez,1986-03-23,Madrid,España,5
6,7,Sergio,Garcia,1985-09-09,Madrid,España,5
7,8,David,Alonso,1983-07-21,Munich,Alemania,5
8,9,Eduardo,Perez,1977-01-06,Valencia,España,3
9,10,Daniel,Rodriguez,1977-02-23,Liverpool,Inglaterra,2


### **Exploración básica del dataframe**

Una vez tenemos la información del fichero .csv en un dataframe de Pandas podemos aplicar algunas funciones de utilidad.

El atributo **.shape** muestra el número de filas y columnas del dataframe.

In [107]:
dataframe.shape

(10, 7)

El método **describe()** muestra una serie de estadísticas muy útiles del dataframe como el número total de valores por columna, valores mínimo y máximo, la media, desviación típica, etc.

In [108]:
dataframe.describe()

Unnamed: 0,Id,Puntos
count,10.0,10.0
mean,5.5,5.9
std,3.02765,2.469818
min,1.0,2.0
25%,3.25,5.0
50%,5.5,5.5
75%,7.75,7.0
max,10.0,10.0


El atributo **.dtypes** muestra el tipo de dato de cada campo del dataframe.

In [81]:
dataframe.dtypes

Id           int64
Nombre      object
Apellido    object
FechaN      object
Ciudad      object
Puntos       int64
dtype: object

El método **value_counts()** aplicado a un campo del dataframe permite agrupar todos los valores de un campo y contabilizar el número de veces que aparece en el dataframe.

In [109]:
dataframe['Ciudad'].value_counts()

Madrid       3
Paris        2
Munich       1
Barcelona    1
Londres      1
Valencia     1
Liverpool    1
Name: Ciudad, dtype: int64

### **Selección de datos**

Con los métodos **head()** y **tail()** se muestran los primeros y los últimos registros del dataframe respectivamente. El número de elementos a mostrar se especifica en el parámetro del método. Estos métodos pueden ser útiles cuando tenemos dataframes con muchos registros.

In [110]:
# Selecciona los primeros 3 registros del dataframe
dataframe.head(3)


Unnamed: 0,Id,Nombre,Apellido,FechaN,Ciudad,Pais,Puntos
0,1,Juan,Lopez,1985-02-02,Madrid,España,10
1,2,Luis,Garcia,1987-07-08,Barcelona,España,9
2,3,Javier,Fernamdez,1992-02-22,Paris,Francia,7


In [111]:
# Selecciona los últimos 4 registros del dataframe
dataframe.tail(4)

Unnamed: 0,Id,Nombre,Apellido,FechaN,Ciudad,Pais,Puntos
6,7,Sergio,Garcia,1985-09-09,Madrid,España,5
7,8,David,Alonso,1983-07-21,Munich,Alemania,5
8,9,Eduardo,Perez,1977-01-06,Valencia,España,3
9,10,Daniel,Rodriguez,1977-02-23,Liverpool,Inglaterra,2


Con la funcion **loc[]** se pueden mostrar el rango de registros que se indican en el primer parámetro y las columnas que se quieren mostrar especificando su nombre.

In [112]:
# Selecciona los registros con índice del rango 2-5 (de forma inclusiva), mostrando las columnas 'Id' y 'Nombre'
dataframe.loc[2:5 , ["Id", "Nombre"]]

Unnamed: 0,Id,Nombre
2,3,Javier
3,4,Francisco
4,5,Carlos
5,6,Miguel


Con la función **iloc[]** se puede realizar la misma operativa que con loc, pero teniendo en cuenta que se especifican rangos en las columnas a seleccionar en laugar del nombre de la columna. Con iloc los máximos de los rangos son exclusivos, es decir esa posición no va a ser mostrada.

In [113]:
# Selecciona los registros con índice del rango 2-6 (máximo exclusivo), mostrando las columnas con índice del rango 0-2 (máximo exclusivo)
dataframe.iloc[2:6, 0:2]

Unnamed: 0,Id,Nombre
2,3,Javier
3,4,Francisco
4,5,Carlos
5,6,Miguel


Para seleccionar columnas completas de un dataframe podemos utilizar la notación con corchetes y el nombre del campo o de los campos

In [114]:
# Selecciona la columna apellido del dataframe
dataframe['Apellido']

0        Lopez
1       Garcia
2    Fernamdez
3    Hernandez
4      Sanchez
5        Lopez
6       Garcia
7       Alonso
8        Perez
9    Rodriguez
Name: Apellido, dtype: object

In [115]:
# Selecciona las columnas nombre y apellido del dataframe
dataframe[['Nombre','Apellido']]

Unnamed: 0,Nombre,Apellido
0,Juan,Lopez
1,Luis,Garcia
2,Javier,Fernamdez
3,Francisco,Hernandez
4,Carlos,Sanchez
5,Miguel,Lopez
6,Sergio,Garcia
7,David,Alonso
8,Eduardo,Perez
9,Daniel,Rodriguez


Para seleccionar un campo completo también se puede utilizar la notación punto seguido del nombre del campo.

In [116]:
# Selecciona la columna apellido del dataframe
dataframe.Apellido

0        Lopez
1       Garcia
2    Fernamdez
3    Hernandez
4      Sanchez
5        Lopez
6       Garcia
7       Alonso
8        Perez
9    Rodriguez
Name: Apellido, dtype: object

### **Selección de datos por condiciones booleanas**

En el apartado anterior hemos visto como realizar selecciones de registros completos por un rango o selecciones de registros filtrando campos también por un rango. De modo que los registros seleccionados eran todos secuenciales.
En este apartado, vamos a realizar la selección de registros por condicion booleana.

**Seleccionar por una condición**

In [117]:
# Selecciona todos los registros en los que la ciudad es Madrid
dataframe[dataframe['Ciudad'] == 'Madrid']

Unnamed: 0,Id,Nombre,Apellido,FechaN,Ciudad,Pais,Puntos
0,1,Juan,Lopez,1985-02-02,Madrid,España,10
5,6,Miguel,Lopez,1986-03-23,Madrid,España,5
6,7,Sergio,Garcia,1985-09-09,Madrid,España,5


**Seleccionar por varias condiciones**

In [118]:
# Selecciona todos los registros en los que la ciudad es Madrid o Barcelona
dataframe[(dataframe['Ciudad'] == 'Madrid') | (dataframe['Ciudad'] == 'Barcelona')]

Unnamed: 0,Id,Nombre,Apellido,FechaN,Ciudad,Pais,Puntos
0,1,Juan,Lopez,1985-02-02,Madrid,España,10
1,2,Luis,Garcia,1987-07-08,Barcelona,España,9
5,6,Miguel,Lopez,1986-03-23,Madrid,España,5
6,7,Sergio,Garcia,1985-09-09,Madrid,España,5


In [119]:
# Selecciona todos los registros en los que la ciudad es Madrid y en los que el número de puntos es mayor que 5
dataframe[(dataframe['Ciudad'] == 'Madrid') & (dataframe['Puntos'] > 5) ]

Unnamed: 0,Id,Nombre,Apellido,FechaN,Ciudad,Pais,Puntos
0,1,Juan,Lopez,1985-02-02,Madrid,España,10


### **Ordenar el dataframe**

Para ordenar un dataframe por campos utilizamos el método ***sort_values()***, en el parámetro ***by*** indicamos la columna o las columnas por las que se va a ordenar la tabla y en el parámetro ***ascending*** se indica si el criterio de ordenación es ascendente o no.

In [120]:
# Ordena el dataframe por apellido de forma ascendente
dataframe.sort_values(by='Apellido', ascending=True)

Unnamed: 0,Id,Nombre,Apellido,FechaN,Ciudad,Pais,Puntos
7,8,David,Alonso,1983-07-21,Munich,Alemania,5
2,3,Javier,Fernamdez,1992-02-22,Paris,Francia,7
1,2,Luis,Garcia,1987-07-08,Barcelona,España,9
6,7,Sergio,Garcia,1985-09-09,Madrid,España,5
3,4,Francisco,Hernandez,1998-12-19,Paris,Francia,7
0,1,Juan,Lopez,1985-02-02,Madrid,España,10
5,6,Miguel,Lopez,1986-03-23,Madrid,España,5
8,9,Eduardo,Perez,1977-01-06,Valencia,España,3
9,10,Daniel,Rodriguez,1977-02-23,Liverpool,Inglaterra,2
4,5,Carlos,Sanchez,1991-09-08,Londres,Inglaterra,6


In [121]:
# Ordena el dataframe primero por apellido de forma ascendente y segundo por puntos de forma descendente
dataframe.sort_values(by=['Apellido', 'Puntos'], ascending=[True, False])

Unnamed: 0,Id,Nombre,Apellido,FechaN,Ciudad,Pais,Puntos
7,8,David,Alonso,1983-07-21,Munich,Alemania,5
2,3,Javier,Fernamdez,1992-02-22,Paris,Francia,7
1,2,Luis,Garcia,1987-07-08,Barcelona,España,9
6,7,Sergio,Garcia,1985-09-09,Madrid,España,5
3,4,Francisco,Hernandez,1998-12-19,Paris,Francia,7
0,1,Juan,Lopez,1985-02-02,Madrid,España,10
5,6,Miguel,Lopez,1986-03-23,Madrid,España,5
8,9,Eduardo,Perez,1977-01-06,Valencia,España,3
9,10,Daniel,Rodriguez,1977-02-23,Liverpool,Inglaterra,2
4,5,Carlos,Sanchez,1991-09-08,Londres,Inglaterra,6


### **Agrupación de datos del dataframe**

Partiendo de nuestro dataframe, con el método ***groupby()*** podemos agrupar en los valores de una columna determinada información de otra columna, habitualmente se utilizan sumas, máximos, mínimos, medias.

In [122]:
# Agrupa por ciudad de la suma total de puntos en el dataframe asociados esa ciudad
dataframe.groupby(['Ciudad'])['Puntos'].sum().reset_index()

Unnamed: 0,Ciudad,Puntos
0,Barcelona,9
1,Liverpool,2
2,Londres,6
3,Madrid,20
4,Munich,5
5,Paris,14
6,Valencia,3
