# 1. ¿Qué es Pandas?

Pandas es una librería del lenguaje de programación Python que sirve para la manipulación y el análisis de datos. El nombre proviene de "panel data".

Pandas tiene numerosas funcionalidades que la hacen una de las mejores opciones para trabajar con datos, entre otras:

* Métodos integrados para la manipulación rápida de datos.
* Gestión de datos incompletos
* Segmentación
* Inserción y eliminación de columnas
* Mezcla y unión de datos
* Series temporales

La web del proyecto donde podremos encontrar la documentación es https://pandas.pydata.org/

In [1]:
# Para importar pandas en un proyecto

import pandas as pd

In [2]:
# Para importar numpy en un proyecto

import numpy as np

# 2. Tipos de datos en Pandas

Existen dos tipos de datos dentro de pandas, las series y los dataframes.

## [Series](https://pandas.pydata.org/docs/reference/api/pandas.Series.html)

Una serie en Pandas es un array unidimensional. Contiene cualquier tipo de dato soportado en Python y utiliza etiquetas para localizar cada valor de datos para su recuperación. Estas etiquetas forman el índice, y pueden ser incluir cadenas o números enteros. Una Serie es la principal estructura de datos en el framework de pandas para almacenar datos unidimensionales.

In [3]:
# Para crear una serie usamos
pd.Series

# Crear serie desde un diccionario
mi_diccionario = {"Madrid" : 100, "Huelva": 20, "Sevilla": 50, "Barcelona": 80, "Bilbao": 44}
s_ciudades = pd.Series(data=mi_diccionario)
s_ciudades

Madrid       100
Huelva        20
Sevilla       50
Barcelona     80
Bilbao        44
dtype: int64

In [4]:
# Crear serie desde listas
mi_lista = [100, 20, 50, 80, 44]
s_ciudades = pd.Series(data=mi_lista)
s_ciudades

0    100
1     20
2     50
3     80
4     44
dtype: int64

In [5]:
s_ciudades.index = ["Madrid", "Huelva", "Sevilla", "Barcelona", "Bilbao"]
s_ciudades

Madrid       100
Huelva        20
Sevilla       50
Barcelona     80
Bilbao        44
dtype: int64

### Atributos de la serie

In [6]:
# Tipo de dato
s_ciudades.dtype

dtype('int64')

In [7]:
# Tamaño
s_ciudades.size

5

In [8]:
# Índices
s_ciudades.index

Index(['Madrid', 'Huelva', 'Sevilla', 'Barcelona', 'Bilbao'], dtype='object')

### Acceso a los datos de la serie

In [9]:
# Por número entero
s_ciudades[0]

100

In [10]:
# Varios valores por número entero
s_ciudades[1:4]

Huelva       20
Sevilla      50
Barcelona    80
dtype: int64

In [11]:
# Por valor del índice
s_ciudades["Huelva"]

20

In [12]:
# Varios valores por valor del índice
s_ciudades[["Huelva", "Madrid"]]

Huelva     20
Madrid    100
dtype: int64

### Estadísticos descriptivos de una serie

In [13]:
# Número de elementos que no son NaN
s_ciudades.count()

5

In [14]:
# Suma de los datos (datos numéricos) o concatenación (cadenas)
s_ciudades.sum()

294

In [15]:
# Suma acumulativa (sólo datos numéricos)
s_ciudades.cumsum()

Madrid       100
Huelva       120
Sevilla      170
Barcelona    250
Bilbao       294
dtype: int64

In [16]:
# Obtener frecuencia de cada valor de la serie
s_ciudades.value_counts()

100    1
20     1
50     1
80     1
44     1
dtype: int64

In [17]:
# Obtener el menor valor de los datos de la serie (sólo datos numéricos)
s_ciudades.min()

20

In [18]:
# Obtener el mayor valor de los datos de la serie (sólo datos numéricos)
s_ciudades.max()

100

In [19]:
# Obtener la media del valor de los datos de la serie (sólo datos numéricos)
s_ciudades.mean()

58.8

In [20]:
# Obtener la desviación típica de lso datos de la serie (sólo datos numéricos)
s_ciudades.std()

31.41973901864877

In [21]:
# Obtener estadísticos descriptivos de la serie
s_ciudades.describe()

count      5.000000
mean      58.800000
std       31.419739
min       20.000000
25%       44.000000
50%       50.000000
75%       80.000000
max      100.000000
dtype: float64

### Operadores

Los operadores de python tanto aritméticos (+, -, *, /, **, % , y //) como relacionales (>, <, ==, >=, <= y !=) pueden usarse para hacer operaciones con una serie

In [22]:
s_ciudades + 1000

Madrid       1100
Huelva       1020
Sevilla      1050
Barcelona    1080
Bilbao       1044
dtype: int64

In [23]:
s_ciudades - 10

Madrid       90
Huelva       10
Sevilla      40
Barcelona    70
Bilbao       34
dtype: int64

In [24]:
s_ciudades / 3

Madrid       33.333333
Huelva        6.666667
Sevilla      16.666667
Barcelona    26.666667
Bilbao       14.666667
dtype: float64

In [25]:
s_ciudades ** 2

Madrid       10000
Huelva         400
Sevilla       2500
Barcelona     6400
Bilbao        1936
dtype: int64

In [26]:
s_ciudades > 80

Madrid        True
Huelva       False
Sevilla      False
Barcelona    False
Bilbao       False
dtype: bool

In [27]:
s_ciudades == 20

Madrid       False
Huelva        True
Sevilla      False
Barcelona    False
Bilbao       False
dtype: bool

### Funciones
Se pueden aplicar funciones a cada elemento de la serie utilizando el método apply

In [28]:
from math import sqrt
s_ciudades.apply(sqrt)

Madrid       10.000000
Huelva        4.472136
Sevilla       7.071068
Barcelona     8.944272
Bilbao        6.633250
dtype: float64

También podremos aplicar nuestras propias funciones

In [29]:
def get_hypotenuse_value(x):
    return sqrt(2*x**2)

s_ciudades.apply(get_hypotenuse_value)

Madrid       141.421356
Huelva        28.284271
Sevilla       70.710678
Barcelona    113.137085
Bilbao        62.225397
dtype: float64

In [30]:
s_ciudades.apply(lambda x: sqrt(2*x**2))

Madrid       141.421356
Huelva        28.284271
Sevilla       70.710678
Barcelona    113.137085
Bilbao        62.225397
dtype: float64

### Filtrar series

Podemos filtrar los valores de la serie y quedarnos con aquellos que cumplen una determinada condición

In [31]:
s_ciudades[s_ciudades < 50]

Huelva    20
Bilbao    44
dtype: int64

### Eliminar NaNs

In [32]:
s_ciudades = pd.Series(data={"Madrid" : 100, 
                             "Huelva": 20, 
                             "Sevilla": 50, 
                             "Barcelona": 80, 
                             "Bilbao": 44, 
                             "Tarragona": None,
                             "A Coruña": np.NaN
                            }
                      )
s_ciudades.dropna()

Madrid       100.0
Huelva        20.0
Sevilla       50.0
Barcelona     80.0
Bilbao        44.0
dtype: float64

## [Dataframe](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html)

Un Dataframe es una estructura de datos bidimensional etiquetada con columnas que pueden ser de tipos diferentes. Es parecido a una hoja de cálculo o una tabla SQL. Cada una de las columnas es una Serie. Es el objeto de la librería pandas más utilizado.

![Estructura Dataframe](recursos/01_dataframe.png)

[Gráfico extraído del curso de pandas de Juan Barrios](https://www.juanbarrios.com/curso-de-pandas-completo-desde-cero/)

### Creación de Dataframes

Un Dataframe puede crearse a partir de diferentes elementos

In [33]:
# Para crear un dataframe usamos
pd.DataFrame

# Crear DataFrame desde un diccionario de listas
mi_dict_l = {"ciudades": ["Madrid", "Huelva", "Sevilla", "Barcelona", "Bilbao"], 
             "n_churrerias": [100, 20, 50, 80, 44],
             "habitantes": [3223000, 144258, 688711, 1620000, 345821]
            }
df_c = pd.DataFrame(mi_dict_l)
df_c

Unnamed: 0,ciudades,n_churrerias,habitantes
0,Madrid,100,3223000
1,Huelva,20,144258
2,Sevilla,50,688711
3,Barcelona,80,1620000
4,Bilbao,44,345821


In [34]:
# Crear DataFrame desde una lista de listas
mi_ls_l = [["Madrid", 100, 3223000],
           ["Huelva", 20, 144258],
           ["Sevilla", 50, 688711],
           ["Barcelona", 80, 1620000],
           ["Bilbao", 44, 345821]
          ]
columnas = ["ciudades", "n_churrerias", "habitantes"]
df_c = pd.DataFrame(mi_ls_l, columns=columnas)
df_c

Unnamed: 0,ciudades,n_churrerias,habitantes
0,Madrid,100,3223000
1,Huelva,20,144258
2,Sevilla,50,688711
3,Barcelona,80,1620000
4,Bilbao,44,345821


In [35]:
# Crear DataFrame desde una lista de diccionarios
mi_ls_dict = [{"ciudades": "Madrid", "n_churrerias": 100, "habitantes": 3223000},
              {"ciudades": "Huelva", "n_churrerias": 20, "habitantes": 144258},
              {"ciudades": "Sevilla", "n_churrerias": 50, "habitantes": 688711},
              {"ciudades": "Barcelona", "n_churrerias": 80, "habitantes": 1620000},
              {"ciudades": "Bilbao", "n_churrerias": 44, "habitantes": 345821},
             ]

df_c = pd.DataFrame(mi_ls_dict)
df_c

Unnamed: 0,ciudades,n_churrerias,habitantes
0,Madrid,100,3223000
1,Huelva,20,144258
2,Sevilla,50,688711
3,Barcelona,80,1620000
4,Bilbao,44,345821


#### [Crear DataFrame a partir de un fichero CSV](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html)

In [36]:
df_c = pd.read_csv("recursos/02_city_data.csv", sep=";")
df_c

Unnamed: 0,ciudades,n_churrerias,habitantes
0,Madrid,100,3223000
1,Huelva,20,144258
2,Sevilla,50,688711
3,Barcelona,80,1620000
4,Bilbao,44,345821


#### [Crear DataFrame a partir de un fichero Excel](https://pandas.pydata.org/docs/reference/api/pandas.read_excel.html)

In [37]:
df_c = pd.read_excel("recursos/03_city_data.xlsx")
df_c

Unnamed: 0,ciudades,n_churrerias,habitantes
0,Madrid,100,3223000
1,Huelva,20,144258
2,Sevilla,50,688711
3,Barcelona,80,1620000
4,Bilbao,44,345821


#### [Crear DataFrame a partir de un fichero JSON](https://pandas.pydata.org/docs/reference/api/pandas.read_json.html)

In [38]:
df_c = pd.read_json("recursos/04_city_data.json")
df_c

Unnamed: 0,ciudades,n_churrerias,habitantes
0,Madrid,100,3223000
1,Huelva,20,144258
2,Sevilla,50,688711
3,Barcelona,80,1620000
4,Bilbao,44,345821


#### Exportar ficheros

#### [Exportar a CSV](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_csv.html)

In [39]:
df_c.to_csv("output.csv", sep="|", index=False)

#### [Exportar a Excel](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_excel.html)

In [40]:
df_c.to_excel("output.xlsx", index=False)

#### [Exportar a JSON](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_json.html)

In [41]:
df_c.to_json("output.json", orient="split", index=False)

### Atributos del DataFrame

In [42]:
# Información del DataFrame
df_c.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 3 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   ciudades      5 non-null      object
 1   n_churrerias  5 non-null      int64 
 2   habitantes    5 non-null      int64 
dtypes: int64(2), object(1)
memory usage: 248.0+ bytes


In [43]:
# Número de filas y columnas
df_c.shape

(5, 3)

In [44]:
# Número de elementos
df_c.size

15

In [45]:
# Nombre de las columnas
df_c.columns

Index(['ciudades', 'n_churrerias', 'habitantes'], dtype='object')

In [46]:
# Nombre de las filas
df_c.index

RangeIndex(start=0, stop=5, step=1)

In [47]:
# Tipos de las columnas
df_c.dtypes

ciudades        object
n_churrerias     int64
habitantes       int64
dtype: object

In [48]:
# Devuelve las n primeras filas
df_c.head(2)

Unnamed: 0,ciudades,n_churrerias,habitantes
0,Madrid,100,3223000
1,Huelva,20,144258


In [49]:
# Devuelve las n últimas filas
df_c.tail(2)

Unnamed: 0,ciudades,n_churrerias,habitantes
3,Barcelona,80,1620000
4,Bilbao,44,345821


### Renombrar filas y columnas

#### [pd.rename](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.rename.html)

Podemos usar un diccionario y el método de pandas rename para cambiar el nombre de las filas o columnas

In [50]:
df_c.rename(columns= {"ciudades": "cities"})

Unnamed: 0,cities,n_churrerias,habitantes
0,Madrid,100,3223000
1,Huelva,20,144258
2,Sevilla,50,688711
3,Barcelona,80,1620000
4,Bilbao,44,345821


In [51]:
df_c.rename(str.upper, axis="columns")

Unnamed: 0,CIUDADES,N_CHURRERIAS,HABITANTES
0,Madrid,100,3223000
1,Huelva,20,144258
2,Sevilla,50,688711
3,Barcelona,80,1620000
4,Bilbao,44,345821


In [52]:
df_c.rename({0: "M", 1:"HU", 2:"SE", 3:"B", 4:"BI"})

Unnamed: 0,ciudades,n_churrerias,habitantes
M,Madrid,100,3223000
HU,Huelva,20,144258
SE,Sevilla,50,688711
B,Barcelona,80,1620000
BI,Bilbao,44,345821


#### Utilizando una lista para renombrar columnas e indices

In [54]:
df_c.columns = ["ciudades", "n_churrerias", "poblacion"]
df_c

Unnamed: 0,ciudades,n_churrerias,poblacion
0,Madrid,100,3223000
1,Huelva,20,144258
2,Sevilla,50,688711
3,Barcelona,80,1620000
4,Bilbao,44,345821


In [56]:
df_c.index = ["M", "HU", "SE", "B", "BI"]
df_c

Unnamed: 0,ciudades,n_churrerias,poblacion
M,Madrid,100,3223000
HU,Huelva,20,144258
SE,Sevilla,50,688711
B,Barcelona,80,1620000
BI,Bilbao,44,345821


### Acceder a los elementos de un DataFrame

#### Por número entero

In [60]:
df_c.iloc[4,0]

'Bilbao'

In [61]:
df_c.iloc[1:, 2]

HU     144258
SE     688711
B     1620000
BI     345821
Name: poblacion, dtype: int64

In [62]:
df_c.iloc[2]

ciudades        Sevilla
n_churrerias         50
poblacion        688711
Name: SE, dtype: object

#### Por nombres

In [64]:
df_c.loc[["SE","B"], ["poblacion"]]

Unnamed: 0,poblacion
SE,688711
B,1620000


In [65]:
df_c["n_churrerias"]

M     100
HU     20
SE     50
B      80
BI     44
Name: n_churrerias, dtype: int64

### Añadir columnas

In [66]:
df_c["rios"] = [1, 2, 1, 0, np.NaN]
df_c

Unnamed: 0,ciudades,n_churrerias,poblacion,rios
M,Madrid,100,3223000,1.0
HU,Huelva,20,144258,2.0
SE,Sevilla,50,688711,1.0
B,Barcelona,80,1620000,0.0
BI,Bilbao,44,345821,


### Operaciones con columnas
Como las columnas de un DataFrame son series, podremos aplicar las mismas operaciones que con las series