<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Intro-Pandas" data-toc-modified-id="Intro-Pandas-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Intro Pandas</a></span><ul class="toc-item"><li><span><a href="#Antes-de-empezar-..." data-toc-modified-id="Antes-de-empezar-...-1.1"><span class="toc-item-num">1.1&nbsp;&nbsp;</span>Antes de empezar ...</a></span></li></ul></li><li><span><a href="#Series" data-toc-modified-id="Series-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Series</a></span><ul class="toc-item"><li><span><a href="#¿Qué-es-una-Serie?" data-toc-modified-id="¿Qué-es-una-Serie?-2.1"><span class="toc-item-num">2.1&nbsp;&nbsp;</span>¿Qué es una Serie?</a></span></li><li><span><a href="#Creación-de-Series" data-toc-modified-id="Creación-de-Series-2.2"><span class="toc-item-num">2.2&nbsp;&nbsp;</span>Creación de Series</a></span></li><li><span><a href="#Propiedades-de-las-Series" data-toc-modified-id="Propiedades-de-las-Series-2.3"><span class="toc-item-num">2.3&nbsp;&nbsp;</span>Propiedades de las Series</a></span></li></ul></li><li><span><a href="#Dataframes" data-toc-modified-id="Dataframes-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Dataframes</a></span><ul class="toc-item"><li><span><a href="#Creación-de-dataframes" data-toc-modified-id="Creación-de-dataframes-3.1"><span class="toc-item-num">3.1&nbsp;&nbsp;</span>Creación de dataframes</a></span></li><li><span><a href="#Cargar-ficheros" data-toc-modified-id="Cargar-ficheros-3.2"><span class="toc-item-num">3.2&nbsp;&nbsp;</span>Cargar ficheros</a></span></li><li><span><a href="#Análisis-exploratorio" data-toc-modified-id="Análisis-exploratorio-3.3"><span class="toc-item-num">3.3&nbsp;&nbsp;</span>Análisis exploratorio</a></span></li></ul></li></ul></div>

# Intro Pandas 

Pandas es una librería de Python especializada en el manejo y análisis de estructuras de datos

Las principales **características** de esta librería son:

- Define nuevas estructuras de datos basadas en los arrays de la librería NumPy pero con nuevas funcionalidades.


- Permite leer y escribir fácilmente ficheros en formato CSV, Excel y bases de datos SQL entre otros. 


- Permite acceder a los datos mediante índices o nombres para filas y columnas.


- Ofrece métodos para reordenar, dividir y combinar conjuntos de datos.


- Permite trabajar con series temporales.


- Realiza todas estas operaciones de manera muy eficiente.




Pandas tiene tres estructuras de datos diferentes:

- `Series`:  estructuras en una dimensión.


- `DataFrame`: estructura de dos dimensiones (tablas)


- `Panel`: estructura en dos dimensiones (cubos)


Todas estas estructuras se constuyen a partir de *arrays* de la librería NumPy, añadiendo nuevas funcionalidades.

## Antes de empezar ...

Tenemos que instalar e importar pandas:

- Instalar: 

```
pip3 install pandas
```

    Si no funciona

```
pip install pandas
```

- Importar: 

```python
pip install pandas
```

In [2]:
import numpy as np
import pandas as pd

# Series 

## ¿Qué es una Serie?  

Es la estructura más simple que proporciona Pandas, y se asemeja a una columna en una hoja de cálculo de Excel.

Son estructuras unidimensionales que contienen un *array* de datos (de cualquier tipo soportado por NumPy). Un objeto Series tiene dos componentes principales:

- `índice`: contiene valores únicos y, por lo general ordenados. Se usan para acceder a valores individuales de los datos.


- `vector`: contiene los datos.

![image.png](attachment:image.png)



## Creación de Series 

Para crear Series lo podemos hacer desde distintos tipos de datos. Algunos de ellos son: 

- A partir de un *array*. Recordemos que las Series son unidimensionales por lo que lo podremos hacer solo a partir de *arrays* unidimensionales. 


- A partir de listas


- A partir de diccionarios

1️⃣ A partir de un *array*

In [8]:
vector = np.array([1,2,3,4,5,6,7])

In [9]:
serie = pd.Series(vector)
serie

0    1
1    2
2    3
3    4
4    5
5    6
6    7
dtype: int64

📌 Si nos fijamos el método pd.Series nos va a generar automáticamente el `índice` y lo crea con números consecutivos, empezando por el 0. Sin embargo, también le podemos pasar los índices que queramos usando el parámetro index

In [13]:
serie2 = pd.Series(vector, index = [20,21, 22, 23, 24, 25, 26])
serie2


20    1
21    2
22    3
23    4
24    5
25    6
26    7
dtype: int64

2️⃣A partir de una lista

In [14]:
lista = range(4,10)

In [15]:
serie3 = pd.Series(lista)
serie3

0    4
1    5
2    6
3    7
4    8
5    9
dtype: int64

3️⃣ A partir de diccionarios 

In [16]:
diccionario = {"chorizo": 2, "brocoli": 12, "jamon": 22, "berenjena": 18}

In [18]:
serie4 = pd.Series(diccionario)
serie4

chorizo       2
brocoli      12
jamon        22
berenjena    18
dtype: int64

## Propiedades de las Series 

1️⃣ `index` y `values``: nos devuelve los índices y los valores de nuestra Serie respectivamente.

In [19]:
serie4.index

Index(['chorizo', 'brocoli', 'jamon', 'berenjena'], dtype='object')

In [20]:
serie4.values

array([ 2, 12, 22, 18])

2️⃣ `shape`: nos devuelve la forma de nuestra Serie

In [22]:
serie4.shape

(4,)

3️⃣ `size`: nos devuelve el número de elementos de nuestra Serie

In [23]:
serie4.size

4

# Dataframes

Un DataFrame es una estructura de datos con dos dimensiones en la cual se puede guardar datos de distintos tipos (strings, enteros, decimales, factores, etc.).

Es similar a una hoja de cálculo o una tabla de SQL.

Al igual que en las Series, siempre vamos a tener índice que empieza por 0. La diferencia con las Series es que en el DataFrame tenemos más dimensiones y que, por lo tanto, podremos tener más columnas con valores.



## Creación de dataframes 


Para crear DataFrames usaremos el constructor pd.DataFrame(), el cual va a aceptar 3 parámetros principales:

- `data`: estructura de datos que queremos convertir a dataframe, puiede ser un array, un diccionario, una lista, etc.


- `index`: ìndice a aplicar a las filas. Si no se especifica, se asiganrá uno por defecto formado por números enteros entre 0 y n-1, siendo n el numero de filas del dataframe.


- `column`: nombre que le queremos aplicar a las columnas. Si no añadimos nada se asignará uno automático formado por números enteros entre 0 y n-1 siendo n el número de columnas.


Algunas estructuras a partir de las cuales es posible crear dataframes:

- Diccionarios


- NumPy Array


- Lista de listas

1️⃣ A partir de un diccionario

In [25]:
diccionario = {"productos": ["brocoli", "chorizo", "queso"],
               "precio": [1.20, 23, 5.78], 
               "origen": ["madrid", "salamanca", "toledo"],
               "tipo": ["vegetal", "animal", "animal"]}

In [27]:
df = pd.DataFrame(diccionario)
df

Unnamed: 0,productos,precio,origen,tipo
0,brocoli,1.2,madrid,vegetal
1,chorizo,23.0,salamanca,animal
2,queso,5.78,toledo,animal


2️⃣A partir de un *array* 

🚨 No podrá ser de más de dos dimensiones

In [35]:
array = np.random.randint(1,90, (2,3))
array

array([[88, 44, 49],
       [23, 55, 81]])

In [52]:
df2 = pd.DataFrame(array, columns = [2019, 2020, 2021])
df2

Unnamed: 0,2019,2020,2021
0,88,44,49
1,23,55,81


3️⃣A partir de una lista o lista de listas

In [40]:
lst = [1,2,3]

In [53]:

df3 = pd.DataFrame(lst, index = ["Andrea", "Ramon", "Elena"])
df3

Unnamed: 0,0
Andrea,1
Ramon,2
Elena,3


In [42]:
listas = [[1,2,3], ["miguel", "monica", "fernando"]]

In [50]:

df4 = pd.DataFrame(listas)
df4

Unnamed: 0,0,1,2
0,1,2,3
1,miguel,monica,fernando


In [51]:
df4_T = df4.T
df4_T

Unnamed: 0,0,1
0,1,miguel
1,2,monica
2,3,fernando


## Cargar ficheros 

Podemos cargar datos desde distintos tipos de ficheros, los que más usaremos son: 

- csv

- xls

- xlsx

- json

1️⃣ `csv`

In [65]:
df_csv = pd.read_csv("datos/aire.csv", sep = ";")
df_csv.head()

Unnamed: 0,provincia,municipio,estacion,magnitud,punto_muestreo,ano,mes,dia,h01,v01,...,h20,v20,h21,v21,h22,v22,h23,v23,h24,v24
0,28,102,1,1,28102001_1_38,2022,1,30,3.0,T,...,,N,,N,,N,,N,,N
1,28,102,1,6,28102001_6_48,2022,1,30,0.2,T,...,,N,,N,,N,,N,,N
2,28,102,1,7,28102001_7_8,2022,1,30,1.0,T,...,,N,,N,,N,,N,,N
3,28,102,1,8,28102001_8_8,2022,1,30,6.0,T,...,,N,,N,,N,,N,,N
4,28,102,1,10,28102001_10_49,2022,1,30,3.0,T,...,,N,,N,,N,,N,,N


2️⃣`json`

In [69]:
df_json = pd.read_json("datos/aire.json")
df_json.head()

Unnamed: 0,data
0,"{'punto_muestreo': '28102001_1_38', 'h10': '3'..."
1,"{'punto_muestreo': '28102001_6_48', 'h10': '0...."
2,"{'punto_muestreo': '28102001_7_8', 'h10': '1',..."
3,"{'punto_muestreo': '28102001_8_8', 'h10': '3',..."
4,"{'punto_muestreo': '28102001_10_49', 'h10': '1..."


3️⃣`xlsx`

In [68]:
df_xlsx = pd.read_excel("datos/espacios_protegidos.xlsx")
df_xlsx.head()

Unnamed: 0,espacio_prot_categoria,espacio_prot_figura,espacio_prot_nombre,espacio_prot_superficie_ha,espacio_prot_fecha_declaracion,espacio_prot_normativa,espacio_prot_informacion_web
0,Áreas protegidas por instrumentos internacionales,Reserva de la Biosfera,"Cuencas Altas de los ríos Manzanares, Lozoya y...",105655.0,1992-11-09,Normativa Áreas protegidas por instrumentos in...,Reserva de la Biosfera Cuencas Altas de los rí...
1,Áreas protegidas por instrumentos internacionales,Reserva de la Biosfera,Sierra del Rincón,15231.0,2005-06-29,Normativa Áreas protegidas por instrumentos in...,Reserva de la Biosfera Sierra del Rincón
2,Áreas protegidas por instrumentos internacionales,Humedal de Importancia Internacional (RAMSAR),Humedales del Macizo de Peñalara,487.198,2005-12-16,Normativa Áreas protegidas por instrumentos in...,Humedales Ramsar
3,Espacios Protegidos Red Natura 2000,Zona de Especial Protección para las Aves,Monte de El Pardo,15298.67,1988-02-01,Normativa Espacios Protegidos Red Natura 2000,Espacios protegidos Red Natura 2000
4,Espacios Protegidos Red Natura 2000,Zona de Especial Protección para las Aves,Soto de Viñuelas,3071.89,1988-02-01,Normativa Espacios Protegidos Red Natura 2000,Espacios protegidos Red Natura 2000


4️⃣ `xls`

In [71]:
df_xls = pd.read_excel("datos/accidentes.xls")
df_xls.head(10)

Unnamed: 0,01. ACCIDENTES POR TIPO EN DISTRITOS,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8,Unnamed: 9,Unnamed: 10,Unnamed: 11
0,,,,,,,,,,,,
1,,,,,,,,,,,,
2,,,,,,,,,,,,
3,,,,,,,,,,,,
4,Indicadores,Nº Accidentes,,,,,,,,,,
5,Año,2009,,,,,,,,,,Total
6,DISTRITO_ACCIDENTE,COLISIÓN DOBLE,COLISIÓN MÚLTIPLE,CHOQUE CON OBJETO FIJO,ATROPELLO,VUELCO,CAÍDA MOTOCICLETA,CAÍDA CICLOMOTOR,CAÍDA BICICLETA,CAÍDA VIAJERO BUS,OTRAS CAUSAS,
7,ARGANZUELA,389,54,126,75,9,43,9,4,5,8,722
8,BARAJAS,89,6,53,21,,12,2,1,2,2,188
9,CARABANCHEL,375,44,171,137,8,36,13,6,9,8,807


## Análisis exploratorio

In [74]:
# ver las primeras 5 filas del dataframe

df_csv.head()

Unnamed: 0,provincia,municipio,estacion,magnitud,punto_muestreo,ano,mes,dia,h01,v01,...,h20,v20,h21,v21,h22,v22,h23,v23,h24,v24
0,28,102,1,1,28102001_1_38,2022,1,30,3.0,T,...,,N,,N,,N,,N,,N
1,28,102,1,6,28102001_6_48,2022,1,30,0.2,T,...,,N,,N,,N,,N,,N
2,28,102,1,7,28102001_7_8,2022,1,30,1.0,T,...,,N,,N,,N,,N,,N
3,28,102,1,8,28102001_8_8,2022,1,30,6.0,T,...,,N,,N,,N,,N,,N
4,28,102,1,10,28102001_10_49,2022,1,30,3.0,T,...,,N,,N,,N,,N,,N


In [75]:
# podemos especificar el número de columnas que queremos ver

df_csv.head(10)

Unnamed: 0,provincia,municipio,estacion,magnitud,punto_muestreo,ano,mes,dia,h01,v01,...,h20,v20,h21,v21,h22,v22,h23,v23,h24,v24
0,28,102,1,1,28102001_1_38,2022,1,30,3.0,T,...,,N,,N,,N,,N,,N
1,28,102,1,6,28102001_6_48,2022,1,30,0.2,T,...,,N,,N,,N,,N,,N
2,28,102,1,7,28102001_7_8,2022,1,30,1.0,T,...,,N,,N,,N,,N,,N
3,28,102,1,8,28102001_8_8,2022,1,30,6.0,T,...,,N,,N,,N,,N,,N
4,28,102,1,10,28102001_10_49,2022,1,30,3.0,T,...,,N,,N,,N,,N,,N
5,28,102,1,12,28102001_12_8,2022,1,30,8.0,T,...,,N,,N,,N,,N,,N
6,28,102,1,14,28102001_14_6,2022,1,30,79.0,T,...,,N,,N,,N,,N,,N
7,28,120,1,7,28120001_7_8,2022,1,30,4.0,T,...,,N,,N,,N,,N,,N
8,28,120,1,8,28120001_8_8,2022,1,30,1.0,T,...,,N,,N,,N,,N,,N
9,28,120,1,9,28120001_9_49,2022,1,30,3.0,T,...,,N,,N,,N,,N,,N


In [76]:
# también podemos ver las últimas filas

df_csv.tail()

Unnamed: 0,provincia,municipio,estacion,magnitud,punto_muestreo,ano,mes,dia,h01,v01,...,h20,v20,h21,v21,h22,v22,h23,v23,h24,v24
155,28,92,5,7,28092005_7_8,2022,1,30,90.0,T,...,,N,,N,,N,,N,,N
156,28,92,5,8,28092005_8_8,2022,1,30,100.0,T,...,,N,,N,,N,,N,,N
157,28,92,5,10,28092005_10_49,2022,1,30,34.0,T,...,,N,,N,,N,,N,,N
158,28,92,5,12,28092005_12_8,2022,1,30,237.0,T,...,,N,,N,,N,,N,,N
159,28,92,5,14,28092005_14_6,2022,1,30,1.0,T,...,,N,,N,,N,,N,,N


In [None]:
# 