# Pandas
Librería de Python especializada en la manipulación y el análisis de datos. Ofrece estructuras de datos y operaciones para manipular tablas numéricas y series temporales, es como el Excel de Python.

In [2]:
import numpy as np
import pandas as pd

> Columna con el índice de cada dato y el nombre de la serie completa

In [2]:
s = pd.Series((10,11,12,13), index=['VentasA','VentasB','VentasC','VentasD'], name = 'VENTAS')
s

VentasA    10
VentasB    11
VentasC    12
VentasD    13
Name: VENTAS, dtype: int64

In [5]:
s.index
#s.values
s.astype(float) # Para cambiar el tipo.

VentasA    10.0
VentasB    11.0
VentasC    12.0
VentasD    13.0
Name: VENTAS, dtype: float64

### Buscadores

In [8]:
s.iloc[1]   # Acceder por POSICIÓN
s.loc['VentasB']    # Accede por INDEX
s[1:3]  # Por NÚMERO.
s['VentasB']    # Por NOMBRE

11

In [10]:
s > 11

VentasA    False
VentasB    False
VentasC     True
VentasD     True
Name: VENTAS, dtype: bool

In [11]:
s[s > 11]

VentasC    12
VentasD    13
Name: VENTAS, dtype: int64

> Se pueden realizar cálculos

In [12]:
s[s > 11] = s[s > 11] +10
s

VentasA    10
VentasB    11
VentasC    22
VentasD    23
Name: VENTAS, dtype: int64

In [13]:
s.value_counts()

VENTAS
10    1
11    1
22    1
23    1
Name: count, dtype: int64

In [14]:
s.unique()  # Para mostrar los valores sin repetirse.
s.mean()    # La media de los valores
s.std() # Desviación estándar

array([10, 11, 22, 23], dtype=int64)

## Dataframes

In [3]:
df = pd.DataFrame({"A":[1,2,3], "B":[4,5,6], "C":[7,8,9]})
df

Unnamed: 0,A,B,C
0,1,4,7
1,2,5,8
2,3,6,9


> También puede ser por **filas**

In [4]:
df = pd.DataFrame([{"A":1, "B":2, "C":3}, {"A":4, "B":5, "C":6}])
df

Unnamed: 0,A,B,C
0,1,2,3
1,4,5,6


In [5]:
df = pd.DataFrame([[1,2,3], [4,5,6], [7,8,9]])
df

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


In [8]:
df = pd.DataFrame([[1,2,3], [4,5,6], [7,8,9]], columns=["A", "B", "C"])
df

Unnamed: 0,A,B,C
0,1,2,3
1,4,5,6
2,7,8,9


> Algo de Web Scraping ...

In [33]:
dfl = pd.read_html("https://es.wikipedia.org/wiki/Canarias")
dfl
df = dfl[9]
df

Unnamed: 0,Isla (excepto La Graciosa),Bandera,Escudo,Municipios,Capital,Área (km²),Población (2022)[18]​
0,El Hierro,,,3,Valverde,26871,11 423
1,Fuerteventura[nota 10]​,,,6,Puerto del Rosario,"1665,74[nota 11]​",120 021
2,Gran Canaria,,,21,Las Palmas de Gran Canaria,156010,853 262
3,La Gomera,,,6,San Sebastián de La Gomera,36976,21 798
4,Lanzarote[nota 12]​,,,7,Arrecife,"888,07[nota 13]​",156 112[nota 14]​
5,La Palma,,,14,Santa Cruz de La Palma,70832,83 439
6,Tenerife,,,31,Santa Cruz de Tenerife,203438,931 646


> Para **eliminar alguna columna** sin datos importantes

In [34]:
df.columns
df.drop(["Bandera", "Escudo"], axis = 1, inplace = True)    # El 'implace=True' es para no realizar ninguna copia, ya que lo hace por defecto.
                               #COLUMNAS
df

Unnamed: 0,Isla (excepto La Graciosa),Municipios,Capital,Área (km²),Población (2022)[18]​
0,El Hierro,3,Valverde,26871,11 423
1,Fuerteventura[nota 10]​,6,Puerto del Rosario,"1665,74[nota 11]​",120 021
2,Gran Canaria,21,Las Palmas de Gran Canaria,156010,853 262
3,La Gomera,6,San Sebastián de La Gomera,36976,21 798
4,Lanzarote[nota 12]​,7,Arrecife,"888,07[nota 13]​",156 112[nota 14]​
5,La Palma,14,Santa Cruz de La Palma,70832,83 439
6,Tenerife,31,Santa Cruz de Tenerife,203438,931 646


In [35]:
df.columns = ["Isla", "Municipios", "Capital", "Area", "Poblacion"]
df

Unnamed: 0,Isla,Municipios,Capital,Area,Poblacion
0,El Hierro,3,Valverde,26871,11 423
1,Fuerteventura[nota 10]​,6,Puerto del Rosario,"1665,74[nota 11]​",120 021
2,Gran Canaria,21,Las Palmas de Gran Canaria,156010,853 262
3,La Gomera,6,San Sebastián de La Gomera,36976,21 798
4,Lanzarote[nota 12]​,7,Arrecife,"888,07[nota 13]​",156 112[nota 14]​
5,La Palma,14,Santa Cruz de La Palma,70832,83 439
6,Tenerife,31,Santa Cruz de Tenerife,203438,931 646


In [36]:
df["Area"]

0                26871
1    1665,74[nota 11]​
2               156010
3                36976
4     888,07[nota 13]​
5                70832
6               203438
Name: Area, dtype: object

In [37]:
df["Area"].str.replace(",",".")
df["Area"] = df["Area"].str.extract(f"(^[.0-9]+)")
df["Area"] = df["Area"].astype(float)
df["Area"]

0     26871.0
1      1665.0
2    156010.0
3     36976.0
4       888.0
5     70832.0
6    203438.0
Name: Area, dtype: float64

In [38]:
s = df.Poblacion.iloc[0]
print(s)
for i in s:
    print(ord(i))


11 423
49
49
160
52
50
51


> Reemplazamos el espacio por nada, y quitamos las [notas] de la columna Población con una expresión regular.

In [39]:
df["Poblacion"] = df["Poblacion"].str.replace(chr(160), "").str.extract(f"(^[.0-9]+)").astype(float)
df

Unnamed: 0,Isla,Municipios,Capital,Area,Poblacion
0,El Hierro,3,Valverde,26871.0,11423.0
1,Fuerteventura[nota 10]​,6,Puerto del Rosario,1665.0,120021.0
2,Gran Canaria,21,Las Palmas de Gran Canaria,156010.0,853262.0
3,La Gomera,6,San Sebastián de La Gomera,36976.0,21798.0
4,Lanzarote[nota 12]​,7,Arrecife,888.0,156112.0
5,La Palma,14,Santa Cruz de La Palma,70832.0,83439.0
6,Tenerife,31,Santa Cruz de Tenerife,203438.0,931646.0


> Ahora quitamos las [notas] con la columna "Isla"

In [40]:
df["Isla"] = df["Isla"].str.extract(r"(^[^\[]+)")
df

Unnamed: 0,Isla,Municipios,Capital,Area,Poblacion
0,El Hierro,3,Valverde,26871.0,11423.0
1,Fuerteventura,6,Puerto del Rosario,1665.0,120021.0
2,Gran Canaria,21,Las Palmas de Gran Canaria,156010.0,853262.0
3,La Gomera,6,San Sebastián de La Gomera,36976.0,21798.0
4,Lanzarote,7,Arrecife,888.0,156112.0
5,La Palma,14,Santa Cruz de La Palma,70832.0,83439.0
6,Tenerife,31,Santa Cruz de Tenerife,203438.0,931646.0


In [41]:
df.describe()

Unnamed: 0,Municipios,Area,Poblacion
count,7.0,7.0,7.0
mean,12.571429,70954.285714,311100.142857
std,10.179344,79156.567979,401015.568941
min,3.0,888.0,11423.0
25%,6.0,14268.0,52618.5
50%,7.0,36976.0,120021.0
75%,17.5,113421.0,504687.0
max,31.0,203438.0,931646.0


In [42]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7 entries, 0 to 6
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Isla        7 non-null      object 
 1   Municipios  7 non-null      int64  
 2   Capital     7 non-null      object 
 3   Area        7 non-null      float64
 4   Poblacion   7 non-null      float64
dtypes: float64(2), int64(1), object(2)
memory usage: 408.0+ bytes


> Para clasificar la información por la **columna** que se desee

In [46]:
df2 = df.set_index("Capital")
df2

Unnamed: 0_level_0,Isla,Municipios,Area,Poblacion
Capital,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Valverde,El Hierro,3,26871.0,11423.0
Puerto del Rosario,Fuerteventura,6,1665.0,120021.0
Las Palmas de Gran Canaria,Gran Canaria,21,156010.0,853262.0
San Sebastián de La Gomera,La Gomera,6,36976.0,21798.0
Arrecife,Lanzarote,7,888.0,156112.0
Santa Cruz de La Palma,La Palma,14,70832.0,83439.0
Santa Cruz de Tenerife,Tenerife,31,203438.0,931646.0


> Para volver a utilizar el índice necesitamos resetear el index:

In [48]:
df2 = df2.reset_index()
df2

Unnamed: 0,Capital,Isla,Municipios,Area,Poblacion
0,Valverde,El Hierro,3,26871.0,11423.0
1,Puerto del Rosario,Fuerteventura,6,1665.0,120021.0
2,Las Palmas de Gran Canaria,Gran Canaria,21,156010.0,853262.0
3,San Sebastián de La Gomera,La Gomera,6,36976.0,21798.0
4,Arrecife,Lanzarote,7,888.0,156112.0
5,Santa Cruz de La Palma,La Palma,14,70832.0,83439.0
6,Santa Cruz de Tenerife,Tenerife,31,203438.0,931646.0


> Para mostrar la **fila entera** se utiliza el **loc** 

In [47]:
df2.loc["Arrecife"]

Isla          Lanzarote
Municipios            7
Area              888.0
Poblacion      156112.0
Name: Arrecife, dtype: object

> Para consultar según la **posición** de la celda

In [49]:
df2.iloc[0,0]

'Valverde'

> Para elegir una información en específico se utilizar el **iloc**:

In [50]:
df2.iloc[1:3, 2:5]

Unnamed: 0,Municipios,Area,Poblacion
1,6,1665.0,120021.0
2,21,156010.0,853262.0


In [51]:
df["Municipios"] > 7

0    False
1    False
2     True
3    False
4    False
5     True
6     True
Name: Municipios, dtype: bool

In [57]:
df[(df["Municipios"] > 7) & (df["Area"] < 100000)]

Unnamed: 0,Isla,Municipios,Capital,Area,Poblacion,Densidad,Provincia
5,La Palma,14,Santa Cruz de La Palma,70832.0,83439.0,1.177985,LPGC


> Para añadir columnas es fácil, se refiere en la indexación a una columna no existente:

In [53]:
df["Densidad"] = df["Poblacion"] / df["Area"]
df["Provincia"] =  ["LPGC","SCTF", "SCTF", "LPGC","SCTF", "LPGC", "SCTF" ]
df  # En este caso 'Densidad' y 'Provincia' son las nuevas columnas

Unnamed: 0,Isla,Municipios,Capital,Area,Poblacion,Densidad,Provincia
0,El Hierro,3,Valverde,26871.0,11423.0,0.425105,LPGC
1,Fuerteventura,6,Puerto del Rosario,1665.0,120021.0,72.084685,SCTF
2,Gran Canaria,21,Las Palmas de Gran Canaria,156010.0,853262.0,5.469278,SCTF
3,La Gomera,6,San Sebastián de La Gomera,36976.0,21798.0,0.589518,LPGC
4,Lanzarote,7,Arrecife,888.0,156112.0,175.801802,SCTF
5,La Palma,14,Santa Cruz de La Palma,70832.0,83439.0,1.177985,LPGC
6,Tenerife,31,Santa Cruz de Tenerife,203438.0,931646.0,4.579508,SCTF


> Para **añadir filas**:

In [54]:
df.loc[len(df.index)] = ["Isla Nueva", 1, "Nueva York", 1000, 200, "NNN", 1]
df

Unnamed: 0,Isla,Municipios,Capital,Area,Poblacion,Densidad,Provincia
0,El Hierro,3,Valverde,26871.0,11423.0,0.425105,LPGC
1,Fuerteventura,6,Puerto del Rosario,1665.0,120021.0,72.084685,SCTF
2,Gran Canaria,21,Las Palmas de Gran Canaria,156010.0,853262.0,5.469278,SCTF
3,La Gomera,6,San Sebastián de La Gomera,36976.0,21798.0,0.589518,LPGC
4,Lanzarote,7,Arrecife,888.0,156112.0,175.801802,SCTF
5,La Palma,14,Santa Cruz de La Palma,70832.0,83439.0,1.177985,LPGC
6,Tenerife,31,Santa Cruz de Tenerife,203438.0,931646.0,4.579508,SCTF
7,Isla Nueva,1,Nueva York,1000.0,200.0,NNN,1


> Para trabajar con las **fechas**:

In [82]:
df2["Fvisita"] = ["1/12/2023", "10/1/2023", "1/1/2023", "11/1/2023", "1/11/2023", "11/11/2023", "10/10/2023"]
df2

Unnamed: 0_level_0,Capital,Isla,Municipios,Area,Poblacion,año,mes,dia,Fvisita
Fvisita,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
2023-01-12,Valverde,El Hierro,3,26871.0,11423.0,2023,1,12,1/12/2023
2023-10-01,Puerto del Rosario,Fuerteventura,6,1665.0,120021.0,2023,10,1,10/1/2023
2023-01-01,Las Palmas de Gran Canaria,Gran Canaria,21,156010.0,853262.0,2023,1,1,1/1/2023
2023-11-01,San Sebastián de La Gomera,La Gomera,6,36976.0,21798.0,2023,11,1,11/1/2023
2023-01-11,Arrecife,Lanzarote,7,888.0,156112.0,2023,1,11,1/11/2023
2023-11-11,Santa Cruz de La Palma,La Palma,14,70832.0,83439.0,2023,11,11,11/11/2023
2023-10-10,Santa Cruz de Tenerife,Tenerife,31,203438.0,931646.0,2023,10,10,10/10/2023


In [84]:
df2["Fvisita"] = pd.to_datetime(df2["Fvisita"])
df2["año"] = df2["Fvisita"].dt.year
df2["mes"] = df2["Fvisita"].dt.month
df2["dia"] = df2["Fvisita"].dt.day
df2

Unnamed: 0_level_0,Capital,Isla,Municipios,Area,Poblacion,año,mes,dia,Fvisita
Fvisita,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
2023-01-12,Valverde,El Hierro,3,26871.0,11423.0,2023,1,12,2023-01-12
2023-10-01,Puerto del Rosario,Fuerteventura,6,1665.0,120021.0,2023,10,1,2023-10-01
2023-01-01,Las Palmas de Gran Canaria,Gran Canaria,21,156010.0,853262.0,2023,1,1,2023-01-01
2023-11-01,San Sebastián de La Gomera,La Gomera,6,36976.0,21798.0,2023,11,1,2023-11-01
2023-01-11,Arrecife,Lanzarote,7,888.0,156112.0,2023,1,11,2023-01-11
2023-11-11,Santa Cruz de La Palma,La Palma,14,70832.0,83439.0,2023,11,11,2023-11-11
2023-10-10,Santa Cruz de Tenerife,Tenerife,31,203438.0,931646.0,2023,10,10,2023-10-10


In [88]:
data = { "A" : [1, 20, 3], "B" : [4, np.nan, 7], "C" : [7, 8, 9]}
df = pd.DataFrame(data)
df

Unnamed: 0,A,B,C
0,1,4.0,7
1,20,,8
2,3,7.0,9


In [86]:
df.isna()

Unnamed: 0,A,B,C
0,False,False,False
1,False,True,False
2,False,False,False


> Para borrar las columnas o las filas que contengan **NaN**

In [87]:
df = df.dropna(axis = 1)
df

Unnamed: 0,A,C
0,1,7
1,20,8
2,3,9


> Para introducir en el lugar del NaN el valor medio de los valores

In [89]:
df.interpolate()

Unnamed: 0,A,B,C
0,1,4.0,7
1,20,5.5,8
2,3,7.0,9
