# Pandas

Libreria para analis/manipulación de datos. Es una copia de la sintaxis de MATLAB.

# DataFrame

Es una colección de "Series" de datos. Es el equivalente a una table de una BBDD, EXCEL.

# Serie de datos

Viene a ser el equivalente a una columna de una tabla de una BBDD.

De cara a usar Pandas, necesitamos instalar esa libreria en python.

```sh
$ pip install pandas
```

Además, como cualquier libreria, necesitamos importarla en python.

``` py
import pandas as pd
```

In [1]:
import pandas as pd

In [3]:
# Crear un dataframe

dataframe_vacio = pd.DataFrame()
print(dataframe_vacio)

Empty DataFrame
Columns: []
Index: []


In [4]:
nombres = ("Ivan", "David", "Jero", "Jesús") # Tupla
datos_nombres = pd.DataFrame(nombres)
print(datos_nombres)

       0
0   Ivan
1  David
2   Jero
3  Jesús


In [5]:
datos_nombres.columns

RangeIndex(start=0, stop=1, step=1)

In [6]:
datos_nombres.index

RangeIndex(start=0, stop=4, step=1)

In [7]:
datos_nombres.columns = ["Nombre"]

In [8]:
print(datos_nombres)

  Nombre
0   Ivan
1  David
2   Jero
3  Jesús


In [9]:
datos_nombres_2 = pd.DataFrame(nombres, columns= ["Nombre"])
print(datos_nombres_2)

  Nombre
0   Ivan
1  David
2   Jero
3  Jesús


In [15]:
datos_personas = ( ("Ivan", 32), ("David",28), ("Jero",40), ("Jesús",33) )
personas = pd.DataFrame(datos_personas, columns= ["Nombre", "Edad"])
personas

Unnamed: 0,Nombre,Edad
0,Ivan,32
1,David,28
2,Jero,40
3,Jesús,33


In [16]:
personas.ndim

2

In [17]:
personas.shape

(4, 2)

In [18]:
personas.shape[0]

4

In [19]:
personas.size

8

In [20]:
personas.head(2)

Unnamed: 0,Nombre,Edad
0,Ivan,32
1,David,28


In [21]:
personas.tail(2)

Unnamed: 0,Nombre,Edad
2,Jero,40
3,Jesús,33


In [29]:
personas ["Edad"]

0    32
1    28
2    40
3    33
Name: Edad, dtype: int64

In [23]:
# En pandas, las series de datos, (las columnas) tienen cada una su tipo de datos, que se aplcia a todas las filas.

In [26]:
personas.iloc[2]

Nombre    Jero
Edad        40
Name: 2, dtype: object

In [27]:
personas.iloc[2]["Edad"]

40

In [31]:
personas.index=personas["Nombre"]

personas

Unnamed: 0_level_0,Nombre,Edad
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1
Ivan,Ivan,32
David,David,28
Jero,Jero,40
Jesús,Jesús,33


In [32]:
personas.iloc[2]

Nombre    Jero
Edad        40
Name: Jero, dtype: object

In [33]:
personas.loc["Jero"]

Nombre    Jero
Edad        40
Name: Jero, dtype: object

In [34]:
datos_nombres = ( "Ivan", "David", "Jero", "Jesús" )
datos_edades = ( 32,28, 40, 33 ) 
diccionario_personas = { "nombres": datos_nombres , "edades": datos_edades}
personas = pd.DataFrame(diccionario_personas)
personas

Unnamed: 0,nombres,edades
0,Ivan,32
1,David,28
2,Jero,40
3,Jesús,33


In [37]:
for fila in personas.index:
    print(personas.iloc[fila])

nombres    Ivan
edades       32
Name: 0, dtype: object
nombres    David
edades        28
Name: 1, dtype: object
nombres    Jero
edades       40
Name: 2, dtype: object
nombres    Jesús
edades        33
Name: 3, dtype: object


In [38]:
for columna in personas.columns:
    print(personas[columna])

0     Ivan
1    David
2     Jero
3    Jesús
Name: nombres, dtype: object
0    32
1    28
2    40
3    33
Name: edades, dtype: int64


In [42]:
for fila in personas.index:
    for columna in personas.columns:
        print(personas[columna].iloc[fila])
        print(personas[columna][fila])


Ivan
Ivan
32
32
David
David
28
28
Jero
Jero
40
40
Jesús
Jesús
33
33


In [43]:
personas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 2 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   nombres  4 non-null      object
 1   edades   4 non-null      int64 
dtypes: int64(1), object(1)
memory usage: 192.0+ bytes


In [44]:
personas.dtypes

nombres    object
edades      int64
dtype: object

In [47]:
personas["edades"] # Devuelve una columna

0    32
1    28
2    40
3    33
Name: edades, dtype: int64

In [48]:
personas.iloc[2]

nombres    Jero
edades       40
Name: 2, dtype: object

In [49]:
personas[1:3]  # Filtramos filas

Unnamed: 0,nombres,edades
1,David,28
2,Jero,40


In [55]:
personas.iloc[1:3,0:2]  # Filtramos filas y columnas
              # Rango Filas
                  # Rango columnas
            

Unnamed: 0,nombres,edades
1,David,28
2,Jero,40


In [56]:
personas.iloc[:,1] # Todas las filas de la segunda columna


0    32
1    28
2    40
3    33
Name: edades, dtype: int64

In [64]:
personas["calculada"]=personas["edades"]+personas["edades"]*personas["edades"]

In [65]:
personas

Unnamed: 0,nombres,edades,calculada
0,Ivan,32,1056
1,David,28,812
2,Jero,40,1640
3,Jesús,33,1122


In [66]:
columna_eliminada = personas.pop("calculada")
personas

Unnamed: 0,nombres,edades
0,Ivan,32
1,David,28
2,Jero,40
3,Jesús,33


In [67]:
columna_eliminada

0    1056
1     812
2    1640
3    1122
Name: calculada, dtype: int64

In [70]:
def doblar(numero):
    return numero*2

doblar(25)

50

In [74]:
personas["edades"].apply(doblar)

0    64
1    56
2    80
3    66
Name: edades, dtype: int64

In [75]:
def mayusculas(texto):
    return texto.upper()

mayusculas("ivan")

'IVAN'

In [77]:
personas["nombres"]=personas["nombres"].apply(mayusculas)

In [78]:
personas

Unnamed: 0,nombres,edades
0,IVAN,32
1,DAVID,28
2,JERO,40
3,JESÚS,33


In [80]:
def creadora_funcion_multiplicar(factor):
    def multiplicar(numero):
        return numero*factor
    return multiplicar

personas["edades"].apply(creadora_funcion_multiplicar(5))

0    160
1    140
2    200
3    165
Name: edades, dtype: int64

In [81]:
personas["edades"] * 2 

0    64
1    56
2    80
3    66
Name: edades, dtype: int64

In [83]:
personas["edades"] > 30 # Array lógico : < > <= >= == !=

0     True
1    False
2     True
3     True
Name: edades, dtype: bool

In [89]:
personas[ [True, False, False, True] ] # Filtrar

Unnamed: 0,nombres,edades
0,IVAN,32
3,JESÚS,33


In [90]:
personas[ personas["edades"]>30 ]

Unnamed: 0,nombres,edades
0,IVAN,32
2,JERO,40
3,JESÚS,33


In [94]:
datos_nombres = ( "Ivan", "David", "Jero", "Jesús" , "Ivan", "David", "Jero", "Jesús" )
datos_edades = ( 32,28, 40, 33 , 132,128, 140, 133 ) 
diccionario_personas = { "nombres": datos_nombres , "edades": datos_edades}
personas = pd.DataFrame(diccionario_personas)
personas

Unnamed: 0,nombres,edades
0,Ivan,32
1,David,28
2,Jero,40
3,Jesús,33
4,Ivan,132
5,David,128
6,Jero,140
7,Jesús,133


In [95]:
personas["edades"].cumsum()

0     32
1     60
2    100
3    133
4    265
5    393
6    533
7    666
Name: edades, dtype: int64

In [96]:
personas["nombres"].unique()

array(['Ivan', 'David', 'Jero', 'Jesús'], dtype=object)

In [97]:
personas["nombres"].value_counts() # Tabla de frecuencias

Ivan     2
David    2
Jero     2
Jesús    2
Name: nombres, dtype: int64

In [98]:
personas["edades"].min() # max mean median std

28

In [102]:
personas.groupby("nombres")["edades"].sum()
# SELECT SUM(edades) FROM personas GROUP BY nombres;

nombres
David    156
Ivan     164
Jero     180
Jesús    166
Name: edades, dtype: int64

In [103]:
personas.describe()

Unnamed: 0,edades
count,8.0
mean,83.25
std,53.651654
min,28.0
25%,32.75
50%,84.0
75%,132.25
max,140.0


In [104]:
personas["edades"]

0     32
1     28
2     40
3     33
4    132
5    128
6    140
7    133
Name: edades, dtype: int64

In [110]:
pd.cut(personas["edades"], (0,29,200), labels = ("Jovenzuelos", "Dinasaurios"))

0    Dinasaurios
1    Jovenzuelos
2    Dinasaurios
3    Dinasaurios
4    Dinasaurios
5    Dinasaurios
6    Dinasaurios
7    Dinasaurios
Name: edades, dtype: category
Categories (2, object): ['Jovenzuelos' < 'Dinasaurios']

In [109]:
pd.qcut(personas["edades"], 3, labels = ["A", "B", "C" ])

0    A
1    A
2    B
3    A
4    C
5    B
6    C
7    C
Name: edades, dtype: category
Categories (3, object): ['A' < 'B' < 'C']

In [112]:
import numpy as np # Libreria que existe en python para trabajo matricial

datos_nombres = ( "Ivan", "David", "Jero", np.NaN , "Ivan", "David", "Jero", "Jesús" )
datos_edades = ( 32,28, 40, 33 , 132,128, np.NaN , 133 ) 
diccionario_personas = { "nombres": datos_nombres , "edades": datos_edades}
personas = pd.DataFrame(diccionario_personas)
personas

Unnamed: 0,nombres,edades
0,Ivan,32.0
1,David,28.0
2,Jero,40.0
3,,33.0
4,Ivan,132.0
5,David,128.0
6,Jero,
7,Jesús,133.0


In [113]:
personas.isna()

Unnamed: 0,nombres,edades
0,False,False
1,False,False
2,False,False
3,True,False
4,False,False
5,False,False
6,False,True
7,False,False


In [116]:
personas[ personas["edades"].isna() ]

Unnamed: 0,nombres,edades
6,Jero,


In [117]:
personas["edades"].fillna(-99)

0     32.0
1     28.0
2     40.0
3     33.0
4    132.0
5    128.0
6    -99.0
7    133.0
Name: edades, dtype: float64

In [118]:
personas["edades"].replace(np.NaN, -10)

0     32.0
1     28.0
2     40.0
3     33.0
4    132.0
5    128.0
6    -10.0
7    133.0
Name: edades, dtype: float64

In [120]:
personas.dropna()

Unnamed: 0,nombres,edades
0,Ivan,32.0
1,David,28.0
2,Jero,40.0
4,Ivan,132.0
5,David,128.0
7,Jesús,133.0
