Series

Una Series es una estructura de datos unidimensional (como una columna de Excel o una lista en Python) que tiene:

Datos (números, texto, booleanos, etc.)

Índices que etiquetan cada elemento

In [1]:
import pandas as pd
import openpyxl as xl


In [2]:
#Crea una serie
serie = pd.Series([2,6,-1,8,9,2.3],index=['a','b','c','d','e','f'])
serie

a    2.0
b    6.0
c   -1.0
d    8.0
e    9.0
f    2.3
dtype: float64

In [3]:
#Borra serie
serie2=serie.drop(['a','e'])
serie2

b    6.0
c   -1.0
d    8.0
f    2.3
dtype: float64

In [4]:
#Seleccion
serie[['b','a']]

b    6.0
a    2.0
dtype: float64

In [5]:
#Asignacion
serie['b']=55
serie

a     2.0
b    55.0
c    -1.0
d     8.0
e     9.0
f     2.3
dtype: float64

In [6]:
#Filtros - pulsar alt+126 ~
#Valores menores a 4
serie[~(serie>4)]

a    2.0
c   -1.0
f    2.3
dtype: float64

In [7]:
serie[(serie<4)]

a    2.0
c   -1.0
f    2.3
dtype: float64

In [8]:
#valor entre intervalo - alt gr + 1 |
serie[(serie<0) | (serie>4)]

b    55.0
c    -1.0
d     8.0
e     9.0
dtype: float64

In [9]:
serie

a     2.0
b    55.0
c    -1.0
d     8.0
e     9.0
f     2.3
dtype: float64

In [10]:
#Valores nulos al unir series con diferentes indices
serie3 = pd.Series([7,5,-4],index=['b','c','e'])
serie3

b    7
c    5
e   -4
dtype: int64

In [11]:
serie4 = serie + serie3
serie4

a     NaN
b    62.0
c     4.0
d     NaN
e     5.0
f     NaN
dtype: float64

Operaciones para con metodos nulos

In [12]:
serie.add(serie3,fill_value=0) #  si encuentra valores nulos sumale 0

a     2.0
b    62.0
c     4.0
d     8.0
e     5.0
f     2.3
dtype: float64

In [13]:
serie4=serie.sub(serie3,fill_value=0) # sub es para la resta
serie4

a     2.0
b    48.0
c    -6.0
d     8.0
e    13.0
f     2.3
dtype: float64

In [14]:
serie.mul(serie3,fill_value=0)

a      0.0
b    385.0
c     -5.0
d      0.0
e    -36.0
f      0.0
dtype: float64

In [15]:
serie.div(serie3)

a         NaN
b    7.857143
c   -0.200000
d         NaN
e   -2.250000
f         NaN
dtype: float64

DataFrame

Un DataFrame es una estructura de datos en forma de tabla, similar a una hoja de Excel o una tabla SQL. Es bidimensional: filas y columnas.

En pandas, un DataFrame es:

Una colección de Series (columnas)

Con un índice de filas (como etiquetas de cada fila)

Cada columna puede tener un tipo de dato distinto


In [16]:
datos ={ 'Alumno':['M Mar','Lucia','Jose','Eva'],
         'Nota':[8,9,6,10]}
df=pd.DataFrame(datos,columns=['Alumno','Nota'])
df

Unnamed: 0,Alumno,Nota
0,M Mar,8
1,Lucia,9
2,Jose,6
3,Eva,10


In [17]:
#Borrar columna
df.drop('Nota',axis=1) # borra pero  sin  guardar por que nose asigno a la misma variable
df

Unnamed: 0,Alumno,Nota
0,M Mar,8
1,Lucia,9
2,Jose,6
3,Eva,10


In [18]:
#Mostrar parte del dataframe
df.head(2)

Unnamed: 0,Alumno,Nota
0,M Mar,8
1,Lucia,9


In [19]:
df.tail(2)

Unnamed: 0,Alumno,Nota
2,Jose,6
3,Eva,10


In [20]:
#Ordenar dataframe
df.sort_index()#ordena por indice

Unnamed: 0,Alumno,Nota
0,M Mar,8
1,Lucia,9
2,Jose,6
3,Eva,10


In [21]:
df.sort_values(by='Nota')

Unnamed: 0,Alumno,Nota
2,Jose,6
0,M Mar,8
1,Lucia,9
3,Eva,10


In [22]:
df.sort_values(by='Alumno')

Unnamed: 0,Alumno,Nota
3,Eva,10
2,Jose,6
1,Lucia,9
0,M Mar,8


In [23]:
#Asigna rango a las entradas
df=df.rank() # le da un  rango opr orden  alfabetico
df

Unnamed: 0,Alumno,Nota
0,4.0,2.0
1,3.0,3.0
2,2.0,1.0
3,1.0,4.0


In [28]:
df.sort_values(by='Nota')

Unnamed: 0,Alumno,Nota
2,2.0,1.0
0,4.0,2.0
1,3.0,3.0
3,1.0,4.0


Entrada / Salida - Lectura / Escritura


In [29]:
#grabar DataFrame
df.to_csv('misDatos.csv',index=False,columns=['Alumno','Nota'])

In [31]:
#leer DataFrame
mis_datos=pd.read_csv('misDatos.csv',header=None,nrows=3)
mis_datos.columns=['Alumno','Nota']
mis_datos.head()

Unnamed: 0,Alumno,Nota
0,4.0,2.0
1,3.0,3.0
2,2.0,1.0


In [34]:
#grabar en excel
df.to_excel('misDatos.xlsx',index=False,sheet_name='MiHoja')

In [35]:
#leer de excel
mis_datos_excel = pd.read_excel('misDatos.xlsx')
mis_datos_excel

Unnamed: 0,Alumno,Nota
0,4,2
1,3,3
2,2,1
3,1,4


Selección por posición

In [42]:
df

Unnamed: 0,Alumno,Nota
0,M Mar,8
1,Lucia,9
2,Jose,6
3,Eva,10


In [43]:
#Selección por indice
df[1:3]

Unnamed: 0,Alumno,Nota
1,Lucia,9
2,Jose,6


In [44]:
#Por posicion fila - columna
df.iloc[[1],[1]]

Unnamed: 0,Nota
1,9


In [45]:
#Por etiqueta, fila por indice y columna por valor
df.loc[[2],['Alumno']]

Unnamed: 0,Alumno
2,Jose


In [46]:
#Filtro
df_mayor_9=df[df['Nota']>8]
df_mayor_9

Unnamed: 0,Alumno,Nota
1,Lucia,9
3,Eva,10


Obteniendo información del dataset

In [47]:
# Nos da el número de filas y columnas
df.shape

(4, 2)

In [48]:
#Nos informa del indice
df.index

RangeIndex(start=0, stop=4, step=1)

In [49]:
#Columnas
df.columns

Index(['Alumno', 'Nota'], dtype='object')

In [51]:
#Nos da informacion
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Alumno  4 non-null      object
 1   Nota    4 non-null      int64 
dtypes: int64(1), object(1)
memory usage: 196.0+ bytes


In [52]:
#Nos indica los valores no nulos
df.count()

Alumno    4
Nota      4
dtype: int64

In [53]:
#Suma de valores
df.sum()

Alumno    M MarLuciaJoseEva
Nota                     33
dtype: object

In [54]:
df.cumsum()

Unnamed: 0,Alumno,Nota
0,M Mar,8
1,M MarLucia,17
2,M MarLuciaJose,23
3,M MarLuciaJoseEva,33


In [77]:
df

Unnamed: 0,Alumno,Nota
0,M Mar,32
1,Lucia,36
2,Jose,24
3,Eva,40


In [56]:
df.min()

Alumno    Eva
Nota        6
dtype: object

In [57]:
df.max()

Alumno    M Mar
Nota         10
dtype: object

In [58]:
df.describe()

Unnamed: 0,Nota
count,4.0
mean,8.25
std,1.707825
min,6.0
25%,7.5
50%,8.5
75%,9.25
max,10.0


In [67]:
#para sacar la media
df['Nota'].mean()

np.float64(8.25)

In [68]:
#para sacar la mediana
df['Nota'].median()

np.float64(8.5)

Aplicacion de funciones

In [85]:
multiplica_por_dos=lambda x: x*2


In [88]:
df['Nota'].apply(multiplica_por_dos)


0    164
1    172
2    148
3    180
Name: Nota, dtype: int64

In [89]:
df['Nota']=df['Nota']+25
df

Unnamed: 0,Alumno,Nota
0,M Mar,107
1,Lucia,111
2,Jose,99
3,Eva,115


In [90]:
cuadrado = lambda x : x**2

In [91]:
df['Nota']=df['Nota'].apply(cuadrado)
df

Unnamed: 0,Alumno,Nota
0,M Mar,11449
1,Lucia,12321
2,Jose,9801
3,Eva,13225
