# Introducción a Pandas

In [104]:
import pandas as pd
import numpy as np

## Crear serie

In [84]:
ser1=pd.Series([48, 47, 16])
ser1


0    48
1    47
2    16
dtype: int64

In [85]:
ser2=pd.Series([[16, 48],
              [1.59, 1.55, 'Pesos'],
              [2007, 1974],
              {'hijo':'Fabio', 'madre':'Maribel'}])
ser2

0                                 [16, 48]
1                      [1.59, 1.55, Pesos]
2                             [2007, 1974]
3    {'hijo': 'Fabio', 'madre': 'Maribel'}
dtype: object

## El objeto DataFrame

In [86]:
df=pd.DataFrame([1974,1975,2007])
df

Unnamed: 0,0
0,1974
1,1975
2,2007


In [17]:
df.shape

(3, 1)

In [87]:
print('El número de columas es:', list(df.columns))
df.columns

El número de columas es: [0]


RangeIndex(start=0, stop=1, step=1)

In [88]:
print('El número de filas es:', list(df.index))
df.index

El número de filas es: [0, 1, 2]


RangeIndex(start=0, stop=3, step=1)

#### Renombrar columnas y filas

In [89]:
df.columns=['Año Nacimiento']
df
df.index=['Maribel','Ricardo','Fabio']
df

Unnamed: 0,Año Nacimiento
Maribel,1974
Ricardo,1975
Fabio,2007


#### Crear DataFrame con multiples columnas

In [90]:
df_multiple=pd.DataFrame([['Maribel',48],['Fabio',16]])
df_multiple

Unnamed: 0,0,1
0,Maribel,48
1,Fabio,16


In [31]:
df_multiple.shape

(2, 2)

#### También puede asignar los nombres de las columnas y las filas al crear el DataFrame.

In [91]:
df_multiple=pd.DataFrame([['Maribel',48],['Fabio',16]],columns=['Nombre','Edad'],index=['Madre','Hijo'])
df_multiple

Unnamed: 0,Nombre,Edad
Madre,Maribel,48
Hijo,Fabio,16


## Funciones útiles

#### Generar números aleatorios

In [92]:
A=np.random.normal(2,1,8)
## np.random.normal() genera 8 números a partir de una distribución 
## normal con una media de 2 y una desviación estándar de 1.
A

array([ 2.16853281e+00,  2.84177215e+00,  1.51952947e+00,  3.24629926e+00,
        2.89811816e+00,  1.69547852e+00, -1.38428644e-03,  2.25144549e+00])

#### Concatenar varias series de datos mediante pd.concat()

In [93]:
df1=pd.DataFrame(['Xbox','PlayStation','Nintendo' ])
df2=pd.DataFrame([254.99, 458.90, 369.99 ])
df3=pd.DataFrame({'X','Y','Z'})
B=pd.concat([df1,df2,df3],axis=1)
# El parámetro axis=1 especifica que la concatenación se hace a lo largo de las columnas.
B

Unnamed: 0,0,0.1,0.2
0,Xbox,254.99,Z
1,PlayStation,458.9,Y
2,Nintendo,369.99,X


#### Las funciones numéricas df.sum , df.mean y divmod

In [94]:
Ser1=pd.DataFrame([-5,15, 35])
Ser2=pd.DataFrame([254.99, 458.90, -369.99 ])
Ser3=pd.DataFrame({2.55,-25.8,5})
C=pd.concat([Ser1,Ser2,Ser3], axis=1)
C.columns=['Serie1','Serie2','Serie3']
C

Unnamed: 0,Serie1,Serie2,Serie3
0,-5,254.99,2.55
1,15,458.9,5.0
2,35,-369.99,-25.8


In [95]:
# Sumar valores de las columnas
sumAxis0=C.sum(axis=0)
sumAxis0

Serie1     45.00
Serie2    343.90
Serie3    -18.25
dtype: float64

In [96]:
# Sumar valores de las filas
sumAxis1=C.sum(axis=1)
sumAxis1

0    252.54
1    478.90
2   -360.79
dtype: float64

In [98]:
D=list(np.random.normal(2,1,8)) # Crear lista
D1=pd.DataFrame(D) # Crear DataFrame a partir de la lista
E=list(np.random.normal(2,1,8))
E1=pd.DataFrame(E)
F=pd.concat([D1,E1],axis=1)
F.columns=['Alturas','Pesos']
F


Unnamed: 0,Alturas,Pesos
0,0.564602,2.152863
1,2.860248,4.660189
2,3.339621,1.342223
3,2.042307,2.618019
4,0.701228,1.816268
5,0.464448,2.468988
6,1.868665,1.416733
7,3.248851,2.07509


In [99]:
# Si desea agrupar las 4 primeras filas de la columna Pesos, puede utilizar el método loc()
 
Df_loc=F.loc[:3,'Pesos']
Df_loc

0    2.152863
1    4.660189
2    1.342223
3    2.618019
Name: Pesos, dtype: float64

In [100]:
# Si desea seleccionar un índice concreto del DataFrame, puede utilizar el método iloc()
Df_iloc=F.loc[5]
Df_iloc

Alturas    0.464448
Pesos      2.468988
Name: 5, dtype: float64