In [1]:
# Documentación completa en https://pandas.pydata.org/

In [2]:
# Crear una serie --> matriz unidimesional con etiquetado automático (numérico y secuencial desde 0)
import numpy as np
import pandas as pd
d = np.array(['Jorge','Pedro','Antonio'])
s = pd.Series(data = d)
s

0      Jorge
1      Pedro
2    Antonio
dtype: object

In [3]:
# Utilizar etiquetado en una serie
d = np.array([1,'Jorge',25])
s = pd.Series(data = d, index=['id', 'nombre', 'edad'])
s

id            1
nombre    Jorge
edad         25
dtype: object

In [4]:
# Crear un dataframe --> matriz n-dimesional con etiquetado automático (numérico y secuencial desde 0 para cada dimensión)
d = np.array([[11,22,33],[44,55,66]])
s = pd.DataFrame(data = d)
s

Unnamed: 0,0,1,2
0,11,22,33
1,44,55,66


In [5]:
# Utilizar etiquetado en una dataframe para las columnas

d = {'col1': [1, 2, 3], 'col2': [4, 5, 6]}
df = pd.DataFrame(data=d)
df

Unnamed: 0,col1,col2
0,1,4
1,2,5
2,3,6


In [6]:
# Otro ejemplo de dataframe más real

d = {'nombre': ['Juan', 'Pedro', 'Antonio'], 'edad': [37, 23, 56]}
df = pd.DataFrame(data=d)
df

Unnamed: 0,nombre,edad
0,Juan,37
1,Pedro,23
2,Antonio,56


In [7]:
# Es posible etiquetar también las filas, pero no tiene mayor utilidad
d = np.array([['','nombre','edad'],['cliente1','Juan',37],['cliente2','Pedro',23],['cliente3','Antonio',56]])
print('Contenido:', d[1:,1:])
print('Filas:', d[1:,0])
print('Columnas:', d[0,1:])
df = pd.DataFrame(data=d[1:,1:], index=d[1:,0], columns=d[0,1:])
df


Contenido: [['Juan' '37']
 ['Pedro' '23']
 ['Antonio' '56']]
Filas: ['cliente1' 'cliente2' 'cliente3']
Columnas: ['nombre' 'edad']


Unnamed: 0,nombre,edad
cliente1,Juan,37
cliente2,Pedro,23
cliente3,Antonio,56


In [8]:
# Obtener la forma del dataframe 
d = np.array([[11,22,33],[44,55,66]])
df = pd.DataFrame(d)
print(df)
df.shape

    0   1   2
0  11  22  33
1  44  55  66


(2, 3)

In [9]:
# Cantidad de filas del dataframe
d = np.array([[11,22,33],[44,55,66]])
df = pd.DataFrame(d)
len(df.index)

2

In [10]:
# Estadísticas varias del dataframe
d = np.array([[1,2,3],[4,5,6]])
df = pd.DataFrame(d)
print(df)
df.describe()

   0  1  2
0  1  2  3
1  4  5  6


Unnamed: 0,0,1,2
count,2.0,2.0,2.0
mean,2.5,3.5,4.5
std,2.12132,2.12132,2.12132
min,1.0,2.0,3.0
25%,1.75,2.75,3.75
50%,2.5,3.5,4.5
75%,3.25,4.25,5.25
max,4.0,5.0,6.0


In [11]:
# Obtener sólo la media de cada columna del dataframe
d = np.array([[1,2,3],[4,5,6]])
df = pd.DataFrame(d)
print(df,' \n')
df.mean()

   0  1  2
0  1  2  3
1  4  5  6  



0    2.5
1    3.5
2    4.5
dtype: float64

In [12]:
# Obtener la correlación del dataframe
d = {'nombre': ['Juan', 'Pedro', 'Antonio'], 'edad': [37, 23, 56], 'peso': [80,75,100], 'salario':[10000,20000,5000]}
df = pd.DataFrame(data=d)
print(df,' \n')
df.corr()

    nombre  edad  peso  salario
0     Juan    37    80    10000
1    Pedro    23    75    20000
2  Antonio    56   100     5000  



Unnamed: 0,edad,peso,salario
edad,1.0,0.969841,-0.961776
peso,0.969841,1.0,-0.866025
salario,-0.961776,-0.866025,1.0


In [13]:
# Obtener la cantidad de valores no nulos en cada columa del dataframe
d = np.array([[1,2,3],[1,5,6],[7,8,9]])
df = pd.DataFrame(d)
print(df,' \n')
df.count()

   0  1  2
0  1  2  3
1  1  5  6
2  7  8  9  



0    3
1    3
2    3
dtype: int64

In [14]:
# Obtener el máximo valor de cada columa del dataframe
d = np.array([[1,9,3],[5,5,6],[0,3,7]])
df = pd.DataFrame(d)
print(df,' \n')
df.max()

   0  1  2
0  1  9  3
1  5  5  6
2  0  3  7  



0    5
1    9
2    7
dtype: int64

In [15]:
# Obtener el mínimo valor de cada columa del dataframe
d = np.array([[1,9,3],[5,5,6],[0,4,7]])
df = pd.DataFrame(d)
print(df,' \n')
df.min()

   0  1  2
0  1  9  3
1  5  5  6
2  0  4  7  



0    0
1    4
2    3
dtype: int64

In [16]:
# Obtener el promedio de cada columa del dataframe
d = np.array([[1,9,3],[5,5,6],[0,4,6]])
df = pd.DataFrame(d)
print(df,' \n')
df.mean()

   0  1  2
0  1  9  3
1  5  5  6
2  0  4  6  



0    2.0
1    6.0
2    5.0
dtype: float64

In [17]:
# Obtener el desvío estandar de cada columna del dataframe
d = np.array([[1,9,3],[5,5,6],[0,4,6]])
df = pd.DataFrame(d)
print(df,' \n')
df.std()

   0  1  2
0  1  9  3
1  5  5  6
2  0  4  6  



0    2.645751
1    2.645751
2    1.732051
dtype: float64

In [18]:
# Seleccionar una columna del dataframe
d = np.array([[1,9,3],[5,5,6],[0,4,6]])
df = pd.DataFrame(d)
print(df,' \n')
df[1]

   0  1  2
0  1  9  3
1  5  5  6
2  0  4  6  



0    9
1    5
2    4
Name: 1, dtype: int64

In [19]:
# Seleccionar varias columnas del dataframe
d = np.array([[1,9,3],[5,5,6],[0,4,6]])
df = pd.DataFrame(d)
print(df,' \n')
df[[1,2]]

   0  1  2
0  1  9  3
1  5  5  6
2  0  4  6  



Unnamed: 0,1,2
0,9,3
1,5,6
2,4,6


In [20]:
# Ubicar una "celda" del dataframe
d = np.array([[1,9,3],[5,5,6],[0,4,7]])
df = pd.DataFrame(d)
print(df,' \n')
df.iloc[1][2]

   0  1  2
0  1  9  3
1  5  5  6
2  0  4  7  



6

In [21]:
# Seleccioar una fila del dataframe
d = np.array([[1,9,3],[5,8,6],[0,4,7]])
df = pd.DataFrame(d)
print(df,' \n')
df.loc[1]

   0  1  2
0  1  9  3
1  5  8  6
2  0  4  7  



0    5
1    8
2    6
Name: 1, dtype: int64

In [22]:
# Convertir un archivo csv en un dataframe
df = pd.read_csv('/content/sample_data/california_housing_test.csv')
df


Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
0,-122.05,37.37,27.0,3885.0,661.0,1537.0,606.0,6.6085,344700.0
1,-118.30,34.26,43.0,1510.0,310.0,809.0,277.0,3.5990,176500.0
2,-117.81,33.78,27.0,3589.0,507.0,1484.0,495.0,5.7934,270500.0
3,-118.36,33.82,28.0,67.0,15.0,49.0,11.0,6.1359,330000.0
4,-119.67,36.33,19.0,1241.0,244.0,850.0,237.0,2.9375,81700.0
...,...,...,...,...,...,...,...,...,...
2995,-119.86,34.42,23.0,1450.0,642.0,1258.0,607.0,1.1790,225000.0
2996,-118.14,34.06,27.0,5257.0,1082.0,3496.0,1036.0,3.3906,237200.0
2997,-119.70,36.30,10.0,956.0,201.0,693.0,220.0,2.2895,62000.0
2998,-117.12,34.10,40.0,96.0,14.0,46.0,14.0,3.2708,162500.0


In [23]:
# Convertir un archivo csv sin encabezados en un dataframe
df = pd.read_csv('/content/adult.data', header=None)
df


Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
32556,27,Private,257302,Assoc-acdm,12,Married-civ-spouse,Tech-support,Wife,White,Female,0,0,38,United-States,<=50K
32557,40,Private,154374,HS-grad,9,Married-civ-spouse,Machine-op-inspct,Husband,White,Male,0,0,40,United-States,>50K
32558,58,Private,151910,HS-grad,9,Widowed,Adm-clerical,Unmarried,White,Female,0,0,40,United-States,<=50K
32559,22,Private,201490,HS-grad,9,Never-married,Adm-clerical,Own-child,White,Male,0,0,20,United-States,<=50K


In [24]:
# Convertir un archivo csv sin encabezados en un dataframe, filtrando sólo algunas columnas
df = pd.read_csv('/content/adult.data', header=None, usecols=[0,4,5,14])
df


Unnamed: 0,0,4,5,14
0,39,13,Never-married,<=50K
1,50,13,Married-civ-spouse,<=50K
2,38,9,Divorced,<=50K
3,53,7,Married-civ-spouse,<=50K
4,28,13,Married-civ-spouse,<=50K
...,...,...,...,...
32556,27,12,Married-civ-spouse,<=50K
32557,40,9,Married-civ-spouse,>50K
32558,58,9,Widowed,<=50K
32559,22,9,Never-married,<=50K


In [25]:
# Obtener solamente las primeras N filas
df.head(10)


Unnamed: 0,0,4,5,14
0,39,13,Never-married,<=50K
1,50,13,Married-civ-spouse,<=50K
2,38,9,Divorced,<=50K
3,53,7,Married-civ-spouse,<=50K
4,28,13,Married-civ-spouse,<=50K
5,37,14,Married-civ-spouse,<=50K
6,49,5,Married-spouse-absent,<=50K
7,52,9,Married-civ-spouse,>50K
8,31,14,Never-married,>50K
9,42,13,Married-civ-spouse,>50K


In [26]:
# Obtener solamente las ultimas N filas
df.tail(10)


Unnamed: 0,0,4,5,14
32551,32,6,Married-civ-spouse,<=50K
32552,43,11,Married-civ-spouse,<=50K
32553,32,14,Never-married,<=50K
32554,53,14,Married-civ-spouse,>50K
32555,22,10,Never-married,<=50K
32556,27,12,Married-civ-spouse,<=50K
32557,40,9,Married-civ-spouse,>50K
32558,58,9,Widowed,<=50K
32559,22,9,Never-married,<=50K
32560,52,9,Married-civ-spouse,>50K


In [27]:
# Limpieza de los datos
### Verificar valores nulos del csv cargado
df = pd.read_csv('/content/nulos.data', header=None)
print(df)
df.isnull()

     0    1    2  3    4
0  1.0  2.0  3.0  4  NaN
1  1.0  NaN  NaN  4  5.0
2  NaN  2.0  3.0  4  NaN
3  NaN  NaN  3.0  4  NaN
4  1.0  2.0  3.0  4  NaN
5  1.0  NaN  3.0  4  NaN


Unnamed: 0,0,1,2,3,4
0,False,False,False,False,True
1,False,True,True,False,False
2,True,False,False,False,True
3,True,True,False,False,True
4,False,False,False,False,True
5,False,True,False,False,True


In [28]:
### Verificar cantidad de valores nulos del csv cargado por columna
df.isnull().sum()

0    2
1    3
2    1
3    0
4    5
dtype: int64

In [29]:
### Reemplaza los valores nulos por algún valor por default
df.fillna(0)

Unnamed: 0,0,1,2,3,4
0,1.0,2.0,3.0,4,0.0
1,1.0,0.0,0.0,4,5.0
2,0.0,2.0,3.0,4,0.0
3,0.0,0.0,3.0,4,0.0
4,1.0,2.0,3.0,4,0.0
5,1.0,0.0,3.0,4,0.0


In [30]:
# Setear nombre de columnas 
df = pd.read_csv('/content/nulos.data', header=None, names=['COL1','COL2','COL3','COL4','COL5'])
df

Unnamed: 0,COL1,COL2,COL3,COL4,COL5
0,1.0,2.0,3.0,4,
1,1.0,,,4,5.0
2,,2.0,3.0,4,
3,,,3.0,4,
4,1.0,2.0,3.0,4,
5,1.0,,3.0,4,


Documentación completa de read_csv: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html?highlight=read_csv#pandas.read_csv

Lista de métodos para subir información desde distintos origenes a un dataframe: https://pandas.pydata.org/pandas-docs/stable/reference/io.html (ej: read_excel)