In [28]:
import pandas as pd
import numpy as np

# Dataframe

In [29]:
# URL que contiene los datos en formato CSV
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'


## Carguemos los datos

In [30]:
pd.read_csv(url)

Unnamed: 0,5.1,3.5,1.4,0.2,Iris-setosa
0,4.9,3.0,1.4,0.2,Iris-setosa
1,4.7,3.2,1.3,0.2,Iris-setosa
2,4.6,3.1,1.5,0.2,Iris-setosa
3,5.0,3.6,1.4,0.2,Iris-setosa
4,5.4,3.9,1.7,0.4,Iris-setosa
...,...,...,...,...,...
144,6.7,3.0,5.2,2.3,Iris-virginica
145,6.3,2.5,5.0,1.9,Iris-virginica
146,6.5,3.0,5.2,2.0,Iris-virginica
147,6.2,3.4,5.4,2.3,Iris-virginica


Pueden observar como pandas asumio que la primera fila del archivo era el nombre de la columna. Utilizemos el argumento `header` para indicarle que es falso.

In [64]:
# Cargar los datos del archivo CSV en un DataFrame
data = pd.read_csv(url, header=None)
data

Unnamed: 0,0,1,2,3,4
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica


In [32]:
data.index

RangeIndex(start=0, stop=150, step=1)

In [33]:
data.shape

(150, 5)

In [65]:
data.index = [i*-1 for i in data.index]

In [35]:
data.index

Int64Index([   0,   -1,   -2,   -3,   -4,   -5,   -6,   -7,   -8,   -9,
            ...
            -140, -141, -142, -143, -144, -145, -146, -147, -148, -149],
           dtype='int64', length=150)

Ahora asignemos nombres a las columnas. Como es un Dataset conocido podemos saber que es cada columna. Estos datos se conocen como 'Iris' y fueron creados por el estadistico Fisher.

In [36]:
# Asignar nombres a las columnas
data.columns = ['largo_sepalo', 'ancho_sepalo', 'largo_petalo', 'ancho_petalo', 'clase']

# Mostrar los primeros 5 registros del DataFrame
print(data.head(10))

    largo_sepalo  ancho_sepalo  largo_petalo  ancho_petalo        clase
 0           5.1           3.5           1.4           0.2  Iris-setosa
-1           4.9           3.0           1.4           0.2  Iris-setosa
-2           4.7           3.2           1.3           0.2  Iris-setosa
-3           4.6           3.1           1.5           0.2  Iris-setosa
-4           5.0           3.6           1.4           0.2  Iris-setosa
-5           5.4           3.9           1.7           0.4  Iris-setosa
-6           4.6           3.4           1.4           0.3  Iris-setosa
-7           5.0           3.4           1.5           0.2  Iris-setosa
-8           4.4           2.9           1.4           0.2  Iris-setosa
-9           4.9           3.1           1.5           0.1  Iris-setosa


In [37]:
type(data)

pandas.core.frame.DataFrame

# Accediendo a Columnas

In [38]:
data['largo_sepalo']

 0      5.1
-1      4.9
-2      4.7
-3      4.6
-4      5.0
       ... 
-145    6.7
-146    6.3
-147    6.5
-148    6.2
-149    5.9
Name: largo_sepalo, Length: 150, dtype: float64

In [40]:
# Error
data['asd']

KeyError: 'asd'

Cuando seleccionas una columna unica se convierte en `pd.Series`

In [43]:
print(type(data['largo_sepalo']))
data['largo_sepalo']

<class 'pandas.core.series.Series'>


 0      5.1
-1      4.9
-2      4.7
-3      4.6
-4      5.0
       ... 
-145    6.7
-146    6.3
-147    6.5
-148    6.2
-149    5.9
Name: largo_sepalo, Length: 150, dtype: float64

In [45]:
data[-149]

KeyError: -149

Pero cuando usamos una lista para seleccionar las columnas se mantiene como un DataFrame.

In [51]:
print(type(data[['largo_sepalo']]))
data[['largo_sepalo']]['largo_sepalo'].shape

<class 'pandas.core.frame.DataFrame'>


(150,)

A su vez tambien podemos seleccionar varias columnas utilizando una lista.

In [50]:
data[['largo_sepalo', 'largo_petalo' ]]

Unnamed: 0,largo_sepalo,largo_petalo
0,5.1,1.4
-1,4.9,1.4
-2,4.7,1.3
-3,4.6,1.5
-4,5.0,1.4
...,...,...
-145,6.7,5.2
-146,6.3,5.0
-147,6.5,5.2
-148,6.2,5.4


## Slicing

In [53]:
data = pd.DataFrame({
    'nombre': ['Juan', 'Maria', 'Pedro', 'Luis', 'Ana'],
    'edad': [25, 30, 40, 35, 28],
    'ciudad': ['Bogotá', 'Cali', 'Medellin', 'Barranquilla', 'Bucaramanga'],
    'salario': [2000, 3000, 4000, 3500, 2500]
})
data

Unnamed: 0,nombre,edad,ciudad,salario
0,Juan,25,Bogotá,2000
1,Maria,30,Cali,3000
2,Pedro,40,Medellin,4000
3,Luis,35,Barranquilla,3500
4,Ana,28,Bucaramanga,2500


In [55]:
data

Unnamed: 0,nombre,edad,ciudad,salario
0,Juan,25,Bogotá,2000
1,Maria,30,Cali,3000
2,Pedro,40,Medellin,4000
3,Luis,35,Barranquilla,3500
4,Ana,28,Bucaramanga,2500


In [56]:
data.shape

(5, 4)

In [59]:
type(data)

pandas.core.frame.DataFrame

In [71]:
# Seleccionar las filas 2 a 4 (excluyendo la última)
filas = data[[0,1,2]]
filas

Unnamed: 0,0,1,2
0,5.1,3.5,1.4
-1,4.9,3.0,1.4
-2,4.7,3.2,1.3
-3,4.6,3.1,1.5
-4,5.0,3.6,1.4
...,...,...,...
-145,6.7,3.0,5.2
-146,6.3,2.5,5.0
-147,6.5,3.0,5.2
-148,6.2,3.4,5.4


Seleccionar filas y columnas al mismo tiempo usando `loc`

In [26]:
# Seleccionar las filas 1 y 3 y las columnas 'nombre' y 'salario'
subset = data.loc[[0, 2], ['nombre', 'salario']]
print(subset)


  nombre  salario
0   Juan     2000
2  Pedro     4000


Seleccionar filas y columnas al mismo tiempo usando `iloc`. Se considera mala practica.

In [27]:
# Seleccionar las filas 1 y 3 y las columnas 0 y 3
subset = data.iloc[[0, 2], [0, 3]]
print(subset)

  nombre  salario
0   Juan     2000
2  Pedro     4000


## Tipos de Datos

In [6]:
data.dtypes

largo_sepalo    float64
ancho_sepalo    float64
largo_petalo    float64
ancho_petalo    float64
clase            object
dtype: object

## Estadisticos

In [7]:
data.describe()

Unnamed: 0,largo_sepalo,ancho_sepalo,largo_petalo,ancho_petalo
count,150.0,150.0,150.0,150.0
mean,5.843333,3.054,3.758667,1.198667
std,0.828066,0.433594,1.76442,0.763161
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5
