In [1]:
import pandas as pd
import numpy as np

# Dataframe

In [2]:
# URL que contiene los datos en formato CSV
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'


## Carguemos los datos

In [3]:
pd.read_csv(url)

Unnamed: 0,5.1,3.5,1.4,0.2,Iris-setosa
0,4.9,3.0,1.4,0.2,Iris-setosa
1,4.7,3.2,1.3,0.2,Iris-setosa
2,4.6,3.1,1.5,0.2,Iris-setosa
3,5.0,3.6,1.4,0.2,Iris-setosa
4,5.4,3.9,1.7,0.4,Iris-setosa
...,...,...,...,...,...
144,6.7,3.0,5.2,2.3,Iris-virginica
145,6.3,2.5,5.0,1.9,Iris-virginica
146,6.5,3.0,5.2,2.0,Iris-virginica
147,6.2,3.4,5.4,2.3,Iris-virginica


Pueden observar como pandas asumio que la primera fila del archivo era el nombre de la columna. Utilizemos el argumento `header` para indicarle que es falso.

In [4]:
# Cargar los datos del archivo CSV en un DataFrame
data = pd.read_csv(url, header=None)
data

Unnamed: 0,0,1,2,3,4
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica


Ahora asignemos nombres a las columnas. Como es un Dataset conocido podemos saber que es cada columna. Estos datos se conocen como 'Iris' y fueron creados por el estadistico Fisher.

In [5]:
# Asignar nombres a las columnas
data.columns = ['largo_sepalo', 'ancho_sepalo', 'largo_petalo', 'ancho_petalo', 'clase']

# Mostrar los primeros 5 registros del DataFrame
print(data.head())

   largo_sepalo  ancho_sepalo  largo_petalo  ancho_petalo        clase
0           5.1           3.5           1.4           0.2  Iris-setosa
1           4.9           3.0           1.4           0.2  Iris-setosa
2           4.7           3.2           1.3           0.2  Iris-setosa
3           4.6           3.1           1.5           0.2  Iris-setosa
4           5.0           3.6           1.4           0.2  Iris-setosa


# Accediendo a Columnas

In [10]:
data['largo_sepalo']

0      5.1
1      4.9
2      4.7
3      4.6
4      5.0
      ... 
145    6.7
146    6.3
147    6.5
148    6.2
149    5.9
Name: largo_sepalo, Length: 150, dtype: float64

## Tipos de Datos

In [6]:
data.dtypes

largo_sepalo    float64
ancho_sepalo    float64
largo_petalo    float64
ancho_petalo    float64
clase            object
dtype: object

## Estadisticos

In [7]:
data.describe()

Unnamed: 0,largo_sepalo,ancho_sepalo,largo_petalo,ancho_petalo
count,150.0,150.0,150.0,150.0
mean,5.843333,3.054,3.758667,1.198667
std,0.828066,0.433594,1.76442,0.763161
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


In [7]:
data["Diferencia de largo"] = data.apply(lambda row: abs(row["largo_sepalo"] - row["largo_petalo"]), axis = 1)

In [8]:
data

Unnamed: 0,largo_sepalo,ancho_sepalo,largo_petalo,ancho_petalo,clase,Diferencia de largo
0,5.1,3.5,1.4,0.2,Iris-setosa,3.7
1,4.9,3.0,1.4,0.2,Iris-setosa,3.5
2,4.7,3.2,1.3,0.2,Iris-setosa,3.4
3,4.6,3.1,1.5,0.2,Iris-setosa,3.1
4,5.0,3.6,1.4,0.2,Iris-setosa,3.6
...,...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica,1.5
146,6.3,2.5,5.0,1.9,Iris-virginica,1.3
147,6.5,3.0,5.2,2.0,Iris-virginica,1.3
148,6.2,3.4,5.4,2.3,Iris-virginica,0.8


In [9]:
data["Diferencia de ancho"] = data.apply(lambda row: abs(row["ancho_sepalo"] - row["ancho_petalo"]), axis = 1)

In [10]:
data

Unnamed: 0,largo_sepalo,ancho_sepalo,largo_petalo,ancho_petalo,clase,Diferencia de largo,Diferencia de ancho
0,5.1,3.5,1.4,0.2,Iris-setosa,3.7,3.3
1,4.9,3.0,1.4,0.2,Iris-setosa,3.5,2.8
2,4.7,3.2,1.3,0.2,Iris-setosa,3.4,3.0
3,4.6,3.1,1.5,0.2,Iris-setosa,3.1,2.9
4,5.0,3.6,1.4,0.2,Iris-setosa,3.6,3.4
...,...,...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica,1.5,0.7
146,6.3,2.5,5.0,1.9,Iris-virginica,1.3,0.6
147,6.5,3.0,5.2,2.0,Iris-virginica,1.3,1.0
148,6.2,3.4,5.4,2.3,Iris-virginica,0.8,1.1


In [11]:
data.dtypes

largo_sepalo           float64
ancho_sepalo           float64
largo_petalo           float64
ancho_petalo           float64
clase                   object
Diferencia de largo    float64
Diferencia de ancho    float64
dtype: object

In [13]:
data.values

array([[5.1, 3.5, 1.4, ..., 'Iris-setosa', 3.6999999999999997, 3.3],
       [4.9, 3.0, 1.4, ..., 'Iris-setosa', 3.5000000000000004, 2.8],
       [4.7, 3.2, 1.3, ..., 'Iris-setosa', 3.4000000000000004, 3.0],
       ...,
       [6.5, 3.0, 5.2, ..., 'Iris-virginica', 1.2999999999999998, 1.0],
       [6.2, 3.4, 5.4, ..., 'Iris-virginica', 0.7999999999999998, 1.1],
       [5.9, 3.0, 5.1, ..., 'Iris-virginica', 0.8000000000000007, 1.2]],
      dtype=object)