In [12]:
import pandas as pd
import numpy as np

# Dataframe

In [13]:
# URL que contiene los datos en formato CSV
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'


## Carguemos los datos

In [26]:
import ssl
import certifi
import urllib.request
import pandas as pd

url = "https://raw.githubusercontent.com/mwaskom/seaborn-data/master/iris.csv"

# Crear contexto SSL válido usando los certificados de certifi
ssl_context = ssl.create_default_context(cafile=certifi.where())

# Abrir la URL de forma segura con urllib y pasarla a pandas
with urllib.request.urlopen(url, context=ssl_context) as response:
    data = pd.read_csv(response)

print(data.head())


   sepal_length  sepal_width  petal_length  petal_width species
0           5.1          3.5           1.4          0.2  setosa
1           4.9          3.0           1.4          0.2  setosa
2           4.7          3.2           1.3          0.2  setosa
3           4.6          3.1           1.5          0.2  setosa
4           5.0          3.6           1.4          0.2  setosa


Pueden observar como pandas asumio que la primera fila del archivo era el nombre de la columna. Utilizemos el argumento `header` para indicarle que es falso.

In [27]:
# Cargar los datos del archivo CSV en un DataFrame
# Abrir la URL de forma segura con urllib y pasarla a pandas
with urllib.request.urlopen(url, context=ssl_context) as response:
    data = pd.read_csv(response, header=None)

data



Unnamed: 0,0,1,2,3,4
0,sepal_length,sepal_width,petal_length,petal_width,species
1,5.1,3.5,1.4,0.2,setosa
2,4.9,3.0,1.4,0.2,setosa
3,4.7,3.2,1.3,0.2,setosa
4,4.6,3.1,1.5,0.2,setosa
...,...,...,...,...,...
146,6.7,3.0,5.2,2.3,virginica
147,6.3,2.5,5.0,1.9,virginica
148,6.5,3.0,5.2,2.0,virginica
149,6.2,3.4,5.4,2.3,virginica


In [28]:
data.index

RangeIndex(start=0, stop=151, step=1)

In [30]:
data.shape

(151, 5)

In [31]:
data.index = [i*-1 for i in data.index]

In [32]:
data.index

Index([   0,   -1,   -2,   -3,   -4,   -5,   -6,   -7,   -8,   -9,
       ...
       -141, -142, -143, -144, -145, -146, -147, -148, -149, -150],
      dtype='int64', length=151)

Ahora asignemos nombres a las columnas. Como es un Dataset conocido podemos saber que es cada columna. Estos datos se conocen como 'Iris' y fueron creados por el estadistico Fisher.

In [33]:
# Asignar nombres a las columnas
data.columns = ['largo_sepalo', 'ancho_sepalo', 'largo_petalo', 'ancho_petalo', 'clase']

# Mostrar los primeros 5 registros del DataFrame
print(data.head(10))

    largo_sepalo ancho_sepalo  largo_petalo ancho_petalo    clase
 0  sepal_length  sepal_width  petal_length  petal_width  species
-1           5.1          3.5           1.4          0.2   setosa
-2           4.9          3.0           1.4          0.2   setosa
-3           4.7          3.2           1.3          0.2   setosa
-4           4.6          3.1           1.5          0.2   setosa
-5           5.0          3.6           1.4          0.2   setosa
-6           5.4          3.9           1.7          0.4   setosa
-7           4.6          3.4           1.4          0.3   setosa
-8           5.0          3.4           1.5          0.2   setosa
-9           4.4          2.9           1.4          0.2   setosa


In [34]:
type(data)

pandas.core.frame.DataFrame

# Accediendo a Columnas

In [35]:
data['largo_sepalo']

 0      sepal_length
-1               5.1
-2               4.9
-3               4.7
-4               4.6
            ...     
-146             6.7
-147             6.3
-148             6.5
-149             6.2
-150             5.9
Name: largo_sepalo, Length: 151, dtype: object

In [36]:
# Error
data['asd']

KeyError: 'asd'

Cuando seleccionas una columna unica se convierte en `pd.Series`

In [37]:
print(type(data['largo_sepalo']))
data['largo_sepalo']

<class 'pandas.core.series.Series'>


 0      sepal_length
-1               5.1
-2               4.9
-3               4.7
-4               4.6
            ...     
-146             6.7
-147             6.3
-148             6.5
-149             6.2
-150             5.9
Name: largo_sepalo, Length: 151, dtype: object

In [38]:
data[-149]

KeyError: -149

Pero cuando usamos una lista para seleccionar las columnas se mantiene como un DataFrame.

In [39]:
print(type(data[['largo_sepalo']]))
data[['largo_sepalo']]['largo_sepalo'].shape

<class 'pandas.core.frame.DataFrame'>


(151,)

A su vez tambien podemos seleccionar varias columnas utilizando una lista.

In [None]:
data[['largo_sepalo', 'largo_petalo' ]]

Unnamed: 0,largo_sepalo,largo_petalo
0,5.1,1.4
-1,4.9,1.4
-2,4.7,1.3
-3,4.6,1.5
-4,5.0,1.4
...,...,...
-145,6.7,5.2
-146,6.3,5.0
-147,6.5,5.2
-148,6.2,5.4


## Slicing

In [None]:
data = pd.DataFrame({
    'nombre': ['Juan', 'Maria', 'Pedro', 'Luis', 'Ana'],
    'edad': [25, 30, 40, 35, 28],
    'ciudad': ['Bogotá', 'Cali', 'Medellin', 'Barranquilla', 'Bucaramanga'],
    'salario': [2000, 3000, 4000, 3500, 2500]
})
data

Unnamed: 0,nombre,edad,ciudad,salario
0,Juan,25,Bogotá,2000
1,Maria,30,Cali,3000
2,Pedro,40,Medellin,4000
3,Luis,35,Barranquilla,3500
4,Ana,28,Bucaramanga,2500


In [None]:
data

Unnamed: 0,nombre,edad,ciudad,salario
0,Juan,25,Bogotá,2000
1,Maria,30,Cali,3000
2,Pedro,40,Medellin,4000
3,Luis,35,Barranquilla,3500
4,Ana,28,Bucaramanga,2500


In [None]:
data.shape

(5, 4)

In [None]:
type(data)

pandas.core.frame.DataFrame

In [None]:
# Seleccionar las filas 2 a 4 (excluyendo la última)
filas = data[[0,1,2]]
filas

Unnamed: 0,0,1,2
0,5.1,3.5,1.4
-1,4.9,3.0,1.4
-2,4.7,3.2,1.3
-3,4.6,3.1,1.5
-4,5.0,3.6,1.4
...,...,...,...
-145,6.7,3.0,5.2
-146,6.3,2.5,5.0
-147,6.5,3.0,5.2
-148,6.2,3.4,5.4


Seleccionar filas y columnas al mismo tiempo usando `loc`

In [None]:
# Seleccionar las filas 1 y 3 y las columnas 'nombre' y 'salario'
subset = data.loc[[0, 2], ['nombre', 'salario']]
print(subset)


  nombre  salario
0   Juan     2000
2  Pedro     4000


Seleccionar filas y columnas al mismo tiempo usando `iloc`. Se considera mala practica.

In [None]:
# Seleccionar las filas 1 y 3 y las columnas 0 y 3
subset = data.iloc[[0, 2], [0, 3]]
print(subset)

  nombre  salario
0   Juan     2000
2  Pedro     4000


## Tipos de Datos

In [None]:
data.dtypes

largo_sepalo    float64
ancho_sepalo    float64
largo_petalo    float64
ancho_petalo    float64
clase            object
dtype: object

## Estadisticos

In [None]:
data.describe()

Unnamed: 0,largo_sepalo,ancho_sepalo,largo_petalo,ancho_petalo
count,150.0,150.0,150.0,150.0
mean,5.843333,3.054,3.758667,1.198667
std,0.828066,0.433594,1.76442,0.763161
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5
