In [2]:
import pandas as pd
import numpy as np

In [None]:
###
# Pandas:
# Es una librería de Python para la manipulación y análisis de datos.
# Facilita la limpieza, transformación, exploración y visualización de datros.
# Sus estructuras de datos principales son los series y los DataFrames
###

###
# Características principales:
#   Estructuras de datos versátiles
#   Manupulación sencilla
#   Soporte de múltiples formatos de datos
#   Compatible con otras librerías
###


Series: Qué son?

⭕ Son una serie de datos unidimensionales en Pandas, similar a una lista en Python.
Cada elemento en una serie tiene un índice associado, lo que facilita su acceso a los datos

• Índice asociado: Cada valor tiene un índice que puede ser personalizado
• Unidimensional: Reresenta una columa de datos
• Permite operaciones matemáticas: Operaciones como suma, promedio, o multiplicacion pueden aplicarce directamente.

In [None]:
###
# Ejemplo 1: Crear una serie
###

# Crear una serie desde una lista
serie1 = pd.Series([10, 20, 30, 40, 50])


###
# Personalizar el índice
###

serie = pd.Series([10, 20, 30, 40],  index=['A', 'B', 'C', 'D'])
print(serie)

###
# Operaciones con índices
###

print(serie['A'])
print(serie.mean())

###
# Creación
###

list_edades = [15, 25, 28, 30, 35, 39, 45, 48, 48]
serie_edades = pd.Series(list_edades, index=['Juan', 'Pepe', 'Luz', 'Sara', 'Felix', 'Aleja', 'Aura', 'Camilo', 'Victor'])
print(serie_edades)

###
# Acceder
###

print(serie_edades['Pepe'])

###
# Operaciones
###

prom = serie_edades.mean()
max = serie_edades.max()
min = serie_edades.min()
moda = serie_edades.mode()
print(f'El valor máximo es \n {max}')
print(f'El valor mínimo es \n {min}')
print(f'El promedio es \n {prom}')
print(f'La moda es \n {moda}')

DataFrames: Qué son?

⭕ Un DataFrame es una estructura de datos bidimensional, similar a una tabla o hoja de cálculos en Excel.
Contiene filas y columnas, y es la estructura más usada en Pandas

• Bidimensional: Tienen filas(indices) y columnas(nombres de columnas).
• Heterogéneo: Cada columna puede contener diferentes tipod de datos(númertos, cadenas, fechas).
• Acceso fácil: Puedes acceder a filas, columnas o valores idividuales.

In [None]:
###
# Ejemplo 1:
###

# Crear un DataFrame
datos = {
    'nombre': ['Ana', 'Luis', 'Carlos'],
    'edad': [23, 34, 29],
    'Ciudad': ['Bogotá', 'Medellín', 'Cali']
}
df = pd.DataFrame(datos)
print(datos)

# Cómo usarlos:
datos_clase = {
    'Nombres':   ['Nikolas', 'Paula', 'Leydi', 'Oscar', 'Karen'],
    'Sexo':      ['M', 'F', 'F', 'M', 'F'],
    'Est_Civil': ['Casado', 'Soltera', 'Unión Libre', 'Divorciado', 'Viuda'],
    'Edad':      [29, 22, 30, 23, 19]
}
df_datos = pd.DataFrame(datos_clase)
df_datos

###
# Segmentación
###

# Acceder a una columna
df_datos['Nombres']

# Acceder a varias columnas
df_datos[['Nombres', 'Edad']]

# Crear un nuevo DataFrame de otro DataFrame
df_n = df_datos[['Nombres', 'Edad', 'Sexo']]
df_n

# Acceder a una fila
df_datos.iloc[2]

# Acceder a varias filas
df_datos.loc[1:3]       # En un rango
df_datos.loc[[1, 3]]    # Saltando filas

# Acceder a una fila y a una colomna
df_datos.iloc[2]['Sexo']

# Acceder a una filas y a una colomnas
df_datos.loc[[2,4], ['Nombres', 'Est_Civil']]       # Saltando filas
df_datos.loc[2:4, ['Nombres', 'Est_Civil']]         # En un rango

# Acceder a un rango de columnas
df_datos.loc[:, 'Sexo' : 'Edad']

In [32]:
df_olx_medallo = pd.read_csv('../documentos/olx_medellin.csv')
df_olx_medallo.head(10)

Unnamed: 0,marca,linea,modelo,condición,combustible,color,transmisión,único_dueño,tipo_de_vendedor,kilometraje,puertas,precio
0,Chevrolet,Sail,2016,Usado,Gasolina,Gris,Mecánica,Sí,Persona Natural,50500,5.0,26000000
1,Renault,Logan,2010,Usado,Gasolina,Gris,Mecánica,No,Persona Natural,154000,4.0,14500000
2,Chevrolet,Sonic,2016,Usado,Gasolina,Rojo,Mecánica,Sí,Persona Natural,67000,5.0,35000000
3,Toyota,LC200,2008,Usado,Gasolina,Blanco,Automática,No,Persona Natural,140000,5.0,149900000
4,Toyota,Land Cruiser,1997,Usado,Gasolina,Verde,Mecánica,No,Persona Natural,241000,3.0,65000000
5,Renault,Twingo,2006,Usado,Gasolina,Gris,Mecánica,No,Persona Natural,124800,3.0,10800000
6,Mazda,2,2009,Usado,Gasolina,Gris,Automática,No,Persona Natural,73000,4.0,26000000
7,Chevrolet,Captiva,2011,Usado,Gasolina,Negro,Automática,No,Persona Natural,110000,5.0,24500000
8,Renault,Twingo,2002,Usado,Gasolina,Gris,Mecánica,No,Persona Natural,144500,5.0,9000000
9,Honda,CR-V,2015,Usado,Gasolina,Gris,Mecánica,No,Persona Natural,45000,5.0,63000000


In [None]:
# Númerico

# Multiplicación de la misma columna
# df_olx_medallo['kilometraje'] = df_olx_medallo['kilometraje']/1000

# Divición de una columna entre otra
# df_olx_medallo['precio'] = df_olx_medallo['precio'] / df_olx_medallo['kilometraje']

# Concatenación de texto en una columna 
# df_olx_medallo['precio'] = '$ ' + df_olx_medallo['precio'].astype(str) + ' Col'

In [25]:
# Condicionales

df_olx_medallo.loc[df_olx_medallo['puertas'] >= 4, 'puertas'] *= 10

In [None]:
# Categóricos

# Transformación a mayusculas
# df_olx_medallo['linea'] = df_olx_medallo['linea'].str.upper()

# Concatenación de categóricos
df_olx_medallo['combustible'] = 'super ' + df_olx_medallo['combustible'] + ' Ahorrativa'

In [34]:
df_olx_medallo.head(10)

Unnamed: 0,marca,linea,modelo,condición,combustible,color,transmisión,único_dueño,tipo_de_vendedor,kilometraje,puertas,precio
0,Chevrolet,Sail,2016,Usado,super Gasolina Ahorrativa,Gris,Mecánica,Sí,Persona Natural,50500,5.0,26000000
1,Renault,Logan,2010,Usado,super Gasolina Ahorrativa,Gris,Mecánica,No,Persona Natural,154000,4.0,14500000
2,Chevrolet,Sonic,2016,Usado,super Gasolina Ahorrativa,Rojo,Mecánica,Sí,Persona Natural,67000,5.0,35000000
3,Toyota,LC200,2008,Usado,super Gasolina Ahorrativa,Blanco,Automática,No,Persona Natural,140000,5.0,149900000
4,Toyota,Land Cruiser,1997,Usado,super Gasolina Ahorrativa,Verde,Mecánica,No,Persona Natural,241000,3.0,65000000
5,Renault,Twingo,2006,Usado,super Gasolina Ahorrativa,Gris,Mecánica,No,Persona Natural,124800,3.0,10800000
6,Mazda,2,2009,Usado,super Gasolina Ahorrativa,Gris,Automática,No,Persona Natural,73000,4.0,26000000
7,Chevrolet,Captiva,2011,Usado,super Gasolina Ahorrativa,Negro,Automática,No,Persona Natural,110000,5.0,24500000
8,Renault,Twingo,2002,Usado,super Gasolina Ahorrativa,Gris,Mecánica,No,Persona Natural,144500,5.0,9000000
9,Honda,CR-V,2015,Usado,super Gasolina Ahorrativa,Gris,Mecánica,No,Persona Natural,45000,5.0,63000000
