<div align="left">
    <img src="https://raw.githubusercontent.com/ElProfeAlejo/Bootcamp_Databases/main/imagenes/email_arriba.png" alt="Texto alternativo" width="50%">


#**¿Qué es Pandas?**

Pandas es una de las bibliotecas más poderosas de Python para la manipulación y análisis de datos. Te permite trabajar con datos en formato de tablas (DataFrames) de manera sencilla y eficiente, similar a una hoja de cálculo pero con todo el poder de Python detrás. Con Pandas, puedes filtrar, organizar, limpiar y transformar grandes conjuntos de datos en pocas líneas de código, sin necesidad de escribir bucles o realizar tareas manuales repetitivas.

Documentación: https://pandas.pydata.org/docs/

#**1. Estructuras de Datos**

### Tipos de Estructuras

#### Series

Series son arrays unidimensionales etiquetados capaces de almacenar cualquier tipo de dato. Las etiquetas de las líneas se denominan **index**. La forma básica de crear una Series es la siguiente:


```
    s = pd.Series(datos, index = index)
```

El argumento *datos* puede ser un diccionario, una lista, un array Numpy o una constante.

#### DataFrames

DataFrame es una estructura de datos tabular bidimensional con etiquetas de fila y columna. Como la Series, los DataFrames son capaces de almacenar cualquier tipo de datos.


```
    df = pd.DataFrame(datos, index = index, columns = columns)
```

El argumento *datos* puede ser un diccionario, una lista, un array Numpy, una Series y otro DataFrame.

### Importando todo el paquete y asignándole un nuevo nombre

In [None]:
import pandas as pd
pd.__version__

### Creando una Series a partir de una lista

In [None]:
carros = ['Jetta Variant', 'Passat', 'Crossfox']
carros

In [None]:
x = pd.Series(carros)

In [None]:
x

### Creando un DataFrame a partir de una lista de diccionarios

In [None]:
datos = [
    {'Nombre': 'Jetta Variant', 'Motor': 'Motor 4.0 Turbo', 'Año': 2024, 'Kilometraje': 44410.0, 'Cero_km': False, 'Valor': 88078.64},
    {'Nombre': 'Passat', 'Motor': 'Motor Diesel', 'Año': 1998, 'Kilometraje': 5712.0, 'Cero_km': False, 'Valor': 106161.94},
    {'Nombre': 'Crossfox', 'Motor': 'Motor Diesel V8', 'Año': 1990, 'Kilometraje': 37123.0, 'Cero_km': False, 'Valor': 72832.16}
]

In [None]:
dataset = pd.DataFrame(datos)

In [None]:
dataset

In [None]:
dataset[['Nombre','Año','Motor','Kilometraje','Cero_km','Valor']]

### Creando un DataFrame a partir de un diccionario

In [None]:
datos = {
    'Nombre': ['Jetta Variant', 'Passat', 'Crossfox'],
    'Motor': ['Motor 4.0 Turbo', 'Motor Diesel', 'Motor Diesel V8'],
    'Año': [2003, 1991, 1990],
    'Kilometraje': [44410.0, 5712.0, 37123.0],
    'Cero_km': [False, False, False],
    'Valor': [88078.64, 106161.94, 72832.16]
}

In [None]:
dataset = pd.DataFrame(datos)

In [None]:
dataset

### Creando un DataFrame a partir de un archivo externo

In [None]:
dataset = pd.read_csv('carros.csv', sep=';', index_col=0)

In [None]:
dataset

#**2. Selecciones en Dataframes**

In [None]:
dataset.head()

### Seleccionando columnas

In [None]:
dataset['Valor']

In [None]:
type(dataset['Valor'])

In [None]:
dataset[['Valor']]

In [None]:
type(dataset[['Valor']])

### Seleccionando lineas - [ i : j ]

<font color=blue>**Observación:**</font> La indexación tiene origen en cero y en las particiones(*slices*) la línea con índice i es **incluída** y la línea con índice j **no es incluída** en el resultado.

In [None]:
dataset[0:4]

### Utilizando .loc para selecciones

<font color=blue>**Observación:**</font> Selecciona un grupo de líneas y columnas según las etiquetas o una matriz booleana.

In [None]:
dataset.loc['Passat']

In [None]:
dataset.loc[['Passat', 'DS5']]

In [None]:
dataset.loc[['Passat', 'DS5'], ['Motor', 'Valor']]

In [None]:
dataset.loc[:, ['Motor', 'Valor']]

### Utilizando .iloc para selecciones

<font color=blue>**Observación:**</font> Selecciona con base en los índices, es decir, utiliza la posición de las informaciones.

In [None]:
dataset.head()

In [None]:
dataset.iloc[[1]]

In [None]:
dataset.iloc[1:4]

In [None]:
dataset.iloc[1:4, [0,5,2]]

In [None]:
dataset.iloc[[1,22,42], [0,5,2]]

In [None]:
dataset.iloc[:, [0,5,2]]

#**3. Consultas en Dataframes**

In [None]:
dataset.head()

In [None]:
dataset.Motor

In [None]:
select = dataset.Motor == 'Motor Diesel'

In [None]:
type(select)

In [None]:
dataset[select]

In [None]:
dataset[(dataset.Motor == 'Motor Diesel') & (dataset.Cero_km == True)]

In [None]:
(dataset.Motor == 'Motor Diesel') & (dataset.Cero_km == True)

### Utilizando el método query

In [None]:
dataset.query('Motor == "Motor Diesel" and Cero_km == True')

#**4. Iterando en Dataframes**

In [None]:
dataset.head()

In [None]:
for item in dataset:
  print(item)

In [None]:
for index, row in dataset.iterrows():
  if ((2024 - row['Año']) != 0):
    dataset.loc[index, 'km_media'] = row['Kilometraje'] / (2024 - row['Año'])
  else:
    dataset.loc[index, 'km_media'] = 0

dataset.head()

#**5. Tratamiento de Datos**

In [None]:
dataset.head()

In [None]:
dataset.info()

In [None]:
dataset.Kilometraje.isna()

In [None]:
dataset[dataset.Kilometraje.isna()]

In [None]:
dataset.fillna(0, inplace = True)

In [None]:
dataset.query("Cero_km == True")

In [None]:
dataset = pd.read_csv('carros.csv', sep=';')

In [None]:
dataset

In [None]:
dataset.dropna(subset = ['Kilometraje'], inplace = True)

In [None]:
dataset.info()

[<div align="left">
    <img src="https://raw.githubusercontent.com/ElProfeAlejo/Bootcamp_Databases/main/imagenes/email_abajo.png" alt="Texto alternativo" width="50%">](https://bootcampxperience.com/)