# Sesión 3: Procesamiento de Datos con Pandas

## Introducción a Pandas, Series y DataFrames


### ¿Qué es Pandas?

Pandas es una librería de Python utilizada para el análisis de datos. Proporciona estructuras de datos rápidas, flexibles y expresivas, diseñadas para facilitar la manipulación y análisis de datos.

Los principales tipos de estructuras de datos en Pandas son:
- **Series**: Un arreglo unidimensional similar a una columna en una tabla.
- **DataFrame**: Una tabla bidimensional, similar a una hoja de cálculo o una tabla de base de datos.

Pandas es esencial en ciencia de datos porque permite:
- Importar, limpiar y analizar grandes conjuntos de datos.
- Realizar operaciones de agrupación, filtrado y agregación de datos.
- Trabajar con datos estructurados de manera eficiente.

Instalación:
```
pip install pandas
```


## Series en Pandas


Una **Serie** es una estructura de datos unidimensional que puede almacenar cualquier tipo de dato, como enteros, flotantes, cadenas, etc. Se parece a una columna en una hoja de cálculo.

### Creación de una Serie:

Podemos crear una Serie a partir de una lista, un diccionario o incluso un array de NumPy.


In [None]:
#!pip install pandas

In [None]:
lista = [15, 48, 79, 26]
lista

In [None]:
import pandas as pd

pd.Series(lista)


In [None]:
# Crear una Serie a partir de un diccionario
diccionario = {'a': 1, 'b': 2, 'c': 3}
diccionario

In [None]:
pd.Series(diccionario)

In [None]:
import pandas as pd

# Crear una Serie a partir de una lista
lista = [10, 20, 30, 40]
serie_lista = pd.Series(lista)
print("Serie desde una lista:")
print(serie_lista)

# Crear una Serie a partir de un diccionario
diccionario = {'a': 1, 'b': 2, 'c': 3}
serie_diccionario = pd.Series(diccionario)
print("Serie desde un diccionario:")
print(serie_diccionario)



### Índices en Series:

Cada Serie tiene un índice asociado, que nos permite acceder a los elementos de manera similar a como lo haríamos con un diccionario.

Podemos personalizar los índices de las Series o dejar que Pandas los asigne automáticamente.


In [None]:

# Crear una Serie con índices personalizados
serie_personalizada = pd.Series([5, 10, 15, 49], index=['a', 'a', 'c', 'd'])
print("Serie con índices personalizados:")
print(serie_personalizada)



### Operaciones con Series:

Las Series son muy útiles para realizar operaciones vectorizadas. Estas operaciones se realizan elemento por elemento, de manera muy eficiente.

#### Ejemplo:


In [None]:
# Operaciones aritméticas con Series
serie1 = pd.Series([1, 2, 3, 4])
serie2 = pd.Series([10, 20, 30, 40])

print(serie1)
print(serie2)

In [None]:

# Suma
print("Suma de series:")
print(serie1 + serie2)

# Multiplicación
print("Multiplicación de series:")
print(serie1 * serie2)


In [None]:
# Operaciones aritméticas con Series
serie1 = pd.Series([1, 2, 3, 4], index=[0, 2 ,3, 1])
serie2 = pd.Series([10, 20, 30, 40])

print(serie1)
print(serie2)

In [None]:
# Suma
print("Suma de series:")
print(serie1 + serie2)

## DataFrames en Pandas


Un **DataFrame** es una estructura de datos bidimensional que puede contener columnas de diferentes tipos. Es la estructura de datos más utilizada en Pandas.

### Creación de un DataFrame:

Podemos crear un DataFrame a partir de diccionarios, listas de listas o incluso Series.


In [None]:

# Crear un DataFrame a partir de un diccionario
datos = {'Nombre': ['Ana', 'Luis', 'Carlos'], 'Edad': [23, 45, 34], 'Ciudad': ['Lima', 'Bogotá', 'Santiago']}
datos


In [None]:
df = pd.DataFrame(datos)
print("DataFrame creado a partir de un diccionario:")
df


### Índices en DataFrames:

Al igual que en las Series, los DataFrames tienen índices. Los índices pueden ser personalizados o asignados automáticamente por Pandas. Además, cada columna también tiene un nombre (el nombre de la clave en el diccionario).

#### Acceso a columnas y filas:


In [None]:
df.Edad

In [None]:
df["Edad"]

In [None]:
df.shape

In [None]:
df.columns

In [None]:
df[["Ciudad", "Nombre", "Edad"]]

In [None]:
df

In [None]:
df.iloc[1]

In [None]:

# Acceder a una columna
print("Acceso a la columna 'Nombre':")
print(df['Nombre'])

# Acceder a una fila usando iloc (índice basado en posición)
print("Acceso a la primera fila:")
print(df.iloc[0])



### Resumen:

- Las **Series** son estructuras unidimensionales, útiles para manejar datos similares a columnas.
- Los **DataFrames** son estructuras bidimensionales que permiten manejar tablas de datos completas con varias columnas y tipos de datos.
- Pandas es una herramienta esencial para el análisis de datos debido a su simplicidad y eficiencia para manejar grandes conjuntos de datos.

A partir de aquí, profundizaremos en la manipulación avanzada de datos y en cómo utilizar estas estructuras para realizar análisis complejos.


## Conexión de un archivo del  drive a Colab

In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [None]:
df = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/dataset_frutas.csv')

In [None]:
##df.to_csv('/content/drive/MyDrive/Colab Notebooks/dataset_frutas_save.csv',index=False)

In [None]:
df

In [None]:
df.dtypes

#### Ordenando dataframe

In [None]:
df.sort_values(["Fruta"], ascending=False)

##### Datos variables por observación

In [None]:
kilogramos = df['Kilos'].values

In [None]:
n_conversion = 1/1000
toneladas = kilogramos*n_conversion

In [None]:
df['Toneladas'] = toneladas
df.head()

#### Eliminando columnas

In [None]:
df.drop(columns=['Transporte'])

#### Eliminando filas

In [None]:
df.drop(index=[4])

Accediendo a la primera fila

In [None]:
df.iloc[0]

Accediendo a la ubicación: primera fila (0) y quinta columna

In [None]:
df.loc[0,'Toneladas'] = 230
df.head()

Extrayendo columnas específicas del dataframe \
Método 1:

In [None]:
df1 = df[['Fruta','Kilos']]
df1.head()

Extrayendo columnas específicas del dataframe \
Método 2:

In [None]:
df1 = df.iloc[:,0:2]
df1.head()

In [None]:
df1.info()

In [None]:
df1.describe()

In [None]:
df.dtypes

#### Identificación de la posición de una columna

In [None]:
df.columns.get_loc('Transporte')

In [None]:
df.iloc[:,4]

#### Valores missing

In [None]:
df2 = df.dropna()
df2

#### Operaciones con columnas

In [None]:
df['Gasto total'] = df['Kilos']*df['Precio Unitario']

In [None]:
df.head()

#### Filtrando información

In [None]:
df[df['Gasto total']>5000]

In [None]:
df[df['Gasto total']==728]

In [None]:
new_df = df[df['Gasto total']<2000].copy()
new_df

In [None]:
new_df.drop_duplicates(subset=['Fruta'])

In [None]:
new_df.T

#### Cálculo de media, mediana y moda en columnas

In [None]:
df['Toneladas'].mean()

In [None]:
df['Toneladas'].median()

In [None]:
df['Toneladas'].mode()