<a href="https://albertomerani.org/">
    <img src="images/Merani2.png" width="1000" align="center">
</a>

<h1>Procesamiento de Datos con Pandas</h1>

<h2>Tabla de contenidos</h2>
<div class="alert alert-block alert-info" style="margin-top: 20px">
    <ul>
         <li>
             <a href="#pandas">¿Qué es Pandas?</a>
             <ul>
                 <li><a href="#prep">Procesamiento de Datos</a></li>
                 <li><a href="#atr">Atributos de un DataFrame</a></li>
                 <li><a href="#mod">Modificar Dataframes</a></li>
             </ul>
         </li>
         <li>
             <a href="#quiz">Quiz sobre DataFrames</a>
         </li>
     </ul>
</div>
<hr>

In [None]:
# Importar la libreria pandas y llamarla como pd 
import pandas as pd
import numpy as np

<h2 id="pandas">¿Qué es Pandas?</h2>

Es una biblioteca de Python ampliamente utilizada para el análisis y manipulación de datos. Pandas proporciona estructuras de datos y herramientas que facilitan la limpieza, transformación y análisis de datos de una manera eficiente.

**Pandas** se ha convertido en una herramienta esencial para científicos de datos, analistas y cualquier persona que trabaje con datos en Python. Su popularidad se debe a su capacidad para manejar datos de manera sencilla y efectiva. Algunos de los conceptos clave de Pandas incluyen:

* **Análisis de Datos**: Es una herramienta esencial para explorar y analizar datos, identificando patrones y tendencias.

* **Preparación de Datos**: Antes de entrenar modelos de aprendizaje automático, los datos deben estar limpios y bien estructurados. Pandas ayuda a preparar los datos para el modelado.

* **Visualización de Datos**: Pandas se integra fácilmente con bibliotecas de visualización como Matplotlib y Seaborn para crear gráficos y visualizaciones.

* **Análisis Estadístico**: Ofrece funciones para calcular estadísticas descriptivas y realizar pruebas estadísticas.

* **Manipulación de Datos en Proyectos de Ciencia de Datos:** Pandas es una herramienta fundamental en proyectos de ciencia de datos para explorar, limpiar y transformar datos antes de aplicar técnicas de aprendizaje automático.

<h2 id="prep">Procesamiento de Datos</h2>

Este código crea un DataFrame llamado df con 5 variables y 10 registros

In [None]:
data = {
    'Nombre': ['Juan', 'María', 'Luis', 'Ana', 'Pedro', 'Laura', 'Carlos', 'Sofía', 'Diego', 'Elena'],
    'Edad': [25, 30, 18, 28, 35, 29, 42, 27, 54, np.nan],
    'Género': ['M', 'F', 'M', 'F', 'M', 'F', 'M', 'F', 'M', 'F'],
    'Puntuación': [85, 92, 78, np.nan, 96, 89, np.nan, 91, 84, 90],
    'Ciudad': ['Madrid', 'Barcelona', 'Valencia', 'Sevilla', 'np.nan', 'Málaga', 'Zaragoza', 'Murcia', 'Granada', 'Alicante']
}

# Crear un DataFrame a partir del diccionario
df = pd.DataFrame(data)

# Mostrar el DataFrame
df

<h2 id="atr">Atributos de un DataFrame</h2>

Existen varias propiedades o métodos para ver las características de un DataFrame.

* **df.info()** : Devuelve información (número de filas, número de columnas, índices, tipo de las columnas y memoria usado) sobre el DataFrame df.

* **df.shape** : Devuelve una tupla con el número de filas y columnas del DataFrame df.

* **df.size** : Devuelve el número de elementos del DataFrame.

* **df.columns** : Devuelve una lista con los nombres de las columnas del DataFrame df.

* **df.index** : Devuelve una lista con los nombres de las filas del DataFrame df.

* **df.dtypes** : Devuelve una serie con los tipos de datos de las columnas del DataFrame df.

* **df.head(n)** : Devuelve las n primeras filas del DataFrame df.

* **df.tail(n)** : Devuelve las n últimas filas del DataFrame df.

Con el comando <code>colums</code> se utiliza para obtener la lista de etiquetas (nombres) de las columnas en un DataFrame.

In [None]:
df.columns

Seleccionar algunas variables del Dataframe 

In [None]:
df[['Nombre','Género','Puntuación']]

El método <code>loc</code> en Pandas se utiliza para acceder y seleccionar datos de un DataFrame utilizando etiquetas o etiquetas basadas en ubicaciones. Es una de las formas principales de realizar selecciones y extracciones de datos en un DataFrame en Pandas. El nombre "loc" proviene de "location" (ubicación), ya que permite localizar datos en función de etiquetas específicas.

In [None]:
df.loc[5]

In [None]:
df.loc[5,['Nombre','Edad','Ciudad']]

El método <code>iloc</code> se utiliza para acceder y seleccionar datos de un DataFrame utilizando índices basados en ubicaciones numéricas. A diferencia de loc, que utiliza etiquetas para la selección, iloc utiliza índices enteros para ubicar los datos en un DataFrame

In [None]:
df.iloc[0:4]

In [None]:
# 0-4 hace referencia a los indices de las filas
# 0:3 hace referencia a los indices de las columnas

df.iloc[0:4,0:3]

In [None]:
# [0,2] hace referencia a los indices de las filas 0, 2 y 3
# [0,1] hace referencia a los indices de las columnas 0 = Nombre y 1 = Edad, 4 = Ciudad

df.iloc[[0,2,3],[0,1,4]]

#### Filtros 

Tambien se pueden aplicar filtros al Dataframe aplicando condiciones lógicas

In [None]:
df

#### Dos formas de referirse a una variable

In [None]:
df['Nombre']

In [None]:
df.Nombre

Condición lógica

In [None]:
df['Edad']>30

#### Condición lógica aplicada dentro del Dataframe

In [None]:
df[ df['Edad']>30 ]

In [None]:
df[ df['Género'] == 'M' ]

#### Combinación de filtros para encontrar la información según los requerimientos del analisis

In [None]:
df[ (df['Edad']>30) & (df['Puntuación'] > 80) ]

El método <code>query()</code> se utiliza para filtrar y seleccionar filas de un DataFrame que cumplan con una condición específica. Proporciona una forma más legible y concisa de realizar consultas en un DataFrame en comparación con la indexación tradicional.

In [None]:
df.query('Edad > 30 and Puntuación > 80')

El método <code>describe()</code> se utiliza para obtener un resumen estadístico de las columnas numéricas en un DataFrame. Proporciona estadísticas como el recuento, la media, la desviación estándar, los valores mínimo y máximo, y los cuartiles (25%, 50%, 75%) para cada columna numérica.

In [None]:
df.describe()

El método <code>info()</code> se utiliza para obtener información sobre un DataFrame, incluyendo el recuento de no nulos, los tipos de datos de cada columna y la cantidad de memoria utilizada. Es útil para verificar rápidamente la integridad de los datos y los tipos de datos en el DataFrame.

In [None]:
df.info()

La propiedad <code>dtypes</code> se utiliza para obtener los tipos de datos de cada columna en un DataFrame. Devuelve una Serie que muestra los tipos de datos de las columnas.

In [None]:
df.dtypes

El método <code>nunique()</code> se utiliza para contar el número de valores únicos en cada columna de un DataFrame. Es especialmente útil cuando quieres saber cuántos valores únicos existen en una columna.

In [None]:
df.nunique()

El método <code>value_counts()</code>  se utiliza para contar los valores únicos en una Serie de Pandas y devolver un objeto Serie que muestra cuántas veces aparece cada valor único en la Serie. Es especialmente útil para analizar la distribución de valores en una columna.

In [None]:
df['Género'].value_counts()

l método <code>pd.get_dummies()</code>  se utiliza para convertir variables categóricas en variables ficticias (también conocidas como variables binarias o "one-hot encoding"). Crea una nueva DataFrame donde cada categoría se convierte en una columna binaria con valores 1 o 0, indicando la presencia o ausencia de la categoría.

In [None]:
pd.get_dummies(df['Ciudad'])

<h2 id="mod">Modificar Dataframes</h2>

#### Agregar un Registro

In [None]:
new_row = {'Nombre': 'Eve', 'Edad': 28, 'Género': 'F', 'Puntuación':79, 'Ciudad':'Colombia'}
df = df.append(new_row, ignore_index=True)

In [None]:
df.tail(4)

#### Modificar un Registro:

 

In [None]:
df.loc[10, 'Edad'] = 31
df.tail(4)

#### Agregar una Variable

In [None]:
df['Peso (kg)'] = [55, 80, 68, 62, 65, 78, 67, 42, 96, 76, 54]
df

#### Modificar una Variable


In [None]:
df['Peso (kg)'] = df['Peso (kg)'] + 5
df

#### Eliminar un Registro

In [None]:
# Seleccionar todos los Nombres que sean diferentes a 'Eve'
df = df[df['Nombre'] != 'Eve']
df.tail()

In [None]:
df = df.drop(9, axis=0) # Axis=0 : Filas
df

#### Eliminar una Variable

In [None]:
df = df.drop('Puntuación', axis=1)  # Axis=1 : Columnas
df

<hr>

<h2 id="quiz">Quiz sobre DataFrames</h2>

#### **Ejercicio 1**: Filtrado de Datos.

In [None]:
data = {'Nombre': ['Alice', 'Bob', 'Charlie', 'David'],
        'Edad': [25, 30, 22, 28],
        'Altura (cm)': [165, 180, 175, 170]}

df = pd.DataFrame(data)
df

In [None]:
# Escriba su código a continuación y presione Shift+Enter para ejecutar
# Reemplaze la declaración **None** por la respuesta

# Filtra las filas donde la edad es mayor de 25 años.
filtro = df[None] > 25
result1 = df[filtro]

# Muestra solo las columnas 'Nombre' y 'Edad' para estas filas.
result2 = result1[[None]]


Haga doble clic __aquí__ para ver la solución.

<!-- Su respuesta está a continuación:

# Filtra las filas donde la edad es mayor de 25 años.
filtro = df['Edad'] > 25
result1 = df[filtro]

# Muestra solo las columnas 'Nombre' y 'Edad' para estas filas.
result2 = result1[['Nombre', 'Edad']]

 -->

<hr>

#### **Ejercicio 2**: Agregar y Modificar Datos.

In [None]:
# Escriba su código a continuación y presione Shift+Enter para ejecutar

data = {'Nombre': ['Alice', 'Bob', 'Charlie', 'David'],
        'Edad': [25, 30, 22, 28],
        'Altura (cm)': [165, 180, 175, 170]}

df = pd.DataFrame(data)
df

In [None]:
# Escriba su código a continuación y presione Shift+Enter para ejecutar
# Reemplaze la declaración **None** por la respuesta

# Agrega una nueva columna llamada 'Peso (kg)' con los valores [55, 80, 68, 62].
df['Peso (kg)'] = None

# Modifica la altura de 'Alice' para que sea 160 cm.
df.loc[df[None] == 'Alice', 'Altura (cm)'] = None

df

Haga doble clic __aquí__ para ver la solución.

<!-- Su respuesta está a continuación:

# Agrega una nueva columna llamada 'Peso (kg)' con los valores [55, 80, 68, 62].
df['Peso (kg)'] = [55, 80, 68, 62]

# Modifica la altura de 'Alice' para que sea 160 cm.
df.loc[df['Nombre'] == 'Alice', 'Altura (cm)'] = 160

df

 -->

<hr>

<div class="alert alert-block alert-info" style="margin-top: 20px">

<h2>Felicitaciones por llegar hasta aquí!</h2>

¡Has completado una nueva hazaña!

Has aprendido mucho sobre Dataframes.

Ahora eres capaz de realizar de interactuar con la información.


<h3>¡Sigue aprendiendo y creciendo!</h3>
    
</div>

<hr>

<h2>Autores y colaborares:</h2> 


<a href="https://www.linkedin.com/in/robinssondeantonio/" title="Robinsson Deantonio"> Robinsson S. Deantonio</a> 


<hr>

<p>Copyright &copy; 2023. Este cuaderno y su código fuente se publican según los términos del <a href="https://cognitiveclass.ai/mit-license/">MIT License</a>.</p>