# Introducción a Pandas para Análisis de Datos

## Objetivo:
1. Aprender qué son las Series de Pandas y cómo crearlas.
2. Entender cómo acceder y manipular datos dentro de una Serie.
3. Descubrir los fundamentos de la creación y el trabajo con DataFrames de Pandas.
4. Aprender cómo acceder, modificar y analizar datos en DataFrames.
5. Obtener información sobre los atributos y métodos comunes de DataFrame.

##¿Qué es Pandas?
Pandas es una popular biblioteca de manipulación y análisis de datos de código abierto para el lenguaje de programación Python. Proporciona un conjunto poderoso y flexible de herramientas para trabajar con datos estructurados, lo que la convierte en una herramienta fundamental para científicos de datos, analistas e ingenieros.
Pandas está diseñado para manejar datos en varios formatos, como datos tabulares, series temporales y más, lo que lo convierte en una parte esencial del flujo de trabajo de procesamiento de datos en muchas industrias.

Aquí hay algunas características y funcionalidades clave de Pandas:

**Estructuras de Datos**: Pandas ofrece dos estructuras de datos principales: DataFrame y Series.

1. Un DataFrame es una estructura de datos tabular bidimensional, de tamaño mutable y potencialmente heterogénea, con ejes etiquetados (filas y columnas).
2. Una Series es un arreglo unidimensional etiquetado, esencialmente una sola columna o fila de datos.
   
**Importación y Exportación de Datos**: Pandas facilita la lectura de datos desde varias fuentes, incluidos archivos CSV, hojas de cálculo de Excel, bases de datos SQL y más. También puede exportar datos a estos formatos, lo que permite un intercambio de datos sin problemas.

**Fusión y Unión de Datos**: Puede combinar múltiples DataFrames utilizando métodos como merge y join, similares a las operaciones SQL, para crear conjuntos de datos más complejos a partir de diferentes fuentes.

**Indexación Eficiente**: Pandas proporciona métodos de indexación y selección eficientes, lo que le permite acceder rápidamente a filas y columnas específicas de datos.

**Estructuras de Datos Personalizadas**: Puede crear estructuras de datos personalizadas y manipular datos de maneras que se adapten a sus necesidades específicas, ampliando las capacidades de Pandas.

## Importando Pandas:
Importa Pandas usando el comando import, seguido del nombre de la biblioteca. Comúnmente, Pandas se importa como pd para mayor brevedad en el código.

```python
import pandas as pd
```
## Carga de Datos:
Pandas se puede usar para cargar datos desde diversas fuentes, como archivos CSV y Excel.
La función read_csv se utiliza para cargar datos desde un archivo CSV en un DataFrame de Pandas.
Para leer un archivo CSV (Valores Separados por Comas) en Python utilizando la biblioteca Pandas, puedes usar la función pd.read_csv(). Aquí está la sintaxis para leer un archivo CSV:
```python
import pandas as pd
# Read the CSV file into a DataFrame
df = pd.read_csv('your_file.csv')
```
Reemplace 'your_file.csv' con la ruta real de su archivo CSV. Asegúrese de que el archivo esté ubicado en el mismo directorio que su script de Python, o proporcione la ruta de archivo correcta.

## ¿Qué es una Serie?
Una Serie es un arreglo unidimensional etiquetado en Pandas. Se puede pensar como una única columna de datos con etiquetas o índices para cada elemento. Puedes crear una Serie a partir de diversas fuentes de datos, como listas, arreglos de NumPy o diccionarios.
Aquí hay un ejemplo básico de cómo crear una Serie en Pandas:

In [5]:
import pandas as pd
# Create a Series from a list
data = [10, 20, 30, 40, 50]
s = pd.Series(data)
print(s)

0    10
1    20
2    30
3    40
4    50
dtype: int64


En este ejemplo, hemos creado una Serie llamada s con datos numéricos. Observa que Pandas asignó automáticamente índices numéricos (0, 1, 2, 3, 4) a cada elemento, pero también puedes especificar etiquetas personalizadas si es necesario.

## Accediendo a Elementos en una Serie
Puedes acceder a elementos en una Serie utilizando las etiquetas de índice o posiciones enteras. Aquí hay algunos métodos comunes para acceder a los datos de la Serie:
### Accediendo por etiqueta

In [17]:
print(s[2])     # Access the element with label 2 (value 30)

30


### Accediendo por posición

In [18]:
print(s.iloc[3]) # Access the element at position 3 (value 40)

40


### Accediendo a múltiples elementos

In [19]:
print(s[1:4])   # Access a range of elements by label

1    20
2    30
3    40
dtype: int64


## Atributos y Métodos de Series
Las Series de Pandas vienen con varios atributos y métodos para ayudarte a manipular y analizar datos de manera efectiva. Aquí hay algunos esenciales:

- values: Devuelve los datos de la Serie como un array de NumPy.
- index: Devuelve el índice (etiquetas) de la Serie.
- shape: Devuelve una tupla que representa las dimensiones de la Serie.
- size: Devuelve el número de elementos en la Serie.
- mean(), sum(), min(), max(): Calculan estadísticas resumidas de los datos.
- unique(), nunique(): Obtiene valores únicos o el número de valores únicos.
- sort_values(), sort_index(): Ordena la Serie por valores o etiquetas de índice.
- isnull(), notnull(): Verifica si hay valores faltantes (NaN) o no faltantes.
- apply(): Aplica una función personalizada a cada elemento de la Serie.
  
## ¿Qué es un DataFrame?
Un DataFrame es una estructura de datos etiquetada bidimensional con columnas de diferentes tipos de datos potenciales. Piénsalo como una tabla donde cada columna representa una variable y cada fila representa una observación o punto de datos. Los DataFrames son adecuados para una amplia gama de datos, incluyendo datos estructurados de archivos CSV, hojas de cálculo de Excel, bases de datos SQL y más.

### Creando DataFrames a partir de diccionarios:
Los DataFrames se pueden crear a partir de diccionarios, con las claves como etiquetas de columna y los valores como listas que representan filas.

In [4]:
#!pip install pandas
import pandas as pd
# Creating a DataFrame from a dictionary
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
        'Age': [25, 30, 35, 28],
        'City': ['New York', 'San Francisco', 'Los Angeles', 'Chicago']}
df = pd.DataFrame(data)
print(df)

      Name  Age           City
0    Alice   25       New York
1      Bob   30  San Francisco
2  Charlie   35    Los Angeles
3    David   28        Chicago


### Selección de Columnas:
Puedes seleccionar una sola columna de un DataFrame especificando el nombre de la columna dentro de dobles corchetes.
Se pueden seleccionar múltiples columnas de manera similar, creando un nuevo DataFrame.

In [6]:
print(df['Name'])  # Access the 'Name' column

0      Alice
1        Bob
2    Charlie
3      David
Name: Name, dtype: object


### Accediendo a Filas:
Puedes acceder a las filas por su índice usando .iloc[] o por etiqueta usando .loc[].

In [8]:
print(df.iloc[2])   # Access the third row by position
print(df.loc[1])    # Access the second row by label
print(df.loc[0])    # Access the first row

Name        Charlie
Age              35
City    Los Angeles
Name: 2, dtype: object
Name              Bob
Age                30
City    San Francisco
Name: 1, dtype: object
Name       Alice
Age           25
City    New York
Name: 0, dtype: object


### Slicing:
Puedes cortar DataFrames para seleccionar filas y columnas específicas.

In [9]:
print(df[['Name', 'Age']])  # Select specific columns
print(df[1:3])             # Select specific rows

      Name  Age
0    Alice   25
1      Bob   30
2  Charlie   35
3    David   28
      Name  Age           City
1      Bob   30  San Francisco
2  Charlie   35    Los Angeles


### Encontrar Elementos Únicos:
Utiliza el método unique para determinar los elementos únicos en una columna de un DataFrame.

In [13]:
unique_dates = df['Age'].unique()
unique_dates

array([25, 30, 35, 28])

### Filtrado Condicional:
Puedes filtrar datos en un DataFrame basándote en condiciones utilizando operadores de desigualdad. Por ejemplo, puedes filtrar álbumes lanzados después de un cierto año.

In [15]:
high_above_102 = df[df['Age'] > 25]
high_above_102

Unnamed: 0,Name,Age,City
1,Bob,30,San Francisco
2,Charlie,35,Los Angeles
3,David,28,Chicago


### Guardando DataFrames:
Para guardar un DataFrame en un archivo CSV, utiliza el método to_csv y especifica el nombre del archivo con la extensión “.csv”. Pandas proporciona otras funciones para guardar DataFrames en diferentes formatos.

```python
df.to_csv('trading_data.csv', index=False)
```

## Atributos y Métodos de DataFrame
Los DataFrames proporcionan numerosos atributos y métodos para la manipulación y análisis de datos, incluyendo:

- shape: Devuelve las dimensiones (número de filas y columnas) del DataFrame.
- info(): Proporciona un resumen del DataFrame, incluyendo tipos de datos y conteos de valores no nulos.
- describe(): Genera estadísticas resumidas para columnas numéricas.
- head(), tail(): Muestra las primeras o últimas n filas del DataFrame.
- mean(), sum(), min(), max(): Calcula estadísticas resumidas para columnas.
- sort_values(): Ordena el DataFrame por una o más columnas.
- groupby(): Agrupa datos basados en columnas específicas para agregación.
- fillna(), drop(), rename(): Maneja valores faltantes, elimina columnas o renombra columnas.
- apply(): Aplica una función a cada elemento, fila o columna del DataFrame.

Pandas ofrece una amplia gama de métodos más allá de estos ejemplos. Para obtener información más detallada, consulte la documentación oficial disponible en el sitio web oficial de Pandas.

## Conclusión
En conclusión, dominar el uso de Pandas Series y DataFrames es esencial para una manipulación y análisis de datos efectivos en Python. Las Series proporcionan una base para manejar datos unidimensionales con etiquetas, mientras que los DataFrames ofrecen una estructura versátil, similar a una tabla, para trabajar con datos bidimensionales. Ya sea que estés limpiando, explorando, transformando o analizando datos, estas estructuras de datos de Pandas, junto con sus atributos y métodos, te permiten manipular datos de manera eficiente y flexible para obtener valiosos insights. Al incorporar Series y DataFrames en tu conjunto de herramientas de ciencia de datos, estarás bien preparado para abordar una amplia gama de tareas relacionadas con datos y mejorar tus capacidades de análisis de datos.
Para avanzar en tus habilidades en análisis de datos con Pandas, considera los siguientes próximos pasos:

Práctica:
Trabaja con conjuntos de datos reales para aplicar lo que has aprendido y ganar experiencia práctica.

Explorar la Documentación:
Visita el sitio web oficial de Pandas para explorar la extensa documentación y descubrir más funciones y métodos.

<link>https://pandas.pydata.org/docs/<link>