# **Qué es Pandas?**
Pandas es una biblioteca Python de código abierto que se utiliza para el análisis y manipulación de datos. Proporciona estructuras de datos flexibles y de alto rendimiento, como DataFrames y Series, que facilitan el trabajo con grandes conjuntos de datos.

**Introducción**
El primer paso en la mayoría de los proyectos de análisis de datos es leer el archivo de datos. En este ejercicio, crearás objetos Series y DataFrame, tanto a mano como leyendo archivos de datos.

Primero, debemos asegurarnos de tener Pandas instalado en su Python. Para hacer esto, use el comando:

In [None]:
!pip install pandas

Después importar la biblioteca.

In [None]:
import pandas as pd

# **Creación de datos**
**Dataframe**: Un DataFrame es una estructura de datos bidimensional en Pandas que se parece mucho con una tabla en un banco de datos o un plan de Excel.
Está compuesto por líneas y columnas, donde cada columna puede contener un tipo diferente de datos (números, textos, datos, etc.). Los DataFrames son muy útiles porque le permiten realizar diversas operaciones de análisis y manipulación de datos de una manera eficiente e intuitiva.

Existen varias formas de crear un DataFrame en Python usando Pandas. Veamos las más comunes.



1. **Creando un DataFrame desde un Diccionario**

Una de las formas más simples de crear un DataFrame es a partir de un diccionario, donde las claves son los nombres de las columnas y los valores son las listas de los datos de estas columnas.

In [None]:
# Criando um dicionário
datos = {
    'Nome': ['Ana', 'Bruno', 'Carlos'],
    'Idade': [23, 34, 45],
    'Cidade': ['São Paulo' , 'Rio de Janeiro', 'Belo Horizonte']
}

# Criando o DataFrame
df = pd.DataFrame(datos)
print(df)

     Nome  Idade          Cidade
0     Ana     23       São Paulo
1   Bruno     34  Rio de Janeiro
2  Carlos     45  Belo Horizonte


En este ejemplo, la entrada 0 se refiere a la persona Ana, que tiene 23 años y vive en la ciudad de São Paulo. Podemos acceder a los datos exactamente como en una base de datos, o en un plan de Excel. Cada línea es una observación (una persona sin caso) y cada columna es una característica de esa observación.

Para crear un DataFrame utilizamos el método pd.DataFrame().



*   Los datos son un diccionario donde cada clave ('Nombre', 'Edad', 'Ciudad') representa una columna.

*   Las listas asociadas con las claves son los datos de esas columnas.

*   pd.DataFrame(data)Convierte el diccionario en un DataFrame.

**2. Creando un DataFrame a partir de una lista de listas**

También es posible agregar un DataFrame desde una lista de listas. En este caso, debe proporcionar los nombres de las columnas por separado.

In [None]:
# Lista de listas
datos = [
    ['Ana', 23, 'São Paulo'],
    ['Bruno', 34, 'Rio de Janeiro'],
    ['Carlos', 45, 'Belo Horizonte']
]

# Criando o DataFrame e definindo os nomes das colunas
df = pd.DataFrame(datos, columns=['Nome', 'Idade', 'Cidade'])

print(df)

     Nome  Idade          Cidade
0     Ana     23       São Paulo
1   Bruno     34  Rio de Janeiro
2  Carlos     45  Belo Horizonte


Entendamos el uso del método pd.DataFrame() aquí.



*   Los datos son una lista de listas, donde cada sublista representa una fila.

*   El parámetro de columnas define los nombres de las columnas del DataFrame.

*   pd.DataFrame(data, columns=['Name', 'Ege', 'City']) crea el DataFrame con datos y columnas con nombre.

**3. Crear un DataFrame a partir de una lista de diccionarios.**

Otra forma común es crear un DataFrame a partir de una lista de diccionarios, donde cada diccionario representa una fila y las claves del diccionario representan las columnas.

In [None]:
# Lista de dicionários
datos = [
    {'Nombre': 'Ana', 'Idade': 23, 'Cidade': 'São Paulo'},
    {'Nombre': 'Bruno', 'Idade': 34, 'Cidade': 'Rio de Janeiro'},
    {'Nombre': 'Carlos', 'Idade': 45, 'Cidade': 'Belo Horizonte'}
]

# Criando o DataFrame
df = pd.DataFrame(datos)

print(df)

   Nombre  Idade          Cidade
0     Ana     23       São Paulo
1   Bruno     34  Rio de Janeiro
2  Carlos     45  Belo Horizonte


Aquí utilizamos una lista de diccionario. Entendámoslo.



*   Los datos son una lista de diccionarios, donde cada diccionario es una fila.

*   Las claves del diccionario son los nombres de las columnas.

*   pd.DataFrame(dados) crea el DataFrame con las columnas nombradas según las claves del diccionario.



**4. Creando un DataFrame vacio y adicionando datos despues**


In [None]:
# Creando un DataFrame vacio con nombres en las columnas
df = pd.DataFrame(columns=['Nome', 'Idade', 'Cidade'])

# Adicionando lineas de datos
df.loc[0] = ['Ana', 23, 'São Paulo']
df.loc[1] = ['Bruno', 34, 'Rio de Janeiro']
df.loc[2] = ['Carlos', 45, 'Belo Horizonte']

print(df)

     Nome  Idade          Cidade
0     Ana     23       São Paulo
1   Bruno     34  Rio de Janeiro
2  Carlos     45  Belo Horizonte



Y finalmente, creamos un DataFrame vacío y completamos cada fila.

*   pd.DataFrame(columns=['Name', 'Ege', 'City']) crea un DataFrame vacío con las columnas especificadas.
*   df.loc[index] = [data] agrega una nueva fila en el DataFrame en la posición del índice con los datos [data].







Ejercicio: ![](https://storage.googleapis.com/kaggle-media/learn/images/CHPn7ZF.png)

In [None]:
fruit_sales = pd.DataFrame(columns=['Apples','Bananas'])

fruit_sales.loc['2017 Sales'] = [35,21]
fruit_sales.loc['2018 Sales'] = [41, 34]
print(fruit_sales)

            Apples  Bananas
2017 Sales      35       21
2018 Sales      41       34


# **Series**

Una Serie es una estructura de datos unidimensional en Pandas, similar a una columna en una tabla o una matriz en NumPy. Cada elemento de una Serie tiene un índice único, que puede ser un número o una etiqueta, un nombre de índice.

Podemos simplificar que una Serie es una columna de un DataFrame. Y que un DataFrame es un conjunto de Series.

Veamos algunas formas de crear una Serie usando Pandas.

**1. Creando una serie a partir de una lista**
Puede crear una serie a partir de una lista en Python. El índice se generará automáticamente como números enteros comenzando desde cero.

In [None]:
#crando una serie a partir de una lista
datos = [10,15,20,25,30]
serie = pd.Series(datos)
print(serie)

0    10
1    15
2    20
3    25
4    30
dtype: int64


Entendamos lo que está pasando aquí.


*   Los datos son una lista de valores de la serie.

*   pd.Series(data) crea la serie a partir de esta lista.

*   Los índices se generan automáticamente (0, 1, 2, 3, 4).


**2. Creando una Serie a partir de un diccionario**
También puedes crear una Serie a partir de un diccionario, donde las claves se convierten en los índices y los valores en los datos.

In [None]:
datos = {'Ana': 23, 'Bruno': 34, 'Carlos': 45}
serie = pd.Series(datos)
print(serie)

Ana       23
Bruno     34
Carlos    45
dtype: int64




*   datos en un diccionario con claves ('Ana','Bruno', 'Carlos') y valores (23, 34, 45).
*   pd.Series(datos) crea series a partir de un diccionario, usando las claves como índices.



**3. Creando una Serie con índices personalizados**

In [None]:
datos = [10,15,20,25,30]
indices = ['a','b','c','d','e']
serie = pd.Series(datos, index=indices)
print(serie)

a    10
b    15
c    20
d    25
e    30
dtype: int64



*   datos es una lista con valores de la serie
*   indices es una lista con los indices personalizados.
*   pd.Series(datos, index=indices)  crea Series con índices especificos.

**4. Creando una Serie con un valor constante**

In [None]:
s = pd.Series(5,index=['a', 'b', 'c', 'd', 'e'])
print(s)

a    5
b    5
c    5
d    5
e    5
dtype: int64



*  5 es el valor constante para todos los elementos de la Serie.

*   index = [0,1,2,3,4] define los índices de la Serie

*   pd.Series(5, index=[0,1,2,3,4]) crea Series on valor constante en los indices especificados.





# **Accedendo a datos en una Serie**

In [None]:
print(s[0]) #accedes al primer elemento

print(s[:3]) #accede a los primeros tres elementos

print(s['a']) #accede al elemento con valor '0'

5
a    5
b    5
c    5
dtype: int64
5


**Sintaxis de pd.Series**

La función pd.Series() tiene la siguiente sintaxis básica:

*pd.Series(data, index, dtype, name, copy, fastpath)*

*   datos: Los datos para crear la Serie, que puede ser una lista, un diccionario, una matriz NumPy, etc.

*   index: (Opcional) Índices de series. Si no se proporcionan, se utilizarán índices numéricos predeterminados.

*   dtype: (Opcional) tipo de datos de serie. Se puede especificar para forzar un tipo de datos específico.

*   nombre: (Opcional) Nombre de la serie.
copiar: (opcional) si es verdadero, copia los datos proporcionados. El valor predeterminado es falso.

*   fastpath: (opcional) un parámetro interno que probablemente nunca necesitarás usar.







# **Leyendo Datos de Archivos**

Crear series y marcos de datos a mano puede resultar útil. Pero la mayoría de las veces, simplemente cargaremos estos datos desde un conjunto de datos o una base de datos. Puede ser directamente desde una base de datos SQL, una hoja de cálculo de Excel o incluso un archivo JSON o CSV.

1. Subir un archivo CSV
Uno de los formatos de archivo más comunes es CSV (valores separados por comas). Pandas tiene la función pd.read_csv() que facilita mucho esta tarea.

In [None]:
# URL del dataset
url = 'https://raw.githubusercontent.com/stoltzmaniac/wine-reviews-kaggle/master/winemag-data_first150k.csv'

# Carregar o dataset como um DataFrame
df = pd.read_csv(url)

# Exibir as primeiras linhas do DataFrame
print(df.head())

   Unnamed: 0 country                                        description  \
0           0      US  This tremendous 100% varietal wine hails from ...   
1           1   Spain  Ripe aromas of fig, blackberry and cassis are ...   
2           2      US  Mac Watson honors the memory of a wine once ma...   
3           3      US  This spent 20 months in 30% new French oak, an...   
4           4  France  This is the top wine from La Bégude, named aft...   

                            designation  points  price        province  \
0                     Martha's Vineyard      96  235.0      California   
1  Carodorum Selección Especial Reserva      96  110.0  Northern Spain   
2         Special Selected Late Harvest      96   90.0      California   
3                               Reserve      96   65.0          Oregon   
4                            La Brûlade      95   66.0        Provence   

            region_1           region_2             variety  \
0        Napa Valley               

Tenga en cuenta que cargamos este enorme DataFrame desde un archivo CSV con un solo comando. Y si miras de cerca, verás que ha aparecido una columna adicional, llamada Sin nombre: 0 y que aparentemente no debería estar ahí.

Este método pd.read_csv() tiene muchos parámetros posibles y veremos algunos a continuación. Uno de ellos es especificar que el archivo CSV ya tiene una columna de índice lista para usar y que Pandas no necesita crear una nueva. Para hacer esto, podemos especificar el parámetro index_col que apunta a la columna de índice original, en lugar de que Pandas cree una nueva.

In [None]:
#indicamos que la columna 0 sea el indice del DatFrame
df = pd.read_csv(url, index_col=0)
#imprimimos las primeras líneas del DataFrame
display(df.head())

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,variety,winery
0,US,This tremendous 100% varietal wine hails from ...,Martha's Vineyard,96,235.0,California,Napa Valley,Napa,Cabernet Sauvignon,Heitz
1,Spain,"Ripe aromas of fig, blackberry and cassis are ...",Carodorum Selección Especial Reserva,96,110.0,Northern Spain,Toro,,Tinta de Toro,Bodega Carmen Rodríguez
2,US,Mac Watson honors the memory of a wine once ma...,Special Selected Late Harvest,96,90.0,California,Knights Valley,Sonoma,Sauvignon Blanc,Macauley
3,US,"This spent 20 months in 30% new French oak, an...",Reserve,96,65.0,Oregon,Willamette Valley,Willamette Valley,Pinot Noir,Ponzi
4,France,"This is the top wine from La Bégude, named aft...",La Brûlade,95,66.0,Provence,Bandol,,Provence red blend,Domaine de la Bégude



*   URL: la URL del conjunto de datos.

*   pd.read_csv(url): carga el conjunto de datos desde la URL como un DataFrame.

*   pd.read_csv(url, index_col=0): carga el conjunto de datos URL como un DataFrame indicando que la columna 0 debe usarse como índice del DataFrame.
*   df.head(): muestra las primeras 5 líneas del DataFrame para su visualización inicial.


**Opciones Adicionales para cargar datos CSV**
1. Especificar Separador

In [None]:
df = pd.read_csv(url, sep=';')

2. Definir el Codificador

In [None]:
df = pd.read_csv(url, encoding='utf-8')

3. Manipular nombres de Columnas

In [None]:
# Sin nombres de columnas
df = pd.read_csv(url, header=None)

# Definir columnas personalizadas
df = pd.read_csv(url, names=['Columna1', 'Columna2', 'Column3'])

4. Lidiar con valores Ausentes

In [None]:
df = pd.read_csv(url, na_values=['NA', 'Missing'])

# **Explorando DataFrame Cargado**
Después de cargar el conjunto de datos, es importante echarles un vistazo para comprender su estructura y contenido. Aquí hay algunas funciones útiles para explorar un DataFrame:

1. Exibir las primeras e últimas líneas

In [None]:
display(df.head())  # Primeiras 5 linhas
display(df.tail())  # Últimas 5 linhas

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,variety,winery
0,US,This tremendous 100% varietal wine hails from ...,Martha's Vineyard,96,235.0,California,Napa Valley,Napa,Cabernet Sauvignon,Heitz
1,Spain,"Ripe aromas of fig, blackberry and cassis are ...",Carodorum Selección Especial Reserva,96,110.0,Northern Spain,Toro,,Tinta de Toro,Bodega Carmen Rodríguez
2,US,Mac Watson honors the memory of a wine once ma...,Special Selected Late Harvest,96,90.0,California,Knights Valley,Sonoma,Sauvignon Blanc,Macauley
3,US,"This spent 20 months in 30% new French oak, an...",Reserve,96,65.0,Oregon,Willamette Valley,Willamette Valley,Pinot Noir,Ponzi
4,France,"This is the top wine from La Bégude, named aft...",La Brûlade,95,66.0,Provence,Bandol,,Provence red blend,Domaine de la Bégude


Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,variety,winery
150925,Italy,Many people feel Fiano represents southern Ita...,,91,20.0,Southern Italy,Fiano di Avellino,,White Blend,Feudi di San Gregorio
150926,France,"Offers an intriguing nose with ginger, lime an...",Cuvée Prestige,91,27.0,Champagne,Champagne,,Champagne Blend,H.Germain
150927,Italy,This classic example comes from a cru vineyard...,Terre di Dora,91,20.0,Southern Italy,Fiano di Avellino,,White Blend,Terredora
150928,France,"A perfect salmon shade, with scents of peaches...",Grand Brut Rosé,90,52.0,Champagne,Champagne,,Champagne Blend,Gosset
150929,Italy,More Pinot Grigios should taste like this. A r...,,90,15.0,Northeastern Italy,Alto Adige,,Pinot Grigio,Alois Lageder


2. Obtener Información del DataFrame

In [None]:
display(df.info())

<class 'pandas.core.frame.DataFrame'>
Index: 150930 entries, 0 to 150929
Data columns (total 10 columns):
 #   Column       Non-Null Count   Dtype  
---  ------       --------------   -----  
 0   country      150925 non-null  object 
 1   description  150930 non-null  object 
 2   designation  105195 non-null  object 
 3   points       150930 non-null  int64  
 4   price        137235 non-null  float64
 5   province     150925 non-null  object 
 6   region_1     125870 non-null  object 
 7   region_2     60953 non-null   object 
 8   variety      150930 non-null  object 
 9   winery       150930 non-null  object 
dtypes: float64(1), int64(1), object(8)
memory usage: 12.7+ MB


None

3. Describir estadísticas de los Datos

In [None]:
display(df.describe())

Unnamed: 0,points,price
count,150930.0,137235.0
mean,87.888418,33.131482
std,3.222392,36.322536
min,80.0,4.0
25%,86.0,16.0
50%,88.0,24.0
75%,90.0,40.0
max,100.0,2300.0


# **Indexación, selección y asignación**

Accediendo a columnas en un marco de datos
Hay varias formas de acceder a las columnas de un DataFrame. Los más comunes son:

- Usando notación de puntos: df.coluna
- Usando corchetes simples: df['columna']
- Uso de corchetes dobles para seleccionar varias columnas: df[['columna1', 'columna2']]

**1. Usando Notación de puntos**

La notación de puntos es una forma rápida y cómoda de acceder a una columna. Sin embargo, solo funciona si el nombre de la columna no contiene espacios y no entra en conflicto con los métodos internos de DataFrame.

In [None]:
import pandas as pd

# Creando un DataFrame de ejemplo
datos = {
    'Nombre': ['Ana', 'Bruno', 'Carlos'],
    'Edad': [23, 34, 45],
    'Ciudad': ['São Paulo', 'Rio de Janeiro', 'Belo Horizonte']
}

df = pd.DataFrame(datos)

# Accediendo a la columna Nombre con notación de punto
display(df.Nombre)

0       Ana
1     Bruno
2    Carlos
Name: Nombre, dtype: object

df.Nombre accede a la columna 'Nombre' del DataFrame df

**2. Usando Corchetes Simples (df['coluna'])**

Esta es la forma más común y versátil de acceder a las columnas, especialmente cuando los nombres de las columnas contienen espacios o caracteres especiales.

In [None]:
#accediendo a columna edad usando corchetes simples
display(df['Edad'])

0    23
1    34
2    45
Name: Edad, dtype: int64

**3. Usando Corchetes dobles para seleccionar varias columnas (df[['coluna1', 'coluna2']])**

Para seleccionar varias columnas, debe utilizar corchetes dobles. Esto devuelve un nuevo DataFrame que contiene solo las columnas especificadas.

In [None]:
#accediendo múltiples columnas 'Nombre', 'Edad' usando corchetes dobles
display(df[['Nombre', 'Ciudad']])

Unnamed: 0,Nombre,Ciudad
0,Ana,São Paulo
1,Bruno,Rio de Janeiro
2,Carlos,Belo Horizonte


Comparación entre los Métodos

- df.coluna: Simple y conveniente, pero con limitaciones (no funciona si el nombre de la columna contiene espacios o caracteres especiales).

- df['columna']: Más versátil y recomendable, funciona en todas las situaciones.

-df[['coluna1', 'coluna2']]: Se utiliza para seleccionar varias columnas y devolver un nuevo DataFrame.