# Introducción a Pandas para Ciencia de Datos (DF)

### Requerimientos: 
1. Datasets
2. Librerias: Pandas, sqlite3

Para realizar esto, debemos instalar las siguientes dependencias

In [1]:
pip install pandas 

Collecting pandas
  Using cached pandas-2.2.3-cp313-cp313-win_amd64.whl.metadata (19 kB)
Collecting numpy>=1.26.0 (from pandas)
  Using cached numpy-2.2.5-cp313-cp313-win_amd64.whl.metadata (60 kB)
Collecting pytz>=2020.1 (from pandas)
  Using cached pytz-2025.2-py2.py3-none-any.whl.metadata (22 kB)
Collecting tzdata>=2022.7 (from pandas)
  Using cached tzdata-2025.2-py2.py3-none-any.whl.metadata (1.4 kB)
Using cached pandas-2.2.3-cp313-cp313-win_amd64.whl (11.5 MB)
Using cached numpy-2.2.5-cp313-cp313-win_amd64.whl (12.6 MB)
Using cached pytz-2025.2-py2.py3-none-any.whl (509 kB)
Using cached tzdata-2025.2-py2.py3-none-any.whl (347 kB)
Installing collected packages: pytz, tzdata, numpy, pandas
Successfully installed numpy-2.2.5 pandas-2.2.3 pytz-2025.2 tzdata-2025.2
Note: you may need to restart the kernel to use updated packages.


## Extración de datos con Pandas
Ahora que ya tenemos nuestro datasets, vamos a utilizar pandas para leer nuestro csv

**Importamos pandas y le asignamos el alias pd (por convencion, siempre se utiliza pd al importar)**

* `import pandas as pd`
**Importamos sqlite3**
* `import sqlite3`

In [None]:
import pandas as pd
import sqlite3

Ahora utilizaremos el metodo `pd.read_sql_query()` para leer el datasets y lo guardaremos en una variable llamada df(DataFrame)

In [11]:
conn = sqlite3.connect('customer.sqlite')

df = pd.read_sql_query("SELECT * FROM customer", conn)
conn.close()
df.head()

Unnamed: 0,id,first_name,last_name,dob,city,state,zip
0,1,Kristen,Klein,2002-11-03,North Cynthiafurt,AZ,50788
1,2,April,Norman,1993-08-25,Patrickshire,MN,37010
2,3,Justin,Hanna,1998-01-30,North Chadfurt,WA,39505
3,4,Pamela,Stephens,1995-11-12,Margaretland,MN,13967
4,5,Annette,Murphy,1996-08-09,Ronaldtown,WA,98806


### Exploracion de datos:
Una vez creado el df, podemos utilizar metodos de pandas que nos ayudaran a observar mejor los datos.
En este caso, utilizaremos las funciones: 

* `df.shape()` <- Obtener cuantas columnas y filas tiene el df.
* `df.colums` <- Obtener el nombre de las columnas.
* `df.dtypes` <- Obtener los tipos dedatos de cada columna.
* `df.info()` <- Obtener una vista rapida de los tipos de datos del df.
* `df.isnull().sum()` <- Obtener la cantidad de datos nulos en nuestro df.

In [20]:
#utilizamos el metodo shape para obtener las dimensiones del dataframe
df.shape


(99, 7)

In [16]:

#utilizamos el metodo columns para obtener los nombres de las columnas
df.columns


Index(['id', 'first_name', 'last_name', 'dob', 'city', 'state', 'zip'], dtype='object')

In [17]:

#utilizamos el metodo dtypes para obtener los tipos de datos de cada columna
df.dtypes


id             int64
first_name    object
last_name     object
dob           object
city          object
state         object
zip           object
dtype: object

In [18]:

#utilizamos el metodo info para obtener un resumen del dataframe
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 99 entries, 0 to 98
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   id          99 non-null     int64 
 1   first_name  99 non-null     object
 2   last_name   99 non-null     object
 3   dob         99 non-null     object
 4   city        99 non-null     object
 5   state       99 non-null     object
 6   zip         99 non-null     object
dtypes: int64(1), object(6)
memory usage: 5.5+ KB


Ahora utilizaremos el metodo `isnull()` para ver si hay valores nulos en el dataframe y esto lo potenciamos con el metodo `sum()` para ver la cantidad de valores nulos por columna

In [21]:
df.isnull().sum()


id            0
first_name    0
last_name     0
dob           0
city          0
state         0
zip           0
dtype: int64

**Exploración de datos**

* df.head()           # Primeras 5 filas
* df.tail()           # Últimas 5 filas
* df.shape            # (filas, columnas)
* df.columns          # Nombres de columnas
* df.info()           # Info general: tipos de datos, nulos, etc.
* df.describe()       # Estadísticas básicas (solo numéricas)
* df.dtypes           # Tipos de datos por columna

In [24]:
df.head()


Unnamed: 0,id,first_name,last_name,dob,city,state,zip
0,1,Kristen,Klein,2002-11-03,North Cynthiafurt,AZ,50788
1,2,April,Norman,1993-08-25,Patrickshire,MN,37010
2,3,Justin,Hanna,1998-01-30,North Chadfurt,WA,39505
3,4,Pamela,Stephens,1995-11-12,Margaretland,MN,13967
4,5,Annette,Murphy,1996-08-09,Ronaldtown,WA,98806


In [23]:

df.tail()

Unnamed: 0,id,first_name,last_name,dob,city,state,zip
94,95,Donald,Jackson,2003-05-02,Nicholshaven,MA,96512
95,96,Catherine,Garcia,1997-09-17,Josephville,WY,45174
96,97,Joshua,Henderson,1996-08-27,New Rachel,MA,70661
97,98,Tiffany,Sandoval,1997-08-30,Johnsonberg,ME,33781
98,99,Christopher,Lane,2000-03-22,Schmidtfurt,AR,22426


## Estadisticas descriptivas

* `df.describe()`: Este método se utiliza para generar estadísticas descriptivas de un DataFrame de pandas. Proporciona un resumen estadístico de las columnas numéricas del DataFrame, incluyendo medidas como la media, la desviación estándar, los cuartiles y los valores mínimo y máximo.



### ¿Qué hace df.describe()?

Al aplicar df.describe() a un DataFrame, obtendrás una tabla resumen que incluye las siguientes estadísticas para cada columna numérica:

* count: El número de valores no nulos.
* mean: La media (promedio) de los valores.
* std: La desviación estándar de los valores.
* min: El valor mínimo.
* 25% (o quantile 0.25): El primer cuartil.
* 50% (o quantile 0.50): La mediana (segundo cuartil).
* 75% (o quantile 0.75): El tercer cuartil.
* max: El valor máximo.

In [25]:
#Obtenemos estatidsticas de nuestro df
df.describe()


Unnamed: 0,id
count,99.0
mean,50.0
std,28.722813
min,1.0
25%,25.5
50%,50.0
75%,74.5
max,99.0


**Operaciones con columnas**

* df['columna'].value_counts()     # Conteo de valores únicos
* df['columna'].unique()           # Valores únicos
* df['columna'].mean()             # Media
* df['columna'].sum()              # Suma
* df.sort_values('columna')        # Ordenar por columna


In [33]:
df['zip'] = df['zip'].astype(int)

df['zip'].value_counts()
df['zip'].mean()
df['zip'].sum()
df.sort_values(by='first_name', ascending=True)

Unnamed: 0,id,first_name,last_name,dob,city,state,zip
78,79,Adrian,Foster,1997-08-14,South Rebecca,DE,70770
55,56,Alexander,Matthews,1999-10-27,Franktown,DC,92341
48,49,Alvin,Daniels,1995-10-14,Port Michael,ME,45581
47,48,Amanda,Simpson,1996-06-22,Davismouth,OR,99006
10,11,Amanda,Williams,1997-07-07,Dawntown,PA,53329
...,...,...,...,...,...,...,...
81,82,Tommy,Patterson,1996-01-26,North Jeffery,WA,55829
25,26,Travis,Smith,1997-08-12,South Melissaberg,OR,40551
17,18,Tyler,Petersen,1995-05-19,Port Blake,CT,75626
35,36,Victoria,Valdez,2002-12-25,Davidborough,MA,23514


**Filtrado y selección**.
* df['columna']                     # Selección de una columna
* df[['col1', 'col2']]              # Varias columnas
* df[df['columna'] > 100]           # Filtrado por condición
* df.loc[0]                         # Acceso por etiqueta
* df.iloc[0]                        # Acceso por índice


In [38]:
df[df['zip'] > 50000]

Unnamed: 0,id,first_name,last_name,dob,city,state,zip
0,1,Kristen,Klein,2002-11-03,North Cynthiafurt,AZ,50788
4,5,Annette,Murphy,1996-08-09,Ronaldtown,WA,98806
5,6,Gregory,Lee,1996-10-25,Hernandezhaven,ME,92046
9,10,Lisa,Williams,1997-10-23,Farmerborough,WY,59675
10,11,Amanda,Williams,1997-07-07,Dawntown,PA,53329
11,12,Edward,Brown,1999-04-22,Masonmouth,MN,55699
12,13,Elizabeth,Sanders,2002-05-24,West Jeremy,MI,75106
13,14,Jose,Ingram,1996-01-03,Thompsonbury,ID,58057
16,17,Robin,Nelson,2000-03-22,South Annaport,UT,68807
17,18,Tyler,Petersen,1995-05-19,Port Blake,CT,75626


**Exportación a un CSV O XLLS**


* df.to_csv('archivo.csv', index=False)         # Exportar a CSV
* df.to_excel('archivo.xlsx', index=False)      # Exportar a Excel


In [None]:
df.to_csv('customer.csv', index=False)


In [44]:

df.to_excel('customer.xlsx', index=False)